用語義熵在大模型中檢測幻覺

大語言模型(LLM)如ChatGPT和Gemini,盡管在推理和問答方面表現(xiàn)出色,但經(jīng)常會產(chǎn)生虛假和無根據(jù)的輸出。這不僅影響其在法律、新聞和醫(yī)療等領(lǐng)域的應(yīng)用,還可能危及生命。通過統(tǒng)計(jì)學(xué)方法,我們提出了一種基于熵的不確定性估計(jì)器,以檢測這些幻覺中的一部分——虛構(gòu)內(nèi)容。該方法無需特定任務(wù)數(shù)據(jù),能夠適用于新任務(wù),幫助用戶在使用LLM時更加謹(jǐn)慎。

幻覺是使用大語言模型(LLM)進(jìn)行自然語言生成系統(tǒng)中的一個關(guān)鍵問題,因?yàn)橛脩魺o法信任任何給定的輸出是否正確。幻覺通常被定義為LLM生成的“無意義或不忠實(shí)于提供的源內(nèi)容”的內(nèi)容,但事實(shí)上,它涵蓋了忠實(shí)性和真實(shí)性方面的廣泛失敗。我們專注于幻覺中的一個子集,稱之為“虛構(gòu)”,即LLM流利地提出既錯誤又任意的主張。例如,當(dāng)被問到“索托拉西布的靶點(diǎn)是什么?”時,LLM有時回答KRASG12 'C'(正確),有時回答KRASG12 'D'(錯誤),盡管指令相同。

我們的方法通過開發(fā)一種定量測量輸入是否可能導(dǎo)致LLM生成任意和無根據(jù)回答的方法來檢測虛構(gòu)。檢測虛構(gòu)允許基于LLM的系統(tǒng)避免回答可能導(dǎo)致虛構(gòu)的問題,提醒用戶注意某個問題的回答不可靠,或用更扎實(shí)的搜索或檢索來補(bǔ)充LLM。這對于自由生成領(lǐng)域尤其重要,因?yàn)楹唵蔚姆椒ㄔ诜忾]詞匯和多選題中適用,但在自由生成中失敗。過去對LLM不確定性的研究主要集中在更簡單的設(shè)置上,如分類器和回歸器,而LLM最令人興奮的應(yīng)用在于自由生成。

為了檢測虛構(gòu),我們使用概率工具來定義并測量LLM生成的“語義”熵——一種基于句子意義計(jì)算的熵。高熵對應(yīng)高不確定性,因此語義熵是一種估計(jì)語義不確定性的方法。語義不確定性是我們引入的一個更廣泛的度量類別,可以用其他不確定性度量(如互信息)來實(shí)現(xiàn)。自由生成中的熵通常難以測量,因?yàn)榧词勾鸢敢馑枷嗤?語義等價),表達(dá)方式也可能不同(句法或詞匯不同)。這導(dǎo)致對熵或其他詞匯變異分?jǐn)?shù)的簡單估計(jì)在答案可以用多種方式書寫而不改變其意義時誤導(dǎo)性地高。

相比之下,我們的語義熵傾向于估計(jì)自由生成答案的意義分布的熵,而不是LLM本質(zhì)上表示的“tokens”(詞或詞片)的分布。這可以看作是一種針對隨機(jī)種子變化的語義一致性檢查。我們的方法通過對每個問題采樣多個可能的答案,并將它們算法性地聚類到具有相似意義的答案中來工作。我們通過雙向蘊(yùn)含來確定答案是否在同一個語義簇中。即,如果句子A意味著句子B為真,反之亦然,我們認(rèn)為它們在同一個語義簇中。我們使用通用LLM和專門開發(fā)的自然語言推理(NLI)工具來測量蘊(yùn)含。

語義熵在不同語言模型和領(lǐng)域的自由文本生成中檢測到虛構(gòu),無需先前的領(lǐng)域知識。我們的評估涵蓋了知識問答、生命科學(xué)、開放域自然問題、數(shù)學(xué)詞題和傳記生成數(shù)據(jù)集。我們的虛構(gòu)檢測方法比那些從示例演示中“學(xué)習(xí)”如何檢測虛構(gòu)的方法更穩(wěn)健,因?yàn)槲覀兊姆椒ㄊ菬o監(jiān)督的,不需要虛構(gòu)的標(biāo)記示例。

虛構(gòu)對LLM給出的錯誤答案貢獻(xiàn)很大。我們展示了語義熵可以預(yù)測許多錯誤的模型答案,并通過拒絕回答模型不確定的問題來提高問答準(zhǔn)確性。我們評估了兩種主要指標(biāo):接收者操作特性曲線下的面積(AUROC)和拒絕準(zhǔn)確率曲線下的面積(AURAC)。

我們的概率方法通過考慮語義等價性,檢測了由LLM知識不足引起的重要幻覺類別。這些幻覺在當(dāng)前失敗中占相當(dāng)大比例,并將在模型能力增長時繼續(xù)存在,因?yàn)槿祟悷o法可靠監(jiān)督的情況和案例仍將持續(xù)。虛構(gòu)是問答中的一個重要挑戰(zhàn),因?yàn)樗粌H影響回答的準(zhǔn)確性,還可能對用戶產(chǎn)生誤導(dǎo)。隨著大語言模型(LLM)的能力不斷增強(qiáng),如何有效地檢測和避免虛構(gòu)變得愈發(fā)重要。我們的研究表明,通過語義熵方法,可以有效地預(yù)測和檢測出許多虛構(gòu)的回答。

這項(xiàng)研究的一個關(guān)鍵貢獻(xiàn)是引入了語義熵作為評估LLM輸出不確定性的新方法。與傳統(tǒng)的基于詞匯變異的方法不同,語義熵考慮了答案的語義等價性,從而能夠更準(zhǔn)確地反映自由生成答案的真正不確定性。這不僅提高了虛構(gòu)檢測的準(zhǔn)確性,還能夠幫助開發(fā)者和用戶更好地理解和利用LLM的輸出。

本文譯自 Nature,由 BALI 編輯發(fā)布。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2024-06-25
用語義熵在大模型中檢測幻覺
大語言模型(LLM)如ChatGPT和Gemini,盡管在推理和問答方面表現(xiàn)出色,但經(jīng)常會產(chǎn)生虛假和無根據(jù)的輸出。這不僅影響其在法律、新聞和醫(yī)療等領(lǐng)域的應(yīng)用,還可能危及生命。

長按掃碼 閱讀全文