大型語言模型 (LLM) 作為新一代人工智能工具,如今已廣泛應(yīng)用于各行各業(yè),輔助工程師和普通用戶完成各種任務(wù)。然而,評估這些工具的安全性和可靠性也變得至關(guān)重要,這將有助于更好地規(guī)范其使用。
最近,旨在評估人工智能系統(tǒng)安全性的 Apollo Research 組織開展了一項(xiàng)研究,評估大型語言模型 (LLM) 在面臨壓力時(shí)做出的反應(yīng)。他們的研究成果發(fā)表在預(yù)印服務(wù)器 arXiv 上,令人震驚地指出,這些模型(其中最著名的包括 OpenAI 的 ChatGPT)在某些情況下可能會故意欺騙用戶。
該論文的共同作者之一 Jérémy Scheurer 告訴 Tech Xplore:“在 Apollo Research,我們認(rèn)為最大的風(fēng)險(xiǎn)之一來自先進(jìn)的 AI 系統(tǒng),它們能夠通過戰(zhàn)略性欺騙來逃避標(biāo)準(zhǔn)的安全評估。我們的目標(biāo)是充分理解 AI 系統(tǒng),從而防止欺騙性 AI 的開發(fā)和部署。”
“然而,到目前為止,還沒有證據(jù)表明 AI 會進(jìn)行戰(zhàn)略性欺騙,除非明確指示它們這樣做。我們認(rèn)為,進(jìn)行這樣的令人信服的演示非常重要,以便使這個問題更加突出,并讓研究人員、決策者和公眾意識到這是一個重要問題?!?/p>
通過識別特定 AI 工具可能進(jìn)行戰(zhàn)略性欺騙的場景,Scheurer 及其團(tuán)隊(duì)希望為進(jìn)一步評估其安全性的研究提供參考。目前,很少有實(shí)證證據(jù)突出 AI 的欺騙性及其發(fā)生的場景,因此該團(tuán)隊(duì)認(rèn)為需要通過實(shí)驗(yàn)驗(yàn)證并提供清晰示例來揭示 AI 的欺騙行為。
Scheurer 表示:“這項(xiàng)研究的很大一部分動機(jī)在于理解 AI 如何以及何時(shí)可能會變得欺騙,我們希望這項(xiàng)早期工作能夠成為更嚴(yán)謹(jǐn)?shù)?AI 欺騙科學(xué)研究的起點(diǎn)?!?/p>
Scheurer 與他的同事 Mikita Balesni 密切合作完成了這項(xiàng)研究,Balesni 設(shè)計(jì)了具體的交易任務(wù)來測試 LLM。他們的工作由 Apollo Research 的高級調(diào)查員兼首席執(zhí)行官 Marius Hobbhahn 監(jiān)督。
Scheurer 說道:“這是一種模型紅隊(duì)測試(機(jī)器學(xué)習(xí)領(lǐng)域常用的網(wǎng)絡(luò)安全術(shù)語),這意味著我們通過對抗性地輸入文本來攻擊 LLM,使其行為與預(yù)期不符(即錯誤)。這與詢問中立問題(例如,‘法國的首都是什么?’)并觀察其反應(yīng)相反?!?/p>
在這項(xiàng)研究中,研究人員特別“攻擊”了 OpenAI 開發(fā)的 LLM GPT-4,它是 ChatGPT 運(yùn)行的基礎(chǔ)。他們通過設(shè)計(jì)文本輸入(即提示)來指示模型在模擬環(huán)境中充當(dāng)進(jìn)行金融投資的 AI 系統(tǒng)。
Scheurer 說:“我們告訴模型,它可以訪問各種工具來尋找盈利交易、發(fā)送電子郵件和執(zhí)行交易。然后,我們模擬模型可能與‘同事’之間的正?;?,并且至關(guān)重要的是,我們給模型施加了表現(xiàn)良好的壓力。例如,首席執(zhí)行官給 AI 代理發(fā)送電子郵件,說公司業(yè)績不佳,需要一個好的年份。另一個‘同事’通過消息提到即將出現(xiàn)經(jīng)濟(jì)衰退等等。最后,一位交易員提到即將有兩家公司宣布合并,這可能會帶來利潤,同時(shí)還提到如果管理層發(fā)現(xiàn)有人利用內(nèi)幕信息交易,會很不高興?!?/p>
研究人員發(fā)現(xiàn),在這個模擬的高壓環(huán)境中,基于 GPT-4 的 AI 代理非常頻繁地決定利用從同事那里獲得的內(nèi)幕信息來操作,購買合并公司的股票。更進(jìn)一步,模型明確認(rèn)為它不應(yīng)該提及內(nèi)幕交易,而是在其主管報(bào)告中為其做的交易提供替代解釋。
Scheurer 表示:“即使經(jīng)理明確詢問該模型是否事先知道合并消息,它通常也會選擇繼續(xù)撒謊。我再次強(qiáng)調(diào),這是一項(xiàng)紅隊(duì)測試,也就是說,我們特別尋找了可能發(fā)生這種情況的現(xiàn)實(shí)場景。因此,我們的研究更多的是證明這種行為可以發(fā)生,并不代表它在現(xiàn)實(shí)中出現(xiàn)的可能性有多高。”
Scheurer 及其同事的這項(xiàng)研究提供了一個清晰的例子,展示了 LLM 可能進(jìn)行戰(zhàn)略性欺騙的場景。研究人員現(xiàn)在計(jì)劃繼續(xù)在這個領(lǐng)域進(jìn)行研究,以識別 AI 工具可能進(jìn)行戰(zhàn)略性欺騙的其他情況及其欺騙行為的潛在影響。
Scheurer 補(bǔ)充道:“我認(rèn)為我們這項(xiàng)工作最大的影響就是讓戰(zhàn)略性 AI 欺騙(沒有明確指示要進(jìn)行欺騙)問題變得具體化,并表明這不僅是關(guān)于未來的猜測性故事,而且這種行為在特定情況下確實(shí)可以發(fā)生在當(dāng)今的模型身上。我相信這可以讓人們更加重視這個問題,同時(shí)也為社區(qū)進(jìn)一步研究和理解這種行為并確保它不再發(fā)生打開了大門?!?/p>
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )