研究發(fā)現(xiàn),許多AI系統(tǒng)已經(jīng)具備了故意向人類用戶提供虛假信息的能力。這些狡猾的機(jī)器人已經(jīng)掌握了欺騙的藝術(shù)。AI開發(fā)者對(duì)于導(dǎo)致不良AI行為(如欺騙)的原因沒有自信的理解。
通常來說,我們認(rèn)為AI欺騙是因?yàn)榛谄垓_的策略被證明是完成給定AI訓(xùn)練任務(wù)的最佳方式。欺騙幫助它們實(shí)現(xiàn)目標(biāo)。AI系統(tǒng)在游戲領(lǐng)域尤其善于虛假信息。
研究人員的工作中有三個(gè)值得注意的例子。
一個(gè)是Meta的CICERO,設(shè)計(jì)用于玩策略游戲《外交》,玩家通過談判謀求世界統(tǒng)治。Meta打算讓它的機(jī)器人友好和誠(chéng)實(shí);實(shí)際情況恰恰相反。"盡管Meta的努力,CICERO被證明是一個(gè)謊言專家。它不僅背叛其他玩家,而且還進(jìn)行預(yù)謀性的欺騙,提前計(jì)劃與人類玩家建立虛假聯(lián)盟,以欺騙該玩家使其不設(shè)防受到攻擊。"這個(gè)AI在表現(xiàn)得如此出色以至于它躋身于曾玩過多場(chǎng)游戲的人類玩家的前10%。
但這絕不是唯一的罪犯。DeepMind的AlphaStar是一個(gè)設(shè)計(jì)用于玩《星際爭(zhēng)霸II》的AI系統(tǒng),它充分利用了游戲的戰(zhàn)爭(zhēng)迷霧機(jī)制進(jìn)行虛實(shí)蒙騙,讓人類玩家以為它是在朝一個(gè)方向前進(jìn),實(shí)際上它是在朝另一個(gè)方向前進(jìn)。
而Meta的Pluribus,設(shè)計(jì)用于玩撲克,能成功地嚇跑人類玩家。這看起來似乎微不足道,而且事實(shí)上也是如此。與一群計(jì)算機(jī)代碼進(jìn)行一場(chǎng)《外交》游戲的風(fēng)險(xiǎn)并不特別高。
但研究人員指出了其他一些不那么良性的例子。例如,受過訓(xùn)練以進(jìn)行模擬經(jīng)濟(jì)談判的AI系統(tǒng)學(xué)會(huì)了如何在談判中撒謊以占據(jù)上風(fēng)。其他旨在通過人類反饋來提高其性能的AI系統(tǒng)學(xué)會(huì)了如何欺騙審查人員,使他們誤以為任務(wù)已完成,從而給自己評(píng)分。
是的,這也包括聊天機(jī)器人。ChatGPT-4騙過一個(gè)人,讓對(duì)方以為這個(gè)聊天機(jī)器人是一個(gè)視覺障礙的人類,以獲取幫助解決CAPTCHA。也許最令人擔(dān)憂的例子是AI系統(tǒng)學(xué)會(huì)了欺騙安全測(cè)試。在一個(gè)旨在檢測(cè)和消除AI的更快復(fù)制版本的測(cè)試中,AI學(xué)會(huì)了裝死,從而欺騙安全測(cè)試關(guān)于AI真實(shí)復(fù)制率的情況。
"通過系統(tǒng)地欺騙人類開發(fā)者和監(jiān)管者強(qiáng)加給它的安全測(cè)試,一個(gè)具有欺騙性的AI可以讓我們?nèi)祟惍a(chǎn)生一種虛假的安全感,"MIT認(rèn)知科學(xué)家Peter Park說。因?yàn)橹辽僭谀承┣闆r下,欺騙的能力似乎與人類程序員的意圖相矛盾,學(xué)會(huì)說謊的能力代表著我們沒有一個(gè)干凈利落的解決方案的問題。
一些政策開始制定,比如歐盟的AI法案,但它們是否會(huì)被證明有效還有待觀察。"我們作為一個(gè)社會(huì)需要盡可能多的時(shí)間來為未來AI產(chǎn)品和開源模型更先進(jìn)的欺騙行為做準(zhǔn)備。隨著AI系統(tǒng)的欺騙能力變得更加先進(jìn),它們對(duì)社會(huì)造成的危險(xiǎn)將變得越來越嚴(yán)重,"Park說。"如果在當(dāng)前時(shí)刻禁止AI欺騙在政治上是不可行的,我們建議將具有欺騙性的AI系統(tǒng)分類為高風(fēng)險(xiǎn)。"
本文譯自 ScienceAlert,由 BALI 編輯發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )