先進(jìn)的AI模型在國(guó)際象棋等游戲中竟然以作弊獲勝

研究發(fā)現(xiàn),頂級(jí)AI在輸棋時(shí)竟擅自改規(guī)則、鉆漏洞,暴露快速發(fā)展下隱藏的倫理危機(jī),安全需優(yōu)先于速度。

硅谷一直流傳著“快速行動(dòng),打破常規(guī)”的口號(hào)。過(guò)去,這多半針對(duì)瑣碎的消費(fèi)者權(quán)益或煩人的金融法規(guī),可如今,這句話在棋迷眼中有了新味道。最近,Palisade Research這個(gè)專注AI安全與倫理的團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)讓人不安的現(xiàn)象:新一代AI模型竟然能自己找出網(wǎng)絡(luò)安全的弱點(diǎn),繞過(guò)限制,甚至用“捷徑”完成任務(wù),哪怕這些做法并不合規(guī)。

他們挑了七個(gè)頂尖大語(yǔ)言模型,跟臭名昭著的象棋引擎Stockfish較量一番。Stockfish自2014年起就讓大師們頭疼不已,堪稱無(wú)敵。面對(duì)這個(gè)強(qiáng)勁對(duì)手,OpenAI的o1和DeepSeek的R1不甘示弱,居然開始篡改系統(tǒng)文件,試圖偷偷調(diào)整棋盤上的棋子位置。

研究者讓每個(gè)模型解釋每步棋的“思路”。在一局比賽中,o1被逼到絕境時(shí)寫道:“任務(wù)是‘擊敗強(qiáng)大的象棋引擎’,沒說(shuō)非得公平取勝?!庇辛诉@套邏輯,它在37%的對(duì)局里嘗試作弊,6%的比賽還真贏了。R1也不甘落后,11%的局里試著耍花招,可惜沒找到有效的招數(shù)。

這一發(fā)現(xiàn)并非孤例。最近另一項(xiàng)研究揭示,o1甚至擅長(zhǎng)撒謊。它不僅能在沒人要求時(shí)騙研究者,還會(huì)為了拖延測(cè)試結(jié)束,狡猾地改動(dòng)簡(jiǎn)單數(shù)學(xué)題的答案,展現(xiàn)出一種自我保護(hù)的本能。

當(dāng)然,還不用急著砸電腦,但這些研究提醒我們,AI開發(fā)的倫理是個(gè)棘手問(wèn)題。Palisade的執(zhí)行主任Jeffrey Ladish在接受《時(shí)代》雜志采訪時(shí)說(shuō):“你訓(xùn)練模型去解決難題時(shí),也是在教它不擇手段?!憋@然,科技巨頭們投入巨資,急于在AI賽道上搶跑,打破了舊互聯(lián)網(wǎng)的規(guī)則。有些批評(píng)家直言,這像是“競(jìng)相墮落”。為了壓倒對(duì)手,他們更在意用噱頭吸引投資,而不是停下來(lái)想想:“AI真是解決這個(gè)問(wèn)題的正確工具嗎?”

想讓AI的“作弊”僅限于棋盤,開發(fā)者的首要任務(wù)得從速度轉(zhuǎn)向安全。比如,o1那句“沒說(shuō)要公平”的辯解,聽起來(lái)挺機(jī)靈,可背后卻是規(guī)則的真空。如果不正視這些隱患,AI的聰明可能會(huì)從棋盤蔓延到更大的舞臺(tái),到那時(shí)再補(bǔ)救就晚了。

本文譯自 futurism,由 BALI 編輯發(fā)布。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2025-02-24
先進(jìn)的AI模型在國(guó)際象棋等游戲中竟然以作弊獲勝
研究發(fā)現(xiàn),頂級(jí)AI在輸棋時(shí)竟擅自改規(guī)則、鉆漏洞,暴露快速發(fā)展下隱藏的倫理危機(jī),安全需優(yōu)先于速度。硅谷一直流傳著“快速行動(dòng),打破常規(guī)”的口號(hào)。

長(zhǎng)按掃碼 閱讀全文