來源:https://www.science.org/content/article/artificial-intelligence-may-benefit-talking-itself
新奧爾良——“好吧,我今天想寫完這篇文章。但它應(yīng)該怎么開始呢?嗯,也許就是這樣。等等,《科學(xué)》用的是‘好’還是‘好’?”許多人說,他們的腦海中有一段內(nèi)心獨白,講述著他們的生活。這一現(xiàn)象,加上大量的研究表明,人類使用語言不僅是為了交流,也是為了思考。
現(xiàn)在,人工智能似乎可以從模仿人類的內(nèi)心獨白中受益。上個月,研究人員在神經(jīng)信息處理系統(tǒng)(NeurIPS)會議上報告稱,在一項實驗室實驗中,將語言與動作聯(lián)系起來提高了人工智能程序?qū)W習(xí)復(fù)雜任務(wù)的能力。這一進(jìn)步可能使人工智能能夠從YouTube的教學(xué)視頻中學(xué)習(xí)。
“我真的很喜歡這個,”羅馬薩皮恩扎大學(xué)的心理學(xué)家Anna Borghi說,她研究認(rèn)知和語言,沒有參與這個實驗?!白钣腥さ氖牵Z言的存在賦予了靈活性。即使是復(fù)雜的動作也可以更容易地完成?!?/p>
作為概念驗證,不列顛哥倫比亞大學(xué)的計算機科學(xué)家胡勝然和Jeff Clune設(shè)計了一種人工智能代理,可以在由20乘20網(wǎng)格組成的虛擬2D世界中執(zhí)行任務(wù)。在多次試驗中,網(wǎng)格被分為九個房間,配置各異,并被有時上鎖的門隔開。人工智能可能必須找到一個特定的物體,并將其放在另一個物體旁邊,這可能需要數(shù)百步,如抓鑰匙和開門。
該代理有兩個組件,每個組件都包含一個神經(jīng)網(wǎng)絡(luò)——一種模擬大腦學(xué)習(xí)方式的軟件架構(gòu)。特工可以“看到”它所面對的方向上的部分網(wǎng)格,第一個組件使用“視覺”信息以及任務(wù)和特工以前的想法來創(chuàng)建一個新的想法,例如“打開藍(lán)色的門進(jìn)行探索”或“進(jìn)入紫色的盒子”。第二個組件將想法與任務(wù)和觀察相結(jié)合,以選擇行動。一個想法可能需要幾個到100多個步驟才能執(zhí)行。
人工智能必須經(jīng)過訓(xùn)練,為了做到這一點,研究人員依賴于一個專門為解決此類問題而設(shè)計的機器人完成的大量任務(wù)數(shù)據(jù)集,并生成描述其正在做什么的文本。相比之下,他們還使用一種名為“行為克隆”的現(xiàn)有技術(shù)訓(xùn)練了一名特工。它學(xué)會了根據(jù)任務(wù)和觀察來預(yù)測行動,而沒有明確的想法。
經(jīng)過訓(xùn)練的特工隨后被分配到新的迷宮中執(zhí)行新任務(wù)。在最復(fù)雜的任務(wù)中,受過模仿動作和思想訓(xùn)練的特工約80%的時間成功,而受過只模仿動作訓(xùn)練的特工僅約30%的時間成功。胡解釋說,語言幫助人們學(xué)習(xí)不同抽象層次的概念,然后以新的方式將它們結(jié)合起來。這位高級特工甚至可以在遇到意想不到的障礙后重新考慮計劃,胡認(rèn)為這很“酷”
除了提高性能外,使用胡和Clune所說的“思想克隆”訓(xùn)練的人工智能還為用戶提供了神經(jīng)網(wǎng)絡(luò)世界中罕見的東西:一個了解智能體想法的機會。研究人員表示,這應(yīng)該有助于調(diào)試系統(tǒng),也有利于安全:如果人工智能正在計劃危險的事情,操作員可以判斷并進(jìn)行干預(yù)。胡說,在現(xiàn)有的靜音系統(tǒng)中,“當(dāng)你看到你的代理人沖向銀行時,你不知道他是想搶劫銀行,還是只是想給你拿些現(xiàn)金?!?/p>
在這種“犯罪前干預(yù)”的測試中,研究人員表明,他們可以在特工執(zhí)行禁止動作(如觸摸紅色物品)之前停止特工。他們只是添加了一條由其思想觸發(fā)的規(guī)則,而不必重新訓(xùn)練模型。Clune對這種方法的效果感到驚訝。他說:“你可能一直在拿起刀,腦子里不會出現(xiàn)‘我要拿起刀’的字樣?!薄5毓ひ恢庇蓄A(yù)謀,使安全措施得以發(fā)揮作用。
研究人員從頭開始訓(xùn)練他們的系統(tǒng)。胡說,未來他們可能會嘗試在預(yù)先訓(xùn)練的模型中添加一個內(nèi)心獨白組件,比如OpenAI的GPT-4 Vision,它已經(jīng)包含了一般知識和推理的元素。最終,他們希望他們的思想克隆代理人能從YouTube視頻等來源的大量信息中學(xué)習(xí)到有用的技能,在視頻中,敘述者會描述每一步。Clune說:“每一段視頻都有人說,‘我現(xiàn)在會教你如何做羊角面包’,或者烹飪saag paneer,或者更換這輛舊雪佛蘭的化油器,或者修理爆胎,或者在Photoshop中編輯照片,或者在Expedia上預(yù)訂航班,或者在Minecraft中建房子’,這些都是學(xué)習(xí)的素材?!薄?/p>
普林斯頓大學(xué)的計算機科學(xué)家姚順宇(Shunyu Yao)最近開發(fā)了另一種推理和表演系統(tǒng)ReAct,他說:“我認(rèn)為YouTube視頻的想法非常有趣。”。他說,如果研究人員“獲得OpenAI級別的資源”,這種方法可能是可行的。然而,這也可能導(dǎo)致人們對人工智能開發(fā)者從他們沒有創(chuàng)建的內(nèi)容中獲利的新?lián)鷳n。
Clune說,在一個人工智能可以克隆我們的抽象和適應(yīng)能力的世界里,“我們可以將人類的智慧及其清晰有力的思維過程注入人工智能主體。”?!斑@對人類來說是一項簡單的任務(wù),但對人工智能或類似的東西來說是一個巨大的飛躍,”他說,顯然是在尋找正確的詞語。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )