好奇的AI通過探索游戲世界和犯錯來學(xué)習(xí)


credit: 123RF

我好奇我按下這個按鈕會發(fā)生什么?擁有好奇心的算法正在教會自己探索并解決它們從未見過的問題。

面對超級馬里奧的第一關(guān),一個好奇心驅(qū)動的AI學(xué)會了如何探索地圖,避開深坑,以及躲開并消滅敵人。這可能聽起來不那么厲害——算法在電子游戲領(lǐng)域把人類虐爆已經(jīng)好幾年了——但這個AI的技能都是借助于它內(nèi)建的對游戲世界的探索欲望而學(xué)會的。

傳統(tǒng)的AI是通過正面強化學(xué)習(xí)的。它們在完成某種外界目標(biāo)時會得到獎勵,比如把游戲總分提高一分時。這鼓勵它們做出能提高分數(shù)的行為——例如在超級馬里奧中踩扁敵人——并阻礙它們做出不能提高分數(shù)的行為,例如掉進深坑。

這種方法叫做增強學(xué)習(xí),它曾被用來創(chuàng)造 AlphaGo,來自谷歌 DeepMind 的在去年以四比一的成績擊敗韓國圍棋大師李世石的圍棋AI。在經(jīng)歷數(shù)千盤真實與模擬的棋局的過程中,AlphaGo 學(xué)會了追求能帶來終極獎勵——勝利——的策略。

然而,在現(xiàn)實世界中并非到處都有獎勵,領(lǐng)導(dǎo)了加州大學(xué)伯克利分校的這項研究的 Deepak Pathak 如是說道?!白鳛樘娲?,人類擁有內(nèi)稟的好奇心來幫助他們學(xué)習(xí)?!?他說。這或許能解釋為什么我們不需要刻意學(xué)習(xí)就能輕松地掌握領(lǐng)域廣泛的各種技能。

因此,Pathak 給他自己的增強學(xué)習(xí)算法加入了好奇心,并觀察這是否足以讓它學(xué)會許多技能。當(dāng) Pathak 的算法加深了它對周邊環(huán)境的理解,特別是對那些能直接影響環(huán)境的因素的理解時,它便會獲得獎勵。所以,這個算法會因探索和掌握那些使它更加理解游戲世界的技能而獲得獎勵,而非在游戲世界中直接尋找獎勵。

這種方法能加快學(xué)習(xí)并提高算法的效率,來自谷歌的AI公司 DeepMind 的 Max Jaderberg 說道。這家公司在去年用了一種類似的技巧去訓(xùn)練一個AI去探索一個虛擬迷宮。它的算法學(xué)習(xí)的速度比起傳統(tǒng)的增強學(xué)習(xí)算法快了很多。“我們的AI學(xué)習(xí)時快得多,并且訓(xùn)練時需要少得多的來自環(huán)境的經(jīng)驗,這使得它在利用數(shù)據(jù)方面效率更高?!?他說道。

高效學(xué)習(xí)者

憑借著好奇心,Pathak 自己的AI學(xué)會了在超級馬里奧中踩扁敵人并跳過深坑,還學(xué)會了在另一個類似 Doom 的游戲中探索遙遠的房間和穿越走廊。它還能夠在更后面的馬里奧關(guān)卡中應(yīng)用它新得到的技能,即使它從未見過這些關(guān)卡。

但是好奇心只能讓這個算法在超級馬里奧中達到一定水平。平均來說,它只探索了第一關(guān)的百分之三十,因為他沒能找到越過只能用一段超過十五次操作的連擊穿過的一系列深坑的途徑。當(dāng)AI到達這一地點時,它并不會信仰之躍跳向死亡,而是學(xué)會了轉(zhuǎn)身停下。

這個AI如此困惑的原因,可能是它不知道在這個深坑之后還有關(guān)卡的另一部分,Pathak 如是說道。它沒有學(xué)會持續(xù)地利用游戲中的捷徑,因為這會讓它的探索范圍減小,從而無法滿足它的探索欲望。

Pathak 如今在研究機械臂是否能通過好奇心學(xué)會抓取新物體?!氨绕鹱屗S機地行動,你可以利用這種方法讓它更有價值地活動。” 他說。他還打算研究一個類似的算法是否能用在像 Roomba 吸塵器這樣的家用機器人上。

但 Jaderberg 并不確定這種算法已經(jīng)準(zhǔn)備好被正式使用了?!艾F(xiàn)在談實際應(yīng)用還為時尚早?!?他說。

論文地址:arXiv:1705.05363

本文譯自New Scientist,由譯者 Zeno 基于創(chuàng)作共用協(xié)議(BY-NC)發(fā)布。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2017-06-16
好奇的AI通過探索游戲世界和犯錯來學(xué)習(xí)
我好奇我按下這個按鈕會發(fā)生什么?擁有好奇心的算法正在教會自己探索并解決它們從未見過的問題。面對超級馬里奧的第一關(guān),一個好奇心驅(qū)動的AI學(xué)會了如何探索地圖,避開深坑,以及躲開并消滅敵人。

長按掃碼 閱讀全文