谷歌旗下AI開發(fā)部門DeepMind的作品登上了最新一期的《Science》雜志的封面。AlphaZero在圍棋和日本將棋領域里超越了人類之后,又從無到有地重新挖掘出了國際象棋的正確下法。研究人員公布了通用算法和測試數據。
2017年末,我們推出了AlphaZero,這是一個獨立的系統(tǒng),從頭開始自行學習國際象棋、將棋(日本版的國際象棋)和圍棋,最終在每個領域內擊敗世界冠軍程序。我們對初步結果感到非常興奮,并很高興看到國際象棋界的回應,他們在AlphaZero的棋譜中看到了一種突破性的、高度動態(tài)的和“非傳統(tǒng)的”行棋風格,與之前的任何國際象棋游戲引擎不同。
今天,我們非常開心能夠向公眾發(fā)布AlphaZero的完整評估。報告發(fā)表在Science(開放訪問版本)雜志上。該期刊確認了這些初步結果。它描述了AlphaZero如何快速學習每個游戲,成為歷史上最強大的玩家,從隨機游戲開始自我訓練,沒有內置任何知識,唯一需要預先輸入的就是游戲的基本規(guī)則。
國際象棋世界冠軍Garry Kasparov卡斯帕羅夫也在《科學》上撰文表示,“我無法掩飾自己的滿足感,它充滿了非常有活力的風格,就像我一樣!”。他指出,這種從頭開始每個游戲的能力,不受人類游戲規(guī)范的約束,產生了獨特的、非正統(tǒng)的、但具有創(chuàng)造性和動態(tài)的游戲風格。AlphaZero的棋風可能更接近本源?!八砸环N深刻而有用的方式超越了人類?!?/p>
國際象棋大師Matthew Sadle和女性國際大師Natasha Regan已經分析了AlphaZero數以千計的棋譜。Matthew指出,它的風格不同于任何傳統(tǒng)的國際象棋引擎?!斑@就像在翻閱過去一些偉大棋手的秘籍。”
傳統(tǒng)的國際象棋引擎——包括世界計算機國際象棋冠軍Stockfish和IBM突破性的Deep Blue——依賴于數千個由強大的人類玩家手工編制的規(guī)則和啟發(fā)式算法,試圖解讀游戲中的每一種可能性。 Shogi程序也是針對于特定游戲的,使用與國際象棋程序類似的搜索引擎和算法。
AlphaZero采用了一種完全不同的方法,用深度神經網絡和通用算法取代了這些手工制作的規(guī)則,這些算法對基本游戲規(guī)則之外的東西一無所知。
論文中舉例的決策樹
國際象棋:AlphaZero訓練4小時就超越了世界冠軍程序Stockfish;
日本將棋:AlphaZero訓練2小時就超越了世界冠軍程序Elmo;
圍棋:AlphaZero訓練30小時就超越了傳奇性的AlphaGo。
為了掌握每一種游戲,未經訓練的神經網絡通過被稱為強化學習的試錯過程自我對弈數百萬盤。起初,它完全隨機落子,但隨著時間的推移,系統(tǒng)從每一盤的勝負得失中吸取經驗,調整神經網絡的參數,選擇出更加正確的一步。網絡需要的訓練量取決于游戲的風格和復雜程度,國際象棋大約需要9個小時,將棋大約需要12個小時,圍棋則用了13天。
AlphaZero能夠掌握三種不同的復雜游戲——或許應該說是,任何開放信息的游戲——是走向最終實際應用的重要一步。它表明單個算法可以僅僅從最基本的規(guī)則中,發(fā)展出一整套超越人類千年積累的知識體系。而且,盡管還處于早期階段,AlphaZero的創(chuàng)意見解加上我們在AlphaFold等其他項目中看到的令人鼓舞的結果,讓我們對完成創(chuàng)建通用學習系統(tǒng)的使命充滿信心。我們可以用它來解決最重要和最復雜的科學問題。
本文譯自deepmind,由譯者 majer 基于創(chuàng)作共用協(xié)議(BY-NC)發(fā)布。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )