通過自我學(xué)習(xí),新版AlphaGo如同屠殺般完勝舊版

通過自我學(xué)習(xí),新版AlphaGo如同屠殺般完勝老版

credit 123RF

在AlphaGo橫掃人類頂級(jí)棋手幾個(gè)月后,人工智能棋手如今再次打破瓶頸,將以往的困難險(xiǎn)阻化作大道坦途:最新版本的AlphaGo完全靠自學(xué)來實(shí)現(xiàn)前所未有的圍棋策略。該項(xiàng)目的新一輪智能棋手被稱為AlphaGo Zero,在不需要人為的輸入任何有關(guān)圍棋招法的情況下,僅僅三天的時(shí)間里,重新發(fā)明了人類棋手在數(shù)千年的下棋歷史中所掌握的定式,以及從未被人類發(fā)現(xiàn)的更先進(jìn)的圍棋理念。通過將人工智能從對(duì)人類知識(shí)的依賴中解放出來,實(shí)現(xiàn)了突破智能機(jī)器自主思考限制的可能性。

人類使用兩種方法教授早期版本的AlphaGo下棋。第一種被稱為監(jiān)督學(xué)習(xí),研究人員為程序提供了10萬盤業(yè)余頂級(jí)高手的對(duì)局,并教會(huì)了它模仿它所看到的內(nèi)容。第二個(gè),被稱為強(qiáng)化學(xué)習(xí),他們讓程序自我發(fā)揮并從結(jié)果中學(xué)習(xí)改進(jìn)。

AlphaGo Zero跳過了第一步。程序開始是一個(gè)白板,只知道圍棋的基本規(guī)則,然后開始一個(gè)人和自己的對(duì)弈。起初,它將棋子隨機(jī)放到棋盤上。隨著時(shí)間的推移,它開始學(xué)會(huì)判斷局勢和利弊取舍。它還發(fā)現(xiàn)了圍棋策略里的的許多規(guī)范要素,并發(fā)現(xiàn)了前所未有的新定式。密西根大學(xué)計(jì)算機(jī)科學(xué)家Satinder Singh說:“模仿人類的最好方式就是模仿人類,”他沒有參與AlphaGo的開發(fā), “在許多復(fù)雜的情況下,你也將永遠(yuǎn)受限于人類?!?/p>

經(jīng)過三天的學(xué)習(xí)和490萬次對(duì)局訓(xùn)練,研究人員令A(yù)lphaGo Zero與早期的AlphaGo對(duì)弈。 AlphaGo Zero以100:0懸殊比分贏下比賽。

對(duì)于專家來說,老版本的潰敗十分驚人。純粹強(qiáng)化學(xué)習(xí)似乎與圍棋的計(jì)算復(fù)雜性格格不入,圍棋比國際象棋要復(fù)雜得多:可以預(yù)期AlphaGo Zero將永遠(yuǎn)追求最正確的下一步,如此它應(yīng)該花費(fèi)大量時(shí)間用于計(jì)算。但實(shí)際情況相反,它迅速成長,如有神助。

高效的學(xué)習(xí)過程歸功于反饋循環(huán)。像其前代一樣,AlphaGo Zero通過稱為“樹搜索”的過程來確定要下一步走法。該程序從當(dāng)前局面開始,并考慮后續(xù)可能的動(dòng)作。并加入考慮其對(duì)手可以在未來棋路中施加的影響因素,最后找到可以應(yīng)對(duì)的措施,……如此這般,創(chuàng)建一個(gè)分支樹形圖,模擬出不同組合的局面演化,從而導(dǎo)致不同的應(yīng)對(duì)策略。

AlphaGo Zero無法遍歷樹的每一個(gè)分支,因?yàn)檫@將需要過多的計(jì)算能力。相反,它通過決定哪些路徑似乎最有希望獲勝來選擇性地修剪分支。它可以根據(jù)早期的學(xué)習(xí)內(nèi)容,計(jì)算出修剪哪些路徑,以獲得有助于引導(dǎo)向勝利的局勢。

AlphaGo的早期版本也遵循這樣的思路設(shè)計(jì)的。AlphaGo Zero的新能力是它會(huì)記住選擇了某個(gè)搜索樹的分支會(huì)導(dǎo)致怎樣的游戲結(jié)果,而不是僅僅運(yùn)行樹搜索和照此運(yùn)行結(jié)果移動(dòng)。使用這些信息更新其對(duì)局面的評(píng)估,和選擇不同落子位置的獲勝概率。因此,下一次運(yùn)行樹搜索時(shí),可以使用修正過的估計(jì)值,反復(fù)用以前的樹搜索結(jié)果進(jìn)行訓(xùn)練,一次次生成更好的估計(jì)值。到最后,它的每一步落子都會(huì)增加終盤時(shí)獲勝的可能性。

既然AlphaGo Zero的能力是從極其大量的可能性中找到實(shí)現(xiàn)最佳可能性的路徑,在發(fā)表在《自然》上的論文里,AlphaGo Zero的研發(fā)者表示,他們的系統(tǒng)可以在材料物理學(xué)中發(fā)揮作用——為了產(chǎn)生具有不同性質(zhì)的材料,你需要弄清各種原子組合會(huì)產(chǎn)生什么結(jié)果;以及研究折疊蛋白質(zhì)分子的性質(zhì)——需要了解蛋白質(zhì)精確的三維構(gòu)架結(jié)構(gòu)并確定其功能。

至于圍棋,AlphaGo Zero可能引發(fā)了一場地震。迄今為止,還沒有哪家游戲公司開發(fā)出世界級(jí)的圍棋軟件。 但是AlphaGo Zero可能會(huì)改變這一局面。美國圍棋協(xié)會(huì)執(zhí)行副總裁Andrew Jackson認(rèn)為,指導(dǎo)人類下棋的圍棋app不久就會(huì)出現(xiàn)在市場上。這將改變?nèi)祟惼迨钟?xùn)練的方式。它也會(huì)使作弊變得容易。

對(duì)于AlphaGo來說,未來是開放的。 圍棋是一項(xiàng)非常復(fù)雜的智力活動(dòng),誰也說不清這套自我學(xué)習(xí)的程序未來可以達(dá)到何種高度; 現(xiàn)在能確定的是它掌握了一套學(xué)習(xí)方法來應(yīng)對(duì)它爆炸性增長的復(fù)雜度,這也本來就是AlphaGo的存在意義。

本文譯自quantamagazine,由譯者 majer 基于創(chuàng)作共用協(xié)議(BY-NC)發(fā)布。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2017-10-20
通過自我學(xué)習(xí),新版AlphaGo如同屠殺般完勝舊版
在AlphaGo橫掃人類頂級(jí)棋手幾個(gè)月后,人工智能棋手如今再次打破瓶頸,將以往的困難險(xiǎn)阻化作大道坦途:最新版本的AlphaGo完全靠自學(xué)來實(shí)現(xiàn)前所未有的圍棋策略。

長按掃碼 閱讀全文