零號(hào)機(jī)突破——AlphaGo圍棋大師


視頻截圖

# 這費(fèi)是法 投遞(不是譯稿)

人類在數(shù)千年年間累積了圍棋的知識(shí),總結(jié)提煉為定式,棋諺和書(shū)籍。在數(shù)天的時(shí)間內(nèi),阿法狗零號(hào)機(jī)能夠從一張白紙開(kāi)始重新發(fā)現(xiàn)大部分的圍棋知識(shí),以及對(duì)這一古老游戲有著深刻洞見(jiàn)的新策略。

DeepMind在自然上新文章——《無(wú)人類知識(shí)的情況下精通圍棋》的最后一段,如同科幻小說(shuō)的開(kāi)篇。某種意義上說(shuō)我們低估了人工智能特定領(lǐng)域的發(fā)展速度,畢竟在五年前,絕大部分人的預(yù)期是我們?nèi)砸淮说呐Σ拍軌騽?chuàng)造出能夠接近人類水平的電腦圍棋選手。


對(duì)戰(zhàn)過(guò)程

零號(hào)機(jī)和樊號(hào)機(jī)(和樊輝下棋的第一代)以及李號(hào)機(jī)(和李世石下棋的第二代)的差別在于,后者是通過(guò)監(jiān)督學(xué)習(xí)完成的。亦即通過(guò)人類已有的圍棋棋譜訓(xùn)練策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)(兩個(gè)深度卷積的神經(jīng)網(wǎng)絡(luò)),最后通過(guò)蒙特卡洛樹(shù)搜索結(jié)合確定落子。這樣的訓(xùn)練效果受制于已知的專家數(shù)據(jù)(之前的圍棋棋譜)。零號(hào)機(jī)的網(wǎng)絡(luò)訓(xùn)練是通過(guò)強(qiáng)化學(xué)習(xí)完成的。亦即通過(guò)隨機(jī)的初始狀態(tài)進(jìn)行大量的情景模擬,并驅(qū)動(dòng)網(wǎng)絡(luò)朝著最優(yōu)化的方向發(fā)展。原有的兩個(gè)分離的價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)被整合成一個(gè)殘差網(wǎng)絡(luò)(這個(gè)應(yīng)該是上年計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)大突破,微軟研究院的成果),最后通過(guò)蒙特卡洛樹(shù)搜索來(lái)完成對(duì)局的模擬并進(jìn)行學(xué)習(xí)。

拋開(kāi)細(xì)節(jié)不談,我們看一張論文中的圖片,對(duì)于一個(gè)經(jīng)典的角部定式,零號(hào)機(jī)的學(xué)習(xí)和變化過(guò)程。真正讓人覺(jué)得激動(dòng)的是中間的時(shí)間軸。50多個(gè)小時(shí)的時(shí)候我們看到了常見(jiàn)的定式,70個(gè)小時(shí)的時(shí)候便已經(jīng)是人類未知的領(lǐng)域了。

相關(guān)的強(qiáng)化學(xué)習(xí)微軟研究院也有一篇《強(qiáng)化學(xué)習(xí)的混合獎(jiǎng)勵(lì)架構(gòu)》的文章,提出的深度強(qiáng)化學(xué)習(xí)的做法,利用多個(gè)代理的混合決策玩吃豆人游戲。拿到了超過(guò)人類最強(qiáng)玩家的分?jǐn)?shù)。

這一次零號(hào)機(jī)的突破可以說(shuō)非常直觀的展示一個(gè)AI在特定領(lǐng)域越過(guò)“奇點(diǎn)”后的狀態(tài)。人類數(shù)千年累積的知識(shí),在AI面前只需要數(shù)小時(shí)。

# 這費(fèi)是法:作為一個(gè)蛋友,容我虛妄的做出一些建議。我們可能需要更加瘋狂的運(yùn)用我們的想象力,為即將到來(lái)的巨變做好更多的準(zhǔn)備。畢竟塞內(nèi)卡說(shuō)過(guò)“折磨我們的往往是想象,而不是真實(shí)”。

# dodww 發(fā)在無(wú)聊圖的對(duì)戰(zhàn)圖(GIF):

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2017-10-20
零號(hào)機(jī)突破——AlphaGo圍棋大師
這費(fèi)是法 投遞:人類在數(shù)千年年間累積了圍棋的知識(shí),總結(jié)提煉為定式,棋諺和書(shū)籍。在數(shù)天的時(shí)間內(nèi),阿法狗零號(hào)機(jī)能夠從一張白紙開(kāi)始重新發(fā)現(xiàn)大部分的圍棋知識(shí),以及對(duì)這一古老游戲有著深刻洞見(jiàn)的新策略。

長(zhǎng)按掃碼 閱讀全文