DeepMind AlphaTensor:人類和人工智能之間的微妙平衡

極客網(wǎng)·人工智能10月12日 谷歌旗下人工智能開(kāi)發(fā)商DeepMind日前又發(fā)布了一項(xiàng)公告,推出令人印象深刻的AlphaTensor人工智能系統(tǒng)。這是一個(gè)深度強(qiáng)化學(xué)習(xí)系統(tǒng),可以發(fā)現(xiàn)使矩陣乘法的效率顯著提高的算法。 

矩陣乘法是許多計(jì)算任務(wù)的核心,其中包括神經(jīng)網(wǎng)絡(luò)、3D圖形和數(shù)據(jù)壓縮。因此,可以提高矩陣乘法效率的人工智能系統(tǒng)有很多直接的應(yīng)用。

deepmind.jpg

為了創(chuàng)建AlphaTensor,DeepMind和科學(xué)家采用了深度學(xué)習(xí)系統(tǒng)AlphaZero,該系統(tǒng)曾經(jīng)學(xué)習(xí)并掌握圍棋、象棋和shogi等棋類游戲。乍一看,DeepMind似乎已經(jīng)成功創(chuàng)建了一個(gè)通用的人工智能系統(tǒng),該系統(tǒng)可以解決各種各樣的無(wú)關(guān)問(wèn)題。

考慮到AlphaTensor正在尋找更快的矩陣乘法的算法,有些人對(duì)于人工智能系統(tǒng)能夠創(chuàng)建更好的人工智能系統(tǒng)表示懷疑。但AlphaTensor面臨的一個(gè)更深層的現(xiàn)實(shí)是,如何將人類智慧和人工智能正確結(jié)合起來(lái),幫助找到正確問(wèn)題的正確解決方案。

人類的直覺(jué)和計(jì)算能力 

行業(yè)專家在不久前發(fā)表的一篇文章中指出,人們所認(rèn)為的人工智能技術(shù)實(shí)際上是一個(gè)非常好的解決方案發(fā)現(xiàn)者。人類仍然能夠發(fā)現(xiàn)有意義的問(wèn)題,并采用計(jì)算機(jī)能夠解決的方式將其表述出來(lái)。這些是目前人類所獨(dú)有的一些技能。 

在最近的一次媒體采訪中,計(jì)算機(jī)科學(xué)家Melanie Mitchell從不同的角度解釋了這一點(diǎn),即概念、類比和抽象。人類可以將自己的感知和經(jīng)驗(yàn)轉(zhuǎn)化為抽象概念,然后將這些抽象概念投射到新的感知和經(jīng)驗(yàn)中,或者創(chuàng)造類比。這種能力對(duì)于在不斷變化的世界中解決問(wèn)題是非常重要的,因?yàn)槿祟惪偸敲媾R并處理新的情況。而如今的人工智能系統(tǒng)嚴(yán)重缺乏這種能力。 

為什么這些與本文討論的技術(shù)相關(guān)?因?yàn)槿绻私庥嘘P(guān)Alphaatensor論文的技術(shù)細(xì)節(jié)(這些細(xì)節(jié)令人印象非常深刻,就像DeepMind推出的大多數(shù)技術(shù)一樣),就會(huì)看到人類直覺(jué)、問(wèn)題表述、抽象和類比的完美展示。 

問(wèn)題空間和深度強(qiáng)化學(xué)習(xí) 

Vanilla矩陣乘法

兩個(gè)矩陣相乘的一般方法是計(jì)算它們的行和列的點(diǎn)積(或內(nèi)積),但是有許多其他的算法可以將兩個(gè)矩陣相乘,其中許多在計(jì)算上比普通的方法更有效。然而,找到這些最優(yōu)算法是非常困難的,因?yàn)榭梢杂媒鯚o(wú)限的方法分解兩個(gè)矩陣的乘積。 

科學(xué)家正在處理非常復(fù)雜的問(wèn)題空間。事實(shí)上,問(wèn)題空間是如此復(fù)雜,以至于DeepMind的科學(xué)家們只能專注于求解二維矩陣乘法。 

研究人員在報(bào)告中寫道:“我們?cè)谶@里專注于實(shí)際的矩陣乘法算法,它對(duì)應(yīng)于矩陣乘法張量的顯式低秩分解。與二維矩陣相比,高效的多項(xiàng)式時(shí)間算法計(jì)算秩已經(jīng)存在了兩個(gè)多世紀(jì),尋找三維張量(及以上)的低秩分解是NP-hard問(wèn)題,在實(shí)踐中也是困難的。事實(shí)上,搜索空間是如此之大,甚至連兩個(gè)3×3矩陣相乘的最佳算法都是未知的。” 

研究人員還指出,以前通過(guò)人類搜索、組合搜索和優(yōu)化技術(shù)進(jìn)行矩陣分解的嘗試都產(chǎn)生了次優(yōu)結(jié)果。 

DeepMind此前曾經(jīng)處理過(guò)其他非常復(fù)雜的搜索領(lǐng)域,比如棋類游戲圍棋。用來(lái)掌握圍棋的人工智能系統(tǒng)AlphaGo和AlphaZero使用深度強(qiáng)化系統(tǒng)進(jìn)行學(xué)習(xí),這種學(xué)習(xí)方法已被證明在解決無(wú)法通過(guò)暴力搜索方法解決的問(wèn)題方面特別出色。 

但為了能夠?qū)⑸疃葟?qiáng)化學(xué)習(xí)應(yīng)用到矩陣分解中,研究人員必須以一種可以用AlphaZero模型解決的方式來(lái)表述問(wèn)題。因此,他們必須對(duì)AlphaZero進(jìn)行修改,以便它能夠找到最佳的矩陣乘法算法。在這里,抽象和類比的力量得到了充分的展示。

棋盤游戲類比

矩陣乘法算法

研究人員發(fā)現(xiàn),他們可以將矩陣分解構(gòu)建成為一個(gè)單人游戲,這使得它與AlphaZero所應(yīng)用的那種問(wèn)題更加兼容。 

他們將這款游戲稱為TensorGame,并將其描述如下:“在TensorGame的每個(gè)步驟中,玩家選擇如何組合矩陣的不同條目進(jìn)行相乘。其評(píng)分是根據(jù)所選操作的數(shù)量來(lái)分配的,以獲得正確的乘法結(jié)果?!?/p>

基本上,他們將棋類游戲和矩陣分解進(jìn)行了類比,并將后者定義為包含狀態(tài)、行動(dòng)和獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)問(wèn)題。這篇文章包含了詳細(xì)而有趣的信息,介紹了他們是如何設(shè)計(jì)獎(jiǎng)勵(lì)系統(tǒng)來(lái)限制代理可以做出的動(dòng)作數(shù)量,對(duì)時(shí)間更長(zhǎng)的解決方案進(jìn)行懲罰,以及為了簡(jiǎn)潔起見(jiàn),在此不贅述的其他細(xì)節(jié)。 

有趣的是,棋類游戲和矩陣分解有幾個(gè)共同點(diǎn):它們是完美的信息游戲(沒(méi)有來(lái)自代理的隱藏信息),它們是確定性的游戲(在環(huán)境中事情不會(huì)隨機(jī)發(fā)生),它們使用離散的操作(與連續(xù)的相反)。這就是AlphaZero是比AlphaStar(掌握星際爭(zhēng)霸2的深層強(qiáng)化學(xué)習(xí)系統(tǒng))是一個(gè)更好起點(diǎn)的原因。

 然而,矩陣分解的問(wèn)題空間仍然非常復(fù)雜。研究人員將TensorGame描述為“一款具有巨大動(dòng)作空間的具有挑戰(zhàn)性的游戲(在大多數(shù)有趣的情況下超過(guò)1012個(gè)動(dòng)作),這比例如國(guó)際象棋和圍棋這樣傳統(tǒng)棋盤游戲(數(shù)百個(gè)動(dòng)作)要大得多?!?nbsp;

這就需要一種模型,能夠從多種途徑中找到最有希望的方向。 

AlphaTensor模型 

DeepMind AlphaTensor架構(gòu)

AlphaTensor是AlphaZero的改進(jìn)版本,但保持了由神經(jīng)網(wǎng)絡(luò)和蒙特卡羅樹(shù)搜索(MTCS)算法組成的主要結(jié)構(gòu)。在游戲的每一步,神經(jīng)網(wǎng)絡(luò)向MTCS算法提供一個(gè)可能的動(dòng)作樣本。當(dāng)網(wǎng)絡(luò)從它的行動(dòng)中收到反饋時(shí),將會(huì)逐漸變得更好。 

根據(jù)這篇論文,該神經(jīng)網(wǎng)絡(luò)是一個(gè)Transformer模型,它“包含了張量輸入的歸納偏差”。歸納偏差是幫助深度學(xué)習(xí)模型學(xué)習(xí)適合模型的正確表示的設(shè)計(jì)決策。如果沒(méi)有歸納偏差,該模型可能無(wú)法處理矩陣分解中極其龐大和復(fù)雜的問(wèn)題空間,或者需要更多的訓(xùn)練數(shù)據(jù)。 

神經(jīng)網(wǎng)絡(luò)的另一個(gè)重要方面是用來(lái)訓(xùn)練它的合成數(shù)據(jù),這是與AlphaZero模型的另一個(gè)突破。在這里,研究人員再次利用問(wèn)題的性質(zhì)來(lái)提高模型的訓(xùn)練和性能。 

研究人員寫道:“盡管張量分解是NP-hard問(wèn)題,但從它的第一級(jí)因子構(gòu)造張量的逆向任務(wù)是基本的。” 

利用這一特性,研究人員首先隨機(jī)抽樣因子,然后構(gòu)建原始矩陣,生成了一組“合成演示”。然后對(duì)合成數(shù)據(jù)和通過(guò)探索問(wèn)題空間生成的數(shù)據(jù)進(jìn)行訓(xùn)練。 

研究人員寫道:“這種針對(duì)目標(biāo)張量和隨機(jī)張量的混合訓(xùn)練策略訓(xùn)練,將顯著地優(yōu)于每種訓(xùn)練策略。盡管隨機(jī)生成的張量與目標(biāo)張量具有不同的屬性,但這一點(diǎn)仍然存在。”

人類和人工智能之間的分工 

AlphaTensor提供了非常令人印象深刻的結(jié)果,包括發(fā)現(xiàn)數(shù)千種新算法,以及針對(duì)特定類型處理器優(yōu)化算法的能力(給定正確的獎(jiǎng)勵(lì)函數(shù))。 

這篇論文還列舉了AlphaTensor可以啟用的一些具體應(yīng)用程序。在這里想強(qiáng)調(diào)的是這些人工智能系統(tǒng)研究中人類因素,這在媒體報(bào)道中經(jīng)常被忽視。 

就像谷歌的人工智能設(shè)計(jì)芯片和DeepMind的AlphaCode一樣,AlphaTensor是人類智能和計(jì)算能力如何幫助找到有趣問(wèn)題的解決方案的一個(gè)主要例子。人類利用他們的直覺(jué)、抽象和類比技巧,將矩陣分解形成一個(gè)可以通過(guò)深度強(qiáng)化學(xué)習(xí)解決的問(wèn)題。然后,人工智能系統(tǒng)利用計(jì)算能力搜索可能的解決方案的廣闊空間,并挑選潛在的候選方案。這是一個(gè)不容小覷的組合。(文/Ben Dickson


(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2022-10-12
DeepMind AlphaTensor:人類和人工智能之間的微妙平衡
?谷歌旗下人工智能開(kāi)發(fā)商DeepMind日前又發(fā)布了一項(xiàng)公告,推出令人印象深刻的AlphaTensor人工智能系統(tǒng)。這是一個(gè)深度強(qiáng)化學(xué)習(xí)系統(tǒng),可以發(fā)現(xiàn)使矩陣乘法的效率顯著提高的算法。

長(zhǎng)按掃碼 閱讀全文