深度強(qiáng)化學(xué)習(xí)的“叢林”大冒險(xiǎn)

原標(biāo)題:深度強(qiáng)化學(xué)習(xí)的“叢林”大冒險(xiǎn)

DeepMind在AI界是一家神奇的公司,在過去的幾年取得了許多令人矚目的成績(jī),例如享譽(yù)世界的阿法狗打敗人類登頂圍棋的天花板,Deepmind AlphaStar打敗了星際爭(zhēng)霸人類高手等。

在生命科學(xué)領(lǐng)域,AIphaFold2模型,可以將人類98.5%的蛋白質(zhì)結(jié)構(gòu)全部預(yù)測(cè)一遍,深入生命信息的深處、解讀生命運(yùn)行的密碼。

DeepMind在生物、數(shù)學(xué)、化學(xué)、物理等領(lǐng)域中撒下的種子,吸引了許多聰慧大腦紛紛前往,投身AI科學(xué)領(lǐng)域的探索。頂尖的專家聚集在DeepMind,誕生出許多突破性進(jìn)展的工作,取得了許多人工智能里程碑級(jí)別的成績(jī)。在能源危機(jī)和環(huán)保壓力中,DeepMind也聚焦核聚變、核物理領(lǐng)域,將AI賦能在核聚變的復(fù)雜反應(yīng)中,讓可控的核聚變反應(yīng)又往前邁出了一大步。

核聚變的“暗黑叢林”

核聚變、核裂變,總讓人傻傻分不清楚,如果拿應(yīng)用的場(chǎng)景來區(qū)分的話,就很容易辨別了。核裂變就是原子彈以及核電站主要應(yīng)用的技術(shù)。核聚變?cè)谧匀唤缰凶畛R姷木褪翘柫耍柕暮司圩円呀?jīng)持續(xù)了46億年。其原理是通過將氫元素的親戚氘和氚原子進(jìn)行核聚合反應(yīng),釋放大量的能量。

相對(duì)于核裂變而言,核聚變反應(yīng)不僅能夠產(chǎn)生大量的能量,也不會(huì)產(chǎn)生核廢料,是人類理想的終極能源。但實(shí)現(xiàn)核聚變的商業(yè)化還需要突破許多難關(guān),包括等離子體反應(yīng)的約束,氘與氚原料的提供,成本的控制等,其中最大的難題就是如何控制和約束核聚變反應(yīng),如果無法做到緩慢有序的能量釋放,瞬間的能量釋放跟炸彈沒什么兩樣。

科學(xué)家們?cè)诤司圩兎磻?yīng)中,通常通過三種物理方式約束核聚變反應(yīng):重力場(chǎng)約束,磁力場(chǎng)約束和慣性約束。

太陽上的核聚變就是靠其強(qiáng)大的萬有引力提供的重力場(chǎng)約束,這個(gè)方法我們?cè)诘厍蛏蠠o法復(fù)刻實(shí)現(xiàn)。使用托卡馬克裝置是磁力場(chǎng)約束核聚變的方法。目前世界各國(guó)的主攻可控核聚變的方式都是磁約束的方向,這也是最有希望實(shí)現(xiàn)可控核聚變的方式。

由于核聚變需要極高溫度,一旦某一環(huán)節(jié)出現(xiàn)問題,燃料溫度下降,聚變反應(yīng)就會(huì)自動(dòng)中止。托卡馬克裝置的作用就是可以長(zhǎng)時(shí)的約束高溫的等離子體,讓核聚變的反應(yīng)可以持續(xù)并可控。不過隨著核聚變的反應(yīng)堆增大,托克馬克裝置越來越復(fù)雜,對(duì)其內(nèi)部配置的重復(fù)反復(fù)運(yùn)行設(shè)置要求越來越高。

為了優(yōu)化等離子體的穩(wěn)定性、封閉性和能量排放,需要在托卡馬克內(nèi)設(shè)計(jì)反饋控制器以精確控制磁耦合的線圈來操縱磁場(chǎng),以達(dá)到理想的等離子體電流、位置和形狀。這個(gè)問題也就是著名的“托卡馬克磁控制問題”。

但這個(gè)控制過程是非線性、實(shí)時(shí)變化、多變量的,非常復(fù)雜,需要花費(fèi)大量的工程、設(shè)計(jì)和專業(yè)知識(shí),同時(shí)還要進(jìn)行復(fù)雜的平衡估計(jì)實(shí)時(shí)計(jì)算調(diào)控的電流。對(duì)于傳統(tǒng)的計(jì)算機(jī)模型和模擬方式來說,不一定能夠起到優(yōu)化的作用,精確性無法保障。

而這也是AI所擅長(zhǎng)的,深度強(qiáng)化學(xué)習(xí)可以作為全新的處理復(fù)雜核聚變方式,用來設(shè)計(jì)這個(gè)非線性的反饋控制器。將核試驗(yàn)科學(xué)家們的大腦從如何設(shè)置的怪圈中解放。

融合蓄勢(shì)

DeepMind的團(tuán)隊(duì),花費(fèi)了整整三年時(shí)間,來解決核聚變實(shí)驗(yàn)中的可控問題。我們知道深度強(qiáng)化學(xué)習(xí)的運(yùn)作原理是智能題與環(huán)境間的交互學(xué)習(xí),通過目標(biāo)設(shè)置和獎(jiǎng)勵(lì)反饋來運(yùn)行。

在核聚變實(shí)驗(yàn)中,科學(xué)家們通過強(qiáng)化學(xué)習(xí)設(shè)計(jì)的磁性控制器,可以自主學(xué)習(xí)設(shè)計(jì)整個(gè)控制線圈的電流,既可以滿足苛刻的物理操作約束條件,也能夠?qū)崿F(xiàn)穩(wěn)定的輸出控制,大大減少研究者的設(shè)計(jì)工作量。

在托卡馬克磁約束控制器的設(shè)計(jì)中,主要的思路是先為核聚變實(shí)驗(yàn)指定約束控制的目標(biāo),通過深度強(qiáng)化學(xué)習(xí)算法,找到滿足約束條件和目標(biāo)的最優(yōu)策略,零樣本的神經(jīng)網(wǎng)絡(luò)控制策略最終在托卡馬克的硬件設(shè)備上運(yùn)行。最終生成了一系列的不同等離子控制配置,深度強(qiáng)化學(xué)習(xí)系統(tǒng)可以對(duì)這些配置的位置、電流和形狀進(jìn)行精確地跟蹤,并可以實(shí)現(xiàn)實(shí)時(shí)控制。

如果用一句話來概括AI賦予了核聚變實(shí)驗(yàn)什么優(yōu)勢(shì),那就是深度強(qiáng)化學(xué)習(xí)極大地減少了磁約束控制器的開發(fā)周期,加速了科研人員對(duì)替代性等離子體配置的研究。

在一些實(shí)時(shí)的動(dòng)態(tài)變化中,所有的試驗(yàn)操作結(jié)果都瞬息萬變,依賴人與機(jī)器的經(jīng)驗(yàn)并不能完全的實(shí)現(xiàn)最優(yōu)解,深度強(qiáng)化學(xué)習(xí)是相較人類來說最完美的最佳武器。不過深度強(qiáng)化學(xué)習(xí)也存在一些局限,也是未來值得去突破的方向,包括:

1.在很多實(shí)際應(yīng)用中,目標(biāo)并不是很明確,多元感知信息的處理存在局限。例如在多輪對(duì)話系統(tǒng)中目標(biāo)設(shè)置“表現(xiàn)得像人”,然而這個(gè)目標(biāo)無法清楚地進(jìn)行數(shù)學(xué)描述。

2. 獎(jiǎng)勵(lì)函數(shù)系數(shù),獎(jiǎng)勵(lì)函數(shù)噪聲處理的局限,難以探索到優(yōu)質(zhì)解。

3. 泛化能力與魯棒性在一些情境中比較差,很多結(jié)果處在過擬合的區(qū)域。從強(qiáng)化學(xué)習(xí)的算法策略角度來看,可能是算法存在估值偏差,也有可能是面對(duì)非靜態(tài)智能體時(shí),存在判別不準(zhǔn)確的局限性。

而在核物理領(lǐng)域中,在人類智識(shí)界限的邊緣,隨著聚變反應(yīng)堆的增大,對(duì)于托卡馬克裝置的復(fù)雜度要求也就越高。更多數(shù)量的等離子體控制需要更高的準(zhǔn)確性和可靠性試驗(yàn),而這一切需要深度強(qiáng)化學(xué)習(xí)進(jìn)一步的策略優(yōu)化和更加嚴(yán)格的控制,才能突破。AI控制的核聚變反應(yīng)加速了核聚變清潔能源規(guī)模化到來的一天。

觸碰極限的邊界

可控核聚變的終極目標(biāo),就是讓海水中大量存在的氘在高溫條件下像太陽一樣發(fā)生核聚變,為人類提供源源不斷的清潔能源。

在AI的賦能下,我們可以探索一些原本依靠智識(shí)無法到達(dá)的領(lǐng)域突破界限。在漫長(zhǎng)的科研領(lǐng)域中,AI加速我們到達(dá)彼岸的距離。

自動(dòng)駕駛研究的領(lǐng)域中,決策的系統(tǒng)也跟核物理一般,存在許多實(shí)時(shí)的變量,如:不同地方的限速不同,是否是可行駛區(qū)域,如何躲避障礙等問題。軌跡優(yōu)化,運(yùn)動(dòng)規(guī)劃,動(dòng)態(tài)路徑,最優(yōu)控制,以及高速路中的情景學(xué)習(xí)策略等都可以與深度強(qiáng)化學(xué)習(xí)結(jié)合。

而在工業(yè)領(lǐng)域的研究中,基于強(qiáng)化學(xué)習(xí)的機(jī)器人智能體可以處理執(zhí)行各種任務(wù)。不僅效率比人高,還可以擁有無比強(qiáng)大的安全性。

在科研中,無數(shù)約束條件的范圍內(nèi)起舞,不會(huì)終止地向深處前行,需要深度強(qiáng)化學(xué)習(xí)帶來突破的力量,雖然現(xiàn)階段結(jié)果可能會(huì)受到網(wǎng)絡(luò)結(jié)構(gòu)、獎(jiǎng)賞比例、隨機(jī)種子、隨機(jī)實(shí)驗(yàn)、環(huán)境、程序?qū)崿F(xiàn)等的影響,但這也是未來攻堅(jiān)克服的方向。

如何簡(jiǎn)潔的概括深度強(qiáng)化學(xué)習(xí)帶給科研的力量,AI制藥和AIphaFold2模型解析蛋白質(zhì)這兩個(gè)例子最能夠清晰闡釋價(jià)值所在。一個(gè)是效率的極大提升,另外就是研究疆域的開拓。這也加速了科研的進(jìn)程,一方面給研究人員帶來極大的便利,另一方面也對(duì)研究人員的綜合能力提出了考驗(yàn):對(duì)于跨界領(lǐng)域的輸入與輸出學(xué)習(xí),以及腦力在科研本身的延伸。

在科研、工業(yè)、交通、金融、生物等領(lǐng)域,深度強(qiáng)化學(xué)習(xí)的技術(shù)意義深遠(yuǎn),復(fù)雜多變的客觀因素與最優(yōu)的價(jià)值排序之間,有了連接。AI架起了這座橋梁,通向未來的演繹朝著不可預(yù)測(cè)的方向駛進(jìn)。

拿核聚變實(shí)驗(yàn)來說,發(fā)展可控核聚變技術(shù)意義深遠(yuǎn),導(dǎo)向的是人類最大的困擾--能源問題。借由AI賦能的可控規(guī)?;司圩儗?shí)現(xiàn)的可能性更大,所帶來的接近無限的清潔能源將會(huì)徹底解決能源問題。廉價(jià)的能源不僅加快經(jīng)濟(jì)建設(shè)和工業(yè)生產(chǎn),同時(shí)也會(huì)改善環(huán)境的治理。

更深一步的話,復(fù)雜的多變量問題如果得到規(guī)?;薪鉀Q,將會(huì)釋放出巨大的能量,這也意味著人類將會(huì)進(jìn)入一個(gè)新的紀(jì)元。

當(dāng)所有的領(lǐng)域都經(jīng)過AI技術(shù)的催化,深度與廣度得到極大的躍升,人類的智識(shí)到了進(jìn)化的邊界,或者說是機(jī)器與人的協(xié)同達(dá)到了發(fā)展的頂峰,基礎(chǔ)的生存困擾解決了,精神的全面升階開始。束縛人類幾萬年的生存枷鎖脫落,誕生出的文明將會(huì)是什么模樣?這樣的局面依托人類的智識(shí)去觸碰是龜速爬行,但借由AI我們會(huì)如乘坐“火箭”的速度一般,探索到接近極限的邊界。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-03-17
深度強(qiáng)化學(xué)習(xí)的“叢林”大冒險(xiǎn)
在能源危機(jī)和環(huán)保壓力中,DeepMind也聚焦核聚變、核物理領(lǐng)域,將AI賦能在核聚變的復(fù)雜反應(yīng)中,讓可控的核聚變反應(yīng)又往前邁出了一大步。

長(zhǎng)按掃碼 閱讀全文