亚洲第一欧美电影怡红院在线手机版,91人成网站色www免费,一区二区三区网站在线免费线观看

原標(biāo)題：深度強(qiáng)化學(xué)習(xí)的“叢林”大冒險(xiǎn)

DeepMind在AI界是一家神奇的公司，在過去的幾年取得了許多令人矚目的成績(jī)，例如享譽(yù)世界的阿法狗打敗人類登頂圍棋的天花板，Deepmind AlphaStar打敗了星際爭(zhēng)霸人類高手等。

在生命科學(xué)領(lǐng)域，AIphaFold2模型，可以將人類98.5%的蛋白質(zhì)結(jié)構(gòu)全部預(yù)測(cè)一遍，深入生命信息的深處、解讀生命運(yùn)行的密碼。

DeepMind在生物、數(shù)學(xué)、化學(xué)、物理等領(lǐng)域中撒下的種子，吸引了許多聰慧大腦紛紛前往，投身AI科學(xué)領(lǐng)域的探索。頂尖的專家聚集在DeepMind，誕生出許多突破性進(jìn)展的工作，取得了許多人工智能里程碑級(jí)別的成績(jī)。在能源危機(jī)和環(huán)保壓力中，DeepMind也聚焦核聚變、核物理領(lǐng)域，將AI賦能在核聚變的復(fù)雜反應(yīng)中，讓可控的核聚變反應(yīng)又往前邁出了一大步。

核聚變的“暗黑叢林”

核聚變、核裂變，總讓人傻傻分不清楚，如果拿應(yīng)用的場(chǎng)景來區(qū)分的話，就很容易辨別了。核裂變就是原子彈以及核電站主要應(yīng)用的技術(shù)。核聚變?cè)谧匀唤缰凶畛Ｒ姷木褪翘柫耍柕暮司圩円呀?jīng)持續(xù)了46億年。其原理是通過將氫元素的親戚氘和氚原子進(jìn)行核聚合反應(yīng)，釋放大量的能量。

相對(duì)于核裂變而言，核聚變反應(yīng)不僅能夠產(chǎn)生大量的能量，也不會(huì)產(chǎn)生核廢料，是人類理想的終極能源。但實(shí)現(xiàn)核聚變的商業(yè)化還需要突破許多難關(guān)，包括等離子體反應(yīng)的約束，氘與氚原料的提供，成本的控制等，其中最大的難題就是如何控制和約束核聚變反應(yīng)，如果無法做到緩慢有序的能量釋放，瞬間的能量釋放跟炸彈沒什么兩樣。

科學(xué)家們?cè)诤司圩兎磻?yīng)中，通常通過三種物理方式約束核聚變反應(yīng)：重力場(chǎng)約束，磁力場(chǎng)約束和慣性約束。

太陽上的核聚變就是靠其強(qiáng)大的萬有引力提供的重力場(chǎng)約束，這個(gè)方法我們?cè)诘厍蛏蠠o法復(fù)刻實(shí)現(xiàn)。使用托卡馬克裝置是磁力場(chǎng)約束核聚變的方法。目前世界各國(guó)的主攻可控核聚變的方式都是磁約束的方向，這也是最有希望實(shí)現(xiàn)可控核聚變的方式。

由于核聚變需要極高溫度，一旦某一環(huán)節(jié)出現(xiàn)問題，燃料溫度下降，聚變反應(yīng)就會(huì)自動(dòng)中止。托卡馬克裝置的作用就是可以長(zhǎng)時(shí)的約束高溫的等離子體，讓核聚變的反應(yīng)可以持續(xù)并可控。不過隨著核聚變的反應(yīng)堆增大，托克馬克裝置越來越復(fù)雜，對(duì)其內(nèi)部配置的重復(fù)反復(fù)運(yùn)行設(shè)置要求越來越高。

為了優(yōu)化等離子體的穩(wěn)定性、封閉性和能量排放，需要在托卡馬克內(nèi)設(shè)計(jì)反饋控制器以精確控制磁耦合的線圈來操縱磁場(chǎng)，以達(dá)到理想的等離子體電流、位置和形狀。這個(gè)問題也就是著名的“托卡馬克磁控制問題”。

但這個(gè)控制過程是非線性、實(shí)時(shí)變化、多變量的，非常復(fù)雜，需要花費(fèi)大量的工程、設(shè)計(jì)和專業(yè)知識(shí)，同時(shí)還要進(jìn)行復(fù)雜的平衡估計(jì)實(shí)時(shí)計(jì)算調(diào)控的電流。對(duì)于傳統(tǒng)的計(jì)算機(jī)模型和模擬方式來說，不一定能夠起到優(yōu)化的作用，精確性無法保障。

而這也是AI所擅長(zhǎng)的，深度強(qiáng)化學(xué)習(xí)可以作為全新的處理復(fù)雜核聚變方式，用來設(shè)計(jì)這個(gè)非線性的反饋控制器。將核試驗(yàn)科學(xué)家們的大腦從如何設(shè)置的怪圈中解放。

融合蓄勢(shì)

DeepMind的團(tuán)隊(duì)，花費(fèi)了整整三年時(shí)間，來解決核聚變實(shí)驗(yàn)中的可控問題。我們知道深度強(qiáng)化學(xué)習(xí)的運(yùn)作原理是智能題與環(huán)境間的交互學(xué)習(xí)，通過目標(biāo)設(shè)置和獎(jiǎng)勵(lì)反饋來運(yùn)行。

在核聚變實(shí)驗(yàn)中，科學(xué)家們通過強(qiáng)化學(xué)習(xí)設(shè)計(jì)的磁性控制器，可以自主學(xué)習(xí)設(shè)計(jì)整個(gè)控制線圈的電流，既可以滿足苛刻的物理操作約束條件，也能夠?qū)崿F(xiàn)穩(wěn)定的輸出控制，大大減少研究者的設(shè)計(jì)工作量。

在托卡馬克磁約束控制器的設(shè)計(jì)中，主要的思路是先為核聚變實(shí)驗(yàn)指定約束控制的目標(biāo)，通過深度強(qiáng)化學(xué)習(xí)算法，找到滿足約束條件和目標(biāo)的最優(yōu)策略，零樣本的神經(jīng)網(wǎng)絡(luò)控制策略最終在托卡馬克的硬件設(shè)備上運(yùn)行。最終生成了一系列的不同等離子控制配置，深度強(qiáng)化學(xué)習(xí)系統(tǒng)可以對(duì)這些配置的位置、電流和形狀進(jìn)行精確地跟蹤，并可以實(shí)現(xiàn)實(shí)時(shí)控制。

如果用一句話來概括AI賦予了核聚變實(shí)驗(yàn)什么優(yōu)勢(shì)，那就是深度強(qiáng)化學(xué)習(xí)極大地減少了磁約束控制器的開發(fā)周期，加速了科研人員對(duì)替代性等離子體配置的研究。

在一些實(shí)時(shí)的動(dòng)態(tài)變化中，所有的試驗(yàn)操作結(jié)果都瞬息萬變，依賴人與機(jī)器的經(jīng)驗(yàn)并不能完全的實(shí)現(xiàn)最優(yōu)解，深度強(qiáng)化學(xué)習(xí)是相較人類來說最完美的最佳武器。不過深度強(qiáng)化學(xué)習(xí)也存在一些局限，也是未來值得去突破的方向，包括：

1.在很多實(shí)際應(yīng)用中，目標(biāo)并不是很明確，多元感知信息的處理存在局限。例如在多輪對(duì)話系統(tǒng)中目標(biāo)設(shè)置“表現(xiàn)得像人”，然而這個(gè)目標(biāo)無法清楚地進(jìn)行數(shù)學(xué)描述。

2. 獎(jiǎng)勵(lì)函數(shù)系數(shù)，獎(jiǎng)勵(lì)函數(shù)噪聲處理的局限，難以探索到優(yōu)質(zhì)解。

3. 泛化能力與魯棒性在一些情境中比較差，很多結(jié)果處在過擬合的區(qū)域。從強(qiáng)化學(xué)習(xí)的算法策略角度來看，可能是算法存在估值偏差，也有可能是面對(duì)非靜態(tài)智能體時(shí),存在判別不準(zhǔn)確的局限性。

而在核物理領(lǐng)域中，在人類智識(shí)界限的邊緣，隨著聚變反應(yīng)堆的增大，對(duì)于托卡馬克裝置的復(fù)雜度要求也就越高。更多數(shù)量的等離子體控制需要更高的準(zhǔn)確性和可靠性試驗(yàn)，而這一切需要深度強(qiáng)化學(xué)習(xí)進(jìn)一步的策略優(yōu)化和更加嚴(yán)格的控制，才能突破。AI控制的核聚變反應(yīng)加速了核聚變清潔能源規(guī)模化到來的一天。

觸碰極限的邊界

可控核聚變的終極目標(biāo)，就是讓海水中大量存在的氘在高溫條件下像太陽一樣發(fā)生核聚變，為人類提供源源不斷的清潔能源。

在AI的賦能下，我們可以探索一些原本依靠智識(shí)無法到達(dá)的領(lǐng)域突破界限。在漫長(zhǎng)的科研領(lǐng)域中，AI加速我們到達(dá)彼岸的距離。

在自動(dòng)駕駛研究的領(lǐng)域中，決策的系統(tǒng)也跟核物理一般，存在許多實(shí)時(shí)的變量，如：不同地方的限速不同，是否是可行駛區(qū)域，如何躲避障礙等問題。軌跡優(yōu)化，運(yùn)動(dòng)規(guī)劃，動(dòng)態(tài)路徑，最優(yōu)控制，以及高速路中的情景學(xué)習(xí)策略等都可以與深度強(qiáng)化學(xué)習(xí)結(jié)合。

而在工業(yè)領(lǐng)域的研究中，基于強(qiáng)化學(xué)習(xí)的機(jī)器人智能體可以處理執(zhí)行各種任務(wù)。不僅效率比人高，還可以擁有無比強(qiáng)大的安全性。

在科研中，無數(shù)約束條件的范圍內(nèi)起舞，不會(huì)終止地向深處前行，需要深度強(qiáng)化學(xué)習(xí)帶來突破的力量，雖然現(xiàn)階段結(jié)果可能會(huì)受到網(wǎng)絡(luò)結(jié)構(gòu)、獎(jiǎng)賞比例、隨機(jī)種子、隨機(jī)實(shí)驗(yàn)、環(huán)境、程序?qū)崿F(xiàn)等的影響，但這也是未來攻堅(jiān)克服的方向。

如何簡(jiǎn)潔的概括深度強(qiáng)化學(xué)習(xí)帶給科研的力量，AI制藥和AIphaFold2模型解析蛋白質(zhì)這兩個(gè)例子最能夠清晰闡釋價(jià)值所在。一個(gè)是效率的極大提升，另外就是研究疆域的開拓。這也加速了科研的進(jìn)程，一方面給研究人員帶來極大的便利，另一方面也對(duì)研究人員的綜合能力提出了考驗(yàn)：對(duì)于跨界領(lǐng)域的輸入與輸出學(xué)習(xí)，以及腦力在科研本身的延伸。

在科研、工業(yè)、交通、金融、生物等領(lǐng)域，深度強(qiáng)化學(xué)習(xí)的技術(shù)意義深遠(yuǎn)，復(fù)雜多變的客觀因素與最優(yōu)的價(jià)值排序之間，有了連接。AI架起了這座橋梁，通向未來的演繹朝著不可預(yù)測(cè)的方向駛進(jìn)。

拿核聚變實(shí)驗(yàn)來說，發(fā)展可控核聚變技術(shù)意義深遠(yuǎn)，導(dǎo)向的是人類最大的困擾--能源問題。借由AI賦能的可控規(guī)?；司圩儗?shí)現(xiàn)的可能性更大，所帶來的接近無限的清潔能源將會(huì)徹底解決能源問題。廉價(jià)的能源不僅加快經(jīng)濟(jì)建設(shè)和工業(yè)生產(chǎn)，同時(shí)也會(huì)改善環(huán)境的治理。

更深一步的話，復(fù)雜的多變量問題如果得到規(guī)?；薪鉀Q，將會(huì)釋放出巨大的能量，這也意味著人類將會(huì)進(jìn)入一個(gè)新的紀(jì)元。

當(dāng)所有的領(lǐng)域都經(jīng)過AI技術(shù)的催化，深度與廣度得到極大的躍升，人類的智識(shí)到了進(jìn)化的邊界，或者說是機(jī)器與人的協(xié)同達(dá)到了發(fā)展的頂峰，基礎(chǔ)的生存困擾解決了，精神的全面升階開始。束縛人類幾萬年的生存枷鎖脫落，誕生出的文明將會(huì)是什么模樣？這樣的局面依托人類的智識(shí)去觸碰是龜速爬行，但借由AI我們會(huì)如乘坐“火箭”的速度一般，探索到接近極限的邊界。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

深度強(qiáng)化學(xué)習(xí)的“叢林”大冒險(xiǎn)

下一篇