利用游戲復雜環(huán)境 騰訊“開悟”AI大賽聯(lián)動高校破局AI研究瓶頸

騰訊正在利用游戲的復雜環(huán)境,為攻克通用人工智能研究創(chuàng)造各種可能性。

8月18日,第二屆騰訊開悟MOBA多智能體強化學習大賽”(下稱“大賽”)宣布啟動。該大賽由騰訊AI Lab、王者榮耀、騰訊高校合作、騰訊游戲?qū)W院等共同發(fā)起,由騰訊云計算提供底層資源支持。

“開悟”AI開放研究平臺依托于騰訊太極機器學習平臺,基于平臺擁有的算法、算力、脫敏數(shù)據(jù)等資源優(yōu)勢,為學術(shù)研究人員和算法開發(fā)者開放國際一流的研究與應用探索平臺。

利用游戲復雜環(huán)境 騰訊“開悟”AI大賽聯(lián)動高校破局AI研究瓶頸

對于高校而言,AI研究的挑戰(zhàn)十分嚴峻:目前高校研究普遍面臨著數(shù)據(jù)量較少、數(shù)據(jù)的多樣性不足、數(shù)據(jù)質(zhì)量參差不齊等問題;同時,隨著高校強化學習算法研究的不斷深入,項目對計算資源的需求也水漲船高。而除了機器資源本身,也缺乏容易上手的AI開放實驗平臺。

騰訊將自身的AI能力開放成國內(nèi)科研的助推器。本屆賽事沿用過往面向高校的邀請賽制,進一步擴大了開放規(guī)模,邀請20余所國內(nèi)外知名高校參賽。參賽隊伍需要在指定的時間內(nèi),在給定的資源下訓練出最優(yōu)模型,并最終部署好使用最優(yōu)模型的AI服務(wù)器,提交系統(tǒng)完成1V1、3V3對局挑戰(zhàn)。

相比起第一屆賽事,本屆賽事重點實現(xiàn)了輕量化和易用化:在保證賽題研究價值的同時,降低了參賽者理解游戲規(guī)則及研發(fā)操作的成本,使參賽者能更聚焦于AI開發(fā)本身。

與此同時,開悟攜手高校合作開發(fā)課程,進一步普及多智能體強化學習教育。2021年8月,騰訊宣布與四所國內(nèi)一流高校共建教學內(nèi)容和課程體系改革項目。北京大學李文新、電子科技大學謝寧、清華大學李秀、中國科學技術(shù)大學周文罡等四位教授將基于騰訊開悟平臺,分別構(gòu)建一門至少20學時的多智能體及強化學習平臺的專業(yè)課程,理論授課知識點包括但不限于機器學習、強化學習、多智能體決策等相關(guān)的知識點。

在算法框架和組件層面,騰訊太極機器學習平臺為開悟平臺提供機器學習/深度學習等核心加速組件,結(jié)合騰訊內(nèi)部業(yè)務(wù)的沉淀,經(jīng)過了萬億級的數(shù)據(jù)訓練和流量訪問,為參賽者提供更有力的支持。

騰訊云計算作為本次大賽獨家算力支持平臺,將為參賽隊伍提供高性能的云服務(wù)器資源供數(shù)據(jù)建模與學習推理?;隍v訊云 GPU 云服務(wù)器超強的并行計算能力,可完成傳統(tǒng)計算資源無法處理的大規(guī)模部署AI 推理任務(wù),極大地提升運算效率,高度匹配了深度學習訓練,推理和科學計算場景下日益增長的高精度高效率算力需求。

騰訊AI Lab總經(jīng)理楊巍指出,“開悟平臺承載了技術(shù)、資源、人才等生態(tài)原料,始于又不止于競賽。開悟?qū)⒅鸩桨l(fā)展為競賽-課程-科教聯(lián)盟-科創(chuàng)聯(lián)合體的生態(tài)聚集地,未來會進一步延展平臺承載力,推進AI與教育融合,提高學生的創(chuàng)造力與研究才能,為生態(tài)貢獻跨學科技術(shù)、跨界人才和多方資源。”

同時,王者榮耀執(zhí)行制作人、騰訊天美L1總經(jīng)理黃藍梟也表示:“我們開放了《王者榮耀》的核心機制,提供標準接口、核心算法、脫敏的測試數(shù)據(jù)、評估工具和計算集群等,給高校老師和同學們進行多智能體的機器學習算法研究、學習成果交流、對算法成果反復迭代升級。同時,也期待這些研究成果,能夠落地到其他產(chǎn)業(yè)環(huán)境中,為工業(yè)機器人、救災機器人等提供助力。”

聚焦多智能體博弈 騰訊“開悟”聯(lián)動高校破局AI研究瓶頸

下一個AI里程碑可能會在復雜策略游戲中誕生:現(xiàn)實世界中人類決策時面對的環(huán)境更復雜、有更多不確定性和局限性。利用游戲的復雜環(huán)境,攻克多智能體強化學習方法,有望利用AI解決真實世界的復雜問題,例如城市/空中交通管理、多機器人協(xié)調(diào)、能源分配等等。長遠來看,“AI+游戲”研究將是騰訊攻克AI終極研究難題——通用人工智能(AGI)的關(guān)鍵一步。

AI學界持續(xù)面臨面四大挑戰(zhàn):算法、數(shù)據(jù)、算力、場景。以強化學習為例,每個要素都有很多挑戰(zhàn),比如研究場景稀缺,沒有數(shù)據(jù),算法測試困難到算力昂貴等。

王者榮耀為高校AI研究提供了一種現(xiàn)實可用的場景。這款移動端的5V5 MOBA類游戲,具有高復雜度、高挑戰(zhàn)性、強協(xié)作性的特點。據(jù)統(tǒng)計,在王者對局中,玩家的動作狀態(tài)空間高達10的20000次方,遠遠大于圍棋及其他簡單游戲,甚至超過整個宇宙的原子總數(shù)(10的80次方)。

在2020年首屆“開悟”高校大賽上,作為參賽隊伍指導老師,電子科技大學謝寧教授表示:“開悟平臺提供游戲AI框架、強化學習算法框架及基礎(chǔ)算力等資源/服務(wù),解決了我們AI教育中面臨的AI應用與實訓平臺的缺口。在去年的賽事中,游戲環(huán)境有效提升了學生團隊對AI的興趣,幫助他們積累了深度強化學習模型設(shè)計與實現(xiàn)的經(jīng)驗。”

首屆賽事參賽學生代表,中國科學技術(shù)大學學生趙鑒在分享賽后感想時表示:“很高興有機會接觸如此大型游戲的AI設(shè)計,開悟平臺讓團隊能將本身游戲愛好與專業(yè)相結(jié)合,提高了我們對人工智能領(lǐng)域的研究興趣。”

利用游戲復雜環(huán)境 騰訊“開悟”AI大賽聯(lián)動高校破局AI研究瓶頸

基于首屆比賽的成功經(jīng)驗,第二屆開悟大賽進行了易用性與輕量化升級,降低高校學生的研究門檻。

作為國內(nèi)領(lǐng)先的公有云平臺,騰訊云在通用 CPU 和異構(gòu) GPU 豐富的實例配置與規(guī)格可以滿足不同業(yè)務(wù)算力需求。尤其是在 AI 訓練與推理場景下,引入騰訊云 GPU 異構(gòu)計算對于效率的提升非??捎^。

在易用性上,開悟?qū)ζ脚_操作進行了多項優(yōu)化,幫助使用者更快上手,更高效地開發(fā)。具體包括:進一步完善說明文檔,幫助參賽者快速接入平臺;開放標準化環(huán)境接口代碼,允許參賽者在本地環(huán)境確認AI效果并進行調(diào)試;提升訓練效率,大幅縮短模型訓練時間等。

在輕量化上,降低參賽者學習游戲規(guī)則及進行基礎(chǔ)工作的成本,更聚焦于算法開發(fā)工作。具體包括:統(tǒng)一開發(fā)完備的環(huán)境信息,參賽者不需陷于特征工程;開放基準算法,讓參賽者快速迭代等。

開悟?qū)I產(chǎn)學研用全鏈條的推動作用,也正受到社會各界關(guān)注。2021年4月8日,騰訊“開悟”聯(lián)合高校成立了人工智能科教聯(lián)盟,并攜手高校、科研院所、產(chǎn)業(yè)園區(qū)、投資機構(gòu)組建人工智能科創(chuàng)聯(lián)合體,共同在關(guān)鍵核心技術(shù)聯(lián)合攻關(guān)、人才培養(yǎng)聚集和促進產(chǎn)業(yè)鏈上下游交流合作等方面共同努力。

助力產(chǎn)學研 共享AI+游戲新生態(tài)

若AI能在如此復雜的環(huán)境中,學會人一樣實時感知、分析、理解、推理、決策到行動,就可能在多變、復雜的真實環(huán)境中發(fā)揮更大作用。

自2018年起,騰訊 AI Lab 持續(xù)投入多類“AI+游戲”研究,并與王者榮耀團隊合作打造策略協(xié)作型AI“王者絕悟”。三年來,王者絕悟AI在對局中飛速成長,得到了學術(shù)界認可,相關(guān)論文已先后被 AAAI、NeurIPS 等 AI 頂級會議收錄。2021年,全英雄達到職業(yè)電競水平的“王者絕悟”亮相2021世界人工智能大會,受到社會廣泛關(guān)注。

利用游戲復雜環(huán)境 騰訊“開悟”AI大賽聯(lián)動高校破局AI研究瓶頸

騰訊 AI Lab 已在“AI+游戲”領(lǐng)域取得多項成果,策略協(xié)作型AI“絕悟”,取得4項世界大賽冠軍,現(xiàn)擔任中國國家圍棋隊訓練專用AI的圍棋 AI “絕藝”。同時探索AI在游戲產(chǎn)業(yè)全鏈路應用,用AI提高游戲開發(fā)效率、打造新玩法、輔助游戲平衡性測試等。

借助開悟平臺,騰訊AI Lab和王者榮耀希望聯(lián)動更多有興趣的高校和學者參與,共同在游戲環(huán)境中探討和研究這些難題,并尋找AI新技術(shù)覆蓋更多場景的可能性,如醫(yī)療、工業(yè)、農(nóng)業(yè)、交通等現(xiàn)實場景,及虛實結(jié)合的元宇宙世界(Metaverse)等。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )