過去在電子競技項目中與人類爭鋒的AI選手其實通常會使用相當于作弊的方式。
曾在即時戰(zhàn)略游戲《星際爭霸》中戰(zhàn)勝人類的AI可以直接以內(nèi)部調(diào)用的方式操作單位,實現(xiàn)真正的多線操作,這對于使用鼠標鍵盤實現(xiàn)輸入的人類選手來說,是不可能做到的。而在moba對戰(zhàn)類游戲里,如DOTA,AI可以讀取對方的操作指令集,能實現(xiàn)對人類來說極其不可思議的躲避瞬時法術(shù)的驚人操作。(AI能用隱刀躲掉紅杖……)
這些看似有利的情況其實削弱了AI的存在價值,畢竟,人們制造出人工智能是希望它們能以正面的方式超越人類,突破思想上的極限。
OpenAI ——Elon Musk和Sam Altman 合作創(chuàng)立的非商業(yè)AI研究組織——向世人宣布,他們研發(fā)的算法,在公平環(huán)境下,戰(zhàn)勝了五位DOTA2高分段人類玩家,平均天梯分數(shù)超過4200分。
秋天,Dota 2世界冠軍賽The International就將拉開戰(zhàn)幕,OpenAI將派出5個運行不同算法的AI組成戰(zhàn)隊報名參賽。 通過和頂級選手同場較量,實地檢驗AI的性能。
AI參加并贏得了去年大賽中的1v1solo游戲環(huán)節(jié),職業(yè)選手說,看比賽回放,他們發(fā)現(xiàn)機器人有值得他們借鑒之處。但是,作為一個團隊來進行游戲引入了不同類型的復(fù)雜性, OpenAI必須教會AI機器人進行協(xié)作。
在任何時候,英雄(或角色)可以從1000個動作中選擇出一個來執(zhí)行;機器人必須做出有效的判斷,同時處理大約20000個值,這些數(shù)值代表特定時間游戲時刻正在發(fā)生的事情。國際象棋中可能采取的行動的平均數(shù)量為35,因此它比在90年代擊敗國際象棋特級大師加里·卡斯帕羅夫的超級電腦深藍還要來得稍微復(fù)雜點。
OpenAI使用強化學習算法。這基本上是一種試錯法,隨著時間的推移,人工智能從完全隨機的行為發(fā)展出有方向性的游戲風格。 OpenAI在超過100000個CPU上運行Dota 2,并且AI每天的訓練量大概相當于人類180年的游戲時間,給AI提供充足的學習機會。此處鏈接為此前AI學習dota的畫面。
處理河道刷出的神符對AI來說是一個挑戰(zhàn),因為它們可以改變游戲的走向。由于不允許作弊,AI的視野也被限制在一屏上的內(nèi)容,人工智能需要推斷對手正在做的事情,并根據(jù)推斷做出后續(xù)決定。所以,在前面提到的團隊測試中,人類玩家不能購買水瓶和真假眼一類的物品,以及雙方可選的對戰(zhàn)陣容也相對狹窄——以免游戲走向?qū)Τ绦騺碚f過于復(fù)雜的局面。
但我們有理由相信這僅僅是個開始。
機器人具有先天優(yōu)勢,例如80ms的反應(yīng)時間,這比人類更快。他們每分鐘執(zhí)行150-170次動作,這與頂級人類選手相當。而隨著游戲時間累積,程序開發(fā)出的戰(zhàn)術(shù)思想與人類玩家越來越接近,比如打野、pick游戲中特定的核心戰(zhàn)略角色,合理分路,Gank 和支援隊友等。
當然,OpenAI的目標不是打造一支無與倫比的Dota 2戰(zhàn)隊,在把1500萬美元的大賽獎金帶回家,而是嘗試訓練AI解決各種復(fù)雜的問題。與此同時,在保留部分限制的條件下,吊打Dota人類冠軍團隊也足以令OpenAI的科學家感到心滿意足。
本文譯自engadget,由譯者 majer 基于創(chuàng)作共用協(xié)議(BY-NC)發(fā)布。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )