極光超算推動生成式AI發(fā)展,將支持運行當今規(guī)模最大的大語言模型!

作為阿貢國家實驗室Aurora超算的首席架構師和主要研究員,Olivier Franza在這臺極具雄心的科學儀器落地的過程中發(fā)揮了主導作用。

Aurora超算是英特爾最近參與的備受矚目的項目之一,它對英特爾整個系統(tǒng)產品組合都挺有挑戰(zhàn)性。事實上,Aurora超算不僅是世界上最大的GPU集群,同時,預計將成為第一臺峰值性能達到每秒2百億億次(2×10^18)浮點運算能力的超算。

作為一位在英特爾工作了22年的老兵,在面對Aurora超算時,Olivier Franza還是感受到了壓力。

2016年,Olivier Franza作為系統(tǒng)硬件架構師加入了Aurora項目,2021年,他成了首席架構師,目睹了Aurora項目向基于GPU架構的重大轉變。

“首席架構師要做的就是根據(jù)客戶的高標準要求,來調整超算的整體系統(tǒng)架構,”Franza解釋說。“首席架構師也會關注一些基本的參數(shù),比如總體性能指標,功耗情況,還有一些RAS(可靠性、可用性、可維護性)特性,這些對于構建有擴展性的系統(tǒng)都至關重要。”

當然,首席架構師要關注的是整個系統(tǒng)方方面面,從一個個節(jié)點到一個個機架再到整個系統(tǒng),還要包括各種網(wǎng)絡和存儲組件,都需要考慮到。

一次技術路線轉變?yōu)樗茉煳磥懋a品創(chuàng)造了機會

Aurora超算是早期規(guī)劃中計劃采用一系列的英特爾產品技術。隨著英特爾產品路線的調整,Aurora的規(guī)劃也做出改變。

當英特爾宣布打造數(shù)據(jù)中心GPU產品線后,F(xiàn)ranza參與到了英特爾數(shù)據(jù)中心GPU Max系列產品的設計討論工作當中。

所以說,Aurora超算不是一步到位成現(xiàn)在這樣的。Aurora超算的構建過程,影響著英特爾戰(zhàn)略和產品線規(guī)劃,也使得Aurora超算能在很高的層面解決規(guī)模和性能問題。

Franza表示,英特爾通過從組件到系統(tǒng)做出很多調整來滿足Aurora超算的需求。

比如,英特爾至強CPU Max系列處理器的架構和概念,就衍生自英特爾至強Phi的一些特性,這是第一個在封裝里集成了高帶寬和高容量創(chuàng)新內存架構的產品。

此外,為了追求更高的性能,Aurora超算的各種子系統(tǒng)都取得了一些進步,從刀片服務器的散熱,到高密度集成的方式再到存儲部分,都有許多創(chuàng)新。

值得一提的是,在這一過程中,英特爾還構建了一個全新的存儲系統(tǒng)——DAOS(分布式異步對象存儲)。

Franza表示,這是一個開源項目,可以在傳統(tǒng)硬件上實現(xiàn)高速存儲,而Aurora超算是首批使用DAOS的用戶之一,同時也是目前DAOS部署規(guī)模最大的用戶。

從設計組件到把數(shù)千個系統(tǒng)連在一起

Aurora超算項目加強了英特爾系統(tǒng)級思考能力,也推動了英特爾內部各業(yè)務部門之間的協(xié)作,與外部阿貢科學家和HPE(HPE是該項目的另外一個主要參與者)工程師之間的協(xié)作,有很多跨職能部門和跨組織的協(xié)作工作。

“讓一整個團隊統(tǒng)一行動,交付像Aurora這樣的超級計算機,對我們許多人來說,是一生難得一次的經(jīng)歷。”Franza說。

盡管工程師在六月份就安裝了最后一臺刀片服務器,但Aurora超算后續(xù)的大規(guī)模測試、穩(wěn)定性驗證還需要Franza 夜以繼日的工作。

Franza為一個大的團隊提供指導,該團隊負責Aurora超算的啟動、驗證、穩(wěn)定、優(yōu)化工作,盡可能發(fā)揮系統(tǒng)在負載下的性能表現(xiàn)。其中最值得注意的是High Performance Linpack(HPL)基準測試,這是Top500榜單的排名依據(jù),榜單上都是全球最強的超算系統(tǒng)。

每天早上,F(xiàn)ranza都會仔細檢查每個節(jié)點在夜間的運行情況,并為第二天及以后的工作制定計劃。每天下午,F(xiàn)ranza都會開會總結進展和遇到的難題。這樣的工作每天都有,而機器也一直在運轉當中。

“我們會系統(tǒng)地進行驗證,”Franza解釋說。“先從單個刀片服務器開始,然后轉向機架規(guī)模,再到多個機架規(guī)模,以此進行大規(guī)模驗證。”

Aurora超算由10624臺刀片服務器組成,擁有63744塊英特爾Max系列GPU,是世界上規(guī)模最大的GPU集群。在166個機架當中,使用了一共21248塊英特爾至強Max CPU。

Franza介紹稱,Aurora超算中心的大小相當于4個網(wǎng)球場那么大,聽起來規(guī)模就很大,但只有親眼看到它,才會真正意識到它有多大。

Franza的首要工作就是確保系統(tǒng)穩(wěn)定性,功能完善,還要能正常運行。這是一項非常艱巨的任務,而Franza已經(jīng)看到了勝利的曙光。

走在數(shù)據(jù)中心的通道里,看著燈光閃爍著,看著機器在正常運轉,這令Franza感到神清氣爽,并且很有滿足感和成就感。

“一生一次難得一次”的努力,打造解決科學難題的超級計算機

打造一座有影響力的科研超級計算機固然會面臨很多難題和阻礙,但考慮到Aurora超算在癌癥研究方面的巨大潛力,有機會讓所有人受益,F(xiàn)ranza內心的使命感支撐他走了過來。

Aurora超算不僅會用于解決世界上一些最復雜的科學和工程問題,它還是運行生成式AI,并將生成式AI用于研究的理想平臺。

據(jù)了解,Aurora超算將支持迄今為止,規(guī)模最大的大型語言模型,即1萬億參數(shù)的Aurora GenAI項目,從而提高科學家的工作效率、簡化科學家的工作。

Franza做的是一件了不起的事情,而工作中令他感到欣慰的還有團隊協(xié)作和友情。

Aurora超算是一項工程量浩大的項目,需要許多人付出長期努力,需要大量的毅力。

從Franza的介紹中了解到,其核心團隊一直保持著馬拉松式的心態(tài),直到最后一刻都不能放松,團隊需要的是那種能夠長時間專注于極具挑戰(zhàn)性事物的人,而這些人最終所取得的成就是大部分人都很難做到的。

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )