HPC、AI與云計算:當智能時代三叉戟在亞馬遜云科技完美融合

原標題:HPC、AI與云計算:當智能時代三叉戟在亞馬遜云科技完美融合

希臘神話中,海神與豐收之神波塞冬手持三叉戟,為航船保駕護航,為農(nóng)人帶來清泉。從此之后,三叉戟經(jīng)常用來比喻三種事物緊密結(jié)合,形成合力,比如足球世界很多球隊都有經(jīng)典的鋒線三叉戟。

在企業(yè)上云與產(chǎn)業(yè)智能化的浪潮里,也有前沿技術趨勢上的三叉戟組合:業(yè)務與組織上云正在成為絕大多數(shù)企業(yè)的數(shù)字化發(fā)展選擇;算力逐漸成為企業(yè)的戰(zhàn)略性資源,而云端近乎無限的集群算力,使越來越多的行業(yè)與場景創(chuàng)新可以依賴云端高性能計算來完成;AI正在改變千行百業(yè)的生產(chǎn)方式,成為科研與產(chǎn)業(yè)探索的先驅(qū)力量,機器學習和深度學習也帶來了人工智能專項算力需求的爆發(fā)。

而在很多人的印象中,HPC高性能計算、AI、云服務的三叉戟還處在各自獨立,并行發(fā)展的階段,尤其在云端實現(xiàn)高性能計算似乎還過于前衛(wèi)。

但從產(chǎn)業(yè)效率的邏輯上看,在云端實現(xiàn)可以高質(zhì)量、高效率的AI訓練與部署的高性能計算,其實是產(chǎn)業(yè)集約化與社會低成本創(chuàng)新的大勢所趨。只有把這三項技術完美融合到一起,才能鑄成智能時代所需的數(shù)字化三叉戟。

如何熔煉這把時代三叉戟,亞馬遜云科技已經(jīng)有了一些答案。

走向云端:高性能計算的產(chǎn)業(yè)趨勢與挑戰(zhàn)

云計算與高性能計算的關系,真的只能格格不入嗎?答案可能并非如此。

根據(jù)Hyperion Research市場調(diào)研的數(shù)據(jù)來看,到2022年底將會有18.8%的HPC在云端運行,而這個數(shù)據(jù)在2021年是12.3%,雖然大多數(shù)HPC任務依舊依賴于超算中心和本地硬件,但在云端獲取高性能計算,可以說是產(chǎn)業(yè)發(fā)展的大勢所趨。在云端獲取高性能計算,在目前階段客戶會擔心遇到一些挑戰(zhàn)。比如說:管理挑戰(zhàn),大規(guī)模計算集群難以創(chuàng)建和管理,是否能夠有快捷的部署方式和高效便捷的管理手段;能效挑戰(zhàn),或者說是對云上高性能計算的性價比考慮,如何在云端發(fā)揮HPC的最大能效是很多用戶擔心的話題;安全挑戰(zhàn),大量HPC處理的任務與數(shù)據(jù)都密不可分,有數(shù)據(jù)勢必會有數(shù)據(jù)安全的顧慮,云端的數(shù)據(jù)安全如何交付給用戶一個放心的環(huán)境。

但從高性能計算行業(yè)發(fā)展趨勢上看,這些問題都是可以在實踐中被逐個解決的。從基礎的計算邏輯上看,云端獲取高性能計算更加經(jīng)濟實惠,并且用戶可以彈性獲取異構計算資源,真正實現(xiàn)計算與任務的適配。從單個節(jié)點性能上看,云端的計算資源性能更好;而在計算集群場景下,云端可以讓用戶獲得線性增長的計算性能,避免算力浪費。

所以,在云端實現(xiàn)高性能計算并不是不可能,反而因為云端海量擴展的算力,不斷增強的但節(jié)點的計算性能,以及方便高效的算力管理手段,以及云原生的系統(tǒng)及數(shù)據(jù)的安全保障,使得眾多行業(yè)的高性能計算可以得以在云端運行。

在如何實現(xiàn)云端獲取可靠HPC的探索中,亞馬遜云科技已經(jīng)實現(xiàn)了行業(yè)領軍級的探索。

技術融合與產(chǎn)業(yè)平衡:亞馬遜云科技的高性能計算探索

在目前階段,亞馬遜云科技已經(jīng)可以提供高度可定制的 HPC 計算平臺,為用戶帶來多樣化的異構計算資源以及定制化的計算實例。尤其值得注意的是,以軟件生態(tài)豐富著稱的亞馬遜云科技在HPC領域同樣提供了大量可用、低成本的軟件,幫助用戶解決管理與調(diào)度等領域的問題。

總體而言,亞馬遜云科技的HPC探索呈現(xiàn)出兩大核心差異:芯片、云、存儲、軟件、AI等領域的技術經(jīng)驗的高度融合,以及面向行業(yè)需求與用戶痛點,進行了大量高度產(chǎn)業(yè)指向的軟硬件生態(tài)。

在高性能計算客戶關心的計算,網(wǎng)絡,存儲以及應用軟件生態(tài)適配上,亞馬遜云科技都為客戶提供了成熟的HPC相關服務保障。

在算力層,亞馬遜云科技提供包括CPU、GPU、ARM在內(nèi)的多樣化異構計算支持,以及定制化的彈性計算實例,滿足用戶在AI等HPC高發(fā)任務中的計算資源需求。

在存儲層,集群化算力需求會導致對存儲的海量高并發(fā)訪問,這就讓存儲的性能非常關鍵。亞馬遜云科技提供了面向高性能計算場景的存儲支撐,并且可以在云端實現(xiàn)多級的文件存儲策略,幫助用戶實現(xiàn)根據(jù)計算需求來彈性規(guī)劃存儲使用,進而實現(xiàn)降低云端HPC的存儲成本,提升數(shù)據(jù)調(diào)用、管理效率。

在云端的網(wǎng)絡里,亞馬遜云科技可以為客戶提供超級計算應用程序所需的持續(xù)低延遲,高帶寬的網(wǎng)絡環(huán)境,用戶可以采用亞馬遜云科技推出的高達100Gbps帶寬吞吐,支持MPI的EFA(Elastic Fabric Adapter)網(wǎng)卡,推出了低延遲,降低網(wǎng)絡抖動的SRD(Scalable Reliable Datagram)協(xié)議,加速節(jié)點之間的通信。

在軟件層,亞馬遜云科技面向遷移、調(diào)度,包括可視化等等HPC場景需求,提供了豐富且低成本的軟件工具。比如使用亞馬遜云科技 ParallelCluster 可以說實現(xiàn)快速構建 HPC 計算環(huán)境,簡化 HPC 集群的部署和管理。亞馬遜云科技 Step Functions 是一項低代碼、可視化的工作流服務,可以幫助開發(fā)人員構建分布式應用程序、自動化 IT 和業(yè)務流程并構建數(shù)據(jù)和機器學習管道,從而降低綜合開發(fā)成本。這對于AI等領域的高性能計算任務來說非常重要。豐富、專業(yè)且低門檻的軟件生態(tài),讓亞馬遜云科技可以幫助高性能計算用戶節(jié)約掉巨大的軟件定制開發(fā)成本,實現(xiàn)產(chǎn)業(yè)級的高性能計算應用。

基于亞馬遜云科技多樣化的高性能計算探索,在云端獲取集群化的澎湃算力已經(jīng)成為可能。而這樣一種可能帶來的直接影響,就是為大規(guī)模的AI應用潮奠定基礎。

智能晨曦:AI大航海帶來的計算浪潮

隨著預訓練大模型與AI科學計算開始成為行業(yè)主流,AI訓練與部署所需的算力開始激增,尤其是AI任務對高性能計算的依賴逐漸被放大?;蛟S可以說,產(chǎn)業(yè)智能化的晨曦逐漸綻放,必須建立在HPC的堅實算力基座上。

新藥研發(fā)、科研研究、地質(zhì)勘探等結(jié)構復雜、數(shù)據(jù)量龐大的AI任務開始增多,對HPC提出了一系列全新的需求。比如計算集群化的要求不斷提升,異構計算的能力要求更加嚴苛、數(shù)據(jù)吞吐量與吞吐效率要求不斷加強等等。而在這樣的“AI大航?!睍r代,如果企業(yè)和科研機構依舊廣泛采用搭建硬件計算池的方向來實現(xiàn)HPC,那么顯然產(chǎn)業(yè)效率很低,綜合成本浪費巨大,而物理集群從硬件采購,到安裝、部署等都需要較長的時間。對于時效性要求極高的高性能計算任務來說,顯然無法滿足其需求。

面對機器學習、深度學習以及其他AI任務帶來的算力需求,亞馬遜云科技在云端不僅提供了搭載企業(yè)級GPU的計算資源,同時針對機器學習和深度學習的工作特點,自主研發(fā)了相對應的芯片,并且通過云服務的形式交付給客戶使用。目前階段,亞馬遜云科技可以為客戶的機器學習與深度學習任務提供搭載了4000張NVIDIA A100 GPU的超大規(guī)模計算集群,提供400 Gbps非阻塞聯(lián)網(wǎng)基礎設施,以及通過 FSx for Lustre 實現(xiàn)的高吞吐能力、低延遲存儲。而這樣規(guī)模的計算集群,在物理超算中心中其實是很難實現(xiàn)的。在AI大航海時代,從云端獲取針對機器學習、深度學習的高性能算力顯然是最合理的方案。

面向智能時代必然高速涌起的HPC需求,亞馬遜云科技通過產(chǎn)業(yè)知識與服務經(jīng)驗的積累,最終將AI、HPC、云計算,三項明星技術融合成了一把三叉戟。這把三叉戟還將持續(xù)進化,幫助用戶在智能化浪潮中出海遠航,在數(shù)字化田野中收獲價值。

在今年6月初的全球ISC2022大會上,亞馬遜云科技推出了一系列針對高性能計算的云服務,有專門針對HPC工作負載的計算實例HPC6a。經(jīng)過優(yōu)化,可高效運行計算密集型、高性能計算工作負載,如計算流體動力學、油藏建模、天氣模擬,以及有限元分析等。相對于與之相當?shù)?Amazon EC2 基于 x86 的計算優(yōu)化型實例,Hpc6a 實例所提供的性價比最多更高出 65%。使用 Hpc6a 實例,您可以大幅降低 HPC 工作負載的成本,同時利用 AWS 的彈性和可擴展性。在GPU實例上,新型實例 Amazon EC2 P4de 推出預覽版,這款實例可提供機器學習(ML)訓練和高性能計算(HPC)應用程序所需的極佳性能,例如對象檢測、語義分割、自然語言處理、地震分析和計算流體動力學等。而亞馬遜云科技一直以來致力于發(fā)展的基于ARM的芯片Graviton系列,也在今年發(fā)布了第三代Graviton處理器系列的最新產(chǎn)品Graviton3。與AWS Graviton2處理器相比,它們的計算性能提高了25%,浮點性能提高了2倍,加密工作負載性能提高了2倍。

想要了解亞馬遜云科技在高性能計算領域的持續(xù)進化;想要明晰高性能計算如何與機器學習,真正量子計算這樣的前沿科技相結(jié)合;想要提前洞察各行業(yè)中蘊藏的計算潛力,不妨關注8月24日13:30在金茂北京威斯汀大飯店三層會議大廳 AB舉辦的“亞馬遜云科技 HPC +云上業(yè)務加速創(chuàng)新論壇”。

這場活動將匯聚來自亞馬遜云科技與各行業(yè)的技術專家,共同梳理計算與智能的發(fā)展軌跡,揭秘“ HPC +”時代的創(chuàng)新機遇。

8月24日,我們不見不散。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2022-08-17
HPC、AI與云計算:當智能時代三叉戟在亞馬遜云科技完美融合
想要了解亞馬遜云科技在高性能計算領域的持續(xù)進化;想要明晰高性能計算如何與機器學習,真正量子計算這樣的前沿科技相結(jié)合;想要提前洞察各行業(yè)中蘊藏的計算潛力,不妨關注8月24日13:30在金茂北京威斯汀大

長按掃碼 閱讀全文