燧原科技發(fā)布云燧智算機,定義人工智能算力中心建設實踐

凝聚燧原科技兩代芯片研發(fā)與多個大規(guī)模人工智能算力中心工程實踐,面向大規(guī)模、集約化、綠色低碳數據中心建設,云燧智算機(CloudBlazer POD)正式發(fā)布。

2022年9月3日,中國上?!菰萍荚?022世界人工智能大會“算盡其用·定義AI算力中心新實踐”云端算力產業(yè)應用論壇上正式發(fā)布云燧智算機(CloudBlazer POD)。云燧智算機是針對大規(guī)模、集約化人工智能算力應用場景推出的高性能人工智能加速集群產品,通過一站式預集成人工智能加速硬件、一體化開發(fā)與管理平臺及配套人工智能應用軟件與服務,可廣泛應用于數字政府、科研院所、科創(chuàng)平臺等企事業(yè)單位。

基于燧原科技過往多個大規(guī)模AI算力中心工程實踐

作為國內已落地超千卡規(guī)模液冷AI集群的人工智能算力企業(yè),燧原科技的第一代和第二代“邃思”芯片均已實際應用于大規(guī)模AI集群工程中,支撐融媒體生成、城市智能感知等多樣化場景。根據過往落地實踐,燧原科技發(fā)現,人工智能數據中心因其軟件運維復雜,普遍具有方案選型難、各廠商產品兼容未知等痛點,而且數據中心部署交付周期長、溝通成本高、項目管理周期長。

開箱即用,實現智算中心優(yōu)異TCO

云燧智算機采用一體化設計,是專為人工智能場景下計算、存儲、網絡、軟硬協同設計的標準化產品,提供高可用的整體安全設計,確保集群架構擴展性能符合預期,提供包括采購、安裝、運維一體的交鑰匙方案。對數據中心的環(huán)境和IT計算資源提供全面的監(jiān)控和管理,提高集群部署、測試的質量和效率,輔助用戶提升運營效益和降低運行成本,幫助用戶提升運維價值,為用戶實現AI算力中心從交付部署到后期上線及運維管理全生命周期中的優(yōu)異總擁有成本(TCO)。

全局優(yōu)化,提供卓越AI性能保障

云燧智算機代表了燧原科技經過多個大規(guī)模工程實踐所形成的計算、網絡、存儲的整體設計:以全局優(yōu)化為目標,基于計算、存儲、管理網絡分離,全互聯無阻塞的網絡架構,結合高效的多級存儲方式,在強大的“邃思”芯片與CPU的異構算力支撐下,云燧智算機能夠提供卓越的AI性能。

云燧智算機整體設計

PUE=<1.1,滿足新型數據中心要求

基于雙碳目標以及綠色環(huán)保的總體趨勢,無論是新型數據中心的規(guī)劃建設,以及東數西算的政策性要求,都對數據中心整體能效(Power Usage Effectiveness,PUE)有明確的優(yōu)化指標性要求。云燧智算機采用一體化冷板式液冷技術,實現單節(jié)點8顆高性能人工智能芯片液冷散熱,通過液冷板等高效熱傳導部件將被冷卻對象的熱量傳遞到自然冷媒中,采用先進流量控制系統,大幅提高流量變化范圍、降低能耗,擁有架構簡約、系統可靠、智能監(jiān)控等特性,PUE可降至1.1及以下。

搭載經業(yè)務實證的AI芯片,軟硬協同算盡其用

突破E級算力,最高可支持超千卡規(guī)模集群

依托于“邃思”芯片核心能力,在典型配置下,云燧智算機每單元可達到8PFLOPS的TF32浮點算力,并且支持按需橫向擴容,可支持數千卡規(guī)模集群,突破E級算力,打造業(yè)界領先的超級算力集群。

軟件協同,充分釋放集群的生產力價值

目前算力構成復雜,多CPU架構,多異構計算單元,并且考慮到集群本身一般服務于多用戶、多場景的特性,如何能夠對上層用戶屏蔽底層算力異構性、賦能用戶高效開發(fā)與部署上線AI應用,真正釋放集群作為生產力工具的價值——軟件是關鍵要素。

燧池智算平臺(CloudBlazer Station)是全棧式人工智能開發(fā)服務平臺和通用的大規(guī)模算力管理平臺,結合強大的云燧AI算力集群和先進的大規(guī)模算力資源調度,為用戶提供人工智能模型生產及應用發(fā)布的全流程服務能夠一站式滿足復雜的人工智能業(yè)務場景對人工智能服務的需求。

燧池智算平臺(CloudBlazer Station)

可支持超千億參數巨量模型的高效、并行訓練

大規(guī)模數據訓練超大參數量的巨量模型是人工智能的發(fā)展方向,“預訓練大模型+下游任務微調”的模型開發(fā)方式將極大提升企業(yè)的AI應用開發(fā)效率,開發(fā)者只需要少量行業(yè)數據就可以快速開發(fā)出精度更高、泛化能力更強的AI模型。

而訓練出一個大模型,除了算法和數據,還需要超大規(guī)模的算力支撐。基于云燧智算機所構成的大規(guī)模集群解決方案采用高帶寬、全互聯拓撲架構,計算、存儲、管理網絡全分離,計算節(jié)點內基于GCU-LARE2.0多芯互聯技術提供近1TB/s的互聯帶寬,跨節(jié)點互聯能力高達600Gb/s,可實現千卡級大規(guī)模集群高速互聯,具備優(yōu)異的線性加速比以支撐超千億參數巨量模型的高效、并行訓練。

燧原科技創(chuàng)始人兼COO張亞林表示:“云燧智算機是結合了云燧訓練和推理產品在行業(yè)落地的實踐經驗,以全方位降低AI算力中心部署和應用成本為目標所推出的全新系統一體化產品,面向大規(guī)模、集約化、綠色低碳數據中心建設。我們始終專注于客戶的價值和體驗,致力于為客戶提供完備且易用的人工智能系統軟硬件產品,同時積極響應國家綠色低碳高質量發(fā)展的戰(zhàn)略目標。”

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

贊助商
2022-09-03
燧原科技發(fā)布云燧智算機,定義人工智能算力中心建設實踐
凝聚燧原科技兩代芯片研發(fā)與多個大規(guī)模人工智能算力中心工程實踐,面向大規(guī)模、集約化、綠色低碳數據中心建設,云燧智算機正式發(fā)布。

長按掃碼 閱讀全文