近日,微眾銀行推出金融行業(yè)AI智算場景首款自研交換機,并首度披露高性能AI智算網絡解決方案。該方案實現了AI智算場景下從硬件層的交換機、到軟件層的網絡操作系統、再到智能網絡管控的全鏈路自主可控。
目前,該款交換機已在微眾銀行生產運營環(huán)境正式投入使用,最高可滿足400G GPU/NPU算力卡的組網需求,建網成本節(jié)省約70%,為微眾銀行邁向AI原生奠定重要基礎。
大模型時代,基于海量數據的AI分布式訓練經常受限于“網絡擁塞”。特別是在基于以太網開展的AI分布式訓練中,由于流量的低熵特性,傳統多鏈路等價負載分擔容易造成網絡擁塞,無法滿足金融業(yè)對高帶寬、低時延、零丟包的嚴苛要求。如果依賴外部商用單點優(yōu)化解決方案,不僅成本高昂,且無法高效、系統、全面地優(yōu)化升級。
面對這一難題,微眾銀行另辟蹊徑,深度拆解自身業(yè)務發(fā)展需求,面向AI智算場景,打造軟硬件全棧自主可控的高性能AI智算網絡解決方案,實現軟硬件解耦與靈活組合配置。
硬件方面,微眾銀行基于12.8T國產交換芯片和國產CPU打造專屬交換機,適配國內外主流GPU和NPU計算資源。交換機支持高達1.6T的RDMA(Remote Direct Memory Access,即“遠程直接內存訪問”)接入能力,最高能夠支撐400G 的GPU/NPU算力卡在無損以太網環(huán)境下的組網需求,為金融行業(yè)在AI算力卡選型上拓展了更多可能性。
軟件方面,微眾銀行基于開源的SONiC(Software for Open Networking in The Cloud,即“云中開放網絡軟件”)自研網絡操作系統,創(chuàng)新性研發(fā)適應不同組網架構、可自定義的鏈路級負載分擔組件,使得大規(guī)模部署無損以太網更絲滑。如若鏈路發(fā)生故障,該組件能夠在毫秒之間將流量切換至備份鏈路上,極大縮短故障影響范圍與時長。
值得一提的是,針對日常AI訓練過程,如何快速發(fā)現網絡擁塞并妥當處理極為關鍵。為此,微眾銀行在軟件層進一步自研智能網絡管控系統,為AI智算網絡提供智能化調度的“全知視角”,實現全網設備擁塞指標秒級采集監(jiān)控,精準定位擁塞業(yè)務流量,并自動調度至最優(yōu)路徑。
此前,微眾銀行在利用開源SONiC自研網絡操作系統的同時,將網絡協議性能優(yōu)化方案開源反哺SONiC社區(qū),成為上榜SONiC官方貢獻組織名單的唯一金融機構,助力中國金融科技提升國際影響力。下一步,微眾銀行將持續(xù)迭代AI智算網絡解決方案,總結提煉在智能網絡管控方面的成熟經驗,計劃未來形成標準化公共組件面向全球開源共享,助力AI智算網絡高質量發(fā)展。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )