4月21日專(zhuān)稿(蔣均牧)當(dāng)大模型參數(shù)量突破萬(wàn)億級(jí)、智算集群規(guī)模向百萬(wàn)卡邁進(jìn),智算中心作為數(shù)字經(jīng)濟(jì)的核心基礎(chǔ)設(shè)施,正面臨前所未未有的挑戰(zhàn)與機(jī)遇。如何以更低的功耗承載更高的帶寬,如何以更靈活的架構(gòu)支撐動(dòng)態(tài)的算力需求,如何以更可靠的聯(lián)接保障持續(xù)的訓(xùn)練?答案,或許就藏在光互聯(lián)技術(shù)的革新中。
就在4月17日下午舉辦的“超大規(guī)模智算中心:1.6T時(shí)代的全光互聯(lián)”上,華為光產(chǎn)品線專(zhuān)家劉曉妮系統(tǒng)闡述了智算中心光互聯(lián)的演進(jìn)趨勢(shì)與華為創(chuàng)新成果。她指出,谷歌作為行業(yè)先行者,已在數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)核心層和智算參數(shù)面規(guī)?;渴鹑饨徊妫∣CS),完成了90%的替代,并推動(dòng)OCS從“單點(diǎn)突破”走向“全局重構(gòu)”。而華為推出的數(shù)據(jù)中心全光交叉(DC-OXC)解決方案,通過(guò)光電混合架構(gòu)與動(dòng)態(tài)拓?fù)湔{(diào)度能力,為超萬(wàn)卡集群的彈性擴(kuò)展與高效協(xié)同提供了全新范式。
從谷歌實(shí)踐,看光互聯(lián)核心價(jià)值
LightCounting數(shù)據(jù)顯示,2024年以太網(wǎng)光模塊市場(chǎng)規(guī)模突破100億美元,同比增長(zhǎng)近100%,未來(lái)五年仍將保持15%~18%的復(fù)合增速。增長(zhǎng)背后,是超大規(guī)模集群對(duì)高速互聯(lián)的極致追求:英偉達(dá)Rubin架構(gòu)下,288卡GPU集群需5184個(gè)1.6T光模塊,傳統(tǒng)電互聯(lián)在密度與功耗上漸漸變得難以為繼。
谷歌的探索為行業(yè)提供了重要參考,其Jupiter網(wǎng)絡(luò)通過(guò)OCS替代傳統(tǒng)電交換機(jī)核心層,實(shí)現(xiàn)了跨代際網(wǎng)絡(luò)的高效互通。劉曉妮援引谷歌公開(kāi)數(shù)據(jù)指出,OCS的引入使DCN核心層不再受電芯片迭代周期束縛,網(wǎng)絡(luò)拓?fù)淇砂戳髁坑H和性動(dòng)態(tài)調(diào)整,效率提升10倍,停機(jī)時(shí)間減少98%,同時(shí)降低40%功耗與30%設(shè)備投資。
劉曉妮強(qiáng)調(diào),OCS不僅是聯(lián)接工具,更是算力資源動(dòng)態(tài)調(diào)度的核心樞紐。谷歌將OCS下沉至智算參數(shù)面,基于3D-Torus架構(gòu)構(gòu)建TPU集群。以TPU v4為例,64個(gè)機(jī)柜通過(guò)OCS互聯(lián),形成4096卡的超大規(guī)模算力單元,故障隔離效率提升50倍,集群可用性從8%躍升至75%。谷歌TPU v7延續(xù)了這一架構(gòu),并在6000卡集群中完成PaLM大模型訓(xùn)練,驗(yàn)證了光互聯(lián)在超大規(guī)模AI訓(xùn)練中的可行性。
華為DC-OXC:破解智算中心三大困局
隨著智算集群規(guī)模的迅速膨脹,全球智算中心建設(shè)普遍面臨著“規(guī)模受限、可靠性衰減、效率瓶頸”三大挑戰(zhàn)。有鑒于此,華為推出了DC-OXC解決方案,以三層創(chuàng)新實(shí)現(xiàn)破局。
首先是架構(gòu)之變,從“堆疊枷鎖”到“樂(lè)高式擴(kuò)展”:傳統(tǒng)CLOS架構(gòu)受限于電交換機(jī)端口密度,萬(wàn)卡集群需多層堆疊,導(dǎo)致時(shí)延與擁塞點(diǎn)激增。華為DC-OXC在頂層構(gòu)建全光交換平面,支持計(jì)算單元(POD)按需分批接入,理論可擴(kuò)展至百萬(wàn)卡規(guī)模。“光層一次規(guī)劃、電層分步擴(kuò)容”的模式,既降低初期投資門(mén)檻,又避免重復(fù)布線帶來(lái)的資源浪費(fèi)。
可靠性躍升,光模塊故障削減92%的“零妥協(xié)”:據(jù)統(tǒng)計(jì),光模塊故障占智算網(wǎng)絡(luò)故障的92.3%,而華為DC-OXC采用免光模塊設(shè)計(jì),通過(guò)MEMS微鏡陣列實(shí)現(xiàn)全光交換,端口可靠性提升20%以上。實(shí)測(cè)數(shù)據(jù)顯示,光電混合架構(gòu)下,網(wǎng)絡(luò)平均無(wú)故障時(shí)間(MTBF)較全電方案優(yōu)化超20%,年停機(jī)時(shí)間減少25%。華為CloudMatrix 384超節(jié)點(diǎn)更將斷點(diǎn)恢復(fù)時(shí)間壓至10秒級(jí),支撐大模型訓(xùn)練穩(wěn)定運(yùn)行40天。
效率優(yōu)化,跳數(shù)減1,性能增益3.5%:在時(shí)延敏感型場(chǎng)景中,華為DC-OXC通過(guò)扁平化架構(gòu)將傳輸跳數(shù)從5跳降至4跳,單跳時(shí)延降低5~6μs。仿真和實(shí)測(cè)顯示,可助力GPT-MoE等模型訓(xùn)練任務(wù)吞吐量提升1.5%~3.5%,小規(guī)模集群實(shí)測(cè)性能增益達(dá)2%。在推理場(chǎng)景下,一次All-to-All通信時(shí)延減少6.57μs,58層模型靜態(tài)時(shí)延累計(jì)降低762μs,10ms場(chǎng)景性能可提升7%。此外,光互聯(lián)的物理隔離特性還為多租戶場(chǎng)景提供了更高的安全性和靈活性。
從谷歌的OCS規(guī)?;瘜?shí)踐,到華為DC-OXC的多場(chǎng)景突破,光互聯(lián)正從“技術(shù)選項(xiàng)”升級(jí)為“戰(zhàn)略必選”?;诠怆娀旌霞軜?gòu)的“穩(wěn)定光底座”將成為平衡規(guī)模、效率與成本的核心基礎(chǔ)設(shè)施,而華為通過(guò)端到端光技術(shù)創(chuàng)新,為全球智算中心提供了一條清晰、高效的演進(jìn)路徑——以光為基,改寫(xiě)全球AI競(jìng)合的規(guī)則。
- 中國(guó)聯(lián)通測(cè)試衛(wèi)星通信業(yè)務(wù):限6省市用戶,2分鐘10元/月
- 華為入選Gartner領(lǐng)導(dǎo)者象限:網(wǎng)絡(luò)數(shù)字地圖為數(shù)據(jù)中心網(wǎng)絡(luò)裝上衛(wèi)星導(dǎo)航
- 定位AI原生企業(yè)!酷開(kāi)發(fā)布“超級(jí)智能體”,重構(gòu)終端價(jià)值
- 中國(guó)移動(dòng)5G網(wǎng)絡(luò)客戶數(shù)達(dá)5.78億戶,有線寬帶客戶數(shù)達(dá)3.20億戶
- 中國(guó)移動(dòng)Q1營(yíng)收2638億元:凈利潤(rùn)306億元,同比增長(zhǎng)3.45%
- 數(shù)字化浪潮下,智能建筑、智能工業(yè)與智慧城市如何協(xié)同進(jìn)化?
- 科大訊飛吳曉如:聚焦核心業(yè)務(wù),產(chǎn)線數(shù)量從60條縮減至46條
- 人工智能正在重塑未來(lái)建筑的設(shè)計(jì)與建設(shè)模式
- 電力行業(yè)4.0的關(guān)鍵:數(shù)字孿生
- 釋放工業(yè)潛力:可視化分析在工業(yè)領(lǐng)域的變革力量
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。