5月23日消息(水易)今日,CIOE中國光博會與C114通信網(wǎng)聯(lián)合舉辦“2024中國光通信高質(zhì)量發(fā)展論壇”第四場研討會——“AI時代:數(shù)據(jù)中心光互聯(lián)技術(shù)新趨勢”正式上線。會議邀請電信運營商、互聯(lián)網(wǎng)服務(wù)商、云計算廠商、模塊芯片商、科研院所、業(yè)內(nèi)專家,深入探討光互聯(lián)和全光交換的應(yīng)用及其面臨的機遇和挑戰(zhàn)。
中國電信研究院高級工程師劉昊表示,AI大模型的出現(xiàn),驅(qū)動新型算力基礎(chǔ)設(shè)施建設(shè)不斷發(fā)展,傳統(tǒng)數(shù)據(jù)中心加速向智算中心轉(zhuǎn)型,對網(wǎng)絡(luò)的規(guī)模、時延、帶寬和可靠性等方面提出新的發(fā)展需求與挑戰(zhàn)。
數(shù)據(jù)顯示,截至2023年底,我國智能算力規(guī)模突破230EFLOPS,全面超過通用算力,并且差距逐漸拉開。中國電信積極響應(yīng)國家政策,在全國范圍內(nèi)部署智算中心集群,推動智算中心高質(zhì)量發(fā)展。
智算中心內(nèi)部光互連
中國電信集團(tuán)科技委主任韋樂平曾表示,以ChatGPT為代表的AI大模型近中期主要影響DCN網(wǎng)絡(luò)。DCN顧名思義就是數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò),智算中心內(nèi)部網(wǎng)絡(luò)也包括其中,AI大模型訓(xùn)練需要DCN具備大規(guī)模、高帶寬、低時延、零丟包等能力。
劉昊介紹,AI大模型訓(xùn)練參數(shù)已達(dá)到千億-萬億的級別,需要千/萬卡GPU集群來滿足計算任務(wù),大規(guī)模組網(wǎng)成為剛需。同時,GPU網(wǎng)卡之間需要傳輸大量參數(shù)、梯度信息,高帶寬傳輸能力不可或缺。對于實時性要求高的應(yīng)用,難以預(yù)測的動態(tài)時延會對網(wǎng)絡(luò)性能造成嚴(yán)重影響,需重點關(guān)注時延和抖動指標(biāo)。更為重要的是,千分之一的丟包率,將導(dǎo)致AI算力下降50%。因此需要構(gòu)建無損數(shù)據(jù)中心網(wǎng)絡(luò)。
目前智算中心大規(guī)模組網(wǎng)主要有IB和RoCE兩種方案。對于IB組網(wǎng),英偉達(dá)能夠提供從GPU到服務(wù)器到交換機的全家桶式一體化解決方案,但成本高。RoCE基于以太網(wǎng)RDMA技術(shù),目前已發(fā)展到第二代,可以復(fù)用現(xiàn)有的以太網(wǎng)設(shè)備,成本低,備受青睞。
對于智算中心網(wǎng)絡(luò)的高帶寬需求,直接反映在光模塊的應(yīng)用上。隨著交換芯片容量來到51.2T,800G光模塊開始嶄露頭角。面對光模塊大規(guī)模部署應(yīng)用,成本和功耗問題日益顯著,打造綠色、低碳的智算中心勢在必行。
為了改善千卡/萬卡集群算力消耗的功耗和時延,LPO/LRO新型光模塊備受關(guān)注。劉昊介紹,目前產(chǎn)業(yè)正加快標(biāo)準(zhǔn)化進(jìn)程,今年3月,12家單位成立LPO-MSA聯(lián)盟,旨在定義LPO系列標(biāo)準(zhǔn),不過能否實現(xiàn)規(guī)?;瘧?yīng)用有待時間檢驗。
想要進(jìn)一步降低設(shè)備的處理和轉(zhuǎn)發(fā)時延,基于SDN的光路交換技術(shù)(OCS)來到聚光燈下,為智算提供一種新型組網(wǎng)方案。目前谷歌和英偉達(dá)都有相應(yīng)方案,器件方面Lumentum、光迅都稱有相應(yīng)產(chǎn)品。不過,是否能充分發(fā)揮其自身優(yōu)勢取決于應(yīng)用方式,控制器需要升級以滿足無損應(yīng)用。
智算中心之間光互連
AI大模型的持續(xù)火熱,對算力的需求持續(xù)攀升,超大規(guī)模智算中心資源日漸稀缺,跨區(qū)域算力協(xié)同成為算力資源的重要補充。
劉昊介紹,以中國電信為例,目前已經(jīng)在全國范圍內(nèi)部署眾多智算中心,同時大量中小型智算中心算力不足,考慮到合理利用,通過對跨區(qū)域中小型智算中心進(jìn)行組網(wǎng),實現(xiàn)遠(yuǎn)距離算力協(xié)同調(diào)度。
對于智算中心拉遠(yuǎn)需求,WDM/OTN是不二之選,其大帶寬、低時延、強保護(hù)等特性,能夠為智算提供穩(wěn)定的傳輸管道。劉昊表示,不同于在同一智算中心執(zhí)行訓(xùn)練任務(wù),智算中心拉遠(yuǎn)面臨一系列挑戰(zhàn),包括傳輸時延對模型訓(xùn)練的效率影響,遠(yuǎn)距離通信如何做到無損傳輸,傳輸設(shè)備引入的建設(shè)成本,不同類型設(shè)備之間能否解耦。
在劉昊看來,拉遠(yuǎn)場景下開放的智算光網(wǎng)絡(luò)系統(tǒng)有助于提高模型訓(xùn)練效率,短期方案是信息實時共享,這需要制定協(xié)議,如傳輸側(cè)感知無損業(yè)務(wù)類型、帶寬、VLAN等,IP側(cè)感知時延、帶寬等;終極目標(biāo)是控制器管理所有設(shè)備,需要跨專業(yè)協(xié)同,難度大。整體來看,DCI場景下跨域設(shè)備管控方案建議標(biāo)準(zhǔn)先行。
據(jù)了解,在開放解耦的道路上,中國電信具備一定的經(jīng)驗積累。中國電信的DCI-BOX盒式波分設(shè)備經(jīng)過兩期發(fā)展迭代,具備城域內(nèi)組網(wǎng)能力,支持10G-100G業(yè)務(wù)接入能力,單波200G/400G,具備光層組網(wǎng)能力,可覆蓋滿足大帶寬數(shù)據(jù)中心互聯(lián)、城域波分組網(wǎng)場景。
對于DCI-BOX能否繼續(xù)在智算場景發(fā)揮價值?劉昊認(rèn)為,盒式波分設(shè)備支持城域組網(wǎng),具備向800G演進(jìn)的水平,其開放解耦的特征能夠支撐智算拉遠(yuǎn)場景應(yīng)用。
劉昊介紹,近期中國電信北京公司在現(xiàn)網(wǎng)完成城域三節(jié)點無損智算網(wǎng)絡(luò)部署,采用800G組網(wǎng)方案,分布式訓(xùn)練性能達(dá)到集中式單智算中心訓(xùn)練性能的90%以上,證實了分布式無損智算網(wǎng)技術(shù)方向的可行性。后續(xù),中國電信將在此基礎(chǔ)上進(jìn)一步驗證更高速率組網(wǎng)方案,以及嘗試采用空芯光纖降低傳輸時延,驗證其對運算效率提升的影響。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 國家發(fā)改委成立低空經(jīng)濟(jì)發(fā)展司
- 什么是人工智能網(wǎng)絡(luò)? | 智能百科
- 工信部:2025年推進(jìn)工業(yè)5G獨立專網(wǎng)建設(shè)
- 人工智能如何改變?nèi)蛑悄苁謾C市場
- 企業(yè)網(wǎng)絡(luò)安全挑戰(zhàn)頻出?Fortinet 給出破解之法
- 2025年生成式人工智能將如何影響眾行業(yè)
- 報告:人工智能推動數(shù)據(jù)中心系統(tǒng)支出激增25%
- 千家早報|馬斯克預(yù)測:人工智能或?qū)⒊絾蝹€人類;鴻蒙生態(tài)(武漢)創(chuàng)新中心啟用,推動鴻蒙軟硬件在武漢首試首用——2024年12月27日
- 中移建設(shè)被拉入軍采“黑名單”
- 大理移動因違規(guī)套現(xiàn)等問題,擬被列入軍采失信名單
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。