7月11日消息(水易)在近日舉行的“2024算網(wǎng)融合產(chǎn)業(yè)發(fā)展大會(huì)”主論壇上,中國電信研究院副院長傅志仁分享了中國電信在智算網(wǎng)絡(luò)技術(shù)的探索和實(shí)踐。
傅志仁表示,人工智能引爆算力需求,模型向百億級(jí)參數(shù)演進(jìn)。雖然隨著創(chuàng)新優(yōu)化,未來訓(xùn)練計(jì)算量增長放緩,但仍需要十萬卡級(jí)GPU集群。而國內(nèi)受需求、技術(shù)等方面制約,十萬卡集群短期建設(shè)及商用可能性較小。
另外,傅志仁指出:“算力不會(huì)走路,能走的就是數(shù)據(jù)。”而AI大模型訓(xùn)練/推理等工作需要在大量的計(jì)算單位中傳遞海量數(shù)據(jù),需要智算網(wǎng)絡(luò)具備超大規(guī)模、超低時(shí)延、超大帶寬、超高可靠等關(guān)鍵特征。
面向當(dāng)下萬卡場景,解決國產(chǎn)集群性能低、生態(tài)差、效率低的問題,以及面向未來更大規(guī)模場景,實(shí)現(xiàn)高性能計(jì)算和網(wǎng)絡(luò)根技術(shù)的自主掌控是關(guān)鍵。傅志仁介紹,中國電信的智算基礎(chǔ)研發(fā)布局,主要從芯片硬件、軟件生態(tài)、互聯(lián)能力、管理調(diào)度四個(gè)層面出發(fā)。
會(huì)上,傅志仁重點(diǎn)介紹了中國電信在互聯(lián)能力層的打造,以AIDC為核心進(jìn)行組網(wǎng),綜合固移融合的入算網(wǎng)絡(luò)、多機(jī)互聯(lián)的算內(nèi)網(wǎng)絡(luò)、IP/傳輸?shù)乃汩g網(wǎng)絡(luò)等能力,形成大規(guī)模、高效、無損、靈活的高性能智算網(wǎng)絡(luò),提升集群算力性能,破解算力供給發(fā)展難題,助力打造云網(wǎng)融合3.0新型算力基礎(chǔ)設(shè)施。
入算網(wǎng)絡(luò)方面,數(shù)字經(jīng)濟(jì)下各行各業(yè)都有海量數(shù)據(jù)產(chǎn)生,需要進(jìn)行存儲(chǔ)、傳輸以及處理。當(dāng)前海量數(shù)據(jù)的傳送大多需要靠硬盤搬運(yùn)或高價(jià)格的專線傳輸,無法同時(shí)滿足“快、好、惠”。
如何破解這一“不可能三角”問題,中國電信一是推出具有“泛在接入、隨建隨用、算網(wǎng)協(xié)同、安全可信”特性的“超算快線”產(chǎn)品,提供海量數(shù)據(jù)異屬、異構(gòu)、異域“入算”的統(tǒng)一解決方案。
傅志仁介紹,這一方案在持續(xù)完善網(wǎng)絡(luò)覆蓋、提供智算高速泛在入口的基礎(chǔ)上,還針對(duì)業(yè)務(wù)的偶發(fā)性特點(diǎn),提出定時(shí)定向的大規(guī)模數(shù)據(jù)傳輸方案,并通過定制化API接口讓用戶自助申請(qǐng)網(wǎng)絡(luò)閑時(shí)的帶寬資源,從而將原本帶寬受限的網(wǎng)絡(luò)線路彈性擴(kuò)容至高帶寬專線,并采用資源預(yù)約的機(jī)制將數(shù)據(jù)傳輸至智算中心進(jìn)行處理,在滿足超大規(guī)模數(shù)據(jù)彈性傳輸需求的同時(shí),降低算力使用成本、增強(qiáng)用戶自服務(wù)能力。
算內(nèi)網(wǎng)絡(luò)方面,在大模型的訓(xùn)練過程中,每一輪迭代GPU之間均需要傳送海量梯度數(shù)據(jù),因此需要構(gòu)建GPU計(jì)算單元之間的FULL-MESH全互聯(lián)與高速通道。主要面臨兩大挑戰(zhàn),一是建設(shè)萬卡池全互聯(lián)理論上需要的5000萬條連接,二是機(jī)內(nèi)帶寬與機(jī)間帶寬不匹配,當(dāng)前機(jī)內(nèi)總線帶寬大于機(jī)間網(wǎng)絡(luò)帶寬。
面對(duì)這一因網(wǎng)絡(luò)能力不足導(dǎo)致算力效率降低的技術(shù)問題,業(yè)界主要從四個(gè)技術(shù)維度解決智算網(wǎng)絡(luò)端到端承載的效率問題,即集合通信庫、擁塞控制、流量控制和負(fù)載均衡,具體解決方案分別聚焦端側(cè)、網(wǎng)側(cè)和端網(wǎng)協(xié)同側(cè)。
同時(shí)中國電信開展新型RDMA擁塞控制技術(shù)創(chuàng)新,自研算法通過端側(cè)主動(dòng)探測感知網(wǎng)絡(luò)擁塞進(jìn)行精細(xì)化流控,有效提高收斂速度、控制交換機(jī)隊(duì)列長度、降低小流延遲以及在NO-PFC/NO-ECN配置下避免丟包保證網(wǎng)絡(luò)穩(wěn)定性。
算間網(wǎng)絡(luò)方面,大模型訓(xùn)練需求下,智算中心規(guī)模受限,如何不新建/不穿墻打洞服務(wù)于大規(guī)模智算資源需求;同時(shí)電力供應(yīng)/機(jī)房空間成為大規(guī)模智算建設(shè)的瓶頸,需要解決單機(jī)房供電散熱、空間不足等問題。
傅志仁介紹,針對(duì)智算資源整合及分布式訓(xùn)練需求,可通過長距RDMA等新技術(shù)將百公里距離的多個(gè)智算中心并聯(lián)成虛擬的大型智算中心節(jié)點(diǎn),目前已經(jīng)完成系列技術(shù)驗(yàn)證證明該技術(shù)方向可行。
“從理論到實(shí)踐需要標(biāo)準(zhǔn)化的支撐?!备抵救蕪?qiáng)調(diào),中國電信堅(jiān)持國際化和國產(chǎn)化兩條技術(shù)路線并舉的雙輪驅(qū)動(dòng)原則,聚焦國際UEC以及國內(nèi)CCSA等產(chǎn)業(yè)聯(lián)盟/標(biāo)準(zhǔn)組織,開展產(chǎn)業(yè)鏈對(duì)話、交流、合作,增強(qiáng)技術(shù)協(xié)作,統(tǒng)一共識(shí),將中國電信的網(wǎng)絡(luò)/業(yè)務(wù)/產(chǎn)品等需求納入規(guī)范,推動(dòng)智算網(wǎng)絡(luò)相關(guān)接口和協(xié)議的標(biāo)準(zhǔn)化。
傅志仁表示,希望產(chǎn)學(xué)研合作、產(chǎn)業(yè)聯(lián)盟、算力提供商、網(wǎng)絡(luò)供應(yīng)商、技術(shù)/服務(wù)提供商齊心協(xié)力,打造廣泛合作、生態(tài)開放、協(xié)同創(chuàng)新的智算基礎(chǔ)設(shè)施。中國電信也將不斷夯實(shí)網(wǎng)絡(luò)基礎(chǔ),深化云網(wǎng)融合3.0,打造新型智算基礎(chǔ)設(shè)施生態(tài),培育新質(zhì)生產(chǎn)力。
- AI大模型下的高性能網(wǎng)絡(luò)
- 中興通訊Wi-Fi 7靈妙系列產(chǎn)品榮獲C114通信網(wǎng)“Wi-Fi 7產(chǎn)品創(chuàng)新獎(jiǎng)”
- AI智能算力發(fā)展趨勢探索
- 邊境村寨不邊緣,5G+FTTR護(hù)航愛家健康和生產(chǎn)生活
- 信號(hào)升格助力景邁山申遺,千年茶山戴上數(shù)字光環(huán)
- 如何選擇100G高速線纜?詳細(xì)指南
- 浙江:在量子科技等領(lǐng)域形成一批“1到10”“10到100”的標(biāo)志性成果
- 深度解析聯(lián)通2024年光纜集采:價(jià)格博弈、格局大變、產(chǎn)業(yè)承壓
- 用人工智能重新定義供應(yīng)鏈優(yōu)化
- 英飛拓預(yù)計(jì)2024年度虧損3億元-3.5億元 同比減虧54.58%-61.07%
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。