數(shù)說品智聯(lián)接 | 一張網(wǎng)支撐AI端到端應(yīng)用,嗶哩嗶哩與華為聯(lián)袂演繹高維度算網(wǎng)融合

從探索人類前沿科技的超算,到普通人掏出手機(jī)就能體驗(yàn)的智能推薦算法,每套以至高算力為目標(biāo)的集群系統(tǒng)都需要解決一個(gè)算力之外的關(guān)鍵問題——網(wǎng)絡(luò)。

是的,分布式技術(shù)用「把大問題拆成小問題」的方法為人們提供了一條以量變實(shí)現(xiàn)質(zhì)變的可行路徑。但分開進(jìn)行的海量計(jì)算總還是需要一個(gè)匯總結(jié)果并繼續(xù)推進(jìn)計(jì)算的過程。而這一過程對網(wǎng)絡(luò)的帶寬、延遲和丟包率都提出了極高要求。以目前流行的深度學(xué)習(xí)算法為例,0.1% 的丟包率就會(huì)帶來 50% 的集群效率降低。

在構(gòu)建算力集群時(shí),用戶通常有兩種選擇:一種是沒有丟包困擾成本較高且生態(tài)封閉的 Infiniband 網(wǎng)絡(luò),另一種則是性價(jià)比更高但需要花費(fèi)精力降低延遲和丟包率的以太網(wǎng)技術(shù)。而對于更看重效率效果的互聯(lián)網(wǎng)行業(yè)來說,答案只有一個(gè)——這些特性全都要!

嗶哩嗶哩基于業(yè)務(wù)發(fā)展需求

需要建設(shè)一張高性能計(jì)算網(wǎng)絡(luò)

嗶哩嗶哩,簡稱「B 站」,一個(gè)有用有趣的綜合性視頻社區(qū),被用戶們親切地稱為「百科全書式的網(wǎng)站、沒有圍墻的圖書館,成長道路上的加油站,創(chuàng)作者的舞臺(tái)」。截止 2024 年第二季度,B 站日均活躍用戶達(dá) 1.02 億。圍繞用戶、創(chuàng)作者和內(nèi)容,B 站構(gòu)建了一個(gè)源源不斷產(chǎn)生優(yōu)質(zhì)內(nèi)容的生態(tài)系統(tǒng)?;?AI 的「千人千面」內(nèi)容推薦算法,B 站能把好內(nèi)容推薦給感興趣的用戶,進(jìn)入內(nèi)容量與用戶活躍度雙向激勵(lì)的正循環(huán)。而要在海量內(nèi)容、龐大訪問量、億級用戶的背景下,完成精準(zhǔn)的內(nèi)容推薦,B 站需要一套高性能網(wǎng)絡(luò)為用戶提供服務(wù)。

面對實(shí)時(shí)更新的內(nèi)容和快速變化的用戶關(guān)注點(diǎn),B 站的 AI 算力集群要盡可能快地完成「樣本導(dǎo)入——訓(xùn)練——模型導(dǎo)出——推理」的完整業(yè)務(wù)流程,縮短 AI 技術(shù)與業(yè)務(wù)應(yīng)用之間的距離。需求看似稀松平常,但這個(gè)「快」字卻對應(yīng)了多維度的底層技術(shù)挑戰(zhàn)。

其一,拉通整個(gè) AI 業(yè)務(wù)流程,實(shí)現(xiàn)業(yè)務(wù)整體的快。

「樣本導(dǎo)入——訓(xùn)練——模型導(dǎo)出——推理」等各個(gè)功能的子集群需置于同一張網(wǎng)絡(luò)之中,形成一張龐大的算力網(wǎng)絡(luò);盡可能讓數(shù)據(jù)和模型更快傳輸,讓不同功能形成整體,實(shí)現(xiàn)業(yè)務(wù)層面的快。

其二,在關(guān)鍵的訓(xùn)練集群內(nèi)部,網(wǎng)絡(luò)延遲要足夠低。

大模型訓(xùn)練過程對網(wǎng)絡(luò)延遲非常敏感,高延遲不僅會(huì)影響 GPU 節(jié)點(diǎn)之間的同步性和一致性,讓 GPU 花費(fèi)更多時(shí)鐘周期來等待計(jì)算結(jié)果和參數(shù)的同步,更會(huì)影響整個(gè)集群的可擴(kuò)展性和算力利用率。

其三,在「算網(wǎng)一體」的宏觀趨勢之下,算力方案與網(wǎng)絡(luò)架構(gòu)應(yīng)保持高度匹配。

算與網(wǎng)就如同車和路,二者的高度匹配才能大幅提升系統(tǒng)整體運(yùn)行效率,并為后續(xù)的運(yùn)維管理和升級擴(kuò)容帶來更大提升空間。

一面是業(yè)務(wù)層面的嚴(yán)苛需求,另一面則是缺貨、禁售等外部因素所帶來的巨大不確定風(fēng)險(xiǎn);經(jīng)過對網(wǎng)絡(luò)、計(jì)算、經(jīng)驗(yàn)和供貨等諸多因素的考察比對之后,B 站選擇牽手華為,共同構(gòu)建新一代 AI 算力集群。

用以太網(wǎng)統(tǒng)一承載

讓 AI 算網(wǎng)一體高度統(tǒng)一融合

數(shù)說品智聯(lián)接

圖 1. 多網(wǎng)融合網(wǎng)絡(luò)架構(gòu)圖

B 站網(wǎng)絡(luò)技術(shù)團(tuán)隊(duì)與華為聯(lián)合設(shè)計(jì)了基于以太網(wǎng)的「一張網(wǎng)」算力集群建設(shè)方案。該方案通過華為 CE16800 系列核心框式交換機(jī),能夠?qū)⒑A繕颖緮?shù)據(jù)的存儲(chǔ)集群、包含海量 GPU 計(jì)算節(jié)點(diǎn)的訓(xùn)練集群和負(fù)責(zé)業(yè)務(wù)應(yīng)用的推理集群整合成一張龐大的業(yè)務(wù)網(wǎng)絡(luò),為每個(gè)業(yè)務(wù)功能提供足夠的數(shù)據(jù)帶寬。使用一張網(wǎng)聯(lián)接數(shù)據(jù)和業(yè)務(wù)、訓(xùn)練和推理,打通功能之間的煙囪壁壘,提升業(yè)務(wù)整體運(yùn)行效率。相對于私有化的 Infiniband 網(wǎng)絡(luò),使用統(tǒng)一且開放的以太網(wǎng)通訊協(xié)議也有助于降低系統(tǒng)總體建設(shè)成本,并保持「一張網(wǎng)」內(nèi)部的架構(gòu)統(tǒng)一、協(xié)議統(tǒng)一,繼而降低建設(shè)、運(yùn)維的成本及難度。

在網(wǎng)絡(luò)架構(gòu)確定之后,接下來是選擇 AI 算力網(wǎng)絡(luò)的硬件選型和組網(wǎng)方案。在組網(wǎng)硬件選型上,華為提供多種硬件組網(wǎng)方式,典型的有盒盒組網(wǎng)方案,盒框組網(wǎng)方案,框框組網(wǎng)方案。通過雙方多次技術(shù)交流,綜合 B 站機(jī)房現(xiàn)場環(huán)境條件、硬件成本等多方面考慮,B 站選擇盒盒組網(wǎng)的方案,如下圖所示,構(gòu)建的是一張千卡規(guī)模的 AI 算力集群。

數(shù)說品智聯(lián)接

圖 2. 華為昇騰組網(wǎng)架構(gòu)圖

為了滿足 AI 算力訓(xùn)練集群對網(wǎng)絡(luò)延遲的苛刻需求,B 站技術(shù)人員聯(lián)合華為工程師一起對整張網(wǎng)絡(luò)實(shí)施了細(xì)致入微的架構(gòu)設(shè)計(jì)和配置優(yōu)化。AI 算力網(wǎng)絡(luò)總體按經(jīng)典的 Spine-Leaf 兩層 CLOS 組網(wǎng)設(shè)計(jì)落地,但基于大模型訓(xùn)練對于網(wǎng)絡(luò)通信特點(diǎn),在接入層稍微做了些變動(dòng),同時(shí)使用 4 臺(tái) LEAF 交換機(jī)連接 GPU 服務(wù)器的多個(gè)網(wǎng)口。整個(gè)網(wǎng)由 8 個(gè) POD 構(gòu)成,每個(gè) POD 包含 8 臺(tái) GPU 節(jié)點(diǎn),每臺(tái) GPU 配置 8 張 400G 以太網(wǎng)卡,每個(gè) POD 可容納 128 張 GPU 卡,從而整個(gè)集群規(guī)??蛇_(dá) 1024 張 GPU 卡。在 SPINE 層面,使用 16 臺(tái) 400G 交換機(jī)來實(shí)現(xiàn) 8 個(gè) POD 網(wǎng)絡(luò)聯(lián)接的對稱對等。路由設(shè)計(jì)方面全網(wǎng)使用了 EBGP 路由協(xié)議,當(dāng)鏈路出現(xiàn)故障時(shí)網(wǎng)絡(luò)自動(dòng)收斂。在高帶寬和低延遲要求方面,全網(wǎng)使用 RDMA 技術(shù)且同時(shí)啟用華為交換機(jī)特性 NSLB(NetworkService Load Balance,網(wǎng)絡(luò)服務(wù)負(fù)載均衡)功能。RDMA 技術(shù)無需 CPU 和系統(tǒng)內(nèi)存參與的顯存數(shù)據(jù)交換,能夠提高通訊效率,減少系統(tǒng)開銷;而 NSLB 則是華為的獨(dú)有技術(shù),可結(jié)合管理模塊實(shí)現(xiàn)全流量的秒級感知來,繼而通過高效網(wǎng)絡(luò)編排來減少網(wǎng)絡(luò)擁塞、丟包和鎖死情況的發(fā)生,提升訓(xùn)練過程的可靠性,減少重新加載 checkpoint 的次數(shù),以達(dá)成加快訓(xùn)練的效果。通過網(wǎng)絡(luò)架構(gòu)的合理設(shè)計(jì)和多種先進(jìn)技術(shù)的綜合應(yīng)用,在訓(xùn)練集群內(nèi)部實(shí)現(xiàn) 400G 高帶寬互聯(lián)、互聯(lián)鏈路冗余、通信路徑最優(yōu)、Leaf 上下行帶寬 1:1 等眾多先進(jìn)特性。而在業(yè)務(wù)層面這些技術(shù)與特性便意味著低延遲和全網(wǎng)無阻塞。

在多種網(wǎng)絡(luò)流量模型和 GPU 通訊庫(NCCL 和 HCCL)驗(yàn)證過程中,華為昇騰整套網(wǎng)絡(luò)方案在同 Leaf 下點(diǎn)對點(diǎn)網(wǎng)絡(luò)帶寬利用率超 98%,延遲最低 2.8 微秒;「多對一」帶寬利用率 80%,All-to-All 和 AllReduce 過程帶寬利用率超 98%。而在跨 Spine 測試中,華為昇騰整套網(wǎng)絡(luò)方案仍能實(shí)現(xiàn)超 98% 的帶寬利用率和最低 5.6 微秒的延遲;并能在「多對一」通訊中實(shí)現(xiàn) 80% 的帶寬利用率和超 90% 的 All-to-All、AllReduce 帶寬利用率。

數(shù)說品智聯(lián)接

圖 3. 服務(wù)器集群布線

數(shù)說品智聯(lián)接

圖 4. 網(wǎng)絡(luò)集群布線

以上圖 3 和圖 4 為華為昇騰整套網(wǎng)絡(luò)解決方案在 B 站數(shù)據(jù)中心落地示意圖,在部署實(shí)施層面,華為配合 B 站網(wǎng)絡(luò)技術(shù)團(tuán)隊(duì)完成網(wǎng)絡(luò)規(guī)劃、實(shí)施前期準(zhǔn)備、交付前全網(wǎng)參數(shù)調(diào)優(yōu)、HCCL 通訊集參數(shù)調(diào)優(yōu)和驗(yàn)收測試等流程,為業(yè)務(wù)上線做好充分的準(zhǔn)備。同時(shí)為了保障整個(gè)集群的長期穩(wěn)定運(yùn)行,華為與 B 站一起對機(jī)房現(xiàn)場網(wǎng)絡(luò)布線做了高標(biāo)準(zhǔn)落地,每條線纜有序布放、捆扎,降低排查鏈路故障等問題的難度,提升運(yùn)維效率。

算網(wǎng)一體

讓互聯(lián)網(wǎng)+AI 盛放未來

不僅 B 站,流量大、數(shù)據(jù)多、用戶多是所有互聯(lián)網(wǎng)業(yè)務(wù)的典型特征。而在 AI 業(yè)務(wù)落地的過程中,對單卡算力的錙銖必較已成過去時(shí);借助先進(jìn)網(wǎng)絡(luò)來構(gòu)建千卡、甚至萬卡集群來應(yīng)對業(yè)務(wù)挑戰(zhàn)才是主流選擇。因此,「算網(wǎng)一體、高度匹配、相互優(yōu)化」也順勢成為互聯(lián)網(wǎng)企業(yè)構(gòu)建新一代基礎(chǔ)架構(gòu)時(shí)關(guān)注的重點(diǎn)。

對于廣大行業(yè)客戶而言,華為所擁有網(wǎng)絡(luò)解決方案能力、算力解決方案能力、龐大合作伙伴體系、豐富的規(guī)劃和實(shí)施經(jīng)驗(yàn)正是構(gòu)建新型基礎(chǔ)架構(gòu)、落地 AI 業(yè)務(wù)之所需。與此同時(shí),華為亦在通過不斷的底層技術(shù)創(chuàng)新和上層體驗(yàn)優(yōu)化來實(shí)現(xiàn)解決方案與服務(wù)的持續(xù)精進(jìn),為互聯(lián)網(wǎng)企業(yè)鋪就通向未來的寬闊坦途。雙方的相向而行也造就了華為與互聯(lián)網(wǎng)企業(yè)聯(lián)合創(chuàng)新、共同探索的一段段佳話。

十年前,脫胎于互聯(lián)網(wǎng)業(yè)務(wù)邏輯的「互聯(lián)網(wǎng)+」概念火遍全國,助力千行百業(yè)實(shí)現(xiàn)了業(yè)務(wù)和經(jīng)營理念的跨越式升級;十年之后,互聯(lián)網(wǎng)又成為了擁抱 AI 技術(shù)、引領(lǐng)基礎(chǔ)架構(gòu)和業(yè)務(wù)升級的先鋒軍。

能夠與互聯(lián)網(wǎng)產(chǎn)業(yè)相伴同行、共赴未來,不僅是華為的榮幸,也是 ICT 產(chǎn)業(yè)技術(shù)探索、實(shí)現(xiàn)價(jià)值的絕佳路徑。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )