如何利用人工智能推動(dòng)數(shù)據(jù)中心轉(zhuǎn)型?

瀏覽科技新聞?lì)^條,你就會(huì)不由自主地認(rèn)為人工智能(AI)即將改變幾乎所有行業(yè)。然而,通常情況下,這些故事描繪的人工智能驅(qū)動(dòng)的顛覆仍然是假設(shè)的。而對(duì)于運(yùn)營世界上最大數(shù)據(jù)中心的組織來說,轉(zhuǎn)型已經(jīng)開始。

生成式人工智能(GenAI)應(yīng)用對(duì)性能的超高要求及其爆炸式增長,正在將當(dāng)前的數(shù)據(jù)中心網(wǎng)絡(luò)推向極限。為此,超大規(guī)模企業(yè)和云服務(wù)提供商正爭相添加數(shù)千個(gè)圖形處理單元和其他硬件加速器(xPU),以擴(kuò)大人工智能計(jì)算集群。

連接它們需要網(wǎng)絡(luò)以前所未有的規(guī)模提供高吞吐量和低延遲,同時(shí)支持更復(fù)雜的流量模式,例如微突發(fā)。數(shù)據(jù)中心運(yùn)營商不能像過去那樣,簡單地通過增加更多機(jī)架和光纖設(shè)備來滿足這些需求。無論是否準(zhǔn)備好,他們別無選擇,只能重新構(gòu)想數(shù)據(jù)中心架構(gòu)。

新興的AI優(yōu)化數(shù)據(jù)中心結(jié)構(gòu)將會(huì)是什么樣子?它們將使用哪些接口技術(shù),以及它們將如何影響800-Gbps傳輸和下一代以太網(wǎng)的市場接受度?數(shù)據(jù)中心運(yùn)營商目前正在研究這些問題,但即使在早期階段,我們也開始得到一些答案。

應(yīng)對(duì)人工智能網(wǎng)絡(luò)挑戰(zhàn)

預(yù)計(jì)每兩年,人工智能應(yīng)用流量將增長10倍,人工智能集群規(guī)模將增長4倍。這種增長部分源于人工智能應(yīng)用的普及,但很大一部分源于AI模型本身日益復(fù)雜,以及隨之而來的xPU到xPU通信的超大規(guī)模。

為了理解其中的原因,我們可以回顧一下人工智能工作負(fù)載的實(shí)際含義?;旧?,AI集群必須支持工作負(fù)載處理的兩個(gè)階段:

● 模型訓(xùn)練涉及攝取大量數(shù)據(jù)集來訓(xùn)練人工智能算法來尋找模式或建立關(guān)聯(lián)。

● 人工智能推理需要人工智能模型將其訓(xùn)練應(yīng)用于新數(shù)據(jù)。

這兩個(gè)階段都不會(huì)對(duì)主要用于數(shù)據(jù)采集的前端接入網(wǎng)絡(luò)產(chǎn)生重大的短期影響。然而,在后端集群中,密集的AI訓(xùn)練和推理工作負(fù)載需要一個(gè)單獨(dú)的、可擴(kuò)展的、可路由的網(wǎng)絡(luò)來連接數(shù)千甚至數(shù)萬個(gè)xPU。

許多云服務(wù)提供商已經(jīng)在努力實(shí)現(xiàn)當(dāng)前AI工作負(fù)載的TB網(wǎng)絡(luò)閾值。隨著人工智能模型的復(fù)雜性每三年增長1000倍,在不久的將來,他們可能需要支持具有數(shù)萬億個(gè)密集參數(shù)的模型。為了滿足這些需求,數(shù)據(jù)中心運(yùn)營商需要提供以下功能的網(wǎng)絡(luò)結(jié)構(gòu):

極高的吞吐量:人工智能集群必須能夠處理極其計(jì)算和數(shù)據(jù)密集型的工作負(fù)載,并并行支持?jǐn)?shù)千個(gè)同步作業(yè)。特別是AI推理工作負(fù)載,每個(gè)加速器產(chǎn)生的流量比前端網(wǎng)絡(luò)多5倍,需要的帶寬比前端網(wǎng)絡(luò)多5倍。

極低延遲:AI工作負(fù)載必須通過大量節(jié)點(diǎn),因此系統(tǒng)中任何一點(diǎn)的過高延遲都可能導(dǎo)致嚴(yán)重延遲。當(dāng)前AI工作負(fù)載處理中約三分之一的時(shí)間用于等待網(wǎng)絡(luò)。對(duì)于許多實(shí)時(shí)AI應(yīng)用,此類延遲可能導(dǎo)致用戶體驗(yàn)不佳,甚至導(dǎo)致應(yīng)用無法使用。

零數(shù)據(jù)包丟失:當(dāng)網(wǎng)絡(luò)嘗試緩沖或重新傳輸丟失的數(shù)據(jù)包時(shí),數(shù)據(jù)包丟失可能是造成延遲的重要因素。這對(duì)于AI模型訓(xùn)練來說是一個(gè)大問題,因?yàn)樵诮邮盏剿袛?shù)據(jù)包之前,工作負(fù)載操作甚至無法完成。

大規(guī)??蓴U(kuò)展性:為了支持更先進(jìn)的人工智能應(yīng)用,模型訓(xùn)練和其他分布式工作負(fù)載,必須能夠有效擴(kuò)展到數(shù)千個(gè)節(jié)點(diǎn)上的數(shù)十億個(gè)參數(shù)。

總的來說,這些要求強(qiáng)調(diào)了后端AI基礎(chǔ)設(shè)施需要新的橫向擴(kuò)展葉和脊架構(gòu)。使用數(shù)千個(gè)xpu的中等規(guī)模AI應(yīng)用可能需要帶有AI葉子層的機(jī)架級(jí)集群。連接數(shù)萬個(gè)加速器的最大人工智能集群將需要具有可路由結(jié)構(gòu)和人工智能葉脊的數(shù)據(jù)中心規(guī)模架構(gòu)。

人工智能市場不斷發(fā)展

關(guān)于人工智能的最大懸而未決的問題之一是新興應(yīng)用將如何影響800G以太網(wǎng)等下一代接口技術(shù)的采用。這也是一個(gè)正在展開的故事,但我們開始對(duì)市場將如何發(fā)展有了些許了解。

由于前端數(shù)據(jù)中心網(wǎng)絡(luò)將在很大程度上遵循傳統(tǒng)的升級(jí)時(shí)間表,預(yù)計(jì)到2027年,800G以太網(wǎng)將占前端網(wǎng)絡(luò)端口的三分之一。然而,在后端網(wǎng)絡(luò)中,運(yùn)營商的遷移速度要快得多。在那里,800Gbps接口的采用率將以三位數(shù)的速度增長,到2027年幾乎涵蓋所有后端端口。

我們也開始了解運(yùn)營商將使用哪種接口技術(shù)。預(yù)計(jì)在可預(yù)見的未來,大多數(shù)運(yùn)營商將繼續(xù)在前端網(wǎng)絡(luò)中使用以太網(wǎng)。后端網(wǎng)絡(luò)將更加混雜,因?yàn)檫\(yùn)營商會(huì)權(quán)衡熟悉、經(jīng)濟(jì)高效的以太網(wǎng)與專有InfiniBand(功能完善的網(wǎng)絡(luò)通信系統(tǒng))的無損傳輸能力。一些針對(duì)無法容忍不可預(yù)測(cè)性能的AI應(yīng)用的運(yùn)營商將選擇InfiniBand。其他運(yùn)營商將結(jié)合使用以太網(wǎng)和新協(xié)議,以及每個(gè)流擁塞控制,以實(shí)現(xiàn)低延遲無損流。還有一些運(yùn)營商將同時(shí)使用這兩種協(xié)議。

展望未來

目前,對(duì)于最佳AI集群大小、接口類型或高速接口遷移路徑,還沒有單一的答案。對(duì)于特定運(yùn)營商來說,正確的選擇取決于多種因素,包括他們計(jì)劃針對(duì)的AI應(yīng)用類型、這些工作負(fù)載的帶寬和延遲要求以及無損傳輸?shù)男枨蟆5紤]因素不僅僅是技術(shù)因素。運(yùn)營商還需要考慮他們是否計(jì)劃在內(nèi)部支持密集的模型訓(xùn)練工作負(fù)載還是將其外包,他們對(duì)標(biāo)準(zhǔn)化技術(shù)還是專有技術(shù)的偏好,對(duì)不同技術(shù)規(guī)劃圖和供應(yīng)鏈的適應(yīng)程度等等。

無論運(yùn)營商如何回答這些問題,有一個(gè)事實(shí)已經(jīng)很清楚:鑒于人工智能應(yīng)用的發(fā)展速度如此之快,適當(dāng)?shù)臏y(cè)試和驗(yàn)證比以往任何時(shí)候都更加重要。驗(yàn)證標(biāo)準(zhǔn)合規(guī)性、互操作性以及定時(shí)和同步的能力,是快速遷移到下一代網(wǎng)絡(luò)接口和架構(gòu)的必備功能。幸運(yùn)的是,測(cè)試和仿真工具正在與人工智能一起發(fā)展。無論未來的人工智能數(shù)據(jù)中心是什么樣子,業(yè)界都將準(zhǔn)備好支持它們。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-05-30
如何利用人工智能推動(dòng)數(shù)據(jù)中心轉(zhuǎn)型?
生成式人工智能(GenAI)應(yīng)用對(duì)性能的超高要求及其爆炸式增長,正在將當(dāng)前的數(shù)據(jù)中心網(wǎng)絡(luò)推向極限。為此,超大規(guī)模企業(yè)和云服務(wù)提供商正爭相添加數(shù)千個(gè)圖形處理單元和其他硬件加速器(xPU),以擴(kuò)大人工智能計(jì)算集群。

長按掃碼 閱讀全文