AI大模型時(shí)代,為什么NVIDIA的系統(tǒng)方案獨(dú)寵外置專業(yè)存儲?

上兩周剛剛召開的NVIDIA GTC 2024大會,已經(jīng)成為IT業(yè)界影響力最大的會議。與會人員超過17000人,規(guī)模超過當(dāng)年喬布斯的蘋果發(fā)布會。在會上,NVIDIA發(fā)布了新的芯片、軟件和方案,展示了在AI時(shí)代的絕對霸主地位和龐大的野心。

實(shí)際上,黃(仁勛)教主已經(jīng)掩飾不住NVIDIA的野心了:在GPU市場占有率超過80%的NVIDIA,還發(fā)布了數(shù)據(jù)中心整體解決方案,力圖主導(dǎo)這個(gè)超過1萬億美元的龐大市場。

不過,即使強(qiáng)如NVIDIA,在構(gòu)建AI系統(tǒng)的時(shí)候,仍然選擇了標(biāo)配外置專業(yè)存儲。雖然HBM(高帶寬內(nèi)存)取代了DDR內(nèi)存,但是外置專業(yè)存儲一直獨(dú)立存在。就像當(dāng)年雄霸天下的Oracle數(shù)據(jù)庫,同樣也是標(biāo)配外置專業(yè)存儲(EMC、華為等)。

注:2024 NVIDIA GTC大會期間,NVIDIA開設(shè)存儲專場panel座談,邀請業(yè)界頭部存儲廠商及大客戶,共同研討如何通過存儲來解決AI時(shí)代面臨的一系列挑戰(zhàn)。

為什么存儲對AI如此重要?NVIDIA為什么要廣泛的與主流存儲廠商合作,而不是自己做存儲?我們將逐層展開,撥云見日,探尋背后的真相。

一、NVIDIA不僅僅想賣芯片,其野心是賣整個(gè)數(shù)據(jù)中心方案,以GPU+CUDA為核心構(gòu)建了AI數(shù)據(jù)中心全棧架構(gòu),其中標(biāo)配外置專業(yè)存儲。

我們都知道,數(shù)據(jù)中心IT堆棧中,計(jì)算、存儲和網(wǎng)絡(luò)是三大核心組件。

在計(jì)算側(cè),NVIDIA通過自研GPU和DPU來加速取代CPU算力;網(wǎng)絡(luò)側(cè),NVIDIA通過收購Mellanox,加速推廣IB網(wǎng)絡(luò);存儲側(cè),廣泛與主流存儲廠商(DELL EMC、NetApp、Pure Storage、DDN、IBM、Vast Data、WEKA……)合作,從OVX(數(shù)據(jù)中心推理)、DGX basepod(企業(yè)AI訓(xùn)練集群)到DGX superpod(大規(guī)模訓(xùn)練集群)再到DGX supercomputer(超大規(guī)模訓(xùn)練集群),不變的是里面都標(biāo)配外置專業(yè)存儲。

二、為什么在NVIDIA的方案架構(gòu)中,外置專業(yè)存儲是“必配品”?

1. AI和傳統(tǒng)應(yīng)用不同,傳統(tǒng)應(yīng)用主要是產(chǎn)生數(shù)據(jù)并存下來;而AI自身新產(chǎn)生的數(shù)據(jù)很少,主要是利用現(xiàn)有的存量數(shù)據(jù),即“喂數(shù)據(jù)進(jìn)去,吐出來的是訓(xùn)練好的大模型和Token(標(biāo)記)”。

2.缺數(shù)據(jù),無AI。數(shù)據(jù)的質(zhì)量決定了AI的高度。AI需要大量的高質(zhì)量數(shù)據(jù)從哪里來?最普遍的做法是首先獲取大量的互聯(lián)網(wǎng)公開數(shù)據(jù)作為基礎(chǔ)性輸入,然后最核心的還是結(jié)合企業(yè)內(nèi)部的數(shù)據(jù),包括核心生產(chǎn)數(shù)據(jù)和歷史存量數(shù)據(jù)對模型進(jìn)行訓(xùn)練。

3.當(dāng)今企業(yè)80%以上的數(shù)據(jù)仍存放在數(shù)據(jù)中心,其余少量在邊緣和云上。在數(shù)據(jù)中心,專業(yè)的外置存儲是企業(yè)數(shù)據(jù)的核心載體。因此,只有將NVIDIA AI系統(tǒng)與外置存儲相連,才能快速形成數(shù)據(jù)的閉環(huán),支撐AI大模型的訓(xùn)練。而在大模型完成訓(xùn)練,面向行業(yè)應(yīng)用落地的時(shí)候(如RAG推理),AI應(yīng)用必須與生產(chǎn)存儲相連接,直接調(diào)用企業(yè)生產(chǎn)數(shù)據(jù)。因此,無論在大模型的訓(xùn)練階段,還是行業(yè)應(yīng)用推理階段,AI系統(tǒng)都必須配套外置專業(yè)存儲,才能讓企業(yè)數(shù)據(jù),特別是生產(chǎn)數(shù)據(jù)直接變成AI的“燃料”。

4.隨著AI大模型的加速迭代,參數(shù)規(guī)模和數(shù)據(jù)量成萬倍的增長,如何快速做好EB級數(shù)據(jù)的加載和準(zhǔn)備,把數(shù)據(jù)快速喂給大模型成為提升訓(xùn)練效率的瓶頸之一;同時(shí),在訓(xùn)練過程中需要不斷保存checkpoint,以便因故障中斷/訓(xùn)練效果不達(dá)預(yù)期時(shí)重新訓(xùn)練,對checkpoint的保存和讀取速度也極大了影響了訓(xùn)練效率。而外置存儲從誕生之初就是為了解決數(shù)據(jù)的保存和讀取問題,外置存儲的一小步性能優(yōu)化,對AI系統(tǒng)的訓(xùn)練效率有巨大的提升,這也是NVIDIA系統(tǒng)選擇外置存儲的一大原因。

5.而在行業(yè)應(yīng)用推理階段,由于場景眾多、AI新應(yīng)用層出不窮,如何為解決數(shù)據(jù)pipeline成為關(guān)鍵問題。主流存儲廠商均提供跨邊緣、數(shù)據(jù)中心和云的數(shù)據(jù)流動、統(tǒng)一管理和數(shù)據(jù)加速功能,簡化了AI應(yīng)用對數(shù)據(jù)的訪問和處理過程,讓大模型應(yīng)用部署和運(yùn)行更加簡單高效。

三、既然存儲這么重要,為什么NVIDIA自己不做存儲,或者像收購Mallenox一樣直接收購一家存儲廠商,而是堅(jiān)定的與主流存儲廠商開展合作?

1.IT產(chǎn)業(yè),全棧通吃不是主流,沒有一家廠商可以搞定全部的客戶需求,封閉架構(gòu)無法持久,分層合作才是關(guān)鍵。NVIDIA瞄準(zhǔn)的是整個(gè)AI數(shù)據(jù)中心市場,但是它本質(zhì)上是一家計(jì)算平臺公司,通過定義好系統(tǒng)架構(gòu),開放合作,能夠滿足不同階段的多樣化客戶需求,與伙伴一起共同建設(shè)面向未來的數(shù)據(jù)中心。

2.NVIDIA如果自己重新做一套存儲產(chǎn)品,本質(zhì)上也無法取代客戶當(dāng)前的生產(chǎn)存儲,也無法有效利用客戶的生產(chǎn)數(shù)據(jù)。NVIDIA想要的是掌控算力平臺,當(dāng)前聯(lián)合外置專業(yè)存儲廠商是上策。

3.以存儲為代表的傳統(tǒng)IT廠商,在企業(yè)和運(yùn)營商客戶已耕耘二三十年,有大量的客戶基礎(chǔ)和數(shù)據(jù)存量,NVIDIA和存儲廠商合作,本質(zhì)上是把原來以CPU為中心的伙伴拉攏到自己身邊,通過聯(lián)合方案,讓存儲廠商帶著NVIDIA的軟硬件一起銷售,擴(kuò)大客戶和產(chǎn)品覆蓋面;同時(shí),存儲廠商具備成熟的企業(yè)級交付服務(wù)能力,這也是NVIDIA所不擅長的??偠灾琋VIDIA和存儲的合作是互惠互利、合作共贏的。

四、對于中國區(qū)市場客戶的啟示

無論客戶采用什么算力平臺(NVIDIA/昇騰/…),存儲絕對不容忽視。NVIDIA的系統(tǒng)無論集群規(guī)模大小,均標(biāo)配外置專業(yè)存儲。對于中國的客戶而言,無論當(dāng)前的AI集群處于什么階段(規(guī)劃中/建設(shè)中),我們都強(qiáng)烈建議立即關(guān)注存儲的配套建設(shè)問題,對存儲的“小”投入,將帶來AI系統(tǒng)效率的“大”提升。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-04-09
AI大模型時(shí)代,為什么NVIDIA的系統(tǒng)方案獨(dú)寵外置專業(yè)存儲?
上兩周剛剛召開的NVIDIA GTC 2024大會,已經(jīng)成為IT業(yè)界影響力最大的會議。與會人員超過17000人,規(guī)模超過當(dāng)年喬布斯的蘋果發(fā)布會。在會上...

長按掃碼 閱讀全文