MLPerf Storage揭榜,「存儲(chǔ)」掛帥,驅(qū)動(dòng)AI上演“飛馳人生”

文 | 智能相對(duì)論

作者 | 陳泊丞

AI產(chǎn)業(yè)鏈各個(gè)核心要素的“含金量”還在不斷提升,其中存儲(chǔ)的價(jià)值就在強(qiáng)勢(shì)增長(zhǎng)。

日前,MLCommons協(xié)會(huì)發(fā)布最新MLPerf? Storage v1.0 AI存儲(chǔ)基準(zhǔn)測(cè)試成績(jī)。浪潮信息分布式存儲(chǔ)平臺(tái)AS13000G7表現(xiàn)出眾,在3D-UNet和CosmoFlow兩個(gè)模型共計(jì)8項(xiàng)測(cè)試中,斬獲5項(xiàng)性能全球第一。

且不說(shuō)本土廠商成功“打榜”的事情,光是MLPerf? Storage v1.0 AI存儲(chǔ)基準(zhǔn)測(cè)試成績(jī)的發(fā)布就釋放出不少重磅信息。

MLPerf?是影響力最廣的國(guó)際AI性能基準(zhǔn)評(píng)測(cè),由圖靈獎(jiǎng)得主大衛(wèi)·帕特森(David Patterson)聯(lián)合谷歌、斯坦福大學(xué)、哈佛大學(xué)等頂尖學(xué)術(shù)機(jī)構(gòu)共同發(fā)起,2023年首次推出存儲(chǔ)基準(zhǔn)性能測(cè)試。這是全球首個(gè)且唯一的AI/ML存儲(chǔ)基準(zhǔn)測(cè)試,旨在通過(guò)準(zhǔn)確建模ML工作負(fù)載所產(chǎn)生的I/O模式來(lái)幫助解決存算平衡問(wèn)題,為ML/AI模型開(kāi)發(fā)者選擇存儲(chǔ)解決方案提供權(quán)威的參考依據(jù)。

現(xiàn)階段,隨著AI產(chǎn)業(yè)走向深實(shí),市場(chǎng)既重視存儲(chǔ),也對(duì)存儲(chǔ)解決方案提出了新的技術(shù)需求。以今年MLPerf? Storage v1.0的評(píng)測(cè)標(biāo)準(zhǔn)來(lái)看,區(qū)別去年的v0.5版本,v1.0版本做了諸多技術(shù)相關(guān)的調(diào)整,一方面更注重存儲(chǔ)帶寬的峰值承載能力,重點(diǎn)考察在滿足高性能GPU一定利用率的前提下,存儲(chǔ)系統(tǒng)能夠?yàn)锳I集群提供的總帶寬和每節(jié)點(diǎn)帶寬。另一方面則是強(qiáng)化了分布式訓(xùn)練,重點(diǎn)關(guān)注每存儲(chǔ)節(jié)點(diǎn)能支持的GPU數(shù)量,從而評(píng)估用戶的AI存儲(chǔ)投資回報(bào)。

總的來(lái)說(shuō),在全球范圍內(nèi),存儲(chǔ)比過(guò)去更注重與AI產(chǎn)業(yè)的結(jié)合與協(xié)同,“存力”在AI場(chǎng)景中的價(jià)值突顯。而以浪潮信息為代表的本土廠商在此次評(píng)測(cè)中脫穎而出,也說(shuō)明了中國(guó)AI行業(yè)的風(fēng)向同樣如此——市場(chǎng)對(duì)存儲(chǔ)的重視和創(chuàng)新正在加速中國(guó)AI的發(fā)展進(jìn)程,讓本來(lái)就注重應(yīng)用落地的中國(guó)AI產(chǎn)業(yè)具備了更完備的核心要素。

AI狂飆,存算協(xié)同

今天,人工智能向千行百業(yè)滲透,大數(shù)據(jù)、大模型的相繼迸發(fā)不斷加速智能時(shí)代的到來(lái)。隨之而來(lái)的還有萬(wàn)卡算力集群、萬(wàn)億參數(shù)規(guī)模的大模型訓(xùn)練。在這個(gè)過(guò)程中,市場(chǎng)對(duì)算力的關(guān)注持續(xù)高漲,各大AI廠商首要追求的莫過(guò)于高效的算力資源。

然而,在算力之外,以存儲(chǔ)解決方案為代表的存力也同樣深刻地影響著AI產(chǎn)業(yè)的發(fā)展。存力不僅要提供足夠的存儲(chǔ)容量,還需要保證高效的數(shù)據(jù)訪問(wèn)能力。因此,如果存力不足,即便是擁有高性能的計(jì)算資源(算力),也無(wú)法高效地完成模型訓(xùn)練任務(wù),勢(shì)必會(huì)造成算力浪費(fèi)。

存力與算力相輔相成,兩者之間的平衡至關(guān)重要,缺一不可,極大地影響著大模型訓(xùn)練的效率以及AI產(chǎn)業(yè)發(fā)展的命脈。具體來(lái)看,現(xiàn)如今模型訓(xùn)練的數(shù)據(jù)加載、模型訓(xùn)練過(guò)程中的斷點(diǎn)續(xù)訓(xùn)要盡可能地降低對(duì)計(jì)算時(shí)間的占用,那么存儲(chǔ)就不能“掉鏈子”,必然要提供高效、穩(wěn)定的解決方案予以支持。

浪潮信息存儲(chǔ)產(chǎn)品線副總經(jīng)理劉希猛在與「智能相對(duì)論」交流中提到,“隨著算力規(guī)模達(dá)到千卡萬(wàn)卡規(guī)模的時(shí)候,其實(shí)它對(duì)存儲(chǔ)的性能要求,訪問(wèn)帶寬達(dá)到了TB級(jí)。在一些小模型的訓(xùn)練當(dāng)中,對(duì)時(shí)延的要求更高,存儲(chǔ)系統(tǒng)需要提供百萬(wàn)級(jí)的IOPS的要求?!?/p>

算力的升級(jí)帶動(dòng)著存力的進(jìn)階,現(xiàn)階段AI想要跑起來(lái),算力是關(guān)鍵,存力也同等重要。隨著AI產(chǎn)業(yè)發(fā)展所涌現(xiàn)出來(lái)的諸多場(chǎng)景問(wèn)題越來(lái)越深入,對(duì)存儲(chǔ)提出的新要求也更加具體——不管是以MLCommons協(xié)會(huì)為代表的行業(yè)機(jī)構(gòu),還是以浪潮信息為代表的行業(yè)廠商,都在致力于探索更強(qiáng)大、高效并符合AI場(chǎng)景需求的存儲(chǔ)解決方案,以讓存力跑在前面,協(xié)同算力升級(jí),支撐AI產(chǎn)業(yè)加速發(fā)展。

當(dāng)AI上演“飛馳人生”

事實(shí)上,新的存儲(chǔ)解決方案之所以備受重視,其背后意味著整個(gè)行業(yè)對(duì)AI系統(tǒng)性認(rèn)知越來(lái)越成熟。

今天的AI如同一輛高速行駛的汽車,上演著智能時(shí)代的“飛馳人生”,而這輛汽車能提速的關(guān)鍵則在于汽車內(nèi)各個(gè)核心要素或子系統(tǒng)的共同驅(qū)動(dòng)。具體來(lái)看,數(shù)據(jù)相當(dāng)于“燃料”,燃燒充分進(jìn)而驅(qū)動(dòng)“動(dòng)力系統(tǒng)”工作,讓汽車加速動(dòng)起來(lái)。算力的利用程度則決定了“動(dòng)力系統(tǒng)”工作的效率,進(jìn)而影響汽車快慢——這是算力的價(jià)值所在。

而存力的價(jià)值在哪?在“燃料”與“動(dòng)力系統(tǒng)”之間,兩者如何碰撞出火花,則取決于以油箱、輸油泵、燃油軌等核心零部件組成的“燃料供給系統(tǒng)”。在AI產(chǎn)業(yè)鏈中,存儲(chǔ)就相當(dāng)于“燃料供給系統(tǒng)”,而存力的效率直接影響著“燃料”與“動(dòng)力系統(tǒng)”(算力)之間的轉(zhuǎn)化,就如同汽車系統(tǒng)中油箱是否夠大、輸油泵是否給力、燃油軌是否通暢等問(wèn)題,直接決定了汽車的燃料供給情況,影響著汽車的動(dòng)力大小。

這是一個(gè)相當(dāng)完整的系統(tǒng),在這個(gè)“系統(tǒng)”中,也就是AI場(chǎng)景下,存力所面臨的具體需求也將完全不同于傳統(tǒng)存儲(chǔ),具體呈現(xiàn)在性能、效率以及韌性三大層面。

一、性能:大存力時(shí)代到來(lái),協(xié)同大數(shù)據(jù)、大模型、大算力強(qiáng)勢(shì)驅(qū)動(dòng)AI產(chǎn)業(yè)高速發(fā)展。

不管是單獨(dú)拎出算力與存力的關(guān)系來(lái)看,或是聚焦AI的系統(tǒng)性認(rèn)知,都可以看到現(xiàn)階段存儲(chǔ)處于一個(gè)“牽一發(fā)而動(dòng)全身”的位置,如同汽車?yán)铩叭加凸┙o系統(tǒng)”和“動(dòng)力系統(tǒng)”之間的關(guān)系,存力的大小決定著算力的效率,進(jìn)而影響AI的發(fā)展。

因此,當(dāng)AI產(chǎn)業(yè)高速發(fā)展,進(jìn)入大數(shù)據(jù)、大模型、大算力涌現(xiàn)的時(shí)代,市場(chǎng)所需要的同樣是大存力。基于這個(gè)趨勢(shì),業(yè)內(nèi)正在不斷去提升帶寬、IOPS,降低時(shí)延等,通過(guò)這些優(yōu)化直接提高存力的效率。

其中,基于自研的分布式軟件棧優(yōu)勢(shì),浪潮信息就在采用全新的數(shù)控分離架構(gòu),通過(guò)將I/O的控制面和數(shù)據(jù)面解耦合,實(shí)現(xiàn)了分布式一致性等復(fù)雜的控制面與數(shù)據(jù)流直通數(shù)據(jù)面分離處理架構(gòu),解決了分布式存儲(chǔ)數(shù)據(jù)流在節(jié)點(diǎn)間流轉(zhuǎn)的轉(zhuǎn)發(fā)問(wèn)題,減少東西向(節(jié)點(diǎn)間)數(shù)據(jù)轉(zhuǎn)發(fā)量80%。在本次MLPerf測(cè)試中,浪潮信息存儲(chǔ)達(dá)到120 GB/s的單存儲(chǔ)節(jié)點(diǎn)的超高性能——如此優(yōu)異的單節(jié)點(diǎn)性能應(yīng)用到實(shí)際AI場(chǎng)景中,將可以為企業(yè)客戶節(jié)省大量的存儲(chǔ)成本,從而以更高的性價(jià)比讓AI充分跑起來(lái)。

二、效率:存儲(chǔ)與AI產(chǎn)業(yè)鏈主動(dòng)耦合,其價(jià)值定位愈發(fā)強(qiáng)調(diào)“以大局為重”。

對(duì)于存力“牽一發(fā)而動(dòng)全身”的價(jià)值定位,浪潮信息分布式存儲(chǔ)產(chǎn)品部副總經(jīng)理安祥文向「智能相對(duì)論」提供了更具體的解析視角。他以大模型的訓(xùn)推落地舉例,以數(shù)據(jù)為第一視角講述了在不同的階段,存儲(chǔ)都將面臨著截然不同的工作任務(wù)。對(duì)比傳統(tǒng)的存儲(chǔ),現(xiàn)階段的存儲(chǔ)需要實(shí)現(xiàn)以存促算、以存強(qiáng)算的目標(biāo),從被動(dòng)到主動(dòng)、從分離到耦合,最終綜合加快大模型訓(xùn)練的效率。

不難理解,存儲(chǔ)正積極融入AI產(chǎn)業(yè)鏈中,其效率提升不只是關(guān)注自身,更在于如何全局性地、連續(xù)性地推動(dòng)整個(gè)大模型訓(xùn)練甚至是AI產(chǎn)業(yè)的加速發(fā)展。這種從單節(jié)點(diǎn)到整體性的進(jìn)階,則需要存儲(chǔ)協(xié)同好AI場(chǎng)景中各種問(wèn)題,注重提升整體效率,就像在汽車系統(tǒng)中,駐車后再啟動(dòng),“燃料供給系統(tǒng)”需要及時(shí)地提供“燃料”給“動(dòng)力系統(tǒng)”以確保汽車能連續(xù)地行駛。

在這方面,以浪潮信息為代表的本土廠商考慮到實(shí)際落地的場(chǎng)景問(wèn)題,正通過(guò)存儲(chǔ)支持文件、對(duì)象、大數(shù)據(jù)等非結(jié)構(gòu)化協(xié)議融合互通,全局命名空間等方式,從而減少多份數(shù)據(jù)重復(fù)存儲(chǔ),以及數(shù)據(jù)跨協(xié)議、跨區(qū)域、跨系統(tǒng)調(diào)度檢索的管理問(wèn)題,提升存儲(chǔ)的全局效率。

三、韌性:存儲(chǔ)的地位不斷提升,行業(yè)創(chuàng)新高度聚焦存力的安全可靠體系建設(shè)。

過(guò)去,大眾對(duì)存儲(chǔ)的認(rèn)知可能只是一個(gè)U盤,負(fù)責(zé)存儲(chǔ)資料的載體,但是當(dāng)存儲(chǔ)融入AI產(chǎn)業(yè)鏈,其定位在變化,價(jià)值在提高,相應(yīng)的所承擔(dān)的責(zé)任也在增強(qiáng)。存儲(chǔ)出了問(wèn)題,將影響整個(gè)大模型訓(xùn)推落地流程,就如同“燃料供給系統(tǒng)”故障了,整個(gè)車子都將無(wú)法行駛。因此,存儲(chǔ)的安全可靠也同步受到市場(chǎng)更大的關(guān)注,只有有韌性的存儲(chǔ)解決方案才能適應(yīng)現(xiàn)階段以及未來(lái)高強(qiáng)度、高價(jià)值的AI產(chǎn)業(yè)發(fā)展。

那么,存儲(chǔ)的“韌性”應(yīng)該如何提升?浪潮信息從傳統(tǒng)中醫(yī)理論入手設(shè)計(jì)保障存儲(chǔ)安全可靠的體系,正所謂“上醫(yī)治未病,中醫(yī)治欲病,下醫(yī)治已病”,一方面從網(wǎng)絡(luò)安全、設(shè)備安全、系統(tǒng)安全、管理安全、數(shù)據(jù)安全多維度構(gòu)建了存儲(chǔ)安全體系,另一方面則是采用可靠性主動(dòng)管理技術(shù),實(shí)現(xiàn)存儲(chǔ)亞健康管理,對(duì)硬件、網(wǎng)絡(luò)、系統(tǒng)等進(jìn)行亞健康檢測(cè),確保系統(tǒng)故障可以快速恢復(fù)。此外,通過(guò)AIOps算法實(shí)現(xiàn)容量趨勢(shì)、性能趨勢(shì)、SSD壽命、HDD和SDD硬盤故障的精準(zhǔn)預(yù)測(cè),防患于未然,滿足客戶AI業(yè)務(wù)連續(xù)性需求。

結(jié)語(yǔ)

現(xiàn)如今,AI歷經(jīng)多年發(fā)展,已經(jīng)成長(zhǎng)為一個(gè)大產(chǎn)業(yè)。在這條龐大的產(chǎn)業(yè)鏈之上,核心要素也在不斷趨于“大”發(fā)展,數(shù)據(jù)量激增迎來(lái)大數(shù)據(jù)時(shí)代,緊隨而來(lái)的還有大模型、大算力。越來(lái)越“大”的發(fā)展,讓各大核心要素之間愈發(fā)協(xié)同,存儲(chǔ)進(jìn)入大存力時(shí)代,也與大數(shù)據(jù)、大模型、大算力之間的聯(lián)系更加緊密。

在這個(gè)節(jié)點(diǎn)上,行業(yè)權(quán)威機(jī)構(gòu)開(kāi)創(chuàng)基準(zhǔn)評(píng)測(cè),為市場(chǎng)提供參考標(biāo)準(zhǔn)。以浪潮信息為代表的本土廠商不斷以優(yōu)質(zhì)的產(chǎn)品和解決方案強(qiáng)勢(shì)打榜,由此可見(jiàn),不光是存儲(chǔ)的含金量在提升,本土AI的專業(yè)解決方案也在崛起。

只要以數(shù)據(jù)、算力為代表的核心要素相關(guān)解決方案持續(xù)強(qiáng)化,中國(guó)AI產(chǎn)業(yè)終將“狂飆”起來(lái),上演本土化的“飛馳人生”。

*本文圖片均來(lái)源于網(wǎng)絡(luò)

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2024-10-28
MLPerf Storage揭榜,「存儲(chǔ)」掛帥,驅(qū)動(dòng)AI上演“飛馳人生”
MLPerfStorage揭榜,「存儲(chǔ)」掛帥,驅(qū)動(dòng)AI上演“飛馳人生”

長(zhǎng)按掃碼 閱讀全文