“我們的AI大模型,在萬(wàn)卡集群上訓(xùn)練,三小時(shí)就出一次錯(cuò)。別笑,這已經(jīng)是世界先進(jìn)水平了?!蹦炒涡袠I(yè)峰會(huì)上,一位清華大學(xué)的院士科學(xué)家,講出了AI大模型訓(xùn)練的“大實(shí)話”。
風(fēng)靡全球的AI大模型,是今年毋庸置疑的風(fēng)口,數(shù)量不斷增長(zhǎng),達(dá)到了驚人的水平。“百舸爭(zhēng)流”之下,大家卻經(jīng)常會(huì)忽略一個(gè)關(guān)鍵問(wèn)題:AI大模型帶來(lái)的數(shù)據(jù)激流,也比想象中更加洶涌。
“三小時(shí)出錯(cuò)一次”,聽(tīng)起來(lái)不可思議的故障率,卻是大模型從業(yè)者要面對(duì)的常態(tài),甚至是“優(yōu)等生”。目前業(yè)界的普遍做法,是寫(xiě)容錯(cuò)檢查點(diǎn)checkpoint。既然三小時(shí)就報(bào)錯(cuò),那就2.5小時(shí)停一次,寫(xiě)好檢查點(diǎn),把數(shù)據(jù)存起來(lái),再開(kāi)始訓(xùn)練。一旦出現(xiàn)故障,可以從寫(xiě)好的檢查點(diǎn)恢復(fù),避免“從頭開(kāi)始”、全部白干。而檢查點(diǎn)需要存儲(chǔ)的數(shù)據(jù)多,會(huì)耗費(fèi)大量的時(shí)間。該院士團(tuán)隊(duì)基于llama 2架構(gòu)研發(fā)的大模型,數(shù)據(jù)存一次硬件,就需要十個(gè)小時(shí),存儲(chǔ)效率直接影響了開(kāi)發(fā)進(jìn)度。
如果說(shuō)大規(guī)模的異構(gòu)數(shù)據(jù),是肆意奔涌的激流,存儲(chǔ)系統(tǒng)就是承載著數(shù)據(jù)流量的河道,其寬闊堅(jiān)固程度直接決定了數(shù)據(jù)是否會(huì)淤塞甚至停滯,從而卡住AI大模型的生命線??梢哉f(shuō),整個(gè)大模型行業(yè)的生產(chǎn)力和效率,都被存儲(chǔ)規(guī)定了“上限”。
這也是為什么,存儲(chǔ)作為AI數(shù)據(jù)基礎(chǔ)設(shè)施,受到越來(lái)越多關(guān)注。
11月29日,“數(shù)智創(chuàng)新 AI未來(lái)”2023中國(guó)數(shù)據(jù)與存儲(chǔ)峰會(huì)在北京舉辦。曙光存儲(chǔ)發(fā)布了面向AI大模型的存儲(chǔ)解決方案。
借此機(jī)會(huì),我們一起了解一下,AI大模型浪潮來(lái)襲,給存儲(chǔ)帶來(lái)的承載挑戰(zhàn),以及曙光存儲(chǔ)是如何為智能產(chǎn)業(yè)引航,助推AI大模型百舸揚(yáng)帆。
AI大模型駛?cè)氘a(chǎn)業(yè)深水區(qū),傳統(tǒng)存儲(chǔ)的數(shù)據(jù)之殤
最近我去了一趟云南,發(fā)現(xiàn)不僅北上廣等科技重地的大模型建設(shè)如火如荼,在昆明、大理等二三線城市,甚至邊疆地區(qū),都在積極地探索大模型行業(yè)應(yīng)用。
各行各業(yè)走向智能化,幾乎都點(diǎn)燃了對(duì)大模型的熾熱興趣。這時(shí)候,一個(gè)關(guān)鍵問(wèn)題也顯露了出來(lái):AI大模型的產(chǎn)業(yè)化風(fēng)潮,需要升級(jí)存儲(chǔ)基礎(chǔ)設(shè)施。
模型開(kāi)發(fā)者的每一次訓(xùn)練,數(shù)據(jù)都在向存儲(chǔ)系統(tǒng)發(fā)起多種挑戰(zhàn):
數(shù)據(jù)洪潮的沖擊。隨著大模型的產(chǎn)業(yè)落地,許多行業(yè)都開(kāi)始訓(xùn)練專屬模型,大量行業(yè)數(shù)據(jù)、專有數(shù)據(jù)、新的標(biāo)注數(shù)據(jù)被輸送給大模型,澎湃的數(shù)據(jù)數(shù)量對(duì)存儲(chǔ)系統(tǒng)提出了挑戰(zhàn)。云南某數(shù)據(jù)科技公司提到,行業(yè)大模型要用高質(zhì)量的數(shù)據(jù)集、文檔、客戶私有數(shù)據(jù)進(jìn)行訓(xùn)練,每個(gè)項(xiàng)目都是單獨(dú)成立標(biāo)注組,數(shù)據(jù)規(guī)模持續(xù)增大,存儲(chǔ)訴求和成本也隨之增加。
2.數(shù)據(jù)淤塞的桎梏。超大規(guī)模數(shù)據(jù)預(yù)處理的速度慢、耗時(shí)長(zhǎng),采集、歸類、搬遷等過(guò)程費(fèi)時(shí)費(fèi)力,一旦存儲(chǔ)性能跟不上,海量文件吞吐慢、多讀少寫(xiě),檢查點(diǎn)Checkpoint等待耗時(shí)久,會(huì)延緩開(kāi)發(fā)進(jìn)度,增加開(kāi)發(fā)成本。
3.數(shù)據(jù)復(fù)雜的暗涌。此外,AI大模型要用到大量異構(gòu)數(shù)據(jù),文件格式復(fù)雜、數(shù)據(jù)集類型多樣,數(shù)據(jù)數(shù)量激增,傳統(tǒng)存儲(chǔ)難以應(yīng)對(duì)數(shù)據(jù)復(fù)雜性的挑戰(zhàn),容易產(chǎn)生消化不良的問(wèn)題,造成數(shù)據(jù)訪問(wèn)效率低,從而造成模型運(yùn)行效率下降,訓(xùn)練算力消耗增多,無(wú)法充分“壓榨”昂貴的GPU算力資源。比如云南當(dāng)?shù)氐奶?yáng)觀測(cè)站,通過(guò)讓AI科學(xué)計(jì)算模型學(xué)習(xí)海量圖片,呈現(xiàn)太陽(yáng)真實(shí)的樣子,每天產(chǎn)生2TB的圖片數(shù)據(jù),當(dāng)前存儲(chǔ)的吞吐效率低,會(huì)導(dǎo)致訓(xùn)練集加載慢、數(shù)據(jù)處理周期長(zhǎng),拖慢研究進(jìn)程。
4. 數(shù)據(jù)安全的隱憂。目前,AI大模型已經(jīng)深度滲透各行業(yè)之中,在訓(xùn)練開(kāi)發(fā)及應(yīng)用落地過(guò)程中需要海量的數(shù)據(jù)支撐,其中包含行業(yè)或個(gè)人敏感信息的數(shù)據(jù),如果沒(méi)有合理的數(shù)據(jù)脫敏和數(shù)據(jù)托管機(jī)制,則可能造成數(shù)據(jù)泄露,給行業(yè)和個(gè)人造成損失。同時(shí),模型安全風(fēng)險(xiǎn)也需重視,比如,插件可能被植入有害內(nèi)容,成為不法分子欺詐和“投毒”的工具,危及社會(huì)和產(chǎn)業(yè)安全。
AI大模型駛向產(chǎn)業(yè)深水區(qū),欣喜的是,這一技術(shù)創(chuàng)新正在高度融入千行萬(wàn)業(yè),滿足智能化需求,生命力旺盛。擔(dān)憂的是,數(shù)據(jù)工程貫穿大模型的全生命周期,從收集、清理、訓(xùn)練、推理部署、反饋調(diào)優(yōu)等各個(gè)階段,都需要用到大量數(shù)據(jù)。存儲(chǔ)成為瓶頸,意味著AI大模型的各個(gè)階段都需要消耗在大量的數(shù)據(jù)淤塞、故障、低效之中,這會(huì)讓大模型的開(kāi)發(fā)周期與綜合成本極高,是產(chǎn)業(yè)所無(wú)法承受的。
疏浚存儲(chǔ)“河道”,避免數(shù)據(jù)淤塞,為大模型的產(chǎn)業(yè)揚(yáng)帆提供支持和滋養(yǎng),曙光存儲(chǔ)帶來(lái)的新解決方案,讓我們發(fā)現(xiàn)了有價(jià)值的參考案例。
高質(zhì)數(shù)據(jù)“航道”,曙光存儲(chǔ)給大模型行業(yè)一個(gè)答案
經(jīng)過(guò)與AI大模型開(kāi)發(fā)者的交流,我得出了一個(gè)清晰的結(jié)論:構(gòu)建一個(gè)適配AI大模型的全新存儲(chǔ)體系,已經(jīng)不再是需要討論的問(wèn)題,關(guān)鍵是誰(shuí)能率先完成方案升級(jí)、給出實(shí)用解法。
洞察行業(yè)的存力需求,曙光存儲(chǔ)打造了以ParaStor大模型專用存儲(chǔ)為底座的AI大模型存儲(chǔ)解決方案,寫(xiě)下了自己的答案。
曙光存儲(chǔ)AI大模型存儲(chǔ)集群,擁有異構(gòu)融合、極致性能與原生安全三大領(lǐng)先能力。
首先,可提供千億級(jí)文件存儲(chǔ)服務(wù),接近無(wú)限擴(kuò)展規(guī)模。針對(duì)數(shù)據(jù)訪問(wèn)協(xié)議多樣性問(wèn)題,同時(shí)支持文件、對(duì)象等多種存儲(chǔ)協(xié)議,避免數(shù)據(jù)跨存儲(chǔ)系統(tǒng)復(fù)制。
其次,針對(duì)AI大模型開(kāi)發(fā)過(guò)程中對(duì)數(shù)據(jù)處理效率的高需求,曙光存儲(chǔ)AI大模型存儲(chǔ)集群可提供多級(jí)緩存加速、XDS數(shù)據(jù)加速及智能高速選路等多種數(shù)據(jù)IO性能優(yōu)化能力。
最后,為保障全流程數(shù)據(jù)安全,曙光存儲(chǔ)節(jié)點(diǎn)還提供芯片級(jí)安全能力,并支持國(guó)密指令集,通過(guò)多級(jí)可靠性,保障存儲(chǔ)集群在訓(xùn)練開(kāi)發(fā)全周期內(nèi)穩(wěn)定運(yùn)行,符合政策和未來(lái)安全趨勢(shì)。
有人可能會(huì)問(wèn)了,市面上的存儲(chǔ)方案這么多,有的也宣傳為模型開(kāi)發(fā)提供專業(yè)支持。曙光存儲(chǔ)的方案有哪些差異化價(jià)值?
如果對(duì)各家的技術(shù)名詞和產(chǎn)品細(xì)節(jié)云里霧里,大家不妨用幾個(gè)詞,記住曙光存儲(chǔ)AI大模型存儲(chǔ)集群的差異化價(jià)值:
1.先進(jìn)。異構(gòu)融合,極致性能,芯片級(jí)原生安全,展現(xiàn)了曙光存儲(chǔ)的技術(shù)先進(jìn)性,也針對(duì)性地解決了大模型開(kāi)發(fā)的數(shù)據(jù)量大、數(shù)據(jù)形態(tài)復(fù)雜多樣、吞吐效率低、存算時(shí)間長(zhǎng)等實(shí)實(shí)在在的痛點(diǎn)。
2.可靠。高性能AI數(shù)據(jù)基礎(chǔ)設(shè)施基于曙光存儲(chǔ)的自研創(chuàng)新,更加可靠安全,符合信創(chuàng)政策和未來(lái)安全趨勢(shì),可以幫助國(guó)內(nèi)大模型服務(wù)商規(guī)避海外供應(yīng)鏈風(fēng)險(xiǎn),從供應(yīng)鏈安全、數(shù)據(jù)安全、模型安全等多個(gè)角度,為大模型產(chǎn)業(yè)的發(fā)展護(hù)航。
3.全面。曙光存儲(chǔ)打造了涵蓋從網(wǎng)絡(luò)、計(jì)算到平臺(tái)的全維度AI解決方案,支持訓(xùn)練開(kāi)發(fā)全周期內(nèi)穩(wěn)定運(yùn)行,可以降低綜合成本,讓大模型開(kāi)發(fā)者和行業(yè)客戶無(wú)憂前行。
總結(jié)一下,在曙光存儲(chǔ)構(gòu)建的高質(zhì)“航道”上,大規(guī)模數(shù)據(jù)高效吞吐,AI大模型加速開(kāi)發(fā),因此,行業(yè)和企業(yè)可以快人一步,將大模型與垂直場(chǎng)景和業(yè)務(wù)深度融合,率先獲得通往智能時(shí)代的船票。
第五范式的新起點(diǎn),看百舸爭(zhēng)流、萬(wàn)業(yè)揚(yáng)帆
圖靈獎(jiǎng)獲得者吉姆·格雷(Jim Gray),曾提出第四范式,核心是數(shù)據(jù)驅(qū)動(dòng)。而隨著大語(yǔ)言模型“智能涌現(xiàn)”,“智能驅(qū)動(dòng)”的第五范式,更側(cè)重于數(shù)據(jù)和智能的有機(jī)結(jié)合,成為支撐科學(xué)革命、產(chǎn)業(yè)革命的新底層邏輯。
所有過(guò)往,皆是序章。AI如此,存儲(chǔ)亦如此。
此次大會(huì)上,憑借20年行業(yè)深耕,與在AI存儲(chǔ)技術(shù)突破、液冷存儲(chǔ)研發(fā)等領(lǐng)域的領(lǐng)先實(shí)踐,曙光存儲(chǔ)公司總裁惠潤(rùn)海獲評(píng)“存儲(chǔ)先鋒”。在其領(lǐng)導(dǎo)下,多年來(lái)曙光分布式文件存儲(chǔ)在市場(chǎng)中持續(xù)領(lǐng)跑,市場(chǎng)份額名列前茅。面向AI大模型的數(shù)據(jù)存儲(chǔ)解決方案,讓曙光存儲(chǔ)又一次站到了時(shí)代前沿。
曙光存儲(chǔ)的AI大模型存儲(chǔ)集群,正是積極踐行范式轉(zhuǎn)換,對(duì)應(yīng)數(shù)據(jù)新范式,用數(shù)據(jù)基礎(chǔ)設(shè)施的飛躍,助推大模型產(chǎn)業(yè)化的漲潮。
接下來(lái),在存儲(chǔ)行業(yè)的新范式、新起點(diǎn),在曙光存儲(chǔ)的高質(zhì)數(shù)據(jù)“河道”上,我們會(huì)看到,行業(yè)大模型百舸爭(zhēng)流,AI應(yīng)用千帆競(jìng)渡,加速駛向智能中國(guó)。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 技術(shù)領(lǐng)先的美國(guó)為何在六代機(jī)研發(fā)上落后了?制造業(yè)基礎(chǔ)薄弱是主因
- 國(guó)產(chǎn)手機(jī)玩田忌賽馬,舊款旗艦降價(jià)超千元,不敢與蘋(píng)果硬拼
- 在人群里,看見(jiàn)「鯤鵬開(kāi)發(fā)者」
- 游戲體驗(yàn)天花板,一加 Ace 5 系列售價(jià) 2299 元起
- 為創(chuàng)意和管理提效,新廣告投放(3.0)驅(qū)動(dòng)消費(fèi)品商家高效增長(zhǎng)
- 榮耀Magic7系列全面升級(jí)大王影像,首發(fā)AI超級(jí)長(zhǎng)焦拍遠(yuǎn)更清晰
- 2024過(guò)去了,留下十個(gè)科技記憶
- 年貨節(jié)如何大爆單?別錯(cuò)過(guò)巨量千川這三波紅利
- 中國(guó)六代機(jī)首飛成功,還是兩款,宣告全球戰(zhàn)機(jī)技術(shù)將由中國(guó)引領(lǐng)
- 美國(guó)無(wú)人機(jī)禁令升級(jí)?當(dāng)?shù)乜茖W(xué)家率先“喊疼”:我們離不開(kāi)大疆
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。