有人曾言,數(shù)據(jù)決定人工智能發(fā)展的天花板。深以為然。
隨著ChatGPT等AIGC應(yīng)用所展現(xiàn)出的強(qiáng)大能力,人們意識(shí)到通用人工智能的奇點(diǎn)正在來(lái)臨,越來(lái)越多的企業(yè)開(kāi)始涌入這條賽道。在AIGC浪潮席卷全球之際,數(shù)據(jù)的重要性也愈發(fā)被業(yè)界所認(rèn)同。
之所以會(huì)如此,有兩個(gè)關(guān)鍵原因:其一,高質(zhì)量數(shù)據(jù)是AIGC 應(yīng)用的核心,決定著算法的性能、泛化能力和應(yīng)用效果;其二,與數(shù)據(jù)相關(guān)的“存、管、用、傳”逐漸成為AIGC發(fā)展的瓶頸,亟待高水平的基礎(chǔ)設(shè)施來(lái)協(xié)助突破。
可以說(shuō),深度學(xué)習(xí)在過(guò)去十年的高速發(fā)展,讓異構(gòu)算力的作用與價(jià)值得到高度認(rèn)可;未來(lái)十年,數(shù)據(jù)存儲(chǔ)的變革將決定著高質(zhì)量數(shù)據(jù)發(fā)展的深度。
AIGC市場(chǎng)發(fā)展趨勢(shì)是什么
大模型所展現(xiàn)出的強(qiáng)大能力和較強(qiáng)的泛用性,已經(jīng)讓AIGC應(yīng)用在辦公、會(huì)議、對(duì)話(huà)、搜索、廣告等內(nèi)容生成領(lǐng)域初露鋒芒。當(dāng)前,AIGC和大模型的賽道熱鬧非凡,僅僅中國(guó)市場(chǎng)就有上百個(gè)大模型涌現(xiàn),“百模大戰(zhàn)”的盛況讓市場(chǎng)熱度持續(xù)升溫。那么,未來(lái)的大模型和AIGC市場(chǎng)的發(fā)展趨勢(shì)是什么?
毫無(wú)疑問(wèn),接下來(lái),出于對(duì)交互體驗(yàn)升級(jí)和降本增效的巨大需求,AIGC和大模型廣泛進(jìn)入垂直行業(yè)已是不可阻擋的趨勢(shì)。Gartner預(yù)測(cè),到2032年,生成式人工智能市場(chǎng)規(guī)模將達(dá)到2000億美元,在金融、教育、醫(yī)療、工業(yè)等領(lǐng)域有著廣闊的應(yīng)用前景。
中金公司研究部判斷,未來(lái)的大模型市場(chǎng)類(lèi)似云計(jì)算市場(chǎng),就像一個(gè)冰激凌蛋筒,上面的冰激凌球代表金融、醫(yī)療、教育等多個(gè)關(guān)鍵行業(yè)的垂直大模型,與私有云的現(xiàn)狀與曲同工;下面的筒身則代表著通用大模型,覆蓋廣泛的長(zhǎng)尾市場(chǎng),類(lèi)似公有云市場(chǎng)那樣的覆蓋。
顯然,越來(lái)越多行業(yè)用戶(hù)看到了垂直行業(yè)大模型的巨大潛力。這些重點(diǎn)行業(yè)場(chǎng)景足夠豐富、業(yè)務(wù)數(shù)據(jù)量巨大、降本增效需求強(qiáng)烈,加上這些行業(yè)的用戶(hù)本身即是私有云的重度用戶(hù),看重?cái)?shù)據(jù)的安全性和本地化部署,對(duì)于垂直大模型的需求極為強(qiáng)烈。
“當(dāng)前,大模型和AIGC市場(chǎng)依然處于早期。但AIGC對(duì)于整個(gè)行業(yè)應(yīng)用是變革性的,所有行業(yè)都必須去適應(yīng)AIGC帶來(lái)的變化。這無(wú)疑在未來(lái)五到十年將產(chǎn)生持續(xù)且巨大的數(shù)據(jù)存儲(chǔ)需求?!崩顺毙畔⑹紫軜?gòu)師葉毓睿判斷道。
AIGC數(shù)據(jù)存儲(chǔ)挑戰(zhàn)到底有哪些
今年4月,OpenAI CEO Sam Altman認(rèn)為,增加大模型的參數(shù)數(shù)量不再是提升大模型能力的最有效手段,大規(guī)模、高質(zhì)量數(shù)據(jù)和數(shù)據(jù)高效處理工程化才是關(guān)鍵。事實(shí)上,從OpenAI GPT-5開(kāi)始,多模態(tài)被視為是大模型下一階段的重要演進(jìn)方向。
多模態(tài)大模型意味著除了文本數(shù)據(jù)之外,音視頻數(shù)據(jù)也將加入其中,這會(huì)讓AIGC的數(shù)據(jù)特征呈現(xiàn)出數(shù)據(jù)海量化、多元數(shù)據(jù)類(lèi)型復(fù)雜、服務(wù)協(xié)議多樣、性能要求苛刻和要求服務(wù)持續(xù)在線(xiàn),進(jìn)而帶來(lái)一系列極為復(fù)雜的數(shù)據(jù)存儲(chǔ)挑戰(zhàn)。
浪潮分布式存儲(chǔ)總經(jīng)理姜樂(lè)果認(rèn)為,當(dāng)下AIGC應(yīng)用背后需要對(duì)行業(yè)上下游對(duì)數(shù)據(jù)進(jìn)行采集、標(biāo)注、訓(xùn)練、推理、歸檔,帶來(lái)了異構(gòu)數(shù)據(jù)的融合、持續(xù)的低延遲與高帶寬和EB級(jí)大容量存儲(chǔ)需求等三大重要挑戰(zhàn)。
首先是異構(gòu)數(shù)據(jù)的融合。大模型訓(xùn)練數(shù)據(jù)呈現(xiàn)來(lái)源多、格式多的多源異構(gòu)現(xiàn)狀,對(duì)于面向單一數(shù)據(jù)類(lèi)型設(shè)計(jì)的傳統(tǒng)存儲(chǔ)是極大挑戰(zhàn)。這種傳統(tǒng)模式的缺陷就是很難在一個(gè)數(shù)據(jù)平臺(tái)上滿(mǎn)足不同數(shù)據(jù)類(lèi)型對(duì)于性能的不同需求,在大模型從采集、標(biāo)注到訓(xùn)練、推理整個(gè)數(shù)據(jù)存儲(chǔ)管道中,需要來(lái)回進(jìn)行數(shù)據(jù)拷貝,數(shù)據(jù)處理效率低且無(wú)法滿(mǎn)足AIGC應(yīng)用的處理需求。
“傳統(tǒng)存儲(chǔ)需要以搬移數(shù)據(jù)的方式實(shí)現(xiàn)多協(xié)議訪問(wèn),這是AIGC應(yīng)用平臺(tái)一大關(guān)鍵瓶頸。支持異構(gòu)數(shù)據(jù)的多協(xié)議融合將是解決挑戰(zhàn)的關(guān)鍵?!苯獦?lè)果直言道。
第二是持續(xù)的低延遲與高帶寬。在大模型的訓(xùn)練過(guò)程中,需要頻繁從數(shù)據(jù)集取Token。但是每個(gè)Token通常只有4個(gè)字節(jié),這就造成了實(shí)時(shí)高并發(fā)的海量小IO,需要極低的延遲來(lái)保障性能;此外,大模型在存儲(chǔ)模型Checkpoint時(shí),需要高帶寬來(lái)支撐數(shù)據(jù)的快速寫(xiě)入。
“大模型訓(xùn)練時(shí)候通常要調(diào)用上千塊GPU塊,某一塊卡出現(xiàn)故障或者問(wèn)題的情況比較正常。如果出現(xiàn)故障,模型需要重新拉起,利用備用節(jié)點(diǎn)來(lái)替代,備用節(jié)點(diǎn)CheckPoint需要存儲(chǔ)的高帶寬來(lái)實(shí)現(xiàn)數(shù)據(jù)快速寫(xiě)入,否則就很容易造成GPU算力資源的浪費(fèi)?!崩顺毙畔I架構(gòu)師楊鑫介紹道。
第三是EB級(jí)大容量存儲(chǔ)需求。大模型的越多數(shù)據(jù)投喂結(jié)果越精準(zhǔn)的工作原理,決定著大模型訓(xùn)練存在深度學(xué)習(xí)網(wǎng)絡(luò)層數(shù)多、連接多、參數(shù)和數(shù)據(jù)集種類(lèi)復(fù)雜、數(shù)據(jù)量大的特征,隨著模型參數(shù)和數(shù)據(jù)量的快速增長(zhǎng),對(duì)于存儲(chǔ)的大容量和擴(kuò)展需求也迫在眉睫。
“比如,浪潮信息自身的源1.0大模型,加入音視頻數(shù)據(jù)之后,經(jīng)過(guò)不斷訓(xùn)練已經(jīng)達(dá)到上百PB的數(shù)據(jù)規(guī)模?!苯獦?lè)果介紹道,“隨著訓(xùn)練的不斷深入,對(duì)于數(shù)據(jù)存儲(chǔ)容量、性能的需求也會(huì)持續(xù)增長(zhǎng),需要存儲(chǔ)具備極致容量和極致性能的能力。”
葉毓睿則表示,AIGC涉及包括采集、標(biāo)注、訓(xùn)練、推理、歸檔等數(shù)據(jù)處理的過(guò)程較長(zhǎng),且不同階段對(duì)于性能、延時(shí)、數(shù)據(jù)安全等要求不同。從產(chǎn)業(yè)變革的角度看,AIGC正在推動(dòng)數(shù)據(jù)存儲(chǔ)產(chǎn)業(yè)進(jìn)行全方位的技術(shù)升級(jí),未來(lái)專(zhuān)業(yè)的AIGC存儲(chǔ)產(chǎn)品與解決方案需求將大幅增加。
浪潮存儲(chǔ),讓AIGC有數(shù)
如果說(shuō)數(shù)據(jù)存儲(chǔ)是AIGC應(yīng)用的地基,那么這個(gè)地基的深度與優(yōu)劣將決定著AIGC應(yīng)用的通用性和效率。一旦AIGC應(yīng)用的效率持續(xù)提升和拓展,也意味著垂直行業(yè)的生產(chǎn)力有望迎來(lái)質(zhì)的變化。
當(dāng)前,市場(chǎng)中專(zhuān)門(mén)針對(duì)AIGC的存儲(chǔ)解決方案并不多,尤其是經(jīng)過(guò)驗(yàn)證過(guò)的存儲(chǔ)解決方案很少。浪潮信息是市場(chǎng)中率先推出相應(yīng)解決方案的廠商,利用一套AS13000融合存儲(chǔ)支撐生成式AI的全階段應(yīng)用,一套存儲(chǔ)提供端到端的數(shù)據(jù)流支持流程,滿(mǎn)足面向文本、音頻、圖像、視頻、代碼以及多模態(tài)和全模態(tài)的大模型需求。
據(jù)悉,浪潮信息AS13000提供全閃、混閃、帶庫(kù)、光盤(pán)四種介質(zhì),支持文件、對(duì)象、大數(shù)據(jù)、視頻、塊協(xié)議,可滿(mǎn)足大容量、多協(xié)議共享,百萬(wàn)以上IOPS,100GB以上帶寬,冷數(shù)據(jù)的長(zhǎng)期保存和歸檔。“浪潮信息的AIGC存儲(chǔ)解決方案已經(jīng)支撐過(guò)浪潮信息源1.0大模型以及其他AI公司的大模型訓(xùn)練?!苯獦?lè)果如是說(shuō)。
從浪潮信息透露的信息來(lái)看,AS13000有效避免了傳統(tǒng)存儲(chǔ)方案臺(tái)設(shè)備并存帶來(lái)的各種復(fù)雜性、數(shù)據(jù)處理低效率以及數(shù)據(jù)孤島,對(duì)于AIGC突破海量數(shù)據(jù)瓶頸和加速釋放數(shù)據(jù)價(jià)值有著極大幫助。
姜樂(lè)果介紹,浪潮信息生成式AI存儲(chǔ)解決方案擁有極致融合、極致性能、極致節(jié)能,和熱溫冷冰四級(jí)全生命周期存儲(chǔ)管理四大特點(diǎn)。
第一是極致融合。一個(gè)集群內(nèi)支持多個(gè)存儲(chǔ)池,一個(gè)存儲(chǔ)池內(nèi)支持文本、圖片、音頻、視頻等多種類(lèi)型數(shù)據(jù)存儲(chǔ),一份數(shù)據(jù)又可以被前端不同業(yè)務(wù)場(chǎng)景以文件、對(duì)象、大數(shù)據(jù)以及視頻的存儲(chǔ)方式并行訪問(wèn)。完美契合了多模態(tài)大模型場(chǎng)景的數(shù)據(jù)存儲(chǔ)需求,并且實(shí)現(xiàn)應(yīng)用間數(shù)據(jù)實(shí)時(shí)共享以及存儲(chǔ)空間的最優(yōu)化。
第二則是極致性能。AIGC帶來(lái)的是性能指數(shù)級(jí)的增長(zhǎng),大帶寬、高IOPS在未來(lái)會(huì)成為業(yè)務(wù)需求的標(biāo)配。對(duì)此,浪潮信息的解決思路是通過(guò)架構(gòu)、硬件、關(guān)鍵技術(shù)、IO路徑優(yōu)化等多種手段實(shí)現(xiàn)存儲(chǔ)性能的充分釋放。
“比如,數(shù)控分離架構(gòu)可以減少東西向數(shù)據(jù)量的轉(zhuǎn)發(fā);GDS、RMDA技術(shù)則可以縮短I/O路徑,SPDK、緩存零拷貝技術(shù)則可以有效減少I(mǎi)/O路徑上的數(shù)據(jù)拷貝;基于自研NVMe SSD開(kāi)發(fā)的盤(pán)控協(xié)同技術(shù),則減少I(mǎi)/O訪問(wèn)SSD盤(pán)的次數(shù),進(jìn)一步提升性能?!苯獦?lè)果補(bǔ)充道,“像全閃單節(jié)點(diǎn)帶寬超過(guò)50GB/s,IOPS超過(guò)50萬(wàn),雙控全閃節(jié)點(diǎn),帶寬超過(guò)100GB/s,IOPS超過(guò)100萬(wàn)。”
以源1.0大模型為例,在AS13000并行存儲(chǔ)支撐下,2128個(gè)GPU集群上跑了16天完成訓(xùn)練,算力效率達(dá)到45%,遠(yuǎn)超MT-NLG與GPT-3等國(guó)際知名模型。
第三則是極致節(jié)能。相關(guān)數(shù)據(jù)預(yù)測(cè),到2025年,我國(guó)AI算力總量將超過(guò)1800EFlops,AI算力占總算力比重超過(guò)85%,這意味著與AI相關(guān)的數(shù)據(jù)存儲(chǔ)也將大幅增加,隨之而來(lái)不容忽視的挑戰(zhàn)就是節(jié)能減排。為此,浪潮信息最新的G7硬件平臺(tái)中,存儲(chǔ)專(zhuān)用的液冷服務(wù)器涵蓋性能型和容量型,且均采用模塊化冷板組件設(shè)計(jì)模式,并且浪潮信息具有風(fēng)液式,全液式等完善的端到端解決方案。
最后則是端到端的全生命周期管理。浪潮信息生成式AI存儲(chǔ)解決方案采用閃存、磁盤(pán)、磁帶、光盤(pán)四種介質(zhì)提供熱溫冷冰四種存儲(chǔ)資源,且實(shí)現(xiàn)了資源的互通和數(shù)據(jù)全生命周期的管理。此外,四種介質(zhì)、四類(lèi)存儲(chǔ)節(jié)點(diǎn)提供熱溫冷冰自動(dòng)流轉(zhuǎn),滿(mǎn)足各類(lèi)應(yīng)用的靈活配置需求,用戶(hù)們可以根據(jù)性能型、均衡型、容量型、高密容量型四種機(jī)型的按需靈活配置,進(jìn)一步降低整體投入。
“目前市場(chǎng)上能夠構(gòu)建起完整端到端支撐平臺(tái)的用戶(hù)還是少數(shù)。大部分用戶(hù)希望是有一攬子解決方案,來(lái)支撐起他們迅速構(gòu)建起平臺(tái)。浪潮信息自身?yè)碛写竽P偷慕?jīng)驗(yàn),可以通過(guò)生成式AI存儲(chǔ)解決方案將好的經(jīng)驗(yàn)和實(shí)踐快速輸出到市場(chǎng)中,更好地推動(dòng)AIGC產(chǎn)業(yè)發(fā)展?!苯獦?lè)果總結(jié)道。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 美國(guó)無(wú)人機(jī)禁令升級(jí)?當(dāng)?shù)乜茖W(xué)家率先“喊疼”:我們離不開(kāi)大疆
- iQOO Neo10 Pro:性能特長(zhǎng)之外,亦有全能實(shí)力
- 自動(dòng)駕駛第一股的轉(zhuǎn)型迷途:圖森未來(lái)賭上了AIGC
- 明星熱劇、品牌種草、平臺(tái)資源,京東讓芬騰雙11的熱度“沸騰”了
- 一加 Ace 5 Pro明牌:游戲手機(jī)看它就夠了!
- 游戲體驗(yàn)天花板,一加 Ace 5 系列售價(jià) 2299 元起
- 16個(gè)月沒(méi)工資不敢離職,這些打工人“自費(fèi)上班”
- 怎樣利用微信小店“送禮”功能賺錢(qián)?
- 鴻蒙智行問(wèn)界M9,中國(guó)豪華車(chē)的龍門(mén)一躍
- 科技云報(bào)道:人工智能時(shí)代“三大件”:生成式AI、數(shù)據(jù)、云服務(wù)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。