AI時代的數(shù)據(jù)革命,分布式融合存儲為何堪當大任?

有人說,以ChatGPT為代表的人工智能應(yīng)用的興起標志著AI時代奇點來臨。

誠然如斯。這一波AIGC浪潮來襲,讓人們真正意識到AI給生產(chǎn)力帶來的巨大飛躍。從今年起,AI大模型成為行業(yè)用戶重點關(guān)注的對象,甚至金融、媒體、廣告營銷等用戶紛紛試水AI大模型。

但OpenAI ChatGPT的成功,除了整合Transformer等多種人工智能技術(shù)之外,基礎(chǔ)設(shè)施的高效支撐也功不可沒。隨著AI應(yīng)用的深入,越來越多用戶意識到,伴隨著AI時代的到來,一場數(shù)據(jù)革命也隨之發(fā)生:如何高效存儲與處理海量多元數(shù)據(jù)、如何實現(xiàn)數(shù)據(jù)全生命周期的高效管理、如何為AI大模型選取合適的數(shù)據(jù)精度……

因此,分布式融合存儲開始堪當大任,在各類AI應(yīng)用的數(shù)據(jù)基礎(chǔ)設(shè)施中扮演著重要角色。強大的分布式融合存儲將成為AI時代各類智慧應(yīng)用的基石,真正解決AI應(yīng)用的訓練與推理等各類數(shù)據(jù)痛點,為AI釋放生產(chǎn)力注入數(shù)據(jù)存儲的關(guān)鍵力量。

AI時代的數(shù)據(jù)革命

近年來,分布式融合存儲市場的整體增長速度明顯更快。

究其原因,以大數(shù)據(jù)、AI為代表的新應(yīng)用場景興起是關(guān)鍵所在。這些新應(yīng)用、新場景均需要大量應(yīng)用到非結(jié)構(gòu)化數(shù)據(jù)。Gartner預測,到2025年,人工智能將成為推動基礎(chǔ)架構(gòu)決策的最主要因素之一,這將導致基礎(chǔ)架構(gòu)需求增長10倍。

如果說過去十年里,AI應(yīng)用的興起首先帶來了算力的革命,讓多元異構(gòu)算力成為大勢所趨,智算中心成為數(shù)據(jù)中心建設(shè)方向;那么,未來十年,隨著AI應(yīng)用的深入,數(shù)據(jù)規(guī)模的持續(xù)增大,一場數(shù)據(jù)革命即將到來,將對數(shù)據(jù)基礎(chǔ)設(shè)施的發(fā)展帶來深遠影響。

首先,以AIGC為代表的AI大模型應(yīng)用正在加速走向多模態(tài)。例如,OpenAI GPT-5開始就是多模態(tài)大模型,這意味著音視頻等數(shù)據(jù)將會接入,數(shù)據(jù)集迎來指數(shù)級的增長,對于數(shù)據(jù)存儲的需求也會產(chǎn)生根本性的影響。

浪潮信息存儲產(chǎn)品線總經(jīng)理李輝直言,AI大模型會對數(shù)據(jù)基礎(chǔ)設(shè)施帶來根本影響:其一、大模型走向多模態(tài),篩選后的數(shù)據(jù)集就達到PB級,而篩選前的數(shù)據(jù)量會更加驚人;其二,大模型應(yīng)用走向深入,意味著海量終端的接入,帶來大量推理需求,對于數(shù)據(jù)基礎(chǔ)設(shè)施的延時要求會越來越高。

其次,各大行業(yè)的AI應(yīng)用逐漸進入縱深階段,對于數(shù)據(jù)存儲的性能將會極度渴望。例如,L2級自動駕駛普及率正在提升,從L2到L3進階時,對于訓練的性能要求越來越高;又如,車路協(xié)同場景的出現(xiàn),進一步加速了數(shù)據(jù)基礎(chǔ)設(shè)施的性能要求。

“像車路協(xié)同、智能制造、智慧醫(yī)療這些場景中,對于數(shù)據(jù)處理性能、時效性等是目前當下的核心挑戰(zhàn)?!崩顺毙畔⒋鎯Ξa(chǎn)品線副總經(jīng)理劉希猛介紹道。

第三,AI應(yīng)用的規(guī)?;蛨鼍岸鄻踊瑫嵘龜?shù)據(jù)處理的復雜度,對于數(shù)據(jù)基礎(chǔ)設(shè)施的數(shù)據(jù)互通性、綠色節(jié)能帶來了極大挑戰(zhàn)。例如,現(xiàn)在車路協(xié)同就是典型的端-邊-云聯(lián)動的智慧應(yīng)用,數(shù)據(jù)往往需要在多個場景中流動、傳輸和應(yīng)用。

因此,業(yè)界普遍認為,AI時代會加速數(shù)據(jù)基礎(chǔ)設(shè)施的變革,在非結(jié)構(gòu)化數(shù)據(jù)當?shù)赖拇筅厔菹?,分布式融合存儲將在這場變革中發(fā)揮巨大作用。

分布式融合存儲為何堪當大任

面對非機構(gòu)化數(shù)據(jù)帶來的數(shù)據(jù)洪流,分布式融合存儲之所以能夠獲得青睞,主要在于它所具備的高擴展能力、高可靠性等優(yōu)勢,可以應(yīng)對海量數(shù)據(jù)帶來的種種挑戰(zhàn)。

事實上,除了上述優(yōu)勢之外,分布式融合存儲近年來也在不斷演進與迭代,在協(xié)議融合、性能和安全性等方面與時俱進,以適應(yīng)大數(shù)據(jù)、AI等應(yīng)用帶來新數(shù)據(jù)存儲需求。

分布式融合存儲第一個重要的特征就是需要做到多元融合,除了早期融合塊、文件、對象等協(xié)議之外,現(xiàn)在很多分布式融合存儲產(chǎn)品也開始融入了大數(shù)據(jù)等協(xié)議。

為什么分布式融合存儲多元融合的方向意義重大?其實從數(shù)據(jù)處理管道就能夠了解多元融合的重要性,AI應(yīng)用往往涉及數(shù)據(jù)處理的多協(xié)議和長鏈路,往往是混合負載交織在一起,存在多個數(shù)據(jù)集之間來回拷貝的環(huán)節(jié),不僅數(shù)據(jù)處理效率低下,性能也無法滿足AI應(yīng)用的處理需求。

以科教研場景的為例,當前科教研屬于典型的計算+AI+Bigdata融合模式,數(shù)據(jù)的高效處理是基礎(chǔ)和關(guān)鍵。劉希猛介紹,很多科教研場景建立數(shù)據(jù)集是一個非常痛苦的過程,因為需要數(shù)據(jù)復制,幾十PB數(shù)據(jù)的復制需要花費多天時間,而如果協(xié)議融合的話,就可以免去數(shù)據(jù)復制,讓數(shù)據(jù)處理的效率大幅提升。

分布式融合存儲第二個重要的特征是智能敏捷。眾所周知,雖然當前數(shù)據(jù)量爆炸性的增長,但是被用來分析的數(shù)據(jù)量依然很小。相關(guān)數(shù)據(jù)顯示,已獲取數(shù)據(jù)的平均留存率僅為2%,大量數(shù)據(jù)從未被分析和利用,分布式融合存儲需要能夠?qū)崟r、智能地處理數(shù)據(jù),滿足各種AI應(yīng)用帶來的性能需求。

分布式融合存儲第三個重要特征就是提升安全性。隨著AI應(yīng)用走向普及,各種安全問題也隨之暴露,作為數(shù)據(jù)最后一道防線,分布式融合存儲的數(shù)據(jù)保護能力也需要隨之提升。

當前,幾乎所有分布式融合存儲產(chǎn)品都在加速迭代,以在數(shù)據(jù)存儲層面來支撐大數(shù)據(jù)、AI等新應(yīng)用的需求變化。以浪潮信息新一代分布式融合存儲AS13000G7為例,堪稱分布式融合存儲演進的代表。

浪潮信息AS13000G7在保障安全可靠的基礎(chǔ)上,以“多合一”極致架構(gòu)為核心,具備“多合一極致融合架構(gòu)、極致性能、極致容量”等極致能力,并打造通用型分布式融合存儲、高密型視頻分布式融合存儲、性能型全閃分布式融合存儲等多種產(chǎn)品形態(tài)。

以融合架構(gòu)為例,浪潮信息AS13000G7率先實現(xiàn)了一套存儲支持多種接口協(xié)議、多種數(shù)據(jù)存儲應(yīng)用(文件、對象、大數(shù)據(jù)、視頻等),實現(xiàn)一份數(shù)據(jù)的多協(xié)議互訪互通。比如,針對AI應(yīng)用對數(shù)據(jù)處理的各種需求,可以避免分散管理流程,無需拷貝數(shù)據(jù)和復雜的性能調(diào)優(yōu),使得所有數(shù)據(jù)處理流程均在一套分布式融合存儲中。

“像教科研場景的數(shù)據(jù)集創(chuàng)建,不用數(shù)據(jù)復制,即可實現(xiàn)一份數(shù)據(jù)的多種協(xié)議訪問,大幅降低了數(shù)據(jù)復制帶來的容量挑戰(zhàn)?!眲⑾C捅硎镜馈?/p>

而極致性能方面,浪潮信息AS13000G7基于Intel至強四代可擴展處理器,支持PCIe 5.0高速總線、DDR5高速緩存,搭載自研NVMe SSD,通過盤控協(xié)同實現(xiàn)端到端聯(lián)合調(diào)優(yōu)。相較上一代產(chǎn)品,性能提升40%。

此外,浪潮信息AS13000G7在極致容量上也再上一個臺階,單一集群最大擴展至10240節(jié)點,單一文件系統(tǒng)支持千億文件,基于iCap智能空間管理引擎,通過業(yè)內(nèi)領(lǐng)先的32+2大比例糾刪、智能均衡、壓縮重刪、多源零拷貝、軟拷貝等智能容量算法,讓存儲空間利用率達到94%以上。

作為當前全球存儲增長速度最快的廠商之一,浪潮信息在分布式融合存儲領(lǐng)域耕耘多年,一直走在市場的最前沿,并且有著出色的市場表現(xiàn),無論是裝機容量還是銷量均位列市場前茅,其新一代分布式融合存儲AS13000G7的發(fā)布,不僅樹立了新一代分布式融合存儲的標桿,更意味著創(chuàng)新力十足的分布式融合存儲產(chǎn)品在市場吹響擔當大任的號角。

分布式融合存儲未來可期

不可否認,過去多年里,集中式存儲一直是當之無愧的主角,分布式融合存儲雖然發(fā)展多年,直到現(xiàn)在,才真正迎來市場良機,從產(chǎn)業(yè)規(guī)模、增長速度、產(chǎn)品創(chuàng)新等方面開始全面開花。

在李輝看來,分布式融合存儲未來會朝著數(shù)據(jù)中心操作系統(tǒng)+存儲底座的形態(tài)演進,未來會成為支撐企業(yè)數(shù)字化轉(zhuǎn)型的一個重要大平臺。

從產(chǎn)品形態(tài)來看,分布式融合存儲未來會走軟硬一體機的主流形態(tài),產(chǎn)品也會更加貼近場景化。分布式融合存儲產(chǎn)業(yè)聯(lián)盟的《分布式融合存儲發(fā)展白皮書》顯示,2021年中國分布式融合存儲市場規(guī)模達到百億級,其中一體機形態(tài)占比高達91%,軟硬協(xié)同實現(xiàn)端到端的高可靠、高性能和一體化運維能力。

另外,分布式融合存儲的應(yīng)用場景會更加廣泛化,并且產(chǎn)品形態(tài)會更加貼近應(yīng)用場景。以浪潮信息AS13000G7-MS60巨量、多模態(tài)非結(jié)構(gòu)化數(shù)據(jù)的極致容量場景,像智慧城市、智慧交通等產(chǎn)生海量實時數(shù)據(jù)和分析應(yīng)用的場景,AS13000G7-MS60可以提供廣泛兼容、高性價比、高可靠的存儲服務(wù);AS13000G7-MN24則對自動駕駛等實時數(shù)據(jù)分析的場景提供業(yè)界領(lǐng)先的性能和數(shù)據(jù)處理能力。

從技術(shù)創(chuàng)新角度來看,分布式融合存儲未來會與AI應(yīng)用等大趨勢聯(lián)系更加緊密。眾所周知,數(shù)據(jù)存儲屬于基礎(chǔ)設(shè)施底層產(chǎn)品,一直離應(yīng)用較遠,但是未來隨著AI應(yīng)用進入縱深階段,分布式融合存儲的技術(shù)創(chuàng)新也會與上層應(yīng)用聯(lián)系更加緊密。

“系統(tǒng)級的重刪、壓縮技術(shù)是分布式融合存儲很重要的創(chuàng)新方面。以AI大模型為例,在收集數(shù)據(jù)階段,分布式融合存儲系統(tǒng)級的壓縮技術(shù)去識別數(shù)據(jù),去AI去減少對存儲空間的占用,以及提升數(shù)據(jù)質(zhì)量。這其中還有很多底層技術(shù)值得去研究與探索。”李輝介紹道。

從數(shù)據(jù)中心架構(gòu)發(fā)展來看,存算分離架構(gòu)的趨勢未來會對分布式融合存儲產(chǎn)生諸多影響,尤其是像CXL協(xié)議、DPU處理器等快速發(fā)展,讓分布式融合存儲未來的作用與地位更加突出。李輝直言:“除了數(shù)據(jù)中心存算分離外,云數(shù)也會走向解耦。在混合云或者多云模式下,數(shù)據(jù)如何更好地流動、共享是用戶的核心訴求,云與數(shù)的解耦無疑是有助于數(shù)據(jù)的流動?!?/p>

綜合觀察,《分布式融合存儲發(fā)展白皮書》預測,未來三年,中國分布式融合存儲仍將保持40%的增長速度,分布式融合存儲在云、大數(shù)據(jù)分析、AI等應(yīng)用場景有著廣泛的部署需求,堪稱AI時代的基石。而浪潮信息作為分布式融合存儲市場銷量中國第一的廠商,無疑對于分布式融合存儲的產(chǎn)品創(chuàng)新、未來趨勢有著極為深刻地認識。面向未來,隨著浪潮信息AS13000G7的問世,浪潮信息有望加速推動分布式融合存儲在千行百業(yè)中的應(yīng)用,為千行百業(yè)的數(shù)字化轉(zhuǎn)型和智能化升級注入源源不斷的數(shù)據(jù)活力。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-05-25
AI時代的數(shù)據(jù)革命,分布式融合存儲為何堪當大任?
有人說,以ChatGPT為代表的人工智能應(yīng)用的興起標志著AI時代奇點來臨。 誠然如斯。這一波AIGC浪潮來襲,讓人們真正意識到AI給生產(chǎn)力帶來的...

長按掃碼 閱讀全文