大模型落地,如何跨過數(shù)據(jù)這道坎?

科技云報道原創(chuàng)。

隨著大模型從理論探索走向?qū)嶋H應(yīng)用,大模型的落地正在考驗千千萬萬的企業(yè)。首要且核心的關(guān)注點(diǎn),無疑是從數(shù)據(jù)做起。

數(shù)據(jù),作為大模型的“燃料”,其質(zhì)量、多樣性與規(guī)模直接決定了大模型性能的天花板。因此,建立一套高效、可靠的數(shù)據(jù)處理流程,確保數(shù)據(jù)的質(zhì)量與合規(guī)性,成為了大模型落地的基石。

然而,構(gòu)建大模型的數(shù)據(jù)能力并不容易。如何找到合適的存儲來承載海量數(shù)據(jù)?如何清洗加工原始數(shù)據(jù)?如何有效地進(jìn)行數(shù)據(jù)治理?如何將現(xiàn)有數(shù)據(jù)快速結(jié)合模型產(chǎn)生獨(dú)特價值?

種種問題橫亙在企業(yè)和大模型之間,成為生成式AI時代的數(shù)據(jù)挑戰(zhàn)。

大模型時代的數(shù)據(jù)挑戰(zhàn)

如今基礎(chǔ)大模型遍地開花,開源大模型更是隨處可見,每個企業(yè)都能訪問相同的基礎(chǔ)大模型,但能夠利用自己的數(shù)據(jù)構(gòu)建生成式AI應(yīng)用的企業(yè)卻并不多見。

很重要的一個原因在于,從數(shù)據(jù)利用到大模型應(yīng)用,中間還需要大量的準(zhǔn)備工作。

一是,企業(yè)基于自身數(shù)據(jù)去定制基礎(chǔ)模型,不同的應(yīng)用場景需要不同的數(shù)據(jù)處理方式。

比如,在檢索增強(qiáng)生成(RAG)場景中企業(yè)將自身的知識庫、數(shù)據(jù)庫等與生成式AI模型相結(jié)合,在生成過程中需要實(shí)時檢索和利用企業(yè)內(nèi)部的相關(guān)數(shù)據(jù),從而提高生成結(jié)果的準(zhǔn)確性、一致性和信息量。

RAG需要GB級企業(yè)數(shù)據(jù),數(shù)據(jù)來源是企業(yè)內(nèi)部文檔庫、數(shù)據(jù)庫、數(shù)據(jù)倉庫、知識圖譜。技術(shù)要求上,RAG需要向量檢索來迅速查找讓模型能快速準(zhǔn)確地進(jìn)行響應(yīng)。

在微調(diào)場景中,企業(yè)使用與目標(biāo)任務(wù)相關(guān)的數(shù)據(jù)對模型進(jìn)行進(jìn)一步訓(xùn)練,以提高其在特定任務(wù)上的性能。

微調(diào)需要GB級人工標(biāo)的高質(zhì)量數(shù)據(jù),數(shù)據(jù)來源為私域知識,技術(shù)上要求選取和檢驗符合業(yè)務(wù)需求的高質(zhì)量數(shù)據(jù)集。

在持續(xù)預(yù)訓(xùn)練場景中,企業(yè)利用自身專有數(shù)據(jù)(如內(nèi)部文檔、客戶記錄等)對模型進(jìn)行持續(xù)預(yù)訓(xùn)練。這種持續(xù)預(yù)訓(xùn)練門檻較高、成本較大,但可以得到一個企業(yè)自身定制的行業(yè)大模型。

持續(xù)預(yù)訓(xùn)練需要TB級未標(biāo)的原始數(shù)據(jù),數(shù)據(jù)來源為公開的數(shù)據(jù)集或企業(yè)各部門的數(shù)據(jù),技術(shù)上要求大規(guī)模、分布式清洗加工原始數(shù)據(jù)集的能力。

二是,企業(yè)需要具備強(qiáng)大的處理新數(shù)據(jù)的能力,才能有效構(gòu)建生成式AI應(yīng)用。

生成式AI應(yīng)用程序而言,基礎(chǔ)模型頻繁調(diào)用將會導(dǎo)致成本的增加和響應(yīng)的延遲。相對于此前數(shù)據(jù)庫調(diào)用通常毫秒級甚至微秒級的響應(yīng)時間,基礎(chǔ)模型每次調(diào)用時長往往達(dá)到秒級。此外,每次調(diào)用基礎(chǔ)模型也會增加成本。

因此,加快數(shù)據(jù)處理速度,才能有效地在調(diào)用大模型時降本增效。

打造生成式AI時代的數(shù)據(jù)基座

面對大模型構(gòu)建中的數(shù)據(jù)存儲、清洗、加工、查詢、調(diào)用等各種挑戰(zhàn),企業(yè)是否有高效的數(shù)據(jù)解決方案來應(yīng)對?

首先,針對大模型的微調(diào)、預(yù)訓(xùn)練,企業(yè)需要找到合適的存儲來承載海量數(shù)據(jù),清洗加工原始數(shù)據(jù)為高質(zhì)量數(shù)據(jù)集,以及對整個組織內(nèi)數(shù)據(jù)的發(fā)現(xiàn)編目治理。

因此,在數(shù)據(jù)存儲方面,擴(kuò)展性和響應(yīng)速度是關(guān)鍵。

一方面,需要能夠承載海量數(shù)據(jù);另一方面,存儲性能必須跟上計算資源——避免因為數(shù)據(jù)傳輸瓶頸造成高昂計算資源的浪費(fèi),或是吞吐量瓶頸導(dǎo)致更長的訓(xùn)練時間。

比如,亞馬遜云科技上超過20萬個數(shù)據(jù)湖都使用Amazon S3,它支持廣泛的數(shù)據(jù)協(xié)議,能夠輕松應(yīng)對各種數(shù)據(jù)類型,還支持智能分層以降低訓(xùn)練成本,其安全和功能都滿足微調(diào)和預(yù)訓(xùn)練基礎(chǔ)模型對數(shù)據(jù)存儲上的要求。

專門構(gòu)建的文件存儲服務(wù)Amazon FSx for Lustre則能夠提供亞毫秒延遲和數(shù)百萬IOPS的吞吐性能,能夠進(jìn)一步加快模型優(yōu)化的速度。

在數(shù)據(jù)清洗方面,企業(yè)需要靈活的工具來完成數(shù)據(jù)清理、去重、乃至分詞的操作,能夠?qū)W⒂谏墒紸I業(yè)務(wù)創(chuàng)新。

比如,Amazon EMR serverless采用無服務(wù)器架構(gòu),能夠幫助企業(yè)運(yùn)行任何規(guī)模的分析工作負(fù)載,自動擴(kuò)展功能可在幾秒鐘內(nèi)調(diào)整資源大小,以滿足不斷變化的數(shù)據(jù)量和處理要求。

而Amazon Glue則是一個簡單可擴(kuò)展的無服務(wù)器數(shù)據(jù)集成服務(wù),可以輕松快速地完成微調(diào)或預(yù)訓(xùn)練模型的數(shù)據(jù)準(zhǔn)備工作。

在數(shù)據(jù)治理方面,企業(yè)難以在多個賬戶和區(qū)域中查找數(shù)據(jù),也缺乏有效的數(shù)據(jù)治理工具。因此,一個能夠跨組織邊界大規(guī)模地發(fā)現(xiàn)、共享和管理數(shù)據(jù)的統(tǒng)一數(shù)據(jù)管理平臺,成為企業(yè)的必選項。

其次,針對大模型RAG場景,企業(yè)需要向量檢索來迅速查找,讓模型能快速準(zhǔn)確地進(jìn)行響應(yīng)。

這其中的技術(shù)關(guān)鍵是向量嵌入(vector embeddings),它通過將數(shù)據(jù)轉(zhuǎn)換為向量并存儲到向量數(shù)據(jù)庫中,從而將語義的關(guān)聯(lián)性轉(zhuǎn)化為向量間的數(shù)學(xué)距離問題,以實(shí)現(xiàn)內(nèi)容的關(guān)聯(lián)性計算。

理想的情況是將向量搜索和數(shù)據(jù)存儲結(jié)合在一起,這樣企業(yè)就能將向量檢索和現(xiàn)有數(shù)據(jù)關(guān)聯(lián)起來,并得到更快的體驗。

比如,亞馬遜云科技就專門構(gòu)建了圖數(shù)據(jù)庫Amazon Neptune,并為其推出了分析數(shù)據(jù)庫引擎,能夠提升80倍的圖數(shù)據(jù)分析速度,使用內(nèi)置算法可在幾秒鐘分析數(shù)百億個連接。通過將圖和向量數(shù)據(jù)一直存儲能夠?qū)崿F(xiàn)更快的向量搜索。

最后,有效處理生成式AI應(yīng)用的新數(shù)據(jù),企業(yè)能夠降低模型頻繁調(diào)用成本并提升性能。

很多企業(yè)在推出生成式AI應(yīng)用后會發(fā)現(xiàn),基礎(chǔ)大模型的頻繁調(diào)用會導(dǎo)致成本的增加和響應(yīng)的延遲。但如果將之前問答生成的新數(shù)據(jù)存入緩存,不調(diào)用模型,而直接通過緩存給出回答,就能夠減少模型調(diào)用,還可以節(jié)約成本。

Amazon Memory DB內(nèi)存數(shù)據(jù)庫就是這樣一種工具,能夠存儲數(shù)百萬個向量,只需要幾毫秒的響應(yīng)時間,就能夠以99%的召回率實(shí)現(xiàn)每秒百萬次的查詢性能。

結(jié)語

在大模型快速爆發(fā)的當(dāng)下,企業(yè)缺的并不是大模型本身,而是以自身需求為中心去構(gòu)建大模型應(yīng)用,而這個構(gòu)建的過程并不容易。

正如亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建所說:“企業(yè)需要的是懂業(yè)務(wù)、懂用戶的生成式AI應(yīng)用,而打造這樣的應(yīng)用需要從數(shù)據(jù)做起。”

亞馬遜云科技提供的正是企業(yè)構(gòu)建生成式AI應(yīng)用程序所需的一系列數(shù)據(jù)功能,能夠在實(shí)現(xiàn)簡化開發(fā)的同時確保隱私性和安全性。

事實(shí)上,亞馬遜云科技不僅能提供數(shù)據(jù)工具,在云基礎(chǔ)設(shè)施服務(wù)、模型層服務(wù)、應(yīng)用層服務(wù)都提供了大量的服務(wù)于生成式AI的工具。

通過這一系列從底層到應(yīng)用層的創(chuàng)新,亞馬遜云科技的目標(biāo)是讓企業(yè)內(nèi)的任何開發(fā)人員都能夠自由構(gòu)建生成式AI應(yīng)用,而無需關(guān)注復(fù)雜的機(jī)器學(xué)習(xí)或底層基礎(chǔ)設(shè)施。

當(dāng)服務(wù)商解決好大模型落地的“最后幾公里”,那么大模型走進(jìn)千行百業(yè)將不再是一句口號。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-05-21
大模型落地,如何跨過數(shù)據(jù)這道坎?
科技云報道原創(chuàng)。隨著大模型從理論探索走向?qū)嶋H應(yīng)用,大模型的落地正在考驗千千萬萬的企業(yè)。首要且核心的關(guān)注點(diǎn),無疑是從數(shù)據(jù)做起。數(shù)據(jù),...

長按掃碼 閱讀全文