5月7日消息,“每個(gè)公司都能訪問相同的基礎(chǔ)模型,但那些能夠利用自己的數(shù)據(jù)構(gòu)建具有真正商業(yè)價(jià)值的生成式人工智能應(yīng)用的公司,將會(huì)是成功的公司。”
大模型火熱兩年多,從GPT3到GPT4,從Llama 2到Llama 3,從Claude 2到Claude3……全球范圍內(nèi)基礎(chǔ)大模型能力不斷被刷新新紀(jì)錄。
然而企業(yè)在落地大模型應(yīng)用時(shí),到底應(yīng)該如果構(gòu)建自身的獨(dú)特優(yōu)勢(shì)呢?
亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建表示:“企業(yè)需要的是懂業(yè)務(wù)、懂用戶的生成式AI應(yīng)用,而打造這樣的應(yīng)用需要從數(shù)據(jù)做起。數(shù)據(jù)是企業(yè)在生成式AI時(shí)代取得成功的關(guān)鍵?!?/p>
成式 AI 時(shí)代數(shù)據(jù)的重要性體現(xiàn)在:基礎(chǔ)模型依賴于大規(guī)模高質(zhì)量數(shù)據(jù)集,生成式AI的差異化優(yōu)勢(shì)來源于企業(yè)的專有數(shù)據(jù),生成式AI應(yīng)用產(chǎn)生的大量新數(shù)據(jù)也需要及時(shí)有效地加以管理和利用。
因此,陳曉建認(rèn)為企業(yè)構(gòu)建生成式AI應(yīng)用需要具備三項(xiàng)關(guān)鍵的數(shù)據(jù)能力:
一、利用現(xiàn)有數(shù)據(jù)支持微調(diào)或預(yù)訓(xùn)練模型的能力
從原始數(shù)據(jù)集到訓(xùn)練出基礎(chǔ)模型需要解決三個(gè)主要問題。
首先,需要找到合適的存儲(chǔ)來承載海量數(shù)據(jù)。生成式AI基礎(chǔ)模型誕生于大規(guī)模、高質(zhì)量數(shù)據(jù)集。如果一本書按500KB算,現(xiàn)在的500T參數(shù)的模型已經(jīng)有332億本,相當(dāng)于現(xiàn)存每個(gè)人類擁有4本書;
其次,清洗加工原始數(shù)據(jù)為高質(zhì)量數(shù)據(jù)集。在數(shù)據(jù)清洗方面,企業(yè)面臨著繁重的數(shù)據(jù)清洗加工任務(wù)。以公開搜集的2TB英文數(shù)據(jù)集為例,經(jīng)過清洗、去重后變成1.2TB的數(shù)據(jù),再經(jīng)過分詞處理成大約3000億的tokens。
最后,對(duì)整個(gè)組織內(nèi)數(shù)據(jù)的發(fā)現(xiàn)編目治理。企業(yè)面臨的數(shù)據(jù)治理難題包括:難以找到分布在各帳戶和地區(qū)的數(shù)據(jù),數(shù)據(jù)訪問的控制很難管理且容易出錯(cuò),數(shù)據(jù)分析師訪問權(quán)限不足且缺乏相對(duì)應(yīng)的工具技能,不用戶沒有簡(jiǎn)單的數(shù)據(jù)協(xié)同環(huán)境,數(shù)據(jù)治理隱藏在各種工具中。
二、將企業(yè)數(shù)據(jù)快速結(jié)合模型產(chǎn)生獨(dú)特價(jià)值的能力
基礎(chǔ)模型自身有一定的局限性,例如缺乏垂直行業(yè)的專業(yè)知識(shí),缺乏時(shí)效性,生成錯(cuò)誤信息如幻覺問題等,以及用戶敏感數(shù)據(jù)的隱私合規(guī)風(fēng)險(xiǎn)。
檢索增強(qiáng)生成(Retrieval-Augmented Generation,RAG)技術(shù)被普遍認(rèn)為是實(shí)現(xiàn)企業(yè)數(shù)據(jù)與基礎(chǔ)模型結(jié)合的主要途徑之一,它通過將數(shù)據(jù)轉(zhuǎn)換為向量并存儲(chǔ)到向量數(shù)據(jù)庫(kù)中,從而將語(yǔ)義的關(guān)聯(lián)性轉(zhuǎn)化為向量間的數(shù)學(xué)距離問題,以實(shí)現(xiàn)內(nèi)容的關(guān)聯(lián)性計(jì)算。
通過RAG,企業(yè)可以將自身的知識(shí)庫(kù)、數(shù)據(jù)庫(kù)等與生成式AI模型相結(jié)合,在生成過程中實(shí)時(shí)檢索和利用企業(yè)內(nèi)部的相關(guān)數(shù)據(jù),從而提高生成結(jié)果的準(zhǔn)確性、一致性和信息量。這個(gè)方法相對(duì)簡(jiǎn)便,適用場(chǎng)景包括知識(shí)時(shí)效性、控制幻覺、用戶隱私數(shù)據(jù)保護(hù)、企業(yè)私域知識(shí)等。
三、有效處理新數(shù)據(jù),助力生成式AI應(yīng)用飛速發(fā)展的能力
對(duì)生成式AI應(yīng)用程序而言,基礎(chǔ)模型頻繁調(diào)用將會(huì)導(dǎo)致成本的增加和響應(yīng)的延遲。相對(duì)于此前數(shù)據(jù)庫(kù)調(diào)用通常毫秒級(jí)甚至微秒級(jí)的響應(yīng)時(shí)間,基礎(chǔ)模型每次調(diào)用時(shí)長(zhǎng)往往達(dá)到秒級(jí)。此外,每次調(diào)用基礎(chǔ)模型也會(huì)增加成本。
很多企業(yè)反映,終端用戶絕對(duì)大部分問題是類似甚至重復(fù)的。因此可以通過將之前問答生成的新數(shù)據(jù)存入緩存,從而在面對(duì)類似問題時(shí),可以不調(diào)用模型,而直接通過緩存給出回答,這不但能夠減少模型調(diào)用,還可以節(jié)約成本。
陳曉建強(qiáng)調(diào):“亞馬遜云科技構(gòu)建數(shù)據(jù)基座的三大核心能力涵蓋從基礎(chǔ)模型訓(xùn)練到生成式AI應(yīng)用構(gòu)建的重要場(chǎng)景,能夠幫助企業(yè)輕松應(yīng)對(duì)海量多模態(tài)數(shù)據(jù),提升基礎(chǔ)模型能力。作為全球云計(jì)算的開創(chuàng)者和引領(lǐng)者,亞馬遜云科技正在幫助各個(gè)行業(yè)、各種規(guī)模的企業(yè)打造強(qiáng)健的數(shù)據(jù)基座,在確保用戶業(yè)務(wù)和數(shù)據(jù)安全的前提下,將數(shù)據(jù)的獨(dú)特價(jià)值賦予基礎(chǔ)模型和生成式AI應(yīng)用,加速企業(yè)業(yè)務(wù)增長(zhǎng)?!保ü啵?/p>
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )