思思久久精品在热线热,91视频香蕉APP,色综合天天综合网天天狠天天

亞馬遜云科技陳曉建：企業(yè)在生成式 AI 時代取得成功的三項關(guān)鍵數(shù)據(jù)能力

人閱讀

2024-05-07 16:39:32

來源：TechWeb.com.cn
相關(guān)關(guān)鍵詞

5月7日消息，“每個公司都能訪問相同的基礎(chǔ)模型，但那些能夠利用自己的數(shù)據(jù)構(gòu)建具有真正商業(yè)價值的生成式人工智能應用的公司，將會是成功的公司。”

大模型火熱兩年多，從GPT3到GPT4，從Llama 2到Llama 3，從Claude 2到Claude3……全球范圍內(nèi)基礎(chǔ)大模型能力不斷被刷新新紀錄。

然而企業(yè)在落地大模型應用時，到底應該如果構(gòu)建自身的獨特優(yōu)勢呢？

亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建表示：“企業(yè)需要的是懂業(yè)務(wù)、懂用戶的生成式AI應用，而打造這樣的應用需要從數(shù)據(jù)做起。數(shù)據(jù)是企業(yè)在生成式AI時代取得成功的關(guān)鍵?！?/p>

成式 AI 時代數(shù)據(jù)的重要性體現(xiàn)在：基礎(chǔ)模型依賴于大規(guī)模高質(zhì)量數(shù)據(jù)集，生成式AI的差異化優(yōu)勢來源于企業(yè)的專有數(shù)據(jù)，生成式AI應用產(chǎn)生的大量新數(shù)據(jù)也需要及時有效地加以管理和利用。

因此，陳曉建認為企業(yè)構(gòu)建生成式AI應用需要具備三項關(guān)鍵的數(shù)據(jù)能力：

一、利用現(xiàn)有數(shù)據(jù)支持微調(diào)或預訓練模型的能力

從原始數(shù)據(jù)集到訓練出基礎(chǔ)模型需要解決三個主要問題。

首先，需要找到合適的存儲來承載海量數(shù)據(jù)。生成式AI基礎(chǔ)模型誕生于大規(guī)模、高質(zhì)量數(shù)據(jù)集。如果一本書按500KB算，現(xiàn)在的500T參數(shù)的模型已經(jīng)有332億本，相當于現(xiàn)存每個人類擁有4本書；

其次，清洗加工原始數(shù)據(jù)為高質(zhì)量數(shù)據(jù)集。在數(shù)據(jù)清洗方面，企業(yè)面臨著繁重的數(shù)據(jù)清洗加工任務(wù)。以公開搜集的2TB英文數(shù)據(jù)集為例，經(jīng)過清洗、去重后變成1.2TB的數(shù)據(jù)，再經(jīng)過分詞處理成大約3000億的tokens。

最后，對整個組織內(nèi)數(shù)據(jù)的發(fā)現(xiàn)編目治理。企業(yè)面臨的數(shù)據(jù)治理難題包括：難以找到分布在各帳戶和地區(qū)的數(shù)據(jù)，數(shù)據(jù)訪問的控制很難管理且容易出錯，數(shù)據(jù)分析師訪問權(quán)限不足且缺乏相對應的工具技能，不用戶沒有簡單的數(shù)據(jù)協(xié)同環(huán)境，數(shù)據(jù)治理隱藏在各種工具中。

二、將企業(yè)數(shù)據(jù)快速結(jié)合模型產(chǎn)生獨特價值的能力

基礎(chǔ)模型自身有一定的局限性，例如缺乏垂直行業(yè)的專業(yè)知識，缺乏時效性，生成錯誤信息如幻覺問題等，以及用戶敏感數(shù)據(jù)的隱私合規(guī)風險。

檢索增強生成（Retrieval-Augmented Generation，RAG）技術(shù)被普遍認為是實現(xiàn)企業(yè)數(shù)據(jù)與基礎(chǔ)模型結(jié)合的主要途徑之一，它通過將數(shù)據(jù)轉(zhuǎn)換為向量并存儲到向量數(shù)據(jù)庫中，從而將語義的關(guān)聯(lián)性轉(zhuǎn)化為向量間的數(shù)學距離問題，以實現(xiàn)內(nèi)容的關(guān)聯(lián)性計算。

通過RAG，企業(yè)可以將自身的知識庫、數(shù)據(jù)庫等與生成式AI模型相結(jié)合，在生成過程中實時檢索和利用企業(yè)內(nèi)部的相關(guān)數(shù)據(jù)，從而提高生成結(jié)果的準確性、一致性和信息量。這個方法相對簡便，適用場景包括知識時效性、控制幻覺、用戶隱私數(shù)據(jù)保護、企業(yè)私域知識等。

三、有效處理新數(shù)據(jù)，助力生成式AI應用飛速發(fā)展的能力

對生成式AI應用程序而言，基礎(chǔ)模型頻繁調(diào)用將會導致成本的增加和響應的延遲。相對于此前數(shù)據(jù)庫調(diào)用通常毫秒級甚至微秒級的響應時間，基礎(chǔ)模型每次調(diào)用時長往往達到秒級。此外，每次調(diào)用基礎(chǔ)模型也會增加成本。

很多企業(yè)反映，終端用戶絕對大部分問題是類似甚至重復的。因此可以通過將之前問答生成的新數(shù)據(jù)存入緩存，從而在面對類似問題時，可以不調(diào)用模型，而直接通過緩存給出回答，這不但能夠減少模型調(diào)用，還可以節(jié)約成本。

陳曉建強調(diào)：“亞馬遜云科技構(gòu)建數(shù)據(jù)基座的三大核心能力涵蓋從基礎(chǔ)模型訓練到生成式AI應用構(gòu)建的重要場景，能夠幫助企業(yè)輕松應對海量多模態(tài)數(shù)據(jù)，提升基礎(chǔ)模型能力。作為全球云計算的開創(chuàng)者和引領(lǐng)者，亞馬遜云科技正在幫助各個行業(yè)、各種規(guī)模的企業(yè)打造強健的數(shù)據(jù)基座，在確保用戶業(yè)務(wù)和數(shù)據(jù)安全的前提下，將數(shù)據(jù)的獨特價值賦予基礎(chǔ)模型和生成式AI應用，加速企業(yè)業(yè)務(wù)增長?！保ü啵?/p>

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）