AGI 時代到來,為什么向量數(shù)據(jù)庫成關(guān)鍵?

近日,由極客公園主辦的 AGI Playground 2023 活動在北京圓滿結(jié)束,活動匯聚了當(dāng)下 AGI 領(lǐng)域最具公信力、話語權(quán)、前瞻性的行業(yè)領(lǐng)袖與公司,起底潮流下的大模型技術(shù)底層邏輯和新范式變革的底層思維。向量數(shù)據(jù)庫公司Zilliz、360 集團、阿里云、百度、百川智能等行業(yè)頭部公司參會,Zilliz 創(chuàng)始人兼 CEO 星爵、百川智能創(chuàng)始人王小川、360 集團創(chuàng)始人周鴻祎等明星創(chuàng)業(yè)者分別在不同的主題下進行了分享。

其中,Zilliz 創(chuàng)始人兼 CEO 星爵的演講讓人印象深刻。

星爵的演講主題為《AGI 時代到來,為什么向量數(shù)據(jù)庫成關(guān)鍵?》,在他看來:

●當(dāng)下 CVP Stack 已經(jīng)成為 AGI 時代重要的數(shù)據(jù)應(yīng)用開發(fā)范式,代表 “V” 的向量數(shù)據(jù)庫扮演著重要角色,Milvus 和 Zilliz Cloud 作為向量數(shù)據(jù)庫中的佼佼者,無論是性能還是成本方面,都能很好地滿足開發(fā)者的需求。

●向量數(shù)據(jù)庫作為大模型的記憶體,能夠為 LLMs 提供向量檢索和存儲的功能,是大模型開發(fā)和訓(xùn)練中不可缺少的重要組成部分。

●AGI 時代的下一個 Killer App 是智能體,向量數(shù)據(jù)庫可以為其提供長期的記憶存儲。

向量數(shù)據(jù)庫成為新型開發(fā)范式 CVP Stack 的重要一環(huán)

向量數(shù)據(jù)庫是一種為了高效存儲和索引 AI 模型產(chǎn)生的向量嵌入(embedding)數(shù)據(jù)而專門設(shè)計的數(shù)據(jù)庫。在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中,數(shù)據(jù)通常以表格的形式存儲,而在向量數(shù)據(jù)庫中,數(shù)據(jù)以向量的形式存儲。向量(embedding)是一組數(shù)值,可以表示一個點在多維空間中的位置。向量數(shù)據(jù)庫非常擅長處理大量的高維 embedding數(shù)據(jù),這種數(shù)據(jù)在機器學(xué)習(xí)和深度學(xué)習(xí)應(yīng)用中很常見。

LLM 時代之下,工具棧變得更加簡化,開發(fā)者甚至可以實現(xiàn)用周末兩天時間做出一個不錯 demo 的設(shè)想,其背后的終極奧義便是 CVP Stack。其中,C 的意思是以 ChatGPT 為代表的大模型,它在 AI 程序中充當(dāng)中央處理器的角色;V 代表 Vector Database,即以 Milvus 為代表的向量數(shù)據(jù)庫,充當(dāng) embedding storage 的角色;最終會通過 prompt 的方式進行交互。

總結(jié)來看,在大模型時代下,無論是誰,只要擁有一個 ChatGPT 賬號、會寫 prompt、找到一個 embedding 的數(shù)據(jù)庫為模型提供相關(guān)領(lǐng)域的知識,甚至為其提供一個緩存層,便可以輕而易舉地成為一個很好的工程師。OSSChat(https://osschat.io)就是典型的應(yīng)用,用于解決開源項目文檔冗長、不易查找等問題,目前已經(jīng)支持幾十個主流的開源項目。

|Zilliz 創(chuàng)始人兼 CEO 星爵

向量數(shù)據(jù)庫之于大模型的關(guān)鍵作用

向量數(shù)據(jù)庫可以看作大模型的外置記憶快,能夠長期存儲大模型的數(shù)據(jù),供模型隨時調(diào)用。向量數(shù)據(jù)庫在LLM領(lǐng)域的應(yīng)用主要可以分為以下 6 類:管理私有數(shù)據(jù)和知識庫、為大模型提供實時數(shù)據(jù)更新、實現(xiàn)大模型的個性化和增強、提供智能體的記憶、保存大模型的處理結(jié)果、構(gòu)建更復(fù)雜的AI系統(tǒng)。

對于大模型應(yīng)用開發(fā)者來說,向量數(shù)據(jù)庫是一個非常重要的基礎(chǔ)設(shè)施,可以在最大限度發(fā)揮大模型威力的同時保護數(shù)據(jù)隱私,實現(xiàn)更豐富的功能。LLMs 和向量數(shù)據(jù)庫共同推動 AGI 的發(fā)展,二者缺一不可。

向量數(shù)據(jù)庫為下一個 Killer App 提供長期的記憶存儲

智能體是大模型的一個新興應(yīng)用場景,用于構(gòu)建具有獨立智能的虛擬人物、虛擬代理甚至人形機器人。向量數(shù)據(jù)庫不僅可以幫助智能體記憶其感知的歷史數(shù)據(jù)和上下文,幫其做出智能決策,還能使其根據(jù)長期記憶來實現(xiàn)自我演進,被認(rèn)為是下一代 Killer App。

智能體需要記憶。人類的大腦有一個區(qū)域叫做海馬體,負(fù)責(zé)長期記憶,記憶是人類智能很重要的部分,不可能今天把昨天的事情忘記還說自己很聰明。行業(yè)里面的正在嘗試用向量數(shù)據(jù)庫為智能體存儲長期記憶,因為向量數(shù)據(jù)庫的成本是很可控的。未來如果每個人都能夠有幾十個智能體幫助人類生產(chǎn)生活,像向量數(shù)據(jù)庫這樣具有語義檢索的存儲市場會迎來很大的增長。

向量數(shù)據(jù)庫作為一款數(shù)據(jù)庫產(chǎn)品,“更大更快更便宜”是未來發(fā)展的核心趨勢。更大是指能處理更大的數(shù)據(jù)量,這意味著支持百億條數(shù)據(jù)甚至更高的可擴展性;更快是指更高的性能,包括毫秒級的響應(yīng)時間和高達(dá)數(shù)萬的QPS;更便宜是指更少的資源消耗更高的性價比,在相同資源消耗的情況下提供更強大的性能。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )