Zilliz@阿里云:大模型時(shí)代下向量數(shù)據(jù)庫(kù)處理非結(jié)構(gòu)化數(shù)據(jù)的最佳實(shí)踐

大模型時(shí)代下的數(shù)據(jù)存儲(chǔ)與分析該如何處理?有沒(méi)有已經(jīng)落地的應(yīng)用實(shí)踐?

為探討這些問(wèn)題,近日,阿里云聯(lián)合 Zilliz 和 Doris 舉辦了一場(chǎng)以《大模型時(shí)代下的數(shù)據(jù)存儲(chǔ)與分析》為主題的技術(shù)沙龍,其中,阿里云對(duì)象存儲(chǔ) OSS 上擁有海量的非結(jié)構(gòu)化數(shù)據(jù),Milvus(Zilliz)作為全球最有影響力的開源向量數(shù)據(jù)庫(kù)項(xiàng)目 、Doris(飛輪科技)作為熱門的數(shù)據(jù)分析項(xiàng)目,都積累了豐富的非結(jié)構(gòu)化數(shù)據(jù)處理和分析的最佳實(shí)踐。

沙龍現(xiàn)場(chǎng),Zilliz 運(yùn)營(yíng)與生態(tài)負(fù)責(zé)人李晨進(jìn)行了名為《向量數(shù)據(jù)庫(kù):大模型的記憶體》的主題分享。

受大模型催化,向量數(shù)據(jù)庫(kù)方興未艾。與傳統(tǒng)數(shù)據(jù)庫(kù)相比,向量數(shù)據(jù)庫(kù)面向高維度向量,可以更好地處理圖像、音頻和視頻等非結(jié)構(gòu)化數(shù)據(jù)。李晨主要介紹了向量數(shù)據(jù)庫(kù)的基本原理、應(yīng)用場(chǎng)景和演進(jìn)方向,以及 Zilliz 在此方向中的積累和心得。

他表示,向量數(shù)據(jù)庫(kù)是 AIGC 大模型的重要補(bǔ)充,是提供準(zhǔn)確可靠、高度可擴(kuò)展的長(zhǎng)短期“記憶”的關(guān)鍵載體,其在 LLM領(lǐng)域的應(yīng)用主要可以分為以下 6 類:管理私有數(shù)據(jù)和知識(shí)庫(kù)、為大模型提供實(shí)時(shí)數(shù)據(jù)更新、實(shí)現(xiàn)大模型的個(gè)性化和增強(qiáng)、提供智能體的記憶、保存大模型的處理結(jié)果、構(gòu)建更復(fù)雜的AI系統(tǒng)。當(dāng)然,這其中離不開一個(gè)新的程序開發(fā)應(yīng)用范式—— CVP Stack。

在 CVP Stack 中,C是以 ChatGPT 為代表的大模型,它在 AI 程序中充當(dāng)中央處理器的角色;V 代表 Vector Database,即以 Zilliz Cloud 和 Milvus 為代表的向量數(shù)據(jù)庫(kù),為大模型提供知識(shí)存儲(chǔ);P 代表 Prompt Engineering,各環(huán)節(jié)通過(guò) Prompt 的方式進(jìn)行交互。

相比單模型架構(gòu),CVP 架構(gòu)在靈活性、可擴(kuò)展性、實(shí)時(shí)性、成本四個(gè)維度都有明顯優(yōu)勢(shì)。最關(guān)鍵的原因是,在 CVP 架構(gòu)中,領(lǐng)域知識(shí)可以用數(shù)據(jù)入庫(kù)的形式進(jìn)行更新,而非重新訓(xùn)練或微調(diào)模型,向量數(shù)據(jù)庫(kù)是該架構(gòu)的重要組成部分。這其中一個(gè)典型的應(yīng)用實(shí)踐就是 OSSChat(https://osschat.io/chat),它用于解決開源項(xiàng)目文檔冗長(zhǎng)、不易查找等問(wèn)題,目前已經(jīng)支持幾十個(gè)主流的開源項(xiàng)目。

此外,為了進(jìn)一步降低應(yīng)用構(gòu)建成本,提供標(biāo)準(zhǔn)化組件,Zilliz 已與全球頭部大模型生態(tài)完成了 C-V 間對(duì)接。2023 年 3 月,Zilliz 作為 OpenAI 首批向量數(shù)據(jù)庫(kù)合作伙伴,完成了 Milvus 與 Zilliz Cloud 插件化集成,作為官方推薦的向量數(shù)據(jù)庫(kù)插件提供給廣大應(yīng)用開發(fā)者。同時(shí),Zilliz 還與 LangChain、Cohere、LlamaIndex、Auto-GPT、BabyAGI 等熱門項(xiàng)目進(jìn)行了深度集成。值得一提的是,Zilliz Cloud 已經(jīng)正式在國(guó)內(nèi)提供云服務(wù),也在今年7月份官宣了和阿里云的合作,相信在雙方的努力配合下,一定可以讓用戶享受到更好的產(chǎn)品和服務(wù)。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )