聊透 LLM 基礎(chǔ)設(shè)施!行業(yè)領(lǐng)先者 Zilliz 分享 AI 時(shí)代向量數(shù)據(jù)庫(kù)的重要地位與優(yōu)勢(shì)

近日,OSC 源創(chuàng)會(huì)上海站正式閉幕。據(jù)悉,OSC 源創(chuàng)會(huì)由開(kāi)源中國(guó)社區(qū)主辦,是聚焦開(kāi)源、創(chuàng)新的技術(shù)沙龍,聚集了最優(yōu)質(zhì)的技術(shù)資源與行業(yè)案例,對(duì)話最優(yōu)秀的技術(shù)領(lǐng)軍人物,為廣大開(kāi)發(fā)者帶來(lái)最新開(kāi)源技術(shù)、前沿技術(shù)視角以及落地實(shí)踐經(jīng)驗(yàn)。

本次源創(chuàng)會(huì)以 LLM 基礎(chǔ)設(shè)施為主題,話題聚焦大模型平臺(tái)建設(shè)與基礎(chǔ)設(shè)施研發(fā),邀請(qǐng)了來(lái)自 Zilliz、百度、VMware 等多位業(yè)界專(zhuān)家參與。現(xiàn)場(chǎng),專(zhuān)家們從向量數(shù)據(jù)庫(kù)探討到自動(dòng)化編程新范式,從深度學(xué)習(xí)聊到大模型底座,用多個(gè)角度分享了自己在大模型相關(guān)技術(shù)與應(yīng)用的見(jiàn)解。

Zilliz AI 云平臺(tái)負(fù)責(zé)人陳將受邀參加并進(jìn)行《向量數(shù)據(jù)庫(kù) - AI 時(shí)代的信息檢索引擎》的主題分享。陳將主要介紹了從傳統(tǒng)的信息檢索系統(tǒng)到 AI 時(shí)代信息檢索系統(tǒng)的演化,分享了向量數(shù)據(jù)庫(kù)等基礎(chǔ)設(shè)施在其中的應(yīng)用和案例。

|Zilliz AI 云平臺(tái)負(fù)責(zé)人陳將

陳將表示,今年隨著大模型的火爆,向量數(shù)據(jù)庫(kù)也開(kāi)始出圈了。很多人對(duì)向量數(shù)據(jù)庫(kù)的認(rèn)知都是從 AI 大模型開(kāi)始的,因?yàn)榇竽P碗m然很強(qiáng)大但往往缺乏領(lǐng)域知識(shí),所以業(yè)界流行用向量數(shù)據(jù)庫(kù)打造大模型的記憶體。除此之外,向量數(shù)據(jù)庫(kù)在信息檢索領(lǐng)域還有非常多的應(yīng)用。

事實(shí)上,向量數(shù)據(jù)庫(kù)是一種劃時(shí)代的信息檢索引擎。人工智能和深度學(xué)習(xí)的創(chuàng)新使我們能夠創(chuàng)建一種機(jī)器學(xué)習(xí)模型,即 embedding 模型。Embedding 模型將所有類(lèi)型的數(shù)據(jù)表征為向量,以捕獲其特征和含義。相比之下,傳統(tǒng)的全文檢索使用的是基于關(guān)鍵詞的方式。向量編碼能夠更準(zhǔn)確地捕捉數(shù)據(jù)的語(yǔ)義信息,提供更準(zhǔn)確的搜索結(jié)果。例如通過(guò)智能手機(jī)拍照后搜索相似的圖像,而傳統(tǒng)的全文檢索往往只能通過(guò)關(guān)鍵詞匹配來(lái)進(jìn)行搜索。向量數(shù)據(jù)庫(kù)使用高效的算法和索引結(jié)構(gòu),如 k 最近鄰(k-NN)索引、分層可導(dǎo)航小世界(HNSW)和倒排文件索引(IVF),以實(shí)現(xiàn)在高維空間中的快速檢索。然而,傳統(tǒng)的數(shù)據(jù)庫(kù)并不擅長(zhǎng)于向量搜索,性能不可同日而語(yǔ)。

此外,陳將提到,向量數(shù)據(jù)庫(kù)在 AI 時(shí)代的信息檢索中具有重要的地位和優(yōu)勢(shì)。它通過(guò)將數(shù)據(jù)編碼為向量,并利用高效的搜索算法和索引結(jié)構(gòu),提供更精確、快速和準(zhǔn)確的搜索結(jié)果,在網(wǎng)頁(yè)搜索、推薦系統(tǒng)、視頻圖像搜索,檢索增強(qiáng)生成等領(lǐng)域助力應(yīng)用開(kāi)發(fā)者以更強(qiáng)大更優(yōu)秀的產(chǎn)品體驗(yàn)。

陳將所在的 Zilliz 不僅是向量數(shù)據(jù)庫(kù)賽道的領(lǐng)先者,也在大模型時(shí)代為 AI 應(yīng)用開(kāi)發(fā)者提供了非結(jié)構(gòu)化數(shù)據(jù)檢索產(chǎn)品 Zilliz Cloud Pipelines。Zilliz Cloud Pipelines(https://zilliz.com/zilliz-cloud-pipelines) 可以將文檔、文本片段和圖像等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成可搜索的向量并存儲(chǔ)在 Collection 中,幫助開(kāi)發(fā)者簡(jiǎn)化工程開(kāi)發(fā),助力其實(shí)現(xiàn)多種場(chǎng)景的 RAG 應(yīng)用,將復(fù)雜生產(chǎn)系統(tǒng)的搭建和維護(hù)簡(jiǎn)化成 API 調(diào)用,真正做到降低檢索系統(tǒng)搭建門(mén)檻,輕松實(shí)現(xiàn) RAG 應(yīng)用。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )