近日,OSC 源創(chuàng)會上海站正式閉幕。據(jù)悉,OSC 源創(chuàng)會由開源中國社區(qū)主辦,是聚焦開源、創(chuàng)新的技術沙龍,聚集了最優(yōu)質的技術資源與行業(yè)案例,對話最優(yōu)秀的技術領軍人物,為廣大開發(fā)者帶來最新開源技術、前沿技術視角以及落地實踐經(jīng)驗。
本次源創(chuàng)會以 LLM 基礎設施為主題,話題聚焦大模型平臺建設與基礎設施研發(fā),邀請了來自 Zilliz、百度、VMware 等多位業(yè)界專家參與?,F(xiàn)場,專家們從向量數(shù)據(jù)庫探討到自動化編程新范式,從深度學習聊到大模型底座,用多個角度分享了自己在大模型相關技術與應用的見解。
Zilliz AI 云平臺負責人陳將受邀參加并進行《向量數(shù)據(jù)庫 - AI 時代的信息檢索引擎》的主題分享。陳將主要介紹了從傳統(tǒng)的信息檢索系統(tǒng)到 AI 時代信息檢索系統(tǒng)的演化,分享了向量數(shù)據(jù)庫等基礎設施在其中的應用和案例。
|Zilliz AI 云平臺負責人陳將
陳將表示,今年隨著大模型的火爆,向量數(shù)據(jù)庫也開始出圈了。很多人對向量數(shù)據(jù)庫的認知都是從 AI 大模型開始的,因為大模型雖然很強大但往往缺乏領域知識,所以業(yè)界流行用向量數(shù)據(jù)庫打造大模型的記憶體。除此之外,向量數(shù)據(jù)庫在信息檢索領域還有非常多的應用。
事實上,向量數(shù)據(jù)庫是一種劃時代的信息檢索引擎。人工智能和深度學習的創(chuàng)新使我們能夠創(chuàng)建一種機器學習模型,即 embedding 模型。Embedding 模型將所有類型的數(shù)據(jù)表征為向量,以捕獲其特征和含義。相比之下,傳統(tǒng)的全文檢索使用的是基于關鍵詞的方式。向量編碼能夠更準確地捕捉數(shù)據(jù)的語義信息,提供更準確的搜索結果。例如通過智能手機拍照后搜索相似的圖像,而傳統(tǒng)的全文檢索往往只能通過關鍵詞匹配來進行搜索。向量數(shù)據(jù)庫使用高效的算法和索引結構,如 k 最近鄰(k-NN)索引、分層可導航小世界(HNSW)和倒排文件索引(IVF),以實現(xiàn)在高維空間中的快速檢索。然而,傳統(tǒng)的數(shù)據(jù)庫并不擅長于向量搜索,性能不可同日而語。
此外,陳將提到,向量數(shù)據(jù)庫在 AI 時代的信息檢索中具有重要的地位和優(yōu)勢。它通過將數(shù)據(jù)編碼為向量,并利用高效的搜索算法和索引結構,提供更精確、快速和準確的搜索結果,在網(wǎng)頁搜索、推薦系統(tǒng)、視頻圖像搜索,檢索增強生成等領域助力應用開發(fā)者以更強大更優(yōu)秀的產(chǎn)品體驗。
陳將所在的 Zilliz 不僅是向量數(shù)據(jù)庫賽道的領先者,也在大模型時代為 AI 應用開發(fā)者提供了非結構化數(shù)據(jù)檢索產(chǎn)品 Zilliz Cloud Pipelines。Zilliz Cloud Pipelines(https://zilliz.com/zilliz-cloud-pipelines) 可以將文檔、文本片段和圖像等非結構化數(shù)據(jù)轉換成可搜索的向量并存儲在 Collection 中,幫助開發(fā)者簡化工程開發(fā),助力其實現(xiàn)多種場景的 RAG 應用,將復雜生產(chǎn)系統(tǒng)的搭建和維護簡化成 API 調用,真正做到降低檢索系統(tǒng)搭建門檻,輕松實現(xiàn) RAG 應用。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )