性高朝久久久久久久久久,4399视频在线播放

科技云報到原創(chuàng)。

自ChatGPT爆火，國內(nèi)頭部平臺型公司一擁而上，先后發(fā)布AGI或垂類LLM，但鮮有大模型基礎(chǔ)設(shè)施在數(shù)據(jù)層面的進(jìn)化，比如向量數(shù)據(jù)庫。

在此之前，向量數(shù)據(jù)庫經(jīng)歷了幾年的沉寂期，現(xiàn)在似乎終于乘著ChatGPT的東風(fēng)成為資本的“寵兒”。然而，一年狂飆之后，市場逐漸退潮，因此有人質(zhì)疑，向量數(shù)據(jù)庫又涼了？

判斷一條賽道是否真的有潛力，資本的注入雖是前提，但更重要的還有市場的態(tài)度。大模型應(yīng)用的逐步落地于向量數(shù)據(jù)庫而言，無疑是最好的催熟劑。

然而任何新技術(shù)的到來，都需要更長的時間才能得到市場的接受。

一份關(guān)于向量數(shù)據(jù)庫的市場研究是，隨著AI應(yīng)用場景加速落地，據(jù)西南證券分析，預(yù)計2025年向量數(shù)據(jù)庫滲透率約為30%，其中，中國向量數(shù)據(jù)庫市場規(guī)模約為82.56億元。而據(jù)中國信通院測算，到2025年，中國數(shù)據(jù)庫市場規(guī)模將達(dá)688億元。這意味著，兩年后向量數(shù)據(jù)庫在中國的滲透率將超過10%。

在國內(nèi)，不少數(shù)據(jù)庫廠商都在嘗試推出向量數(shù)據(jù)庫產(chǎn)品，然而從市場驗證階段走向?qū)崿F(xiàn)盈利，中間還需要一段更漫長的時間。向量數(shù)據(jù)庫究竟是虛火過旺還是星辰大海？在向量數(shù)據(jù)庫這條賽道，能否看到更遠(yuǎn)的未來？

向量數(shù)據(jù)庫，剛剛開始

向量數(shù)據(jù)庫，顧名思義，是一種專門處理向量數(shù)據(jù)的數(shù)據(jù)庫。在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中，數(shù)據(jù)通常以表格形式存儲，而向量數(shù)據(jù)庫則將非結(jié)構(gòu)化數(shù)據(jù)（如文本、圖像、音頻等）轉(zhuǎn)換為向量形式進(jìn)行存儲。這種數(shù)據(jù)表示方法使得向量數(shù)據(jù)庫能夠高效地處理大規(guī)模、高維度的數(shù)據(jù)集，為AI提供了強大的計算基礎(chǔ)。

如果說數(shù)據(jù)庫是數(shù)據(jù)的“硬盤”，那么，向量數(shù)據(jù)庫就是更適合AI體質(zhì)的“硬盤”，其“AI原生”的體質(zhì)，具體表現(xiàn)在以下幾個方面。

首先，是更高的效率。AI算法，要從圖像、音頻和文本等海量的非結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí)，提取出以向量為表示形式的“特征”，以便模型能夠理解和處理。因此，向量數(shù)據(jù)庫比傳統(tǒng)基于索引的數(shù)據(jù)庫有明顯優(yōu)勢。

其次，更低的成本。大模型要從一種新技術(shù)轉(zhuǎn)化為產(chǎn)業(yè)價值，必須達(dá)到合理的投入產(chǎn)出比，而向量數(shù)據(jù)庫可以有效減少存儲和計算成本。一個公開數(shù)據(jù)是，通過騰訊云向量數(shù)據(jù)庫，QQ音樂人均聽歌時長提升3.2%、騰訊視頻有效曝光人均時長提升1.74%、QQ瀏覽器成本降低37.9%，就在于檢索效率、運行穩(wěn)定性、運營效率、推薦算法等，有了較大的提升。

第三，更強的數(shù)據(jù)安全。企業(yè)想做大模型，還要確保數(shù)據(jù)的隱私安全，就必須與數(shù)據(jù)庫產(chǎn)品做好配合，這給向量數(shù)據(jù)庫的本地部署帶來了廣闊的需求。

第四，更大的擴(kuò)展性。隨著大模型走向行業(yè)應(yīng)用，垂直領(lǐng)域的AI用例不斷增多，洶涌的數(shù)據(jù)洪潮和存算任務(wù)，會帶來大量向量搜索的需求。而向量數(shù)據(jù)庫嵌入向量的長度不受限制，具有良好的擴(kuò)展性，可以根據(jù)AI用例和模型而變化，更好地處理大規(guī)模數(shù)據(jù)集。

從大模型技術(shù)標(biāo)桿的OpenAI發(fā)布的GPT-4o和即將發(fā)布的GPT-5消息來看，以及國內(nèi)外商業(yè)化大模型的進(jìn)展來看，大模型的技術(shù)路線還沒有發(fā)生顛覆性的變革，因此落地應(yīng)用還是需要向量檢索和向量數(shù)據(jù)庫。

由此可見，向量數(shù)據(jù)庫與AI的關(guān)系緊密相連。在大模型興起之前，傳統(tǒng)數(shù)據(jù)庫已經(jīng)在不斷嘗試與AI結(jié)合，主要涉及以下幾個方向：數(shù)據(jù)存儲與管理、數(shù)據(jù)清洗與預(yù)處理、數(shù)據(jù)檢索與查詢、數(shù)據(jù)集成與共享、數(shù)據(jù)安全與隱私保護(hù)。隨著大模型的興起，可以看到在這些方向上，數(shù)據(jù)庫與AI間的關(guān)聯(lián)比以往任何時候都要密切。

此外，AI 大模型的興起還為數(shù)據(jù)庫注入了預(yù)測估算的能力。AI模型可以通過學(xué)習(xí)歷史數(shù)據(jù)和模式，對未來的趨勢和結(jié)果進(jìn)行預(yù)測和估算。傳統(tǒng)數(shù)據(jù)庫可以集成AI模型，實現(xiàn)對數(shù)據(jù)的預(yù)測分析。這使得數(shù)據(jù)庫可以不僅提供對歷史數(shù)據(jù)的查詢和分析，還能夠提供對未來數(shù)據(jù)的預(yù)測和估算結(jié)果，幫助用戶做出更準(zhǔn)確的決策。

總的來說，幾乎所有類型的數(shù)據(jù)庫都在積極向AI靠攏，比如在數(shù)據(jù)庫中添加向量索引，數(shù)據(jù)庫和AI已經(jīng)密不可分，兩者相輔相成，共同推動著技術(shù)的進(jìn)步和應(yīng)用的拓展。

兩大新勢力，云是方向

傳統(tǒng)數(shù)據(jù)庫廠商不必多說，既有相應(yīng)的能力建設(shè)，也有一定的客戶基礎(chǔ)，推出相關(guān)產(chǎn)品是必然。一些在AI領(lǐng)域積淀已久的科技大廠，如谷歌、微軟、Meta、百度等大廠，都有向量數(shù)據(jù)庫的技術(shù)積累，也都可以向外輸出相關(guān)能力和產(chǎn)品。

除了這些常規(guī)面孔，向量數(shù)據(jù)庫市場也吸引了新的參與者。作為這一輪大模型投資熱和創(chuàng)業(yè)熱的主要目標(biāo)之一，向量數(shù)據(jù)庫領(lǐng)域誕生了不少創(chuàng)新創(chuàng)業(yè)公司。比如AI創(chuàng)業(yè)新秀Pinecone就是閉源的領(lǐng)跑者，憑借良好的開箱即用的產(chǎn)品體驗，獲得了非常大的增長，B輪估值達(dá)到7.5億美元。其他競爭者大多建立在開源項目的基礎(chǔ)上。

不過，作為創(chuàng)業(yè)公司，長期盈利能力還有待驗證。一個主要原因，是客戶大多是嘗鮮、實驗性質(zhì)。

企業(yè)需要先將非結(jié)構(gòu)化的私密數(shù)據(jù)，放入一個小的模型中進(jìn)行數(shù)據(jù)轉(zhuǎn)化，即數(shù)據(jù)向量化，產(chǎn)生一個向量的矩陣，再存儲到向量數(shù)據(jù)庫里，來供大模型學(xué)習(xí)和檢索。這個過程涉及大量的工程化，會耗費企業(yè)許多開發(fā)人員、時間成本，一開始可能會因為AI大模型很火而對向量數(shù)據(jù)庫產(chǎn)生興趣，但能否真正在業(yè)務(wù)中落地還是個未知數(shù)。因此，長期付費意愿還有較大的不確定性。

另一股積極參與的新勢力，就是公有云廠商。

從2017年到2019年，于向量數(shù)據(jù)庫的發(fā)展而言，是一段更為重要的時間。騰訊云、百度智能云、京東科技等也恰都是在這個時間段將向量數(shù)據(jù)庫的相關(guān)組件應(yīng)用到具體的業(yè)務(wù)之上。

實際上，這段時間所對應(yīng)的背景也正是，非結(jié)構(gòu)化數(shù)據(jù)需求的激增。

一個具有代表性的事件是，2017年，短視頻的爆火，催生了新媒體行業(yè)，各種結(jié)構(gòu)數(shù)據(jù)也隨之出現(xiàn)。這一現(xiàn)象就導(dǎo)致了不同結(jié)構(gòu)數(shù)據(jù)的處理需求。

除此之外，京東、騰訊和百度的內(nèi)部產(chǎn)品也有更多類似的需求。而向量化引擎也正是從這一時間點開始萌芽。

事實上，不是所有企業(yè)都有能力自建大模型所需要的基礎(chǔ)設(shè)施，通過MaaS（模型即服務(wù)）業(yè)務(wù)來訓(xùn)練應(yīng)用大模型，是更靈活的選擇。此外，很多政企客戶往往會選擇公有云或行業(yè)云來滿足其業(yè)務(wù)需求，對云數(shù)據(jù)庫的關(guān)注度和接受度上升，而這些用戶在探索大模型時，會傾向于以整體解決方案的形式來交付，這就給了云廠商參與到此賽道機(jī)會，同時也要求云廠商提供向量數(shù)據(jù)庫的全棧支持。

如今頭部云廠商基本建立了全生命周期AI化的向量數(shù)據(jù)庫。有數(shù)據(jù)顯示，企業(yè)原先接入一個大模型需要花1個月左右時間，使用某公有云的向量數(shù)據(jù)庫后，3天時間即可完成，極大降低了企業(yè)的接入成本。

更何況，前不久火山引擎、阿里云、百度智能云等都圍繞大模型API價格，打起了互相抄底的“價格戰(zhàn)”，意味著AI創(chuàng)新門檻的降低，而AI應(yīng)用市場的用戶規(guī)模擴(kuò)大，也會帶動向量數(shù)據(jù)庫的使用需求。

綜合來看，整個云AI市場的格局還在快速變化之中，風(fēng)物長宜放眼量，AI Native的向量數(shù)據(jù)庫，前景仍然值得期待。

向量數(shù)據(jù)庫，展望AGI時代

從某種程度上而言，無論是向量數(shù)據(jù)庫，還是大模型，歸根結(jié)底，大家在追捧它時的心態(tài)，焦慮大于需求。而這種焦慮則來源于“害怕被落下”。

大模型、多模態(tài)等新技術(shù)、新應(yīng)用的出現(xiàn)，正在迅速刷新著人們對AGI時代的期待，仿佛它下一刻就會到來。

而向量數(shù)據(jù)庫的熱潮，在一定程度上“外化”了人們的焦慮。但這并不能否定向量數(shù)據(jù)庫的實際價值，甚至更長遠(yuǎn)的價值。

雖然，目前向量數(shù)據(jù)庫仍處于發(fā)展初期，但可以確定的是，向量數(shù)據(jù)庫與大模型一定是捆綁關(guān)系。因此，未來其演進(jìn)方向也一定隨著大模型能力的演進(jìn)而發(fā)生變化。

騰訊云數(shù)據(jù)庫副總經(jīng)理羅云認(rèn)為，向量數(shù)據(jù)庫幫助大模型解決在專有領(lǐng)域知識不足的問題。通用大模型是基于海量的互聯(lián)網(wǎng)業(yè)務(wù)和數(shù)據(jù)去訓(xùn)練的，但對于一些細(xì)分的垂直行業(yè)缺少知識。而向量數(shù)據(jù)庫可以幫助企業(yè)打通企業(yè)私有知識庫和大模型的連接，幫助企業(yè)更好地利用大模型等AI新技術(shù)去實現(xiàn)企業(yè)的降本增效，推動企業(yè)從“數(shù)字化”到“數(shù)智化”的躍升，這就是向量數(shù)據(jù)庫在AI時代的重要的定位和價值。

而在具體的演進(jìn)方向上，向量數(shù)據(jù)庫一定會考慮多模態(tài)數(shù)據(jù)的表達(dá)以及數(shù)據(jù)的智能化管理。

首先，在大模型應(yīng)用百花齊放的背景下，向量數(shù)據(jù)庫對于多模態(tài)數(shù)據(jù)的處理意義，變得十分重要。

羅云進(jìn)一步舉例，比如某教育客戶，把一些線下的教育課程，甚至老師上課的教育提綱，全部作為向量，存儲到騰訊云的向量數(shù)據(jù)庫里。當(dāng)家長想要去咨詢某節(jié)課老師講了什么，就可以把存儲在向量數(shù)據(jù)庫里面內(nèi)容檢索出來，再交給大模型按照人們能理解的語言來回答，這就將向量數(shù)據(jù)庫與大模型進(jìn)行了很好的匹配。

如果沒有向量數(shù)據(jù)庫參與，以及沒有合理的多模態(tài)數(shù)據(jù)處理方式，這種情況下是無法查詢出這些數(shù)據(jù)的。

但隨著多模態(tài)數(shù)據(jù)規(guī)模上的提升，另一個問題也隨之出現(xiàn)。不同數(shù)據(jù)庫中數(shù)據(jù)如何將其統(tǒng)一管理并讓數(shù)據(jù)流通起來，這就涉及到的智能化管理也是向量數(shù)據(jù)庫未來的發(fā)力點。

向量數(shù)據(jù)庫作為處理多樣性和復(fù)雜性數(shù)據(jù)挑戰(zhàn)的得力工具，為各行業(yè)提供了高效、靈活的數(shù)據(jù)管理解決方案。其高維索引、相似性查詢、向量聚合等特點，使其在推薦系統(tǒng)、搜索引擎、社交媒體分析、生物信息學(xué)和圖像視頻分析等多個領(lǐng)域得到了成功應(yīng)用。

不可否認(rèn)，向量數(shù)據(jù)庫的未來既蘊含著廣闊的發(fā)展空間，也面臨著諸多挑戰(zhàn)。得益于大模型火熱，向量數(shù)據(jù)庫已逐漸成為資本市場的青睞之選。在未來的AGI道路上，向量數(shù)據(jù)庫仍需要砥礪前行。

【關(guān)于科技云報到】

企業(yè)級IT領(lǐng)域Top10新媒體。聚焦云計算、人工智能、大模型、網(wǎng)絡(luò)安全、大數(shù)據(jù)、區(qū)塊鏈等企業(yè)級科技領(lǐng)域。原創(chuàng)文章和視頻獲工信部權(quán)威認(rèn)可，是世界人工智能大會、數(shù)博會、國家網(wǎng)安周、可信云大會與全球云計算等大型活動的官方指定傳播媒體之一。

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個人觀點，與極客網(wǎng)無關(guān)。文章僅供讀者參考，并請自行核實相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

大模型時代下，向量數(shù)據(jù)庫的野望

下一篇