大模型中間層的狂歡:一場48小時的AGI黑客松,一次重新審視AGI浪潮的機(jī)會

AGI 時代,真的可以用向量數(shù)據(jù)庫+大模型在 48 小時內(nèi)迅速搭建出一個 AI 應(yīng)用嗎?

這場黑客松比賽給出了答案,它就是 AGI Playground Hackathon,一場聚集了國內(nèi)頂尖向量數(shù)據(jù)庫、大模型公司與創(chuàng)新開發(fā)者的 AGI 盛宴。

與國內(nèi)其他比賽不同,AGI Playground Hackathon 詮釋了 CVP Stack 開發(fā)范式的強(qiáng)大,除了大模型以外,首次全量使用向量數(shù)據(jù)庫進(jìn)行應(yīng)用開發(fā),讓更多開發(fā)者切實地感受到向量數(shù)據(jù)庫作為大模型記憶體在檢索和存儲等方面的能力。本次比賽給出了“生產(chǎn)力工具的新想象”、“泛娛樂體驗的新可能”和“創(chuàng)新開發(fā)” 三個賽題,最大程度地給予開發(fā)者更多的創(chuàng)作空間。而現(xiàn)場 34 個各具特色的開發(fā)成果展示,也為 AGI 從業(yè)者帶來了更多的思考和想象。

CVP Stack 的試煉場,向量數(shù)據(jù)庫的應(yīng)用狂歡

對于 AGI 時代的開發(fā)者而言,AGI Playground Hackathon 無疑是驗證創(chuàng)意的絕佳戰(zhàn)場,據(jù)了解,此次參賽的開發(fā)者無一例外全部使用了 CVP Stack 的開發(fā)范式,這也是國內(nèi)黑客松比賽中,首次在應(yīng)用開發(fā)過程中大規(guī)模地應(yīng)用向量數(shù)據(jù)庫(Zilliz Cloud)。

何為 CVP Stack?具體來看,“C”代表大模型(ChatGPT)負(fù)責(zé)向量計算;“V”代表向量數(shù)據(jù)庫(Vector Database),負(fù)責(zé)向量存儲;“P”代表 Prompt 工程,負(fù)責(zé)向量交互。

這里需要著重講一下向量數(shù)據(jù)庫。向量數(shù)據(jù)庫是一種為了高效存儲和索引 AI 模型產(chǎn)生的向量嵌入(embedding)數(shù)據(jù)而專門設(shè)計的數(shù)據(jù)庫。在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中,數(shù)據(jù)通常以表格的形式存儲,而在向量數(shù)據(jù)庫中,數(shù)據(jù)以向量的形式存儲。向量(embedding)是一組數(shù)值,可以表示一個點在多維空間中的位置??梢哉f,向量數(shù)據(jù)庫非常擅長處理大量的高維 embedding 數(shù)據(jù)。

隨著大模型時代的到來,向量數(shù)據(jù)庫進(jìn)入到更多開發(fā)者的視野中。諸如 ChatGPT、Bard、Claude 和 LLaMA 這樣的大模型可以產(chǎn)生海量向量嵌入數(shù)據(jù)來表達(dá)復(fù)雜的語義關(guān)系,但模型本身的存儲空間有限,無法持久保存這些數(shù)據(jù)。而向量數(shù)據(jù)庫就像一塊外置的記憶塊,可以長期存儲這些數(shù)據(jù),供模型隨時調(diào)用。而在 CVP Stack 的開發(fā)范式中,不可或缺的恰恰是向量數(shù)據(jù)庫對于高維復(fù)雜數(shù)據(jù)的向量檢索能力及其長期存儲能力。

那么,向量數(shù)據(jù)庫真正的效果的使用效果如何?在最后一天的 Demo Day 中,選手們普遍反映,本次開發(fā)過程中所使用到的向量數(shù)據(jù)庫 Zilliz Cloud,在自己開發(fā)的應(yīng)用中承載了重要的功能,通過其高效的向量檢索與強(qiáng)大的存儲能力大大提升了項目的落地效率和效果:

“Pilotx” 團(tuán)隊表示:Zilliz Cloud 的性能是世界級,用在 C 端性能略過剩;

來自【泛娛樂】賽道的“碼頭狗狗”用到的是 Zilliz Cloud 的向量檢索和存儲功能,不僅將 prompt 信息存儲在向量數(shù)據(jù)庫中,還會用其檢索與當(dāng)前事件相似度的信息;

來自【創(chuàng)新開發(fā)】的“真 666”團(tuán)隊則通過 Zilliz Cloud 分別搭建了公共向量數(shù)據(jù)庫及專屬向量數(shù)據(jù)庫,滿足項目交互過程中對專業(yè)領(lǐng)域知識數(shù)據(jù)和用戶數(shù)據(jù)的需求;……

AGI 不止 48 小時

一場 AGI 黑客松比賽的開發(fā)時間只有 48 小時,然而從開發(fā)者的視角來看,48 小時只是創(chuàng)意的初步實踐,真正的考驗才剛剛開始;對于比賽的發(fā)起者(Zilliz、智譜 AI、Founder Park)而言,舉辦黑客松的初心以及比賽過程中帶來的沉淀更具價值,AGI 絕不止于 48 小時。

Zilliz 創(chuàng)始人兼 CEO 星爵表示,聯(lián)合發(fā)起 Hackathon 的原因有 3 點:

其一,大模型正當(dāng)其時,已經(jīng)從模型端創(chuàng)新走向應(yīng)用端創(chuàng)新?;乜唇衲晟习肽?,可以看到,國內(nèi)有很多公司在大模型方面可謂百花齊放,做出了優(yōu)秀的模型,經(jīng)歷了從蓄勢待發(fā)到走近廣大開發(fā)者的過程。

其二,目光投向海外,過去一年各類 Hackathon 活動如火如荼,尤其是北美,在開發(fā)者聚集的城市基本每個周末都會舉辦一場黑客松。這在一定程度上推動了 AI 創(chuàng)新的百花齊放,國內(nèi)當(dāng)下需要這樣促進(jìn)開發(fā)者交流與火花碰撞的機(jī)會。

其三,無論是大語言模型的應(yīng)用還是上個時代移動應(yīng)用程序的興起,都清晰地指出,更長期的創(chuàng)新一定來自應(yīng)用層。如何以 AI 創(chuàng)新、大模型的創(chuàng)新為各行業(yè)賦能,是當(dāng)下亟待解決的問題。為此,在當(dāng)下大模型爆發(fā)、開發(fā)者正當(dāng)時的階段,Zilliz 希望將大家組織到一起,進(jìn)行一場屬于這個時代的創(chuàng)新盛宴。

誠如星爵所言,黑客松的選手向所有人展示了國內(nèi) AIGC 開發(fā)者技術(shù)力與創(chuàng)新力,帶來了諸如知識庫、金融、健康、短視頻、寵物、兒童繪畫、殘障人士關(guān)愛等豐富的場景。

如“社交駭客”團(tuán)隊的項目,可以看作“AI 時代的 Facebook”,即利用 AI,全網(wǎng)尋找和你興趣最相符的好友,分析 Ta 的個人資料,甚至可以和 Ta 的賽博分身互動。一方面,該項目展示了深度挖掘信息的強(qiáng)大技術(shù)能力;另一方面,也帶來了 AI 技術(shù)與倫理的碰撞。

又如,“AI 康復(fù)”團(tuán)隊的 AI 口語康復(fù)項目。該項目旨在用 AI 幫助恢復(fù)聽力的成人聽障群體學(xué)說話,主要解決成人聽障人群上課時間有限、價格昂貴以及課后練習(xí)無反饋的問題。由 AI 針對學(xué)員的自身情況設(shè)計專屬的訓(xùn)練課程,提供資料查詢、瞬時反饋和長期反饋。

對此,Zilliz 合伙人&產(chǎn)品負(fù)責(zé)人郭人通評價道,見過太多服務(wù)于多數(shù)人的 AI 項目,但“AI 康復(fù)”團(tuán)隊的項目卻是瞄準(zhǔn)小眾群體,并讓人眼前一亮。語音-文本跨模態(tài)的技術(shù)選型非常好地匹配了聽障群體的口語練習(xí)剛需。這個項目同時給整個行業(yè)提出了幾點思考:在 AI 落地階段高度內(nèi)卷的大背景下,如何提高公益類 AI 項目的關(guān)注度;面向小眾群體的公益類 AI 項目的存活路徑探索。

值得一提的是,“AI 口語康復(fù)”項目同時獲得了本次黑客松“最具創(chuàng)意獎”及【生產(chǎn)力工具】賽道冠軍,該項目采用 RAG(Retrieval-augmented generation 檢索增強(qiáng)生成)架構(gòu)將聽障成人語音康復(fù)專業(yè)文檔 embedding 后存入 Zilliz Cloud 。在回答用戶提問時,通過向量檢索,大模型可以實現(xiàn)知識庫的準(zhǔn)確反饋和類真人老師的真實糾音效果,避免大模型幻覺問題。

過去半年 RAG 應(yīng)用數(shù)量呈現(xiàn)出持續(xù)井噴的狀態(tài)。Zilliz 預(yù)計未來至少一年的時間里 RAG 仍會保持迅猛增長的態(tài)勢。未來,其涵蓋的內(nèi)容會從文本跨越到圖片、視頻等多模態(tài),甚至用戶的 profile。最終解決“企業(yè)數(shù)據(jù)如何高效使用”的問題。從這個角度看,RAG 在之前、現(xiàn)在以及未來都會是一個持續(xù)的增長點。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )