昆侖萬(wàn)維2050全球研究院聯(lián)合NUS、NTU發(fā)布Vitron

近日,由顏水成教授帶隊(duì),昆侖萬(wàn)維2050全球研究院、新加坡國(guó)立大學(xué)、新加坡南洋理工大學(xué)團(tuán)隊(duì)聯(lián)合發(fā)布并開(kāi)源了Vitron通用像素級(jí)視覺(jué)多模態(tài)大語(yǔ)言模型。

這是一款重磅的通用視覺(jué)多模態(tài)大模型,支持從視覺(jué)理解到視覺(jué)生成、從低層次到高層次的一系列視覺(jué)任務(wù),解決了困擾大語(yǔ)言模型產(chǎn)業(yè)已久的圖像/視頻模型割裂問(wèn)題,提供了一個(gè)全面統(tǒng)一靜態(tài)圖像與動(dòng)態(tài)視頻內(nèi)容的理解、生成、分割、編輯等任務(wù)的像素級(jí)通用視覺(jué)多模態(tài)大模型,為下一代通用視覺(jué)大模型的終極形態(tài)奠定了基礎(chǔ),也標(biāo)志著大模型邁向通用人工智能(AGI)的又一大步。

Vitron作為一個(gè)統(tǒng)一的像素級(jí)視覺(jué)多模態(tài)大語(yǔ)言模型,實(shí)現(xiàn)了從低層次到高層次的視覺(jué)任務(wù)的全面支持,能夠處理復(fù)雜的視覺(jué)任務(wù),并理解和生成圖像和視頻內(nèi)容,提供了強(qiáng)大的視覺(jué)理解和任務(wù)執(zhí)行能力。同時(shí),Vitron支持與用戶的連續(xù)操作,實(shí)現(xiàn)了靈活的人機(jī)互動(dòng),展示了通向更統(tǒng)一的視覺(jué)多模態(tài)通用模型的巨大潛力。

Vitron相關(guān)的論文、代碼和Demo已全部公開(kāi),其在綜合性、技術(shù)創(chuàng)新、人機(jī)交互和應(yīng)用潛力等方面展現(xiàn)出的獨(dú)特優(yōu)勢(shì)和潛力,不僅推動(dòng)了多模態(tài)大模型的發(fā)展,還為未來(lái)的視覺(jué)大模型研究提供了一個(gè)新的方向。

一直以來(lái),昆侖萬(wàn)維2050全球研究院都致力于打造一家面向未來(lái)世界的卓越科學(xué)研究機(jī)構(gòu),與科學(xué)社區(qū)共同跨越“奇點(diǎn)”,探索未知世界,創(chuàng)造美好未來(lái)。此前,昆侖萬(wàn)維2050全球研究院已經(jīng)發(fā)布并開(kāi)源了數(shù)字智能體研發(fā)工具包AgentStudio,未來(lái),研究院還將不斷推動(dòng)人工智能技術(shù)突破,為中國(guó)人工智能生態(tài)建設(shè)貢獻(xiàn)力量。

當(dāng)前視覺(jué)大語(yǔ)言模型(LLMs)的發(fā)展取得了喜人進(jìn)展。社區(qū)越來(lái)越相信,構(gòu)建更通用、更強(qiáng)大的多模態(tài)大模型(MLLMs)將會(huì)是通向通用人工智能(AGI)的必經(jīng)之路。但在向多模態(tài)通用大模型(Generalist)的邁進(jìn)過(guò)程中,目前仍存在一些關(guān)鍵挑戰(zhàn)。比如很大一部分工作都沒(méi)有實(shí)現(xiàn)細(xì)粒度像素級(jí)別的視覺(jué)理解,或者缺乏對(duì)圖像和視頻的統(tǒng)一支持。抑或?qū)τ诟鞣N視覺(jué)任務(wù)的支持不充分,離通用大模型相差甚遠(yuǎn)。

為了填補(bǔ)這個(gè)空白,近日,昆侖萬(wàn)維2050全球研究院、新加坡國(guó)立大學(xué)、新加坡南洋理工大學(xué)團(tuán)隊(duì)聯(lián)合發(fā)布開(kāi)源了Vitron通用像素級(jí)視覺(jué)多模態(tài)大語(yǔ)言模型。Vitron支持從視覺(jué)理解到視覺(jué)生成、從低層次到高層次的一系列視覺(jué)任務(wù),包括靜態(tài)圖像和動(dòng)態(tài)視頻內(nèi)容進(jìn)行全面的理解、生成、分割和編輯等任務(wù)。

上圖綜合描繪了Vitron在四大視覺(jué)相關(guān)任務(wù)的功能支持,以及其關(guān)鍵優(yōu)勢(shì)。Vitron還支持與用戶的連續(xù)操作,實(shí)現(xiàn)靈活的人機(jī)互動(dòng)。該項(xiàng)目展示了面向更統(tǒng)一的視覺(jué)多模態(tài)通用模型的巨大潛力,為下一代通用視覺(jué)大模型的終極形態(tài)奠定了基礎(chǔ)。

Vitron相關(guān)論文、代碼、Demo目前已全部公開(kāi)。

論文標(biāo)題:Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing

項(xiàng)目主頁(yè)&Demo:https://vitron-llm.github.io/

論文鏈接:https://is.gd/aGu0VV

開(kāi)源代碼:https://github.com/SkyworkAI/Vitron

01. 大一統(tǒng)的終極多模態(tài)大語(yǔ)言模型

近年來(lái),大語(yǔ)言模型(LLMs)展現(xiàn)出了前所未有的強(qiáng)大能力,其被逐漸驗(yàn)證為乃是通向AGI的技術(shù)路線。而多模態(tài)大語(yǔ)言模型(MLLMs)在多個(gè)社區(qū)火爆發(fā)展且迅速出圈,通過(guò)引入能進(jìn)行視覺(jué)感知的模塊,擴(kuò)展純語(yǔ)言基礎(chǔ)LLMs至MLLMs,眾多在圖像理解方面強(qiáng)大卓越的MLLMs被研發(fā)問(wèn)世,例如BLIP-2、LLaVA、MiniGPT-4等等。與此同時(shí),專注于視頻理解的MLLMs也陸續(xù)面世,如VideoChat、Video-LLaMA和Video-LLaVA等等。

隨后,研究人員主要從兩個(gè)維度試圖進(jìn)一步擴(kuò)展MLLMs的能力。一方面,研究人員嘗試深化MLLMs對(duì)視覺(jué)的理解,從粗略的實(shí)例級(jí)理解過(guò)渡到對(duì)圖像的像素級(jí)細(xì)粒度理解,從而實(shí)現(xiàn)視覺(jué)區(qū)域定位(Regional Grounding)能力,如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2等。另一方面,研究人員嘗試擴(kuò)展MLLMs可以支持的視覺(jué)功能。部分研究已經(jīng)開(kāi)始研究讓MLLMs不僅理解輸入視覺(jué)信號(hào),還能支持生成輸出視覺(jué)內(nèi)容。比如,GILL、Emu等MLLMs能夠靈活生成圖像內(nèi)容,以及GPT4Video和NExT-GPT實(shí)現(xiàn)視頻生成。

目前人工智能社區(qū)已逐漸達(dá)成一致,認(rèn)為視覺(jué)MLLMs的未來(lái)趨勢(shì)必然會(huì)朝著高度統(tǒng)一、能力更強(qiáng)的方向發(fā)展。然而,盡管社區(qū)開(kāi)發(fā)了眾多的MLLMs,但仍然存在明顯的鴻溝。

首先,幾乎所有現(xiàn)有的視覺(jué)LLMs將圖像和視頻視為不同的實(shí)體,要么僅支持圖像,要么僅支持視頻。研究人員主張,視覺(jué)應(yīng)該同時(shí)包含了靜態(tài)圖像和動(dòng)態(tài)視頻兩個(gè)方面的內(nèi)涵——這兩者都是視覺(jué)世界的核心組成,在大多數(shù)場(chǎng)景中甚至可以互換。所以,需要構(gòu)建一個(gè)統(tǒng)一的MLLM框架能夠同時(shí)支持圖像和視頻模態(tài)。

其次,目前MLLMs對(duì)視覺(jué)功能的支持還有所不足。大多數(shù)模型僅能進(jìn)行理解,或者最多生成圖像或視頻。研究人員認(rèn)為,未來(lái)的MLLMs應(yīng)該是一個(gè)通用大語(yǔ)言模型,能覆蓋更廣泛的視覺(jué)任務(wù)和操作范圍,實(shí)現(xiàn)對(duì)所有視覺(jué)相關(guān)任務(wù)的統(tǒng)一支持,達(dá)到“one for all”的能力。這點(diǎn)對(duì)實(shí)際應(yīng)用尤其是在經(jīng)常涉及一系列迭代和交互操作的視覺(jué)創(chuàng)作中至關(guān)重要。例如,用戶通常首先從文本開(kāi)始,通過(guò)文生圖,將一個(gè)想法轉(zhuǎn)化為視覺(jué)內(nèi)容;然后通過(guò)進(jìn)一步的細(xì)粒度圖像編輯來(lái)完善初始想法,添加更多細(xì)節(jié);接著,通過(guò)圖像生成視頻來(lái)創(chuàng)建動(dòng)態(tài)內(nèi)容;最后,進(jìn)行幾輪迭代交互,如視頻編輯,完善創(chuàng)作。

上表簡(jiǎn)單地歸納了現(xiàn)有的視覺(jué)MLLM的能力(只代表性地囊括了部分模型,覆蓋不完整)。為了彌補(bǔ)這些差距,該團(tuán)隊(duì)提出一種通用的像素級(jí)視覺(jué)MLLM——Vitron。

02. Vitron系統(tǒng)架構(gòu):三大關(guān)鍵模塊

Vitron整體框架如下圖所示。Vitron采用了與現(xiàn)有相關(guān)MLLMs相似的架構(gòu),包括三個(gè)關(guān)鍵部分:1) 前端視覺(jué)&語(yǔ)言編碼模塊,2) 中心LLM理解和文本生成模塊,以及3) 后端用戶響應(yīng)和模塊調(diào)用以進(jìn)行視覺(jué)操控模塊。

前端模塊:視覺(jué)-語(yǔ)言編碼。為了感知圖像和視頻模態(tài)信號(hào),并支持細(xì)粒度用戶視覺(jué)輸入,Vitron集成了圖像編碼器、視頻編碼器、區(qū)域框/草圖編碼器。

中心模塊:核心LLM。Vitron使用的是Vicuna(7B,1.5),來(lái)實(shí)現(xiàn)理解、推理、決策制定和多輪用戶交互。

后端模塊:用戶響應(yīng)與模塊調(diào)用。Vitron采用以文本為中心的調(diào)用策略,整合現(xiàn)成的幾個(gè)強(qiáng)大先進(jìn)(SoTA)的圖像和視頻處理模塊,用于解碼和執(zhí)行從低層到高層的一系列視覺(jué)終端任務(wù)。通過(guò)采用以文本為中心的模塊集成調(diào)用方法,Vitron不僅實(shí)現(xiàn)了系統(tǒng)統(tǒng)一,還確保了對(duì)齊效率和系統(tǒng)可擴(kuò)展性。

03. Vitron模型訓(xùn)練三大階段

基于上述架構(gòu),再對(duì)Vitron進(jìn)行訓(xùn)練微調(diào),以賦予其強(qiáng)大的視覺(jué)理解和任務(wù)執(zhí)行能力。模型訓(xùn)練主要囊括三個(gè)不同的階段。

步驟一:視覺(jué)-語(yǔ)言整體對(duì)齊學(xué)習(xí)。將輸入的視覺(jué)語(yǔ)言特征映射到一個(gè)統(tǒng)一的特征空間中,從而使其能夠有效理解輸入的多模態(tài)信號(hào)。這是一種粗粒度的視覺(jué)-語(yǔ)言對(duì)齊學(xué)習(xí),可以讓系統(tǒng)具備整體上有效處理傳入的視覺(jué)信號(hào)。研究人員采用了現(xiàn)存的圖像-標(biāo)題對(duì)(CC3M)、視頻-標(biāo)題對(duì)(Webvid)和區(qū)域-標(biāo)題對(duì)(RefCOCO)的數(shù)據(jù)集進(jìn)行訓(xùn)練。

步驟二:細(xì)粒度的時(shí)空視覺(jué)定位指令微調(diào)。系統(tǒng)采用了調(diào)用外部模塊方式來(lái)執(zhí)行各種像素級(jí)視覺(jué)任務(wù),但LLM本身并未經(jīng)過(guò)任何細(xì)粒度的視覺(jué)訓(xùn)練,這將會(huì)阻礙了系統(tǒng)實(shí)現(xiàn)真正的像素級(jí)視覺(jué)理解。為此,研究人員提出了一種細(xì)粒度的時(shí)空視覺(jué)定位指令微調(diào)訓(xùn)練,核心思想是使LLM能夠定位圖像的細(xì)粒度空間性和視頻的具體時(shí)序特性。

步驟三:輸出端面向命令調(diào)用的指令微調(diào)。上述第二階段的訓(xùn)練賦予了LLM和前端編碼器在像素級(jí)別理解視覺(jué)的能力。這最后一步,面向命令調(diào)用的指令微調(diào),旨在讓系統(tǒng)具備精確執(zhí)行命令的能力,允許LLM生成適當(dāng)且正確的調(diào)用文本。由于不同的終端視覺(jué)任務(wù)可能需要不同的調(diào)用命令,為了統(tǒng)一這一點(diǎn),研究人員提出將LLM的響應(yīng)輸出標(biāo)準(zhǔn)化為結(jié)構(gòu)化文本格式,其中包括:

用戶響應(yīng)輸出,直接回復(fù)用戶的輸入。

模塊名稱,指示將要執(zhí)行的功能或任務(wù)。

調(diào)用命令,觸發(fā)任務(wù)模塊的元指令。

區(qū)域(可選輸出),指定某些任務(wù)所需的細(xì)粒度視覺(jué)特征,例如在視頻跟蹤或視覺(jué)編輯中,后端模塊需要這些信息。對(duì)于區(qū)域,基于LLM的像素級(jí)理解,將輸出由坐標(biāo)描述的邊界框。

04. 評(píng)估實(shí)驗(yàn)

研究人員基于Vitron在22個(gè)常見(jiàn)的基準(zhǔn)數(shù)據(jù)集、12個(gè)圖像/視頻視覺(jué)任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn)評(píng)估。Vitron展現(xiàn)出在四大主要視覺(jué)任務(wù)群組(分割、理解、內(nèi)容生成和編輯)中的強(qiáng)大能力,與此同時(shí)其具備靈活的人機(jī)交互能力。以下代表性地展示了一些定性比較結(jié)果:

Vision Segmentation

Results of image referring image segmentation

Fine-grained Vision Understanding

Results of image referring expression comprehension.

Results on video QA.

Vision Generation

Text-to-Image Generation Text-to-Video generation Image-to-Video generation

Vision Editing

Image editing results

具體更多詳細(xì)實(shí)驗(yàn)內(nèi)容和細(xì)節(jié)請(qǐng)移步論文。

05. 未來(lái)方向展望

總體上,這項(xiàng)工作展示了研發(fā)大一統(tǒng)的視覺(jué)多模態(tài)通用大模型的巨大潛力,為下一代視覺(jué)大模型的研究奠定了一個(gè)新的形態(tài),邁出了這個(gè)方向的第一步。盡管團(tuán)隊(duì)所提出的Vitron系統(tǒng)表現(xiàn)出強(qiáng)大的通用能力,但依然存在自身的局限性。以下研究人員列出一些未來(lái)可進(jìn)一步探索的方向。

系統(tǒng)架構(gòu)

Vitron系統(tǒng)仍采用半聯(lián)合、半代理的方式來(lái)調(diào)用外部工具。雖然這種基于調(diào)用的方法便于擴(kuò)展和替換潛在模塊,但這也意味著這種流水線結(jié)構(gòu)的后端模塊不參與到前端與LLM核心模塊的聯(lián)合學(xué)習(xí)。這一限制不利于系統(tǒng)的整體學(xué)習(xí),這意味著不同視覺(jué)任務(wù)的性能上限將受到后端模塊的限制。未來(lái)的工作應(yīng)將各種視覺(jué)任務(wù)模塊整合成一個(gè)統(tǒng)一的單元。實(shí)現(xiàn)對(duì)圖像和視頻的統(tǒng)一理解和輸出,同時(shí)通過(guò)單一生成范式支持生成和編輯能力,仍然是一個(gè)挑戰(zhàn)。目前一種有希望的方式是結(jié)合modality-persistent的tokenization, 提升系統(tǒng)在不同輸入和輸出以及各種任務(wù)上的統(tǒng)一化。

用戶交互性

與之前專注于單一視覺(jué)任務(wù)的模型(例如,Stable Diffusion和SEEM)不同,Vitron旨在促進(jìn)LLM和用戶之間的深度交互,類似于行業(yè)內(nèi)的OpenAI的DALL-E系列,Midjourney等。實(shí)現(xiàn)最佳的用戶交互性是本項(xiàng)工作的核心目標(biāo)之一。Vitron利用現(xiàn)有的基于語(yǔ)言的LLM,結(jié)合適當(dāng)?shù)闹噶钫{(diào)整,以實(shí)現(xiàn)一定程度的交互。例如,系統(tǒng)可以靈活地響應(yīng)用戶輸入的任何預(yù)期消息,產(chǎn)生相應(yīng)的視覺(jué)操作結(jié)果,而不要求用戶輸入精確匹配后端模塊條件。然而,該工作在增強(qiáng)交互性方面仍有很大的提升空間。例如,從閉源的Midjourney系統(tǒng)汲取靈感,不論LLM在每一步做出何種決定,系統(tǒng)都應(yīng)積極向用戶提供反饋,以確保其行動(dòng)和決策與用戶意圖一致。

模態(tài)能力

當(dāng)前,Vitron集成了一個(gè)7B的Vicuna模型,其可能對(duì)其理解語(yǔ)言、圖像和視頻的能力會(huì)產(chǎn)生某些限制。未來(lái)的探索方向可以發(fā)展一個(gè)全面的端到端系統(tǒng),比如擴(kuò)大模型的規(guī)模,以實(shí)現(xiàn)對(duì)視覺(jué)的更徹底和全面的理解。此外,應(yīng)該努力使LLM能夠完全統(tǒng)一圖像和視頻模態(tài)的理解。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2024-04-26
昆侖萬(wàn)維2050全球研究院聯(lián)合NUS、NTU發(fā)布Vitron
昆侖萬(wàn)維2050全球研究院聯(lián)合NUS、NTU發(fā)布Vitron

長(zhǎng)按掃碼 閱讀全文