視頻理解新突破!達摩院開源VideoLLaMA3:顛覆性SOTA,僅7B大驚艷來襲

顛覆性的視頻理解新突破!達摩院開源VideoLLaMA3驚艷來襲

隨著科技的飛速發(fā)展,視頻數(shù)據(jù)已成為我們日常生活中不可或缺的一部分。為了更好地理解和處理這些海量的視頻數(shù)據(jù),達摩院最新開源了VideoLLaMA3模型,其驚艷表現(xiàn)令人矚目。該模型以圖像為中心,構建了新一代的多模態(tài)視頻-語言模型,其在通用視頻理解、時間推理和長視頻理解等核心維度上的表現(xiàn)均超越了多數(shù)基線模型。

VideoLLaMA3模型的出色表現(xiàn),得益于其以圖像為中心的訓練范式。這種訓練范式主要包含四個關鍵內容:視覺編碼器適配、視覺語言對齊、多任務微調以及視頻微調。通過這些方法,VideoLLaMA3在框架設計和訓練過程中,實現(xiàn)了對不同分辨率圖像和視頻的處理,并增強了模型對多樣場景的理解和特征提取能力。

高質量的數(shù)據(jù)在VideoLLaMA3的性能提升中起到了關鍵作用。首先,團隊構建了包含700萬圖像-字幕對的VL3Syn7M數(shù)據(jù)集,為模型提供了豐富的高質量訓練數(shù)據(jù)。此外,Aspect Ratio Filtering、Aesthetic Score Filtering以及Text-Image Similarity Calculation with Coarse Captioning等數(shù)據(jù)過濾和增強策略,確保了剩余圖像內容與描述的緊密相關性,提升了模型學習到的圖文對的質量和代表性。

在Vision Encoder Adaptation階段,團隊整合了場景圖像、文檔識別圖像和少量場景文本圖像,以增強模型對多樣場景的理解和特征提取能力。而在Vision-Language Alignment階段,高質量的數(shù)據(jù)微調則涵蓋了多種中英文數(shù)據(jù)集、細粒度數(shù)據(jù)以及大量高質量純文本數(shù)據(jù),進一步提升了模型對圖像細節(jié)的理解。

在Multi-task Fine-tuning階段,團隊使用了指令跟隨數(shù)據(jù)混合覆蓋多種任務,涵蓋了圖像、文檔、圖表、OCR等不同類別的數(shù)據(jù),并使用大量純文本數(shù)據(jù)提升模型處理涉及視覺和文本輸入的指令跟隨任務的能力。而在Video-centric Fine-tuning階段,收集了多個開源數(shù)據(jù)集中帶注釋的視頻數(shù)據(jù),并通過合成特定方面的密集字幕和問答對擴展了數(shù)據(jù)規(guī)模。

VideoLLaMA3模型的出色表現(xiàn)不僅體現(xiàn)在理論成果上,更在實際應用中得到了驗證。目前,該模型已經在HuggingFace上提供了圖像、視頻理解的demo。例如,我們給一張《蒙娜麗莎的微笑》的圖片,向VideoLLaMA3提問“討論這幅畫在藝術界的歷史影響和意義”,其回答精準且簡約。再來看下視頻理解的demo,我們的問題是“視頻中有什么不尋常之處”,VideoLLaMA3的回答簡潔而精準。

總的來說,VideoLLaMA3模型的開源無疑將推動視頻理解領域的發(fā)展。達摩院在VideoLLaMA3上的創(chuàng)新和努力,無疑為整個領域樹立了一個新的標桿。我們期待未來VideoLLaMA3在更多實際應用場景中的表現(xiàn),也相信會有更多的研究者會利用這個強大的工具來推動視頻理解領域的發(fā)展。

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

贊助商
2025-02-14
視頻理解新突破!達摩院開源VideoLLaMA3:顛覆性SOTA,僅7B大驚艷來襲
達摩院開源VideoLLaMA3模型,新一代多模態(tài)視頻-語言模型,在通用視頻理解、時間推理和長視頻理解等核心維度表現(xiàn)優(yōu)秀,實際應用中得到驗證。

長按掃碼 閱讀全文