英偉達推出Eagle 2.5視覺語言AI模型:參數(shù)飆升至8B,媲美GPT-4!

英偉達推出Eagle 2.5視覺語言AI模型:參數(shù)飆升至8B,媲美GPT-4!

隨著人工智能技術(shù)的飛速發(fā)展,英偉達最近推出的Eagle 2.5視覺-語言模型引起了廣泛關(guān)注。這款模型以其卓越的性能和創(chuàng)新的訓練策略,成功地將參數(shù)規(guī)模提升至8B,令人矚目。

一、模型介紹

Eagle 2.5是一款專注于長上下文多模態(tài)學習的視覺-語言模型。其強大的理解能力使它能夠處理大規(guī)模的視頻和圖像,尤其擅長處理高分辨率圖像和長視頻序列。在Video-MME基準測試(512幀輸入)中,Eagle 2.5的得分高達72.4%,這一表現(xiàn)甚至媲美更大規(guī)模的模型,如Qwen2.5-VL-72B和InternVL2.5-78B。

二、關(guān)鍵訓練策略

Eagle 2.5的成功離不開兩項關(guān)鍵的訓練策略:信息優(yōu)先采樣(Information-First Sampling)和漸進式后訓練(Progressive Post-Training)。信息優(yōu)先采樣通過圖像區(qū)域保留(IAP)技術(shù),保留超過60%的原始圖像區(qū)域,同時減少寬高比失真;自動降級采樣(ADS)則根據(jù)上下文長度動態(tài)平衡視覺和文本輸入,確保文本完整性和視覺細節(jié)的優(yōu)化。

信息優(yōu)先采樣和漸進式后訓練的結(jié)合,不僅通過逐步擴展模型上下文窗口,保證了在不同輸入長度下的穩(wěn)定性能,而且通過SigLIP視覺編碼和MLP投影層,確保了模型在多樣化任務中的靈活性。

三、定制數(shù)據(jù)集

Eagle 2.5的訓練數(shù)據(jù)管道整合了開源資源和定制數(shù)據(jù)集Eagle-Video-110K。該數(shù)據(jù)集專為理解長視頻設計,采用雙重標注方式。自上而下的方法采用故事級分割,結(jié)合人類標注的章節(jié)元數(shù)據(jù)和GPT-4生成的密集描述;自下而上的方法則利用GPT-4o為短片段生成問答對,以抓取時空細節(jié)。通過余弦相似度篩選,數(shù)據(jù)集強調(diào)多樣性而非冗余,確保了敘事連貫性和細粒度標注,這顯著提升了模型在高幀數(shù)(≥128幀)任務中的表現(xiàn)。

四、性能表現(xiàn)

經(jīng)過訓練和測試,Eagle 2.5在多項視頻和圖像理解任務中表現(xiàn)出色。在視頻基準測試中,MVBench得分高達74.8,MLVU得分77.6,LongVideoBench得分66.4;在圖像基準測試中,DocVQA得分高達94.1,ChartQA得分87.5,InfoVQA得分80.4。這些成績充分證明了Eagle 2.5的強大性能。

消融研究結(jié)果表明,信息優(yōu)先采樣、ADS的移除以及漸進式訓練的加入都會導致性能下降;而Eagle-Video-110K數(shù)據(jù)集的加入則帶來了更穩(wěn)定的提升。這些研究結(jié)果為進一步優(yōu)化模型提供了重要參考。

總的來說,英偉達推出的Eagle 2.5視覺語言AI模型憑借其創(chuàng)新訓練策略、定制數(shù)據(jù)集以及卓越性能,已經(jīng)引起了廣泛關(guān)注。隨著模型的進一步優(yōu)化和廣泛應用,我們期待它在未來的發(fā)展中發(fā)揮更大的作用。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
1970-01-01
英偉達推出Eagle 2.5視覺語言AI模型:參數(shù)飆升至8B,媲美GPT-4!
英偉達推出Eagle 2.5視覺語言AI模型:參數(shù)飆升至8B,媲美GPT-4! 隨著人工智能技術(shù)的飛速發(fā)展,英偉達最近推出的Eagle 2.5視覺-語言模型...

長按掃碼 閱讀全文