浙大上海AI Lab發(fā)布全球首個創(chuàng)造力評測基準:GPT-4.5創(chuàng)造力不及GPT-4O,真實場景下的創(chuàng)造力較量揭曉

探索多模態(tài)創(chuàng)造力:GPT-4.5與視覺創(chuàng)造力基準的較量

隨著GPT-4.5在語言生成能力上的顯著提升,其創(chuàng)造力也引發(fā)了廣泛關(guān)注。然而,當我們將其應用于真實場景的多模態(tài)任務時,我們發(fā)現(xiàn)其表現(xiàn)可能并未達到預期。近日,浙江大學聯(lián)合上海人工智能實驗室等團隊發(fā)布的全球首個多模態(tài)創(chuàng)造力評測基準,為我們揭示了多模態(tài)大模型在現(xiàn)實場景中的創(chuàng)造力較量。

首先,我們需要理解什么是多模態(tài)創(chuàng)造力。在人工智能的“智力三元論”中,創(chuàng)造性智能(Creative Intelligence)始終是最難評估和攻克的一環(huán)。它涉及在不同背景下生成新穎和適當解決方案的能力,這正是多模態(tài)大模型在現(xiàn)實場景中展現(xiàn)出創(chuàng)造力的關(guān)鍵。

現(xiàn)有的多模態(tài)大模型評測基準,如MMBench、MMMU等,往往更偏重于分析性或?qū)嵱眯匀蝿眨雎粤硕嗄B(tài)AI在真實生活中常見的“創(chuàng)意類任務”。然而,這些任務對于人類來說是駕輕就熟的,但對于現(xiàn)有的部分多模態(tài)大模型卻往往是“高難動作”。這正是浙江大學聯(lián)合團隊發(fā)布的全球首個多模態(tài)創(chuàng)造力評測基準——Creation-MMBench所要解決的問題。

在深度探討Creation-MMBench之前,我們需要了解為何我們要關(guān)注視覺創(chuàng)造智能。在人工智能的智力體系中,視覺智能是理解世界的重要一環(huán)。在創(chuàng)造性智能中,視覺內(nèi)容理解與情境適應的能力尤為重要。相較于其他廣泛使用的多模態(tài)評測基準,Creation-MMBench具有更全面和復雜的問題設(shè)計,大多數(shù)問題的長度超過500個詞元,這有助于模型捕捉更豐富的創(chuàng)意上下文。

Creation-MMBench的核心在于真實場景的多模態(tài)融合。它涵蓋了四大任務類別、51項細粒度任務,用765個高難度測試案例,為多模態(tài)大模型的“視覺創(chuàng)意智能”提供全方位體檢。其中,任務類別包括文學創(chuàng)作、日常功能性寫作、專業(yè)功能性寫作以及多模態(tài)理解與創(chuàng)作。這些任務需要模型具備視覺內(nèi)容理解、情境適應以及創(chuàng)意性文本生成等多重能力,這是現(xiàn)有基準難以評估的核心能力。

為了確保評判的公正性和一致性,團隊使用了GPT-4O作為評判模型,并采用了雙重評估體系。他們選擇了使用多模態(tài)大模型作為評判模型,同時使用兩個不同指標進行雙重評估。這包括視覺事實性評分(VFS)和創(chuàng)意獎勵分(Reward)。視覺事實性評分確保模型不是“瞎編”,而創(chuàng)意獎勵分則考察模型是否能夠結(jié)合視覺內(nèi)容生成有創(chuàng)意的文本。

為了驗證評判模型的可靠性,團隊還招募了志愿者對13%的樣本進行人工評估。結(jié)果顯示,GPT-4O展現(xiàn)出了更強的人類偏好一致性,同時也證明了雙向評判的必要性。這表明傳統(tǒng)的客觀指標可能無法完全捕捉模型在復雜現(xiàn)實場景中的創(chuàng)造能力,而Creation-MMBench填補了這一領(lǐng)域的重要性。

值得注意的是,GPT-4.5在語言生成能力上的提升并未帶來其在多模態(tài)創(chuàng)造力上的顯著提升。在與全球首個多模態(tài)創(chuàng)造力評測基準Creation-MMBench的對比實驗中,GPT-4.5在某些任務上的表現(xiàn)甚至不及GPT-4O。這讓我們重新思考GPT-4.5的真正潛力以及多模態(tài)創(chuàng)造力評測的重要性。

總的來說,Creation-MMBench作為一個新穎的基準,旨在評估多模態(tài)大模型在現(xiàn)實場景中的創(chuàng)造能力。該基準包含765個實例,涵蓋51個詳細任務,為多模態(tài)大模型的創(chuàng)造力提供了全方位的評估。盡管GPT-4.5在語言生成能力上有所提升,但在真實場景中的多模態(tài)創(chuàng)造力較量中,我們?nèi)孕杞柚馛reation-MMBench這樣的評測基準來揭示其真實能力。

希望這篇文章符合您的要求,如果您還有其他問題,歡迎隨時向我提問。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2025-04-04
浙大上海AI Lab發(fā)布全球首個創(chuàng)造力評測基準:GPT-4.5創(chuàng)造力不及GPT-4O,真實場景下的創(chuàng)造力較量揭曉
探索多模態(tài)創(chuàng)造力:GPT-4.5與視覺創(chuàng)造力基準的較量 隨著GPT-4.5在語言生成能力上的顯著提升,其創(chuàng)造力也引發(fā)了廣泛關(guān)注。然而,當我們將其...

長按掃碼 閱讀全文