国产高中美女黄频视频大全,午夜国产精品理论片久久影院

浙大上海AI Lab發(fā)布全球首個創(chuàng)造力評測基準：GPT-4.5創(chuàng)造力不及GPT-4O，真實場景下的創(chuàng)造力較量揭曉

人閱讀

2025-04-04 21:05:45

作者：極客AI
相關(guān)關(guān)鍵詞

探索多模態(tài)創(chuàng)造力：GPT-4.5與視覺創(chuàng)造力基準的較量

隨著GPT-4.5在語言生成能力上的顯著提升，其創(chuàng)造力也引發(fā)了廣泛關(guān)注。然而，當我們將其應用于真實場景的多模態(tài)任務時，我們發(fā)現(xiàn)其表現(xiàn)可能并未達到預期。近日，浙江大學聯(lián)合上海人工智能實驗室等團隊發(fā)布的全球首個多模態(tài)創(chuàng)造力評測基準，為我們揭示了多模態(tài)大模型在現(xiàn)實場景中的創(chuàng)造力較量。

首先，我們需要理解什么是多模態(tài)創(chuàng)造力。在人工智能的“智力三元論”中，創(chuàng)造性智能（Creative Intelligence）始終是最難評估和攻克的一環(huán)。它涉及在不同背景下生成新穎和適當解決方案的能力，這正是多模態(tài)大模型在現(xiàn)實場景中展現(xiàn)出創(chuàng)造力的關(guān)鍵。

現(xiàn)有的多模態(tài)大模型評測基準，如MMBench、MMMU等，往往更偏重于分析性或?qū)嵱眯匀蝿眨雎粤硕嗄B(tài)AI在真實生活中常見的“創(chuàng)意類任務”。然而，這些任務對于人類來說是駕輕就熟的，但對于現(xiàn)有的部分多模態(tài)大模型卻往往是“高難動作”。這正是浙江大學聯(lián)合團隊發(fā)布的全球首個多模態(tài)創(chuàng)造力評測基準——Creation-MMBench所要解決的問題。

在深度探討Creation-MMBench之前，我們需要了解為何我們要關(guān)注視覺創(chuàng)造智能。在人工智能的智力體系中，視覺智能是理解世界的重要一環(huán)。在創(chuàng)造性智能中，視覺內(nèi)容理解與情境適應的能力尤為重要。相較于其他廣泛使用的多模態(tài)評測基準，Creation-MMBench具有更全面和復雜的問題設(shè)計，大多數(shù)問題的長度超過500個詞元，這有助于模型捕捉更豐富的創(chuàng)意上下文。

Creation-MMBench的核心在于真實場景的多模態(tài)融合。它涵蓋了四大任務類別、51項細粒度任務，用765個高難度測試案例，為多模態(tài)大模型的“視覺創(chuàng)意智能”提供全方位體檢。其中，任務類別包括文學創(chuàng)作、日常功能性寫作、專業(yè)功能性寫作以及多模態(tài)理解與創(chuàng)作。這些任務需要模型具備視覺內(nèi)容理解、情境適應以及創(chuàng)意性文本生成等多重能力，這是現(xiàn)有基準難以評估的核心能力。

為了確保評判的公正性和一致性，團隊使用了GPT-4O作為評判模型，并采用了雙重評估體系。他們選擇了使用多模態(tài)大模型作為評判模型，同時使用兩個不同指標進行雙重評估。這包括視覺事實性評分（VFS）和創(chuàng)意獎勵分（Reward）。視覺事實性評分確保模型不是“瞎編”，而創(chuàng)意獎勵分則考察模型是否能夠結(jié)合視覺內(nèi)容生成有創(chuàng)意的文本。

為了驗證評判模型的可靠性，團隊還招募了志愿者對13%的樣本進行人工評估。結(jié)果顯示，GPT-4O展現(xiàn)出了更強的人類偏好一致性，同時也證明了雙向評判的必要性。這表明傳統(tǒng)的客觀指標可能無法完全捕捉模型在復雜現(xiàn)實場景中的創(chuàng)造能力，而Creation-MMBench填補了這一領(lǐng)域的重要性。

值得注意的是，GPT-4.5在語言生成能力上的提升并未帶來其在多模態(tài)創(chuàng)造力上的顯著提升。在與全球首個多模態(tài)創(chuàng)造力評測基準Creation-MMBench的對比實驗中，GPT-4.5在某些任務上的表現(xiàn)甚至不及GPT-4O。這讓我們重新思考GPT-4.5的真正潛力以及多模態(tài)創(chuàng)造力評測的重要性。

總的來說，Creation-MMBench作為一個新穎的基準，旨在評估多模態(tài)大模型在現(xiàn)實場景中的創(chuàng)造能力。該基準包含765個實例，涵蓋51個詳細任務，為多模態(tài)大模型的創(chuàng)造力提供了全方位的評估。盡管GPT-4.5在語言生成能力上有所提升，但在真實場景中的多模態(tài)創(chuàng)造力較量中，我們?nèi)孕杞柚馛reation-MMBench這樣的評測基準來揭示其真實能力。

希望這篇文章符合您的要求，如果您還有其他問題，歡迎隨時向我提問。

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）