AI學(xué)會(huì)“看圖說話”,視覺推理潛力無限。GPT-4o突破圖像編輯瓶頸,預(yù)示智能新紀(jì)元。
不得不說,生活在這個(gè)一切都在加速發(fā)展的時(shí)代,真是太棒了!仿佛心想事成一般,往往我剛冒出一個(gè)念頭,希望某種技術(shù)出現(xiàn),結(jié)果不出一個(gè)月,它就真的來了!最近 OpenAI 的 GPT-4o 模型在圖像生成方面的更新,就是這樣一個(gè)驚喜。這篇文章里,我想先簡(jiǎn)單聊聊這次更新,分享下我為什么覺得它相當(dāng)了不起。緊接著,我會(huì)深入探討一個(gè)我認(rèn)為更加激動(dòng)人心的新領(lǐng)域——視覺推理。
在此之前,多模態(tài)大語言模型處理圖像的方式,更像是一場(chǎng)“單相思”。雖然我們可以把圖片丟給模型,讓它分析解讀,這本身已經(jīng)很神奇了。但反過來,如果你想讓模型生成或修改圖片,那麻煩就來了。模型能做的,僅僅是把你的需求轉(zhuǎn)化成一段文字描述,然后把它交給一個(gè)外部的圖像生成工具去“照貓畫虎”。問題在于,單薄的文字很難精確傳達(dá)豐富的視覺信息,尤其是對(duì)話中那些微妙的上下文。結(jié)果呢?生成的圖片往往和你的預(yù)期相去甚遠(yuǎn)。
想象一下這個(gè)場(chǎng)景:你給模型看了一張自家貓咪的照片,說:“給它 P 個(gè)偵探帽和單片眼鏡?!?傳統(tǒng)模型頂多能生成一張戴著偵探帽和單片眼鏡的貓,但幾乎不可能是你照片里的那只。更讓人無奈的是,模型壓根“看不見”自己剛剛生成的圖片。所以,就算你對(duì)第一版不滿意,想讓它再改改,它也只能根據(jù)你新的文字描述,重新畫一張,本質(zhì)上還是從零開始,祈禱這次描述更詳細(xì)能帶來好運(yùn)——可惜,通常事與愿違。
然而,OpenAI 最近發(fā)布的 GPT-4o 模型徹底改變了游戲規(guī)則。它不再需要“外援”,而是由 GPT-4o 模型本身直接負(fù)責(zé)圖像生成。關(guān)鍵在于,它能夠理解并記住整個(gè)對(duì)話的上下文,包括你之前發(fā)過的圖片。這樣一來,當(dāng)你要求修改時(shí),它是在你原圖的基礎(chǔ)上進(jìn)行操作,生成的圖像自然就連貫多了。
還是拿 OpenAI 官方演示的例子來說吧:你給它看自家貓咪的照片,讓它加上一頂偵探帽。瞧!這次,戴上帽子的,真真切切就是你照片里的那只貓!效果是不是好太多了?
當(dāng)然,如果這項(xiàng)技術(shù)的全部能耐就是給貓 P 圖,那未免也太小材大用了。想象一下它真正能帶來的變革吧!我們可以把隨手畫的草圖,瞬間變成精美的信息圖表或營(yíng)銷海報(bào);讓那些看起來粗糙的數(shù)據(jù)圖(比如用 matplotlib 生成的圖表)搖身一變,成為可以直接放進(jìn) PPT 的專業(yè)級(jí)圖示;在線購(gòu)物前,可以先虛擬試穿一下衣服是否合身;輕松將手機(jī)里的照片制作成藝術(shù)拼貼畫、游戲素材,甚至是 3D 模型;度假照片里有人不小心眨眼了?沒關(guān)系,輕松 P 掉;想重新布置客廳?拍張照片,讓 AI 幫你嘗試不同的家具擺放和色彩搭配;甚至可以拍下你的花園,讓 AI 建議你在哪里種上新的花草最合適……只要模型能結(jié)合上下文理解并編輯圖像,未來的應(yīng)用場(chǎng)景簡(jiǎn)直無窮無盡。
不過,前面提到的這些應(yīng)用,在我看來,還僅僅是冰山一角,真正的大戲還在后頭。我們知道,模型如果能“多想一會(huì)兒”,推理能力往往會(huì)更強(qiáng)。這背后的原因很有趣:模型不像人類,沒有所謂的“內(nèi)心戲”或者說“默想”的過程。人類在回答問題前會(huì)先在腦子里盤算一下,而模型需要通過生成文字來完成思考。但迄今為止,模型的“思考”主要局限在文字層面??珊芏喱F(xiàn)實(shí)世界的問題,光靠文字是很難想明白的,比如空間關(guān)系、物理規(guī)律等等。
這就引出了關(guān)鍵點(diǎn):模型新獲得的圖像處理能力,將為其解鎖一種全新的推理方式——視覺推理。目前,這項(xiàng)能力可能更多地體現(xiàn)在圖像編輯上,但未來可期!很快,模型將能夠像我們一樣,在“腦海”中(或者說,在它們的處理過程中)構(gòu)想出不同的畫面,用視覺的方式來理解和推演我們周圍的世界。
我們不妨現(xiàn)在就來做一個(gè)小實(shí)驗(yàn),看看視覺推理大概會(huì)是什么樣子。這里我們借用 Matthew Berman 常用的一個(gè)推理難題——杯子里的彈珠問題,稍作修改:
“我把一個(gè)盤子放在桌上,旁邊放一個(gè)玻璃杯。我把一顆彈珠放在盤子上。然后我拿起彈珠,放進(jìn)玻璃杯里。接著,我把玻璃杯倒扣在盤子上。然后,我拿起玻璃杯,把它放進(jìn)微波爐。問:彈珠現(xiàn)在在哪里?”
這個(gè)問題之所以巧妙,在于它需要結(jié)合常識(shí)和空間想象能力。我先把這個(gè)問題的純文字版本輸入給了最新的 GPT-4o:
“我把一個(gè)盤子放在桌上,旁邊放一個(gè)玻璃杯。我把一顆彈珠放在盤子上。然后我拿起彈珠,放進(jìn)玻璃杯里。接著,我把玻璃杯倒扣在盤子上。然后,我拿起玻璃杯,把它放進(jìn)微波爐。問:彈珠現(xiàn)在在哪里?”
GPT-4o 給出的答案有點(diǎn)奇怪。它先是脫口而出給了一個(gè)錯(cuò)誤答案,緊接著又進(jìn)行了一番事后分析,得出了正確的結(jié)論,但它似乎完全沒意識(shí)到自己前后矛盾了。
接下來,我們來試試“視覺增強(qiáng)版”的推理。我讓模型不僅要思考,還要把每一步想象成畫面畫出來:
“我要拿起彈珠,放進(jìn)玻璃杯,然后把玻璃杯倒扣在盤子上,再拿起玻璃杯,最后把玻璃杯放進(jìn)微波爐。問題是,彈珠在哪里? 請(qǐng)一步一步地解決這個(gè)問題,并用圖像來想象每一步發(fā)生的情況。對(duì)于每一步,首先說明步驟,然后生成該步驟后場(chǎng)景對(duì)應(yīng)的圖像。最后用文字總結(jié)圖像內(nèi)容,突出解決問題的關(guān)鍵信息?!?/p>
下面是模型的推理過程:
步驟一:拿起彈珠。
在圖像中,彈珠還沒有移動(dòng),但我們即將把它撿起來,放在玻璃杯中。
步驟二:把彈珠放進(jìn)玻璃杯。
在圖像中,彈珠現(xiàn)在在玻璃杯內(nèi),盤子是空的。
步驟三:把玻璃杯倒扣在盤子上。
在圖像中,玻璃杯現(xiàn)在倒置在盤子上,將彈珠困在里面。
步驟四:拿起玻璃杯。
在圖像中,手正在將玻璃杯從盤子上抬起。彈珠仍然在盤子上。
步驟五:把玻璃杯放進(jìn)微波爐。
在圖像中,玻璃杯現(xiàn)在在微波爐內(nèi),彈珠在底部。
最終答案:彈珠在微波爐里,在杯子底部。
結(jié)果嘛……相當(dāng)尷尬。模型生成了一系列連貫性驚人的圖像,但最終答案卻完全錯(cuò)了!明明在第四步,它還正確地“看到”并描述了彈珠留在盤子上,可到了最后一步,它卻莫名其妙地認(rèn)為彈珠跟著空杯子一起進(jìn)了微波爐。
我認(rèn)為,這次實(shí)驗(yàn)之所以失敗,根源在于模型還沒有接受過專門的視覺推理訓(xùn)練。
看看 OpenAI 發(fā)布新模型時(shí)的介紹,雖然那些圖像編輯的例子令人印象深刻,但訓(xùn)練的重點(diǎn)顯然是如何更好地理解指令、渲染文字效果,而不是進(jìn)行視覺層面的邏輯推演。所以,我們需要開始有針對(duì)性地訓(xùn)練模型進(jìn)行視覺推理。
怎么訓(xùn)練呢?我們可以用監(jiān)督式微調(diào)的方法。比如,給模型展示一系列連續(xù)的圖片:彈簧玩具下樓梯的過程、籃球運(yùn)動(dòng)員投三分球的瞬間、人們用錘子釘鳥屋的場(chǎng)景等等,讓模型理解物理世界的規(guī)律。我們還可以讓模型觀看社交互動(dòng)的圖片和文字序列,學(xué)習(xí)預(yù)測(cè)人們的肢體語言和面部表情,提升它的“情商”?;蛘撸屇P屯嫫咔砂?、想象物體旋轉(zhuǎn) 90 度后的樣子,來鍛煉空間推理能力。稍微動(dòng)動(dòng)腦筋,就能想出無數(shù)這樣的訓(xùn)練點(diǎn)子——畢竟,視覺是我們理解和互動(dòng)世界的核心方式。
那么,訓(xùn)練數(shù)據(jù)從哪里來呢?對(duì)于物理和空間推理任務(wù),我們可以利用計(jì)算機(jī)圖形學(xué)生成合成數(shù)據(jù)。這種方法的好處是可以在受控環(huán)境中創(chuàng)建已知結(jié)果的場(chǎng)景,方便驗(yàn)證模型的預(yù)測(cè)。當(dāng)然,真實(shí)世界的數(shù)據(jù)也必不可少。幸運(yùn)的是,網(wǎng)絡(luò)上有海量的視頻內(nèi)容可供挖掘。雖然初期可能需要人工標(biāo)注,但很快,模型或許就能自己處理視頻和字幕,自動(dòng)提取訓(xùn)練樣本了。想想網(wǎng)上那些鋪天蓋地的“教程”視頻——?jiǎng)?chuàng)作者通常會(huì)先講解要做什么,然后演示操作。這不就是現(xiàn)成的訓(xùn)練素材嗎?我們可以提取這些片段,讓模型根據(jù)當(dāng)前的畫面和語音描述,預(yù)測(cè)下一步會(huì)發(fā)生什么。
順便提一句,我認(rèn)為視頻將是未來 AI 訓(xùn)練數(shù)據(jù)最豐富的金礦,而我們才剛剛開始挖掘。那么,誰擁有互聯(lián)網(wǎng)上最多的視頻內(nèi)容呢?YouTube……也就是 Google。這么看來,Gemini 模型的未來,似乎相當(dāng)光明,不是嗎?
回顧 AI 推理能力的發(fā)展,早在 2022 年,我們就發(fā)現(xiàn)“思維鏈”提示技巧非常有效。如果模型倉(cāng)促給出錯(cuò)誤答案,我們加上一句“讓我們一步一步地思考”,往往就能得到更好的結(jié)果。不久之后,更深入的推理方法被提了出來,特別是“思維樹”,它鼓勵(lì)模型探索解決問題的多種可能路徑,評(píng)估可行性,并引導(dǎo)模型走向最優(yōu)解。
到了 OpenAI 的 o1 模型以及隨后出現(xiàn)的一些模型,這種類似思維樹的推理能力,已經(jīng)被內(nèi)建到了模型之中?,F(xiàn)在,模型在給出最終答案之前,可能會(huì)在特殊的“思考”標(biāo)簽內(nèi)部進(jìn)行一番推演。根據(jù) DeepSeek 的說法,他們的 R1 模型通過一種基于可驗(yàn)證問題的強(qiáng)化學(xué)習(xí)進(jìn)行了訓(xùn)練,模型會(huì)因?yàn)楦咝У厮伎疾⒄业秸_答案而獲得獎(jiǎng)勵(lì)。有趣的是,這些模型在思考時(shí),有時(shí)會(huì)鉆進(jìn)死胡同,但它們能意識(shí)到自己搞砸了,然后回溯到之前的節(jié)點(diǎn),重新選擇正確的路徑繼續(xù)推理。
現(xiàn)在,輪到視覺推理登場(chǎng)了。在接下來的一年里,模型將通過監(jiān)督式微調(diào),發(fā)展出場(chǎng)景預(yù)測(cè)的能力——給定當(dāng)前場(chǎng)景和一個(gè)提議的變化,它們將學(xué)會(huì)在“腦海”中預(yù)演結(jié)果。例如,它們可以在三維空間中旋轉(zhuǎn)物體,或者預(yù)判人們?cè)谏缃粓?chǎng)合可能的反應(yīng)。隨著使用可驗(yàn)證結(jié)果的場(chǎng)景進(jìn)行訓(xùn)練,模型將發(fā)展出更復(fù)雜的推理能力:觀察環(huán)境、制定計(jì)劃、在內(nèi)部模擬不同行動(dòng)的后果,并通過比較預(yù)測(cè)與現(xiàn)實(shí)結(jié)果來學(xué)習(xí)。這種進(jìn)步對(duì)機(jī)器人技術(shù)尤其具有變革性意義,因?yàn)闄C(jī)器人與物理環(huán)境的互動(dòng)極度依賴強(qiáng)大的視覺理解和規(guī)劃能力。
當(dāng)然,目前視覺推理面臨一個(gè)顯而易見的障礙——生成圖像的速度還比較慢。但就像我們這個(gè)時(shí)代的其他技術(shù)一樣,這個(gè)問題很可能很快得到解決,變得更快、更可行。退一步講,即使視覺處理速度提升有限,訓(xùn)練模型進(jìn)行視覺推理的過程本身,也能反過來提升它們?cè)谔幚砩婕耙曈X/空間問題的純文本推理能力。更何況,模型內(nèi)部生成圖像似乎存在不同精度的層級(jí)——先有一個(gè)模糊的小圖,再精煉成高清大圖。我們平時(shí)在 ChatGPT 里看到的是后者。也許,視覺推理可以利用生成更快的模糊圖像來進(jìn)行,這同樣有助于加速思考過程。
我對(duì)即將到來的一切感到無比興奮!就像過去四年里的每一個(gè)瞬間一樣,我們又一次站在了即將改變世界的重大發(fā)現(xiàn)的門檻上——而且這一次,我相信它很快就會(huì)成為現(xiàn)實(shí)。視覺推理,絕不會(huì)讓我們失望。這些能力越來越強(qiáng)的“慧眼”模型,將能更好地理解我們周遭的世界——不僅僅是理解物體的物理運(yùn)作方式,還能解讀微妙的社交信號(hào),以及任何其他視覺對(duì)我們有用的領(lǐng)域! 如此看來,2026 年,或許真的會(huì)成為“機(jī)器人元年”呢……
本文譯自 Arcturus Labs,由 BALI 編輯發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )