大型神經(jīng)網(wǎng)絡(luò)這種人工智能可以生成上千條“雞為何要過馬路”式的笑話。但它們理解這些笑話為何有趣嗎?
利用《紐約客》雜志卡通標(biāo)題競賽的數(shù)百條參賽作品作為測試素材,研究人員給AI模型和人類出了三道題:把笑話與卡通配對;識別優(yōu)勝標(biāo)題;解釋優(yōu)勝標(biāo)題為何有趣。
在所有題目中,人類表現(xiàn)明顯優(yōu)于機(jī)器,即使ChatGPT等AI取得了進(jìn)步也是如此。那么,機(jī)器開始“理解”幽默了嗎?簡言之,它們確實(shí)取得了一些進(jìn)展,但距離真正的理解還差得很遠(yuǎn)。
艾倫人工智能研究院的研究科學(xué)家Jack Hessel博士說:“挑戰(zhàn)AI模型是否‘理解’的方法是設(shè)計(jì)測試題給它們選擇題或其他帶精確度分?jǐn)?shù)的評估。如果某個(gè)模型最終在這個(gè)測試中超過人類表現(xiàn),你會(huì)想,‘好吧,這是否意味著它真正理解了?’堅(jiān)稱沒有任何機(jī)器可以真正‘理解’,因?yàn)槔斫馐侨说奶刭|(zhì),這種立場也是可辯護(hù)的。但無論機(jī)器是否理解,它們在這些任務(wù)上的出色表現(xiàn)仍令人印象深刻?!?/p>
Hessel是論文《安卓會(huì)笑電羊嗎?來自《紐約客》卡通標(biāo)題競賽的幽默“理解”基準(zhǔn)測試》的第一作者,該論文在7月9日至14日于多倫多舉行的第61屆計(jì)算語言學(xué)年會(huì)上獲得最佳論文獎(jiǎng)。康奈爾大學(xué)計(jì)算機(jī)科學(xué)學(xué)院Charles Roy Davis教授Lillian Lee和華盛頓大學(xué)計(jì)算機(jī)科學(xué)與工程Paul G. Allen學(xué)院教授、艾倫人工智能研究院常識智能高級主管Yejin Choi也是該論文的合著者。其他貢獻(xiàn)者包括猶他大學(xué)計(jì)算學(xué)院助理教授Ana Marasovic、艾倫人工智能研究院研究科學(xué)家Jena D. Hwang、華盛頓大學(xué)研究助理Jeff Da、OpenAI研究員Rowan Zellers,以及幽默漫畫家、《紐約客》長期卡通編輯Robert Mankoff。
為開展研究,這些學(xué)者收集了14年的《紐約客》卡通標(biāo)題競賽素材,共超過700組。每組競賽包括:無標(biāo)題卡通圖;該周參賽作品;《紐約客》編輯選擇的三名決賽選手;對于某些競賽,還包括每個(gè)參賽作品的群眾質(zhì)量評估。
對每組競賽,研究人員用兩類AI模型參與三項(xiàng)任務(wù):基于計(jì)算機(jī)視覺的“從像素”模型和基于對卡通的人類概述進(jìn)行分析的“從描述”模型。Hessel說:“有些照片數(shù)據(jù)集帶有類似‘這是我的狗’的說明?!都~約客》案例有趣之處在于,圖像與標(biāo)題之間的關(guān)系是間接的、戲謔的,并引用了許多現(xiàn)實(shí)世界的實(shí)體和規(guī)范。因此,‘理解’這些東西之間的關(guān)系需要更高層次的細(xì)膩度。”
實(shí)驗(yàn)中,匹配要求AI模型從其他競賽的決賽選手中為給定的卡通選擇決賽標(biāo)題;質(zhì)量排名要求模型區(qū)分決賽標(biāo)題和非決賽標(biāo)題;解釋要求模型生成自由文本,解釋優(yōu)質(zhì)標(biāo)題如何與卡通相關(guān)。
Hessel親自撰寫了大部分人生成的解釋,因?yàn)楸姲巳蝿?wù)的效果不佳。他為超過650幅卡通各生成了60字的解釋。Hessel說:“在機(jī)器學(xué)習(xí)背景下,650這個(gè)數(shù)量看起來很小,因?yàn)槟抢锏臄?shù)據(jù)點(diǎn)通常有成千上萬。直到你開始一一寫出來時(shí),才感覺到。”
這項(xiàng)研究揭示了AI和人類對幽默“理解”之間存在顯著差距。在卡通-標(biāo)題匹配選擇題中,最佳AI模型準(zhǔn)確率只有62%,遠(yuǎn)遠(yuǎn)落后于人類同條件下的94%。而在人生成與AI生成的解釋比較中,人類的解釋約以2比1受青睞。
雖然AI目前還無法“理解”幽默,但它可以成為幽默創(chuàng)作者的輔助創(chuàng)意工具。
本文譯自 techxplore,由 BALI 編輯發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )