斯坦福大學(xué)的研究指出,大型語言模型(LLM)的能力突增并非不可預(yù)測(cè),而是我們衡量AI能力方式的結(jié)果。
兩年前,一個(gè)名為超越模仿游戲基準(zhǔn)(BIG-bench)的項(xiàng)目中,450名研究人員編制了一個(gè)包含204個(gè)任務(wù)的列表,旨在測(cè)試大型語言模型的能力,這些模型是像ChatGPT這樣的聊天機(jī)器人的動(dòng)力來源。在大多數(shù)任務(wù)中,隨著模型規(guī)模的擴(kuò)大,性能的提高是可以預(yù)測(cè)和平穩(wěn)的——模型越大,性能越好。但是,對(duì)于其他任務(wù),能力的跳躍并不平穩(wěn)。性能在一段時(shí)間內(nèi)接近零,然后突然跳躍。其他研究也發(fā)現(xiàn)了類似的能力飛躍。
作者將此描述為“突破性”行為;其他研究人員將其比作物理學(xué)中的相變,就像液態(tài)水凍結(jié)成冰一樣。在2022年8月發(fā)表的一篇論文中,研究人員指出,這些行為不僅是令人驚訝的,而且是不可預(yù)測(cè)的,它們應(yīng)該影響圍繞AI安全、潛力和風(fēng)險(xiǎn)的不斷發(fā)展的討論。他們稱這些能力為“涌現(xiàn)”,這個(gè)詞描述了只有當(dāng)系統(tǒng)達(dá)到高水平復(fù)雜性時(shí)才會(huì)出現(xiàn)的集體行為。
但情況可能并不那么簡(jiǎn)單。斯坦福大學(xué)的三位研究人員在一篇新論文中提出,這些能力的突然出現(xiàn)只是研究人員衡量LLM性能方式的結(jié)果。他們認(rèn)為,這些能力既不不可預(yù)測(cè),也不突然。“這種轉(zhuǎn)變比人們認(rèn)為的要可預(yù)測(cè)得多,”斯坦福大學(xué)的計(jì)算機(jī)科學(xué)家兼論文的高級(jí)作者Sanmi Koyejo說?!皬?qiáng)烈的涌現(xiàn)主張與我們選擇的衡量方式有關(guān),而不僅僅是模型本身在做什么。”
我們之所以現(xiàn)在才開始看到并研究這種行為,是因?yàn)檫@些模型變得如此之大。大型語言模型通過分析大量的文本數(shù)據(jù)集進(jìn)行訓(xùn)練——來自包括書籍、網(wǎng)絡(luò)搜索和維基百科在內(nèi)的在線來源的單詞——并找到經(jīng)常出現(xiàn)在一起的單詞之間的聯(lián)系。模型的大小是以參數(shù)來衡量的,大致相當(dāng)于單詞可以連接的所有方式。參數(shù)越多,LLM可以找到的連接就越多。GPT-2有15億個(gè)參數(shù),而GPT-3.5,即驅(qū)動(dòng)ChatGPT的LLM,使用了3500億個(gè)參數(shù)。2023年3月首次亮相并現(xiàn)在支持微軟Copilot的GPT-4,據(jù)報(bào)道使用了1.75萬億個(gè)參數(shù)。
這種快速增長(zhǎng)帶來了性能和效能的驚人提升,沒有人質(zhì)疑足夠大的LLM可以完成較小模型無法完成的任務(wù),包括它們未經(jīng)過訓(xùn)練的任務(wù)。斯坦福的三人組將涌現(xiàn)視為一種“幻覺”,他們認(rèn)識(shí)到LLM隨著規(guī)模的擴(kuò)大而變得更加有效;事實(shí)上,更大模型的增加復(fù)雜性應(yīng)該使其能夠更好地處理更困難和多樣化的問題。但他們認(rèn)為,這種改進(jìn)看起來是平穩(wěn)和可預(yù)測(cè)的,還是鋸齒狀和尖銳的,取決于選擇的度量標(biāo)準(zhǔn)——甚至是測(cè)試示例的缺乏——而不是模型的內(nèi)部運(yùn)作。
三位數(shù)加法提供了一個(gè)例子。在2022年的BIG-bench研究中,研究人員報(bào)告說,參數(shù)較少的GPT-3和另一個(gè)名為L(zhǎng)AMDA的LLM無法準(zhǔn)確完成加法問題。然而,當(dāng)GPT-3使用130億參數(shù)進(jìn)行訓(xùn)練時(shí),它的能力就像開關(guān)一樣改變了。突然之間,它可以進(jìn)行加法——LAMDA在680億參數(shù)時(shí)也可以。這表明加法能力在某個(gè)閾值時(shí)出現(xiàn)。
但斯坦福的研究人員指出,LLM只是根據(jù)準(zhǔn)確性來判斷:要么它們能完美地做到,要么就做不到。所以即使LLM預(yù)測(cè)了大部分?jǐn)?shù)字正確,它也失敗了。這似乎不對(duì)。如果你計(jì)算100加278,那么376似乎是一個(gè)比-9.34更準(zhǔn)確的答案。
因此,Koyejo和他的合作者使用一種給予部分信用的度量標(biāo)準(zhǔn)來測(cè)試相同的任務(wù)?!拔覀兛梢詥枺核A(yù)測(cè)第一個(gè)數(shù)字有多準(zhǔn)確?然后是第二個(gè)?然后是第三個(gè)?”他說。
Koyejo將這項(xiàng)新工作的想法歸功于他的研究生Rylan Schaeffer,他說他注意到LLM的性能似乎隨著其能力被衡量的方式而改變。與另一位斯坦福研究生Brando Miranda一起,他們選擇了新的度量標(biāo)準(zhǔn),顯示隨著參數(shù)的增加,LLM在加法問題中預(yù)測(cè)的數(shù)字序列越來越正確。這表明加法能力不是涌現(xiàn)的——意味著它經(jīng)歷了一個(gè)突然的、不可預(yù)測(cè)的跳躍——而是漸進(jìn)和可預(yù)測(cè)的。他們發(fā)現(xiàn),用不同的衡量標(biāo)準(zhǔn),涌現(xiàn)就消失了。
但其他科學(xué)家指出,這項(xiàng)工作并沒有完全消除涌現(xiàn)的概念。例如,三位作者的論文沒有解釋如何預(yù)測(cè)何時(shí)度量標(biāo)準(zhǔn),或者哪些度量標(biāo)準(zhǔn)會(huì)顯示出LLM的突然改進(jìn),東北大學(xué)的計(jì)算機(jī)科學(xué)家Tianshi Li說?!八栽谶@個(gè)意義上,這些能力仍然是不可預(yù)測(cè)的,”她說。其他人,如現(xiàn)在在OpenAI的計(jì)算機(jī)科學(xué)家Jason Wei,他編制了一份涌現(xiàn)能力的清單,并是BIG-bench論文的作者之一,認(rèn)為早期關(guān)于涌現(xiàn)的報(bào)告是正確的,因?yàn)閷?duì)于像算術(shù)這樣的能力,正確的答案確實(shí)很重要。
“AI創(chuàng)業(yè)公司Anthropic的研究科學(xué)家Alex Tamkin說:“這里肯定有一個(gè)有趣的對(duì)話?!毙抡撐那擅畹胤纸饬硕嗖襟E任務(wù),以識(shí)別各個(gè)組件的貢獻(xiàn),他說?!暗@并不是全部的故事。我們不能說所有的跳躍都是幻覺。我仍然認(rèn)為文獻(xiàn)表明,即使當(dāng)你有一個(gè)步驟的預(yù)測(cè)或使用連續(xù)的度量標(biāo)準(zhǔn)時(shí),你仍然會(huì)看到不連續(xù)性,當(dāng)你增加模型的大小時(shí),你仍然可以看到它以跳躍的方式變得更好。”
即使今天的LLM中的涌現(xiàn)可以通過不同的測(cè)量工具來解釋,但對(duì)于明天更大、更復(fù)雜的LLM來說,可能不會(huì)是這樣?!爱?dāng)我們將LLM發(fā)展到下一個(gè)水平時(shí),它們不可避免地會(huì)從其他任務(wù)和其他模型中借鑒知識(shí),”萊斯大學(xué)的計(jì)算機(jī)科學(xué)家Xia “Ben” Hu說。
這種對(duì)涌現(xiàn)的不斷發(fā)展的考慮并不僅僅是研究人員需要考慮的一個(gè)抽象問題。對(duì)于Tamkin來說,它直接關(guān)系到持續(xù)努力預(yù)測(cè)LLM將如何行為。“這些技術(shù)如此廣泛,如此適用,”他說?!拔蚁M鐓^(qū)將此作為一個(gè)起點(diǎn),繼續(xù)強(qiáng)調(diào)為這些東西建立預(yù)測(cè)科學(xué)的重要性。我們?nèi)绾尾槐幌乱淮P退@訝?”
本文譯自WIRED,由 BALI 編輯發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )