粉嫩小泬无遮挡久久久久久,越做高潮越喷奶水视频

斯坦福大學(xué)的研究指出，大型語言模型(LLM)的能力突增并非不可預(yù)測(cè)，而是我們衡量AI能力方式的結(jié)果。

兩年前，一個(gè)名為超越模仿游戲基準(zhǔn)(BIG-bench)的項(xiàng)目中，450名研究人員編制了一個(gè)包含204個(gè)任務(wù)的列表，旨在測(cè)試大型語言模型的能力，這些模型是像ChatGPT這樣的聊天機(jī)器人的動(dòng)力來源。在大多數(shù)任務(wù)中，隨著模型規(guī)模的擴(kuò)大，性能的提高是可以預(yù)測(cè)和平穩(wěn)的——模型越大，性能越好。但是，對(duì)于其他任務(wù)，能力的跳躍并不平穩(wěn)。性能在一段時(shí)間內(nèi)接近零，然后突然跳躍。其他研究也發(fā)現(xiàn)了類似的能力飛躍。

作者將此描述為“突破性”行為；其他研究人員將其比作物理學(xué)中的相變，就像液態(tài)水凍結(jié)成冰一樣。在2022年8月發(fā)表的一篇論文中，研究人員指出，這些行為不僅是令人驚訝的，而且是不可預(yù)測(cè)的，它們應(yīng)該影響圍繞AI安全、潛力和風(fēng)險(xiǎn)的不斷發(fā)展的討論。他們稱這些能力為“涌現(xiàn)”，這個(gè)詞描述了只有當(dāng)系統(tǒng)達(dá)到高水平復(fù)雜性時(shí)才會(huì)出現(xiàn)的集體行為。

但情況可能并不那么簡(jiǎn)單。斯坦福大學(xué)的三位研究人員在一篇新論文中提出，這些能力的突然出現(xiàn)只是研究人員衡量LLM性能方式的結(jié)果。他們認(rèn)為，這些能力既不不可預(yù)測(cè)，也不突然。“這種轉(zhuǎn)變比人們認(rèn)為的要可預(yù)測(cè)得多，”斯坦福大學(xué)的計(jì)算機(jī)科學(xué)家兼論文的高級(jí)作者Sanmi Koyejo說?！皬?qiáng)烈的涌現(xiàn)主張與我們選擇的衡量方式有關(guān)，而不僅僅是模型本身在做什么。”

我們之所以現(xiàn)在才開始看到并研究這種行為，是因?yàn)檫@些模型變得如此之大。大型語言模型通過分析大量的文本數(shù)據(jù)集進(jìn)行訓(xùn)練——來自包括書籍、網(wǎng)絡(luò)搜索和維基百科在內(nèi)的在線來源的單詞——并找到經(jīng)常出現(xiàn)在一起的單詞之間的聯(lián)系。模型的大小是以參數(shù)來衡量的，大致相當(dāng)于單詞可以連接的所有方式。參數(shù)越多，LLM可以找到的連接就越多。GPT-2有15億個(gè)參數(shù)，而GPT-3.5，即驅(qū)動(dòng)ChatGPT的LLM，使用了3500億個(gè)參數(shù)。2023年3月首次亮相并現(xiàn)在支持微軟Copilot的GPT-4，據(jù)報(bào)道使用了1.75萬億個(gè)參數(shù)。

這種快速增長(zhǎng)帶來了性能和效能的驚人提升，沒有人質(zhì)疑足夠大的LLM可以完成較小模型無法完成的任務(wù)，包括它們未經(jīng)過訓(xùn)練的任務(wù)。斯坦福的三人組將涌現(xiàn)視為一種“幻覺”，他們認(rèn)識(shí)到LLM隨著規(guī)模的擴(kuò)大而變得更加有效；事實(shí)上，更大模型的增加復(fù)雜性應(yīng)該使其能夠更好地處理更困難和多樣化的問題。但他們認(rèn)為，這種改進(jìn)看起來是平穩(wěn)和可預(yù)測(cè)的，還是鋸齒狀和尖銳的，取決于選擇的度量標(biāo)準(zhǔn)——甚至是測(cè)試示例的缺乏——而不是模型的內(nèi)部運(yùn)作。

三位數(shù)加法提供了一個(gè)例子。在2022年的BIG-bench研究中，研究人員報(bào)告說，參數(shù)較少的GPT-3和另一個(gè)名為L(zhǎng)AMDA的LLM無法準(zhǔn)確完成加法問題。然而，當(dāng)GPT-3使用130億參數(shù)進(jìn)行訓(xùn)練時(shí)，它的能力就像開關(guān)一樣改變了。突然之間，它可以進(jìn)行加法——LAMDA在680億參數(shù)時(shí)也可以。這表明加法能力在某個(gè)閾值時(shí)出現(xiàn)。

但斯坦福的研究人員指出，LLM只是根據(jù)準(zhǔn)確性來判斷：要么它們能完美地做到，要么就做不到。所以即使LLM預(yù)測(cè)了大部分?jǐn)?shù)字正確，它也失敗了。這似乎不對(duì)。如果你計(jì)算100加278，那么376似乎是一個(gè)比-9.34更準(zhǔn)確的答案。

因此，Koyejo和他的合作者使用一種給予部分信用的度量標(biāo)準(zhǔn)來測(cè)試相同的任務(wù)?！拔覀兛梢詥枺核A(yù)測(cè)第一個(gè)數(shù)字有多準(zhǔn)確？然后是第二個(gè)？然后是第三個(gè)？”他說。

Koyejo將這項(xiàng)新工作的想法歸功于他的研究生Rylan Schaeffer，他說他注意到LLM的性能似乎隨著其能力被衡量的方式而改變。與另一位斯坦福研究生Brando Miranda一起，他們選擇了新的度量標(biāo)準(zhǔn)，顯示隨著參數(shù)的增加，LLM在加法問題中預(yù)測(cè)的數(shù)字序列越來越正確。這表明加法能力不是涌現(xiàn)的——意味著它經(jīng)歷了一個(gè)突然的、不可預(yù)測(cè)的跳躍——而是漸進(jìn)和可預(yù)測(cè)的。他們發(fā)現(xiàn)，用不同的衡量標(biāo)準(zhǔn)，涌現(xiàn)就消失了。

但其他科學(xué)家指出，這項(xiàng)工作并沒有完全消除涌現(xiàn)的概念。例如，三位作者的論文沒有解釋如何預(yù)測(cè)何時(shí)度量標(biāo)準(zhǔn)，或者哪些度量標(biāo)準(zhǔn)會(huì)顯示出LLM的突然改進(jìn)，東北大學(xué)的計(jì)算機(jī)科學(xué)家Tianshi Li說?！八栽谶@個(gè)意義上，這些能力仍然是不可預(yù)測(cè)的，”她說。其他人，如現(xiàn)在在OpenAI的計(jì)算機(jī)科學(xué)家Jason Wei，他編制了一份涌現(xiàn)能力的清單，并是BIG-bench論文的作者之一，認(rèn)為早期關(guān)于涌現(xiàn)的報(bào)告是正確的，因?yàn)閷?duì)于像算術(shù)這樣的能力，正確的答案確實(shí)很重要。

“AI創(chuàng)業(yè)公司Anthropic的研究科學(xué)家Alex Tamkin說：“這里肯定有一個(gè)有趣的對(duì)話?！毙抡撐那擅畹胤纸饬硕嗖襟E任務(wù)，以識(shí)別各個(gè)組件的貢獻(xiàn)，他說?！暗@并不是全部的故事。我們不能說所有的跳躍都是幻覺。我仍然認(rèn)為文獻(xiàn)表明，即使當(dāng)你有一個(gè)步驟的預(yù)測(cè)或使用連續(xù)的度量標(biāo)準(zhǔn)時(shí)，你仍然會(huì)看到不連續(xù)性，當(dāng)你增加模型的大小時(shí)，你仍然可以看到它以跳躍的方式變得更好。”

即使今天的LLM中的涌現(xiàn)可以通過不同的測(cè)量工具來解釋，但對(duì)于明天更大、更復(fù)雜的LLM來說，可能不會(huì)是這樣?！爱?dāng)我們將LLM發(fā)展到下一個(gè)水平時(shí)，它們不可避免地會(huì)從其他任務(wù)和其他模型中借鑒知識(shí)，”萊斯大學(xué)的計(jì)算機(jī)科學(xué)家Xia “Ben” Hu說。

這種對(duì)涌現(xiàn)的不斷發(fā)展的考慮并不僅僅是研究人員需要考慮的一個(gè)抽象問題。對(duì)于Tamkin來說，它直接關(guān)系到持續(xù)努力預(yù)測(cè)LLM將如何行為。“這些技術(shù)如此廣泛，如此適用，”他說?！拔蚁Ｍ鐓^(qū)將此作為一個(gè)起點(diǎn)，繼續(xù)強(qiáng)調(diào)為這些東西建立預(yù)測(cè)科學(xué)的重要性。我們?nèi)绾尾槐幌乱淮Ｐ退@訝？”

本文譯自WIRED，由 BALI 編輯發(fā)布。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）