在AI垃圾上訓(xùn)練的AI吐出AI垃圾

AI生成的垃圾內(nèi)容充斥網(wǎng)絡(luò),影響模型質(zhì)量,導(dǎo)致性能下降。

隨著由AI撰寫的垃圾網(wǎng)頁泛濫,依賴這些數(shù)據(jù)的模型將受到影響。

AI模型通過從互聯(lián)網(wǎng)上訓(xùn)練大量數(shù)據(jù)來工作。但隨著AI越來越多地用于生成充滿垃圾內(nèi)容的網(wǎng)頁,這一過程正面臨被破壞的危險(xiǎn)。
發(fā)表在《Nature》上的新研究表明,當(dāng)AI在AI生成的數(shù)據(jù)上訓(xùn)練時(shí),模型輸出的質(zhì)量會(huì)逐漸下降。當(dāng)后續(xù)模型產(chǎn)生的輸出被用作未來模型的訓(xùn)練數(shù)據(jù)時(shí),這種影響會(huì)加劇。
牛津大學(xué)的計(jì)算機(jī)科學(xué)家Ilia Shumailov領(lǐng)導(dǎo)了這項(xiàng)研究,他將這個(gè)過程比作拍照片的照片。“如果你拍一張照片,然后掃描它,再打印出來,再重復(fù)這個(gè)過程,基本上噪音會(huì)淹沒整個(gè)過程,”他說?!澳阕罱K只會(huì)得到一個(gè)黑方塊?!睂?duì)于AI來說,這個(gè)等同于黑方塊的現(xiàn)象被稱為“模型崩潰”,這意味著模型只會(huì)生成無意義的垃圾。

這項(xiàng)研究可能對(duì)當(dāng)今最大的AI模型產(chǎn)生嚴(yán)重影響,因?yàn)樗鼈兪褂没ヂ?lián)網(wǎng)作為數(shù)據(jù)庫。例如,GPT-3部分?jǐn)?shù)據(jù)來自Common Crawl,這是一個(gè)包含超過30億個(gè)網(wǎng)頁的在線存儲(chǔ)庫。隨著越來越多的AI生成垃圾網(wǎng)站開始充斥互聯(lián)網(wǎng),這個(gè)問題可能會(huì)變得更糟。

Shumailov說,當(dāng)前的AI模型不會(huì)立即崩潰,但可能會(huì)有實(shí)質(zhì)性的影響:改進(jìn)速度會(huì)減慢,性能可能會(huì)受到影響。

為了確定對(duì)性能的潛在影響,Shumailov和他的同事們?cè)谝唤M來自維基百科的數(shù)據(jù)上微調(diào)了一個(gè)大型語言模型(LLM),然后在其自身輸出上進(jìn)行了九代微調(diào)。團(tuán)隊(duì)通過“困惑度得分”測量了輸出的荒謬程度,困惑度得分衡量AI模型在預(yù)測序列下一個(gè)部分的能力方面的信心;得分越高,模型越不準(zhǔn)確。
在其他模型輸出上訓(xùn)練的模型有更高的困惑度得分。例如,對(duì)于每一代,團(tuán)隊(duì)要求模型在以下輸入后生成下一句:
“1360年之前的一些建筑通常由一個(gè)主石匠和一小隊(duì)流動(dòng)石匠完成,由當(dāng)?shù)亟虆^(qū)工人補(bǔ)充,Poyntz Wright說道。但其他作者否認(rèn)這種模式,認(rèn)為著名建筑師根據(jù)早期的垂直風(fēng)格例子設(shè)計(jì)了教區(qū)教堂塔樓?!?br />在第九代時(shí),模型返回如下輸出:
“建筑學(xué)。除了是世界上一些最大的黑尾野兔、白尾野兔、藍(lán)尾野兔、紅尾野兔、黃尾野兔的棲息地之外?!?/p>

Shumailov用這個(gè)類比來解釋他認(rèn)為發(fā)生的情況:想象你試圖找到學(xué)校里最不可能的學(xué)生名字。你可以遍歷每個(gè)學(xué)生的名字,但這會(huì)花費(fèi)太長時(shí)間。相反,你可以查看1000個(gè)名字中的100個(gè)。你會(huì)得到一個(gè)相當(dāng)不錯(cuò)的估計(jì),但可能不是正確答案。現(xiàn)在,假設(shè)另一個(gè)人基于你的100個(gè)名字做出估計(jì),但只選擇了50個(gè)。這第二個(gè)人的估計(jì)會(huì)更不準(zhǔn)確。

“你可以想象同樣的事情發(fā)生在機(jī)器學(xué)習(xí)模型上,”他說。“所以如果第一個(gè)模型看到了互聯(lián)網(wǎng)的一半,那么第二個(gè)模型可能不會(huì)要求看到互聯(lián)網(wǎng)的一半,而是實(shí)際上抓取最新的10萬個(gè)推文,并在其上訓(xùn)練模型?!?br />此外,互聯(lián)網(wǎng)并不是無限量的數(shù)據(jù)。為了滿足他們對(duì)更多數(shù)據(jù)的需求,未來的AI模型可能需要在合成數(shù)據(jù)上進(jìn)行訓(xùn)練——即由AI生成的數(shù)據(jù)。

麻省理工學(xué)院媒體實(shí)驗(yàn)室的Shayne Longpre研究LLM的訓(xùn)練方法,他沒有參與這項(xiàng)研究。他說:“基礎(chǔ)模型確實(shí)依賴于數(shù)據(jù)的規(guī)模來表現(xiàn)良好?!?“他們正在尋找在受控環(huán)境中使用合成數(shù)據(jù)作為解決方案。因?yàn)槿绻麄兝^續(xù)抓取互聯(lián)網(wǎng)上更多的數(shù)據(jù),回報(bào)將會(huì)遞減?!?/p>

斯坦福大學(xué)的AI研究員Matthias Gerstgrasser撰寫了一篇探討模型崩潰的不同論文,他表示,將合成數(shù)據(jù)添加到真實(shí)世界數(shù)據(jù)中而不是替代它不會(huì)造成任何重大問題。但他補(bǔ)充說:“所有模型崩潰文獻(xiàn)都達(dá)成的一個(gè)結(jié)論是,高質(zhì)量和多樣化的訓(xùn)練數(shù)據(jù)很重要?!?/p>

這種隨時(shí)間推移的退化的另一個(gè)影響是,影響少數(shù)群體的信息在模型中被嚴(yán)重扭曲,因?yàn)樗^度關(guān)注訓(xùn)練數(shù)據(jù)中更普遍的樣本。

麻省理工學(xué)院媒體實(shí)驗(yàn)室研究計(jì)算法的Robert Mahari(他沒有參與這項(xiàng)研究)說,在當(dāng)前模型中,這可能會(huì)影響到需要更多合成(AI生成)數(shù)據(jù)集的非主流語言。

一個(gè)可能有助于避免退化的想法是確保模型更重視原始的人工生成數(shù)據(jù)。Shumailov的研究還允許后代模型從原始數(shù)據(jù)集中抽樣10%,這減輕了一些負(fù)面影響。
這將需要從原始人工生成數(shù)據(jù)到后代模型的數(shù)據(jù)溯源。

但溯源需要某種方式來過濾互聯(lián)網(wǎng)中的人工生成和AI生成內(nèi)容,這一點(diǎn)尚未解決。盡管現(xiàn)在有許多工具旨在確定文本是否由AI生成,但它們通常不準(zhǔn)確。

“遺憾的是,我們有更多的問題而不是答案,”Shumailov說。“但很明顯,知道你的數(shù)據(jù)來源以及你能多大程度上信任它來捕捉你正在處理的數(shù)據(jù)的代表性樣本,這一點(diǎn)很重要?!?/p>

本文譯自 MIT Technology Review,由 BALI 編輯發(fā)布。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2024-07-29
在AI垃圾上訓(xùn)練的AI吐出AI垃圾
AI生成的垃圾內(nèi)容充斥網(wǎng)絡(luò),影響模型質(zhì)量,導(dǎo)致性能下降。隨著由AI撰寫的垃圾網(wǎng)頁泛濫,依賴這些數(shù)據(jù)的模型將受到影響。AI模型通過從互聯(lián)網(wǎng)上訓(xùn)練大量數(shù)據(jù)來工作。

長按掃碼 閱讀全文