亚洲?Ⅴ无码日韩?V无码网站,久久精品无码AV

科學家警告：用AI生成內(nèi)容訓練AI 將在幾代內(nèi)開始產(chǎn)生"垃圾"

436人閱讀

2023-06-20 08:29:48

來源：網(wǎng)易科技
作者：小小
相關(guān)關(guān)鍵詞

6月20日消息，人工智能領(lǐng)域的專家預(yù)測，隨著越來越多的人工智能生成的內(nèi)容在網(wǎng)上發(fā)布，未來接受這些數(shù)據(jù)訓練的人工智能最終將陷入混亂。

一群英國和加拿大的科學家在5月發(fā)表了一篇論文，試圖了解幾代AI相互訓練后會發(fā)生什么。在一個例子中，經(jīng)過九次迭代的人工智能系統(tǒng)會喋喋不休地談?wù)撘巴?，而最初的原始材料是關(guān)于中世紀建筑的。

該研究的作者之一、劍橋大學教授羅斯·安德森(Ross Anderson)在闡述關(guān)于研究結(jié)果的博客文章中寫道，數(shù)據(jù)表明，“經(jīng)過幾次迭代后，人工智能輸出的文字就變成了垃圾，圖像也會變得無法理解”。這些科學家們的論文尚未經(jīng)過同行評審，他們稱這種現(xiàn)象為“模型崩潰”。

聊天機器人ChatGPT背后的大語言模型(LLM)通常需要從互聯(lián)網(wǎng)上抓取大量數(shù)據(jù)進行訓練，這些數(shù)據(jù)多為人類生成。但隨著人們對這些工具的使用越來越多，人工智能生成的內(nèi)容正被大量添加到在線數(shù)據(jù)池中，未來的LLM將從中學習。

科學家們說，利用人工智能生成內(nèi)容對人工智能系統(tǒng)進行迭代訓練，意味著錯誤和無意義的例子會不斷增加，使后來的人工智能無法區(qū)分事實和虛構(gòu)內(nèi)容。他們擔憂道，人工智能將“通過強化自己的信念，開始曲解他們認為是真實的東西”。

安德森用莫扎特（Mozart）和另一位音樂家安東尼奧·薩列里（Antonio Salieri）的作品來闡釋這個問題。

他寫道：“如果你用莫扎特的作品來訓練某個音樂模型，你可以期待輸出的音樂風格有點像莫扎特，但不會有太多亮點，我們可以稱之為‘薩列里’。然后再利用‘薩列里’訓練下一代人工智能系統(tǒng)，如此反復(fù)下去，第五代或第六代模型會是什么樣子?”

這項研究的第一作者、牛津大學教授伊利亞·舒馬伊洛夫（Ilia Shumailov）說，問題在于人工智能在接受早期人工智能生成內(nèi)容的訓練后對概率的感知。不太可能發(fā)生的事件越來越不可能反映在它的輸出中，從而縮小了下一代人工智能（根據(jù)這種輸出進行訓練）所能理解的可能性。

在論文中給出的一個例子中，人類生成的關(guān)于中世紀建筑的文本通過人工智能語言模型輸入，然后該模型的輸出用于訓練下一代人工智能。最初的文本巧妙地處理了相互競爭的建筑理論，并經(jīng)過了多次這樣的循環(huán)。

到了第九次迭代，這些文字就變成了毫無意義的胡言亂語。上面寫著：“建筑是世界上最大的黑長耳大野兔、白長耳大野兔、藍長耳大野兔、紅長耳大野兔、黃長耳大野兔的家園。 ”

安德森將“模型崩潰”比作大規(guī)模污染，他寫道：“就像我們在海洋里撒滿了塑料垃圾，在大氣中放滿了二氧化碳，我們即將讓互聯(lián)網(wǎng)上充滿胡言亂語。”

人工智能生成的內(nèi)容已經(jīng)在網(wǎng)上大規(guī)模出現(xiàn)。今年5月，在線虛假信息監(jiān)管機構(gòu)NewsGuard警告稱，它發(fā)現(xiàn)49個新聞網(wǎng)站似乎完全由人工智能撰寫內(nèi)容。

據(jù)報道，市場營銷和公關(guān)機構(gòu)越來越多地將文案外包給聊天機器人，從而搶走了人類創(chuàng)作者的工作。但是，根據(jù)舒馬伊洛夫和安德森的發(fā)現(xiàn)，希望不被人工智能打敗的人類創(chuàng)作者還不應(yīng)該開香檳慶祝。

舒馬伊洛夫說，對于訓練人工智能來說，人工生成的數(shù)據(jù)并不是絕對必要的，它之所以有用，是因為我們的語言產(chǎn)生了大量的自然變化、錯誤和不可預(yù)測的結(jié)果。

“所以，人類肯定會提供幫助，”他說。“與此同時，這也表明，在訓練人工智能時，人類數(shù)據(jù)的需求不會非常龐大。”（小?。?/p>

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）