原標題:人工智能和機器學習中數據集的3大問題
數據集為人工智能模型提供燃料,就像汽油(或電力,視情況而定)為汽車提供燃料。無論它們的任務是生成文本、識別物體,還是預測公司的股票價格,人工智能系統(tǒng)都是通過篩選無數的例子來 "學習",以辨別數據中的模式。例如,計算機視覺系統(tǒng)可以被訓練成通過觀察某些類型的服裝(如大衣和圍巾)的不同圖像來識別該服裝。
除了開發(fā)模型,數據集還被用來測試訓練有素的人工智能系統(tǒng),以確保它們保持穩(wěn)定--并衡量該領域的整體進展。在某些開源基準上名列前茅的模型被認為是該特定任務的技術水平(SOTA)。事實上,這是研究人員確定一個模型的預測強度的主要方式之一。
但這些人工智能和機器學習數據集--就像設計它們的人類一樣--并不是沒有缺陷的。研究表明,偏見和錯誤給許多用于訓練、基準和測試模型的圖書館蒙上了陰影,突出了對未經徹底審查的數據給予過多信任的危險性--即使這些數據來自于知名機構。
1. 訓練的困境
在人工智能領域,基準測試需要比較為同一任務設計的多個模型的性能,比如在語言之間翻譯單詞。在理論上,這種做法--起源于探索人工智能早期應用的學者--具有將科學家圍繞共同問題組織起來的優(yōu)勢,同時有助于揭示已經取得了多少進展。
但是,在數據集選擇方面變得也有風險。例如,如果相同的訓練數據集被用于多種任務,那么數據集就不可能準確反映模型在現(xiàn)實世界中看到的數據。錯誤的數據集會扭曲對科學進步的衡量,導致研究人員認為他們做得比實際要好--并對現(xiàn)實世界中的人們造成傷害。
加州大學洛杉磯分校的研究人員和谷歌在最近發(fā)表的一項題為 "減少、重復使用和回收 "的研究中調查了這個問題。機器學習研究中數據集的壽命"。他們發(fā)現(xiàn),在機器學習中存在 "大量借用 "數據集的情況--例如,從事一項任務的社區(qū)可能會借用為另一項任務創(chuàng)建的數據集--這引起了對錯位的擔憂。他們還表明,只有十幾所大學和公司負責創(chuàng)建機器學習中50%以上時間使用的數據集,表明這些機構正在有效地塑造該領域的研究議程。
"追逐SOTA是不好的做法,因為有太多的混雜變量,SOTA通常并不意味著什么,而科學的目標應該是積累知識,而不是特定玩具基準的結果,"谷歌大腦團隊的前駐場人員丹尼-布里茨在之前的采訪中告訴媒體。"已經有了一些改進的舉措,但是尋找SOTA是審查和評估論文的一種快速而簡單的方法。像這樣的事情已經嵌入到文化中,需要時間來改變"。
對于他們的觀點,ImageNet和Open Images--來自斯坦福和谷歌的兩個公開可用的圖像數據集--在很大程度上是以美國和歐洲為中心的。在這些數據集上訓練的計算機視覺模型在來自第三世界國家的圖像上表現(xiàn)更差。例如,與來自美國的新郎相比,這些模型對來自埃塞俄比亞和巴基斯坦的新郎的分類準確率較低,而且當這些圖像來自第三世界方時,它們不能正確識別諸如 "婚禮 "或 "調味品 "這樣的物體。
甚至南北半球太陽路徑的差異和背景景物的變化也會影響模型的準確性,相機型號的不同規(guī)格如分辨率和長寬比也會影響模型的準確性。天氣條件是另一個因素--如果一個無人駕駛汽車系統(tǒng)只在陽光明媚的熱帶環(huán)境的數據集上進行訓練,那么它在遇到雨雪天氣時的表現(xiàn)就會很差。
麻省理工學院的一項最新研究顯示,包括ImageNet在內的計算機視覺數據集包含有問題的 "無意義 "信號。在這些數據集上訓練的模型受到 "過度解釋 "的影響,這種現(xiàn)象是它們以高置信度對缺乏細節(jié)的圖像進行分類,以至于它們對人類來說毫無意義。這些信號在現(xiàn)實世界中會導致模型的脆弱性,但它們在數據集中是有效的--這意味著過度解釋無法用典型的方法來識別。
"麻省理工學院博士生、該研究的主要作者布蘭登-卡特(Brandon Carter)在一份聲明中說:"有一個問題是,我們如何能夠以一種方式修改數據集,使模型能夠被訓練成更接近于模仿人類對圖像分類的思考方式,因此,希望在這些現(xiàn)實世界的場景中,如自動駕駛和醫(yī)療診斷,能夠更好地進行概括,以便模型不會有這種無意義的行為。
歷史上充滿了部署使用有缺陷的數據集訓練的模型的后果的例子,比如虛擬背景和照片剪裁工具,這些工具不喜歡皮膚較黑的人。2015年,一名軟件工程師指出,谷歌照片中的圖像識別算法將他的黑人朋友標記為 "大猩猩"。非營利組織AlgorithmWatch顯示,谷歌的云端視覺API曾一度將黑人持有的溫度計標記為 "槍",而將淺膚色人持有的溫度計標記為 "電子設備"。
模糊的數據集還導致了使性別歧視的招聘和雇用、年齡歧視的廣告定位、錯誤的評分以及種族主義的累犯和貸款審批長期存在的模式。這個問題延伸到醫(yī)療保健領域,其中包含醫(yī)療記錄和圖像的訓練數據集大多來自北美、歐洲和中國的患者--這意味著模型不太可能對代表性不足的群體產生良好的效果。這種不平衡在入店行竊者和武器識別的計算機視覺模型、工作場所安全監(jiān)控軟件、槍聲檢測系統(tǒng)和 "美化 "過濾器中很明顯,它們放大了訓練數據中存在的偏見。
專家們將面部識別、語言和語音識別系統(tǒng)中的許多錯誤也歸因于用于訓練模型的數據集的缺陷。例如,馬里蘭大學的研究人員發(fā)現(xiàn),亞馬遜、微軟和谷歌的面部識別服務更有可能在年齡較大、皮膚較黑的人和那些不太 "女性化 "的人身上失敗。根據算法正義聯(lián)盟的聲音消除項目,蘋果、亞馬遜、谷歌、IBM和微軟的語音識別系統(tǒng)對黑人聲音的單詞錯誤率合計達到35%,而對白人聲音的錯誤率為19%。而且,語言模型已被證明表現(xiàn)出對種族、民族、宗教和性別的偏見,將黑人與更多的負面情緒聯(lián)系在一起,并與 "與黑人結盟的英語 "作斗爭。
"加州大學洛杉磯分校的Bernard Koch和Jacob G. Foster以及谷歌的Emily Denton和Alex Hanna是 "減少、再利用和回收 "一書的共同作者,他們通過電子郵件告訴媒體,"數據[在某些情況下]是從網絡上的許多不同地方刮來的,而這些網絡數據反映了與霸權主義意識形態(tài)(例如白人和男性主導地位)相同的社會層面的偏見和偏差。"更大的......模型需要更多的訓練數據,而且一直在努力清理這些數據,防止模型放大這些有問題的想法。"
2. 標簽的問題
標簽是許多模型學習數據關系的注釋,它也帶有數據不平衡的特征。人類對訓練和基準數據集中的例子進行注釋,在狗的圖片上添加 "狗 "這樣的標簽,或者描述風景圖片中的特征。但是注釋者會帶來他們自己的偏見和缺點,這可能會轉化為不完美的注釋。
例如,研究表明,一般的注釋者更有可能將非裔美國人方言英語(AAVE),即一些美國黑人使用的非正式語法、詞匯和口音的短語標記為有毒。在另一個例子中,麻省理工學院和紐約大學的8000萬張微小圖片數據集--該數據集于2020年下線--的一些標注者貢獻了種族主義、性別歧視和其他攻擊性的注釋,包括近2000張標注有N字的圖片以及 "強奸嫌疑人 "和 "兒童騷擾者 "等標簽。
2019年,《連線》報道了亞馬遜Mechanical Turk等平臺--許多研究人員在這里招募注釋者--對自動機器人的易感性。即使工人是可核實的人類,他們的動機是報酬而不是興趣,這可能會導致低質量的數據--特別是當他們受到惡劣的待遇和低于市場價格的報酬。包括Niloufar Salehi在內的研究人員已經嘗試通過Dynamo這樣的開放性工人集體來解決亞馬遜Mechanical Turk的缺陷,但他們能做的只有這么多。
作為人類,注釋者也會犯錯誤--有時是重大錯誤。在麻省理工學院對包括ImageNet在內的流行基準的分析中,研究人員發(fā)現(xiàn)了錯誤的圖像標簽(如一個品種的狗被混淆為另一個品種),文本情感(如亞馬遜產品評論被描述為負面,而實際上是正面),以及YouTube視頻的音頻(如Ariana Grande的高音被歸為口哨)。
一個解決方案是推動建立更具包容性的數據集,如MLCommons的人民語音數據集和多語種口語語料庫。但是策劃這些數據集既費時又費錢,其價格往往高達數百萬美元。Mozilla努力建立一個開源的轉錄語音數據集,自2017年推出以來,只審核了幾十種語言--說明了這一挑戰(zhàn)。
創(chuàng)建一個數據集如此昂貴的原因之一是高質量注釋所需的領域專業(yè)知識。正如Synced在最近的一篇文章中指出的那樣,大多數低成本的標簽器只能注釋相對 "低語境 "的數據,不能處理 "高語境 "的數據,如法律合同分類、醫(yī)學圖像或科學文獻。事實表明,司機往往比沒有駕照的人更有效地標注自駕游數據集,醫(yī)生、病理學家和放射科醫(yī)生在準確標注醫(yī)療圖像方面表現(xiàn)更好。
機器輔助工具可以在一定程度上幫助消除標簽過程中的一些重復性工作。其他方法,如半監(jiān)督學習,有望減少訓練模型所需的數據量,使研究人員能夠在為特定任務設計的小型定制數據集上 "微調 "模型。例如,在本周發(fā)表的一篇博文中,OpenAI說,它設法對GPT-3進行了微調,通過復制人類在網上研究問題的答案(例如,提交搜索查詢、跟蹤鏈接和上下滾動頁面)來更準確地回答開放式問題,并引用其來源,允許用戶提供反饋以進一步提高準確性。
還有一些方法旨在用部分或完全的合成數據取代真實世界的數據--盡管在合成數據上訓練的模型是否能與真實世界的數據對應的準確性相媲美,目前還沒有定論。麻省理工學院和其他地方的研究人員已經試驗過在視覺數據集中單獨使用隨機噪聲來訓練物體識別模型。
從理論上講,無監(jiān)督學習可以一勞永逸地解決訓練數據的難題。在無監(jiān)督學習中,一個算法被置于 "未知 "數據中,這些數據不存在先前定義的類別或標簽。但是,雖然無監(jiān)督學習在缺乏標簽數據的領域表現(xiàn)出色,但這并不是一個弱點。例如,無監(jiān)督的計算機視覺系統(tǒng)可以在未標記的訓練數據中發(fā)現(xiàn)種族和性別的定型觀念。
3. 一個基準問題
人工智能數據集的問題并不停留在訓練上。在維也納人工智能和決策支持研究所的一項研究中,研究人員發(fā)現(xiàn)3800多篇人工智能研究論文的基準不一致--在許多情況下,可歸因于沒有強調信息指標的基準。Facebook和倫敦大學學院的另一篇論文顯示,在 "開放領域 "基準上測試的自然語言模型給出的60%到70%的答案隱藏在訓練集的某個地方,這意味著模型只是記住了這些答案。
在紐約大學AI Now研究所的技術研究員Deborah Raji共同撰寫的兩項研究中,研究人員發(fā)現(xiàn)像ImageNet這樣的基準經常被 "錯誤地抬高",以證明超出其最初設計的任務的說法。據Raji和其他合著者稱,這還不包括 "數據集文化 "會扭曲機器學習研究的科學性--缺乏對數據主體的關懷文化,造成惡劣的勞動條件(比如注釋者的低工資),同時對那些數據被有意或無意地卷進數據集的人沒有充分保護。
一些針對特定領域的基準問題的解決方案已經被提出,包括艾倫研究所的GENIE。與眾不同的是,GENIE同時包含了自動和手動測試,讓人類評估人員根據預定義的、針對數據集的流暢性、正確性和簡潔性的準則來探測語言模型。雖然GENIE價格昂貴--提交一個模型進行基準測試的費用約為100美元--但艾倫研究所計劃探索其他支付模式,例如要求科技公司支付費用,同時為小型組織提供費用補貼。
在人工智能研究界也有越來越多的共識,即如果基準要發(fā)揮作用,特別是在語言領域,必須考慮到更廣泛的道德、技術和社會挑戰(zhàn)。一些語言模型有很大的碳足跡,但盡管對這個問題有廣泛的認識,相對來說,很少有研究人員試圖估計或報告他們系統(tǒng)的環(huán)境成本。
"Koch、Foster、Denton和Hanna說:"只關注最先進的性能,并不強調其他重要的標準,這些標準能體現(xiàn)出重大的貢獻。"[例如,]SOTA基準測試鼓勵創(chuàng)建對環(huán)境不友好的算法。建立更大的模型是提高機器學習性能的關鍵,但從長遠來看,它在環(huán)境上也是不可持續(xù)的......SOTA基準測試[也]不鼓勵科學家對他們的任務在現(xiàn)實世界中提出的具體挑戰(zhàn)有細微的理解,反而會鼓勵對提高分數的隧道視野。實現(xiàn)SOTA的要求限制了新的算法或能夠解決現(xiàn)實世界問題的算法的創(chuàng)造。"
可能的AI數據集解決方案
鑒于人工智能數據集的廣泛挑戰(zhàn),從不平衡的訓練數據到不充分的基準,實現(xiàn)有意義的改變并不容易。但專家們認為,情況并非毫無希望。
普林斯頓大學計算機科學家Arvind Narayanan寫了幾篇調查人工智能數據集出處的文章,他說,研究人員必須采取負責任的方法,不僅要收集和注釋數據,還要記錄他們的數據集,維護它們,并制定數據集設計的問題。在他最近與人合著的一項研究中,Narayanan發(fā)現(xiàn)許多數據集容易出現(xiàn)管理不善的情況,創(chuàng)建者未能在許可證語言中準確說明如何使用他們的數據集或禁止?jié)撛诘目梢捎猛尽?/p>
"他通過電子郵件告訴媒體:"研究人員應該考慮他們的數據集的不同使用方式......負責任的數據集'管理',正如我們所說,需要解決更廣泛的風險。他通過電子郵件告訴媒體:"一個風險是,即使一個數據集是為了一個看似良性的目的而創(chuàng)建的,它也可能在無意中被用于可能造成傷害的方式。數據集可能被重新利用,用于道德上可疑的研究應用?;蛘?,數據集可能被用來訓練或衡量一個商業(yè)模型,而它并不是為這些高風險環(huán)境設計的。數據集的創(chuàng)建通常需要大量的工作,因此研究人員和從業(yè)人員通常希望利用已有的數據。負責任的數據集管理的目標是確保這樣做是符合道德的"。
科赫和共同作者認為,人們--和組織--需要得到獎勵和支持,以便為手頭的任務創(chuàng)造新的、多樣化的數據集。他們說,需要激勵研究人員在像NeurIPS這樣的學術會議上使用 "更合適的 "數據集,并鼓勵他們進行更多的定性分析--比如他們模型的可解釋性--以及報告公平性(盡可能)和功率效率等指標。
NeurIPS--世界上最大的機器學習會議之一--規(guī)定提交論文的合作者必須說明他們的工作對社會的 "潛在廣泛影響",從去年的NeurIPS 2020開始?;厣那闆r有好有壞,但科赫和合作者認為,這是向正確方向邁出的一小步。
"機器學習研究人員正在創(chuàng)造大量的數據集,但它們并沒有得到使用。他們說:"這里的一個問題是,許多研究人員可能覺得他們需要包括廣泛使用的基準,以使他們的論文具有可信度,而不是一個更小眾但技術上合適的基準。"此外,專業(yè)的激勵措施需要向創(chuàng)建這些數據集的方向看齊......我們認為研究界仍有一部分人對道德改革持懷疑態(tài)度,解決科學問題可能是讓這些人支持機器學習評估改革的不同方式。"
數據集注釋問題沒有簡單的解決方案--假設標簽最終不會被替代物所取代。但谷歌最近的一篇論文表明,研究人員最好與注釋者建立 "擴展的溝通框架",如聊天應用程序,以提供更有意義的反饋和更清晰的指示。同時,他們必須努力承認(并實際考慮)工人的社會文化背景,共同作者寫道--無論是從數據質量還是社會影響的角度。
該論文更進一步,為數據集任務的制定和選擇注釋者、平臺和標簽基礎設施提供建議。共同作者說,除了審查數據集的預期使用情況外,研究人員應該考慮可以通過注釋納入的專業(yè)知識形式。他們還說,他們應該比較和對比不同平臺的最低工資要求,并分析不同群體的注釋者之間的分歧,讓他們--希望--更好地了解不同的觀點是如何被代表或不被代表的。
"如果我們真的想使使用中的基準多樣化,政府和企業(yè)的參與者需要為數據集的創(chuàng)建創(chuàng)建撥款,并將這些撥款分配給資源不足的機構和來自代表不足的背景的研究人員,"科赫和共同作者說。"我們想說的是,現(xiàn)在有大量的研究表明,機器學習中的數據濫用會產生倫理問題和社會危害......科學家們喜歡數據,所以我們認為,如果我們能向他們展示過度使用對科學來說并不是好事,這可能會刺激進一步的改革,也能減輕社會危害。"
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領先技術與深度整合是關鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。