近日,一篇由國內(nèi)外多位AI專家學者參與署名的論文,在國內(nèi)人工智能(AI)學術(shù)圈里引起了不小的震動。
這篇在今年3月26日發(fā)表于預(yù)印本網(wǎng)站 arXiv的關(guān)于“大模型”的綜述報告《大模型路線圖》(A Roadmap for Big Model),是由北京智源人工智能研究院(以下簡稱“智源研究院”,或“研究院”)發(fā)起的,旨在盡可能涵蓋國內(nèi)外該領(lǐng)域的所有重要文獻。
據(jù)了解,該報告由多達16篇獨立稿件組成,每篇文章都分別邀請了一組作者撰寫并單獨署名,有國內(nèi)外多家高校和企業(yè)參與了該報告的完成,報告全文長達200多頁,涉及來自清華大學、北京大學、中國人民大學、上海交通大學、哈爾濱工業(yè)大學、哥倫比亞大學、蒙特利爾大學等國內(nèi)外高校,以及字節(jié)跳動、華為、京東、騰訊等企業(yè)以及中科院、微軟亞洲研究院和北京智源AI研究院等機構(gòu)的100多名作者。
而谷歌大腦(Google Brain)團隊著名科學家Nicholas Carlini 在其近日的一篇博客中指出,該文章涉嫌抄襲。
Nicholas Carlini舉出的證據(jù)是“大規(guī)模文本重疊”,并在文章中詳細列舉了該團隊論文存在抄襲其他論文的出處,其中也包括他本人更早發(fā)布的《去重訓練數(shù)據(jù)使語言模型更好》(Deduplicating Training Data Makes Language Models Better)。
4月13日晚,該報告的組織方——智源研究院連夜發(fā)表了《關(guān)于“A Roadmap for Big Model”綜述報告問題的致歉信》。在道歉信中,智源研究院首先明確表示,已對報告進行了逐項核查,經(jīng)查重確認,共16篇文章中的5篇文章章節(jié),共759詞的內(nèi)容,與其他論文重復(fù),應(yīng)屬抄襲。智源研究院表示,已從報告中刪除相應(yīng)內(nèi)容,報告修訂版在13日當天,將提交arXiv進行更新。目前,研究院已通知所有文章的作者對所有內(nèi)容進行全面審查,后續(xù)經(jīng)嚴格審核后再發(fā)布新版本。
該事件在國內(nèi)AI學術(shù)社群中,也引發(fā)了不同的反響。
事件爆出后,盡管有很多網(wǎng)友在第一時間發(fā)起群嘲,但也有一些網(wǎng)友從客觀角度對事件進行了分析。首先,有來自AI學術(shù)圈的網(wǎng)友表示,此次事件雖然屬于“抄襲”,但也并不是很多圈外人所想象的那種“抄襲”。
從性質(zhì)上看,“大模型”一文屬于綜述報告,和一般意義上的科研論文相比,“綜述”是一種“總結(jié)”,資料來自文獻;而“科研論文”的數(shù)據(jù)是由研究者通過科研設(shè)計,自己收集而來。因此,綜述論文與科研論文無論從性質(zhì)上還是構(gòu)成上,都不可同日而語。另外,本次被指抄襲的報告由多達16篇文章構(gòu)成,且由不同組織機構(gòu)分別獨立撰寫,因此為什么會出現(xiàn)所謂“抄襲”的原因,還需要進一步調(diào)查。
還有網(wǎng)友表示,《大模型路線圖》的內(nèi)容涉及從“大模型”構(gòu)建前提條件開始,到“大模型”應(yīng)用結(jié)束的全流程研究工作,為大模型發(fā)展的歷史和應(yīng)用流程梳理出了清晰的脈絡(luò),本來可以幫助讀者更好理解“大模型”的發(fā)展歷史和研究現(xiàn)狀,對于大模型領(lǐng)域的未來發(fā)展也能起到指引性的作用,原本應(yīng)當是一篇極具價值的研究綜述,但目前由于抄襲事件,該文章的重要性恐怕要大打折扣,這對于國內(nèi)外大模型研究,乃至人工智能學術(shù)研究來說,都不失為一件憾事。
有網(wǎng)友表示,該報告是由“百名作者、16篇文章”組成的綜述報告,是對大量原始文獻的歸納、總結(jié)、分析,再添加作者觀點而形成,但過多的作者和機構(gòu)參與,龐大的創(chuàng)作團隊規(guī)模顯然容易出現(xiàn)各種“難以預(yù)料的問題”。
最初發(fā)起指控的Nicholas Carlini本人近日也更新評論發(fā)出呼吁,“不要把這變成一場獵巫行動?!?Carlini在評論中表示,“這篇論文有100位作者,任何事情都有可能發(fā)生。” “跨度這么大的涉嫌抄襲行為,絕對不止涉及個別作者。一小部分作者的不當行為,不應(yīng)該被用來指責大多數(shù)行為良好的作者。”
還有一些網(wǎng)友則直接認為,該文章的署名作者“都有責任”。網(wǎng)友表示,原則上來說,一篇文章的所有署名人員必須:對研究工作的思路或設(shè)計有重要貢獻,或者為研究獲取、分析或解釋數(shù)據(jù);起草研究論文或者在重要的智力性內(nèi)容上對論文進行修改;對將要發(fā)表的版本作最終定稿;同意對研究工作的各個方面承擔責任以確保與論文任何部分的準確性或誠信有關(guān)的問題得到恰當?shù)恼{(diào)查和解決。換句話說,其所有署名的作者都負有責任。
另外,還有部分媒體,對該事件可能對未來國內(nèi)AI研究前景產(chǎn)生的負面影響表示擔心。有媒體撰文表示,該篇論文之所以得到關(guān)注,正是因為作者署名多達100人,且其中不乏國內(nèi)AI業(yè)界和學界的知名學者,供職機構(gòu)更是把中國知名高校和互聯(lián)網(wǎng)巨頭幾乎一網(wǎng)打盡。此次事件,或許會給中國 AI 學術(shù)研究熱潮造成一定打擊。
不過,也有一些網(wǎng)友指出,作為世界上最大的預(yù)印本網(wǎng)站,arXiv上發(fā)表的論文有“占坑”性質(zhì),誰的論文在arXiv 掛的早,誰就擁有了這個論文的權(quán)力,因此為了搶先占住idea,有些論文的正規(guī)性欠缺打磨和推敲,此次“論文抄襲事件”,在某種程度上也反映出一些AI學術(shù)研究機構(gòu)本不應(yīng)有的急躁情緒,應(yīng)引以為戒。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )