近日,華為云AI團隊獲得第9屆國際自然語言處理與中文計算會議NLPCC 2020 輕量級預(yù)訓練中文語言模型測評第一名。
NLPCC 由中國計算機學會主辦,是自然語言處理(NLP)和中文計算(CC)領(lǐng)域的頂級國際前沿會議,每年會議都秉承國際化和一流化的嚴格標準來進行自然語言處理任務(wù)的開放評測,推動相關(guān)任務(wù)的研究和發(fā)展。NLPCC 2020吸引了康奈爾大學、倫敦大學、普林斯頓大學等海內(nèi)外近600位自然語言處理領(lǐng)域的專家及學者參加大會,其中400余位專家學者在現(xiàn)場共同見證開放評測任務(wù)第一名的誕生。
當下,預(yù)訓練語言模型已經(jīng)成為NLP的主流方法,在多項NLP任務(wù)上都取得了明顯的效果提升。但是預(yù)訓練語言模型往往比較大,限制了預(yù)訓練語言模型的應(yīng)用場景。因此,如何構(gòu)建輕量級的預(yù)訓練語言模型就成了一個關(guān)鍵問題。
預(yù)訓練語言模型出現(xiàn)以來發(fā)展得非常迅速,目前已經(jīng)演化形成了一個家族
中文輕量級預(yù)訓練語言模型能力評測任務(wù)的目的在于讓參賽團隊減少語言模型大小的同時盡可能保證模型效果。本次比賽包含四個任務(wù),分別是指代消解,關(guān)鍵詞識別兩個句子級別分類任務(wù),實體識別序列標注任務(wù),MRC閱讀理解任務(wù),從不同角度評測模型的語義表達能力。同時,比賽要求模型的參數(shù)量低于bert-base模型的1/9,模型推理速度達到bert-base模型的8倍,這就要求模型運行快,體積小,效果好。
一般來說,可以通過量化、剪枝、蒸餾等方法來壓縮大預(yù)訓練語言模型來獲得輕量級模型。華為云與諾亞方舟實驗室聯(lián)合團隊基于自研的NEZHA中文預(yù)訓練模型通過知識蒸餾得到tiny-NEZHA輕量級模型摘得桂冠。
相比其他模型,華為的模型在結(jié)構(gòu)上找到了一個較好的平衡點,采用TinyBERT兩步蒸餾的方式讓模型更好地學到任務(wù)相關(guān)的知識,蒸餾過程中用語言模型預(yù)測并替換部分token的方式進行數(shù)據(jù)增強可以使小模型擁有更強泛化性。
TinyBERT知識蒸餾的損失函數(shù)中一個重要環(huán)節(jié)是讓中間層去學習隱藏狀態(tài)和attention向量
同時,華為自研的NEZHA預(yù)訓練語言模型采用相對位置編碼替換BERT的參數(shù)化絕對位置編碼,能更直接地建模token間的相對位置關(guān)系,從而提升語言模型的表達能力。
在即將過去的2020年里,華為云AI在人工智能領(lǐng)域的研發(fā)成績斐然,斬獲十二項包含WSDM、WebVision、CCKS篇章級事件抽取技術(shù)評測冠軍、人工智能金煉獎、德國紅點在內(nèi)的國際國內(nèi)榜單冠軍和獎項。華為云AI將繼續(xù)夯實技術(shù)優(yōu)勢,做智能世界的“黑土地”,持續(xù)踐行普惠AI,將AI服務(wù)觸及每一位開發(fā)者、每一個企業(yè),助力各行各業(yè)進入人工智能新時代
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )