近日,平安科技聯(lián)邦學(xué)習(xí)技術(shù)團隊的論文《Empirical Studies of Institutional Federated Learning For Natural Language Processing》(聯(lián)邦學(xué)習(xí)框架中自然語言處理模型的實證研究)被自然語言處理(NLP)方向的國際學(xué)術(shù)會議EMNLP 2020收錄。
一年一度的全球?qū)W術(shù)大會EMNLP是計算機語言學(xué)和自然語言處理領(lǐng)域最受關(guān)注的國際學(xué)術(shù)會議之一,由國際語言學(xué)會(ACL)旗下SIGDAT組織。其中,會議涵蓋的語義理解、文本理解、信息提取、信息檢索和機器翻譯等多項技術(shù)主題,是當(dāng)今學(xué)術(shù)界和工業(yè)界備受關(guān)注的熱點方向。EMNLP 2020一共收到投稿3114篇,其中錄用754篇,錄用率不到25%。在即將召開的EMNLP學(xué)術(shù)會議,來自全球的杰出學(xué)者及研究人員將共聚一堂,展示自然語言處理領(lǐng)域的前沿研究成果。這些成果,將代表著相關(guān)領(lǐng)域和技術(shù)細(xì)分中的研究水平以及未來發(fā)展方向。
平安聯(lián)邦學(xué)習(xí)技術(shù)團隊近來已發(fā)布多項頗具顯示度和開創(chuàng)性的科研成果,而這篇論文也是業(yè)界發(fā)表的在聯(lián)邦學(xué)習(xí)框架下實現(xiàn)NLP模型訓(xùn)練的創(chuàng)新性研究成果,是繼聯(lián)邦學(xué)習(xí)團隊在咳嗽檢測COVID-19智能系統(tǒng)、Occam自動化機器學(xué)習(xí)平臺研發(fā)后獲得的又一個創(chuàng)新性的突破,再一次得到了全球?qū)<业恼J(rèn)可,同時也成功部署到蜂巢聯(lián)邦智能平臺計算引擎中,該項成果代表著團隊在聯(lián)邦學(xué)習(xí)和自然語言處理結(jié)合領(lǐng)域的技術(shù)領(lǐng)先地位。
業(yè)內(nèi)聯(lián)邦學(xué)習(xí)NLP模型重磅發(fā)布
聯(lián)邦學(xué)習(xí)為深度學(xué)習(xí)提供了一種數(shù)據(jù)可用不可見的訓(xùn)練方式,因而在深度學(xué)習(xí)領(lǐng)域激起了新的熱潮。利用大量的訓(xùn)練樣本,深度學(xué)習(xí)能夠?qū)W習(xí)到幾乎任意任務(wù)的數(shù)學(xué)模型。然而,由于用戶隱私政策、數(shù)據(jù)監(jiān)管法規(guī)的限制,很多數(shù)據(jù)碎片化地保存在不同機構(gòu)的數(shù)據(jù)庫里,傳統(tǒng)的深度學(xué)習(xí)方法將無法在這樣的數(shù)據(jù)上進(jìn)行訓(xùn)練,聯(lián)邦學(xué)習(xí)正是為了解決這樣的數(shù)據(jù)孤島問題應(yīng)運而生。
圖1 差分隱私保護的聯(lián)邦學(xué)習(xí)系統(tǒng)架構(gòu)圖
(圖中不同灰度的背景顏色代表著不同的安全保護邊界)
隨著新的訓(xùn)練方法和計算硬件的發(fā)展,聯(lián)邦學(xué)習(xí)被越來越多地應(yīng)用到圖像、語音、文本等多種數(shù)據(jù)的任務(wù)訓(xùn)練中。在論文中,團隊在支持GPU的服務(wù)器群集上成功部署了聯(lián)邦自然語言處理網(wǎng)絡(luò)。以一個常用的NLP模型:TextCNN為例,展示了聯(lián)邦學(xué)習(xí)在自然語言處理領(lǐng)域的應(yīng)用潛力。此外,團隊在聯(lián)邦網(wǎng)絡(luò)訓(xùn)練過程中引入了可管理的差分隱私技術(shù),有效保護了聯(lián)邦學(xué)習(xí)參與者的數(shù)據(jù)安全(見圖1)。與現(xiàn)有的客戶端級別的隱私保護方案不同,團隊提出的差分隱私是定義在數(shù)據(jù)集樣本級別的,這與目標(biāo)場景——機構(gòu)間的聯(lián)邦合作訓(xùn)練是一致的。通過綜合大量實驗分析,團隊研究了聯(lián)邦學(xué)習(xí)框架下TextCNN模型的超參數(shù)的最佳設(shè)置并評估了在不均衡數(shù)據(jù)負(fù)載情況下,差分隱私要求對聯(lián)邦TextCNN模型的性能影響。
實驗表明,在聯(lián)邦模型訓(xùn)練過程中,本地訓(xùn)練使用的采樣率對FL模型的性能有很大的影響,可能導(dǎo)致測試精度下降達(dá)38.4%。
另一方面,聯(lián)邦學(xué)習(xí)對差分隱私使用的不同的噪聲乘數(shù)級別具有較強的魯棒性,在一系列不同噪聲級別的實驗中,測試精度的變化小于3% (見圖2)。然而,聯(lián)邦訓(xùn)練對客戶端數(shù)據(jù)集之間的數(shù)據(jù)負(fù)載均衡性比較敏感。當(dāng)數(shù)據(jù)負(fù)載不均衡時,模型性能最多下降了10%。這些重要的實驗數(shù)據(jù)展示出,在聯(lián)邦學(xué)習(xí)系統(tǒng)中部署一個實際可用的具有差分隱私保護的自然語言處理深度模型的可行性,并揭示了在不同程度的差分隱私保護要求下對系統(tǒng)參數(shù)的調(diào)整策略,為模型的實際部署提供了可靠的數(shù)據(jù)支撐。
圖2 實驗結(jié)果圖
(在不同的差分隱私保護程度σ設(shè)置下,聯(lián)邦TextCNN模型的訓(xùn)練和測試精度變化記錄。在σ限制不同時,固定相同的batch size,對應(yīng)不同的client數(shù)據(jù)集大小可能導(dǎo)致訓(xùn)練迭代次數(shù)的限制,因此部分訓(xùn)練曲線在未完全收斂時被迫中止)
蜂巢聯(lián)邦智能平臺
人工智能的發(fā)展需要大量數(shù)據(jù),而大數(shù)據(jù)時代下,隱私是最易觸犯的紅線。如何有效解決當(dāng)下人工智能領(lǐng)域發(fā)展的難題?聯(lián)邦學(xué)習(xí)成為當(dāng)下最熱門的技術(shù)研究方向之一。在這樣的背景下,平安科技聯(lián)邦學(xué)習(xí)技術(shù)團隊自主研發(fā)的蜂巢聯(lián)邦智能平臺也成為了解決當(dāng)下數(shù)據(jù)難題與隱私保護的一大利器。
圖3 蜂巢聯(lián)邦智能平臺示意圖
橫縱建模,多角度為打破數(shù)據(jù)孤島
在實際的數(shù)據(jù)運用中,即便是同一家公司內(nèi)的不同子公司或部門,也需要保護數(shù)據(jù)隱私。以平安集團為例,平安的財險和壽險各自擁有不同維度的用戶數(shù)據(jù),卻很難把數(shù)據(jù)直接合并在一起來做建模。從“蜂巢”最初的架構(gòu)設(shè)計上,平安科技就考慮到平安集團各個業(yè)務(wù)線與子公司之間存在數(shù)據(jù)壁壘的問題。同樣的“數(shù)據(jù)不通”也反應(yīng)在企業(yè)與企業(yè)、企業(yè)與政府之間,每家機構(gòu)都有自己的數(shù)據(jù),而基于隱私保護等原因,企業(yè)或政府?dāng)?shù)據(jù)不能對外進(jìn)行共享。
平安科技聯(lián)邦學(xué)習(xí)技術(shù)團隊研發(fā)的聯(lián)邦智能平臺蜂巢,就是解決企業(yè)數(shù)據(jù)孤島問題的商用級解決方案。它能夠讓參與方在不共享原始數(shù)據(jù)的基礎(chǔ)上聯(lián)合建模,從技術(shù)上打破數(shù)據(jù)孤島,從而綜合化標(biāo)簽數(shù)據(jù),豐富用戶畫像維度,從整體上提升模型的效果,實現(xiàn) AI 協(xié)作。
“蜂巢”下的加密運算,兼顧隱私保護與使用效率
如何在聯(lián)邦智能平臺保護數(shù)據(jù)隱私?數(shù)據(jù)加密是聯(lián)邦學(xué)習(xí)的一個重要環(huán)節(jié)。假設(shè)用戶的一個是數(shù)字“12”,經(jīng)過公鑰加密后會變成一個16位的字符串,這是加密最普遍的方式之一。平安科技聯(lián)邦智能平臺蜂巢可以在保護用戶隱私的前提下建模,讓原始數(shù)據(jù)不離開用戶,建模所交換的是模型的中間參數(shù)和梯度,這便能做到最大程度保護用戶隱私。同樣是數(shù)據(jù)加密的問題,由于將數(shù)據(jù)本身復(fù)雜化,平臺所耗費的計算資源也比原來更大。對此平安科技聯(lián)邦智能平臺蜂巢則采用GPU等異構(gòu)計算芯片來加速聯(lián)邦學(xué)習(xí)的加密和通信過程,從而達(dá)到效率升級的效果。
對于用戶數(shù)據(jù)隱私保護,不同行業(yè)有著不同的加密要求。在銀行領(lǐng)域,銀保監(jiān)會建議對數(shù)據(jù)進(jìn)行國密加密,對加密的穩(wěn)定性、安全性、合規(guī)性要求更高。而平安科技是為數(shù)不多的支持國密級加密的企業(yè)平臺。平安科技聯(lián)邦智能平臺蜂巢充分支持了國密SM2、國密SM4以及混淆電路、差分隱私和同態(tài)加密等不同的加密方式,以滿足企業(yè)各個業(yè)務(wù)場景的不同需求。
聯(lián)邦學(xué)習(xí)作為一個重要的新技術(shù)方向,未來有著廣闊的發(fā)展空間,但在實際落地中,在保護數(shù)據(jù)隱私的前提下進(jìn)行 AI 協(xié)同,無論是底層技術(shù)還是整個部署環(huán)節(jié),還有大量的挑戰(zhàn)需要克服。平安科技聯(lián)邦智能平臺蜂巢,也將不斷深耕技術(shù),幫助企業(yè)在數(shù)據(jù)融合及隱私保護上實現(xiàn)進(jìn)一步突破。同時,自然語言處理是人工智能最受矚目的發(fā)展方向之一,在金融、零售、醫(yī)療等領(lǐng)域有著廣闊的應(yīng)用場景,也是智能座席、智能客服的重要技術(shù)基礎(chǔ)。聯(lián)邦學(xué)習(xí)在自然語言處理的初步嘗試,展示了未來聯(lián)邦學(xué)習(xí)系統(tǒng)在該方向聯(lián)合多方個人用戶數(shù)據(jù),突破現(xiàn)有技術(shù)瓶頸的潛力。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )