AI的破局與落地,聯(lián)邦學(xué)習(xí)在中國的加速進(jìn)化之路

原標(biāo)題:AI的破局與落地,聯(lián)邦學(xué)習(xí)在中國的加速進(jìn)化之路

關(guān)注AI技術(shù)的人們想必都知道,聯(lián)邦學(xué)習(xí)(Federated Learning)技術(shù)最早是由谷歌在2017年公開發(fā)布,一經(jīng)提出就被業(yè)內(nèi)寄予厚望。

由于面臨著數(shù)據(jù)孤島和數(shù)據(jù)隱私保護(hù)等問題,AI產(chǎn)業(yè)落地進(jìn)程面臨著嚴(yán)重的數(shù)據(jù)困局。聯(lián)邦學(xué)習(xí)技術(shù)正是為了應(yīng)對這一問題而被提出,現(xiàn)在已成為新一代人工智能最重要的技術(shù)范式之一。

在聯(lián)邦學(xué)習(xí)出現(xiàn)并快速發(fā)展的三年多時(shí)間里,國內(nèi)外諸多科技巨頭都已經(jīng)開展聯(lián)邦學(xué)習(xí)的深入研究與應(yīng)用。值得注意的是,在聯(lián)邦學(xué)習(xí)技術(shù)的研究和推廣上,我國的科技企業(yè)與研究機(jī)構(gòu)不再是處于跟隨狀態(tài),而是處于和國外科技巨頭并駕齊驅(qū)的水平。其中一些頭部企業(yè)正在積極參與到聯(lián)邦學(xué)習(xí)的技術(shù)標(biāo)準(zhǔn)制定,以及產(chǎn)業(yè)應(yīng)用落地的實(shí)踐當(dāng)中。

聯(lián)邦學(xué)習(xí)為何如此重要?在最近兩年當(dāng)中,聯(lián)邦學(xué)習(xí)又是如何在眾多國內(nèi)科技巨頭的支持和推動下,實(shí)現(xiàn)迅速發(fā)展和應(yīng)用落地的?這成為很多人非常關(guān)心的問題。

打破AI數(shù)據(jù)困局,聯(lián)邦學(xué)習(xí)的野馬之姿

聯(lián)邦學(xué)習(xí),谷歌這一技術(shù)設(shè)想,主要回應(yīng)的問題是如何有效利用用戶終端上的數(shù)據(jù)進(jìn)行AI模型訓(xùn)練,而又不侵犯用戶的數(shù)據(jù)隱私。

工程師們的解決方式是用戶數(shù)據(jù)只需在本地終端進(jìn)行訓(xùn)練,云端服務(wù)器只要獲取訓(xùn)練后的訓(xùn)練模型(權(quán)重)即可,也就是搭建一個(gè)大型的分布式神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練框架,從而讓用戶數(shù)據(jù)不離本地,同時(shí)也能獲得很好的AI服務(wù)體驗(yàn)。

聯(lián)邦學(xué)習(xí)的出現(xiàn),讓每個(gè)用戶都可能成為AI發(fā)展的貢獻(xiàn)者,同時(shí)又啟發(fā)了企業(yè)之間跨越AI落地的數(shù)據(jù)鴻溝的一種嶄新方式。

所謂的“數(shù)據(jù)鴻溝”,主要是我們常聽到的“數(shù)據(jù)孤島”。一方面是企業(yè)逐利的本性,必然使其不愿拿出自身的數(shù)據(jù)與其他公司交換,導(dǎo)致少數(shù)幾家巨頭壟斷大量數(shù)據(jù)而小企業(yè)無數(shù)據(jù)可用的馬太效應(yīng);另一方面是全球各國對數(shù)據(jù)隱私保護(hù)的監(jiān)管越發(fā)嚴(yán)格,企業(yè)在用戶數(shù)據(jù)使用和共享上面更要考慮合規(guī)合法的應(yīng)用,因而進(jìn)一步加劇了數(shù)據(jù)孤島效應(yīng)。

在這一數(shù)據(jù)鴻溝的制約下,眾多行業(yè)和企業(yè)會因?yàn)闆]有高質(zhì)量、大規(guī)模的數(shù)據(jù)支撐而無法得到更好的訓(xùn)練模型。特別是對于一些專業(yè)性強(qiáng)的細(xì)分領(lǐng)域,如金融、風(fēng)控、法律以及醫(yī)療等領(lǐng)域,由于各家的數(shù)據(jù)無法打通,自身的數(shù)據(jù)量又有限,會極大地限制其AI技術(shù)的發(fā)展。

既能保護(hù)數(shù)據(jù)不共享以保護(hù)用戶隱私,同時(shí)又能在云端更新和共享通用模型,這正是聯(lián)邦學(xué)習(xí)技術(shù)所能實(shí)現(xiàn)“兩全其美”的策略。

聯(lián)邦學(xué)習(xí)在從C端應(yīng)用向B端產(chǎn)業(yè)應(yīng)用演進(jìn)中,形成了更為通用的解決方案:一、橫向聯(lián)邦學(xué)習(xí),即樣本中用戶不同,特征相同,谷歌的方法即是這種;二、縱向聯(lián)邦學(xué)習(xí),即樣本中用戶相同,特征不同,適用于擁有同一批用戶的不同企業(yè);三、遷移聯(lián)邦學(xué)習(xí),即樣本中用戶、特征都可能不同,這樣可以通過數(shù)據(jù)的升維或降維,從而進(jìn)行另外數(shù)據(jù)子空間的遷移學(xué)習(xí)。

這樣,聯(lián)邦學(xué)習(xí)作為一種更加泛化的機(jī)器學(xué)習(xí)方式,就可以把更多像金融、保險(xiǎn)、醫(yī)療、安防、教育等行業(yè)機(jī)構(gòu)作為數(shù)據(jù)主體來進(jìn)行AI的模型應(yīng)用場景了。而在聯(lián)邦學(xué)習(xí)技術(shù)的深化和擴(kuò)展當(dāng)中,我國的多家科技企業(yè)發(fā)揮了重要的作用。

百舸爭流,聯(lián)邦學(xué)習(xí)在中國的成績單

作為聯(lián)邦學(xué)習(xí)技術(shù)的深度參與方,國內(nèi)企業(yè)不僅參與了聯(lián)邦學(xué)習(xí)的技術(shù)研發(fā)和應(yīng)用,同樣還參與了聯(lián)邦學(xué)習(xí)的標(biāo)準(zhǔn)制定以及貢獻(xiàn)了多個(gè)開源模型框架。

首先,我國的多家企業(yè)組織和參與了聯(lián)邦學(xué)習(xí)基礎(chǔ)架構(gòu)與應(yīng)用規(guī)范標(biāo)準(zhǔn)的制定。去年,聯(lián)邦學(xué)習(xí)基礎(chǔ)架構(gòu)與應(yīng)用(IEEE P3652.1)標(biāo)準(zhǔn)工作組兩次會議先后在深圳、洛杉磯召開,國內(nèi)眾多企業(yè)對聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)草案的制定提出建設(shè)性意見,并預(yù)計(jì)在今年出臺這一草案。

業(yè)內(nèi)人士評價(jià),聯(lián)邦學(xué)習(xí)技術(shù)正是在全球知名人工智能專家楊強(qiáng)教授和其團(tuán)隊(duì)主導(dǎo)參與的IEEE聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)制定委員會的推動下,才成為備受產(chǎn)學(xué)研各界關(guān)注的人工智能的研究領(lǐng)域。

其次,國內(nèi)多家企業(yè)也都紛紛推出了可以進(jìn)行產(chǎn)業(yè)落地應(yīng)用的開源框架。

比如,騰訊發(fā)起的微眾銀行早在2018年就基于聯(lián)邦學(xué)習(xí)理論研究進(jìn)行相關(guān)開源軟件研發(fā),在2019年初,正式開源全球首個(gè)工業(yè)級聯(lián)邦學(xué)習(xí)框架 FATE(Federated Learning Enabler),其實(shí)現(xiàn)了基于同態(tài)加密和多方計(jì)算的安全計(jì)算協(xié)議,在信貸風(fēng)控、客戶權(quán)益定價(jià)、監(jiān)管科技等領(lǐng)域推出了相應(yīng)的商用方案。

去年,百度在PaddlePaddle 2.0開放平臺中,也增加了PaddleFL聯(lián)合學(xué)習(xí)框架,PaddleFL主要是面向深度學(xué)習(xí)進(jìn)行設(shè)計(jì),提供了眾多在計(jì)算機(jī)視覺、自然語言處理、推薦算法等領(lǐng)域的聯(lián)邦學(xué)習(xí)策略及應(yīng)用場景。同樣,平安科技在其提出的聯(lián)邦智能體系的基礎(chǔ)上,自主研發(fā)了蜂巢聯(lián)邦學(xué)習(xí)平臺,主要應(yīng)用于多方信息的安全協(xié)作計(jì)算,滿足銀行和金融機(jī)構(gòu)的風(fēng)險(xiǎn)評估、反洗錢、投顧、投研、信貸、保險(xiǎn)和監(jiān)管等多場景應(yīng)用需求。

同樣,基于聯(lián)邦學(xué)習(xí)理論的多方安全計(jì)算技術(shù),騰訊云開發(fā)出“騰訊云數(shù)盾”來滿足數(shù)據(jù)安全治理的多重需求。阿里巴巴也早在2015年就開始了與聯(lián)邦學(xué)習(xí)思路相同的共享學(xué)習(xí)技術(shù)的研究,在各方通過共享加密數(shù)據(jù)或加密機(jī)制下的參數(shù)交換方式來進(jìn)行機(jī)器學(xué)習(xí),建立虛擬的共享模型的產(chǎn)品平臺。

此外,華為、京東、聯(lián)想以及國內(nèi)多家創(chuàng)業(yè)企業(yè)都已在聯(lián)邦學(xué)習(xí)的生態(tài)發(fā)展中貢獻(xiàn)進(jìn)行著各種不同細(xì)分領(lǐng)域的實(shí)踐創(chuàng)新。

這些國內(nèi)科技企業(yè)之所以紛紛投入到聯(lián)邦學(xué)習(xí)技術(shù)的研發(fā)和推廣,正是看到其在用戶數(shù)據(jù)隱私保護(hù)與AI技術(shù)創(chuàng)新上面實(shí)現(xiàn)的完美平衡,以及帶來的眾多產(chǎn)業(yè)的AI應(yīng)用落地的機(jī)會。

推動AI產(chǎn)業(yè)落地,聯(lián)邦學(xué)習(xí)的中國實(shí)踐

根據(jù)聯(lián)邦學(xué)習(xí)的技術(shù)特點(diǎn)以及參與企業(yè)的當(dāng)前的研發(fā)重點(diǎn),金融領(lǐng)域成為聯(lián)邦學(xué)習(xí)最先進(jìn)行應(yīng)用落地的主要場景。其中在金融業(yè)務(wù)的眾多環(huán)節(jié)中,信貸風(fēng)控可謂是典型的聯(lián)邦學(xué)習(xí)的應(yīng)用落地場景。

基于聯(lián)邦學(xué)習(xí)的信貸風(fēng)控,微眾銀行提出了“同態(tài)加密中間變量”的解決方案,也就是保證原始數(shù)據(jù)不出庫的情況下,使用經(jīng)過梯度交換得到的中間變量來進(jìn)行風(fēng)控模型的建模,從而降低使用中心化機(jī)器學(xué)習(xí)帶來的系統(tǒng)性隱私風(fēng)險(xiǎn)。

通過聯(lián)邦學(xué)習(xí)實(shí)現(xiàn)的信貸風(fēng)控的用戶數(shù)據(jù)網(wǎng)絡(luò)增強(qiáng),就可以在貸款前更好地判斷客戶風(fēng)險(xiǎn),幫助信貸公司過濾信貸黑名單或明顯沒有轉(zhuǎn)化的貸款客戶,進(jìn)一步降低貸款審批流程后期的信審成本;同時(shí)在貸款中實(shí)現(xiàn)用戶放款后行為的動態(tài)評估以輔助授信額度的調(diào)整,在貸款后期幫助放貸機(jī)構(gòu)進(jìn)行催收的策略評估,調(diào)整催收策略,提升催收效率。

在醫(yī)療健康行業(yè),同樣也長期面臨著“數(shù)據(jù)孤島”的問題,從而制約著醫(yī)療AI的發(fā)展。

基于患者數(shù)據(jù)隱私保護(hù)的要求和各家醫(yī)療機(jī)構(gòu)數(shù)據(jù)無法互聯(lián)互通且標(biāo)準(zhǔn)不一的問題,聯(lián)邦學(xué)習(xí)可以很好地避開醫(yī)療機(jī)構(gòu)之間的信息壁壘,不再需要將各家數(shù)據(jù)做集中合并,而是通過協(xié)議在其間傳遞加密之后的信息,而各個(gè)醫(yī)療機(jī)構(gòu)通過使用這些加密的信息更新模型參數(shù),從而實(shí)現(xiàn)在不暴露原始數(shù)據(jù)的條件下使用全部患者數(shù)據(jù)的訓(xùn)練過程。

日前,騰訊的天衍實(shí)驗(yàn)室和微眾銀行正是利用這一聯(lián)邦學(xué)習(xí)的方式成功構(gòu)建了一個(gè)“腦卒中發(fā)病風(fēng)險(xiǎn)預(yù)測模型”,既能利用兩家醫(yī)院的加密后的共同的患者樣本進(jìn)行特征建模訓(xùn)練,又能很好地保護(hù)各自的數(shù)據(jù)隱私,最終比兩家醫(yī)院各自獨(dú)立訓(xùn)練的模型效果準(zhǔn)確率有了大幅的提升。

在安防監(jiān)控行業(yè),AI安防系統(tǒng)也同樣由于數(shù)據(jù)隱私保護(hù)的監(jiān)管要求和各家安防廠商之間各自為戰(zhàn)的狀況而難以獲得很好的發(fā)展。假如有多個(gè)廠商使用聯(lián)邦學(xué)習(xí)來訓(xùn)練和優(yōu)化AI算法模型,就可以讓每家企業(yè)在自己的服務(wù)器上進(jìn)行訓(xùn)練,只需加密上傳訓(xùn)練模型到后臺,進(jìn)行模型優(yōu)化后,再反饋給各個(gè)廠商改進(jìn)后的模型方案。

除了金融、醫(yī)療和安防行業(yè)的應(yīng)用外,聯(lián)邦學(xué)習(xí)正在深入到其他行業(yè)當(dāng)中。未來包括像金融、醫(yī)療、保險(xiǎn)、安防、教育、零售、工業(yè)以及智慧城市等各個(gè)行業(yè)和場景,都可以依賴聯(lián)邦學(xué)習(xí)技術(shù)實(shí)現(xiàn)行業(yè)AI能力的提升,從而實(shí)現(xiàn)降本增效的運(yùn)營目標(biāo)。

總體而言,對于國內(nèi)這些聯(lián)邦學(xué)習(xí)的積極推動者和踐行者的科技企業(yè)們而言,聯(lián)邦學(xué)習(xí)到底意味著什么?

首先,去年5月我國網(wǎng)信辦出臺了《數(shù)據(jù)安全管理辦法(征求意見稿)》這一被稱為“中國版GDPR”的法規(guī),標(biāo)志著我國數(shù)據(jù)規(guī)范使用的時(shí)代已經(jīng)到來。面對越來越嚴(yán)格的數(shù)據(jù)安全的監(jiān)管要求以及日益嚴(yán)峻的用戶數(shù)據(jù)隱私保護(hù)的風(fēng)險(xiǎn),國內(nèi)這些科技企業(yè)必須將數(shù)據(jù)的合規(guī)合法的使用當(dāng)作日常運(yùn)營的關(guān)鍵要?jiǎng)?wù)來看待。

數(shù)據(jù)安全的嚴(yán)格限制無疑會帶來企業(yè)在AI技術(shù)應(yīng)用上面的挑戰(zhàn),聯(lián)邦學(xué)習(xí)技術(shù)正是應(yīng)對這一監(jiān)管挑戰(zhàn)和行業(yè)競爭限制而提出的解決方案,自然得到了科技企業(yè)的大力推崇。

其次,對于那些科技巨頭而言,聯(lián)邦學(xué)習(xí)技術(shù)不僅能直接解決企業(yè)內(nèi)部的“數(shù)據(jù)孤島”問題,也可以使其在所要涉及的行業(yè)內(nèi)建立起數(shù)據(jù)共享的合作生態(tài)。只有搶占先機(jī),推出自己的聯(lián)邦學(xué)習(xí)的開源架構(gòu),才能吸引更多的行業(yè)伙伴加入到這一聯(lián)邦學(xué)習(xí)的生態(tài)當(dāng)中。

另外,對于那些創(chuàng)業(yè)企業(yè)或行業(yè)客戶而言,既沒有豐富的數(shù)據(jù)資源,也沒有充足的資源投入到AI系統(tǒng)的建設(shè)上,通過加入聯(lián)邦學(xué)習(xí)的生態(tài),借助巨頭的平臺和大數(shù)據(jù)資源,進(jìn)行自身AI模型的優(yōu)化,大幅降低企業(yè)智能化升級成本,成為一件非常劃算和可行的選擇。

近兩年,我們經(jīng)常會聽到“普惠AI”這一概念。普惠AI的愿景肯定不會只是一兩家AI巨頭就能實(shí)現(xiàn)的,而是更需要各行各業(yè)的企業(yè)、組織和個(gè)人一同參與,來為AI的技術(shù)升級與落地貢獻(xiàn)源源不斷的數(shù)據(jù)資源。

在AI的持續(xù)演進(jìn)和數(shù)據(jù)隱私安全保護(hù)的交織下,聯(lián)邦學(xué)習(xí)正在搭建一座機(jī)構(gòu)與用戶、機(jī)構(gòu)與機(jī)構(gòu)之間數(shù)據(jù)信任、共享普惠AI成果的橋梁。而這座聯(lián)邦學(xué)習(xí)生態(tài)之橋的建設(shè),國內(nèi)的技術(shù)建造者和各行業(yè)的參與者還有很多的工作要做。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-05-13
AI的破局與落地,聯(lián)邦學(xué)習(xí)在中國的加速進(jìn)化之路
聯(lián)邦學(xué)習(xí),谷歌這一技術(shù)設(shè)想,主要回應(yīng)的問題是如何有效利用用戶終端上的數(shù)據(jù)進(jìn)行AI模型訓(xùn)練,而又不侵犯用戶的數(shù)據(jù)隱私。

長按掃碼 閱讀全文