京東云與AI 10篇論文被AAAI 2020收錄,京東科技實力亮相世界舞臺

美國時間2月7-12日,AAAI 2020大會在紐約正式拉開序幕,AAAI作為全球人工智能領(lǐng)域的頂級學(xué)術(shù)會議,每年評審并收錄來自全球最頂尖的學(xué)術(shù)論文,這些學(xué)術(shù)研究引領(lǐng)著技術(shù)的趨勢和未來。京東云與AI在本次大會上有10篇論文被AAAI收錄,涉及自然語言處理、計算機(jī)視覺、機(jī)器學(xué)習(xí)等領(lǐng)域,充分展現(xiàn)了京東用技術(shù)驅(qū)動公司成長的發(fā)展模式以及技術(shù)實力,技術(shù)創(chuàng)新和應(yīng)用落地也成為這些論文最吸引行業(yè)關(guān)注的亮點。

本屆會議共收到的有效論文投稿超過8800篇,其中7737 篇論文進(jìn)入評審環(huán)節(jié),最終錄取數(shù)量為1591篇,錄取率為20.6%。京東云與AI共有10篇論文入選AAAI 2020,研究領(lǐng)域涵蓋人臉識別、人臉解析、機(jī)器閱讀理解、文本生成、對抗樣本與模型魯棒性、智慧城市等前沿的技術(shù)研究領(lǐng)域,這些能力目前已在市政安防、實體零售、智能客服等業(yè)務(wù)場景下規(guī)?;涞?,未來京東云與AI作為值得信賴的智能技術(shù)提供者,會持續(xù)進(jìn)行技術(shù)與業(yè)務(wù)融合的探索,這些落地的技術(shù)能力也將迎來更加廣闊的應(yīng)用前景。

以下是京東云與AI此次入選10篇論文:

對抗樣本與模型魯棒性研究

1. 基于Frank-Wolfe框架的高效對抗攻擊算法

A Frank-Wolfe Framework for Efficient and Effective Adversarial Attacks

論文鏈接:https://arxiv.org/pdf/1811.10828.pdf;

根據(jù)模型攻擊者可獲取的信息量來區(qū)分,對抗樣本攻擊可分為白盒與黑盒兩種攻擊形式。雖然基于優(yōu)化的攻擊算法如PGD等可以在白盒攻擊情況下獲得較高的攻擊成功率,但它們生成的對抗樣本往往有著較高的失真度。此外,它們相應(yīng)的黑盒攻擊算法通常查詢效率較差,需要對被攻擊的黑盒模型訪問非常多次才能實現(xiàn)攻擊,從而大幅限制了它們的實用性。針對這一問題,京東、弗吉尼亞大學(xué)和加州大學(xué)洛杉磯分校合作提出了一種基于Frank-Wolfe框架的高效對抗攻擊算法,可靈活運用于白盒和黑盒對抗樣本攻擊。

作者從理論上證明了所提的攻擊算法具有較快的收斂速率,并在ImageNet和MNIST數(shù)據(jù)集上驗證了所提出算法的性能。對比所有參評的白盒與黑盒攻擊基準(zhǔn)算法,本文提出的算法在攻擊成功率,攻擊時間和查詢效率上均顯著占優(yōu)。

2. 通過對抗樣本評估序列到序列模型魯棒性

Seq2Sick: Evaluating the Robustness of Sequence-to-Sequence Models with Adversarial Examples

論文鏈接:https://arxiv.org/pdf/1803.01128.pdf;

利用對抗樣本攻擊的難易度來評估深度神經(jīng)網(wǎng)絡(luò)的魯棒性已成為業(yè)界常用的方法之一。然而,大多數(shù)現(xiàn)有的對抗攻擊算法都集中在基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類問題上,因為它的輸入空間連續(xù)且輸出空間有限,便于實現(xiàn)對抗樣本攻擊。在本文中,來自京東、加州大學(xué)洛杉磯分校和IBM研究院的研究者們探索了一個更加困難的問題,即如何攻擊基于循環(huán)神經(jīng)網(wǎng)絡(luò)的序列到序列(Sequence to Sequence)模型。這一模型的輸入是離散的文本字符串,而輸出的可能取值則幾乎是無窮的,因此難以設(shè)計對抗攻擊方案,在本文之前也未被成功攻破過。為了解決離散輸入空間帶來的挑戰(zhàn),研究者們提出了結(jié)合group lasso和梯度正則化的投影梯度方法。針對近乎無限輸出空間帶來的問題,他們也設(shè)計了一些全新的損失函數(shù)來實現(xiàn)兩種新的攻擊方式:(1) 非重疊攻擊,即保證模型被攻擊后的輸出語句與正常情況下的輸出語句不存在任何重合,(2)目標(biāo)關(guān)鍵詞攻擊,即給定任意一組關(guān)鍵詞,保證模型被攻擊后的輸出語句包含這些關(guān)鍵詞。

最終,研究者們將算法應(yīng)用于序列到序列模型常用的兩大任務(wù)機(jī)器翻譯和文本摘要中,發(fā)現(xiàn)通過對輸入文本做輕微的改動,即可以顯著改變序列到序列模型的輸出,成功實現(xiàn)了對抗樣本攻擊。同時,研究者們也指出,雖然攻擊取得了成功,但與基于卷積神經(jīng)網(wǎng)絡(luò)的分類模型相比,序列到序列模型的對抗攻擊難度更大,且對抗樣本更容易被發(fā)現(xiàn),因此從對抗攻擊的角度進(jìn)行衡量,序列到序列模型是一種魯棒性更優(yōu)的模型。

機(jī)器閱讀理解

3. 多跳多文檔閱讀理解研究

Select, Answer and Explain: Interpretable Multi-hop Reading Comprehension over Multiple Documents

論文鏈接:https://arxiv.org/pdf/1911.00484v2.pdf;

可解釋的對多文檔多跳閱讀理解(RC)是一個具有挑戰(zhàn)性的問題,因為它需要對多個信息源進(jìn)行推理并通過提供支持證據(jù)來解釋答案預(yù)測?!禨elect, Answer and Explain: Interpretable Multi-hop Reading Comprehension over Multiple Documents》論文中提出了一種可解釋的多跳多文檔閱讀理解的方法,通過設(shè)計一個有效的文檔篩選模塊和基于圖神經(jīng)網(wǎng)絡(luò)的推理模塊,針對給定問題可以同時準(zhǔn)確的找出問題的答案以及支持答案的證據(jù)。

圖1. 多跳多文檔閱讀理解方法示意圖

文本生成

4. 基于要素感知的多模態(tài)電商商品摘要

Aspect-Aware Multimodal Summarization for Chinese E-Commerce Products

論文鏈接:?http://box.jd.com/sharedInfo/2926429040ECC7D3;

論文《Aspect-Aware Multimodal Summarization for Chinese E-Commerce Products》中提出了一個基于商品要素的多模態(tài)商品信息自動摘要系統(tǒng),其可以根據(jù)商品的文本描述和商品圖片自動生成商品營銷短文。商品的外觀決定了用戶對該商品的第一印象,商品的功能屬性最終決定了用戶的購買行為,論文提出的多模態(tài)商品信息自動摘要系統(tǒng)可以有效的整合商品的外觀和功能信息,自動捕捉到該商品的特色賣點,并為其生成一段簡短的營銷短文。不同的用戶關(guān)注的商品要素往往是不同的,比如冰箱的“能耗”和”容量”,手機(jī)的“內(nèi)存”和“屏幕”。系統(tǒng)以商品要素為切入點,挖掘商品最有賣點的商品要素,并從商品要素維度控制輸出文本的信息冗余度、可讀性和對輸入信息的忠實度,最終生成一段簡潔凝練、賣點突出、流暢、合規(guī)的商品營銷短文,以期待引起潛在購買者的共鳴。

圖2. 模型框架圖

5. 基于關(guān)鍵詞指導(dǎo)的生成式句子摘要

Keywords-Guided Abstractive Sentence Summarization

論文鏈接:?http://box.jd.com/sharedInfo/B2234BB08E365EEC;

《Keywords-Guided Abstractive Sentence Summarization》論文中提出了一種文本摘要的新方法,即利用輸入文本的關(guān)鍵詞信息提高了文本摘要模型的質(zhì)量。論文模擬了人類生成摘要的過程:當(dāng)人類為某一段文本生成摘要時,首先會對該文本進(jìn)行閱讀,并識別出里面的關(guān)鍵詞,進(jìn)而通過創(chuàng)作加工,將這些關(guān)鍵詞以流暢的語言表達(dá)出來。另外,文本摘要和文本關(guān)鍵詞抽取在本質(zhì)上是相通的,即都是在輸入文本中提取關(guān)鍵信息,僅僅是輸出的形式有所差異?;谏鲜鏊伎?,論文提出一個多任務(wù)學(xué)習(xí)框架,通過一個共享的編碼器,互相強(qiáng)化文本摘要和關(guān)鍵詞抽取任務(wù)。在解碼器生成摘要時,利用關(guān)鍵詞的信息和原始輸入文本進(jìn)行交互,通過雙重注意力和雙重拷貝機(jī)制,在關(guān)鍵詞的指導(dǎo)下,為輸入文本生成摘要。

圖3. 共選擇編碼模型的框架

6. 基于多模態(tài)信息指導(dǎo)的多模態(tài)摘要

Multimodal Summarization with Guidance of Multimodal Reference

論文鏈接:http://box.jd.com/sharedInfo/36929195FF05B01F;

論文《Multimodal Summarization with Guidance of Multimodal Reference》提出了一種基于多模態(tài)信息監(jiān)督的多模態(tài)自動摘要模型,該模型以文本和圖片作為輸入,生成圖文并茂的摘要。傳統(tǒng)的多模態(tài)自動摘要模型在訓(xùn)練過程中,往往以文本參考摘要的極大似然損失作為目標(biāo)函數(shù),然后利用注意力機(jī)制來挑選與文本相對應(yīng)的圖片。這種做法容易帶來模態(tài)偏差的問題,即模型會傾向于優(yōu)化文本生成的質(zhì)量而忽視了圖片挑選的質(zhì)量。論文提出的模型優(yōu)化了多模態(tài)摘要模型的目標(biāo)函數(shù),即在文本參考摘要的損失函數(shù)的基礎(chǔ)上增加了圖片參考摘要的損失函數(shù)。實驗發(fā)現(xiàn),在引入了多模態(tài)信息監(jiān)督訓(xùn)練后,多模態(tài)自動摘要模型的圖片挑選質(zhì)量得到了顯著的改善,文本生成質(zhì)量也有所改進(jìn),從而可以生成更高質(zhì)量的圖文摘要。

圖4. 多模態(tài)基準(zhǔn)指導(dǎo)的多模態(tài)自動文摘框架圖

7. 文本到SQL的生成研究

Zero-shot Text-to-SQL Learning with Auxiliary Task

論文鏈接:https://arxiv.org/pdf/1908.11052.pdf;

近年來,在Text-to-SQL任務(wù)中使用神經(jīng)Seq2Seq模型取得了巨大的成功。但是,很少有研究關(guān)注這些模型如何推廣到實際不可見數(shù)據(jù)中。論文《Zero-shot Text-to-SQL Learning with Auxiliary Task》通過設(shè)計一個有效的輔助任務(wù)支持模型以及生成任務(wù)的正則化項,以增加模型的泛化能力。通過在大型文本到SQL數(shù)據(jù)集WikiSQL上實驗評估模型,與強(qiáng)大的基線粗到精模型相比,論文中打造的模型在整個數(shù)據(jù)集上的絕對精度比基線提高了3%以上。在WikiSQL的Zero-shot子集測試中,這一模型在基線上獲得了5%的絕對準(zhǔn)確度增益,清楚地證明了其卓越的通用性。

圖5. 論文設(shè)計的模型示意圖

智慧城市研究

8. 車站潛在客流的智能化預(yù)測

Potential Passenger Flow Prediction: A Novel Study for Urban Transportation Development

論文鏈接:https://arxiv.org/pdf/1912.03440.pdf;

隨著城市人口的增多和城市化的不斷發(fā)展,公共交通工具如地鐵正在發(fā)揮著越來越重要的作用。為了讓地鐵能夠發(fā)揮更大的作用,方便人們出行,需要精準(zhǔn)預(yù)測每個車站在未來的潛在客流量,從而為地鐵站的選址和建設(shè)規(guī)模提供建議。針對這一問題,京東和悉尼科技大學(xué)的研究者們合作提出了一種多視圖局部相關(guān)性學(xué)習(xí)方法。其核心思想是利用自適應(yīng)權(quán)重來了解目標(biāo)區(qū)域及其局部區(qū)域之間的客流相關(guān)性,并通過嵌入一些領(lǐng)域知識到多視圖學(xué)習(xí)過程中的方法來綜合提升對潛在客流的預(yù)測準(zhǔn)確性。

圖6:潛在客流預(yù)測問題

圖7:模型流程圖

文中通過大量的實驗結(jié)果表明,相比于一些其他預(yù)測算法,論文中提出的方法取得了顯著更優(yōu)的預(yù)測準(zhǔn)確性,可以為車站規(guī)劃和城市智能化建設(shè)提供更為有力的保障。此外,文中所提的思路也對解決推薦系統(tǒng)中的冷啟動問題提供了一定的借鑒意義。

人臉識別

9. 基于分錯特征引導(dǎo)的損失函數(shù)

Mis-classified Vector Guided Softmax Loss for Face Recognition

論文鏈接:https://arxiv.org/pdf/1912.00833.pdf;

在人臉識別領(lǐng)域,各個場景下的應(yīng)用對算法能力提出了更高的要求。人臉識別的規(guī)模已從原來的千人、萬人級增大到百萬人甚至千萬人。目前研究面臨的一大挑戰(zhàn)是在識別規(guī)模越來越大的場景下,如何在較低的誤識率的同時保持識別通過率。現(xiàn)有的人臉識別主流訓(xùn)練算法主要歸類為margin-based和mining-based兩大類,但都存在各自的方法上的缺陷。論文《Mis-classified Vector Guided Softmax Loss for Face Recognition》就針對如何讓模型學(xué)習(xí)得到判別能力更優(yōu)秀的人臉特征,研究了一種新的人臉識別訓(xùn)練算法,利用論文中提出的Mis-classified Vector Guided Softmax,能夠同時優(yōu)化現(xiàn)有方法存在的缺陷,并且?guī)椭R別網(wǎng)絡(luò)在訓(xùn)練過程中獲得更有針對性的難例強(qiáng)調(diào),實現(xiàn)更據(jù)鑒別能力的模型訓(xùn)練。論文的方法在目前多個公開人臉識別測試集上驗證了有效性,并且識別精度超過了現(xiàn)有的方法。

圖8. MV-Softmax特征的幾何解釋

人臉解析

10. 數(shù)據(jù)庫和一種邊緣感知的語義分割方法

A New Dataset and Boundary-Attention Semantic Segmentation for Face Parsing

論文鏈接:?http://box.jd.com/sharedInfo/C1BEAD9CBDB50DA3;

近年來,人臉解析因其潛在的應(yīng)用價值而受到了越來越多的關(guān)注。論文《A New Dataset and Boundary-Attention Semantic Segmentation for Face Parsing》從人臉解析領(lǐng)域存在的問題出發(fā),在數(shù)據(jù)和算法兩個方面做出了貢獻(xiàn)。首先,論文提出了一種高效的像素級的人臉解析數(shù)據(jù)標(biāo)注框架,該框架極大的降低了數(shù)據(jù)的標(biāo)注難度,使他們在短時間內(nèi)構(gòu)建了一個大規(guī)模的人臉解析數(shù)據(jù)集(LaPa)。該數(shù)據(jù)集包含了超過22,000張人臉圖片,且覆蓋了多種姿態(tài)、光照和表情變化。同時,本文還提出了一種有效的邊界注意力的語義分割方法(BASS),該方法從網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)兩方面著手,充分利用圖像的邊界信息來提升語義分割精度,論文中設(shè)計了大量的實驗來驗證該方法的有效性,同時該方法取得了公開數(shù)據(jù)集Helen上SOTA的性能。

圖9.BASS的網(wǎng)絡(luò)結(jié)構(gòu)示意圖

從這些前沿的研究成果不難看出,京東云與AI正致力于將語音語義、計算機(jī)視覺、機(jī)器學(xué)習(xí)等技術(shù)在商品推薦、實體零售等領(lǐng)域持續(xù)落地應(yīng)用,不僅注重技術(shù)的先進(jìn)性,更注重應(yīng)用的可信賴。一直以來京東云與AI致力于踐行可信賴的AI,“可信賴的AI”不是口號,也不僅僅是價值觀層面。它有六個維度,公平、魯棒性、價值對齊、可復(fù)制、可解釋和負(fù)責(zé)任,此次入選論文中就包含著對“對抗樣本與模型魯棒性”的研究。一面是對技術(shù)的巨大挑戰(zhàn),一面是人文精神,成為最值得信賴的智能技術(shù)提供者正是京東云與AI執(zhí)著追求的社會責(zé)任與價值體現(xiàn)。

2019年8月,以NeuHub京東人工智能開放平臺為載體,京東入選智能供應(yīng)鏈國家人工智能開放平臺,依托這一平臺的技術(shù)積累,京東云與AI在疫情期間快速推出應(yīng)急資源信息發(fā)布平臺,上線半個月時間即幫助湖北、武漢及其他疫情波及地區(qū)供應(yīng)醫(yī)療類、消毒類、生活類等各類救援物資超過2.6億件,供應(yīng)藥品超過4億盒。其中包含各類口罩1.5億只、護(hù)目鏡40.6萬個、防護(hù)服鞋套283.72萬套等抗疫必需品;基于京東云與AI領(lǐng)先的語音語義技術(shù)研發(fā)的智能疫情助理,已在北京、山東、安徽、江蘇、江西、四川等地的十多個行業(yè)、一千余家組織和機(jī)構(gòu)中快速落地,免費提供疫情咨詢服務(wù),累計服務(wù)咨詢數(shù)量達(dá)數(shù)百萬條。切實讓民眾在疫情這一特殊時期感受到技術(shù)帶來的溫暖和便利。

2019年,京東在云、AI、IoT等技術(shù)領(lǐng)域和業(yè)務(wù)的探索完成了京東云與AI在ABCDE技術(shù)戰(zhàn)略的布局。這個戰(zhàn)略是我們技術(shù)上深度融合,融合AI(人工智能)、Big Data(大數(shù)據(jù))、Cloud(云計算)、Devices(IoT)和Exploration(前沿探索)對外賦能,為產(chǎn)業(yè)融合、科技創(chuàng)新,提供最堅實、最前沿、最可信賴的基礎(chǔ)設(shè)施和服務(wù)。

京東云與AI總裁、京東集團(tuán)技術(shù)委員會主席周伯文博士表示,京東技術(shù)戰(zhàn)略“ABCDE”的本質(zhì)是促進(jìn)技術(shù)融合帶來的價值疊加,通過前沿技術(shù)的研發(fā),與行業(yè)Know-how進(jìn)一步緊密結(jié)合,與合作伙伴一道共建良好的技術(shù)合作生態(tài),并時刻要以用例為中心,用京東云與AI的技術(shù)積累對外賦能,解決真實場景問題,以最終實現(xiàn)面向社會創(chuàng)造更多價值。

如何進(jìn)行技術(shù)和產(chǎn)業(yè)的融合一直是AI行業(yè)和企業(yè)關(guān)注的重點。2020年,京東云與AI作為“技術(shù)輸出”的先行者,他的身影還將在更多的全球頂級學(xué)術(shù)、科技大會上出現(xiàn),并持續(xù)深耕技術(shù)與實體經(jīng)濟(jì)的融合,探索技術(shù)的邊界與應(yīng)用價值,推動產(chǎn)學(xué)研用的一體化建設(shè)。京東云與AI也將繼續(xù)用扎實的技術(shù)積累對外賦能,與社會各界共同創(chuàng)造并見證云智聯(lián)世界、產(chǎn)業(yè)互聯(lián)網(wǎng)蓬勃發(fā)展的新時代!

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-02-16
京東云與AI 10篇論文被AAAI 2020收錄,京東科技實力亮相世界舞臺
美國時間2月7-12日,AAAI 2020大會在紐約正式拉開序幕,AAAI作為全球人工智能領(lǐng)域的頂級學(xué)術(shù)會議,每年評審并收錄來自全球最頂尖的學(xué)術(shù)論文,這些學(xué)術(shù)研究引領(lǐng)著技術(shù)的趨勢和未來。

長按掃碼 閱讀全文