近年來(lái),人工智能 (AI) 在涉及單一模態(tài)如語(yǔ)音、自然語(yǔ)言和視覺(jué)等領(lǐng)域,取得了重大突破。在單一模態(tài)的任務(wù)上,如物體識(shí)別、語(yǔ)音識(shí)別、機(jī)器翻譯等,AI 系統(tǒng)在特定數(shù)據(jù)集上的表現(xiàn)水平與人類相當(dāng)。隨著單模態(tài)人工智能潛在問(wèn)題的解決,研究人員意識(shí)到更高層次的AI任務(wù)往往涉及到跨多種模式的更復(fù)雜的信息處理。同時(shí),局限于單一模態(tài)的研究往往不能充分利用跨模態(tài)信息。因此,研究多模態(tài)建模與學(xué)習(xí)方法具有重要的意義。
在本次國(guó)際自然語(yǔ)言處理與中文計(jì)算會(huì)議 (NLPCC 2020)上, 京東智聯(lián)云舉辦了第一屆“多模態(tài)自然語(yǔ)言處理研討會(huì)”。該研討會(huì)邀請(qǐng)了多位學(xué)術(shù)大咖進(jìn)行學(xué)術(shù)分享,吸引了自然語(yǔ)言處理、多模態(tài)、圖像處理等多領(lǐng)域眾多學(xué)者參與。會(huì)中,各位學(xué)者就跨語(yǔ)言跨模態(tài)信息處理、多模態(tài)預(yù)訓(xùn)練、AI與藝術(shù)、視覺(jué)與語(yǔ)言交互、多模態(tài)對(duì)話系統(tǒng)等領(lǐng)域的研究熱點(diǎn)和技術(shù)應(yīng)用展開討論,反響熱烈。
看點(diǎn)一 多模態(tài)自動(dòng)摘要生成
多模態(tài)已成為新聞報(bào)道和信息交流的主要呈現(xiàn)形式,多模態(tài)自動(dòng)摘要技術(shù),旨在利用計(jì)算機(jī)自動(dòng)實(shí)現(xiàn)從多個(gè)模態(tài)的信息中壓縮生成摘要的過(guò)程,可以廣泛應(yīng)用于新聞推送和電商推薦等多個(gè)領(lǐng)域。
在本次研討會(huì)中,來(lái)自中科院自動(dòng)化所的研究員張家俊老師,為大家介紹其所在的課題組近年來(lái)在多模態(tài)摘要方法和評(píng)價(jià)等方面的研究進(jìn)展。張老師重點(diǎn)介紹了異源多模態(tài)摘要生成的研究方法變遷:從抽取式方法到生成式方法,再到目前融入多模態(tài)注意力機(jī)制的圖文式摘要生成方法等。同時(shí),張老師也介紹了多模態(tài)自動(dòng)摘要的自動(dòng)評(píng)價(jià)方法: 綜合考慮文本和圖片重要性以及文本圖片相關(guān)性更加貼近人工打分。
看點(diǎn)二 多模態(tài)預(yù)訓(xùn)練模型
預(yù)訓(xùn)練模型的出現(xiàn),使自然語(yǔ)言處理由原來(lái)的手工調(diào)參、依靠機(jī)器學(xué)習(xí)專家的階段,進(jìn)入到可以大規(guī)模、可復(fù)制的大工業(yè)施展階段。此階段基于預(yù)訓(xùn)練模型+微調(diào)機(jī)制,具備很高的可擴(kuò)展性,展現(xiàn)出很高潛力。而當(dāng)前研究也從單一語(yǔ)言擴(kuò)展到多模態(tài)。
微軟亞洲研究院的高級(jí)研究員段楠博士為大家介紹了多模態(tài)預(yù)訓(xùn)練模型的最新研究進(jìn)展。他首先回顧了典型的預(yù)訓(xùn)練模型。隨后,重點(diǎn)介紹了3種最新的多模態(tài)預(yù)訓(xùn)練模型:Unicoder主要應(yīng)用于跨語(yǔ)言的語(yǔ)言理解和生成任務(wù);Unicoder VL專注于視頻語(yǔ)言任務(wù),對(duì)視頻片段和對(duì)應(yīng)的自然語(yǔ)言描述進(jìn)行聯(lián)合建模;CodeBERT則關(guān)注在代碼語(yǔ)言任務(wù)。段博士也和與會(huì)學(xué)者一起討論了當(dāng)前多模態(tài)預(yù)訓(xùn)練的問(wèn)題和可能的未來(lái)方向。
看點(diǎn)三 人工智能藝術(shù)與設(shè)計(jì)
“AI+藝術(shù)是一個(gè)跨界領(lǐng)域。藝術(shù)家的想象力往往啟發(fā)著科學(xué)家的創(chuàng)造力,而在AI時(shí)代,藝術(shù)家用人工智能機(jī)器學(xué)習(xí)相關(guān)技術(shù)來(lái)創(chuàng)作藝術(shù),表達(dá)自己的想法和概念,設(shè)計(jì)師用神經(jīng)網(wǎng)絡(luò)模型創(chuàng)造自己的設(shè)計(jì)工具和助手。”
清華大學(xué)未來(lái)實(shí)驗(yàn)室博士后高峰分享了AI技術(shù)在藝術(shù)與設(shè)計(jì)領(lǐng)域的創(chuàng)新性應(yīng)用。其團(tuán)隊(duì)開發(fā)的道子智能繪畫系統(tǒng),利用計(jì)算機(jī)將自然圖像以風(fēng)格遷移的方式轉(zhuǎn)變成藝術(shù)圖像,根據(jù)所得藝術(shù)圖像進(jìn)行水墨畫繪作,實(shí)現(xiàn)技術(shù)與藝術(shù)間的跨界融合。高博士也介紹了道子在服裝設(shè)計(jì)、工業(yè)設(shè)計(jì)、裝置藝術(shù)等領(lǐng)域的探索成果。
看點(diǎn)四 多模態(tài)智能分析
多模態(tài)智能分析是近期的研究熱點(diǎn)。來(lái)自北航的劉偲教授圍繞視覺(jué)和語(yǔ)言的交互介紹兩方面的內(nèi)容進(jìn)行了分享。她首先介紹了視覺(jué)關(guān)系檢測(cè)的研究,包括人-物關(guān)系檢測(cè),人-物關(guān)系分割,視頻關(guān)系檢測(cè)等方面的內(nèi)容。其次,她指出視覺(jué)指代表達(dá)和指代分割,對(duì)于智能機(jī)器人和交互式圖像編輯等實(shí)際應(yīng)用有重要意義。 傳統(tǒng)的視覺(jué)指代表達(dá)方法采用兩階段式架構(gòu),模型復(fù)雜且速度受限,而傳統(tǒng)的指代分割方法聚焦于多模態(tài)特征融合,缺乏利用語(yǔ)言信息進(jìn)行上下文建模和推理的能力。在本次討論中,她給出了針對(duì)性的解決方法。
看點(diǎn)五 多模態(tài)對(duì)話系統(tǒng)
對(duì)話系統(tǒng)一直是自然語(yǔ)言理解領(lǐng)域一個(gè)重要的研究?jī)?nèi)容,它可以使人們更便捷的與機(jī)器進(jìn)行交互,而多模態(tài)的對(duì)話系統(tǒng)是非常重要的一個(gè)研究方向。
平安壽險(xiǎn)AI研發(fā)團(tuán)隊(duì)的楊海欽博士,分享了多模態(tài)對(duì)話系統(tǒng)在平安人壽各種場(chǎng)景的應(yīng)用,包括保單回訪服務(wù)和視頻柜員客服等。在本次講座中,楊博士重點(diǎn)介紹了多模態(tài)對(duì)話系統(tǒng)的核心和創(chuàng)新技術(shù),實(shí)際部署經(jīng)驗(yàn)以及如何應(yīng)用該系統(tǒng)來(lái)降低運(yùn)營(yíng)成本,同時(shí)增加用戶體驗(yàn)。
在此次NLPCC 會(huì)議中,京東智聯(lián)云成功舉辦了第一屆“多模態(tài)自然語(yǔ)言處理研討會(huì)”,吸引眾多參會(huì)學(xué)者的積極參與和熱烈討論。同時(shí)京東AI研究院NLP算法科學(xué)家吳友政博士受大會(huì)邀請(qǐng)作“智能人機(jī)交互及其應(yīng)用”的主題分享。另外京東AI研究院一篇論文被大會(huì)收錄并進(jìn)行口頭匯報(bào)。(Paper link https://link.springer.com/chapter/10.1007/978-3-030-60450-9_6)
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )