出門問問Mobvoi AI Lab三篇論文獲ICASSP 2019接收

ICASSP 2019將于2019年5月12日-17日在英國布萊頓拉開序幕,作為國內(nèi)AI語音賽道獨角獸公司的出門問問Mobvoi AI Lab有三篇論文已經(jīng)被ICASSP 2019接收。ICASSP 全稱 International Conference on Acoustics, Speech and Signal Processing(國際聲學(xué)、語音與信號處理會議),是由 IEEE 主辦的全世界最大的,也是最全面的信號處理及其應(yīng)用方面的頂級學(xué)術(shù)年會。

出門問問是一家以語音交互和軟硬結(jié)合為核心的人工智能公司。2012年創(chuàng)立后,出門問問始終以定義下一代人機交互方式為使命,堅持做AI應(yīng)用的探索,希望用“AI喚醒生活”,讓每一個人都能夠感受到,以語音交互為代表的AI科技可以給每個人帶來的美好與便利。

技術(shù)方面,出門問問擁有全套自主研發(fā)的智能語音交互八大關(guān)鍵核心技術(shù),掌握600多項技術(shù)專利。從1.前端聲音信號處理,到2.熱詞喚醒,到3.語音識別,到4.自然語言理解和5.對話管理,到6.垂直智能搜索和7.推送,到8.語音合成,在這一整套“聽到-識別-處理-輸出”的人機交互過程中,出門問問可以自主提供所有技術(shù),為需要語音交互的場景提供一整套端到端人機交互解決方案。

出門問問始終堅持產(chǎn)學(xué)研高度一體化,在語音交互技術(shù)上一直深入探索,由IEEE院士(IEEE Fellow)黃美玉博士領(lǐng)導(dǎo)的出門問問Mobvoi AI Lab,在此次ICASSP 2019提交的論文概述如下。

【1】信任正則化的知識蒸餾在遞歸神經(jīng)網(wǎng)絡(luò)語言模型上的應(yīng)用

Knowledge Distillation for Recurrent Neural Network Language Modeling with Trust Regularization

Yangyang Shi, Mei-Yuh Hwang, Xin Lei,

Mobvoi AI Lab,Seattle, USA

Haoyu Sheng

Williams College

基于遞歸神經(jīng)網(wǎng)絡(luò)的語言模型較于傳統(tǒng)的n-gram語言模型,有顯著的性能提升,已經(jīng)成為語言模型的主流模型,在很多云端應(yīng)用中得到廣泛的青睞。然而遞歸神經(jīng)網(wǎng)絡(luò)語言模型在實際應(yīng)用中需要占據(jù)大量的內(nèi)存容量以及計算資源。在很多移動終端,由于有限的內(nèi)存以及功耗,極大的限制了遞歸神經(jīng)網(wǎng)絡(luò)語言模型的應(yīng)用。最近知識蒸餾的方法被用于壓縮遞歸神經(jīng)網(wǎng)絡(luò)語言模型并減少它在終端裝置上的計算量。這一篇文章也同樣采用了知識蒸餾的方法,并用信任正則化的方法對知識蒸餾方法做出了改進(jìn)。文章的實驗表明這種信任正則化的知識蒸餾方法,可以把 Penn Treebank 數(shù)據(jù)集的遞歸神經(jīng)網(wǎng)絡(luò)的模型大小降到原有大小的33%,而仍然得到當(dāng)前學(xué)術(shù)界最好的結(jié)果。在華爾街日報語音識別的任務(wù)中,這篇文章的實驗表明,信任正則化的知識蒸餾方法可以將遞歸神經(jīng)網(wǎng)絡(luò)語言模型的大小降到原有大小的18.5%,并且仍然保持和原有模型一樣的效果。

【2】基于高階LSTM-CTC的端到端語音識別

End-To-End Speech Recognition Using A High Rank LSTM-CTC Based Model

Yangyang Shi,Mei-Yuh Hwang,Xin Lei

Mobvoi AI Lab, Seattle, USA

基于LSTM-CTC的端到端語音模型, 由于其簡單的訓(xùn)練過程以及高效的解碼過程,最近在語音識別領(lǐng)域得到廣泛的關(guān)注和應(yīng)用。在傳統(tǒng)的LSTM-CTC模型中,一個瓶頸投影矩陣將LSTM隱層的輸出向量投影到CTC的輸入向量。研究表明增強這個瓶頸投影矩陣的階數(shù)可以提高LSTM模型的表達(dá)能力。這篇文章提出用一個高階的投影層替代傳統(tǒng)的投影矩陣。高階投影層以LSTM的隱層的輸出向量作為輸入,經(jīng)過一系列的投影矩陣以及非線性函數(shù),這個高階投影層的輸出是一系列向量的線性組合。在高階投影層中,這些線性組合的權(quán)重也是由模型根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到。文章的實驗表明在語音領(lǐng)域普遍采用的WSJ數(shù)據(jù)集以及Librispeech數(shù)據(jù)集合上,較于傳統(tǒng)的LSTM-CTC的端到端語音模型,高階的LSTM-CTC模型可以帶來3%-10%相對詞錯誤率的下降。

【3】使用對抗性樣例提升基于注意力機制端到端的神經(jīng)網(wǎng)絡(luò)關(guān)鍵字檢出模型

Adversarial Examples for Improving End-to-end Attention-based Small-Footprint Keyword Spotting

Xiong Wang, Sining Sun, Changhao Shan, Jingyong Hou, Lei Xie,

School of Computer Science, Northwestern Polytechnical University, Xi’an, China

Shen Li, Xin Lei

Mobvoi AI Lab, Beijing, China

本文提出使用對抗性樣例來提升關(guān)鍵字檢出(Keyword spotting,KWS)的性能。 對抗性樣例近年來在深度學(xué)習(xí)領(lǐng)域是一個研究熱點,它是指在原來正確分類的樣例上加一個輕微的擾動后即被分類器錯誤分類的樣例。 在KWS任務(wù)中,將系統(tǒng)誤喚醒或誤拒絕的錯誤樣例視為對抗性樣例非常直觀而貼切競爭性樣例的概念。在我們的工作中,我們首先建立了一個訓(xùn)練有素的基于注意力機制端到端的KWS模型,然后使用快速梯度符號法(FGSM)生成了對抗性的樣例,發(fā)現(xiàn)這些樣例會顯著降低KWS的性能,最后我們利用這些對抗性的樣例作為增強數(shù)據(jù)來一起訓(xùn)練KWS模型。最終在出門問問智能音響上收集的喚醒詞數(shù)據(jù)集上進(jìn)行了實驗。實驗結(jié)果顯示,設(shè)定閾值在每小時1.0次誤喚醒情況下,提出的方法獲得了相對44.7%的誤拒絕率的降低。

作為AI語音領(lǐng)頭公司,出門問問2018年開始在學(xué)術(shù)頂會發(fā)表重要論文,并在麥克風(fēng)陣列噪聲消減、口語理解、噪聲環(huán)境下的語音識別、帶口音的語音識別中實現(xiàn)重大突破。

未來,出門問問不僅要做人工智能技術(shù)的前鋒探索者,更要做人工智能應(yīng)用的奠基人,既保持前端技術(shù)的研發(fā)能力,同時擁有扎實的落地應(yīng)用能力,ToC通過AI可穿戴、車載、智能家居消費級智能硬件+ToB通過AI企業(yè)服務(wù)雙輪戰(zhàn)略驅(qū)動,繼續(xù)探索,用AI喚醒更多人的生活。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-02-11
出門問問Mobvoi AI Lab三篇論文獲ICASSP 2019接收
ICASSP 2019將于2019年5月12日-17日在英國布萊頓拉開序幕,作為國內(nèi)AI語音賽道獨角獸公司的出門問問Mobvoi AI Lab有三篇論文已經(jīng)被I

長按掃碼 閱讀全文