明略科技Blockformer語音識(shí)別模型在AISHELL-1測(cè)試集上取得SOTA結(jié)果

明略科技即將開源Blockformer語音識(shí)別模型,提升銷售過程中的會(huì)話智能并助力各行業(yè)數(shù)智化轉(zhuǎn)型

深度學(xué)習(xí)已成功應(yīng)用于語音識(shí)別,各種神經(jīng)網(wǎng)絡(luò)被大家廣泛研究和探索,例如,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和端到端的神經(jīng)網(wǎng)絡(luò)模型。

目前,主要有三種端到端的模型框架:神經(jīng)網(wǎng)絡(luò)傳感器(Neural Transducer,NT),基于注意力的編碼器-解碼器(Attention-based Encoder Decoder,AED)和連接時(shí)序分類(Connectionist Temporal Classification,CTC)。

NT是CTC的增強(qiáng)版本,引入了預(yù)測(cè)網(wǎng)絡(luò)模塊,可類比傳統(tǒng)語音識(shí)別框架中的語言模型,解碼器需要把先前預(yù)測(cè)的歷史作為上下文輸入。NT訓(xùn)練不穩(wěn)定,需要更多內(nèi)存,這可能會(huì)限制訓(xùn)練速度。

AED由編碼器、解碼器和注意力機(jī)制模塊組成,前者對(duì)聲學(xué)特征進(jìn)行編碼,解碼器生成句子,注意力機(jī)制用來對(duì)齊編碼器輸入特征和解碼狀態(tài)。業(yè)內(nèi)不少ASR系統(tǒng)架構(gòu)基于AED。然而,AED模型逐個(gè)單元輸出,其中每個(gè)單元既取決于先前生成的結(jié)果,又依賴后續(xù)的上下文,這會(huì)導(dǎo)致識(shí)別延遲。

另外,在實(shí)際的語音識(shí)別任務(wù)中,AED的注意力機(jī)制的對(duì)齊效果,有時(shí)也會(huì)被噪聲破壞。

CTC的解碼速度比AED快,但是由于輸出單元之間的條件獨(dú)立性和缺乏語言模型的約束,其識(shí)別率有提升空間。

目前有一些關(guān)于融合AED和CTC兩種框架的研究,基于編碼器共享的多任務(wù)學(xué)習(xí),使用CTC和AED目標(biāo)同時(shí)訓(xùn)練。在模型結(jié)構(gòu)上,Transformer已經(jīng)在機(jī)器翻譯,語音識(shí)別,和計(jì)算機(jī)視覺領(lǐng)域顯示了極大的優(yōu)勢(shì)。

明略科技集團(tuán)高級(jí)總監(jiān)、語音技術(shù)負(fù)責(zé)人朱會(huì)峰介紹,明略團(tuán)隊(duì)重點(diǎn)研究了在CTC和AED融合訓(xùn)練框架下,如何使用Transformer模型來提高識(shí)別效果。

明略團(tuán)隊(duì)通過可視化分析了不同BLOCK和HEAD之間的注意力信息,這些信息的多樣性是非常有幫助的,編碼器和解碼器中每個(gè)BLOCK的輸出信息并不完全包含,也可能是互補(bǔ)的。(https://doi.org/10.48550/arXiv.2207.11697)

基于這種洞察,明略團(tuán)隊(duì)提出了一種模型結(jié)構(gòu),Block-augmented Transformer (BlockFormer),研究了如何以參數(shù)化的方式互補(bǔ)融合每個(gè)塊的基本信息,實(shí)現(xiàn)了Weighted Sum of the Blocks Output(Base-WSBO)和Squeeze-and-Excitation module to WSBO(SE-WSBO)兩種block集成方法。

Blockfomer with Base-WSBO

SE-WSBO

實(shí)驗(yàn)證明,Blockformer模型在中文普通話測(cè)試集(AISHELL-1)上,不使用語言模型的情況下實(shí)現(xiàn)了4.35%的CER,使用語言模型時(shí)達(dá)到了4.10%的CER。

AISHELL-1是希爾貝殼2017年開源的中文普通話語音數(shù)據(jù)庫,錄音時(shí)長(zhǎng)178小時(shí),由400名中國(guó)不同地域說話人進(jìn)行錄制。該數(shù)據(jù)庫涉及智能家居、無人駕駛、工業(yè)生產(chǎn)等11個(gè)領(lǐng)域,被高頻應(yīng)用在語音技術(shù)開發(fā)及實(shí)驗(yàn)中,是當(dāng)今中文語音識(shí)別評(píng)測(cè)的權(quán)威數(shù)據(jù)庫之一。

AI Wiki網(wǎng)站Papers With Code顯示,Blockformer在AISHELL-1上取得SOTA的識(shí)別效果,字錯(cuò)率降低到4.10%(使用語言模型時(shí))。

明略科技集團(tuán)CTO郝杰表示,明略的會(huì)話智能產(chǎn)品針對(duì)基于線上企微會(huì)話和線下門店會(huì)話的銷售場(chǎng)景,語音識(shí)別團(tuán)隊(duì)聚焦美妝、汽車、教育等行業(yè)的場(chǎng)景優(yōu)化和定制訓(xùn)練,但是也不放松對(duì)通用語音識(shí)別新框架、新模型的探索,Blockformer模型的這個(gè)SOTA效果為語音識(shí)別的定制優(yōu)化提供了一個(gè)高起點(diǎn),明略即將開源Blockformer。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )