火山語音7篇論文入選國際頂會Interspeech

日前,火山語音團隊七篇論文成功入選國際頂會Interspeech2022,內(nèi)容涵蓋音頻合成、音頻理解等多個技術方向的創(chuàng)新突破。Interspeech作為國際語音通信協(xié)會ISCA組織的語音研究領域的頂級會議之一,也被稱為全球最大的綜合性語音信號處理盛會,在世界范圍內(nèi)享有極高聲譽,并受到全球各地語言領域人士的廣泛關注。下面我們就入選論文進行全面解讀,一同了解火山語音技術的重要進展吧!

音頻合成方向——

針對語音合成有聲書的自動化配樂系統(tǒng)

An Automatic Soundtracking System for Text-to-Speech Audiobooks

通常在有聲小說中,適宜的背景音樂可以大幅提升聽感,增強用戶的沉浸式體驗。該論文首創(chuàng)性提出了基于篇章級情節(jié)理解的有聲小說配樂系統(tǒng),能夠自動化地挑選并組合出貼合文章情節(jié)、烘托感情氛圍的背景音樂,同時與語音合成的有聲小說音頻進行精準的時間戳對齊和混音,極大節(jié)省了后期配樂的人力投入。

具體來說該系統(tǒng)可以分為情節(jié)劃分(Plot Partition)、情節(jié)分類(Plot Classification) 和 音樂選擇(Novel Selection) 三個部分。前兩部分主要通過NLP技術實現(xiàn)了篇章級語意理解,能夠自動將小說文本進行片段式的情節(jié)劃分,做到預測多達十二類的情節(jié);第三部分則實現(xiàn)了基于語意及小說音頻長度的啟發(fā)式規(guī)則,自動化地從音樂庫中選擇合適的音樂片段并與小說音頻進行自動混音。該系統(tǒng)在與人工配樂的對比實驗中,目前的合格率已追平人工水平(均為88.75%);優(yōu)秀率也高達45%,但對比人工 52.5%的數(shù)據(jù)指標還略有差距。

有聲小說自動化配樂系統(tǒng)框架

在語音合成有聲小說的場景和業(yè)務中,自動化精配背景音樂的加入不僅能夠大幅度提升用戶的聽覺感受和代入感,還極大降低了音頻后期的人力投入成本。目前,自動化精配背景音樂已經(jīng)在番茄小說等業(yè)務中開始應用。

一種借助聲學參考特征和對比學習的高品質(zhì)歌唱轉(zhuǎn)換方法

TOWARDS HIGH-FIDELITY SINGING VOICE CONVERSION WITH ACOUSTIC REFERENCE AND CONTRASTIVE PREDICTIVE CODING

近年來伴隨語音后驗概率(Phonetic PosteriorGrams,PPG)特征的廣泛使用,語音轉(zhuǎn)換效果取得了顯著提升,但PPG特征在聲學信息上的缺失導致了在風格和自然度方面的轉(zhuǎn)換效果并不盡如人意,尤其對于「歌唱」這種對聲學表現(xiàn)力極高要求的場景。

基于上述考量,本篇論文在端到端歌唱轉(zhuǎn)換模型的基礎上,一方面嘗試使用了梅爾譜、無監(jiān)督聲學表征和語音識別模型中間層表征等多種附加特征來補足歌唱轉(zhuǎn)換模型對聲學信息的需求,同時確保音色效果不受影響,最終通過對比明確了無監(jiān)督聲學表征的效果優(yōu)勢。

另一方面,針對轉(zhuǎn)換模型的編碼器輸出結(jié)果,團隊選擇增加一個對比預測編碼(Contrastive Predictive Coding,CPC)模塊以提高編碼結(jié)果的連貫性,增強模型對聲學信息的建模能力。通過與基礎模型的主觀評測對比,團隊提出的優(yōu)化方案獲得了明顯收益,主觀評測MOS分提升了0.18;同時該方法也被證明可以提升語音音色的歌唱能力,音準客觀指標提升了6%,達到較好的跨域轉(zhuǎn)換效果。

結(jié)合附加聲學特征和CPC模塊的歌唱轉(zhuǎn)換系統(tǒng)框架

如今語音轉(zhuǎn)換和歌唱轉(zhuǎn)換已在視頻和歌曲創(chuàng)作方面有相關的應用,而論文提出的方法可以進一步提升直播場景以及視頻創(chuàng)作中的語音轉(zhuǎn)換和歌唱轉(zhuǎn)換的自然度,提升用戶體驗的同時降低創(chuàng)作門檻。

音頻理解方向——

結(jié)合對話上下文的流式 RNN-T 語音識別

Bring dialogue-context into RNN-T for streaming ASR

日常生活中,人們說出的語音內(nèi)容通常與所處的上下文(context)相關,而在對話任務中,憑借歷史輪次的對話文本所包含的與當前句有關的信息,可以提升語音識別效果?;诖?,該論文提出將對話歷史作為 context 輸入到流式RNN-T模型中,總結(jié)出幾種不同的引入對話歷史的方法和訓練策略,最終獲得了比單句 ASR 提升5%+的識別效果。

(a)基礎 RNN-T 結(jié)構 (b)引入對話歷史到 predictor 的結(jié)構 (c)引入對話歷史到 encoder 的結(jié)構

 

首先針對 RNN-T的結(jié)構特點,論文提出將對話歷史更早地引入到 RNN-T 的 predictor(上圖(b)) 和 encoder(上圖(c)),從而可以更充分地將對話歷史信息融入到 RNN-T 模型中。其次論文提出了兩種訓練策略:有/無對話歷史輸入模型的聯(lián)合訓練(joint training)和對話歷史添加隨機擾動(context perturbation)。Joint training 策略降低了模型在對話歷史缺失情況下的性能損失,而 context perturbation 則解決了對話歷史含有的識別錯誤對 context-aware ASR 模型的干擾。最后論文通過在神經(jīng)網(wǎng)絡語言模型(neural network language model,NNLM)中引入對話歷史,來獲得更好的語言模型,并用于 beam-search 解碼,進一步提升識別效果。

在 Switchboard-2000h 的公開數(shù)據(jù)中,采用論文方法引入對話歷史,將基于RNN-T的語音識別系統(tǒng)的性能在兩個測試集上相對提升了4.8% / 6.0%(無語言模型的情況下) 和 10.6% / 7.8%(有語言模型的情況下)。

基于連續(xù)整合發(fā)放機制的融合說話人差異和語音內(nèi)容的字級別說話人轉(zhuǎn)換點檢測

Token-level Speaker Change Detection Using Speaker Difference and Speech
Content via Continuous Integrate-and-fire

說話人轉(zhuǎn)換點檢測(Speaker Change Detection, SCD)任務常常作為說話人分聚類子任務或者語音識別(Automatic Speech Recognition,ASR)模型的前端模塊被研究者人員所了解。目前該領域提出的大部分解決方案都只應用了說話人特征的差異,而忽略了語音內(nèi)容可以在SCD任務中發(fā)揮作用這一方向。

基于此,火山語音團隊提出一種綜合考慮“說話人差異”與“語音內(nèi)容”兩條線索的說話人轉(zhuǎn)換點檢測方法,主要通過連續(xù)整合發(fā)放機制(Continuous Integrate-and-fire,CIF)來達成。目前該方式能夠獲取到字級別的說話人差異和語音內(nèi)容,在同樣的表示粒度上融合了兩部分線索之后,就可以在字的聲學邊界處成功進行說話人轉(zhuǎn)換點的判斷。

基于 CIF 的融合兩條線索的字級別說話人轉(zhuǎn)換點檢測方案

在真實錄制的會議數(shù)據(jù)集AISHELL-4上,基于該方法提出的方案相比于目前比較有競爭力的基線方法,獲得了絕對2.45%的等純度覆蓋度(Equal Purity Coverage,EPC)提升。

同時也通過實驗證明“說話人差異”與“語音內(nèi)容”都能作為說話人轉(zhuǎn)換點判斷的線索使用,而且同時使用兩條線索才是目前最優(yōu)的方案。此外,該方法所提出的在字符的聲學邊界處進行說話人轉(zhuǎn)換點檢測,相比于逐幀進行檢測更具優(yōu)勢,做到直接處理多說話人的語音并輸出字序列以及說話人轉(zhuǎn)換的位置。應用場景上,適用于多人參與且快速交替對話的場景,例如會議等語音場景。

注意機制編解碼器端到端語音識別模型中基于上下文矢量學習的內(nèi)部語言模型估計

Internal Language Model Estimation Through Explicit Context Vector Learning for Attention-based Encoder-decoder ASR (https://arxiv.org/abs/2201.11627)

目前,端到端語音識別模型建模已經(jīng)成為語音界主流建模方法,其顯著優(yōu)點在于建模操作簡單、所建模型性能突出且致密,即無需對字典、聲學模型和語言模型單獨建模,而是將三者合而為一。換言之,端到端語音識別模型既具有聲學模型功能,又具有語言模型功能。

但這種致密性在一定條件下會給模型的適用性和靈活性帶來不利影響。譬如端到端識別模型和語言模型之間的融合不再滿足傳統(tǒng)的貝葉斯后驗概率原理,而是一個后驗概率和條件概率的相加。當具備這樣的條件,如更多的文本語料以及將模型自適應到某一特定領域識別的時候,傳統(tǒng)的端到端識別模型和語言模型的融合只能帶來次優(yōu)的結(jié)果,使模型優(yōu)越性不能得到充分發(fā)揮。

對于此,論文基于貝葉斯后驗概率原理,將端到端估計的后驗概率拆解成似然概率和“內(nèi)部語言模型”概率乘積形式,目標是更好地估計“內(nèi)部語言模型”,從而讓模型更高效地與外部語言模型融合,進而提出兩個“內(nèi)部語言模型”的估計方法,分別是一次性靜態(tài)上下文矢量學習方法以及基于輕量級神經(jīng)網(wǎng)絡動態(tài)上下文矢量學習方法,兩種估計方法無需任何額外假設,在多種語料以及多種環(huán)境下驗證了提出方法的有效性。在跨域條件下相對傳統(tǒng)的語言模型融合方法,我們提出的方法能取得19.05% 相對正向收益; 在域內(nèi)條件下,新方法也能取得7.4%的正向收益。

使用原始序列流利度特征提升口語流利度打分性能

Using Fluency Representation Learned from Sequential Raw Features for Improving Non-native Fluency Scoring

對于英語口語學習者而言,除了發(fā)音標準之外,流利程度也可以在某種程度上反映學習者的英語水平。作為評價學習者英語能力的重要維度之一,口語流利度主要反映了學習者發(fā)音語速的快慢以及是否出現(xiàn)異常停頓等發(fā)音現(xiàn)象。

對此火山語音團隊提出了一種基于原始序列特征的英語口語流利度建模方法,利用原始序列特征來替換傳統(tǒng)的手工設計特征,如語速,停頓次數(shù)等,即在音素層級提取出音素時長以及聲學特征并對其進行建模;此外還將靜音作為一種特殊音素,用于表征詞和詞之間的停頓現(xiàn)象。

a. 原始序列特征提取 b. 流利度建模

這種基于原始特征序列建模方法超過了領域內(nèi)其他方案, 在機器預測結(jié)果和人類專家打分之間相關性達了0.817,接近專家和專家之間的相關性 0.831。該方案將原始時長、停頓和聲學信息融合到一個序列建模框架中,讓機器自動去學習和任務相關的流利度特征,更好用于流利度打分。應用場景方面,該方法可被應用于有流利度自動評估的需求場景中,例如口語考試以及各種在線口語練習等。

基于多任務和遷移學習方法的MOS自動打分

A Multi-Task and Transfer Learning based Approach for MOS Prediction

語音質(zhì)量是反映語音合成(Text-To-Speech, TTS)、語音轉(zhuǎn)換(Voice Conversion, VC)等系統(tǒng)性能的主要指標;而MOS(Mean Opinion Score)則是標注人員對合成音頻進行聽力測試后,針對該音頻的語音質(zhì)量進行的主觀評價分數(shù)。在Interspeech 2022語音質(zhì)量打分挑戰(zhàn)(VoiceMOS)中,火山語音團隊在主領域賽道斬獲第四名。

針對兩種領域賽道,火山語音團隊提出了一種多任務學習方法,利用較多的主領域數(shù)據(jù)來協(xié)助子領域部分模塊訓練,同時將自動語音識別(Automatic Speech Recognition, ASR)的知識遷移到MOS打分任務。在wav2vec2.0上構建ASR系統(tǒng),然后將系統(tǒng)wav2vec2.0部分作為MOS打分模型的編碼器,通過兩種不同領域的解碼器來對不同領域的數(shù)據(jù)進行MOS評分。

多任務的MOS打分結(jié)構

針對不同語音轉(zhuǎn)換(VC)系統(tǒng)的合成音頻打分任務,上述方案在主領域測試集上,SRCC指標和該比賽中最好的方案相差0.3%;在子領域測試集上,SRCC指標與該比賽中最好的方案相差0.2%。MOS自動打分的目標是利用機器對合成音頻自動打分來替換掉標注人員的人工評分,節(jié)約大量人力物力,達到省時省錢的效果,這對于推進語音合成(TTS)和語音轉(zhuǎn)換(VC)的技術發(fā)展具有重要意義。

關于火山語音團隊

火山語音,字節(jié)跳動 AI Lab Speech & Audio 智能語音與音頻團隊。一直以來面向字節(jié)跳動內(nèi)部各業(yè)務線以及火山引擎ToB行業(yè)與創(chuàng)新場景,提供全球領先的語音AI技術能力以及卓越的全棧語音產(chǎn)品解決方案。自 2017 年成立以來,團隊專注研發(fā)行業(yè)領先的 AI 智能語音技術,不斷探索AI 與業(yè)務場景的高效結(jié)合,以實現(xiàn)更大的用戶價值。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )