「ACL 2023」:火山語音團隊多篇論文中選,涉多方向技術創(chuàng)新突破

日前 ACL 2023的論文錄用結(jié)果公布,火山語音團隊多篇論文成功入選,內(nèi)容涵蓋音頻合成、歌聲合成以及語音翻譯等多個前沿技術領域的創(chuàng)新突破。ACL(Annual Meeting of the Association for Computational Linguistics)每年由國際計算語言學協(xié)會舉辦,是自然語言處理與計算語言學領域最高級別的學術會議,也是中國計算機學會(CCF)A類推薦會議,在世界范圍內(nèi)享有極高聲譽,并受到全球各地語言領域人士的廣泛關注。

結(jié)合視覺信息的端到端語音翻譯( AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation)

研究背景:眾所周知,語音到語音翻譯(S2ST)對于打破語言壁壘與溝通障礙非常有益。近年來業(yè)內(nèi)利用自監(jiān)督模型獲得的離散單元,構建無文本且端到端的 S2ST 系統(tǒng)逐漸成為主流,但當前的S2ST模型在帶噪的環(huán)境中仍然存在明顯退化,并且無法翻譯視覺語音(即唇動)。在這項工作提升中,火山語音團隊聯(lián)合浙江大學提出了AV-TranSpeech,業(yè)內(nèi)首個借助視頻信息的無文本語音到語音翻譯(AV-S2ST)模型,通過視覺信息補充音頻流,以提高系統(tǒng)的穩(wěn)健性,并開辟了一系列應用前景,例如口述、為檔案電影配音等。

方法介紹:為了緩解AV-S2ST數(shù)據(jù)稀缺,團隊率先探索使用無標記音視頻數(shù)據(jù)進行自監(jiān)督預訓練,以學習上下文表示;此外使用在純音頻語料庫上訓練的S2ST模型引入跨模態(tài)蒸餾,進一步降低對視覺數(shù)據(jù)的要求。在兩種語言對的實驗結(jié)果表明,無論噪聲類型如何,AV-TranSpeech在所有設置下都優(yōu)于純音頻模型,尤其是在低資源數(shù)據(jù)(10小時、30小時)下,跨模態(tài)蒸餾可提高7.6 個BLEU點。“如圖所示,我們使用自監(jiān)督HuBERT來獲得目標語音的離散單元;建立視聽語音到單元轉(zhuǎn)換(AV-S2UT)和應用單獨訓練的基于單元的聲碼器以將轉(zhuǎn)換的單元轉(zhuǎn)換成波形。”火山語音團隊表示。

為了緩解音頻和視頻表示之間的長度不匹配,團隊還添加了一個隨機初始化的模態(tài)適配器層,該層由音頻和視頻流之間的步長為2的單個一維卷積層組成。“為了防止模型在聯(lián)合模型中過度依賴音頻流,我們在融合音頻和視覺輸入之前,包括一個概率為p=50%的模態(tài)Dropout,迫使視覺編碼器學習上下文表示。”

圖1:AV-TranSpeech模型架構圖

呈現(xiàn)效果:總結(jié)翻譯準確性和語音自然度,火山語音發(fā)現(xiàn):大規(guī)模多模式預訓練在很大程度上提高了性能,這主要是因為LRS3-T是一個具有挑戰(zhàn)性的數(shù)據(jù)集,有很大一部分視頻是從TED演講中收集的,顯示了在不依賴中間文本或輔助多任務訓練下S2ST的難度。此外,視覺模態(tài)的引入能夠帶來平均2.0個 BLEU點的增益,即用視覺信息補充音頻流,開辟了一系列實際應用,比方說實現(xiàn)無聲聽寫或為檔案無聲電影配音。對于語音質(zhì)量,由于團隊應用了公開可用的預訓練單元聲碼器,該聲碼器主要控制輸出語音的自然度并保持不變,AV-TranSpeech表現(xiàn)出高質(zhì)量的語音生成。

利用文本-語音對比學習提出針對語音合成的韻律文本表征 (CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-Training)

研究背景:提高文本表征是實現(xiàn)富有韻律的語音合成系統(tǒng)的重要途徑,然而現(xiàn)有的工作通常采用基于語言模型 (BERT) 的文本表征來提升合成語音的韻律的方法,這就帶來了使用預測掩碼標記(masked token prediction)任務進行預訓練,更關注的卻是文本的語義信息而非語音的韻律,從而導致訓練效率低以及韻律建模困難等問題。

方法介紹:基于上述觀察,火山語音團隊聯(lián)合浙江大學提出了CLAPSpeech,這是一個跨文本-語音模態(tài)的對比預訓練方法。與現(xiàn)有工作不同,它從相同文本標記在不同語境下的韻律變化中學習,因而能夠顯式高效地從文本中提取韻律相關的信息。具體而言,首先我們巧妙設計一個文本編碼器和韻律編碼器,鼓勵模型在聯(lián)合跨模態(tài)空間中將文本上下文與其對應的韻律模式連接起來;第二團隊引入了多尺度預訓練方案,以在音素、詞匯等不同層次上捕獲韻律模式;最后展示了如何將CLAPSpeech整合到現(xiàn)有的TTS模型中以獲得更好的韻律。

圖2: CLAPSpeech的文本-語音跨模態(tài)對比學習訓練流程

呈現(xiàn)效果:在兩個1000小時級別的中英文語音合成數(shù)據(jù)集完成的實驗均表明,采用CLAPSpeech提供的文本表征可以顯著提升現(xiàn)有TTS方法的韻律建模;實驗同時還證明了CLAPSpeech的泛化能力,可以適應多語言和多說話人的復雜語音合成任務。現(xiàn)有的語音合成、歌聲合成等系統(tǒng)都可以很方便地使用CLAPSpeech預訓練模型的文本表征以提升合成音頻的韻律自然程度。

基于跨模態(tài)對齊的從語音到歌聲轉(zhuǎn)換( AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment)

研究背景:從語音到歌聲轉(zhuǎn)換(Speech-to-Singing,STS)任務的目標是將語音樣本轉(zhuǎn)換為內(nèi)容(歌詞)一致的歌聲樣本,同時保證說話人的音色不變。在轉(zhuǎn)換的過程中,需要提供目標音高作為轉(zhuǎn)換的參考,相關的研究與技術不僅有助于探索人類聲音的合成規(guī)律,也對計算機輔助音樂制作等領域有幫助。通常STS任務與傳統(tǒng)人聲轉(zhuǎn)換任務(Voice Conversion,VC)不同的一點是其需要轉(zhuǎn)換兩個獨立特征:第一個是節(jié)奏,即時間模態(tài),是音素在時域上的排列方式;第二個是音高,即頻率模態(tài)。以往的STS方法側(cè)重于音高的轉(zhuǎn)換,忽略了音素位置在語音和歌聲兩者之間的差距,這會導致合成的音素含混不清、順序混亂,同時由于歌曲制作中常見的一字多音等情況,字符序列在給定的音高序列中的位置分配情也是是一個復雜的概率分布。

圖3:AlignSTS模型架構圖

方法介紹:對此,本方法提出了跨模態(tài)對齊的解決方案。重要的一點,團隊提出了一個更簡潔高效的時間模態(tài)表示,即節(jié)奏特征。該特征被用于縮小語音內(nèi)容和目標音高之間的模態(tài)差異,可被視為一種軟化的時長標注。根據(jù)經(jīng)驗觀察,人類總能在給定歌詞序列和音高序列的前提下創(chuàng)作出聽感合理的歌詞節(jié)奏,說明連接這兩者的節(jié)奏特征的概率分布可被良好定義。本方法先對輸入語音信息進行破壞和解耦,接著使用交叉注意力機制建模目標節(jié)奏特征,并使用節(jié)奏特征對語音特征進行重排列和重對齊,最后再使用擴散模型作為聲學特征解碼器以提高音質(zhì)。

呈現(xiàn)效果:在多輪實驗中,本方法在總質(zhì)量MOS評分和韻律MOS評分中獲得了平均0.39和0.36的提升;同時在零樣本測試中,只在純歌聲數(shù)據(jù)集上訓練的模型能夠在未見語音數(shù)據(jù)上獲得0.11的提升,展現(xiàn)了良好的泛化性能。

針對口吃語音提出的自動化語音編輯系統(tǒng)(FluentSpeech: A Stutter-Oriented Automatic Speech Editing System)

研究背景:最近基于文本的語音編輯受到業(yè)界的廣泛關注,其中口吃消除作為語音編輯的一個關鍵子任務,有著十分廣泛的應用場景,如短視頻、電影、播客、YouTube視頻,講座等,能夠為媒體制作人提供極大的便利。然而之前的語音編輯工作仍然存在諸多不足之處,例如:

· 音質(zhì)較低。生成的mel聲譜圖通常是模糊的,并且缺乏高頻細節(jié),導致修改區(qū)域出現(xiàn)不自然的聲音;

· 沒有針對口吃語音進行設計。當需要編輯的語音充滿口吃時,由于文本和口吃語音內(nèi)容之間的差異,導致文本到語音的對齊過程受到影響,使得系統(tǒng)的魯棒性降低;

· 口吃區(qū)域需要手動定位,這對媒體制作人來說既費時又費力。

對此該論文首創(chuàng)性地針對口吃語音提出了一個自動化語音編輯系統(tǒng),也就是FluentSpeech。這是首個針對口吃消除任務進行優(yōu)化的語音編輯系統(tǒng),可以自動檢測口吃區(qū)域?qū)⑵淙コ⑼瑫r生成具有豐富細節(jié)的流暢語音。此外它也在其他語音編輯任務(如增、刪、改等)達到了SOTA效果,能夠完成多場景下的零樣本語音編輯,極大節(jié)省了配音人員、媒體制作者的人力投入。

圖4:FluentSpeech模型架構圖

方法介紹:首先團隊采用了一種上下文感知的擴散模型,該模型可以顯式理解待編輯語音的上下文信息(如基頻、持續(xù)時間、口吃信息等)并利用這些信息作為條件來指導擴散和反向過程,這有助于FluentSpeech生成高質(zhì)量而過渡自然的結(jié)果。“為了提高對口吃語音的魯棒性,我們在訓練過程中引入了一種條件口吃預測器,該預測器定位口吃區(qū)域,并將口吃信息注入幀級隱序列,以減少文本和口吃語音之間的信息差異。”此外預測的口吃區(qū)域可以被用于自動口吃去除過程。另外還提出了一個新的數(shù)據(jù)集,稱為“面向口吃的自動語音編輯數(shù)據(jù)集”,該數(shù)據(jù)集包含具有時間對齊的口吃標簽的語音數(shù)據(jù),可以用于相關語音編輯系統(tǒng)的訓練。

呈現(xiàn)效果:該系統(tǒng)在VCTK數(shù)據(jù)集上與最新的基線系統(tǒng)進行了對比實驗,在常規(guī)語音編輯任務中,音質(zhì)主觀評測MOS分數(shù)提升了0.18,說話人相似度主觀評測MOS分數(shù)提升了0.15。在該論文新收集的口吃語音數(shù)據(jù)集的實驗中,系統(tǒng)對口吃語音具有很高的魯棒性,其口吃區(qū)域預測的幀級別準確度為80.5%,能夠顯著提高口吃語音的流暢性。

一直以來,火山語音團隊面向字節(jié)跳動內(nèi)部各業(yè)務線,提供優(yōu)質(zhì)的語音AI技術能力以及全棧語音產(chǎn)品解決方案,并通過火山引擎對外提供服務。自 2017 年成立以來,團隊專注研發(fā)行業(yè)領先的 AI 智能語音技術,不斷探索AI 與業(yè)務場景的高效結(jié)合,以實現(xiàn)更大的用戶價值。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )