“哪吒音色”閃亮登場!火山語音TTS為此可是忙壞了

現(xiàn)如今汽車不僅僅定位為交通工具,更是空間拓展、人性陪伴的承載。日前,哪吒新車隆重發(fā)布,除了各色亮眼的功能創(chuàng)新之外,其與火山引擎聯(lián)手打造的一款活力動感、富有“人情味兒”的車載語音助手音色引起廣泛關注。

聽起來究竟如何?Pick下方視頻鏈接,一起進入“哪吒音色”帶來的快樂旅途吧!

//tosv.byted.org/obj/speech-tts-external/nezha1219.mp4

量聲定制高度還原:從聲音開始了解TA

怎么樣?還可以吧?那么作為火山引擎語音合成產(chǎn)品的技術支持者,火山語音是如何幫助哪吒這樣的汽車企業(yè)打造如此個性又生動自然的音色的?

一直以來,“聲音”不僅被作為大腦中最基礎的記憶類型,更能直接影響人的情緒與感受,所以對于車載語音助手而言,聲音尤為重要。一款融合了企業(yè)品牌特性的高品質音色,不僅能為用戶提供更加愉悅的聽覺體驗,也能在一定程度上加強對企業(yè)品牌的輸出與認知。當然,打造高品質專屬企業(yè)音色并非易事,需要做到“高度還原發(fā)音人聲音特征”以及“將企業(yè)品牌特征抽象為聲音能表達的風格”兩個方面。

“高度還原是個技術活兒,不容易。在‘哪吒音色’的打造中,我們團隊使用了領先的多情感并行神經(jīng)網(wǎng)絡聲學模型以及生成對抗神經(jīng)網(wǎng)絡聲碼器來完成這一突破。其中,多情感并行神經(jīng)網(wǎng)絡聲學模型,能夠通過半監(jiān)督情感模塊和并行的編碼器、解碼器來理解、運用全局的文本、語音和其他表征信息進行聲音重建,從而高度還原發(fā)音人的音色、風格乃至說話習慣。”火山語音研究員總結到。

此外“生成對抗神經(jīng)網(wǎng)絡聲碼器”的使用,除了將頻譜轉化為音頻外,還可以通過對抗網(wǎng)絡對合成音頻進行監(jiān)督強化,確保生成的音頻具備高質量音質以及極佳的穩(wěn)定性,高度還原發(fā)音人聲音特征,做到真假難辨。

圖1 - 多情感語音合成框架

與此同時,火山語音團隊具有專業(yè)的配音導演和語音語言學專家,可以提供定向的演繹風格指導和品牌理念分析服務,協(xié)助企業(yè)抽象出貼合品牌形象的聲音風格,并幫助其找到與之匹配的發(fā)音人老師。

以聲傳情:讓交互有溫度更自然

傳統(tǒng)的車機語音助手通常風格嚴肅平淡,缺乏生動的情感表現(xiàn)力,但情感的生動表達往往能讓交互更具人情味兒,從而避免駕駛中的聽覺疲勞。對此,為了讓“哪吒音色”具備多情感的表現(xiàn)能力,火山語音團隊采用了半監(jiān)督情感模塊,僅憑借1小時的情感數(shù)據(jù)作為參考,智能分析出其余全量錄制語句的情感類型和情感強度,進而讓所有錄制數(shù)據(jù)都參與合成語音情感能力的建模,實現(xiàn)更顯著、更自然和更細膩的情感表現(xiàn)力。此外該模型還具備情感強度平滑控制的能力,能夠覆蓋多種不同的場景需要。

為了讓情感更適用于車載場景,火山語音團隊深入分析場景所需的情感類型,成功打造出適配該場景語音交互的四大情感類型:

冷靜: 耐心平和,可適配車載全部場景的通用情感

高興: 帶有笑意,讓人心情愉悅,娛樂休閑時為車主帶來更多歡樂

失落:失落抱歉,真誠真摯,當無法完成車主要求時自然的歉意表達

嬌蠻:嬌蠻可愛,又不過分嚴肅,可在車主違規(guī)超速時提醒

博學多才:多領域發(fā)音準確率超99%

車載助手通常覆蓋導航、天氣、資訊、車控、百科等諸多領域。駕駛員在行駛過程中,語音播報的內容被認為是主要的信息獲取來源,發(fā)音錯誤會直接影響到信息的傳遞和用戶的使用體驗,因此對合成語音的準確性提出了較高要求。對此火山語音針對汽車領域進行了深度優(yōu)化,前端發(fā)音準確率可達99.33%,這一切都歸功于團隊自研的文本分析模型。

該模型能夠同時對句級別文本進行注音、分詞和韻律預測,為合成音頻的發(fā)音準確、韻律節(jié)奏自然有表現(xiàn)力提供了重要支撐;同時對于車機場景存在的但文本分析模型尚無法準確處理的專業(yè)名詞,還提供了高效的熱修復機制,能夠在分鐘級內修復此類問題。

同時,火山語音研究員介紹:“在解碼器中,我們引入了使用大量語音數(shù)據(jù)訓練的無監(jiān)督表征。這種無監(jiān)督表征有助于語音時頻信息的進一步抽象,能夠有效抽取語音中的關鍵信息,將其作為中間層的預測目標,極大降低了聲學模型的訓練難度。在有限的數(shù)據(jù)量下,模型具備極高的發(fā)音穩(wěn)定性和優(yōu)異的聲音表現(xiàn)力。受益于這種方案,哪吒不僅普通話專業(yè)流利,英文也能自如展現(xiàn)。”

圖2 - 解碼器模型結構

音人而異,打造多樣化個性之聲

長期以來,火山語音在特色音色、方言以及多語種音色上有著深厚積累,可對外提供60+高質量音色,包括:

萌娃、小蘿莉、動漫小新、譯制片男聲等趣味音色,可為車主提供個性化音色體驗;

河南話、廣東話、川渝話、東北話等多種方言能力滿足企業(yè)不同地域的需求;

英語、日語、韓語、歐洲、東南亞等多國家及地區(qū)語種能力為企業(yè)出海賦能

體驗更多音色效果:

https://www.volcengine.com/product/tts

穩(wěn)定流暢 :不同網(wǎng)絡環(huán)境輕松應對

在正常的行駛過程中,網(wǎng)絡環(huán)境不穩(wěn)定的情況在所難免,如隧道或者地下停車場。火山語音團隊為此提供了“在線+離線一體解決方案”,可實現(xiàn):

網(wǎng)絡狀態(tài)波動時,可自適應離在線切換,有效避免無網(wǎng)、弱網(wǎng)時的延遲與卡頓,為用戶提供盡在掌握的駕駛體驗;

在線音色和離線音色高度一致,音色切換自然流暢,避免了音色不一致導致聽感違和問題。

目前,火山語音,字節(jié)跳動 AI Lab Speech & Audio 智能語音與音頻團隊,將打磨多年的語音技術能力面向市場并通過火山引擎開放給外部企業(yè),已覆蓋汽車、金融、有聲閱讀、視頻配音等眾多應用場景,并助力多家行業(yè)頭部企業(yè)實現(xiàn)AI 語音能力的應用與拓展。此外多篇論文入選各類AI 頂級會議,技術能力已成功應用到抖音、剪映、番茄小說等多款產(chǎn)品上,未來火山語音還將不斷探索前沿科技與業(yè)務場景的高效結合,持續(xù)為用戶體驗和業(yè)務增長注入創(chuàng)新勢能,以實現(xiàn)更大價值。

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )