騰訊云公布聲音復刻技術(shù),錄音20句便可實現(xiàn)聲音定制

隨著AI語音應用進入差異化競爭時代,AI語音定制開始“飛入尋常百姓家”,越來越多地出現(xiàn)在智能電子產(chǎn)品、APP甚至愛心公益活動中。12月20日,在Techo Park開發(fā)者大會人工智能分論壇上,騰訊微信智聆實驗室高級研究員鄭藝斌展示了騰訊云聲音復刻產(chǎn)品。

鄭藝斌介紹,聲音復刻產(chǎn)品基于騰訊云AI平臺打造,客戶(用戶)只需要提供少量的錄音即可快速獲得個性化、輕量級的定制音色服務,主要應用于在線教育、音視頻內(nèi)容創(chuàng)作、智能硬件等場景或設備。

具體而言,針對在線教育領域,產(chǎn)品可以快速復刻老師音色,降低老師課堂互動成本,提升師生交互的體驗;在音視頻創(chuàng)作領域,可以幫助創(chuàng)作者低成本、快速地完成配音、錄音等工作,提升內(nèi)容生產(chǎn)效率;智能硬件方面,可以在玩具、音箱等智能設備上復刻家人音色,提升語音交互的溫度。

騰訊云公布聲音復刻技術(shù),錄音20句便可實現(xiàn)聲音定制

聲音復刻功能的背后,是騰訊AI語音技術(shù)的賦能。騰訊云聲音復刻技術(shù)是基于騰訊云的端到端語音合成系統(tǒng),主要由文本分析、聲學模型和聲碼器三部分組成。其中,文本分析負責從語言層、語法層、語義層解決文本發(fā)音問題,在漢語合成中主要涉及多音字、專業(yè)名詞、數(shù)字以及兒化音的問題。聲學模型負責建立文本序列到聲學序列的映射關(guān)系,為語音賦予韻律,如語速、語調(diào)、停頓、重音和情感變化等。最后通過聲碼器模型將聲學序列轉(zhuǎn)換為對應的波形信號。在端到端語音合成框架下,聲音復刻的主要技術(shù)思路是:首先對說話人音色空間進行建模,然后將建模結(jié)果分別作為聲學模型和聲碼器模型的輸入構(gòu)建對應的“平均”模型,最后在利用遷移學習對少量的目標人數(shù)據(jù)進行定制訓練。這里“平均”模型是在大量的語料上通過神經(jīng)網(wǎng)絡的建模分析方法訓練得到的人類語言與發(fā)聲特征的規(guī)律,因此可以在這個“平均”模型的基礎上達到音色快速定制的目的。

值得一提的是,騰訊云聲音復刻產(chǎn)品只需要20句錄音、訓練30min左右便可完成定制訓練并建立定制語音模型,而傳統(tǒng)的TTS建模至少需要10小時或10000句的聲音樣本量,這一變化使得語音定制的門檻被降低,讓更多的企業(yè)甚至普通消費者的聲音定制成為可能。

在英劇《黑鏡》中,女主人公瑪莎通過AI語音合成技術(shù)聽到了已故男友的聲音,傷痛心靈得以撫慰。而在現(xiàn)實世界中,定制語音也一直在探索中前進。如公益項目Revoice幫助漸凍癥患者留住自己的聲音;用明星語音進行地圖導航、起床提醒,甚至可以聊天、玩游戲等。

隨著前沿技術(shù)逐漸普世化,夯實人工智能技術(shù),開發(fā)出千人千面的硬件、千變?nèi)f化的應用已成為行業(yè)生存必選。目前,騰訊云AI智能語音產(chǎn)品包括語音識別、語音合成、機器翻譯等,騰訊云AI日處理語言達250萬小時。在產(chǎn)品矩陣之外,騰訊云為開發(fā)人員、算法工程師、合作伙伴提供了多層次的平臺,降低打造AI應用的門檻,加速AI應用創(chuàng)新,提升AI開發(fā)體驗。

未來,騰訊云AI語音團隊將和微信智聆實驗室等騰訊內(nèi)部AI團隊持續(xù)打磨技術(shù),為業(yè)界提供最具性價比的智能語音產(chǎn)品,推動智能語音在產(chǎn)業(yè)互聯(lián)網(wǎng)的廣泛落地,用前沿的技術(shù)和更極致的體驗,助力各行各業(yè)的數(shù)字化和智能化轉(zhuǎn)型,同時也努力創(chuàng)造更多社會價值,讓技術(shù)有溫度、更暖心。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )