高度還原!火山語(yǔ)音MegaTTS算法秒級(jí)別生成你的專屬AI聲音!

僅僅需要五秒鐘就能復(fù)刻你的聲音?

快來(lái)登錄火山引擎官網(wǎng)在語(yǔ)音技術(shù)下的開(kāi)放產(chǎn)品體驗(yàn)中心(https://www.volcengine.com/product/voicecloning)體驗(yàn)火山引擎聲音復(fù)刻2.0版本的驚艷效果吧!

火山引擎聲音復(fù)刻2.0采用了全新自研語(yǔ)音算法MegaTTS,經(jīng)專業(yè)評(píng)測(cè),聲音復(fù)刻2.0版本與真人錄音復(fù)刻的平均相似度已高達(dá)97.5%,不但超過(guò)一半的評(píng)測(cè)人員認(rèn)為復(fù)刻合成效果與真并無(wú)任何差異,而且在金融客服、視頻配音、智能語(yǔ)音助手、虛擬數(shù)字人等相關(guān)場(chǎng)景均可適用!

五秒鐘復(fù)刻:極速獲取高品質(zhì)AI專屬音色

傳統(tǒng)技術(shù)下,通常聲音復(fù)刻往往需要用戶錄制20-100句話,并訓(xùn)練幾分鐘甚至幾小時(shí)后才可就緒,這樣的“復(fù)刻門檻”往往讓人缺乏耐心且質(zhì)量也不盡如人意。

對(duì)此,火山引擎音色復(fù)刻2.0版本則在全面提升效果品質(zhì)的同時(shí),還攻克了錄制量級(jí)及訓(xùn)練時(shí)長(zhǎng)這兩大難關(guān)。

其核心算法MegaTTS只需要五秒鐘的數(shù)據(jù)量,就能對(duì)各種風(fēng)格、口音以及聲學(xué)環(huán)境下的音色進(jìn)行克隆。同時(shí)MegaTTS算法具有大模型特有的In-context-learning能力,無(wú)需對(duì)用戶音色進(jìn)行Fine-tuning就能實(shí)現(xiàn)復(fù)刻。區(qū)別于傳統(tǒng)的音色復(fù)刻模型,MegaTTS可以免除訓(xùn)練時(shí)長(zhǎng),即時(shí)極速?gòu)?fù)刻。

高度還原:平均相似度高達(dá)97.5%

此外MegaTTS算法還設(shè)計(jì)了基于注意力機(jī)制的細(xì)粒度無(wú)限長(zhǎng)音色提示模塊,以及基于大語(yǔ)言模型的韻律提示模塊,在音色與韻律上都能夠極高還原用戶輸入音頻的發(fā)聲特點(diǎn)。

在真實(shí)的評(píng)測(cè)和用戶體驗(yàn)中,不但還原之后的平均相似度已高達(dá)97.5%,環(huán)境音也可以被完美重現(xiàn)。

值得提及的是,火山引擎聲音復(fù)刻2.0版本為客戶了提供多種接入方式,并支持云端接入和私有化集成。無(wú)論是在金融客服、視頻配音、智能語(yǔ)音助手、虛擬數(shù)字人還是其他語(yǔ)音應(yīng)用場(chǎng)景中都能快速接入。

語(yǔ)音大模型創(chuàng)新范式 MegaTTS將聲音復(fù)刻帶入新境界

火山引擎聲音復(fù)刻2.0版本采用了火山語(yǔ)音團(tuán)隊(duì)全新自研語(yǔ)音算法MegaTTS,新一代算法僅需要用戶秒級(jí)別的音頻數(shù)據(jù)即可即時(shí)完成對(duì)用戶音色、說(shuō)話風(fēng)格、口音和聲學(xué)環(huán)境音的復(fù)刻。徹底攻克了傳統(tǒng)聲音復(fù)刻對(duì)錄音數(shù)據(jù)量的依賴,超低門檻的數(shù)據(jù)輸入即可獲得超高品質(zhì)的AI專屬音色。

實(shí)驗(yàn)結(jié)果表明,當(dāng)數(shù)據(jù)量在10秒到5分鐘之間時(shí),MegaTTS不僅可以在任意來(lái)源的新用戶的短提示下合成保同語(yǔ)音,而且始終優(yōu)于基于Fine-tuning的基線方法(Portaspeech 2)。

此外得益于音色和韻律獨(dú)立建模的方式,火山語(yǔ)音的韻律語(yǔ)言模型可以以細(xì)粒度和可控的方式將各種說(shuō)話風(fēng)格轉(zhuǎn)移到目標(biāo)音色,甚至可以模仿Rap。未來(lái)這些功能也會(huì)陸續(xù)上線,為更多用戶提供創(chuàng)作空間。

一直以來(lái),火山語(yǔ)音團(tuán)隊(duì)不斷將打磨多年的語(yǔ)音技術(shù)能力面向市場(chǎng)并通過(guò)火山引擎開(kāi)放給外部企業(yè),已覆蓋汽車、金融、有聲閱讀、視頻配音等眾多應(yīng)用場(chǎng)景,技術(shù)能力已成功應(yīng)用到抖音、剪映、番茄小說(shuō)等多款國(guó)民級(jí)產(chǎn)品上,并助力多家行業(yè)頭部企業(yè)實(shí)現(xiàn)AI語(yǔ)音能力的應(yīng)用與拓展。未來(lái)火山語(yǔ)音還將不斷探索前沿科技與業(yè)務(wù)場(chǎng)景的高效結(jié)合,持續(xù)為用戶體驗(yàn)和業(yè)務(wù)增長(zhǎng)注入創(chuàng)新勢(shì)能,以實(shí)現(xiàn)更大價(jià)值。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )