今日,獵豹移動(dòng)董事長(zhǎng)兼CEO傅盛在自己的抖音號(hào)上發(fā)布了一條視頻。作為一名“科技樂(lè)觀主義者”,傅盛和世界上的另一個(gè)“自己”進(jìn)行了一場(chǎng)隔空對(duì)話。短短幾十秒里,機(jī)器人“傅盛”的對(duì)答、繞口令樣樣精通。即使是仔細(xì)辨別,你也很難確認(rèn)哪一個(gè)才是真正的傅盛。
能夠達(dá)到如此驚艷的效果,其實(shí)要?dú)w功于獵豹移動(dòng)旗下人工智能公司獵戶(hù)星空研發(fā)的語(yǔ)音合成技術(shù)。只要聽(tīng)十段你的話,就可以克隆你的聲音,聽(tīng)起來(lái)是不是很炫酷?
在人機(jī)交互的過(guò)程中,與用戶(hù)體驗(yàn)感直接相關(guān)的,就是語(yǔ)音合成技術(shù)。這項(xiàng)技術(shù)是將文字轉(zhuǎn)化為聲音,可以簡(jiǎn)單地理解為人類(lèi)的嘴巴。大家在各種智能語(yǔ)音助手中聽(tīng)到的聲音,都是由TTS來(lái)生成的。所以,讓TTS合成的語(yǔ)音能夠“以假亂真”,正是TTS領(lǐng)域長(zhǎng)期以來(lái)不斷探索的主題。
傳統(tǒng)的TTS都是怎么做的?
在看獵戶(hù)星空如何實(shí)現(xiàn)“以小取大”的效果時(shí),我們可以先看看以往的TTS是如何實(shí)現(xiàn)的。
傳統(tǒng)的TTS系統(tǒng)通常包括前端、后端兩個(gè)模塊。前端模塊主要負(fù)責(zé)對(duì)輸入文本進(jìn)行分析,提取語(yǔ)言學(xué)信息,如果是中文還涉及文本正則化、分詞、詞性預(yù)測(cè)、多音字消歧、韻律預(yù)測(cè)等,后端模塊根據(jù)前端的分析結(jié)果,通過(guò)一定的方法生成語(yǔ)音波形。
后端系統(tǒng)的主流技術(shù)有兩種,一種是基于統(tǒng)計(jì)參數(shù)建模的語(yǔ)音合成,或者叫做參數(shù)合成、參數(shù)法,優(yōu)點(diǎn)是所需語(yǔ)料庫(kù)少,幾千句即可,訓(xùn)練與合成過(guò)程也都可以由程序自動(dòng)完成,但缺點(diǎn)是語(yǔ)音質(zhì)量不高,情感韻律平淡。
現(xiàn)在大家地圖導(dǎo)航軟件中的聽(tīng)到的明星音,針對(duì)導(dǎo)航場(chǎng)景錄制了幾千句的語(yǔ)料,不僅聲音生澀感強(qiáng),而且需要的成本和周期較長(zhǎng),在其他領(lǐng)域的聲音效果不是很好。如果用戶(hù)預(yù)期不苛刻,這樣一種方式也未嘗不可。
另一種是基于單元挑選和波形拼接的語(yǔ)音合成,或者叫做拼接合成、拼接法,與參數(shù)法相反,優(yōu)點(diǎn)是合成語(yǔ)音自然度很好,缺點(diǎn)就是數(shù)據(jù)要求太大,至少萬(wàn)句語(yǔ)料才能滿足商用需求,一些廠商會(huì)請(qǐng)聲優(yōu)為其智能產(chǎn)品錄制語(yǔ)料庫(kù),前后時(shí)間長(zhǎng)達(dá)數(shù)月,花費(fèi)動(dòng)輒幾百萬(wàn)。
獵戶(hù)星空:十段話合成人聲
魚(yú)和熊掌不可兼得,傳統(tǒng)的TTS存在著或多或少的問(wèn)題。所以這個(gè)領(lǐng)域的核心,在于如何降低訓(xùn)練成本,用更少的語(yǔ)料合成高質(zhì)量的聲音。
隨著人工智能、深度學(xué)習(xí)的應(yīng)用,TTS也迎來(lái)了新的變革。2017年3月,Google 提出了一種新的端到端的語(yǔ)音合成系統(tǒng):Tacotron。它可將接收的輸入字符,輸出成相應(yīng)的原始頻譜圖,然后提供給Griffin-Lim重建算法生成語(yǔ)音。2017年底,Tacotron 2結(jié)合了WaveNet和Tacotron的優(yōu)勢(shì),不需要任何語(yǔ)法知識(shí)即可直接輸出文本對(duì)應(yīng)的語(yǔ)音。
在已有的技術(shù)創(chuàng)新鋪墊下,獵戶(hù)星空TTS團(tuán)隊(duì)在Tactron的基礎(chǔ)上,訓(xùn)練了大語(yǔ)料庫(kù)的語(yǔ)音庫(kù)作為基礎(chǔ)模型,目標(biāo)發(fā)音人只需要錄制10段話,通過(guò)Adapt自適應(yīng)模型,提取出目標(biāo)發(fā)音人的特征,再通過(guò)World聲碼器,即可合成出目標(biāo)發(fā)音人音色相同的語(yǔ)音。
所以,這項(xiàng)技術(shù)真正落地商用后,將為明星語(yǔ)音、個(gè)性化語(yǔ)音的合成帶來(lái)重大突破,尤其是很大程度上減少明星音合成的成本、縮短應(yīng)用研發(fā)的周期。
想象一下,以后你的語(yǔ)音助手中住著你喜歡的明星或心愛(ài)的人,每天都可以和TA互動(dòng)聊天,仿佛TA就是你的私人小秘書(shū),是不是有點(diǎn)小激動(dòng)呢?
除此之外,獵戶(hù)星空已掌握麥克風(fēng)陣列、語(yǔ)音喚醒、語(yǔ)音識(shí)別、語(yǔ)義理解和語(yǔ)音合成等全套遠(yuǎn)場(chǎng)語(yǔ)音技術(shù),語(yǔ)音交互更快更準(zhǔn),垂直領(lǐng)域深度語(yǔ)義理解正確率96%,還首創(chuàng)了喚醒后人聲回應(yīng)。
獵戶(hù)語(yǔ)音OS成為行業(yè)標(biāo)配
在上文提到技術(shù)能力支撐之下,獵戶(hù)星空打造了獵戶(hù)tts——這個(gè)星球最溫暖的AI聲音。目前獵戶(hù)語(yǔ)音OS技術(shù)已經(jīng)應(yīng)用到了小米小愛(ài)同學(xué)、美的小美AI音箱、喜馬拉雅小雅音箱、獵豹移動(dòng)小豹AI音箱、華為智能AI音箱等多家合作伙伴產(chǎn)品中,已經(jīng)成為行業(yè)標(biāo)配。
截至目前,搭載獵戶(hù)語(yǔ)音合成技術(shù)的智能音箱產(chǎn)品在國(guó)內(nèi)份額已超30%,每天都超過(guò)2000萬(wàn)次語(yǔ)音服務(wù)請(qǐng)求,比如小米AI助理小愛(ài)同學(xué)月活躍設(shè)備超過(guò)3000萬(wàn)臺(tái),累計(jì)喚醒超50億次。
10月15日,中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(AIIA)在人工智能開(kāi)發(fā)者大會(huì)公布了國(guó)內(nèi)智能音箱智能化評(píng)級(jí)結(jié)果,包括獵豹移動(dòng)、小米、喜馬拉雅、百度、京東在內(nèi)的五家主流廠商攜其智能音箱產(chǎn)品參與了首批測(cè)試評(píng)估。獵戶(hù)語(yǔ)音OS占據(jù)了獲評(píng)產(chǎn)品前五強(qiáng)中的三席,支撐起了智能音箱市場(chǎng)的大半壁江山。
結(jié)合自身人機(jī)交互的產(chǎn)品基因和獵戶(hù)星空擁有的行業(yè)唯一的全鏈條AI技術(shù),獵豹移動(dòng)也在不同行業(yè)推動(dòng)人工智能產(chǎn)品的場(chǎng)景化落地。未來(lái),獵豹移動(dòng)與旗下獵戶(hù)星空還會(huì)將自主研發(fā)的視覺(jué)、導(dǎo)航、語(yǔ)音、機(jī)械臂技術(shù)等核心能力逐步對(duì)外開(kāi)放,與合作伙伴一起,讓機(jī)器人產(chǎn)品走進(jìn)大眾生活。
- 阿里智能互聯(lián)事業(yè)群變革:天貓精靈與夸克融合,探索AI新硬件新篇章
- 馬蜂窩與貴州聯(lián)手打造“AI游貴州”:智能科技引領(lǐng)文旅新潮流,打破傳統(tǒng)桎梏
- 淘寶紅包盛宴:春晚攜手送出25億,全民搶紅包嗨翻天
- TikTok破局而出,危機(jī)之下逆風(fēng)翻盤(pán)
- 中國(guó)協(xié)會(huì)力挺全球汽車(chē)業(yè):反對(duì)美禁令,呼吁共謀發(fā)展繁榮
- 抖音辟謠傳聞:實(shí)名嚴(yán)管,開(kāi)放不實(shí)!
- SaaS巨頭北森瞄準(zhǔn)未來(lái),并購(gòu)酷學(xué)院,搶占2025年市場(chǎng)先機(jī)
- 支付寶回應(yīng)補(bǔ)貼Bug:退回福利不會(huì)重發(fā),用戶(hù)安心享實(shí)惠
- 微軟365漲價(jià):月費(fèi)微調(diào)3美分,理性應(yīng)對(duì)成本上漲
- 哪吒汽車(chē)海外翻番計(jì)劃:2025年逐鹿全球,顛覆傳統(tǒng)出海模式
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。