車載語(yǔ)音交互技術(shù)繁榮發(fā)展,火山語(yǔ)音讓車企品牌“繪聲繪色”

汽車消費(fèi)歷來(lái)是國(guó)民消費(fèi)經(jīng)濟(jì)的重要組成部分,配備了智能技術(shù)的新能源汽車更是在近年來(lái)快速崛起,成為汽車消費(fèi)的主流。在日益成熟的智能汽車科技中,車載語(yǔ)音交互與應(yīng)用隨之步入市場(chǎng)爆發(fā)期,進(jìn)而成為繼智能手機(jī)和智能音箱之后的第三大智能語(yǔ)音場(chǎng)景。在車載語(yǔ)音交互新勢(shì)力中,火山引擎憑借長(zhǎng)期以來(lái)對(duì)汽車行業(yè)的深刻洞察與豐富經(jīng)驗(yàn),依托一直以來(lái)為字節(jié)跳動(dòng)內(nèi)部各業(yè)務(wù)線提供優(yōu)質(zhì)語(yǔ)音AI技術(shù)能力以及全棧語(yǔ)音產(chǎn)品解決方案的火山語(yǔ)音團(tuán)隊(duì),為車企帶來(lái)了耳目一新的交互體驗(yàn)。

日前,火山語(yǔ)音團(tuán)隊(duì)正式為哪吒汽車旗下重磅車型哪吒S推出“哪吒音色”新功能,以更低成本和更高效率為車企打造專屬“音色”,成為哪吒汽車遙遙領(lǐng)先2022年新能源車新勢(shì)力銷量榜單的關(guān)鍵技術(shù)競(jìng)爭(zhēng)力之一。據(jù)了解,“哪吒音色”不但可以生動(dòng)表達(dá)高興、失落、嬌蠻、冷靜四種情緒,還支持河南話、廣東話、川渝話等特色方言以及以小蘿莉、活潑女聲等為代表的趣味音色。更重要的一點(diǎn),憑借超99%的準(zhǔn)確率和在線、離線環(huán)境下穩(wěn)定流暢的語(yǔ)音表現(xiàn),火山語(yǔ)音成功讓汽車?yán)L聲繪色,再造品牌新勢(shì)力。

智能語(yǔ)音合成引領(lǐng)車載語(yǔ)音交互市場(chǎng)

據(jù)中國(guó)汽車工業(yè)協(xié)會(huì)數(shù)據(jù),2022年1月到11月中國(guó)新能源汽車產(chǎn)銷超過(guò)600萬(wàn)輛,同比均增長(zhǎng)1倍,市場(chǎng)占有率達(dá)25%,該市場(chǎng)的強(qiáng)勢(shì)拉升已成定局,隨之而來(lái)車載語(yǔ)音交互市場(chǎng)迎來(lái)了發(fā)展的黃金期。

目前,車載語(yǔ)音交互功能已成為中國(guó)乘用汽車座艙內(nèi)的標(biāo)配功能,滲透率高達(dá)86%,其中以主機(jī)廠商、造車新勢(shì)力、智能語(yǔ)音處理引擎及應(yīng)用供應(yīng)商、云服務(wù)商、平臺(tái)整體商等為代表的“多元競(jìng)爭(zhēng)”逐步走入白熱化階段,可以預(yù)見(jiàn)智能語(yǔ)音合成技術(shù)或?qū)⒊蔀楦鞣絼?shì)力的下一個(gè)殺手锏。

此外伴隨新能源汽車銷量的快速拉升,也促成了新消費(fèi)群體和需求的規(guī)?;楷F(xiàn)。以Z世代和女性消費(fèi)群體為代表的新消費(fèi)群體,對(duì)于消費(fèi)個(gè)性化和差異化需求顯著,迫使汽車消費(fèi)正從出行剛需轉(zhuǎn)向個(gè)性消費(fèi)。社交需求、自我塑造、悅己需求等,讓智能音色成為新消費(fèi)群體選擇汽車品牌的新因素。總體而言,通過(guò)語(yǔ)音合成技術(shù)形成的個(gè)性化、情感化、可定制化的智能音色,或成為突圍車載語(yǔ)音交互同質(zhì)化競(jìng)爭(zhēng)的關(guān)鍵突破口。

眾多周知,當(dāng)前新能源汽車的車載語(yǔ)音通常為標(biāo)準(zhǔn)音色,主要由于可定制化音色通常需要不同的語(yǔ)料包進(jìn)行訓(xùn)練,但優(yōu)質(zhì)音頻數(shù)據(jù)和發(fā)音人較為稀缺,部分小語(yǔ)種音頻數(shù)據(jù)標(biāo)注員更為稀缺等原因,所以訓(xùn)練多趣味、多方言、多語(yǔ)種的音色模型消耗成本較高,因此能夠既好又快推出車載智能音色的汽車品牌,或?qū)⒙氏日碱I(lǐng)市場(chǎng),而在這一方面,我們不可忽視哪吒汽車的異軍突起。

全新的智能音色,背后是強(qiáng)大的技術(shù)實(shí)力

放眼廝殺激烈的中國(guó)新能源車市場(chǎng),哪吒汽車交出的成績(jī)單可謂亮眼:2022年11月,月交付同比增長(zhǎng)51%;1-11月累計(jì)交付同比增長(zhǎng)142%……而在出色的銷售數(shù)據(jù)之下,實(shí)力強(qiáng)大的智能技術(shù)體系不可小覷,其中就包括全雙工連續(xù)對(duì)話、可見(jiàn)即可說(shuō)等流暢精準(zhǔn)的智能語(yǔ)音體驗(yàn),而近日“哪吒音色”的正式上線,則為用戶帶來(lái)了“你的情緒我都懂”的全新感受。

作為一款活力動(dòng)感、富有“人情味兒”的車載語(yǔ)音助手音色,哪吒汽車S聯(lián)合火山語(yǔ)音為用戶提供了多樣與個(gè)性兼具的音色選擇,無(wú)論是趣味音色、還是多方言、多語(yǔ)種的嘗試,都可隨心切換。例如,“哪吒音色”提供了高興、失落、嬌蠻、冷靜四大情感交互場(chǎng)景,比方說(shuō)無(wú)法完成車主要求時(shí)的歉意表達(dá)音色、車主違規(guī)超速時(shí)提醒的嬌蠻可愛(ài)音色等。關(guān)于此,火山語(yǔ)音團(tuán)隊(duì)采用了半監(jiān)督情感模塊,僅憑借1小時(shí)的情感數(shù)據(jù)作為參考,智能分析出其余全量錄制語(yǔ)句的情感類型和情感強(qiáng)度,進(jìn)而讓所有錄制數(shù)據(jù)都參與合成語(yǔ)音情感能力的建模,實(shí)現(xiàn)更顯著、更自然和更細(xì)膩的情感表現(xiàn)力。值得提及的一點(diǎn),在“哪吒音色”個(gè)性化的聽(tīng)感下,是極速響應(yīng)靈敏加成。火山語(yǔ)音團(tuán)隊(duì)表示,“哪吒音色”運(yùn)用了業(yè)界領(lǐng)先的基于無(wú)監(jiān)督表征的并行對(duì)抗深度神經(jīng)網(wǎng)絡(luò),語(yǔ)音請(qǐng)求延時(shí)低于150毫秒,全鏈路句準(zhǔn)確率達(dá)到98.1%。在語(yǔ)音質(zhì)量MOS評(píng)分中達(dá)到4.6分(滿分5分),以行業(yè)領(lǐng)先水平做到“更懂你心”!

自2022年10月試上線以來(lái),“哪吒音色”引起了用戶和眾多汽車品牌的強(qiáng)大興趣,其背后正是火山語(yǔ)音強(qiáng)大的語(yǔ)音合成能力。一直以來(lái)團(tuán)隊(duì)針對(duì)數(shù)據(jù)獲取難、專業(yè)要求高、訓(xùn)練難度大、消耗成本高等業(yè)界疑難問(wèn)題開(kāi)展多音色模型訓(xùn)練,提出了低成本、高效率、批量生產(chǎn)的方案,為企業(yè)用戶提供了許多“聽(tīng)得懂”、“說(shuō)的好”、“會(huì)的多”的音色。尤其是不久之前上新發(fā)布的超自然對(duì)話語(yǔ)音合成技術(shù),相較傳統(tǒng)TTS更加真實(shí)自然,語(yǔ)氣詞、吸氣聲、猶豫時(shí)的停頓以及字音拖長(zhǎng)等細(xì)節(jié)都被精準(zhǔn)復(fù)現(xiàn),而且只需常規(guī)音庫(kù)1/4數(shù)據(jù),就可極大還原真人說(shuō)話細(xì)微的韻律特點(diǎn)、發(fā)音口癖,讓合成效果更加真實(shí),給人帶來(lái)沉浸式的聽(tīng)感體驗(yàn)。其對(duì)外推出的“音色復(fù)刻技術(shù)”,作為一套全自動(dòng)高效化的輕量級(jí)音色定制方案,不同于傳統(tǒng)語(yǔ)音合成技術(shù)對(duì)數(shù)據(jù)的高門檻要求,對(duì)數(shù)據(jù)量的需求僅為傳統(tǒng)方法的0.3%,普通人在相對(duì)安靜的開(kāi)放環(huán)境錄制2分鐘以上,即可達(dá)到音色空間建模的標(biāo)準(zhǔn),生成專屬音色的AI模型,便捷又高效。

在“哪吒音色”的背后是火山語(yǔ)音團(tuán)隊(duì)。作為火山引擎語(yǔ)音合成產(chǎn)品的技術(shù)能力提供方,火山語(yǔ)音團(tuán)隊(duì)即字節(jié)跳動(dòng)AI Lab Speech & Audio智能語(yǔ)音與音頻團(tuán)隊(duì),自2017年成立以來(lái)就專注研發(fā)行業(yè)領(lǐng)先的AI智能語(yǔ)音技術(shù),截止2022年上半年,團(tuán)隊(duì)已有17篇論文入選AI頂級(jí)會(huì)議,其中音頻生成方向接受了8篇論文?;鹕秸Z(yǔ)音團(tuán)隊(duì)攻克了很多語(yǔ)音合成技術(shù)的前沿挑戰(zhàn),例如在在韻律建模方面,不同的語(yǔ)言、方言、風(fēng)格都具備自身的韻律特點(diǎn),有不同的語(yǔ)速、語(yǔ)調(diào)、重音模式等語(yǔ)音變化信息,這種細(xì)粒度的韻律特征顯著地影響著發(fā)音準(zhǔn)確性和地道性,而傳統(tǒng)的端到端神經(jīng)網(wǎng)絡(luò)框架很難隱式建模和控制這種細(xì)粒度的韻律特征變化。對(duì)此,火山語(yǔ)音團(tuán)隊(duì)提出了音素級(jí)別細(xì)粒度韻律建模的AM架構(gòu),通過(guò)引入音調(diào)、短語(yǔ)重音等音素級(jí)別的韻律特征以及音素級(jí)變量適配器,可以分別實(shí)現(xiàn)音節(jié)、短語(yǔ)和句子級(jí)別語(yǔ)調(diào)、重音模式變化,實(shí)現(xiàn)“聽(tīng)得懂”、“說(shuō)的好”。

在火山語(yǔ)音團(tuán)隊(duì)強(qiáng)大科研力量的支持下,火山引擎語(yǔ)音合成產(chǎn)品于2022年11月獲得國(guó)家語(yǔ)音及圖像識(shí)別產(chǎn)品質(zhì)量檢驗(yàn)檢測(cè)中心頒發(fā)的語(yǔ)音合成增強(qiáng)級(jí)檢驗(yàn)檢測(cè)證書(shū),在語(yǔ)音合成的基本要求以及擴(kuò)展要求上已達(dá)最高等級(jí)標(biāo)準(zhǔn)。經(jīng)評(píng)測(cè),火山引擎提供的音色MOS評(píng)分最高可達(dá)4.64分,處行業(yè)領(lǐng)先水平。目前,火山語(yǔ)音將打磨多年的語(yǔ)音技術(shù)能力面向市場(chǎng),通過(guò)火山引擎開(kāi)放給外部企業(yè),已覆蓋汽車、金融、有聲閱讀、視頻配音等眾多應(yīng)用場(chǎng)景。

展望2023:在火山語(yǔ)音團(tuán)隊(duì)的持續(xù)創(chuàng)新與快速創(chuàng)新成果轉(zhuǎn)換的推動(dòng)下,火山引擎已經(jīng)成為了車載語(yǔ)音交互行業(yè)的新勢(shì)力,越來(lái)越多的車企品牌將在火山引擎平臺(tái)上快速發(fā)展,抓住2023年即將爆發(fā)的市場(chǎng)機(jī)會(huì);而在更廣泛的智能語(yǔ)音市場(chǎng),火山語(yǔ)音團(tuán)隊(duì)也將帶來(lái)源源不斷的新技術(shù)、新產(chǎn)品,以更低門檻、更高品質(zhì)、更快交付等,助力更多行業(yè)大步邁入智能時(shí)代!

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )