語音合成商業(yè)化:科大訊飛向左,魔音工坊向右

原標(biāo)題:語音合成商業(yè)化:科大訊飛向左,魔音工坊向右

近年來隨著AI技術(shù)的迅速發(fā)展,人機(jī)交互變得越來越頻繁,“語音合成”就是人機(jī)交互中的重要一環(huán)。語音合成技術(shù)又被稱為文語轉(zhuǎn)換(TTS)技術(shù),就是可以將文字信息轉(zhuǎn)化為流暢標(biāo)準(zhǔn)的語音,其所合成的聲音既可以是模仿某個人的聲音,也可以是包含特定風(fēng)格的聲音,甚至能摻雜一定的情感成分?;谶@樣的特點(diǎn),語音合成技術(shù)能夠應(yīng)用到許多領(lǐng)域,既可以改善人機(jī)交互困難的情景,使人類與計(jì)算機(jī)的交流更加方便快捷,也可以幫有身體障礙,只能通過語音來交流的特殊人群。

但是,在人機(jī)互動之外,語音合成的商業(yè)化一直是個隱藏在人工智能后面的神秘角色,但大體來講,可以分為兩種類型:一種是借著技術(shù)優(yōu)勢做賦能,代表為科大訊飛的訊飛開放平臺;另一種是貼近需求做應(yīng)用,代表為出門問問的魔音工坊。

配圖來自Canva可畫

隱藏在人工智能背后的狹小市場

語音合成市場是個極為細(xì)分的狹小市場,與之并列的還有語音識別、語音分析等,說到底,語音合成不過是人工智能在應(yīng)用過程中的副產(chǎn)品罷了。但也正是因此,語音合成技術(shù)就處在了一個“難者不會,會者不難”的尷尬區(qū)間,所以市面上的語音合成技術(shù)基本上都來自人工智能廠商,至少是對人工智能有所參與的廠商。

例如各大云服務(wù)廠商就都有語音合成的服務(wù),包括騰訊云、阿里云、百度AI開放平臺以及字節(jié)跳動的火山引擎。

“語音合成”用最簡單的方式理解,歸根結(jié)底不過是讓機(jī)器將文本“說出來”。雖然語音合成總是與人工智能相關(guān),但其實(shí)只要用戶需要,就能成為一種應(yīng)用場景,因此語音合成的應(yīng)用范圍十分廣泛,同時遍布消費(fèi)級和行業(yè)級——而且,在不同的應(yīng)用場景中,消費(fèi)級和行業(yè)級也顯示出截然不同的特點(diǎn)來。

消費(fèi)級應(yīng)用場景中的語音合成,面向的對象往往就是消費(fèi)者自身。近年來隨著短視頻的興起,配音成為部分短視頻創(chuàng)作者工作流中必不可少的環(huán)節(jié),但是絕大部分的短視頻創(chuàng)作者并沒有接受過專業(yè)的配音訓(xùn)練,因此其配音要么效果不盡人意,要么效率極為低下——某些生手甚至需要30分鐘來配1分鐘的文案內(nèi)容。

在這樣的情況下,語音合成恰好彌補(bǔ)了消費(fèi)級用戶自身能力的不足。由于大部分消費(fèi)級需求以配音為主,使得消費(fèi)級語音合成可以通過標(biāo)準(zhǔn)化、通用化的方式來降低制作成本。也正是因此,在消費(fèi)級領(lǐng)域耕耘,對語音合成廠商的技術(shù)要求沒那么高。

行業(yè)級應(yīng)用場景中的語音合成,面向的對象往往需要是“消費(fèi)者的消費(fèi)者”——與消費(fèi)級用戶很不同的是,行業(yè)級用戶自身其實(shí)并不需要語音合成來滿足什么需求,但它們的語音合成產(chǎn)品一般都要面向數(shù)以萬計(jì)的用戶,對使用頻次和產(chǎn)品質(zhì)量都有更高的要求。

因此行業(yè)級語音合成產(chǎn)品往往采用定制的方式,不僅制作周期長,制作難度高,而且產(chǎn)品單價高,替換成本高。這種時候?qū)φZ音合成廠商的技術(shù)要求和制作水平就大大提高,一般都是由大型人工智能廠商,或者專精語音技術(shù)的廠商來完成。

訊飛:技術(shù)驅(qū)動行業(yè)級市場

科大訊飛是典型的技術(shù)驅(qū)動型企業(yè),它的語音技術(shù)當(dāng)屬世界一流,它旗下的“訊飛開放平臺”是以語音交互為核心的人工智能開放平臺。因此,訊飛開放平臺提供的語音合成服務(wù)實(shí)際上只占了它自身很小的一部分。

在這樣的情況下,訊飛開放平臺幾乎和其他云廠商的開放平臺一樣,不能提供面面俱到的通用化和標(biāo)準(zhǔn)化產(chǎn)品,也正是如此使其無法提供通用型產(chǎn)品。對于訊飛開放平臺來說,技術(shù)才是第一位的,因?yàn)橹挥屑夹g(shù)力足夠強(qiáng),才能滿足上門的行業(yè)級客戶,尤其是這些客戶的需求比消費(fèi)級客戶復(fù)雜得多。

對此,訊飛開放平臺只能提供以通用的服務(wù)模型,即某種成熟的方法論,來實(shí)現(xiàn)行業(yè)級客戶的復(fù)雜需求。為了便于區(qū)分行業(yè)級用戶的需求,訊飛開放平臺依舊將語音合成服務(wù)分成了三個板塊:在線語音合成、離線語音合成以及發(fā)音人自訓(xùn)練平臺。

其中在線語音合成能夠?qū)⑽淖洲D(zhuǎn)化為自然流暢的人聲,超過100個發(fā)音人可供選擇,并且支持多語種、多方言和中英混合,同時能夠靈活配置音頻參數(shù)。這種模式廣泛應(yīng)用于新聞閱讀、出行導(dǎo)航、智能硬件和通知播報(bào)等場景,這在海爾的電話客服、追書神器和央視新聞APP的“早?。⌒侣剚砹恕庇新暀谀慷加袘?yīng)用。

離線語音合成引擎滿足無網(wǎng)絡(luò)環(huán)境下的轉(zhuǎn)語音需求,SDK輕巧方便,能夠做到實(shí)時響應(yīng),相當(dāng)于APP內(nèi)置的“朗讀者”,在語音導(dǎo)航、新聞聽書和提示播報(bào)等場景具有廣泛應(yīng)用。耳熟能詳?shù)腒A有高德導(dǎo)航、滴滴打車、起點(diǎn)讀書和智慧樹考勤機(jī)等。

最后,發(fā)音人自訓(xùn)練平臺則是基于科大訊飛最新語音合成深度學(xué)習(xí)技術(shù),只需要提供少量的干凈錄音數(shù)據(jù),機(jī)器就可以快速學(xué)習(xí)并生成可使用的語音合成音庫,提供專屬的合成聲音。適用于智能客服和教育培訓(xùn)等領(lǐng)域。

結(jié)合以上數(shù)據(jù)不難發(fā)現(xiàn),行業(yè)級客戶對于語音合成的需求,更多的體現(xiàn)在人機(jī)交互方面,簡單來說就是需要手機(jī)APP“會說話”,而不像消費(fèi)級用戶那樣基本上只對配音后的音頻有需求。

因此,在將語音合成模塊嵌入應(yīng)用的過程中,訊飛開放平臺就完成了它的商業(yè)化。在行業(yè)級應(yīng)用場景中,音庫定制、服務(wù)量、裝機(jī)量、發(fā)音人、并發(fā)數(shù)以及有效期都是可選的收費(fèi)選項(xiàng),而且價格相較于消費(fèi)級服務(wù)來說,算是十分高昂了。

魔音工坊:應(yīng)用驅(qū)動消費(fèi)級市場

相較于母公司出門問問,魔音工坊可能更加出名,它是專門針對消費(fèi)級市場進(jìn)行特化的語音合成平臺。正如前文所述,消費(fèi)級語音合成市場的基本需求——同時也是最大需求——就是配音。所以魔音工坊幾乎就是針對配音來設(shè)置不同板塊和各種功能。

對于魔音工坊來說,技術(shù)并不是第一位的,如何利用現(xiàn)有技術(shù)與消費(fèi)者需求進(jìn)行匹配才是第一位的。以功能最為完整的網(wǎng)頁端來說明,魔音工坊共設(shè)置5個板塊:軟件配音、真人配音、聲音商店、效率工具以及聲音克隆。

其中聲音商店是聲庫,內(nèi)置了魔音工坊自制的不同聲源。共計(jì)367個配音師,和817種風(fēng)格,因?yàn)橹饕鼙娛菄鴥?nèi)用戶,因此基本覆蓋了各地區(qū)方言,和少量不同音色的英語聲源。魔音工坊通過標(biāo)準(zhǔn)化和通用化的聲源,足以滿足絕大部分用戶的配音需求了。

而軟件配音和聲音克隆板塊給予用戶分別自定義文本和音源的權(quán)利。其中文本的自定義過程中,可調(diào)的參數(shù)細(xì)致到多音字讀音、語速和停頓等真實(shí)場景中的;而音源的自定義則與訊飛開放平臺類似,需要提供真人聲源。

最后,效率工具和真人配音則為用戶解決在配音過程中可能遇到的問題。效率工具提供了文案提取、自動打軸、背景音處理、人生處理、一鍵去水印和封面制作等工具,而且基本上都是免費(fèi)試用;真人配音則進(jìn)一步節(jié)省了用戶花在配音調(diào)參的時間。

不難發(fā)現(xiàn),從聲庫到自定義聲源,從軟件配音到真人配音,魔音工坊幾乎將用戶的每個痛點(diǎn)都抓住了,雖然技術(shù)可能不比科大訊飛,但在對消費(fèi)級用戶的友好度這一塊,魔音工坊絕對不輸。

同時,魔音工坊的商業(yè)模式可以很好地嵌套在從尋找聲音到完成配音的過程中。從用戶打開魔音工坊那一刻起,收費(fèi)就已經(jīng)開始了——首先是售價289元的年費(fèi)會員,緊接著聲庫的聲源基本上都是會員專享或者付費(fèi)使用,價格從199-899/年不等,其次聲音克隆和真人配音亦需要額外付費(fèi),具體數(shù)額視不同情況而定。

技術(shù)與應(yīng)用的博弈與殊途同歸

行業(yè)級語音合成廠商與消費(fèi)級語音合成廠商“井水不犯河水”,幾乎是涇渭分明地守著各自的一畝三分地。但實(shí)際上,在訊飛開放平臺和魔音工坊決定服務(wù)不同的人群的時候,語音合成的技術(shù)面以及應(yīng)用面的博弈就開始了。此時,技術(shù)已經(jīng)不再是決定性因素了,如何與需求對接才是重中之重。

因此,我們可以將訊飛開放平臺和魔音工坊之間的區(qū)別,看作是語音合成滿足不同消費(fèi)者需求的不同路徑。行業(yè)級用戶往往需要語音與應(yīng)用相結(jié)合,其中重點(diǎn)在于“結(jié)合”,在于為它們自己的用戶提供足夠差異化的使用體驗(yàn);而消費(fèi)級用戶往往需要的是語音合成出的音頻,重點(diǎn)在于“結(jié)果”。這之間的微妙差異,正是技術(shù)力稍弱的語音合成廠商生存的空間。

但是,在這些差別的另一面,也能看到消費(fèi)級與行業(yè)級用戶需求是殊途同歸的。說到底,無論是某個APP需要內(nèi)置語音,還是某個短視頻創(chuàng)作者需要配音,這都是以“語音合成”這項(xiàng)技術(shù)為基礎(chǔ)的。像是許多將別家技術(shù)打包,拿過來就用的“二道販子”,無論如何都不可能經(jīng)營得長久。在這種時候,語音合成就變成了一個楔子,它就變成了這個市場的“入場券”。

總的來說,以訊飛開放平臺和魔音工坊為代表的兩類語音合成廠商將會繼續(xù)共存下去。這也象征著語音合成技術(shù)驅(qū)動和應(yīng)用驅(qū)動的統(tǒng)一,無論如何,滿足消費(fèi)者需求才是語音合成商業(yè)化的關(guān)鍵要素。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-06-05
語音合成商業(yè)化:科大訊飛向左,魔音工坊向右
但也正是因此,語音合成技術(shù)就處在了一個“難者不會,會者不難”的尷尬區(qū)間,所以市面上的語音合成技術(shù)基本上都來自人工智能廠商,至少是對人工智能有所參與的廠商。

長按掃碼 閱讀全文