近年來隨著AI技術(shù)的迅速發(fā)展,人機交互變得越來越頻繁,“語音合成”就是人機交互中的重要一環(huán)。語音合成技術(shù)又被稱為文語轉(zhuǎn)換(TTS)技術(shù),就是可以將文字信息轉(zhuǎn)化為流暢標(biāo)準(zhǔn)的語音,其所合成的聲音既可以是模仿某個人的聲音,也可以是包含特定風(fēng)格的聲音,甚至能摻雜一定的情感成分。基于這樣的特點,語音合成技術(shù)能夠應(yīng)用到許多領(lǐng)域,既可以改善人機交互困難的情景,使人類與計算機的交流更加方便快捷,也可以幫有身體障礙,只能通過語音來交流的特殊人群。
但是,在人機互動之外,語音合成的商業(yè)化一直是個隱藏在人工智能后面的神秘角色,但大體來講,可以分為兩種類型:一種是借著技術(shù)優(yōu)勢做賦能,代表為科大訊飛的訊飛開放平臺;另一種是貼近需求做應(yīng)用,代表為出門問問的魔音工坊。
配圖來自Canva可畫
隱藏在人工智能背后的狹小市場
語音合成市場是個極為細(xì)分的狹小市場,與之并列的還有語音識別、語音分析等,說到底,語音合成不過是人工智能在應(yīng)用過程中的副產(chǎn)品罷了。但也正是因此,語音合成技術(shù)就處在了一個“難者不會,會者不難”的尷尬區(qū)間,所以市面上的語音合成技術(shù)基本上都來自人工智能廠商,至少是對人工智能有所參與的廠商。
例如各大云服務(wù)廠商就都有語音合成的服務(wù),包括騰訊云、阿里云、百度AI開放平臺以及字節(jié)跳動的火山引擎。
“語音合成”用最簡單的方式理解,歸根結(jié)底不過是讓機器將文本“說出來”。雖然語音合成總是與人工智能相關(guān),但其實只要用戶需要,就能成為一種應(yīng)用場景,因此語音合成的應(yīng)用范圍十分廣泛,同時遍布消費級和行業(yè)級——而且,在不同的應(yīng)用場景中,消費級和行業(yè)級也顯示出截然不同的特點來。
消費級應(yīng)用場景中的語音合成,面向的對象往往就是消費者自身。近年來隨著短視頻的興起,配音成為部分短視頻創(chuàng)作者工作流中必不可少的環(huán)節(jié),但是絕大部分的短視頻創(chuàng)作者并沒有接受過專業(yè)的配音訓(xùn)練,因此其配音要么效果不盡人意,要么效率極為低下——某些生手甚至需要30分鐘來配1分鐘的文案內(nèi)容。
在這樣的情況下,語音合成恰好彌補了消費級用戶自身能力的不足。由于大部分消費級需求以配音為主,使得消費級語音合成可以通過標(biāo)準(zhǔn)化、通用化的方式來降低制作成本。也正是因此,在消費級領(lǐng)域耕耘,對語音合成廠商的技術(shù)要求沒那么高。
行業(yè)級應(yīng)用場景中的語音合成,面向的對象往往需要是“消費者的消費者”——與消費級用戶很不同的是,行業(yè)級用戶自身其實并不需要語音合成來滿足什么需求,但它們的語音合成產(chǎn)品一般都要面向數(shù)以萬計的用戶,對使用頻次和產(chǎn)品質(zhì)量都有更高的要求。
因此行業(yè)級語音合成產(chǎn)品往往采用定制的方式,不僅制作周期長,制作難度高,而且產(chǎn)品單價高,替換成本高。這種時候?qū)φZ音合成廠商的技術(shù)要求和制作水平就大大提高,一般都是由大型人工智能廠商,或者專精語音技術(shù)的廠商來完成。
訊飛:技術(shù)驅(qū)動行業(yè)級市場
科大訊飛是典型的技術(shù)驅(qū)動型企業(yè),它的語音技術(shù)當(dāng)屬世界一流,它旗下的“訊飛開放平臺”是以語音交互為核心的人工智能開放平臺。因此,訊飛開放平臺提供的語音合成服務(wù)實際上只占了它自身很小的一部分。
在這樣的情況下,訊飛開放平臺幾乎和其他云廠商的開放平臺一樣,不能提供面面俱到的通用化和標(biāo)準(zhǔn)化產(chǎn)品,也正是如此使其無法提供通用型產(chǎn)品。對于訊飛開放平臺來說,技術(shù)才是第一位的,因為只有技術(shù)力足夠強,才能滿足上門的行業(yè)級客戶,尤其是這些客戶的需求比消費級客戶復(fù)雜得多。
對此,訊飛開放平臺只能提供以通用的服務(wù)模型,即某種成熟的方法論,來實現(xiàn)行業(yè)級客戶的復(fù)雜需求。為了便于區(qū)分行業(yè)級用戶的需求,訊飛開放平臺依舊將語音合成服務(wù)分成了三個板塊:在線語音合成、離線語音合成以及發(fā)音人自訓(xùn)練平臺。
其中在線語音合成能夠?qū)⑽淖洲D(zhuǎn)化為自然流暢的人聲,超過100個發(fā)音人可供選擇,并且支持多語種、多方言和中英混合,同時能夠靈活配置音頻參數(shù)。這種模式廣泛應(yīng)用于新聞閱讀、出行導(dǎo)航、智能硬件和通知播報等場景,這在海爾的電話客服、追書神器和央視新聞APP的“早?。⌒侣剚砹恕庇新暀谀慷加袘?yīng)用。
離線語音合成引擎滿足無網(wǎng)絡(luò)環(huán)境下的轉(zhuǎn)語音需求,SDK輕巧方便,能夠做到實時響應(yīng),相當(dāng)于APP內(nèi)置的“朗讀者”,在語音導(dǎo)航、新聞聽書和提示播報等場景具有廣泛應(yīng)用。耳熟能詳?shù)腒A有高德導(dǎo)航、滴滴打車、起點讀書和智慧樹考勤機等。
最后,發(fā)音人自訓(xùn)練平臺則是基于科大訊飛最新語音合成深度學(xué)習(xí)技術(shù),只需要提供少量的干凈錄音數(shù)據(jù),機器就可以快速學(xué)習(xí)并生成可使用的語音合成音庫,提供專屬的合成聲音。適用于智能客服和教育培訓(xùn)等領(lǐng)域。
結(jié)合以上數(shù)據(jù)不難發(fā)現(xiàn),行業(yè)級客戶對于語音合成的需求,更多的體現(xiàn)在人機交互方面,簡單來說就是需要手機APP“會說話”,而不像消費級用戶那樣基本上只對配音后的音頻有需求。
因此,在將語音合成模塊嵌入應(yīng)用的過程中,訊飛開放平臺就完成了它的商業(yè)化。在行業(yè)級應(yīng)用場景中,音庫定制、服務(wù)量、裝機量、發(fā)音人、并發(fā)數(shù)以及有效期都是可選的收費選項,而且價格相較于消費級服務(wù)來說,算是十分高昂了。
魔音工坊:應(yīng)用驅(qū)動消費級市場
相較于母公司出門問問,魔音工坊可能更加出名,它是專門針對消費級市場進行特化的語音合成平臺。正如前文所述,消費級語音合成市場的基本需求——同時也是最大需求——就是配音。所以魔音工坊幾乎就是針對配音來設(shè)置不同板塊和各種功能。
對于魔音工坊來說,技術(shù)并不是第一位的,如何利用現(xiàn)有技術(shù)與消費者需求進行匹配才是第一位的。以功能最為完整的網(wǎng)頁端來說明,魔音工坊共設(shè)置5個板塊:軟件配音、真人配音、聲音商店、效率工具以及聲音克隆。
其中聲音商店是聲庫,內(nèi)置了魔音工坊自制的不同聲源。共計367個配音師,和817種風(fēng)格,因為主要受眾是國內(nèi)用戶,因此基本覆蓋了各地區(qū)方言,和少量不同音色的英語聲源。魔音工坊通過標(biāo)準(zhǔn)化和通用化的聲源,足以滿足絕大部分用戶的配音需求了。
而軟件配音和聲音克隆板塊給予用戶分別自定義文本和音源的權(quán)利。其中文本的自定義過程中,可調(diào)的參數(shù)細(xì)致到多音字讀音、語速和停頓等真實場景中的;而音源的自定義則與訊飛開放平臺類似,需要提供真人聲源。
最后,效率工具和真人配音則為用戶解決在配音過程中可能遇到的問題。效率工具提供了文案提取、自動打軸、背景音處理、人生處理、一鍵去水印和封面制作等工具,而且基本上都是免費試用;真人配音則進一步節(jié)省了用戶花在配音調(diào)參的時間。
不難發(fā)現(xiàn),從聲庫到自定義聲源,從軟件配音到真人配音,魔音工坊幾乎將用戶的每個痛點都抓住了,雖然技術(shù)可能不比科大訊飛,但在對消費級用戶的友好度這一塊,魔音工坊絕對不輸。
同時,魔音工坊的商業(yè)模式可以很好地嵌套在從尋找聲音到完成配音的過程中。從用戶打開魔音工坊那一刻起,收費就已經(jīng)開始了——首先是售價289元的年費會員,緊接著聲庫的聲源基本上都是會員專享或者付費使用,價格從199-899/年不等,其次聲音克隆和真人配音亦需要額外付費,具體數(shù)額視不同情況而定。
技術(shù)與應(yīng)用的博弈與殊途同歸
行業(yè)級語音合成廠商與消費級語音合成廠商“井水不犯河水”,幾乎是涇渭分明地守著各自的一畝三分地。但實際上,在訊飛開放平臺和魔音工坊決定服務(wù)不同的人群的時候,語音合成的技術(shù)面以及應(yīng)用面的博弈就開始了。此時,技術(shù)已經(jīng)不再是決定性因素了,如何與需求對接才是重中之重。
因此,我們可以將訊飛開放平臺和魔音工坊之間的區(qū)別,看作是語音合成滿足不同消費者需求的不同路徑。行業(yè)級用戶往往需要語音與應(yīng)用相結(jié)合,其中重點在于“結(jié)合”,在于為它們自己的用戶提供足夠差異化的使用體驗;而消費級用戶往往需要的是語音合成出的音頻,重點在于“結(jié)果”。這之間的微妙差異,正是技術(shù)力稍弱的語音合成廠商生存的空間。
但是,在這些差別的另一面,也能看到消費級與行業(yè)級用戶需求是殊途同歸的。說到底,無論是某個APP需要內(nèi)置語音,還是某個短視頻創(chuàng)作者需要配音,這都是以“語音合成”這項技術(shù)為基礎(chǔ)的。像是許多將別家技術(shù)打包,拿過來就用的“二道販子”,無論如何都不可能經(jīng)營得長久。在這種時候,語音合成就變成了一個楔子,它就變成了這個市場的“入場券”。
總的來說,以訊飛開放平臺和魔音工坊為代表的兩類語音合成廠商將會繼續(xù)共存下去。這也象征著語音合成技術(shù)驅(qū)動和應(yīng)用驅(qū)動的統(tǒng)一,無論如何,滿足消費者需求才是語音合成商業(yè)化的關(guān)鍵要素。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 一半是產(chǎn)品,一半是服務(wù),華為品牌帶給消費者的有贊嘆更有溫暖
- 在人群里,看見「鯤鵬開發(fā)者」
- 游戲體驗天花板,一加 Ace 5 系列售價 2299 元起
- 為創(chuàng)意和管理提效,新廣告投放(3.0)驅(qū)動消費品商家高效增長
- 榮耀Magic7系列全面升級大王影像,首發(fā)AI超級長焦拍遠更清晰
- 2024過去了,留下十個科技記憶
- 年貨節(jié)如何大爆單?別錯過巨量千川這三波紅利
- 美國無人機禁令升級?當(dāng)?shù)乜茖W(xué)家率先“喊疼”:我們離不開大疆
- iQOO Neo10 Pro:性能特長之外,亦有全能實力
- 自動駕駛第一股的轉(zhuǎn)型迷途:圖森未來賭上了AIGC
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。