原標(biāo)題:那段記憶中的聲音:單式評書再現(xiàn)江湖背后的AI技術(shù)
“聽眾朋友們,你們好。從今兒個,由我為大家播講懸疑小說,《江湖消亡史:北平暗夜》。這個故事發(fā)生在民國十幾年的北京城里……”情感充沛的評書腔調(diào),蒼勁沙啞的嗓音,單田芳大師的“聲音”再次響起,熱愛評書的朋友一聽恍若隔世,已故的單老評書怎么突然回來了?
三年前,無數(shù)人感慨世上再無“下回分解”,網(wǎng)友們的呼喚被聽見了,為致敬單老,也為給遍布大江南北的書迷朋友們一個驚喜,喜馬拉雅運(yùn)用AI技術(shù)讓“書接上回”重現(xiàn)江湖。
耳熟能詳單老的“下回分解”故事重新回歸,這段記憶中的聲音背后,是來自于喜馬拉雅的語音合成(TTS: Text-to-speech)技術(shù),即將文字轉(zhuǎn)化為聲音,喜馬拉雅的技術(shù)團(tuán)隊(duì)還將單田芳先生的AI合成音應(yīng)用于六部風(fēng)格各異的書籍,用單式評書腔調(diào),全新演繹聽眾耳熟能詳?shù)慕?jīng)典之作。
語音AI讓單老聲音重?zé)ㄐ律?/strong>
不熟悉評書的朋友們可能不知道單老的魅力。在北方的出租車上,遇到司機(jī)在播放單老的評書概率還是蠻高的,而在喜馬拉雅的評書類目中,單老的專輯評書節(jié)目長期在熱播榜前列。例如,《亂世梟雄》在喜馬拉雅的播放量近24億,《白眉大俠》播放量近20億。在民間也有個說法:“凡有井水處,皆聽單田芳?!毕矏鬯臅员椴即蠼媳保适轮械镊攘?jīng)過單老情感充沛的演繹極富有味道。
打開喜馬拉雅,在《單田芳聲音 AI 重現(xiàn)系列》專輯中,既有直擊淚點(diǎn)、奇人異事道盡人生悲歡的武俠小說——趙晨光的《江湖消亡史:北平暗夜》,也有傳達(dá)時代脈動的紀(jì)實(shí)文學(xué)——陳廷一的《毛氏三兄弟:三兄弟與共和國奠基》,還有時下流行、故事情節(jié)曲折奇特的推理小說——紫金陳的《無證之罪》,更有延續(xù)單老生前未完成的評書經(jīng)典——宮白羽的《十二金錢鏢》……
這些經(jīng)典之作讓評書愛好者像過年一般。大家想念單式評書中的故事與人生,人物的百轉(zhuǎn)千回與俠義灑脫。單老的聲音與跌宕起伏的故事加起來就等于完美,讓人立馬沉浸在故事的世界中。很多書評愛好者都留言表示:怎么沒有早點(diǎn)用AI技術(shù)啊,讓人癡癡等了好幾年。幸運(yùn)的是,有人在為傳統(tǒng)藝術(shù)默默出力,完美復(fù)現(xiàn)單老聲音的背后,是來自于喜馬拉雅智能語音實(shí)驗(yàn)室團(tuán)隊(duì)的AI技術(shù)。
據(jù)喜馬拉雅智能語音實(shí)驗(yàn)室盧恒博士的介紹,喜馬拉雅智能語音實(shí)驗(yàn)室運(yùn)用TTS 技術(shù),融入團(tuán)隊(duì)自主設(shè)計(jì)的韻律提取模塊以及專門的口音模塊,才得以實(shí)現(xiàn)原汁原味的單老獨(dú)特聲線。
TTS技術(shù)早已在喜馬拉雅電子書、新聞等領(lǐng)域?qū)崿F(xiàn)了廣泛的應(yīng)用,能夠高效地將新聞、書籍和文章中的大量文字信息轉(zhuǎn)為音頻,大幅提升了音頻的生產(chǎn)效率。但是主流的TTS 框架模型是對音頻內(nèi)容直接進(jìn)行提取和合成,最終成型的內(nèi)容效果整體上來說人的那部分情感和情緒都顯得很寡淡。而在評書這個場景中,韻律的起伏非常大,正是因?yàn)轫嵚傻淖兓攀沟迷u書引人入勝,平淡的情緒和腔調(diào)帶來的后果就非常致命了,而這也是TTS技術(shù)中的難點(diǎn)。
喜馬拉雅智能語音實(shí)驗(yàn)室自主設(shè)計(jì)的韻律提取模塊,無論單田芳先生評書中的韻律多么豐富和多變,都能提取并完全復(fù)刻出來,這才讓單老的AI合成音仿佛本尊再現(xiàn)。
另外,評書中有很多特殊口音,比如口語化的評書中,“這個”中的“這”字,普通話發(fā)音“zhè”,但在評書中通常讀為“zhèi”,跟普通話的發(fā)音有很大的區(qū)別。為此,喜馬拉雅團(tuán)隊(duì)專門做了特殊重音和停頓的標(biāo)注,才使單老AI合成音能夠還原出老味道。
除了高度還原單老的聲音外,在新的專輯中,也加入了高級音效設(shè)計(jì)師的配樂與音效,讓聽眾通過耳朵就能獲得身臨其境的沉浸式體驗(yàn),評書中的世界立馬變得立體和生動起來。
通過這些彎彎折折,單式評書才得以重見天日。
天生相互吸引:內(nèi)容與AI語音技術(shù)的邂逅
我們聽到的原汁原味的單老“聲音”,其完美復(fù)現(xiàn)并非偶然,而這也只是喜馬拉雅TTS技術(shù)的冰山一角。喜馬拉雅已在智能語音技術(shù)上深耕多年,尤其是在TTS領(lǐng)域方面潛心鉆研多年。
目前TTS在業(yè)界的發(fā)展十分迅速,國內(nèi)布局TTS賽道的有一線大廠,比如阿里擁有的語音合成技術(shù)KAN-TTS,騰訊云在語音合成方面也有技術(shù)研發(fā)。國外像DeepMind創(chuàng)建的語音合成器WaveNet,讓語音合成的音質(zhì)有了大幅的提升。2016年,谷歌DeepMind推出了用于生成原始音頻波形的深層神經(jīng)網(wǎng)絡(luò)模型—“WaveNet”,并在一年多的時間內(nèi)將原始模型的效率提高了1000倍,而在一組美式英語的人類聽眾測試中,WaveNet的得分超過了真實(shí)人類語音。
喜馬拉雅語音技術(shù)團(tuán)隊(duì)也已經(jīng)研發(fā)出自己的聲碼器“PhaseGAN”,這種基于生成對抗網(wǎng)絡(luò)的聲碼器甚至有著比WaveNet 更高的生產(chǎn)效率。
喜馬拉雅TTS技術(shù)的核心,就在于如何讓機(jī)器的聲音聽上去韻律自然、情感充沛。說白了,就是如何在機(jī)器聲音中注入人性。拿有聲小說這個場景來說,用TTS音色演繹有聲小說需要學(xué)習(xí)小說中的抑揚(yáng)頓挫、情感表達(dá)、上下文關(guān)系,區(qū)分旁白和對白等,將作品像真人一般呈現(xiàn)出來很困難。
而喜馬拉雅的TTS模型系統(tǒng)有著獨(dú)特的基因優(yōu)勢:
1.內(nèi)容數(shù)據(jù)豐富,區(qū)別于一線廠商的數(shù)據(jù)來源,喜馬拉雅在音頻賽道多年耕耘,已積累海量的內(nèi)容,包含大量的有聲書內(nèi)容與眾多的主播,基于這些龐大的語音素材庫,喜馬拉雅有強(qiáng)勁的模型迭代語料和更大的發(fā)揮空間。
2.數(shù)據(jù)是模型迭代的燃料基礎(chǔ),在此之上,喜馬拉雅也有厚重的研發(fā)實(shí)力。在語音合成、語音識別、智能音效、語音編解碼、語音信號處理和虛擬主播等技術(shù)上,喜馬拉雅都進(jìn)行了深度研發(fā),自研的TTS前端文本處理分析模塊,可高精度、全自動地對文本進(jìn)行多音字識別、韻律預(yù)測和風(fēng)格分類,可以演繹不同情緒文字,還能自動區(qū)分旁白、對白,并支持英文,豐富了TTS能表達(dá)的情感和韻律。
3.專利效能,現(xiàn)下喜馬拉雅已申請了三項(xiàng)TTS語音合成相關(guān)專利,一是在沒有任何英文原始數(shù)據(jù)的TTS聲音就能夠?qū)崿F(xiàn)說英文的技術(shù)框架,讓不會說英文的人也能流利地講英文。另外,喜馬拉雅還采用并行解碼器,生成語音合成序列,改進(jìn)了語音合成后端模型的結(jié)構(gòu)和效率。
我們可以發(fā)現(xiàn)TTS技術(shù)的獨(dú)特優(yōu)勢可以豐富內(nèi)容的生產(chǎn)迭代,不僅將提高內(nèi)容生產(chǎn)效率,也讓更多不同內(nèi)容的生產(chǎn)成為可能。在喜馬拉雅當(dāng)下主要的PGC、UGC、PUGC三大內(nèi)容生產(chǎn)模式之外,AI語音技術(shù)的更新迭代讓第四種新內(nèi)容生產(chǎn)模式——AIGC成為可能,并展現(xiàn)出更大的想象空間。
喜馬拉雅的內(nèi)容生態(tài)經(jīng)過多年的積累、更新,內(nèi)容精良并且IP豐富。豐富的IP與技術(shù)的結(jié)合將可能碰撞出更加多元的火花,讓聽眾聽到以往所難以甚至不可能聽到的內(nèi)容。把腦洞開得大一些,在AI語音的賦能下,未來我們是否可能聽到各種內(nèi)容IP和不同聲音IP的組合?比如,孫儷“聲音”演播的《甄嬛傳》,孫紅雷“聲音”演播的《掃黑風(fēng)暴》,甚至,張藝興版的評書,易烊千璽版的童話故事等內(nèi)容。這些逼真自然的聲音和不同內(nèi)容相結(jié)合,在各類題材和頻道中出現(xiàn),將會給聽眾帶來很多驚喜。只有你想不到,沒有AI做不到。
技術(shù)與內(nèi)容的雙向賦能如同兩個嚙合完美的齒輪一般,驅(qū)動著喜馬拉雅內(nèi)容和產(chǎn)品的更新迭代。從數(shù)據(jù)上來看,用戶用腳投票,喜馬拉雅的月活跑在了行業(yè)前列。據(jù)喜馬拉雅招股書內(nèi)容顯示,截至上半年,移動端總收聽時長和在線音頻總收入來看,喜馬拉雅是中國最大在線音頻平臺,平均MAU達(dá)2.62億,其中包括1.1億移動端用戶和1.51億的物聯(lián)網(wǎng)及其他開放平臺的用戶。移動端用戶共花費(fèi)8478億分鐘收聽喜馬拉雅音頻內(nèi)容,占中國在線音頻總收聽時長的70.9%。
在雙飛輪驅(qū)動的模式下,喜馬拉雅內(nèi)容和技術(shù)都在向前向深飛馳,給我們用戶帶來了更加豐富的內(nèi)容與體驗(yàn)。剖析音頻行業(yè)這個并不為大眾熟知的賽道,可以透視到是什么決定了機(jī)器如何說話,決定了用戶耳朵的體驗(yàn)與舒適度,也可以看到頭部的企業(yè)帶來了哪些經(jīng)驗(yàn),如何撬開智能語音的富礦。
“聲”寫未來
給大家一個數(shù)據(jù)感受下音頻市場的增長勢態(tài)。據(jù)悉,2020年中國在線音頻用戶數(shù)量已經(jīng)有6.4億人,其中超六成用戶表示曾經(jīng)購買過在線音頻服務(wù),預(yù)計(jì)2022年將達(dá)到6.9億人。沒想到吧,大家的付費(fèi)意愿竟然這么強(qiáng)勢。平時勤儉節(jié)約的大家,在豐富精神世界方面,卻舍得愿意為大腦和心靈投資。
在音頻市場的快速增長下,圍繞“耳朵經(jīng)濟(jì)”的競爭日趨激烈,除喜馬拉雅、荔枝、蜻蜓FM等老牌平臺之外,騰訊、字節(jié)跳動等互聯(lián)網(wǎng)巨頭以及中央廣播電視總臺這樣的“國家隊(duì)”也紛紛進(jìn)入這一賽道。各大平臺內(nèi)容類型的豐裕程度與是否具有差異化的優(yōu)質(zhì)內(nèi)容是吸引用戶以及撬動用戶付費(fèi)的關(guān)鍵。
可以預(yù)見的是,在語音技術(shù)加成下,TTS技術(shù)制作的高效高質(zhì)音頻內(nèi)容會進(jìn)一步賦能優(yōu)質(zhì)內(nèi)容的生產(chǎn),喜馬拉雅的內(nèi)容生態(tài)“PGC、UGC、PUGC”也將因?yàn)樾鲁蓡TAIGC的加入,在內(nèi)容創(chuàng)造方面,帶給用戶更多的聽覺盛宴。
喜馬拉雅的AI技術(shù)與內(nèi)容互相磁吸,螺旋纏繞不斷向前向深發(fā)展, AI技術(shù)為喜馬拉雅的內(nèi)容生態(tài)加碼,而內(nèi)容反哺技術(shù)不斷精進(jìn)。技術(shù)與內(nèi)容的全面融合也撬開了未來的智能語音合成市場富礦:
1.對傳統(tǒng)文化的傳承,豐富和傳承評書這類非物質(zhì)文化遺產(chǎn),影響越來越多的傳統(tǒng)文化愛好者和青年演員去參與其中,創(chuàng)造更豐富的文化遺產(chǎn)。
2.對平臺的創(chuàng)作者來說,提升效率和內(nèi)容的質(zhì)量,讓創(chuàng)作者不再陷入音頻制作的重復(fù)性工作中,在多種內(nèi)容的制作方面TTS都可以賦能創(chuàng)作者的轉(zhuǎn)型升級。
3.AI技術(shù)及大數(shù)據(jù)分析能力讓內(nèi)容創(chuàng)作、分發(fā)和運(yùn)營更加精準(zhǔn)化,隨著音頻內(nèi)容逐漸規(guī)?;?,以及技術(shù)的迭代更新,AI對于內(nèi)容的全生命流程參與程度也越來越高,從而讓音頻內(nèi)容呈現(xiàn)更豐富更智能化的趨勢。
移動互聯(lián)網(wǎng)的快速發(fā)展下,有聲讀物成為我們隨身攜帶的“避難所”。在這些聲音里面,我們療愈自己,經(jīng)歷他人的跌宕生活,感受故事中的喜怒哀樂和人生百態(tài)。無論是內(nèi)容的量與質(zhì),還是技術(shù)的深度研發(fā),喜馬拉雅牽引著行業(yè)不斷進(jìn)步,激發(fā)更多的廠商去深耕音頻行業(yè),迭代創(chuàng)新能力。而這也意味著,我們這些喜愛有聲讀物的用戶會擁有更豐富的眼界與精神世界。
聲音不僅僅只是一個簡單的溝通工具,里面包含了豐富的知識智慧、故事情感,它讓流淌的時間更有意義,讓我們的精神生活更加豐盛。而技術(shù)正不斷豐富著聲音的世界,為我們的耳朵帶給我們越來越多元、豐富的體驗(yàn)。
- 世間將再無松下電視:松下官宣解散家電子公司并徹底放棄電視機(jī)業(yè)務(wù)
- 雅迪集團(tuán)與南都電源簽署協(xié)議:攜手共繪固態(tài)電池未來藍(lán)圖
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。