原標(biāo)題:搜狗發(fā)布全球首個AI合成主播,上崗新華社,分分鐘合成視頻新聞
在今年的世界互聯(lián)網(wǎng)大會上,搜狗公司和新華社共同帶來一場別開生面的跨界發(fā)布會——全球第一個AI合成主播就此亮相。
AI合成主播?這是什么新東東?
觀眾只要輸入一句既有的新聞文本,屏幕上就會出現(xiàn)一位虛擬的新聞主播,他不僅會用和真人一樣的聲音進(jìn)行播報,連唇形、面部表情也能完全吻合。
別說,這個人工合成主播,無論看上去還是聽起來,都與現(xiàn)實中的主播的本人播報沒有太大差別。
是不是很神奇?
原來,這背后是搜狗通過技術(shù)讓機(jī)器以更逼真自然的形象取代冷冰冰的“機(jī)器人”形象,呈現(xiàn)在用戶面前。該技術(shù)能通過人臉關(guān)鍵點檢測、人臉特征提取、人臉重構(gòu)、唇語識別、情感遷移等多項前沿技術(shù),并結(jié)合語音、圖像等多模態(tài)信息進(jìn)行聯(lián)合建模訓(xùn)練后,生成與真人無異的AI分身模型。
該技術(shù)讓機(jī)器首次做到逼真的模擬人類說話時的聲音、嘴唇動作和表情,并且將三者自然匹配,與真人幾乎一致。
這個隨著首位AI合成主播首次亮相的技術(shù)就是“搜狗分身”技術(shù)。
搜狗公司智能語音事業(yè)部總經(jīng)理王硯峰解釋,通俗來講,就是平時真人主播面對鏡頭錄制一段播報新聞的視頻,搜狗分身憑著這段視頻就能提取真人主播的聲音唇動、表情、動作等特征,再通過語音合成、唇形合成、表情合成以及深度學(xué)習(xí)等技術(shù),克隆出具備和真人主播同樣播放能力的合成主播,接下來,只要提供文字,合成主播就能準(zhǔn)確無誤地播報新聞了。
搜狗分身的技術(shù)原理(小標(biāo))
搜狗分身技術(shù)是搜狗人工智能的核心技術(shù)之一,誕生于搜狗“自然交互+知識計算”這一人工智能理念之下。具體而言,搜狗分身技術(shù)包含語音合成和圖像生成兩大引擎:
在語音合成引擎中,基于用戶少量的音頻數(shù)據(jù),使用搜狗個性化語音合成技術(shù),就能快速學(xué)習(xí)用戶音色、韻律、情感等多維度特征,建立輸入文本與輸出音頻信息的關(guān)聯(lián);
在圖像生成引擎中,則使用業(yè)界領(lǐng)先的搜狗人臉識別、三維人臉重建、表情建模等技術(shù)對人臉表情動作進(jìn)行特征學(xué)習(xí)和建模,建立輸入文本、輸出音頻與輸出視覺信息的關(guān)聯(lián)映射,最終生成輸出分身視頻。
由于此前的技術(shù)積累,搜狗分身具有高度逼真的特點,其自動生成的語音、表情、唇動等信息完全一致的自然視頻搜狗分身并已達(dá)到商用級別,這在業(yè)內(nèi)尚屬首次。
其次,由于個性化定制成本低,搜狗分身僅需使用少量用戶真實音視頻數(shù)據(jù),即可快速定制出高逼真度的分身模型,該項技術(shù)也領(lǐng)先行業(yè)。
未來的“用武之地”(小標(biāo))
正是有了“搜狗分身”這樣技術(shù)創(chuàng)新的信息傳播形式,未來媒體在融媒體轉(zhuǎn)型、新聞時效性和跨語種傳播能力等方面都能更加新鮮好玩兒,從而增強(qiáng)我國傳媒業(yè)的國際影響力和全球競爭力。
不僅如此,未來“搜狗分身”技術(shù)還能在娛樂、醫(yī)療、健康、教育、法律等多個領(lǐng)域提供個性化內(nèi)容。因為人臉識別和人臉重建,該技術(shù)產(chǎn)品外在脫離了固有的機(jī)器人形象,而是能夠批量復(fù)制無數(shù)風(fēng)格各異的人類形象,滿足大家的個性化需求,能夠提升不同行業(yè)和職業(yè)的信息生產(chǎn)傳播效率。
所以,以后在新聞主播之外,學(xué)校、醫(yī)院等場景也都可以出現(xiàn)“搜狗分身”技術(shù)創(chuàng)造出來的虛擬教師、虛擬醫(yī)生、虛擬客服等等。
在解放行業(yè)生產(chǎn)力的同時,“搜狗分身”技術(shù)還能給予用戶更好的個性化音視頻效果,用AI科技來提高人們的生活體驗。
為何是搜狗分身?(小標(biāo))
為何搜狗具備開發(fā)分身技術(shù)并讓其應(yīng)用落地的實力?這當(dāng)然與搜狗此前在語音識別、語音翻譯、深度學(xué)習(xí)等人工智能能力分不開。
在人工智能概念火起來之前,以輸入法、搜索引擎起家的搜狗就率先一頭扎進(jìn)AI。而在其AI戰(zhàn)略藍(lán)圖之中,語言自然是最核心的重頭戲。
一直以來,搜狗都堅持“自然交互+知識計算”的人工智能核心方向,并持續(xù)深耕技術(shù),推動技術(shù)向產(chǎn)品的快速轉(zhuǎn)化。
2016年,搜狗發(fā)布了自有人機(jī)交互解決方案——知音引擎;擁有海量真實數(shù)據(jù)的搜狗,很快又將語音識別與機(jī)器翻譯技術(shù)相結(jié)合,同年推出全球首款商用AI同傳系統(tǒng)——搜狗同傳,引領(lǐng)了語音翻譯技術(shù)的普及與應(yīng)用。通過數(shù)百場的國際會議“實戰(zhàn)”,搜狗同傳獲得了無數(shù)媒體和觀眾的好評,成為當(dāng)下炙手可熱的“AI字幕君”。
同時,搜狗還推出一系列智能硬件,將語音翻譯技術(shù)應(yīng)用到了更廣闊的場景之中,幫助用戶打破了跨國交流時的語言困境。今年3月,搜狗推出了搜狗旅行翻譯寶,具備離線翻譯功能與拍照翻譯功能,讓馬化騰都為之心動,在朋友圈里大打廣告。作為首款智能翻譯硬件,它支持42種語言對話翻譯,解決了旅游場景中用戶聽不懂、看不懂、不會說等真實痛點。
隨后搜狗又順勢推出錄音翻譯筆,為記者等職業(yè)群體提供錄音轉(zhuǎn)寫、對話翻譯、同聲傳譯等功能,把AI同傳落地到了消費級產(chǎn)品,開拓了語音翻譯的新航道。
在近日剛落幕的2018IWSLT(國際頂級口語機(jī)器翻譯評測大賽)上,搜狗擊敗訊飛、阿里巴巴, APPTEK(美國應(yīng)用科技公司)、AFRL(美國空軍研究實驗室)以及KIT(德國卡爾斯魯厄理工學(xué)院)等國際國內(nèi)多個強(qiáng)勁對手,一舉奪得了2018年IWSLT大賽Baseline Model(基線模型)賽道冠軍,向世界彰顯了中國AI領(lǐng)域的技術(shù)硬實力。
IWSLT從2004年開始已經(jīng)舉辦了15屆,每年都吸引了世界各地機(jī)器翻譯領(lǐng)域的頂級企業(yè)和研究機(jī)構(gòu)參與。
此次摘得IWSLT大賽Baseline Model賽道冠軍,是搜狗繼WMT 2017機(jī)器翻譯頂級評測大賽奪冠之后,又一次摘得全球翻譯領(lǐng)域的技術(shù)桂冠。短期內(nèi)連續(xù)登頂世界第一的位置,充分證明了搜狗在翻譯行業(yè)特別是口語翻譯領(lǐng)域的領(lǐng)先地位。
正因為一直深耕“自然交互+知識計算”等人工智能技術(shù),搜狗此番才能將分身技術(shù)完美呈現(xiàn),并致力于推廣到更多應(yīng)用場景落地,這才是真正的“科技讓生活更高效、更好玩”的范兒~
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。