巨頭暗戰(zhàn)智能語音交互,實(shí)時(shí)翻譯為何成又一個(gè)風(fēng)口

進(jìn)入2016年,各大科技巨頭、投資公司、分析機(jī)構(gòu)等都在不斷發(fā)布、解讀著關(guān)于人工智能( Artificial Intelligence)的各種消息,作為吃瓜群眾的我們由此也逐漸知道了很多高大上的“黑科技”。

比如谷歌、百度在干著一件“人工智能+汽車”的大事,即無人駕駛;蘋果、微軟、搜狗等致力于將人工智能技術(shù)與語音服務(wù)場(chǎng)景結(jié)合,今年8月,搜狗推出全新語音交互引擎“知音”;此外,IBM花了大約250億美元來收購(gòu)和完善Watson系統(tǒng),希望靠人工智能來預(yù)測(cè)未來,并應(yīng)用于金融、交通、教育等領(lǐng)域;阿里巴巴、螞蟻金服在積極探索人臉識(shí)別,希望利用人工智能讓移動(dòng)支付更加便捷和安全。

處于風(fēng)口的人工智能,甚至也出現(xiàn)在了好萊塢劇本中,迪士尼動(dòng)畫《超能陸戰(zhàn)隊(duì)》中的機(jī)器人大白就是個(gè)典型的“人工智能+醫(yī)療”的產(chǎn)物,它就像醫(yī)療伴侶,能夠快速掃描、檢測(cè)出人體的不正常情緒或受傷并對(duì)其治療;就連時(shí)下爆紅的HBO連續(xù)劇《西部世界》也在探討著擁有自主思維的機(jī)器人與人類世界發(fā)生的種種沖突和對(duì)抗。

盡管在預(yù)言家的口中,人工智能將在未來的現(xiàn)實(shí)生活中無孔不入,無人駕駛、機(jī)器人管家、人工智能醫(yī)療方案等等,但目前對(duì)于大眾而言,我們當(dāng)下階段接觸到人工智能最主要的方式,仍是互聯(lián)網(wǎng)科技公司提供的一些基礎(chǔ)性服務(wù),比如搜索、輸入法、導(dǎo)航等產(chǎn)品中。在其背后,我們都發(fā)現(xiàn)了語音交互的影子。事實(shí)上,智能語音交互已經(jīng)成為各大互聯(lián)網(wǎng)巨頭角逐的關(guān)鍵性領(lǐng)域,因?yàn)檎f話是人們生活最常用到的溝通方式,隨著移動(dòng)互聯(lián)網(wǎng)的深入,智能語音交互日益成為用戶的痛點(diǎn)。

從語音識(shí)別到實(shí)時(shí)翻譯,人工智能較量升級(jí)

智能語音識(shí)別是包括谷歌、搜狗、訊飛等科技公司深耕的重要語音技術(shù),從概念上來看,語音識(shí)別是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù),其應(yīng)用于智能終端則可以帶來更便捷的服務(wù),比如語音輸入、語音撥號(hào)、語音導(dǎo)航、語音拍照等。麻省理工科技評(píng)論認(rèn)為,“語音識(shí)別將成為人機(jī)交互的重要方式?!?/p>

在人們印象里,智能語音識(shí)別的代表性產(chǎn)物莫過于微軟Cortana 、蘋果Siri等語音秘書類產(chǎn)品,它們盡管使用便捷,但在應(yīng)用場(chǎng)景和實(shí)用性上卻有不少的限制。因此,語音識(shí)別作為一項(xiàng)重要且基礎(chǔ)性的人機(jī)交互技術(shù),如何更好的滿足更多的應(yīng)用場(chǎng)景,同時(shí)具備很好的實(shí)用性,也成為語音巨頭們競(jìng)相突破的關(guān)口。

在剛剛結(jié)束的烏鎮(zhèn)世界互聯(lián)網(wǎng)大會(huì)上,搜狗公司CEO王小川就展示了在智能語音交互領(lǐng)域的最新成果——語音實(shí)時(shí)翻譯。通過該技術(shù),搜狗 CEO 王小川的中文講話內(nèi)容被實(shí)時(shí)識(shí)別為文字并翻譯為英文在屏幕上顯示,將王小川關(guān)于人工智能專業(yè)領(lǐng)域的報(bào)告進(jìn)行機(jī)器同傳。

例如,當(dāng)王小川說到「搜索的未來就是人工智能時(shí)代的皇冠」時(shí),屏幕上實(shí)時(shí)顯示出了「In the future, search will be the Crown of the AI Era」,機(jī)器還能隨著語句的逐漸完整,根據(jù)語義自動(dòng)修改調(diào)整之前識(shí)別的內(nèi)容。這也是全球首次基于神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)機(jī)器翻譯技術(shù)在大型活動(dòng)上的展示,可謂是“技驚四座”。

王小川透露,這次推出的語音實(shí)時(shí)翻譯,融合了業(yè)界領(lǐng)先的端到端神經(jīng)機(jī)器翻譯技術(shù)以及基于實(shí)例的翻譯技術(shù),基于大數(shù)據(jù)和深度學(xué)習(xí),涵蓋了搜狗自主研發(fā)的語音識(shí)別、機(jī)器翻譯兩項(xiàng)重要技術(shù),翻譯的結(jié)果比傳統(tǒng)機(jī)器翻譯更加流暢,效果更好。

無獨(dú)有偶,在搜狗實(shí)時(shí)翻譯發(fā)布僅過了兩天,國(guó)內(nèi)另一家語音巨頭科大訊飛也在其發(fā)布會(huì)上展示了包括語音聽寫、實(shí)時(shí)互譯、車載語音交互系統(tǒng)等語音交互成果。

在筆者看來,搜狗和訊飛在語音實(shí)時(shí)翻譯技術(shù)的成果,反映了國(guó)內(nèi)語音巨頭在人工智能領(lǐng)域的較量正在升級(jí),且都在用戶場(chǎng)景和實(shí)用性上做更大的突破,可以認(rèn)為是代表了國(guó)內(nèi)該領(lǐng)域的最高水平。兩家公司在技術(shù)上孰高孰低,目前尚無定論。

從目前看來,搜狗對(duì)于語音技術(shù)的應(yīng)用,更加to C(用戶),訊飛語音則to B(企業(yè))多一些。搜狗的優(yōu)勢(shì)在于不僅擁有大量的數(shù)據(jù)資源、龐大的用戶量,也擁有完善的搜索、輸入法、地圖導(dǎo)航等產(chǎn)品布局,因此搜狗語音技術(shù)更能直面用戶的實(shí)用性需求;訊飛則擁有更廣泛的開發(fā)者、廠商合作關(guān)系,其語音解決方案將主要通過廠商合作或銷售方式應(yīng)用于車載系統(tǒng)、教育、家居、機(jī)器人等領(lǐng)域。

基于深度神經(jīng)網(wǎng)絡(luò)實(shí)時(shí)翻譯如何實(shí)現(xiàn)

在搜狗、訊飛相繼展示語音實(shí)時(shí)翻譯成果后,外界紛紛驚呼這種技術(shù)甚至將會(huì)顛覆專業(yè)同聲傳譯從業(yè)者的飯碗,同時(shí)對(duì)于其背后的技術(shù)原理尤為感興趣。目前在互聯(lián)網(wǎng)上,關(guān)于訊飛實(shí)時(shí)互譯技術(shù)背后的原理解讀仍然較少,搜狗則在近期一場(chǎng)媒體溝通會(huì)上,主動(dòng)揭開了搜狗實(shí)時(shí)翻譯技術(shù)的神秘面紗。

搜狗語音交互中心技術(shù)負(fù)責(zé)人陳偉介紹,傳統(tǒng)機(jī)器翻譯所采用的主流方式叫“統(tǒng)計(jì)翻譯”,從語料庫大量的翻譯實(shí)例中自動(dòng)學(xué)習(xí)翻譯知識(shí),然后利用這些翻譯知識(shí)自動(dòng)翻譯其他句子。這就需要把整個(gè)建模流程分成對(duì)齊模型、分層模型等多個(gè)模型,每個(gè)模型完成特定的很小的功能,最后串起來完成復(fù)雜的機(jī)器翻譯系統(tǒng)。在這個(gè)過程中,每個(gè)模型的錯(cuò)誤也會(huì)不斷疊加。

搜狗語音實(shí)時(shí)翻譯,在實(shí)現(xiàn)路徑上不同于傳統(tǒng)機(jī)器翻譯,它使用的端到端神經(jīng)網(wǎng)絡(luò)翻譯模型通過編碼端獲取源端句子的分布式表示,利用注意力模型聚焦源端,使用循環(huán)神經(jīng)網(wǎng)絡(luò)生成翻譯結(jié)果,準(zhǔn)確率可以提升30%-40%。從系統(tǒng)框架來看,主要包括“發(fā)音”、“語音斷句”、“語音識(shí)別”、“文本斷句”、“機(jī)器翻譯”、“輸出判斷”等若干部分。

從實(shí)用效果來看,在近期人工評(píng)測(cè)中,搜狗機(jī)器翻譯在演講、旅游、閑聊、日??谡Z等領(lǐng)域,采用五分制人工評(píng)分能達(dá)到 4.4 分,逐步走向?qū)嵱没?。陳偉透露,目前搜狗語音識(shí)別準(zhǔn)確率已超過97%,識(shí)別速度達(dá)到了400字每分鐘,語音輸入日頻次高達(dá) 1.9 億次。

搜狗將該實(shí)時(shí)翻譯技術(shù)命名為SNMT(Sogou NeuralMachineTranslation),這不免讓人將其與谷歌的GNMT(GoogleNeuralMachineTranslation)聯(lián)系一起。今年9月,谷歌宣布,網(wǎng)絡(luò)和移動(dòng)版的谷歌翻譯將使用新的神經(jīng)機(jī)器翻譯系統(tǒng),并以GNMT命名,它能讓翻譯系統(tǒng)不再像以前一樣逐字逐句的翻譯,而是根據(jù)整篇文章的大意來對(duì)句子進(jìn)行分析。在新技術(shù)使用后,翻譯錯(cuò)誤可減少 60%及以上。

陳偉介紹,兩者的基本構(gòu)架有類似的,但還是有著相當(dāng)大的差異。谷歌神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯使用了一個(gè)深度的長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)含有8層的編碼器和解碼器,而搜狗目前最多只有 5 層。

在我看來,這就意味著谷歌需要投入更多的資源和人力來攻克更為復(fù)雜的架構(gòu)(當(dāng)然潛力也更為巨大),而搜狗在反應(yīng)速度上將更具有優(yōu)勢(shì),目前它的延遲只有 2 秒,而在準(zhǔn)確性上,搜狗由于已經(jīng)通過搜狗語音積累了大量中國(guó)人的口語語音數(shù)據(jù),也可以一定程度上彌補(bǔ)由層數(shù)所造成的劣勢(shì)。

結(jié)語

從全球人工智能的發(fā)展和趨勢(shì)看,圍繞智能語音交互誕生的成果無論從數(shù)量和實(shí)用性上看,仍然是其他人工智能領(lǐng)域所不能比擬的。隨著語音實(shí)時(shí)翻譯技術(shù)的成熟,它將可能應(yīng)用于更多的生活和工作領(lǐng)域,但它也只是人工智能真正改變世界的一個(gè)節(jié)點(diǎn)而已。未來暢想的無人駕駛、遠(yuǎn)程醫(yī)療、機(jī)器人管家也許終將有一天會(huì)變成現(xiàn)實(shí),他們也都離不開語音交互這個(gè)重要關(guān)口。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2016-12-01
巨頭暗戰(zhàn)智能語音交互,實(shí)時(shí)翻譯為何成又一個(gè)風(fēng)口
語音交互成人工智能新突破口,谷歌、搜狗都在怎么搞?

長(zhǎng)按掃碼 閱讀全文