原標(biāo)題:世界杯沒(méi)有秘密:有人趴在角落里悄悄讀著球員的唇……
世界杯已經(jīng)過(guò)半,殘酷的淘汰賽也已經(jīng)馬上就要進(jìn)入四分之一決賽。相比場(chǎng)內(nèi)球員們的激情和球迷的熱情,場(chǎng)外關(guān)于各球隊(duì)的報(bào)道也是讓人目不暇接。其中最令人好奇的,大概要算教練和球員們之間的一些“耳鬢廝磨”了。
比如西班牙和俄羅斯的點(diǎn)球大戰(zhàn)。當(dāng)西班牙主帥耶羅決定讓科克踢點(diǎn)球的時(shí)候,科斯塔表達(dá)了不同意見(jiàn),并多次向耶羅、科克和隊(duì)長(zhǎng)拉莫斯進(jìn)行交流。然而這并沒(méi)有什么用,科克還是踢了第三個(gè)點(diǎn)球,并成功罰丟,導(dǎo)致志奪冠的西班牙就此結(jié)束了在本屆世界杯的征程。
類(lèi)似的情況還出現(xiàn)在小組賽阿根廷1:1暫平尼日利亞的時(shí)候,桑保利去詢(xún)問(wèn)梅西該不該上阿圭羅,只見(jiàn)梅西點(diǎn)了點(diǎn)頭,隨后阿圭羅被換上。
問(wèn)題是,好像我們看球除了現(xiàn)場(chǎng)球迷的呼喊聲之外,聽(tīng)到最多的大概要算是踢足球的聲音了,教練球員之間的交流我們也是只見(jiàn)其人不聞其聲。那些電視臺(tái)是怎么知道他們說(shuō)了什么話的?難道是后臺(tái)進(jìn)行了采訪?
非也。實(shí)際上,要弄懂他們?cè)谡f(shuō)什么其實(shí)很簡(jiǎn)單,就是對(duì)口型。正規(guī)說(shuō)法就是:讀唇語(yǔ)。
聽(tīng)起來(lái)是不是很高端?
從“手工時(shí)代”到人工智能
唇語(yǔ)之用,最早在于幫助聽(tīng)力障礙人群獲取語(yǔ)言信息,讓其過(guò)上正常人的生活。在這個(gè)意義上,其作用于手語(yǔ)相當(dāng)。但與手語(yǔ)不同的是,讀唇語(yǔ)是一件難度很高、即便費(fèi)盡心思去練習(xí)也不一定學(xué)有所成的事情。
學(xué)唇語(yǔ)首先得視力好,俗稱(chēng)眼尖。不要求幾里地之外明察秋毫,至少能在幾十米外看見(jiàn)嘴唇動(dòng)作吧。傳說(shuō)中英國(guó)職業(yè)唇語(yǔ)破解女王杰西卡就說(shuō)自己能在四十米開(kāi)外的地方通過(guò)讀唇來(lái)破解別人說(shuō)話的內(nèi)容。所以,不是歧視大家,那些五米之外人畜不分的近視群體這輩子還是不要再想著讀唇語(yǔ)這件事了……
正是由于掌握的人數(shù)少,現(xiàn)實(shí)中見(jiàn)得不多,讀唇語(yǔ)就變成了一件神秘而高大上的事情。在這個(gè)時(shí)代,我們姑且可以把它成為唇語(yǔ)的“手工時(shí)代”。
而在近兩年,長(zhǎng)期處于靠個(gè)人努力來(lái)維持現(xiàn)狀的唇語(yǔ)突然就火了起來(lái),似乎在一夜之間變成了一件唾手可得的事情。而造成這一現(xiàn)象的根本原因,就是人工智能視覺(jué)識(shí)別技術(shù)的發(fā)展,或許我們可以把它稱(chēng)作唇語(yǔ)識(shí)別的人工智能時(shí)代。比如《機(jī)器姬》當(dāng)中機(jī)器人夏娃讀取內(nèi)森和迦樂(lè)的嘴部動(dòng)作來(lái)識(shí)別內(nèi)容。那么,人工智能識(shí)別唇語(yǔ)在現(xiàn)實(shí)中又有哪些表現(xiàn)呢?
從技術(shù)原理上來(lái)說(shuō),讀唇語(yǔ)這件事正適合人工智能來(lái)做。通過(guò)對(duì)說(shuō)話人嘴部說(shuō)話的連續(xù)動(dòng)作的捕捉,然后將其與單詞發(fā)音進(jìn)行匹配,最終經(jīng)過(guò)不斷地修正,得出動(dòng)作、發(fā)音、語(yǔ)義三者最協(xié)調(diào)的句子,從而實(shí)現(xiàn)唇語(yǔ)的破解。
比如2016年Deepmind聯(lián)合牛津大學(xué)推出的人工智能唇語(yǔ)識(shí)別系統(tǒng)。通過(guò)對(duì)該系統(tǒng)進(jìn)行超過(guò)5000小時(shí)、11800條新聞視頻的訓(xùn)練學(xué)習(xí),其在最終的視頻測(cè)試中達(dá)到了46.8%的識(shí)別正確率,而人類(lèi)則僅僅為12.4%。這個(gè)差距可以說(shuō)是相當(dāng)明顯了。
而在國(guó)內(nèi)也有公司開(kāi)發(fā)了相關(guān)的唇語(yǔ)識(shí)別AI。去年烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)上,搜狗也顯示了自己在唇語(yǔ)識(shí)別上的成果,其采用的則是新聞視頻、電視節(jié)目、普通人說(shuō)話等綜合場(chǎng)景來(lái)訓(xùn)練的方法。當(dāng)然,這項(xiàng)技術(shù)的開(kāi)發(fā)仍然處于起步階段,想要完成想象中的唇語(yǔ)通吃,大概仍然需要時(shí)間。
可以確定的是,在視覺(jué)識(shí)別技術(shù)不斷提升的情況下,唇語(yǔ)識(shí)別即將由一項(xiàng)傳說(shuō)中的“秘術(shù)”變成人人都可裝備的日常工具。但把讀唇語(yǔ)變成一種通用的語(yǔ)言輔助工具,真的是很容易的一件事的嗎?
讀唇語(yǔ)對(duì)人不易,AI亦如是
我們知道,人工智能的深度學(xué)習(xí)是建立在大量相關(guān)材料的基礎(chǔ)上的,比如Deepmind訓(xùn)練一個(gè)唇語(yǔ)識(shí)別的人工智能,總時(shí)長(zhǎng)達(dá)到了5000個(gè)小時(shí),而識(shí)別成功率也還不到50%。然而對(duì)現(xiàn)階段的處于識(shí)別來(lái)說(shuō),這已經(jīng)是一個(gè)非常好的數(shù)據(jù)了,畢竟頂尖的人類(lèi)唇語(yǔ)識(shí)別專(zhuān)家也才有百分之十幾的成功率。那么,既然唇語(yǔ)識(shí)別這么難,人工智能要想拿下它,又應(yīng)該需要注意哪些問(wèn)題?
第一,要解決口型不一致的問(wèn)題??谛筒灰恢碌膯?wèn)題體現(xiàn)在兩個(gè)方面。
一方面,由于音準(zhǔn)的不同,不是所有的人發(fā)出同樣的音節(jié)的時(shí)候都是會(huì)產(chǎn)生同樣的動(dòng)作。這點(diǎn)動(dòng)作從人類(lèi)的視角來(lái)看可能難以發(fā)現(xiàn),但從擅長(zhǎng)識(shí)別微表情的人工智能的時(shí)間來(lái)說(shuō),些許的動(dòng)作差別可能就會(huì)造成誤判。比如一個(gè)傻子口齒不清,人們聽(tīng)起來(lái)都費(fèi)勁,就更不要說(shuō)讀唇識(shí)別了。
另一方面,同一種語(yǔ)言由于地域的不同,同一個(gè)字也可能存在不同的發(fā)音方式。比如“六”,在普通話的讀音中,它讀作“l(fā)iù”;而在南方方言里,很多情況下它被讀作“l(fā)ù”,甚至在其他地區(qū)還有讀成“l(fā)uò”“l(fā)o”等。那么,在識(shí)別方言這一塊兒,人工智能遇到的麻煩也是不小。
第二,人工智能唇語(yǔ)識(shí)別的語(yǔ)氣問(wèn)題。既然是識(shí)別說(shuō)話內(nèi)容,就不可避免地要涉及說(shuō)話者的語(yǔ)氣。同一個(gè)詞語(yǔ)、同一句話,由于說(shuō)話者語(yǔ)氣的不同,其也可能會(huì)造成不同的語(yǔ)義。比如“你弄啥類(lèi)”,加個(gè)問(wèn)號(hào)表示疑問(wèn),加個(gè)嘆號(hào)就代表的是憤怒。所以,單純識(shí)別說(shuō)話者語(yǔ)言?xún)?nèi)容將會(huì)限制唇語(yǔ)識(shí)別的功能,如何將說(shuō)話者的表情、動(dòng)作、場(chǎng)景等一系列和表達(dá)有關(guān)的因素統(tǒng)一到唇語(yǔ)識(shí)別當(dāng)中去,也是一個(gè)需要考慮的問(wèn)題。
第三,在很多情況下我們并不需要人形機(jī)器人一樣,我們也不一定非得讓唇語(yǔ)識(shí)別變成一個(gè)萬(wàn)事通。在對(duì)其進(jìn)行訓(xùn)練的時(shí)候,我們可以根據(jù)使用的具體場(chǎng)景來(lái)進(jìn)行專(zhuān)門(mén)的素材搜集。比如地鐵站自動(dòng)賣(mài)票,就只需要針對(duì)站點(diǎn)名稱(chēng)的口型作重點(diǎn)訓(xùn)練。這樣就可以避免特定場(chǎng)景下由無(wú)效工作而帶來(lái)的繁瑣。
更重要的是,語(yǔ)言是一個(gè)非常龐大的知識(shí)庫(kù),如果想要精確地實(shí)現(xiàn)對(duì)各種情況下的唇語(yǔ)的識(shí)別,海量的語(yǔ)音、動(dòng)作訓(xùn)練將是一個(gè)耗時(shí)巨甚的工作量。
唇語(yǔ)雖小,潛力卻大
毫無(wú)疑問(wèn),當(dāng)唇語(yǔ)識(shí)別技術(shù)成熟,其應(yīng)用前景是非常樂(lè)觀的,比如以下幾個(gè)方面。
1. 安防領(lǐng)域。家庭攝像頭功能、場(chǎng)景都比較單一,一般都會(huì)有麥克風(fēng)進(jìn)行聲音搜集。然而在數(shù)量更多的室外監(jiān)控系統(tǒng)里,基本上只能看到畫(huà)面而沒(méi)有聲音。這就是電子監(jiān)控的一個(gè)很大缺陷。那么,引入唇語(yǔ)識(shí)別之后,相當(dāng)于在技術(shù)上令畫(huà)面產(chǎn)生了聲音。違法者在鏡頭前的交流內(nèi)容將被捕捉,而這也很有可能成為破案的重要線索。英國(guó)警方就利用杰西卡的唇語(yǔ)能力破獲了一起機(jī)場(chǎng)搶劫案。
2. 醫(yī)療健康領(lǐng)域。唇語(yǔ)最原始的作用就是幫助聽(tīng)力障礙患者能夠和普通人一樣正常進(jìn)行交流,但這個(gè)學(xué)習(xí)成本無(wú)疑是巨大的,可能需要幾年乃至十幾年的時(shí)間。甚至如果視力、毅力都不好的話,其只能靠非常麻煩的手語(yǔ)來(lái)進(jìn)行交流。那么,在唇語(yǔ)識(shí)別技術(shù)的幫助下,聽(tīng)力障礙患者將不必花費(fèi)這樣的學(xué)習(xí)成本而能直接和正常人一樣交流。
3. 實(shí)時(shí)語(yǔ)音轉(zhuǎn)化更加精準(zhǔn)。如今無(wú)論是智能法庭上的實(shí)時(shí)字幕還是國(guó)際會(huì)議中的同聲傳譯,其基本上都是依靠單純的語(yǔ)音識(shí)別功能來(lái)實(shí)現(xiàn)。通過(guò)唇語(yǔ)識(shí)別技術(shù)的加成,其將從單純的“聽(tīng)”變成一邊“看”一邊“聽(tīng)”,更符合人類(lèi)接受語(yǔ)言信息的特點(diǎn)。由此,人工智能在實(shí)時(shí)字幕、同聲傳譯等場(chǎng)景下的應(yīng)用也將更加成熟。
此外,利用唇語(yǔ)來(lái)識(shí)別語(yǔ)音,對(duì)語(yǔ)音分離問(wèn)題的解決也將產(chǎn)生積極的影響。之前就有團(tuán)隊(duì)通過(guò)視頻和語(yǔ)音的對(duì)照來(lái)分離語(yǔ)音,唇語(yǔ)更是可以成為值得關(guān)注的一個(gè)點(diǎn)。
4. 推進(jìn)多模態(tài)物聯(lián)網(wǎng)的構(gòu)建。比如上海地鐵引入的語(yǔ)音購(gòu)票,其就是通過(guò)對(duì)乘客進(jìn)行語(yǔ)音和人臉的雙重識(shí)別來(lái)確定到達(dá)站和買(mǎi)票人?;诖耍瑢⒋秸Z(yǔ)識(shí)別技術(shù)和語(yǔ)音識(shí)別結(jié)合起來(lái),將有可能為物聯(lián)網(wǎng)的構(gòu)建打開(kāi)更大的想象空間。在家庭物聯(lián)網(wǎng)場(chǎng)景中,以智能音箱為代表的入口可以不必單純依賴(lài)語(yǔ)音識(shí)別指令,加入唇語(yǔ)讀取來(lái)提高識(shí)別的精確度。畢竟,看著別人說(shuō)話和閉上眼睛聽(tīng)別人說(shuō)話,對(duì)信息接受者而言是有很大不同的。
但唇語(yǔ)識(shí)別也是一項(xiàng)非常需要警惕的技術(shù)。畢竟大自然限制了人聲的傳播距離,就是為了保護(hù)個(gè)體的私密。一旦唇語(yǔ)識(shí)別泛濫,每個(gè)人都可能再無(wú)秘密可言。說(shuō)話要捂嘴、回家第一件事是拉窗簾、開(kāi)車(chē)要貼不透光車(chē)膜……這樣人心惶惶的世界可能是誰(shuí)也不愿意待的,畢竟英國(guó)女王被人讀了唇語(yǔ)并公開(kāi)之后還是很不高興的。
不管怎樣,唇語(yǔ)識(shí)別都稱(chēng)得上是一項(xiàng)值得期待的技術(shù)。盡管現(xiàn)在還不成熟,盡管未來(lái)需要考慮到很多容易產(chǎn)生不利影響的現(xiàn)實(shí)問(wèn)題。但是,當(dāng)它展現(xiàn)出對(duì)人類(lèi)社會(huì)積極的意義的時(shí)候,我們也不該去拒絕給它個(gè)擁抱。
- 世間將再無(wú)松下電視:松下官宣解散家電子公司并徹底放棄電視機(jī)業(yè)務(wù)
- 雅迪集團(tuán)與南都電源簽署協(xié)議:攜手共繪固態(tài)電池未來(lái)藍(lán)圖
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋(píng)果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢(qián)通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱(chēng)塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋(píng)果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過(guò)熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。