王小川:音箱不會成為AI時代具有重大潛力的產(chǎn)品

11月26日消息,在搜狐科技主辦的2019搜狐科技AI峰會上,搜狗公司CEO王小川表示,AI時代個人硬件趨勢是變得更IO,更便捷。

王小川認(rèn)為,音箱不會成為AI時代具有重大潛力的產(chǎn)品。雖然現(xiàn)在亞馬遜開了頭,但因為音箱便攜能力不夠,不是跟著個人走的產(chǎn)品,也就是聲音進(jìn)去聲音出來,這樣的場景IO能力有限,后面的AI能力就會受到巨大的限制。

因此,王小川預(yù)言,未來五到十年間眼鏡可能會成為取代手機最重要的個人設(shè)備。

他認(rèn)為,關(guān)于互聯(lián)網(wǎng)和人工智能的未來,將從個人互聯(lián)網(wǎng)演變成為產(chǎn)業(yè)互聯(lián)網(wǎng),最終形態(tài)是IoT,商業(yè)邏輯也或從賦能于人變成商業(yè)智能再變成機器人。具體來說,語言AI的發(fā)展方向是自然交互+知識計算。

他談到,有了機器智能之后,已經(jīng)從人適應(yīng)機器,變成了機器適應(yīng)人。AI帶來的語音、圖像技術(shù)的突破,也會讓人們的生活更加便捷。

以下為王小川演講全文:

尊敬的各位嘉賓、各位朋友,很榮幸,也很有壓力在鄔院士之后做我的演講。我的主題分為兩個部分:語言AI,以及2020+,因為2030年太遠(yuǎn)了,也許這件事情2030年就干完了,所以就定在2020年。

在此之前搜狐科技的朋友都跟我說來點硬的,所以我?guī)砹诉@樣一款錄音筆,這是搜狗發(fā)布的硬件產(chǎn)品,也在“雙十一”的多個平臺銷量第一。可以看到這幾年當(dāng)中錄音筆是一個很小眾的市場,2015年就開始有所下滑,每年銷量也就是400多萬支,但是搜狗為什么選擇這樣一件事情呢?因為2019年這個市場發(fā)生了逆轉(zhuǎn),圖中桔色的線是去年錄音筆市場,可以看到由于手機的高度智能,這個市場開始減小,但是今年1-2月份搜狗發(fā)布新的產(chǎn)品之后,整個市場開始出現(xiàn)逆轉(zhuǎn),好像電商搜索平臺的量又開始增加了。我們也成立了AI創(chuàng)新聯(lián)盟,核心就是錄音相關(guān)的,也把索尼、愛國者、紐曼這些巨頭都組建起來,應(yīng)該說也是搜狗牽頭引領(lǐng)錄音筆行業(yè)發(fā)生的變化。

我們可以看到在這當(dāng)中有一個巨大的趨勢,也就是兩個基本斷言,這個時代的硬件會呈現(xiàn)兩個特點:一個是更加IO,一個是更加便攜,這是技術(shù)、網(wǎng)絡(luò)以及各種各樣硬的能力給我們帶來的變化。

回顧一下二十多年前,我們用的都是臺式機,很重很笨,隨著技術(shù)的提升,一個巨大的提升就是更加的便捷化。以前的臺式機到筆記本、Pad和手機,再往下開始出現(xiàn)手表,耳機今年也非?;穑偻驴赡芫褪茄坨R,所以硬件從計算力到連接能力以及AI化之后的一個趨勢就是更加便攜。另一個趨勢就是更加強調(diào)IO能力。以前都是一個鍵盤、一個鼠標(biāo)作為輸入,一個屏幕作為輸出,今天以手機為代表的大量虛擬觸屏和語音設(shè)備,也有強大的攝像頭,甚至開始有人臉識別、觸控模式,包括手表開始走向心律、心電圖的檢測,就是越來越強調(diào)IO。個人判斷音箱不會成為AI時代當(dāng)中具有重大潛力的產(chǎn)品,雖然現(xiàn)在是亞馬遜開頭,因為音箱便攜能力不夠,不是跟著個人走的產(chǎn)品,IO能力不足,也就是聲音進(jìn)去聲音出來,這樣的場景IO能力有限,后面的AI能力就會受到巨大的限制,我們預(yù)言未來五到十年間眼鏡可能會成為取代手機最重要的個人設(shè)備。

這些是我對人工智能和信息化的理解,也和鄔院士有所不同,代表著2C從業(yè)人員的判斷,如果有矛盾之處還是以鄔院士的為準(zhǔn)。要把人和簡單的設(shè)備連接在一塊,能夠發(fā)郵件、聊天、看新聞看視頻,這些已經(jīng)做得非常好了。有人說互聯(lián)網(wǎng)已經(jīng)進(jìn)入下半場了,好像做著做著就快沒了,只能往下深挖,但我并沒有看到瓶頸和限制,隨著5G和6G技術(shù)的出現(xiàn),網(wǎng)絡(luò)正在不斷出現(xiàn),升級依然是主旋律,互聯(lián)網(wǎng)文明仍然在往前走,那么就是工業(yè)互聯(lián)網(wǎng)、產(chǎn)業(yè)互聯(lián)網(wǎng)和IoT。

產(chǎn)業(yè)互聯(lián)網(wǎng)更像鄔院士講的運營網(wǎng)絡(luò),使得網(wǎng)絡(luò)底層的數(shù)據(jù)都被信息化,通過SaaS等模式大大改進(jìn)公司的運作效率,以前靠人做決策的事情現(xiàn)在逐步交給機器,甚至使得公司數(shù)據(jù)走出公司邊界,就像阿里的網(wǎng)絡(luò)協(xié)同、菜鳥網(wǎng)絡(luò)、小二以及其它廣告設(shè)計,大家都在同一張網(wǎng)上把底層數(shù)據(jù)打通。

IoT就是InternetofThings,所以是互聯(lián)網(wǎng)的一部分,但是中文翻譯的時候可能帶來一些誤解,因此往下信息化依然會強烈地展開。

人工智能這個詞從2016年開始就被問到非常多,如果我們忘掉這個詞,而是今天我們所說的數(shù)據(jù)智能,智能來自于數(shù)據(jù),沒有數(shù)據(jù)的地方機器是沒有能力去做模仿的,更沒有能力去進(jìn)行創(chuàng)造和推理,更多的就是在數(shù)據(jù)當(dāng)中學(xué)習(xí),有多少數(shù)據(jù)就能做多少人工智能,信息化做到多深人工智能就能做到多深,也就是穿透行業(yè)看到的視角。

談到語言AI,搜狗具有得天獨厚的優(yōu)勢,就是讓語言更加性感。語言是人工智能皇冠上的明珠,代表著人工智能當(dāng)中的最高水平。如果機器能夠和人對話,這個機器肯定擁有很強的人工智能,就像人一樣。我們看到一個機器,判斷它智能不智能第一做法是和它聊兩句。我們和外國人對音樂、視覺的理解都是一樣的,唯獨語言需要經(jīng)過長期的學(xué)習(xí)。我們發(fā)明了語言,通過一種符號描述這個世界,也是知識和思維的載體,這是語言的魅力。

語言為核心的自然交互使得機器能夠接受人的表達(dá)。八十年代的時候如果大家已經(jīng)從業(yè),1990年之前學(xué)電腦就是學(xué)打字,我們當(dāng)時最關(guān)心的就是如何把我們的表達(dá)讓機器能夠理解,甚至上升到國家領(lǐng)導(dǎo)人的重要課題。李嵐清到我們學(xué)校視察的時候我們就在演示新的技術(shù),總理就說小同學(xué),一分鐘能打多少字?當(dāng)時我聽了很生氣,這么低級的問題,但現(xiàn)在想起來,糧食的產(chǎn)量是物質(zhì)的基礎(chǔ),漢字的產(chǎn)量代表著人和電腦結(jié)合最基礎(chǔ)的元素。那個年代我們還在學(xué)習(xí)五筆,但往后走就是越來越智能,隨著機器能力的提升就從人適應(yīng)機器變成了機器適應(yīng)人,我們開始有了語音和視覺的識別,所以人機交互會構(gòu)成一個不變的主題,如何能夠讓機器理解人最自然的表達(dá)方式。

今天的時代已經(jīng)變得非常好了,隨著AI出現(xiàn)之后語音和圖像的突破,使得機器對人的表達(dá)能夠做得更好,那么就會帶來新的智能硬件,手機作為載體已經(jīng)發(fā)展到了極致的狀態(tài),往下也會把自然交互做得更高。

再就是知識計算,今天這在AI領(lǐng)域還是一個沒有被攻克的問題,就是讓機器產(chǎn)生像人一樣通過語言進(jìn)行分析思考。目前我們是在垂直領(lǐng)域來做這項局部的工作,比如現(xiàn)在整個通用的計算能力不夠就放在醫(yī)療和客服,然后在局部領(lǐng)域把這樣的通用智能能力限制以后降到具體的行業(yè)當(dāng)中,實現(xiàn)局部的計算力??匆豢船F(xiàn)在人工智能在兩個領(lǐng)域的能力,自然交互屬于感知的問題,感知的問題使語音圖像在今天得到深度學(xué)習(xí)的高度發(fā)展,而且是可靠的,甚至可以取代人,能夠比人更加精準(zhǔn)地工作,但知識計算是更前沿的工作,也就是對語言和符號的理解。

菜菜醬15:55:14

前來說就是兩種做法:人機交互知識圖譜,或者我們在做搜索的時候,人和機器配合起來一塊工作,要么就是讓用戶去做選擇,機器不能獨立完成取代人的工作,也就是語言本身到現(xiàn)在還是一個懸而未決的難題。

自然交互當(dāng)中最簡單的課題就是語音識別,隨著最近幾年深度學(xué)習(xí)的發(fā)展,已經(jīng)達(dá)到了一個新的高度,搜狗輸入法支持每天峰值超過8億次的語音識別請求,積累了大量的數(shù)據(jù)和能力,包括方言、語種、語音增強的問題,也有很多實用性部署,所以今天這個時代語音識別已經(jīng)不是什么難題了,但在這背后還有很多技術(shù),我們來看這樣一個語音識別的場景。

可以看到這種語音識別融合了很多技術(shù),科大訊飛北京研究院的朋友也在這里,一看就知道里面有些全能力的展示,不僅是識別得準(zhǔn),中間還包括了人身分離,通過AI算法可以知道聲音不一樣,除了語音之外也可以做笑聲掌聲方面的結(jié)構(gòu)化識別,能夠進(jìn)行符號化,也就是我們所說的感知不同類型的符號。再就是英文混說,由于深度學(xué)習(xí)原理當(dāng)中并不具有中英文混說的數(shù)據(jù)樣本,所以傳統(tǒng)語言人在做英文識別的時候不是調(diào)動感知的反應(yīng),發(fā)現(xiàn)不對的話我們就在想到底什么英文詞能夠恰如其分地進(jìn)行這種嵌入和轉(zhuǎn)化?這對核心語音識別系統(tǒng)是非常有挑戰(zhàn)性的事情,所以語音識別背后還有若干工作需要去做。

關(guān)于降噪這件事情,原來是聽不清楚一切都白搭,今天我們可以通過AI算法對歷史上發(fā)生過的4萬多種噪音進(jìn)行相應(yīng)的搜集和處理,也是做了非常大量的工作,能夠?qū)Ω鞣N噪音進(jìn)行學(xué)習(xí),在這種情況下就能夠把背景噪音進(jìn)行很好的識別處理?,F(xiàn)場有回響的回音和音樂的聲音,我們可以把噪聲進(jìn)行分離。這是拿一個小的錄音筆作為例子,背后顯現(xiàn)出了很強的AI技術(shù),并且已經(jīng)做到極致。

除了語音識別之外,很重要的就是語音合成,前面大家可能覺得惟妙惟肖,已經(jīng)和真人很接近了,但由于我們對語義有相應(yīng)的理解,不同的段落當(dāng)中會有抑揚頓挫和情感表達(dá),到現(xiàn)在沒有一個系統(tǒng)能夠用獨立的文字轉(zhuǎn)化成一部長篇的故事或者長篇付費的音頻節(jié)目,也就是出現(xiàn)同樣的情感表達(dá),因為背后有理解和表演的成分。兩周之前我們第一次在邏輯思維付費的音頻節(jié)目當(dāng)中實現(xiàn)了本人語音合成技術(shù),這種技術(shù)不是用文字和語音的轉(zhuǎn)換,我們可以嘗試用另外一個人來做一次朗讀,把自己的情感和自己對語音的理解代入進(jìn)去,然后通過綜合遷移的方法把聲音皮膚附上去,這樣就是一種新的分工,有的負(fù)責(zé)語義理解,有的負(fù)責(zé)表演工作。

這是全球首次能夠把這種真人語音合成技術(shù)帶入實用,而且是在付費音頻節(jié)目當(dāng)中,大概50%的聽眾都沒有聽出來和真人有什么區(qū)別,可能有的覺得沙啞一些,覺得感冒了,也有的很憤怒,我是來聽本人的表演,是花了錢的,你卻拿機器人來糊弄我,這種觀眾占到20%,可以看到這樣一些小心思。我們把制作和IP做到分離,生產(chǎn)之后能夠24小時不間斷地做商業(yè)節(jié)目,“假如生活欺騙了你,不要抱怨,抱我”,這項技術(shù)在未來各種場景當(dāng)中都有實際用處,目前已經(jīng)有31%的小朋友在聽“凱叔講故事”,很多都只認(rèn)凱叔不認(rèn)自己的爹了,我們可以把凱叔的表演和我的聲音合在一塊。

我們最早做語音技術(shù)的時候做了很好的唇語識別,不僅通過聲波可以知道說什么,我們也可以轉(zhuǎn)化為文字,這是一維的深度學(xué)習(xí)方式,要是只通過嘴唇運動進(jìn)行識別,由此研發(fā)了基于三維的視覺表達(dá),達(dá)到特定場景90%的效果。實驗室技術(shù)也有進(jìn)行實用,如果大家感興趣的話可以在后面的展廳去嘗試,想出任何一句詩詞,不用發(fā)聲機器就可以知道說的是什么內(nèi)容,十句當(dāng)中有九句都可以識別出來?,F(xiàn)在我們是從嘴形到文字變成到從文字到嘴形的合成,由此開始做這樣的分聲技術(shù),就是人機交互不僅是人講的機器能懂,機器也可以通過交互像人一樣去做表達(dá)。

這是最近我們和新華社合作的一款產(chǎn)品,新華社從今年2月份開始就用機器取代人進(jìn)行新聞播報,之后我們又做了好幾版的升級,能夠使得產(chǎn)品升級從表情、手勢都會變得更好。這樣的一個主持人從原來每周下午一、二、五上班,現(xiàn)在轉(zhuǎn)變?yōu)橥耆夥牛_始升級成了一個采訪記者,拿著攝像機和麥克風(fēng)去做實際的采訪,所以原有的工作已經(jīng)被機器完整取代,不用化妝、燈光和攝像。新聞行業(yè)當(dāng)中第一個被取代的職位反而是新聞主播,說明新聞主播本身的技術(shù)含量不是很高,不涉及到很多情感的表演表達(dá)。

平安普惠產(chǎn)品已經(jīng)上線,以前都是靠人面對面的簽約服務(wù),隨著技術(shù)的進(jìn)步,人工客服已經(jīng)被完全取代,我們提供語音合成和視覺合成能力,不過都是客服當(dāng)中簡單的確認(rèn)性服務(wù),要是銷售的話估計這樣會把客戶嚇跑。

目前語音視覺已經(jīng)開始逐步走向語言,今天能夠摸得到邊的技術(shù)就是翻譯,全球有70億人當(dāng)中漢語為母語的人口占到多少?大概20%,全球英文母語的占到多少?其實只排在全球人口的第四名,要比葡萄牙語和印地語還少,但英文是今天全球通用的語言,網(wǎng)頁上95%的有效信息都是英文寫的,100%的商貿(mào)活動都是用英文。所以作為中國人很難堪的是,當(dāng)我們?nèi)H上交流的時候需要被迫做多年的英文學(xué)習(xí),除非是在當(dāng)?shù)厣罨蛘呃斫馔鈬奈幕?,那么需要精深的學(xué)習(xí),大多數(shù)投入的學(xué)習(xí)成本和得到的收益是并不值當(dāng)?shù)?,是否能夠讓機器幫助我們做到更好的翻譯工作?

六十年代有了人工智能之后就一直在進(jìn)行翻譯,直到最近才大放異彩,中國的機器翻譯是比美國做得更好,原因不在于技術(shù)更領(lǐng)先,而是態(tài)度更認(rèn)真,今天的AI不僅靠算法,還要靠背后的數(shù)據(jù)驅(qū)動,中國公司是很努力地進(jìn)行大量的數(shù)據(jù)搜集和加工工作。搜狗在2016年1月是全球首個在通用場景和大會上發(fā)布了這樣一個英到中的同傳系統(tǒng),2017年1月也是行業(yè)當(dāng)中首個英文檢索,識別中文詞語之后可以轉(zhuǎn)化為英文,這對英文不是足夠良好的人來講有機會在全球獲得交流信息,也是使用了一定的機器計算工作,加上很好的交互,使得我們的信息獲取方式極大地拓展。

2017年10月,我們首個發(fā)布離線深度學(xué)習(xí)產(chǎn)品,也是一款翻譯機。今天的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)特別大,如何把這種結(jié)構(gòu)裝到一個小設(shè)備當(dāng)中?到了2018年我們是首個能夠在Q3做到英到中的同傳系統(tǒng),也已經(jīng)進(jìn)入了使用狀態(tài),包括在蘋果發(fā)布會當(dāng)中進(jìn)行精準(zhǔn)轉(zhuǎn)寫,不過需要定期進(jìn)行優(yōu)化,包括醫(yī)療、科技、教育和物理學(xué)等等,因為機器并不具備足夠高的認(rèn)知能力,需要不斷優(yōu)化才能逐漸靠譜。

我們發(fā)現(xiàn)從感知到翻譯正在走向更深的體系,人機對談也是目前最有魅力的人工智能語言前景,就是蘋果的Siri再到Echo,我們正在努力構(gòu)造對話問答系統(tǒng),這也代表人工智能2C的最高水準(zhǔn)。前些日子我們發(fā)明了針對問答的機器,也是在節(jié)目當(dāng)中做了表現(xiàn)。由于這款產(chǎn)品收窄到了知識類的問答,就是問的問題一定是有答案的,在這種情況下機器是可以超過人的。這是2016年的“一站到底”節(jié)目,最早的時候是可以PK過人的,系統(tǒng)升級到了選手冠軍PK,再到后來要求先讓人三分,就是3:0開始去做,關(guān)閉了機器的搶答能力,在這種情況下我們依然做到了不錯的效果。因為這不是簡單的數(shù)據(jù)庫檢索,而是主持人提問,通過語音和視覺,閱讀網(wǎng)上上百億的網(wǎng)頁然后找到相關(guān)的答案,實時反饋比人更快,也是在搜索當(dāng)中得到充足的使用。

面向個人的語言AI產(chǎn)品矩陣進(jìn)行預(yù)測,一方面是自然交互的工作,文字到語音到圖像的展開,這件事情會使得感知方面機器能夠比人進(jìn)行更好的取代,另一方面就是信息到知識計算的能力,所以可以看到橫向跑得很快,就是輸入法到智能硬件,不管是音箱到未來的耳機和眼鏡,這些都是視覺聽覺當(dāng)中可以做得足夠的好,縱向就是需要收窄領(lǐng)域,畫虛線的也有醫(yī)療的問題,IBMWatson做了很久還沒有很大的突破。

電影《Her》當(dāng)中最需要解決的就是一個性感的個人助理,交互層面方面我們已經(jīng)可以解決,但是對知識的理解還是下一個十年我們希望能夠有突破的領(lǐng)域,就是讓人人都能夠有一個助理,甚至成為你的分身,這也是搜狗目前的使命。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2019-11-26
王小川:音箱不會成為AI時代具有重大潛力的產(chǎn)品
11月26日消息,在搜狐科技主辦的2019搜狐科技AI峰會上,搜狗公司CEO王小川表示,AI時代個人硬件趨勢是變得更IO,更便捷。

長按掃碼 閱讀全文