www亚洲色大成网络.com,一区在线免费观看

11月26日消息，在搜狐科技主辦的2019搜狐科技AI峰會(huì)上，搜狗公司CEO王小川表示，AI時(shí)代個(gè)人硬件趨勢(shì)是變得更IO，更便捷。

王小川認(rèn)為，音箱不會(huì)成為AI時(shí)代具有重大潛力的產(chǎn)品。雖然現(xiàn)在亞馬遜開了頭，但因?yàn)橐粝浔銛y能力不夠，不是跟著個(gè)人走的產(chǎn)品，也就是聲音進(jìn)去聲音出來，這樣的場景IO能力有限，后面的AI能力就會(huì)受到巨大的限制。

因此，王小川預(yù)言，未來五到十年間眼鏡可能會(huì)成為取代手機(jī)最重要的個(gè)人設(shè)備。

他認(rèn)為，關(guān)于互聯(lián)網(wǎng)和人工智能的未來，將從個(gè)人互聯(lián)網(wǎng)演變成為產(chǎn)業(yè)互聯(lián)網(wǎng)，最終形態(tài)是IoT，商業(yè)邏輯也或從賦能于人變成商業(yè)智能再變成機(jī)器人。具體來說，語言AI的發(fā)展方向是自然交互+知識(shí)計(jì)算。

他談到，有了機(jī)器智能之后，已經(jīng)從人適應(yīng)機(jī)器，變成了機(jī)器適應(yīng)人。AI帶來的語音、圖像技術(shù)的突破，也會(huì)讓人們的生活更加便捷。

以下為王小川演講全文：

尊敬的各位嘉賓、各位朋友，很榮幸，也很有壓力在鄔院士之后做我的演講。我的主題分為兩個(gè)部分：語言AI，以及2020+，因?yàn)?030年太遠(yuǎn)了，也許這件事情2030年就干完了，所以就定在2020年。

在此之前搜狐科技的朋友都跟我說來點(diǎn)硬的，所以我?guī)砹诉@樣一款錄音筆，這是搜狗發(fā)布的硬件產(chǎn)品，也在“雙十一”的多個(gè)平臺(tái)銷量第一?？梢钥吹竭@幾年當(dāng)中錄音筆是一個(gè)很小眾的市場，2015年就開始有所下滑，每年銷量也就是400多萬支，但是搜狗為什么選擇這樣一件事情呢？因?yàn)?019年這個(gè)市場發(fā)生了逆轉(zhuǎn)，圖中桔色的線是去年錄音筆市場，可以看到由于手機(jī)的高度智能，這個(gè)市場開始減小，但是今年1-2月份搜狗發(fā)布新的產(chǎn)品之后，整個(gè)市場開始出現(xiàn)逆轉(zhuǎn)，好像電商搜索平臺(tái)的量又開始增加了。我們也成立了AI創(chuàng)新聯(lián)盟，核心就是錄音相關(guān)的，也把索尼、愛國者、紐曼這些巨頭都組建起來，應(yīng)該說也是搜狗牽頭引領(lǐng)錄音筆行業(yè)發(fā)生的變化。

我們可以看到在這當(dāng)中有一個(gè)巨大的趨勢(shì)，也就是兩個(gè)基本斷言，這個(gè)時(shí)代的硬件會(huì)呈現(xiàn)兩個(gè)特點(diǎn)：一個(gè)是更加IO，一個(gè)是更加便攜，這是技術(shù)、網(wǎng)絡(luò)以及各種各樣硬的能力給我們帶來的變化。

回顧一下二十多年前，我們用的都是臺(tái)式機(jī)，很重很笨，隨著技術(shù)的提升，一個(gè)巨大的提升就是更加的便捷化。以前的臺(tái)式機(jī)到筆記本、Pad和手機(jī)，再往下開始出現(xiàn)手表，耳機(jī)今年也非?；?，再往下可能就是眼鏡，所以硬件從計(jì)算力到連接能力以及AI化之后的一個(gè)趨勢(shì)就是更加便攜。另一個(gè)趨勢(shì)就是更加強(qiáng)調(diào)IO能力。以前都是一個(gè)鍵盤、一個(gè)鼠標(biāo)作為輸入，一個(gè)屏幕作為輸出，今天以手機(jī)為代表的大量虛擬觸屏和語音設(shè)備，也有強(qiáng)大的攝像頭，甚至開始有人臉識(shí)別、觸控模式，包括手表開始走向心律、心電圖的檢測(cè)，就是越來越強(qiáng)調(diào)IO。個(gè)人判斷音箱不會(huì)成為AI時(shí)代當(dāng)中具有重大潛力的產(chǎn)品，雖然現(xiàn)在是亞馬遜開頭，因?yàn)橐粝浔銛y能力不夠，不是跟著個(gè)人走的產(chǎn)品，IO能力不足，也就是聲音進(jìn)去聲音出來，這樣的場景IO能力有限，后面的AI能力就會(huì)受到巨大的限制，我們預(yù)言未來五到十年間眼鏡可能會(huì)成為取代手機(jī)最重要的個(gè)人設(shè)備。

這些是我對(duì)人工智能和信息化的理解，也和鄔院士有所不同，代表著2C從業(yè)人員的判斷，如果有矛盾之處還是以鄔院士的為準(zhǔn)。要把人和簡單的設(shè)備連接在一塊，能夠發(fā)郵件、聊天、看新聞看視頻，這些已經(jīng)做得非常好了。有人說互聯(lián)網(wǎng)已經(jīng)進(jìn)入下半場了，好像做著做著就快沒了，只能往下深挖，但我并沒有看到瓶頸和限制，隨著5G和6G技術(shù)的出現(xiàn)，網(wǎng)絡(luò)正在不斷出現(xiàn)，升級(jí)依然是主旋律，互聯(lián)網(wǎng)文明仍然在往前走，那么就是工業(yè)互聯(lián)網(wǎng)、產(chǎn)業(yè)互聯(lián)網(wǎng)和IoT。

產(chǎn)業(yè)互聯(lián)網(wǎng)更像鄔院士講的運(yùn)營網(wǎng)絡(luò)，使得網(wǎng)絡(luò)底層的數(shù)據(jù)都被信息化，通過SaaS等模式大大改進(jìn)公司的運(yùn)作效率，以前靠人做決策的事情現(xiàn)在逐步交給機(jī)器，甚至使得公司數(shù)據(jù)走出公司邊界，就像阿里的網(wǎng)絡(luò)協(xié)同、菜鳥網(wǎng)絡(luò)、小二以及其它廣告設(shè)計(jì)，大家都在同一張網(wǎng)上把底層數(shù)據(jù)打通。

IoT就是InternetofThings，所以是互聯(lián)網(wǎng)的一部分，但是中文翻譯的時(shí)候可能帶來一些誤解，因此往下信息化依然會(huì)強(qiáng)烈地展開。

人工智能這個(gè)詞從2016年開始就被問到非常多，如果我們忘掉這個(gè)詞，而是今天我們所說的數(shù)據(jù)智能，智能來自于數(shù)據(jù)，沒有數(shù)據(jù)的地方機(jī)器是沒有能力去做模仿的，更沒有能力去進(jìn)行創(chuàng)造和推理，更多的就是在數(shù)據(jù)當(dāng)中學(xué)習(xí)，有多少數(shù)據(jù)就能做多少人工智能，信息化做到多深人工智能就能做到多深，也就是穿透行業(yè)看到的視角。

談到語言AI，搜狗具有得天獨(dú)厚的優(yōu)勢(shì)，就是讓語言更加性感。語言是人工智能皇冠上的明珠，代表著人工智能當(dāng)中的最高水平。如果機(jī)器能夠和人對(duì)話，這個(gè)機(jī)器肯定擁有很強(qiáng)的人工智能，就像人一樣。我們看到一個(gè)機(jī)器，判斷它智能不智能第一做法是和它聊兩句。我們和外國人對(duì)音樂、視覺的理解都是一樣的，唯獨(dú)語言需要經(jīng)過長期的學(xué)習(xí)。我們發(fā)明了語言，通過一種符號(hào)描述這個(gè)世界，也是知識(shí)和思維的載體，這是語言的魅力。

語言為核心的自然交互使得機(jī)器能夠接受人的表達(dá)。八十年代的時(shí)候如果大家已經(jīng)從業(yè)，1990年之前學(xué)電腦就是學(xué)打字，我們當(dāng)時(shí)最關(guān)心的就是如何把我們的表達(dá)讓機(jī)器能夠理解，甚至上升到國家領(lǐng)導(dǎo)人的重要課題。李嵐清到我們學(xué)校視察的時(shí)候我們就在演示新的技術(shù)，總理就說小同學(xué)，一分鐘能打多少字？當(dāng)時(shí)我聽了很生氣，這么低級(jí)的問題，但現(xiàn)在想起來，糧食的產(chǎn)量是物質(zhì)的基礎(chǔ)，漢字的產(chǎn)量代表著人和電腦結(jié)合最基礎(chǔ)的元素。那個(gè)年代我們還在學(xué)習(xí)五筆，但往后走就是越來越智能，隨著機(jī)器能力的提升就從人適應(yīng)機(jī)器變成了機(jī)器適應(yīng)人，我們開始有了語音和視覺的識(shí)別，所以人機(jī)交互會(huì)構(gòu)成一個(gè)不變的主題，如何能夠讓機(jī)器理解人最自然的表達(dá)方式。

今天的時(shí)代已經(jīng)變得非常好了，隨著AI出現(xiàn)之后語音和圖像的突破，使得機(jī)器對(duì)人的表達(dá)能夠做得更好，那么就會(huì)帶來新的智能硬件，手機(jī)作為載體已經(jīng)發(fā)展到了極致的狀態(tài)，往下也會(huì)把自然交互做得更高。

再就是知識(shí)計(jì)算，今天這在AI領(lǐng)域還是一個(gè)沒有被攻克的問題，就是讓機(jī)器產(chǎn)生像人一樣通過語言進(jìn)行分析思考。目前我們是在垂直領(lǐng)域來做這項(xiàng)局部的工作，比如現(xiàn)在整個(gè)通用的計(jì)算能力不夠就放在醫(yī)療和客服，然后在局部領(lǐng)域把這樣的通用智能能力限制以后降到具體的行業(yè)當(dāng)中，實(shí)現(xiàn)局部的計(jì)算力?？匆豢船F(xiàn)在人工智能在兩個(gè)領(lǐng)域的能力，自然交互屬于感知的問題，感知的問題使語音圖像在今天得到深度學(xué)習(xí)的高度發(fā)展，而且是可靠的，甚至可以取代人，能夠比人更加精準(zhǔn)地工作，但知識(shí)計(jì)算是更前沿的工作，也就是對(duì)語言和符號(hào)的理解。

菜菜醬15:55:14

前來說就是兩種做法：人機(jī)交互知識(shí)圖譜，或者我們?cè)谧鏊阉鞯臅r(shí)候，人和機(jī)器配合起來一塊工作，要么就是讓用戶去做選擇，機(jī)器不能獨(dú)立完成取代人的工作，也就是語言本身到現(xiàn)在還是一個(gè)懸而未決的難題。

自然交互當(dāng)中最簡單的課題就是語音識(shí)別，隨著最近幾年深度學(xué)習(xí)的發(fā)展，已經(jīng)達(dá)到了一個(gè)新的高度，搜狗輸入法支持每天峰值超過8億次的語音識(shí)別請(qǐng)求，積累了大量的數(shù)據(jù)和能力，包括方言、語種、語音增強(qiáng)的問題，也有很多實(shí)用性部署，所以今天這個(gè)時(shí)代語音識(shí)別已經(jīng)不是什么難題了，但在這背后還有很多技術(shù)，我們來看這樣一個(gè)語音識(shí)別的場景。

可以看到這種語音識(shí)別融合了很多技術(shù)，科大訊飛北京研究院的朋友也在這里，一看就知道里面有些全能力的展示，不僅是識(shí)別得準(zhǔn)，中間還包括了人身分離，通過AI算法可以知道聲音不一樣，除了語音之外也可以做笑聲掌聲方面的結(jié)構(gòu)化識(shí)別，能夠進(jìn)行符號(hào)化，也就是我們所說的感知不同類型的符號(hào)。再就是英文混說，由于深度學(xué)習(xí)原理當(dāng)中并不具有中英文混說的數(shù)據(jù)樣本，所以傳統(tǒng)語言人在做英文識(shí)別的時(shí)候不是調(diào)動(dòng)感知的反應(yīng)，發(fā)現(xiàn)不對(duì)的話我們就在想到底什么英文詞能夠恰如其分地進(jìn)行這種嵌入和轉(zhuǎn)化？這對(duì)核心語音識(shí)別系統(tǒng)是非常有挑戰(zhàn)性的事情，所以語音識(shí)別背后還有若干工作需要去做。

關(guān)于降噪這件事情，原來是聽不清楚一切都白搭，今天我們可以通過AI算法對(duì)歷史上發(fā)生過的4萬多種噪音進(jìn)行相應(yīng)的搜集和處理，也是做了非常大量的工作，能夠?qū)Ω鞣N噪音進(jìn)行學(xué)習(xí)，在這種情況下就能夠把背景噪音進(jìn)行很好的識(shí)別處理?，F(xiàn)場有回響的回音和音樂的聲音，我們可以把噪聲進(jìn)行分離。這是拿一個(gè)小的錄音筆作為例子，背后顯現(xiàn)出了很強(qiáng)的AI技術(shù)，并且已經(jīng)做到極致。

除了語音識(shí)別之外，很重要的就是語音合成，前面大家可能覺得惟妙惟肖，已經(jīng)和真人很接近了，但由于我們對(duì)語義有相應(yīng)的理解，不同的段落當(dāng)中會(huì)有抑揚(yáng)頓挫和情感表達(dá)，到現(xiàn)在沒有一個(gè)系統(tǒng)能夠用獨(dú)立的文字轉(zhuǎn)化成一部長篇的故事或者長篇付費(fèi)的音頻節(jié)目，也就是出現(xiàn)同樣的情感表達(dá)，因?yàn)楸澈笥欣斫夂捅硌莸某煞?。兩周之前我們第一次在邏輯思維付費(fèi)的音頻節(jié)目當(dāng)中實(shí)現(xiàn)了本人語音合成技術(shù)，這種技術(shù)不是用文字和語音的轉(zhuǎn)換，我們可以嘗試用另外一個(gè)人來做一次朗讀，把自己的情感和自己對(duì)語音的理解代入進(jìn)去，然后通過綜合遷移的方法把聲音皮膚附上去，這樣就是一種新的分工，有的負(fù)責(zé)語義理解，有的負(fù)責(zé)表演工作。

這是全球首次能夠把這種真人語音合成技術(shù)帶入實(shí)用，而且是在付費(fèi)音頻節(jié)目當(dāng)中，大概50%的聽眾都沒有聽出來和真人有什么區(qū)別，可能有的覺得沙啞一些，覺得感冒了，也有的很憤怒，我是來聽本人的表演，是花了錢的，你卻拿機(jī)器人來糊弄我，這種觀眾占到20%，可以看到這樣一些小心思。我們把制作和IP做到分離，生產(chǎn)之后能夠24小時(shí)不間斷地做商業(yè)節(jié)目，“假如生活欺騙了你，不要抱怨，抱我”，這項(xiàng)技術(shù)在未來各種場景當(dāng)中都有實(shí)際用處，目前已經(jīng)有31%的小朋友在聽“凱叔講故事”，很多都只認(rèn)凱叔不認(rèn)自己的爹了，我們可以把凱叔的表演和我的聲音合在一塊。

我們最早做語音技術(shù)的時(shí)候做了很好的唇語識(shí)別，不僅通過聲波可以知道說什么，我們也可以轉(zhuǎn)化為文字，這是一維的深度學(xué)習(xí)方式，要是只通過嘴唇運(yùn)動(dòng)進(jìn)行識(shí)別，由此研發(fā)了基于三維的視覺表達(dá)，達(dá)到特定場景90%的效果。實(shí)驗(yàn)室技術(shù)也有進(jìn)行實(shí)用，如果大家感興趣的話可以在后面的展廳去嘗試，想出任何一句詩詞，不用發(fā)聲機(jī)器就可以知道說的是什么內(nèi)容，十句當(dāng)中有九句都可以識(shí)別出來?，F(xiàn)在我們是從嘴形到文字變成到從文字到嘴形的合成，由此開始做這樣的分聲技術(shù)，就是人機(jī)交互不僅是人講的機(jī)器能懂，機(jī)器也可以通過交互像人一樣去做表達(dá)。

這是最近我們和新華社合作的一款產(chǎn)品，新華社從今年2月份開始就用機(jī)器取代人進(jìn)行新聞播報(bào)，之后我們又做了好幾版的升級(jí)，能夠使得產(chǎn)品升級(jí)從表情、手勢(shì)都會(huì)變得更好。這樣的一個(gè)主持人從原來每周下午一、二、五上班，現(xiàn)在轉(zhuǎn)變?yōu)橥耆夥牛_始升級(jí)成了一個(gè)采訪記者，拿著攝像機(jī)和麥克風(fēng)去做實(shí)際的采訪，所以原有的工作已經(jīng)被機(jī)器完整取代，不用化妝、燈光和攝像。新聞行業(yè)當(dāng)中第一個(gè)被取代的職位反而是新聞主播，說明新聞主播本身的技術(shù)含量不是很高，不涉及到很多情感的表演表達(dá)。

平安普惠產(chǎn)品已經(jīng)上線，以前都是靠人面對(duì)面的簽約服務(wù)，隨著技術(shù)的進(jìn)步，人工客服已經(jīng)被完全取代，我們提供語音合成和視覺合成能力，不過都是客服當(dāng)中簡單的確認(rèn)性服務(wù)，要是銷售的話估計(jì)這樣會(huì)把客戶嚇跑。

目前語音視覺已經(jīng)開始逐步走向語言，今天能夠摸得到邊的技術(shù)就是翻譯，全球有70億人當(dāng)中漢語為母語的人口占到多少？大概20%，全球英文母語的占到多少？其實(shí)只排在全球人口的第四名，要比葡萄牙語和印地語還少，但英文是今天全球通用的語言，網(wǎng)頁上95%的有效信息都是英文寫的，100%的商貿(mào)活動(dòng)都是用英文。所以作為中國人很難堪的是，當(dāng)我們?nèi)H上交流的時(shí)候需要被迫做多年的英文學(xué)習(xí)，除非是在當(dāng)?shù)厣罨蛘呃斫馔鈬奈幕?，那么需要精深的學(xué)習(xí)，大多數(shù)投入的學(xué)習(xí)成本和得到的收益是并不值當(dāng)?shù)模欠衲軌蜃寵C(jī)器幫助我們做到更好的翻譯工作？

六十年代有了人工智能之后就一直在進(jìn)行翻譯，直到最近才大放異彩，中國的機(jī)器翻譯是比美國做得更好，原因不在于技術(shù)更領(lǐng)先，而是態(tài)度更認(rèn)真，今天的AI不僅靠算法，還要靠背后的數(shù)據(jù)驅(qū)動(dòng)，中國公司是很努力地進(jìn)行大量的數(shù)據(jù)搜集和加工工作。搜狗在2016年1月是全球首個(gè)在通用場景和大會(huì)上發(fā)布了這樣一個(gè)英到中的同傳系統(tǒng)，2017年1月也是行業(yè)當(dāng)中首個(gè)英文檢索，識(shí)別中文詞語之后可以轉(zhuǎn)化為英文，這對(duì)英文不是足夠良好的人來講有機(jī)會(huì)在全球獲得交流信息，也是使用了一定的機(jī)器計(jì)算工作，加上很好的交互，使得我們的信息獲取方式極大地拓展。

2017年10月，我們首個(gè)發(fā)布離線深度學(xué)習(xí)產(chǎn)品，也是一款翻譯機(jī)。今天的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)特別大，如何把這種結(jié)構(gòu)裝到一個(gè)小設(shè)備當(dāng)中？到了2018年我們是首個(gè)能夠在Q3做到英到中的同傳系統(tǒng)，也已經(jīng)進(jìn)入了使用狀態(tài)，包括在蘋果發(fā)布會(huì)當(dāng)中進(jìn)行精準(zhǔn)轉(zhuǎn)寫，不過需要定期進(jìn)行優(yōu)化，包括醫(yī)療、科技、教育和物理學(xué)等等，因?yàn)闄C(jī)器并不具備足夠高的認(rèn)知能力，需要不斷優(yōu)化才能逐漸靠譜。

我們發(fā)現(xiàn)從感知到翻譯正在走向更深的體系，人機(jī)對(duì)談也是目前最有魅力的人工智能語言前景，就是蘋果的Siri再到Echo，我們正在努力構(gòu)造對(duì)話問答系統(tǒng)，這也代表人工智能2C的最高水準(zhǔn)。前些日子我們發(fā)明了針對(duì)問答的機(jī)器，也是在節(jié)目當(dāng)中做了表現(xiàn)。由于這款產(chǎn)品收窄到了知識(shí)類的問答，就是問的問題一定是有答案的，在這種情況下機(jī)器是可以超過人的。這是2016年的“一站到底”節(jié)目，最早的時(shí)候是可以PK過人的，系統(tǒng)升級(jí)到了選手冠軍PK，再到后來要求先讓人三分，就是3：0開始去做，關(guān)閉了機(jī)器的搶答能力，在這種情況下我們依然做到了不錯(cuò)的效果。因?yàn)檫@不是簡單的數(shù)據(jù)庫檢索，而是主持人提問，通過語音和視覺，閱讀網(wǎng)上上百億的網(wǎng)頁然后找到相關(guān)的答案，實(shí)時(shí)反饋比人更快，也是在搜索當(dāng)中得到充足的使用。

面向個(gè)人的語言AI產(chǎn)品矩陣進(jìn)行預(yù)測(cè)，一方面是自然交互的工作，文字到語音到圖像的展開，這件事情會(huì)使得感知方面機(jī)器能夠比人進(jìn)行更好的取代，另一方面就是信息到知識(shí)計(jì)算的能力，所以可以看到橫向跑得很快，就是輸入法到智能硬件，不管是音箱到未來的耳機(jī)和眼鏡，這些都是視覺聽覺當(dāng)中可以做得足夠的好，縱向就是需要收窄領(lǐng)域，畫虛線的也有醫(yī)療的問題，IBMWatson做了很久還沒有很大的突破。

電影《Her》當(dāng)中最需要解決的就是一個(gè)性感的個(gè)人助理，交互層面方面我們已經(jīng)可以解決，但是對(duì)知識(shí)的理解還是下一個(gè)十年我們希望能夠有突破的領(lǐng)域，就是讓人人都能夠有一個(gè)助理，甚至成為你的分身，這也是搜狗目前的使命。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）