2003年5月,《哈佛商業(yè)評(píng)論》上刊載了尼古拉斯·卡爾那篇題為《IT Doesn’t Matter》(IT不再重要)的文章。
這本文章與其說(shuō)是《IT不再重要》,不如說(shuō)是《互聯(lián)網(wǎng)不再重要》,因?yàn)槠鋵?shí)尼古拉斯·卡爾在這本書(shū)中表達(dá)的主題,人工智能、云計(jì)算、大數(shù)據(jù)將會(huì)改變我們的時(shí)代。
這個(gè)標(biāo)題拿來(lái)形容當(dāng)下的中國(guó)互聯(lián)網(wǎng)可能有很大相通之處。移動(dòng)時(shí)代正在整體向AI時(shí)代過(guò)渡。移動(dòng)時(shí)代的產(chǎn)品都要紛紛迎接新格局,語(yǔ)音也是如此。
在2018年10月的中國(guó)計(jì)算語(yǔ)言學(xué)大會(huì)上,語(yǔ)音識(shí)別科學(xué)家黃學(xué)東博士提到,“語(yǔ)音和語(yǔ)言之進(jìn)化對(duì)人工智能的重要意義毫不亞于語(yǔ)音和語(yǔ)言對(duì)人類(lèi)進(jìn)化的決定性作用”。百度輸入法在1月15日發(fā)布會(huì)展示的新技術(shù)同樣呈現(xiàn)了這個(gè)趨勢(shì)。
可以說(shuō),百度輸入法正是目前的業(yè)內(nèi)標(biāo)桿。這也是第一家真正思考AI時(shí)代人機(jī)交互的輸入法產(chǎn)品。
智能語(yǔ)音的進(jìn)化甚至正在把人機(jī)交互帶入新的階段。不僅僅有問(wèn)有答、包含上下語(yǔ)義邏輯,人工智能硬件能夠更多地融合各種環(huán)境信息,作出不同決策或推薦。
百度系產(chǎn)品在過(guò)去幾年的進(jìn)化過(guò)程中,逐漸展現(xiàn)出了新的人機(jī)交互邏輯。
一
交互的進(jìn)化
工具型產(chǎn)品在不同時(shí)代、不同需求、不同場(chǎng)景往往面臨著轉(zhuǎn)型考驗(yàn)。搜索、輸入法這些從PC時(shí)代走到移動(dòng)時(shí)代的產(chǎn)品,到了AI時(shí)代再一次發(fā)生進(jìn)化。
搜索這樣的產(chǎn)品就在從過(guò)去的搜索引擎,變成“搜索+信息流”的雙引擎產(chǎn)品。像百度APP就在融入AI,把過(guò)去搜索引擎時(shí)代的人找信息,變成信息、服務(wù)找人。既能讓用戶(hù)找到信息,也能讓信息找到用戶(hù),重構(gòu)了新型信息服務(wù)體驗(yàn)。
輸入法同樣如此。輸入法本質(zhì)上是人類(lèi)和機(jī)器的交互方式。我們真正去追根溯源就會(huì)發(fā)現(xiàn),PC時(shí)代,輸入法要通過(guò)鍵鼠讓我們和機(jī)器交互。隨著移動(dòng)時(shí)代的來(lái)臨,觸摸屏又取代鍵鼠,成了輸入法新的承載。
細(xì)細(xì)數(shù)來(lái),鍵鼠這種交互方式存在至今不過(guò)百年,而觸摸屏這種交互方式嚴(yán)格算來(lái)也僅僅只有不到20年。實(shí)際上,語(yǔ)音本來(lái)就是人誕生以來(lái)最天然的交互方式。未來(lái)輸入法通過(guò)語(yǔ)音的方式獲取服務(wù),甚至在搜索、娛樂(lè)、購(gòu)物等眾多場(chǎng)景出現(xiàn),也毫不為奇。
早在微軟Build2016開(kāi)發(fā)者大會(huì)上,微軟CEO納德拉就提出了“Conversations as a Platform”,也就是“對(duì)話即平臺(tái)”的人工智能發(fā)展方向。
這個(gè)概念在后來(lái)也被成為是“對(duì)話式人工智能”。
所謂“對(duì)話式人工智能”指的是,對(duì)話本身就是一個(gè)平臺(tái),各種知識(shí)、信息與服務(wù)都運(yùn)行在“對(duì)話”其上,可以形成生態(tài)環(huán)境的基礎(chǔ)平臺(tái)。人和人工智能之間的對(duì)話,即是解決各種問(wèn)題的一種路徑和方式。
事實(shí)上,百度輸入法正在朝這個(gè)方向努力——用AI改變?nèi)撕褪澜绲慕换シ绞?,讓人們隨時(shí)隨地與世界互動(dòng),獲取生活服務(wù)。
二
技術(shù)的躍進(jìn)
產(chǎn)品進(jìn)化終究需要長(zhǎng)期祭奠技術(shù),并在技術(shù)積淀過(guò)程中厚積薄發(fā),最終在產(chǎn)品層面體現(xiàn)出來(lái)。
這次百度輸入法進(jìn)化的秘密在于“流式多級(jí)的截?cái)郃ttention模型”(注意力模型),還在業(yè)界第一次創(chuàng)新性的提出了SMLAT技術(shù)。這是國(guó)際上首次超越了整句的注意力模型。這也是國(guó)際上首次實(shí)現(xiàn)在線語(yǔ)音大規(guī)模使用注意力模型。
我們先解釋“流式多級(jí)的截?cái)郃ttention模型”這個(gè)問(wèn)題。
要知道,過(guò)去傳統(tǒng)的Attention模型都是基于整句的,整句Attention技術(shù)是在語(yǔ)音都上傳到服務(wù)器后,才能開(kāi)始聲學(xué)打分計(jì)算和解碼,會(huì)引入較大的用戶(hù)等待時(shí)間,沒(méi)法做到在線語(yǔ)音交互的大規(guī)模實(shí)時(shí)服務(wù),達(dá)不到上線標(biāo)準(zhǔn)。
百度在使用“流式多級(jí)的截?cái)郃ttention模型”之后,主要技術(shù)優(yōu)勢(shì)在三點(diǎn)。
1、基于CTC的尖峰信息對(duì)語(yǔ)音流進(jìn)行截?cái)?,然后再每一截?cái)嗟恼Z(yǔ)音小段上進(jìn)行當(dāng)前建模單元的注意力建模;
2、把全局的Attention的整句識(shí)別變成了局部的Attention的流式識(shí)別,并且引入多層的Attention,實(shí)現(xiàn)特征層層遞進(jìn)的更精準(zhǔn)的特征選擇;
3、語(yǔ)音識(shí)別的識(shí)別率超越傳統(tǒng)的全局Attention建模,同時(shí)計(jì)算速度和傳統(tǒng)CTC技術(shù)持平,實(shí)現(xiàn)全CPU流量的大規(guī)模線上服務(wù)。
另外在在離線語(yǔ)音識(shí)別領(lǐng)域,百度輸入法還在持續(xù)優(yōu)化Deep Peak 2系統(tǒng),讓離線語(yǔ)音輸入相對(duì)準(zhǔn)確率再次提升。 這些內(nèi)容聽(tīng)起來(lái)很專(zhuān)業(yè),我們通俗解釋的話就是,這使得語(yǔ)音的相對(duì)準(zhǔn)確率提高了,而且用戶(hù)可以說(shuō)得更自由了。
不管是流式多級(jí)的截?cái)郃ttention模型以及優(yōu)化Deep Peak 2系統(tǒng)。這些技術(shù)進(jìn)展在逗未來(lái)在技術(shù)轉(zhuǎn)化和產(chǎn)品落地上產(chǎn)生影響。
1、最直接的影響是,智能語(yǔ)音更準(zhǔn)了,還能離線語(yǔ)音輸入。
未來(lái)用戶(hù)不管是在輸入法、搜索引擎說(shuō)出自己的語(yǔ)音,都會(huì)更準(zhǔn)確,甚至可以中英文方言混輸。即使處于地鐵、電梯、隧道或人流密集等離線場(chǎng)景中,依然可以借助百度輸入法進(jìn)行精準(zhǔn)的語(yǔ)音輸入。
過(guò)去用戶(hù)往往是語(yǔ)音輸錯(cuò)一個(gè)字就會(huì)花10秒鐘來(lái)修改,而且由于方言、口語(yǔ)、中英文混雜的語(yǔ)言習(xí)慣,語(yǔ)音輸入法是沒(méi)辦法適應(yīng)這樣相對(duì)復(fù)雜的熟人環(huán)境的。這種經(jīng)歷讓用戶(hù)很難建立長(zhǎng)時(shí)間使用語(yǔ)音輸入法的習(xí)慣。所以雖然各家輸入法都說(shuō)自己有97%以上的準(zhǔn)確率,但實(shí)際情況是,愿意使用語(yǔ)音輸入法的人寥寥無(wú)幾。
不過(guò),無(wú)論是中英文夾雜,還是普通話家鄉(xiāng)話來(lái)回切換,百度輸入法都能準(zhǔn)確識(shí)別,是目前唯一實(shí)現(xiàn)了高精度中英文混合語(yǔ)音輸入、方言免切換語(yǔ)音輸入的輸入法產(chǎn)品。直接影響就是,用戶(hù)更愿意用語(yǔ)音輸入法了,用戶(hù)習(xí)慣會(huì)在技術(shù)提高的過(guò)程中一點(diǎn)一點(diǎn)普及。
2、AI能真正理解你的語(yǔ)音指令的含義。
所以你可以在輸入法中調(diào)用指令,發(fā)表情斗圖、發(fā)祝福語(yǔ)、發(fā)彈幕、發(fā)文件、OCR等等。滿(mǎn)足與輸入相關(guān)的周邊需求,實(shí)現(xiàn)全語(yǔ)音交互。
百度高級(jí)副總裁王海峰甚至認(rèn)為,輸入法本質(zhì)上是一款人機(jī)交互的工具,AI時(shí)代正在到來(lái),人機(jī)交互的形態(tài)也將隨之革新。未來(lái),百度輸入法將不僅基于手機(jī)端,還將致力于連通包括智能家居、車(chē)聯(lián)網(wǎng)等多種終端場(chǎng)景,集多種輸入方式為一體,幫助用戶(hù)在各種場(chǎng)景下高效、自如地傳遞信息。
3、在一些特殊場(chǎng)景實(shí)現(xiàn)更復(fù)雜的、具有邏輯層級(jí)的任務(wù)。
語(yǔ)音輸入法過(guò)去的使用場(chǎng)景是相對(duì)狹窄的,在一些邏輯復(fù)雜、場(chǎng)景復(fù)雜的環(huán)境中,往往很難勝任。
2017年年末,我在和一些智能音箱交互工程師探討的時(shí)候,他們提到語(yǔ)音交互因?yàn)槿狈ζ聊伙@示,層級(jí)邏輯很難展開(kāi),點(diǎn)外賣(mài)不太現(xiàn)實(shí)。但當(dāng)語(yǔ)音理解力更強(qiáng)甚至能和人類(lèi)對(duì)話的時(shí)候,層級(jí)邏輯自然可以展開(kāi),點(diǎn)外賣(mài)甚至更復(fù)雜的操作都能實(shí)現(xiàn)。
當(dāng)語(yǔ)音調(diào)用的信息本身是具備可視性、劃分層級(jí)而且直觀易懂甚至縮短大量信息環(huán)節(jié)的時(shí)候。它本質(zhì)上就是一個(gè)更為合理的交互方式。
“流式多級(jí)的截?cái)郃ttention模型”未來(lái)如果能夠進(jìn)一步提高對(duì)語(yǔ)音的理解能力,輸入法或許能像人一樣聰明。未來(lái)的語(yǔ)音不會(huì)像Siri一樣愚蠢,只能被人們調(diào)戲,隨便幾句話就會(huì)陷入邏輯矛盾,就是因?yàn)樵贫丝梢岳斫獾恼Z(yǔ)音的顆粒度足夠細(xì),速度也足夠快。
在未來(lái),智能語(yǔ)音甚至可以理解人們每一句話、每一個(gè)情緒的意義,讓兩人產(chǎn)生真正意義上的“靈魂對(duì)話”。
三
工具的轉(zhuǎn)型
整個(gè)行業(yè)都正在從移動(dòng)時(shí)代向AI時(shí)代過(guò)渡,移動(dòng)時(shí)代產(chǎn)品未來(lái)破局真的全靠AI。
甚至已經(jīng)有人提到,AI時(shí)代的人機(jī)交互應(yīng)該忘掉機(jī)器,因?yàn)槿f(wàn)物皆界面。是的,AI賦能下的人機(jī)交互,將極大弱化人機(jī)交互中機(jī)器的概念。
你所接觸的一切物體都可能是一個(gè)隱藏的交互界面,你的動(dòng)作狀態(tài)、情緒以及環(huán)境中發(fā)生的事件,以伴隨的各種變化屬性為橋梁,時(shí)時(shí)刻刻都在被分析被推理,最終的結(jié)果將反映到真實(shí)的物理環(huán)境中,從而更自然地輔助你的日常生活。
在這一過(guò)程中,我們之前無(wú)比依賴(lài)的手機(jī)和電腦,可能已經(jīng)退居二線,成為真正的計(jì)算工具,不再和我們直接互動(dòng)了。
企業(yè)從移動(dòng)向AI時(shí)代轉(zhuǎn)型過(guò)程中,在產(chǎn)品層面要想的問(wèn)題大約就是三點(diǎn):
1、如何把AI融入到移動(dòng)時(shí)代的產(chǎn)品之中,和現(xiàn)有功能產(chǎn)生更自然的嵌入;
2、如何形成AI時(shí)代的人機(jī)交互,讓移動(dòng)時(shí)代的產(chǎn)品在AI交互中形成合理的架構(gòu);
3、如何把移動(dòng)時(shí)代的產(chǎn)品放置在AI的技術(shù)生態(tài)中,繼續(xù)發(fā)揮作用;
我們甚至可以大膽預(yù)測(cè),未來(lái)所有的工具型產(chǎn)品,都離不開(kāi)智能語(yǔ)音輸入法,因?yàn)橐哉Z(yǔ)音為核心的輸入法,就是重構(gòu)人機(jī)交互的最有效手段。因此百度高級(jí)副總裁王海峰提到:
作為百度AI能力應(yīng)用落地的重要產(chǎn)品之一,百度輸入法正在通過(guò)創(chuàng)新拓展大家的想象力邊界。這款A(yù)I輸入法,不僅是一款滿(mǎn)足用戶(hù)當(dāng)下需求的產(chǎn)品,也是為正在到來(lái)的AI時(shí)代所準(zhǔn)備的。百度輸入法將扮演好溝通橋梁的重要角色,讓人機(jī)交互進(jìn)入一個(gè)全新的階段。
語(yǔ)音交互方式,甚至比鍵鼠、觸摸屏有更大的信息量。劉慈欣在《鄉(xiāng)村教師》的這段話很形象地點(diǎn)名了未來(lái)語(yǔ)音交互的信息量:
你是想告訴我們,一種沒(méi)有記憶遺傳,相互間用聲波進(jìn)行信息交流,并且是以令人難以置信的每秒1至10比特的速率進(jìn)行交流的物種,能創(chuàng)造出5B級(jí)文明?!而且這種文明是在沒(méi)有任何外部高級(jí)文明培植的情況下自行進(jìn)化的?!
我們甚至可以這樣預(yù)測(cè),走過(guò)了鍵盤(pán)、鼠標(biāo)、觸摸屏等一系列交互手段,在這100年的彎路之后,智能語(yǔ)音為代表的對(duì)話式人工智能將讓人類(lèi)返璞歸真。
----------------------------------------------
作者:深幾度,獨(dú)立撰稿人。微信號(hào)852405518,公眾號(hào)“深幾度”,歡迎署名轉(zhuǎn)載。
鈦媒體2015年、2016年、2018年度作者。品途網(wǎng)2016年度十大作者,騰訊科技2015年度最具影響力自媒體。
關(guān)注人工智能、移動(dòng)互聯(lián)、數(shù)碼家電的產(chǎn)業(yè)融合,文章在界面新聞、今日頭條、搜狐、騰訊、新浪、網(wǎng)易等40余平臺(tái)發(fā)布。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋(píng)果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢(qián)通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱(chēng)塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋(píng)果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過(guò)熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開(kāi)展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車(chē)整車(chē)股盤(pán)初強(qiáng)勢(shì)拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。