還記得科幻片《鋼鐵俠》中,托尼·史塔克的AI管家賈維斯嗎?只要托尼一聲呼喚,無論語速快慢,聲音大小,老賈的程序都能被迅速激活,完美地執(zhí)行托尼的各類語音指令。賈維斯這樣的語音識別與交互方式,未來終將出現(xiàn)在日常生活中。
1月16日,在百度輸入法“AI·新輸入 全感官輸入2.0”發(fā)布會上,百度輸入法AI探索版正式亮相。作為百度AI技術(shù)的橋頭堡,百度輸入法正引領(lǐng)一場全感官輸入的革命,而過去在科幻片中出現(xiàn)的情景,如今都也正在變?yōu)楝F(xiàn)實。
百度高級副總裁王海峰博士表示,“目前輸入法產(chǎn)品主要應(yīng)用于手機(jī)端,未來各種智能設(shè)備都將需要輸入、需要跟用戶交互,輸入法將發(fā)揮巨大作用。”
AI重塑各個行業(yè),輸入法正迎來重大變革
誠如王海峰所言,輸入法本質(zhì)上是一種人與機(jī)器交流的媒介。縱觀歷史,隨著技術(shù)的發(fā)展,人與機(jī)器交流的媒介和形式也在不斷變化升級。在過去75年里,每10年就有一次人機(jī)交互的重大革新,人類對機(jī)器的操作,經(jīng)歷了從物理手柄按鍵,到物理鍵盤鼠標(biāo),再到觸摸屏的過程,而現(xiàn)在終于輪到了語音。
這種由技術(shù)升級帶來的交互方式改變,也正在引領(lǐng)著輸入法行業(yè)發(fā)生急劇的變化。隨著5G、云計算、大數(shù)據(jù)、人工智能等新技術(shù)的不斷升級,手機(jī)輸入法行業(yè)無論在輸入方式、應(yīng)用場景、行業(yè)生態(tài)方面都正在發(fā)生巨大變革。
從誕生之初到經(jīng)過若干年發(fā)展至現(xiàn)在,輸入法對用戶的作用已經(jīng)遠(yuǎn)不止將用戶所思所想轉(zhuǎn)化成為文字那樣簡單。借助AI技術(shù)的賦能,輸入法如今不僅能夠讀懂人類的語言,還能夠進(jìn)一步識別人類的明令并做出相應(yīng)的反饋,語音、表情、動作都將可以成為輸入方式。
輸入法能夠逐步實現(xiàn)全感官輸入,背后則歸功于強(qiáng)大的大數(shù)據(jù)技術(shù)和機(jī)器的深度學(xué)習(xí)能力。借助對用戶的輸入習(xí)慣、聊天對象、對話情景等進(jìn)行特征分析,輸入法可以逐步深入理解用戶的意圖,真正做到懂每一個用戶。語音輸入則是這種全新交互方式的最直觀體現(xiàn),作為人類交流、人機(jī)交互最自然的方式,它同樣也被認(rèn)為是開啟人工智能時代的起點。
作為一種新穎而又十分重要的輸入方式,語音輸入也正隨著語音識別效率的逐步提升,不斷提高用戶滲透率、提升用戶體驗,使用戶的表達(dá)更加智能與交互。事實上,如果單看活躍用戶數(shù),誰是中國輸入法市場老大可能還存在爭議,但單從語音輸入量這個維度來看,百度輸入法早已成為毫無爭議的市場第一,其語音輸入請求量遠(yuǎn)超競爭對手搜狗輸入法,而百度輸入法實現(xiàn)質(zhì)的突破背后則是語音識別技術(shù)。
站在變革的潮頭,百度輸入法為何能夠先「聲」奪人?
從語音輸入到全感官輸入,輸入法的技術(shù)門檻變得越來越高,AI技術(shù)正在成為其核心驅(qū)動力。在發(fā)布會上,百度輸入法還宣布,截至2018年底,百度輸入法月活躍人數(shù)已達(dá)5億,語音日均請求量峰值突破5.5億,AR表情使用次數(shù)超過1億,百度輸入法的厚積薄發(fā)并不是偶然。
1、多年的AI技術(shù)積累
作為百度AI技術(shù)率先落地的產(chǎn)品之一,百度輸入法凝聚了百度深耕多年的語音、圖像、NLP和知識圖譜等AI能力——尤其是AI語音技術(shù)。早在 2012 年,百度就率先上線了基于 DNN 的語音識別模型,此后隨著技術(shù)的不斷迭代,每一年在語音識別技術(shù)上都有所進(jìn)展。
去年也是在輸入法發(fā)布會上,百度語音發(fā)布的Deep Peak 2模型突破了沿用十幾年的傳統(tǒng)模型,進(jìn)而得以更充分地發(fā)揮神經(jīng)網(wǎng)絡(luò)模型的參數(shù)優(yōu)勢,大幅提升中英文、多種口音、多種風(fēng)格(如朗讀、聊天、輕聲)混合輸入的識別準(zhǔn)確率,聊天場景下的相對正確率較行業(yè)領(lǐng)先水平提升20%。
時隔一年,百度語音技術(shù)團(tuán)隊再次實現(xiàn)重大技術(shù)創(chuàng)新。在今年的發(fā)布會上,百度輸入法發(fā)布了流式截斷多層注意力建模(SMLTA),這是中文在線語音識別歷史上的兩個重大突破:世界上首次實現(xiàn)了局部注意力建模識別精度超過全局注意力模型;世界上第一次大規(guī)模部署在線語音交互注意力模型。這一技術(shù)能夠解決傳統(tǒng)Attention模型在識別中的時延性,以及因此導(dǎo)致的無法進(jìn)行大規(guī)模在線語音實時交互的問題,并將在線語音識別精度提升了15%,超越行業(yè)最高水平15%。
2、對用戶體驗的精益求精
除了技術(shù)積累外,百度輸入法在用戶體驗上也是精益求精,這種對用戶體驗的打磨,讓昔日功能單一的手機(jī)輸入法,具備了“語音助手”,“效率工具”和“聊天伴侶”等多重身份。
百度輸入法不僅對用戶輸入場景進(jìn)行針對性的優(yōu)化,比如無論會場還是課堂,百度輸入法都可以通過輕聲識別能力降低語音輸入的尷尬;在“多人模式”場景下,借助百度輸入法的聲紋識別技術(shù)可以自動區(qū)分發(fā)言人,大幅降低工作者后期處理的成本。
除此之外,百度輸入法還在探索更多輔助性功,進(jìn)一步提升自己的產(chǎn)品吸引力,比如除了給予「語音識別」這個 AI 單點能力,百度輸入法的「AR 表情」還基于用戶的動作、表情捕捉信息,而這也為文字輸入形式的人機(jī)交互提供了更多可能性。不難發(fā)現(xiàn),正式百度在輸入領(lǐng)域?qū)τ脩粜枨笕轿涣私?,讓百度輸入法借此實現(xiàn)快速爆發(fā)式的增長。
3、百度輸入法不僅僅是工具
人工智能時代輸入法會從工具走向服務(wù),除了滿足文字輸入需求,還需要增加日常搜索等多種服務(wù),提升用戶黏性。這意味著輸入法需要形成打通語音交互與服務(wù),形成語音到服務(wù)的閉環(huán),而這正是百度最擅長的地方。
比如,百度推出的語音速記功能,這可以幫助記者進(jìn)行實時記錄,從而提升了記者的工作效率,彌補(bǔ)了傳統(tǒng)手記在速度上的滯后也避免了事后需要聽打來整理錄音的不便。再比如,游戲主播在直播過程中,也可利用百度輸入游戲鍵盤開黑。不僅有極簡語音功能可令其節(jié)省打字時間,更有諸如快捷短語、和諧轉(zhuǎn)換等功能可為主播們進(jìn)行定制化服務(wù),豐富其游戲體驗感 。
如今在很多場景中,百度輸入法都能發(fā)揮著重要的作用。百度中文輸入法負(fù)責(zé)人蔡玉婷表示,相較2016年,百度輸入法日均語音請求量增長了8倍,語音輸入法的場景也從聊天和搜索拓展到游戲、娛樂、購物等眾多場景。百度的AI技術(shù)正深入落地,其所加持的各種功能讓百度輸入法已不再僅僅是“輸入工具”。
輸入法正在成為百度AI技術(shù)落地的新樣本
輸入法如今對百度的重要性正越來越重要。在過去幾個季度的財報中,百度輸入法也連續(xù)被提及,語音輸入請求量更是被百度歸納進(jìn)AI業(yè)務(wù)進(jìn)展中。
語音輸入不僅讓百度輸入法實現(xiàn)了爆發(fā)式增長,更可以幫助百度獲取更多的語料資料,這反過來又能反哺百度語音識別技術(shù)的進(jìn)化。從長遠(yuǎn)來看,作為一種高頻使用場景,輸入法可以快速的普及語音輸入的人機(jī)交互方式,借助AI技術(shù)的賦能實現(xiàn)更精準(zhǔn)的需求識別,最終為智能語音助理找到突破口。
事實上,百度最重要的人機(jī)對話系統(tǒng)DuerOS和百度輸入法的發(fā)展可以說一脈相承,同樣解決的都是交互問題,只不過一個的終端是智能手機(jī),另一個終端則是所以可搭載對話式操作系統(tǒng)的智能硬件。百度輸入法的成功,無疑能夠給DuerOS起到很好的反哺作用。
百度輸入法的成功,實際上也是百度AI技術(shù)落地的樣本。眾多AI技術(shù)的加持,即讓百度輸入法得以實現(xiàn)彎道超車,也幫助百度開啟了人工智能新時代大門的“鑰匙”。百度在語音、圖像、NLP和知識圖譜等多個領(lǐng)域的AI技術(shù)都在百度輸入法上一一呈現(xiàn),這何嘗又不是百度AI賦能傳統(tǒng)應(yīng)用的一個案例。
百度在不斷發(fā)展AI技術(shù)的同時,非常注重技術(shù)落地于實踐,并且讓AI與生活息息相關(guān),百度輸入法也在這個過程中不斷完成自我進(jìn)化,并引領(lǐng)未來進(jìn)一步革新人機(jī)交互模式,完全開啟全感官輸入時代的日子,或許指日可待。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。