2020年11月5日,小米成功舉辦MIDC2020開(kāi)發(fā)者大會(huì)。大會(huì)以“生活的科技”為主題,通過(guò)展示小米在相機(jī)、屏幕、充電、AI、IoT、智能制造等多個(gè)領(lǐng)域取得的重大突破,充分展示了小米的技術(shù)實(shí)力。
本次大會(huì),小愛(ài)同學(xué)5.0版本帶來(lái)五大升級(jí),從傳統(tǒng)的語(yǔ)音助手升級(jí)為智能生活助手,給消費(fèi)者提供更好的智能生活體驗(yàn)。
此次2020MIDC小米開(kāi)發(fā)者大會(huì)上,小愛(ài)同學(xué)三維虛擬形象首次亮相,和崔寶秋的一段順暢互動(dòng)成為大會(huì)一道亮眼風(fēng)景。除了極具特色的虛擬形象,小愛(ài)同學(xué)5.0還升級(jí)了五大貼心功能,具體體現(xiàn)在全場(chǎng)景智能協(xié)同、對(duì)話(huà)式主動(dòng)智能、定制化情感語(yǔ)音、多模態(tài)視覺(jué)能力和智慧學(xué)習(xí)好助手方面。
得益于小米前瞻性的生態(tài)鏈布局,龐大的智能硬件產(chǎn)品也為小米的AI技術(shù)落地提供了沃土。過(guò)去一年,小米在視覺(jué)、聲學(xué)、語(yǔ)音、自然語(yǔ)言處理、知識(shí)圖譜、機(jī)器學(xué)習(xí)等領(lǐng)域均取得了技術(shù)上的突破進(jìn)展。比如超級(jí)夜景、魔法換天、魔法分身、Vlog、通話(huà)降噪、陣列增加等全新技術(shù)都已經(jīng)在最新發(fā)布的硬件產(chǎn)品中得以應(yīng)用。
發(fā)布會(huì)后,小米集團(tuán)人工智能部總經(jīng)理、AIoT戰(zhàn)略委員會(huì)副主席葉航軍,小米人工智能部AI實(shí)驗(yàn)室主任、NLP首席科學(xué)家王斌以及人工智能部副總經(jīng)理王剛共同接受了記者的采訪,以下是本次采訪的部分摘要。
小米在人工智能方面短期和未來(lái)長(zhǎng)期的計(jì)劃和目標(biāo)
葉航軍:短期的目標(biāo)比較明確,目前兩個(gè)大的方向,一個(gè)就是AI產(chǎn)品和小愛(ài)同學(xué)要支持好公司在智能生活的戰(zhàn)略,就是手機(jī)×AIoT構(gòu)建智能生活的戰(zhàn)略,短期目標(biāo)就是要把這個(gè)事情做好。因?yàn)樵谑謾C(jī)×AIoT戰(zhàn)略里面,小愛(ài)是個(gè)非常重要的環(huán)節(jié),可以認(rèn)為是一個(gè)入口環(huán)節(jié)和落地的作用。
另外一個(gè)就是AIoT方向,這六大技術(shù)方向現(xiàn)在都有非常明確的業(yè)務(wù)和落地場(chǎng)景,因?yàn)锳I大家對(duì)它的期望很高,其實(shí)它有非常多的技術(shù)問(wèn)題解決得還很不好,這是我們后面要努力把這個(gè)事情做好的一個(gè)決心。這是短期的目標(biāo)。
長(zhǎng)期目標(biāo),我理解主要是兩個(gè),一個(gè)就是要把智能做得更深入一些?,F(xiàn)在很多環(huán)節(jié)其實(shí)并不智能,這個(gè)是我們需要把整個(gè)在小米的業(yè)務(wù)體系里面,把各個(gè)層面的智能要做得很深入,除了用戶(hù)可見(jiàn)的產(chǎn)品體驗(yàn)以外,還有一些不太容易注意得到的,比如說(shuō)客服也是需要智能的,因?yàn)榇蠹铱赡苡袀€(gè)不太好的體驗(yàn),就是打了客服電話(huà)就讓你等,讓你等的原因是接線(xiàn)員不夠多,接線(xiàn)員不夠多的原因是成本問(wèn)題。大部分人客服的問(wèn)題70%、80%都是相對(duì)比較簡(jiǎn)單的問(wèn)題,對(duì)目前的AI來(lái)講都是AI能解決的問(wèn)題,所以我們現(xiàn)在也在加大投入,這可能是用戶(hù)不太會(huì)想到的一個(gè)場(chǎng)景。一個(gè)長(zhǎng)期目標(biāo)就是要把各個(gè)環(huán)節(jié)的智能化做得更深入。
第二個(gè)方向就是往產(chǎn)業(yè)的上游去做,我們今天講了智能制造,這是我們非常重要的一個(gè)場(chǎng)景。小米除了向消費(fèi)者直接提供產(chǎn)品之外,也是希望通過(guò)技術(shù)來(lái)幫助整個(gè)國(guó)內(nèi)的制造業(yè)提升制造水平,智能制造里面非常重要的技術(shù)就是AI技術(shù),這是我們的一個(gè)長(zhǎng)期目標(biāo)。
小愛(ài)同學(xué)的動(dòng)態(tài)語(yǔ)音識(shí)別技術(shù)的前景
王斌:先講講動(dòng)態(tài)語(yǔ)音識(shí)別技術(shù),動(dòng)態(tài)語(yǔ)音識(shí)別技術(shù)是說(shuō)模型的更新非??欤Z(yǔ)音識(shí)別還是根據(jù)線(xiàn)上各種反饋,根據(jù)發(fā)展會(huì)不斷的動(dòng)態(tài)調(diào)整。但傳統(tǒng)的這種語(yǔ)音識(shí)別模型都非常非常大,進(jìn)行調(diào)整是比較耗代價(jià)的,比如說(shuō)以前一周更新一次,但是我們這個(gè)技術(shù)把它碎片化,通過(guò)技術(shù)上變成一個(gè)可迭代的增長(zhǎng)式模型,在很短的時(shí)間內(nèi)可以不斷的進(jìn)行動(dòng)態(tài)的調(diào)整。這個(gè)叫動(dòng)態(tài)語(yǔ)音識(shí)別技術(shù)。
當(dāng)然這個(gè)技術(shù)未來(lái)還有非常大的發(fā)展空間,比如說(shuō)我們針對(duì)不同的人,其實(shí)不同的人大家都知道,語(yǔ)音識(shí)別其實(shí)跟人有關(guān),有些人他識(shí)別得好一些,有些人識(shí)別得差一些。我們這個(gè)報(bào)告里面都講了是一個(gè)平均水平,但實(shí)際上到真正每一個(gè)用戶(hù)又不太一樣,前幾天有一個(gè)視頻我覺(jué)得挺好玩的,就是一個(gè)老外特別喜歡小愛(ài)同學(xué),但是他發(fā)音不太準(zhǔn),他就很生氣。也就是說(shuō)語(yǔ)音識(shí)別本身并沒(méi)有我們想象得那么如意,針對(duì)不同的人、不同的水平、不同的階段,它的識(shí)別率并不能達(dá)到通用的很高的水平,所以這種情況下,未來(lái)我們會(huì)做個(gè)性化,針對(duì)不同的人進(jìn)行不同的訓(xùn)練,來(lái)動(dòng)態(tài)調(diào)整模型,使得對(duì)所有的用戶(hù)的感覺(jué)都很好,這就是我們最終的目標(biāo)。所以,這個(gè)動(dòng)態(tài)語(yǔ)音識(shí)別技術(shù)未來(lái)來(lái)看還是非常有前景的。
小愛(ài)同學(xué)在多輪對(duì)話(huà)方向上的進(jìn)展
王剛:多輪對(duì)話(huà)確實(shí)是我們?nèi)ツ暝谛?ài)同學(xué)3.0的時(shí)候就重點(diǎn)做的功能,2018年3月份就啟動(dòng)了多輪對(duì)話(huà)的研發(fā),到今天也接近三年的時(shí)間了。在這個(gè)多輪對(duì)話(huà)上,我們還是面對(duì)到了一些技術(shù)的挑戰(zhàn),在現(xiàn)有技術(shù)的框架下,現(xiàn)在的技術(shù)框架叫做AUS框架,去表述用戶(hù)自然語(yǔ)言的處理,我們是逐步去優(yōu)化的,多輪的時(shí)候,從技術(shù)框架去解決多輪問(wèn)題的時(shí)候,還是遇到了一些困難。多輪的理解對(duì)整個(gè)理解的表示能力上來(lái)講,它是很受限,所以我們現(xiàn)在首先在現(xiàn)有的技術(shù)框架下去逐步的突破對(duì)多輪的理解力,多輪理解力我們現(xiàn)在內(nèi)部已經(jīng)做出200多種組合的多輪對(duì)話(huà)能力。比如說(shuō)你問(wèn)小愛(ài)同學(xué)假如說(shuō)北京天氣怎么樣,明天去哪兒更好玩,我們會(huì)把上文“北京”帶下來(lái),有這種上下文知識(shí)的傳遞。我們內(nèi)部現(xiàn)在有200種組合能力的對(duì)話(huà),怎么樣更好的針對(duì)多輪對(duì)話(huà)有一個(gè)更自然的全面理解,這一塊是更需要更新的技術(shù)突破,在現(xiàn)有技術(shù)框架下,用戶(hù)進(jìn)行多輪對(duì)話(huà)有一個(gè)全面自然的問(wèn)題的解決的。
然后我們從產(chǎn)品側(cè)的話(huà),也發(fā)現(xiàn)用戶(hù)對(duì)多輪對(duì)話(huà)這個(gè)功能還是喜愛(ài)的,自從我們?nèi)ツ臧l(fā)布了多輪對(duì)話(huà)到今天為止,因?yàn)楝F(xiàn)在有一個(gè)開(kāi)關(guān),用戶(hù)可以在這個(gè)設(shè)備上打開(kāi)多輪對(duì)話(huà),然后跟用戶(hù)的交互就變成了你只需要一次喚醒,就可以多輪對(duì)話(huà)了,現(xiàn)在每天大概有200萬(wàn)人跟小愛(ài)同學(xué)進(jìn)行多輪對(duì)話(huà),當(dāng)然可能會(huì)有很多話(huà)會(huì)在多輪的場(chǎng)景下回答的像單輪,就是多輪長(zhǎng)距離的下下文的理解可能還不是很少。
小米AI的核心競(jìng)爭(zhēng)力
葉航軍:我理解不少?gòu)S商對(duì)AI的判斷大致一致,大家都覺(jué)得這是一個(gè)核心競(jìng)爭(zhēng)力,這個(gè)不會(huì)有問(wèn)題。每個(gè)公司都會(huì)有自己的核心競(jìng)爭(zhēng)力,我理解對(duì)小米來(lái)講,可能是幾個(gè)層面吧,第一個(gè)層面還是場(chǎng)景,這是取決于每個(gè)公司不同生態(tài),手機(jī)×AIoT是最大的場(chǎng)景,從場(chǎng)景開(kāi)始比如說(shuō)到數(shù)據(jù)的理解,如果這是你的場(chǎng)景,你必然會(huì)對(duì)用戶(hù)更理解,長(zhǎng)期積累下來(lái)這會(huì)是你的優(yōu)勢(shì)。再往下是算法,算法也是為場(chǎng)景和數(shù)據(jù)服務(wù)的,最后是人才,因?yàn)槟悴煌纳鷳B(tài)、不同的場(chǎng)景會(huì)吸引不同的人過(guò)來(lái),你要找到最合適你的生態(tài)的人才,然后最終效果才會(huì)變得最好,我的理解是這個(gè)層面的。
小米AI在發(fā)展過(guò)程中遇到最大的挑戰(zhàn)
葉航軍:最大的挑戰(zhàn)也是人才,如果媒體朋友們關(guān)注到我們MIDC上的演講,我也大概分享了一下小米發(fā)展的歷程,比較里程碑的一年就是2016年,第一次把人工智能升級(jí)為公司的戰(zhàn)略,也是第一次成為了獨(dú)立的團(tuán)隊(duì),之前也有工程師在做AI算法,但是分落在不同的業(yè)務(wù)團(tuán)隊(duì)里面,2016年第一次升級(jí)為公司的戰(zhàn)略,也有了獨(dú)立的部門(mén)。小米進(jìn)入AI戰(zhàn)場(chǎng)不算特別早,那個(gè)時(shí)候決定進(jìn)到公司有比較激進(jìn)的計(jì)劃,希望能夠很快有產(chǎn)品出來(lái),其實(shí)對(duì)團(tuán)隊(duì)的要求是非常高的,當(dāng)時(shí)最大的挑戰(zhàn)就是人才。
解決方案有幾個(gè),一個(gè)就是從內(nèi)部轉(zhuǎn)了一些有經(jīng)驗(yàn)的管理者和專(zhuān)家,其實(shí)我和王剛博士都是那時(shí)候轉(zhuǎn)崗過(guò)來(lái)的,之前我是云技術(shù)的負(fù)責(zé)人,王剛博士是數(shù)據(jù)平臺(tái)的負(fù)責(zé)人,我是2012年加入小米的,王剛博士是2013年加入的,我們剛開(kāi)始來(lái)的時(shí)候都不是AI方向的,我們是2016年轉(zhuǎn)到這個(gè)方向的。
我們轉(zhuǎn)的原因是因?yàn)槲覀冎坝羞@個(gè)背景,我在清華讀博士是計(jì)算機(jī)視覺(jué)背景,王剛博士是在香港科大做機(jī)器學(xué)習(xí)的背景,本身我們是有這個(gè)專(zhuān)業(yè)背景的,正好公司有這個(gè)需求,招聘也來(lái)不及了,就先轉(zhuǎn)吧,然后我們倆當(dāng)時(shí)就從別的部門(mén)直接轉(zhuǎn)到AI這個(gè)方向了。這是應(yīng)急的辦法,然后又加緊招聘,王斌博士是2018年加入的,他作為招聘的一個(gè)代表,本來(lái)是行業(yè)專(zhuān)家,2018年加入了小米。另外一個(gè)渠道就是自主培養(yǎng),我們會(huì)招很多應(yīng)屆生去培養(yǎng),基本是這三個(gè)方式解決這個(gè)問(wèn)題。
MiNLP和其他開(kāi)源NLP的差異性
王斌:開(kāi)源的NLP工具蠻多的,我們大致上能看到的開(kāi)源工具分兩類(lèi),一個(gè)是學(xué)術(shù)界開(kāi)源,一個(gè)是工業(yè)界開(kāi)源。學(xué)術(shù)界開(kāi)源對(duì)學(xué)術(shù)的研究幫助很大,它里面會(huì)做得相對(duì)模型非常多,非常復(fù)雜,然后有它的一些優(yōu)勢(shì),我們?cè)谥耙矊W(xué)習(xí)了不少。另外是工業(yè)界開(kāi)源,剛才提到了百度還有一些公司也開(kāi)源了他們的工具,為什么?大概是根據(jù)他們的特點(diǎn)。比如跟學(xué)術(shù)界相比,我們是工業(yè)級(jí)的代碼,經(jīng)過(guò)了一兩年,我們上線(xiàn)時(shí)間也很長(zhǎng),到現(xiàn)在開(kāi)源是因?yàn)槲覀兘?jīng)歷了很多考驗(yàn),最后才把這個(gè)好的版本拿出來(lái),所以我們是一個(gè)經(jīng)過(guò)工業(yè)界上線(xiàn)考驗(yàn)的一個(gè)代碼的版本,所以這是一個(gè)工業(yè)界開(kāi)源很好的一個(gè)辦法,并不是純學(xué)術(shù)的。特別是對(duì)一些公司來(lái)說(shuō),我相信拿過(guò)去之后可以直接上線(xiàn)學(xué)術(shù),這是它和學(xué)術(shù)界版本的不同。
和工業(yè)界相比有很多特點(diǎn),我們?cè)O(shè)計(jì)這個(gè)系統(tǒng)的時(shí)候也參考了別人的一些工作,然后我們針對(duì)具體的一些東西提出自己的特點(diǎn)。這里面其實(shí)蠻多,包括支持的系統(tǒng)也不一樣,比如百度開(kāi)源,它可能支持某一類(lèi)底層的系統(tǒng),這個(gè)可能是有區(qū)別的。另外,比如說(shuō)我們支持了多種標(biāo)準(zhǔn)的分布式系統(tǒng),另外我們支持非常靈活的干預(yù),因?yàn)榇蠹抑溃ㄓ玫姆种到y(tǒng)在線(xiàn)上很容易出現(xiàn)不太好的結(jié)果,因?yàn)橥ㄓ玫臇|西很難代表線(xiàn)上各種復(fù)雜的情況,所以我們這里面開(kāi)源過(guò)程中也考慮了隨時(shí)進(jìn)行干預(yù)的一種機(jī)制。這種干預(yù)機(jī)制其實(shí)是在一開(kāi)始設(shè)計(jì)的時(shí)候就會(huì)去考慮的,如果說(shuō)只是一個(gè)模型放出來(lái),其實(shí)第三方在使用的時(shí)候是沒(méi)辦法進(jìn)行干預(yù)。所以我們放出了一個(gè)可以隨時(shí)干預(yù)的版本,用戶(hù)可以很靈活的把自己的一些東西放上去,然后能夠在很短的時(shí)間內(nèi)獲得一個(gè)更符合線(xiàn)上需求的版本。
除了這個(gè)之外,可能還有其他一些特點(diǎn),我們會(huì)在說(shuō)明書(shū)當(dāng)中講出這些特點(diǎn),這樣的話(huà)其實(shí)也是給用戶(hù)一個(gè)不同的選擇。當(dāng)然在內(nèi)部評(píng)測(cè)的時(shí)候,我們的效果也是非常不錯(cuò)的,我相信開(kāi)源之后更多用戶(hù)根據(jù)他自己的情況肯定多了一種選擇。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )