汽車(chē)AI語(yǔ)音交互 ,正在讓機(jī)器交互更接近真人交互?

文|胡楊 胡皓

來(lái)源|智能相對(duì)論

- 今天天氣怎么樣?

- 今日是晴天,氣溫17到22度,東北風(fēng)3到4級(jí)。

- 那周五呢?

- 周五距今天還有2天。

“重復(fù)喚醒,答非所問(wèn),這不是人工智能,是‘人工智障智障’?!边@是大部分智能網(wǎng)聯(lián)汽車(chē)用戶(hù)對(duì)語(yǔ)音交互的抱怨。

現(xiàn)在,情況有了改善。當(dāng)用戶(hù)詢(xún)問(wèn)車(chē)機(jī)“明天出門(mén)需要帶傘么?”,車(chē)機(jī)就會(huì)播報(bào)明天的天氣情況,如果需要再查詢(xún)其他時(shí)間或者城市的天氣,那么用戶(hù)不用重新喚醒,也不需要說(shuō)出完整表達(dá),只需要說(shuō)“那大后天呢?”、“那杭州呢?”。在用戶(hù)和車(chē)機(jī)在自然連續(xù)對(duì)話的過(guò)程中,語(yǔ)義理解服務(wù)會(huì)記住會(huì)話的歷史,并結(jié)合歷史處理用戶(hù)的請(qǐng)求,通過(guò)這種方式,用戶(hù)的多次連續(xù)交互就可以形成一個(gè)會(huì)話流,與用戶(hù)的交互也更加自然。

自然連續(xù)對(duì)話,是車(chē)載語(yǔ)音交互從“人工智障”邁向“人工智能”的重要一步。不過(guò)斑馬網(wǎng)絡(luò)最近推出的斑馬智行VENUS系統(tǒng),打破了對(duì)用戶(hù)說(shuō)話規(guī)則的要求,用戶(hù)可以按照自身的說(shuō)話習(xí)慣來(lái)進(jìn)行交流,交互過(guò)程更加人性化。這會(huì)不會(huì)是一個(gè)跨越?

從科幻到現(xiàn)實(shí),語(yǔ)音交互一直在進(jìn)化

提到智能語(yǔ)音交互,普羅大眾對(duì)于技術(shù)刷屏的記憶停留在2018年的Google開(kāi)發(fā)者大會(huì)“Google I/O”開(kāi)幕式上。當(dāng)Google Assistant以驚人的流利會(huì)話,打電話和店家溝通,預(yù)約理發(fā)店、餐廳,并用一句俏皮的“嗯哼”作為回應(yīng)時(shí),觀眾給予了熱烈的掌聲。這是技術(shù)愿景美好、激勵(lì)人心的一面。

有趣的是,同年2月的美國(guó)第五十二屆超級(jí)碗的天價(jià)廣告上,亞馬遜賣(mài)力黑了自家的智能音箱和智能助手——Alexa。喚醒失誤、識(shí)別不準(zhǔn)、響應(yīng)困難等等用戶(hù)槽點(diǎn),被廣告創(chuàng)意表現(xiàn)得淋漓盡致。這是技術(shù)的現(xiàn)實(shí)。

但不論是基于場(chǎng)景的未來(lái)暢想,還是對(duì)當(dāng)下缺陷的大膽自嘲,兩個(gè)科技巨頭都將業(yè)務(wù)重心的一角,押注在了語(yǔ)音交互賽道上。

亞馬遜首席技術(shù)官Werner Vogels斷言:未來(lái),人和數(shù)字世界對(duì)的交互,一定是以“人”為核心,而不是機(jī)器驅(qū)動(dòng);我們終將構(gòu)建出更人性化的交互,讓人機(jī)互動(dòng)更加融合。

在“以人為核心”、“更加融合”的人機(jī)交互中,語(yǔ)音交互(簡(jiǎn)稱(chēng)VUI)是核心。VUI允許更自由、高效的人機(jī)交互,其本質(zhì)上比任何其他形式的用戶(hù)界面都更“人性化”。斯坦福大學(xué)教授,Wired for Speech的合著者,克利福德·納斯寫(xiě)道:“語(yǔ)音是人類(lèi)交流的基本手段…….所有文化主要通過(guò)語(yǔ)音來(lái)說(shuō)服,告知和建立關(guān)系?!?/p>

VUI允許用戶(hù)使用語(yǔ)音作為媒介與機(jī)器進(jìn)行交互。從《2011太空漫游》中的HAL到《星球大戰(zhàn)》中的C-3PO,人們?cè)诳苹秒娪袄飼诚胫軌蚺c機(jī)器自由溝通。事實(shí)上,早在1952年,貝爾實(shí)驗(yàn)室的工程師就開(kāi)發(fā)出了Audrey(奧黛麗):它可以識(shí)別數(shù)字0-9的發(fā)音。盡管奧黛麗能夠以超過(guò)90%的精度識(shí)別語(yǔ)音輸入,但其體積大,成本高昂,未曾步入大規(guī)模商業(yè)化的發(fā)展通道。

自此,人類(lèi)開(kāi)啟了長(zhǎng)達(dá)半個(gè)多世紀(jì)的語(yǔ)音交互探索。1962年,IBM推出了第一臺(tái)真正意義上的是語(yǔ)音識(shí)別機(jī)器。工程師William Dersch開(kāi)發(fā)出的Shoebox可以收聽(tīng)操作員說(shuō)出的數(shù)字和命令。例如“5+3+8+6+4-9,總和”,機(jī)器將打印出正確答案:17。

1970年,隱馬爾可夫模型(HMM)為語(yǔ)音識(shí)別的發(fā)展插上了算法的翅膀,讓語(yǔ)音識(shí)別從文字匹配進(jìn)化到了可預(yù)測(cè)的高度。20世紀(jì)80年代,Covox,Dragon Systems,Speechworks相繼成立,推動(dòng)了語(yǔ)音識(shí)別的商用化進(jìn)程。

90年代,語(yǔ)音識(shí)別技術(shù)迎來(lái)了大規(guī)模商用和普及。1995年,Dragon發(fā)布了單詞聽(tīng)寫(xiě)級(jí)的語(yǔ)音識(shí)別軟件。這是人類(lèi)歷史上首個(gè)面向廣大消費(fèi)者的語(yǔ)音識(shí)別產(chǎn)品。僅一年之后,Charles Schawab(嘉信理財(cái))和Nuance(紐昂斯)聯(lián)合推出了一套“語(yǔ)音股票經(jīng)紀(jì)人”系統(tǒng),可同時(shí)響應(yīng)360個(gè)客戶(hù)的股票詢(xún)價(jià)電話。1997年,如今隸屬Nuance旗下的聲龍系統(tǒng)(Dragon system)推出了“NaturallySpeaking”軟件,這是歷史上第一個(gè)可用的“連續(xù)語(yǔ)音”聽(tīng)寫(xiě)軟件。它標(biāo)志著單詞級(jí)不停頓語(yǔ)音交互的開(kāi)始。

最近的20年,Google,Apple,Amazon先后推出了大眾耳熟能詳?shù)闹悄苷Z(yǔ)音助手,并通過(guò)智能手機(jī)、智能音箱等產(chǎn)品,來(lái)到普羅大眾身邊。據(jù)Juniper Research統(tǒng)計(jì),截至2019年2月,全球使用中的語(yǔ)音助手達(dá)32.5億;預(yù)計(jì)到2023年,該數(shù)字將達(dá)到80億。

語(yǔ)音交互技術(shù)上的高山一:自然連續(xù)對(duì)話

隨著軟硬件的快速迭代,如今的ASR(語(yǔ)音識(shí)別)技術(shù)已近成熟,未來(lái)智能語(yǔ)音交互的核心競(jìng)爭(zhēng)力在于在復(fù)雜場(chǎng)景下準(zhǔn)確理解用戶(hù)的意圖,并為其提供差異化服務(wù)。更加智能的自然連續(xù)對(duì)話能力,將讓語(yǔ)音交互系統(tǒng)更具人類(lèi)的親和力特質(zhì)和邏輯思維能力,能帶給用戶(hù)更具情景化、更有溫度的用車(chē)體驗(yàn)和服務(wù)潛力。

“智能相對(duì)論”認(rèn)為,自然連續(xù)對(duì)話是一個(gè)系統(tǒng)的工程,涉及到從車(chē)機(jī)端的聲學(xué)前端處理、語(yǔ)音喚醒、語(yǔ)音識(shí)別、語(yǔ)義理解、對(duì)話管理、自然語(yǔ)言生成、語(yǔ)音合成等核心交互技術(shù)。斑馬智行VENUS的AI語(yǔ)音得益于阿里達(dá)摩院的重磅加持以及科大訊飛、思必馳等合作伙伴的大力支持,極大提升了語(yǔ)音能力。斑馬基于AliOS系統(tǒng),可以更好地將語(yǔ)音核心技術(shù)能力與系統(tǒng)能力相結(jié)合,更大程度地發(fā)揮出語(yǔ)音核心技術(shù)的優(yōu)勢(shì),將多種引擎的協(xié)作發(fā)揮到極致,達(dá)到“1+1>2”的效果。

語(yǔ)音交互技術(shù)上的高山二:個(gè)性化,即聲音克隆

如果說(shuō)自然連續(xù)對(duì)話為更自由的交互和差異化服務(wù)提供可能,那語(yǔ)音定制化則將個(gè)性化、情感化的語(yǔ)音交互率先落地。

2017年9月,一家名為L(zhǎng)yrebird的加拿大初創(chuàng)公司在推特上發(fā)布了一段10秒的錄音。錄音是內(nèi)容AI模仿美國(guó)總統(tǒng)特朗普的話語(yǔ)。在此之前,Google旗下的DeepMind曾經(jīng)公布了一個(gè)用AI合成人聲的研究成果:WaveNet,達(dá)到以假亂真的地步。Adobe也發(fā)布過(guò)一款名為Project VoCo的原型軟件,在傾聽(tīng)20分鐘音頻樣本之后可以進(jìn)行模仿。而Lyrebird將音頻采樣的輸入時(shí)間縮短到了60秒。

如今,國(guó)內(nèi)智能網(wǎng)聯(lián)行業(yè)也首次迎來(lái)了語(yǔ)音定制——“聲音克隆”產(chǎn)品。斑馬智行VENUS系統(tǒng)“聲音克隆”操作流程非常簡(jiǎn)單。用戶(hù)只需在斑馬智行APP錄制20句話即可合成私人語(yǔ)音包,一鍵發(fā)送至車(chē)機(jī)便可全局使用,無(wú)論是導(dǎo)航引導(dǎo)、天氣查詢(xún),還是預(yù)訂餐廳,和你對(duì)話的都是你最想聽(tīng)的聲音。

聲音是車(chē)載AI語(yǔ)音交互功能的“靈魂”,基于“聲音克隆”技術(shù),斑馬智行VENUS系統(tǒng)將為用戶(hù)提供“千人千聲”的定制化服務(wù),用戶(hù)可以“克隆”親人和愛(ài)人的聲音,讓陪伴更長(zhǎng)久,讓駕駛更舒心。

據(jù)介紹,斑馬智行VENUS系統(tǒng)“聲音克隆”操作流程非常簡(jiǎn)單。用戶(hù)只需在斑馬智行APP錄制20句話即可合成私人語(yǔ)音包,一鍵發(fā)送至車(chē)機(jī)便可全局使用,無(wú)論是導(dǎo)航引導(dǎo)、天氣查詢(xún),還是預(yù)訂餐廳,和你對(duì)話的都是你最想聽(tīng)的聲音。斑馬網(wǎng)絡(luò)AI語(yǔ)音相關(guān)負(fù)責(zé)人表示,斑馬智行VENUS系統(tǒng)能在錄制“傾聽(tīng)”中“掌握”每個(gè)人說(shuō)話時(shí)的字母、音位、單詞和語(yǔ)句的發(fā)音特點(diǎn),通過(guò)深度學(xué)習(xí)技術(shù)推理并模仿聲音中的語(yǔ)音音色、語(yǔ)調(diào),“說(shuō)”出全新的語(yǔ)句。

攀登技術(shù)高山,如何讓機(jī)器交互能夠更接近真人交互依然在等待更好答案

語(yǔ)音是人類(lèi)最舒適,最直觀的交流方式之一。如今的智能語(yǔ)音交互產(chǎn)品,變得越來(lái)越像人一樣聰明且富有感情。它可以準(zhǔn)確理解信息輸入、高效處理并提供理想的信息輸出?!爸悄芟鄬?duì)論”認(rèn)為,在人工智能和5G迅速發(fā)展的背景下,語(yǔ)音平臺(tái)有機(jī)會(huì)成為物聯(lián)網(wǎng)時(shí)代下新的“操作系統(tǒng)”,連接全新的產(chǎn)業(yè)生態(tài),包括各類(lèi)服務(wù)、應(yīng)用、硬件等。

在各類(lèi)應(yīng)用場(chǎng)景中,除了智能家居,汽車(chē)產(chǎn)品對(duì)于語(yǔ)音交互的需求顯而易見(jiàn)。不論是點(diǎn)擊、滑動(dòng)等觸摸交互方式,在車(chē)載環(huán)境下都存在安全隱患且并不高效,語(yǔ)音交互是天然適應(yīng)車(chē)載環(huán)境的交互方式。不過(guò)想要設(shè)計(jì)、開(kāi)發(fā)、應(yīng)用一套成熟的車(chē)載語(yǔ)音交互系統(tǒng),要翻越重重高峰:行車(chē)噪音干擾如何處理、方言口音如何適配、自然的表達(dá)如何更好支持、系統(tǒng)的誤觸發(fā)如何控制在可用范圍。

而隨著用戶(hù)對(duì)汽車(chē)智能化要求的越來(lái)越高,更自然的交互成為語(yǔ)音交互的發(fā)展方向。如何讓機(jī)器交互能夠更接近真人交互?多模態(tài)融合理解、自然全雙工對(duì)話、自然語(yǔ)義理解成為了新的需要攀登的高峰。

斑馬智行的系統(tǒng)底層——AliOS,在傳統(tǒng)觸控、按鍵交互模式的基礎(chǔ)上,將語(yǔ)音交互能力、視覺(jué)交互能力以及場(chǎng)景信息在系統(tǒng)層進(jìn)行融合互通,更大程度得發(fā)揮了各個(gè)交互能力的優(yōu)勢(shì),使得多模態(tài)融合理解、融合交互以及更自然的全雙工對(duì)話、擁有更多信號(hào)輸入的自然語(yǔ)義理解成為可能。同時(shí)在各種交互能力融合后對(duì)上層應(yīng)用進(jìn)行開(kāi)放,使得最終呈現(xiàn)給用戶(hù)的交互更自然。

語(yǔ)音交互帶來(lái)的產(chǎn)業(yè)機(jī)遇方興未艾。如果說(shuō),未來(lái)的主流交互方式存在多樣的可能性,那更高率、更自然、更接近于人本能的方向一定是人機(jī)交互的未來(lái)。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2020-05-01
汽車(chē)AI語(yǔ)音交互 ,正在讓機(jī)器交互更接近真人交互?
文|胡楊 胡皓來(lái)源|智能相對(duì)論- 今天天氣怎么樣?- 今日是晴天,氣溫17到22度,東北風(fēng)3到4級(jí)。- 那周五呢?- 周五距今天還有2天?!爸貜?fù)喚醒,答非所問(wèn),這不是人工智能,是‘人工智障智障’。

長(zhǎng)按掃碼 閱讀全文