聲智科技CTO馮大航:AI章魚系統(tǒng)架構在智慧城市的進展與應用

聲智科技CTO馮大航:AI章魚系統(tǒng)架構在智慧城市的進展與應用

9月21日,中國人工智能大會2019(Chinese Congress on Artificial Intelligence 2019,簡稱“CCAI 2019”)于青島膠州方圓體育中心盛大開幕,本屆大會以“智變?nèi)诤?rdquo;為主題,由中國人工智能學會主辦,是我國最早發(fā)起舉辦的人工智能大會,聲智科技聯(lián)合創(chuàng)始人兼CTO馮大航受邀出席并發(fā)表演講,此次大會有超過100位國際人工智能領域頂尖人才,800余位國內(nèi)外人工智能領域專家教授、頭部企業(yè)高管及行業(yè)代表,2500余位專業(yè)觀眾共同參會。

大會期間,聲智科技聯(lián)合創(chuàng)始人兼CTO馮大航以《智慧城市中聲學與AI融合技術的進展與應用》為主題發(fā)表了演講。馮大航表示,中國的智慧城市處在一個快速發(fā)展當中,以聲智科技為代表的人工智能企業(yè)將聲學與人工智能融合應用在智慧城市里面的方方面面,例如在智能交通領域進行監(jiān)測,安防提出的需求是希望給攝像頭“裝上耳朵”,可以實現(xiàn)對異常聲和某些關鍵詞的監(jiān)測。又比如應用在智能家居里的智能空調(diào)、電視等等,以及應用在政務系統(tǒng)中可以極大的方便市民迅速獲得需要的服務。這些案例聲智科技都已經(jīng)在參與,并且已經(jīng)有了一些項目完成落地。

基于這些項目經(jīng)驗,我們將觀察到的現(xiàn)象總結為兩大趨勢:

一是在技術上,聲學與人工智能正在不斷地融合——通過深度學習進行信號處理和語音識別等,應用在智能安防和智慧交通等諸多領域;二是在新的場景下,新的系統(tǒng)架構正在形成——章魚架構,且具有更強大的計算和控制能力,基于“章魚架構”的模式聲學與人工智能融合的案例已經(jīng)應用在智慧城市的方方面面。

聲智科技CTO馮大航:AI章魚系統(tǒng)架構在智慧城市的進展與應用

交通、安防、政務、教育……城市生活包含著多個場景,也充滿著各式各樣的設備。以AI為核心的智能化如若要實現(xiàn)在城市的廣泛應用,自然需要完成在不同設備間的真正落地。為適應這一新需求,更好的服務客戶,聲智科技推出了SoundAI Azero 智能操作系統(tǒng)。其具有更加智能的終端控制能力、更強大的計算處理能力、更快速的網(wǎng)絡傳輸能力以及更個性化的定制能力。

我們認為未來會出現(xiàn)更多的“章魚”系統(tǒng),并且進化的更加智能,同時越來越多的“章魚”系統(tǒng)出現(xiàn)后會產(chǎn)生“智慧的規(guī)模效應”,產(chǎn)生一個更大提新型系統(tǒng)。

據(jù)悉,聲智科技成立于2016年5月,是全球領先的遠場智能交互系統(tǒng)提供商之一,專注于聲學語音技術和語言理解技術,致力于通過不斷引領真實環(huán)境下的人機交互體驗,實現(xiàn)“讓機器更智能”的使命,達成“用科技改善生活”的愿景。聲智科技核心團隊來自中科院聲學所,聚集了全球著名高校的畢業(yè)生和著名企業(yè)的商業(yè)精英,以及中關村、福布斯、胡潤以及IEEE、ACM、ASA、AES、中國人工智能學會、中國計算機學會、中國聲學學會等眾多高端人才。

以下為馮大航演講實錄:

大家好,我是聲智科技的聯(lián)合創(chuàng)始人兼CTO馮大航,我們公司主要專注于聲學和人工智能的融合,今天我主要希望分享一下我們公司這幾年在智慧城市中的進展與思考。

首先看一些數(shù)據(jù),根據(jù)2013-2017年中國智慧城市數(shù)量與投資規(guī)模的曲線圖可以發(fā)現(xiàn),無論是試點的數(shù)量還是投資的規(guī)模都是一個逐年上漲的過程,可以說中國的智慧城市是在一個快速發(fā)展當中,我們公司主要做聲學與人工智能的融合應用。聲學在智慧城市里面也有很多重要的應用,例如在智能交通領域進行監(jiān)測,安防提出的需求是希望給攝像頭“裝上耳朵”,可以實現(xiàn)對異常聲和某些關鍵詞的監(jiān)測。又比如應用在智能家居里的智能空調(diào)、電視等等,以及應用在政務系統(tǒng)中可以極大的方便市民迅速獲得需要的服務。這些案例我們都已經(jīng)在參與,并且已經(jīng)有了一些項目完成落地。

聲智科技CTO馮大航:AI章魚系統(tǒng)架構在智慧城市的進展與應用

基于這些項目經(jīng)驗,我將觀察到的現(xiàn)象總結為兩大趨勢:

一是在技術上,聲學與人工智能正在不斷地融合。二是在新的場景下,新的系統(tǒng)架構正在形成。接下來,我將主要就這兩條脈絡進行闡述。

我們公司產(chǎn)生之初就致力于聲學與AI的融合,2014年以前聲學和語音信號處理以及語音處理的交叉不是特別多,都在獨立向前發(fā)展,特別是深度學習被用于語音識別以來,語音識別率得到了很快的提升。

聲智科技CTO馮大航:AI章魚系統(tǒng)架構在智慧城市的進展與應用

上圖展示了語音識別出現(xiàn)以來的錯誤率曲線,可以看到,最關鍵的一點出現(xiàn)在2017年微軟推出一套語音識別系統(tǒng),其語音識別錯誤率達到了5.1%,首次低于人類的語音識別錯誤率。人類在數(shù)據(jù)集上達到什么水平呢?通常,一個正常人在數(shù)據(jù)集上平均值錯誤率是5.9%,即使受過專業(yè)的訓練的人,在這個數(shù)據(jù)集上錯誤率也達到了5.2%??梢哉f,至此,語音識別發(fā)展已經(jīng)達到非常成熟的程度。

其實語音識別在商業(yè)應用中受到一些阻力,比如手機上的語音助手應用的不是特別多。但在2014年亞馬遜推出智能音箱以來,語音識別得到越來越多的關注,比如說房間的混響、旁邊的背景噪聲以及人聲干擾,在這種情況下,其實信號處理是可以做一些工作的,比如我們可以利用麥克風陣列將目標聲音和噪音區(qū)分開,從而讓語音識別率有一個明顯提升。

這里面便涉及到信號處理與語音識別的融合的過程,接下來我會舉一個更簡單的例子,當然可能更偏于學術一些,去解釋一下背后更深層次的原因。

以混響為例,現(xiàn)在我在這里演講,在座的觀眾聽到我的聲音其實是我本人的聲音和經(jīng)過強烈的反射后的聲音的疊加,在數(shù)學上怎么表示呢?可以表示為一個純凈的信號經(jīng)過房間重新響應得到混響的信號,可想而知,這樣一定不會得到一個好的結果?,F(xiàn)在一些學者們也在進行深入的研究,比如說讓語音信號經(jīng)過多種房間的重新響應再訓練網(wǎng)絡,我認為這也不是特別完美的一個過程。首先,即使在同一個房間里面每個點也是不同的,我們有很多的房間,這是很多種組合,相當于同一條語音,可能變化出非常多的一種方式,在這種情況下,讓深度學習的網(wǎng)絡去學習東西,效果會有所折扣。

在這個過程當中,信號處理完全可以出一個逆流波器,這不能完全和原聲一模一樣。換言之,就是存在一些偏差,實際當中也有一些非線性效應,但這種信號確實和原來的信號更接近了一些,之后我們再重新訓練網(wǎng)絡,就可以達到很好的語音識別的效果。

其實,整個信號處理可以做的是什么樣的工作?簡單一點來說,我們要做的是信號多樣性的問題。

聲智科技CTO馮大航:AI章魚系統(tǒng)架構在智慧城市的進展與應用

左邊的圖是我們當前的語音識別的系統(tǒng)框圖,一般來說,信號回來之后要做一個回聲的工作,把設備自己的聲音去掉。接下來我們會做一個去混響的操作,然后找到說話人的位置,做一些波形的工作,把處理后的信號送到云端,再后面是聲學模型的結構,這就是一個復雜的網(wǎng)絡,最終轉化成文字。這個過程當中,從波形形成以后,這個信號實際上也是存在一定的失真,需要對后來的網(wǎng)絡進行重新的迭代,讓它對非線性的部分有一個學習的過程。大家可以看到,總而言之,整個過程還是信號處理跟語音識別的集聯(lián)關系,不是深度的融合。但我們在不斷探索,比如我們現(xiàn)在希望用深度學習的網(wǎng)絡把回聲消除的非線性部分進一步去除掉,這個公式比較簡單,一個設備自己發(fā)出聲音之后,首先利用線性的部分消除掉,就得到下面的公式,這是參考信號的非線性表達,S(n)是期望的信號,在這里面非線性回聲殘留會用參考信號的非線性的關系來表達。我們可以利用神經(jīng)元網(wǎng)絡進行一個模擬,這樣處理之后,可以得到更好的結果。

右邊的圖是谷歌的做法,當信號進來之后,同樣進行去混響的操作,用后面的兩層網(wǎng)絡對波束形成的部分做了一個擬合的過程,然后放入聲學模型當中處理。

從這幾個圖可以看到,最簡單的是接下來進一步的融合,這個過程可能信號處理發(fā)揮的作用更少一些。但如果兩個人聲重疊在一起,就很難識別出來應該識別哪一個人聲。

一個好的系統(tǒng),最本質的原因主要在于我們是在自然界這樣一個復雜的系統(tǒng)當中,一定是存在線性效應也存在非線性效應。關于信號處理,聲學擅長解決的是線性部分,深度學習擅長解決的是非線性部分,最好的方式一定是兩者的完美融合。比如說鳴笛檢測需要定位到車輛的位置,這一過程信號處理就可以發(fā)揮作用,通過深度學習把噪聲去掉,智能安防和智慧交通系統(tǒng)也是如此。

聲智科技CTO馮大航:AI章魚系統(tǒng)架構在智慧城市的進展與應用

以上是技術方面的闡釋,接下來我們剖析下系統(tǒng)層面。首先,我們認為現(xiàn)在新的系統(tǒng)正在形成,以簡單的比喻說明,可以認為是從水母的計算模式向章魚的計算模式進行轉變。那么章魚和水母有什么區(qū)別呢?章魚的頭腦更加聰明,觸手更加靈活,從前可以聯(lián)網(wǎng)的設備無外乎就是手機、平板或電腦,這些設備計算能力比較強,系統(tǒng)比較統(tǒng)一,用水母的計算模式完全可以滿足需求。但現(xiàn)在,可以連通網(wǎng)絡的設備越來越多,也存在各種各樣的系統(tǒng)。如何屏蔽這些不同設備和系統(tǒng)間的差異,盡可能地實現(xiàn)統(tǒng)一,就必然催生出一套新的系統(tǒng)。在這一方面,亞馬遜走在了最前列, 2014年亞馬遜推出智能音箱的時候就考慮到這個問題,對整套系統(tǒng)進行徹底的優(yōu)化,將80%的計算放在云端,把20%不能放在云端的計算放在端上,這樣做的好處就是不論是再計算能力還是系統(tǒng)方面,都可以最大化地屏蔽端上的差異。

事實上,我們也按照這一思路做了一套自己的系統(tǒng),這套系統(tǒng)有什么好處呢?簡單來說,第一點就是可以極大地降低端上的成本,第二點是可以非常方便地進行定制,比如說采用了我們系統(tǒng)的智能設備應用在酒店中,客人一進酒店關于“餐廳在什么地方”之類的非通用回答的個性化問題,智能設備完全可以提供正確答案。使用這套系統(tǒng),客戶完全可以在網(wǎng)上定制一個對話系統(tǒng),再將其部署到云端,讓酒店的設備都可以按照這一對話系統(tǒng)的邏輯進行工作。

還有一點,當設備接入越來越多的情況下,其實可以反過來讓云端更加智能。比如詢問酒店的餐廳在哪里,這個問題其實有很多的問法,回到前面的例子,其實這些例子都可以用上述提到的系統(tǒng)進行覆蓋。多樣化的提問方式可以使得系統(tǒng)定制變得更加簡化,以剛剛提到的鳴笛監(jiān)測為例,就可以對特定的某一時間段進行監(jiān)測,又或者以政務系統(tǒng)為例,對于不同省份而言政務系統(tǒng)肯定是不一樣的。

既然系統(tǒng)有這么多好處,那其背后有沒有驅動力呢?我們認為其背后的驅動因素有四個關鍵點,首先是新的傳感器或者傳感器的組合,這樣能夠構造出新產(chǎn)品,比如智能音箱,這就是在傳統(tǒng)音箱的基礎上簡單地加了麥克風陣列,又比如現(xiàn)在的VR或AR設備、可穿戴設備。由于傳感器的組合和新的傳感器的誕生構建出來新的品類,而且這種新品類將會不斷增加,這一過程也會不斷擴大,因為傳感器的組合方式太多了。

第二,算法方面,其實現(xiàn)在我們也在講深度學習。深度學習的算法現(xiàn)在可以說發(fā)展得越來越快,包括語音識別,在短短兩三年的時間里整個系統(tǒng)提升得非??欤矠橛脩魩砀玫捏w驗。

還有一點,云端計算能力要足夠強,其實現(xiàn)在的計算能力也是可以滿足需求的,但云端計算能力足夠強可以讓我們運行更大、更復雜的網(wǎng)絡。

最后,還需要網(wǎng)絡足夠給力,現(xiàn)在我們馬上也進入到5G時代,5G的網(wǎng)速越來越快,接入網(wǎng)絡更加的便捷,在這樣大背景下,相信一定有越來越多的設備能夠接入到網(wǎng)絡。整套系統(tǒng)如果滿足以上四點,一定可以復制到更多領域,也會催生出越來越多的新產(chǎn)品。

那么在上面兩個趨勢下,未來又會發(fā)生什么樣的事情呢?我在這里做個簡單大膽的預測。

聲智科技CTO馮大航:AI章魚系統(tǒng)架構在智慧城市的進展與應用

未來幾年內(nèi),可能會出現(xiàn)越來越多的“章魚”系統(tǒng),這個過程我們內(nèi)部稱之為“數(shù)據(jù)的規(guī)模效應”,簡單理解就是,在接入“章魚”系統(tǒng)的設備越來越多的情況下,會產(chǎn)生越來越多的數(shù)據(jù),這個數(shù)據(jù)會反哺算法,讓算法變得更加智能,又使得“章魚”更加聰明。接下來將會有越來越多的“章魚”出現(xiàn),我們把目光放得再長遠一些比如十年、二十年以后,這些“章魚”系統(tǒng)會不會進行一個裂變呢?比如說變成一個更大的系統(tǒng),這塊我們認為也是會發(fā)生的,我們把這一過程稱之為“智慧的規(guī)模效應”。

如果可以實現(xiàn)將這些合并成一個大的系統(tǒng),未來的確可以像電影中所展現(xiàn)的那樣。但這個過程可能還需要一定的時間,但“章魚”系統(tǒng)現(xiàn)在正在出現(xiàn),而且未來會越來越多。今天我的分享就到這里,謝謝大家!

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2019-09-23
聲智科技CTO馮大航:AI章魚系統(tǒng)架構在智慧城市的進展與應用
9月21日,中國人工智能大會2019(Chinese Congress on Artificial Intelligence 2019,簡稱“CCA

長按掃碼 閱讀全文