2018 全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR)在深圳召開,峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,得到了寶安區(qū)政府的大力指導(dǎo),是國(guó)內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級(jí)交流盛會(huì),旨在打造國(guó)內(nèi)人工智能領(lǐng)域最具實(shí)力的跨界交流合作平臺(tái)。
6月30日,2018 全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR)繼續(xù)進(jìn)行。在上午的計(jì)算機(jī)視覺專場(chǎng)中,臻識(shí)科技聯(lián)合創(chuàng)始人兼CEO任鵬發(fā)展了主題為《邊緣計(jì)算賦能智慧城市》的主題演講。
依托自身在嵌入式成像系統(tǒng)設(shè)計(jì)技術(shù)上的優(yōu)勢(shì)經(jīng)驗(yàn)以及多年在AI算法的耕耘積累,通過邊緣計(jì)算技術(shù)的產(chǎn)品轉(zhuǎn)化(智能相機(jī)),臻識(shí)科技致力于為智慧城市體系中的各大垂直應(yīng)用領(lǐng)域:智能交通(ITS)、智能安防(IVS)、智慧商業(yè)、智能制造(FA)提供更加智能化的前端成像設(shè)備及解決方案。
在演講中,任鵬介紹了臻識(shí)科技的智能相機(jī)。什么是全智能相機(jī)?任鵬認(rèn)為,不同行業(yè)對(duì)于智能相機(jī)的要求多種多樣,滿足一個(gè)場(chǎng)景應(yīng)用感知需要的相機(jī)才是全智能的相機(jī)。為了能夠打造全智能相機(jī),這其中也會(huì)遇到很多的困難,任鵬概括為成像、算法、制造三大方面。
在成像方面,任鵬認(rèn)為,比較難的問題是智能相機(jī)的成像評(píng)測(cè)缺乏標(biāo)準(zhǔn),但是成像一定要滿足算法的需要,其次再來滿足人的感官需要。
在算法方面,臻識(shí)科技的做法是先明確需求,確定數(shù)據(jù)集、性能指標(biāo)、成本指標(biāo),同時(shí)進(jìn)行嵌入式平臺(tái)的方案選型和評(píng)估,接下來進(jìn)行PC的仿真、算法的實(shí)現(xiàn),最后是嵌入式平臺(tái)的移植優(yōu)化以及算法落地。
在制造方面,臻識(shí)科技通過視覺和控制的結(jié)合,用“智能”制造“智能相機(jī)”。現(xiàn)在,臻識(shí)科技的相機(jī)生產(chǎn)線上已經(jīng)實(shí)現(xiàn)部分自動(dòng)化,任鵬表示,今后將會(huì)在這方面繼續(xù)投入精力。
以下為任鵬的現(xiàn)場(chǎng)演講文稿,
任鵬:大家上午好!今天主要跟大家探討我們?cè)谧鲆豢钪悄芟鄼C(jī)的過程中碰到的困難以及嘗試。
我們的產(chǎn)品很簡(jiǎn)單,就是智能相機(jī)。可能在座的都用過我們的產(chǎn)品。我們的產(chǎn)品雖然很小,但是分布在整個(gè)城市的各個(gè)區(qū)域,改善了人們停車的體驗(yàn),讓整個(gè)停車的過程變得更加便捷,這也符合智慧城市的理念,就是以人為本。
但是如何從一個(gè)概念變成落地的東西呢?這就需要感知能力的提升,這也就有了云計(jì)算和邊緣計(jì)算的概念。前端的智能相機(jī)是邊緣計(jì)算里面的一個(gè)重要存在。
什么才是智能相機(jī)呢?有一個(gè)提法是我們的相機(jī)在不同的場(chǎng)景里都可以用,在我們的理解里,這可能是理想的狀態(tài),它并不符合整個(gè)行業(yè)路徑發(fā)展的需要。
比如說在智能交通領(lǐng)域,停車場(chǎng)需要的相機(jī)是什么樣的?它可能需要對(duì)車輛身份接近99.9%的準(zhǔn)確度,因?yàn)樗婕暗街Ц?,所以?duì)識(shí)別率的要求比較高,對(duì)車速限制比較高。卡口則相反,對(duì)識(shí)別率的要求要低一點(diǎn),而對(duì)車速限制比較低。對(duì)交通的流量控制、信號(hào)燈的規(guī)劃等等,這些領(lǐng)域?qū)囕v的識(shí)別又有另外的需求。所以單從交通領(lǐng)域,它就已經(jīng)細(xì)分出很多場(chǎng)景。
再比如說安防領(lǐng)域,像平安城市、雪亮工程、社區(qū)樓宇、工地、校園、醫(yī)院等等場(chǎng)景,其實(shí)每一個(gè)場(chǎng)景對(duì)于相機(jī)的需求是不一樣的。所以我們的定義里面,滿足一個(gè)場(chǎng)景應(yīng)用感知需要的相機(jī)才是全智能的相機(jī),這里的感知主要描述的是它能去達(dá)到或者超越人的需求。
這里有一個(gè)金字塔的描述,最底層是像素,中間層是對(duì)象,再上一層是行為。
目前在智慧城市領(lǐng)域,大部分的應(yīng)用都還停留在中間這一層,就是對(duì)象層,而且很多場(chǎng)景里面底層的應(yīng)用(像素層)問題都還沒有完全解決。以前面幾位嘉賓舉的例子來說,比如說一個(gè)人臉前端抓拍、云端識(shí)別的應(yīng)用,如果我們前端抓到了人臉,它是不清楚的、模糊的,其實(shí)對(duì)這個(gè)系統(tǒng)的識(shí)別是非常有壓力的。比如說有的應(yīng)用是前端的人臉識(shí)別,云端根據(jù)識(shí)別的結(jié)果再來做決策,如果前端的識(shí)別老是出問題、有誤報(bào),也會(huì)影響整個(gè)智慧城市運(yùn)作的效率以及決策的準(zhǔn)確度。
當(dāng)然要實(shí)現(xiàn)這樣一個(gè)全智能的相機(jī)有很多難點(diǎn),從我們的經(jīng)驗(yàn)出發(fā),從下面三個(gè)點(diǎn)展開:成像、算法、制造。
成像方面,比較難的問題是智能相機(jī)的成像評(píng)測(cè)是沒有標(biāo)準(zhǔn)的,如果有標(biāo)準(zhǔn)的話,大家工作的方式就是朝這個(gè)標(biāo)準(zhǔn)努力,比如說手機(jī)相機(jī)有一些專業(yè)的評(píng)測(cè)機(jī)構(gòu)定下了一些標(biāo)準(zhǔn),安防相機(jī)也會(huì)有一些指標(biāo),比如說解析度、灰階、白平衡等等。但是智能相機(jī)的標(biāo)準(zhǔn)是什么呢?我們的成像什么樣才算好的?最后我們定出了一個(gè)標(biāo)準(zhǔn),首先我的成像要滿足算法的需要,其次再來滿足人的感官需要。這是一個(gè)很主觀的概念。
在做一款相機(jī)的時(shí)候,我們先要解決它的硬件、結(jié)構(gòu)、熱設(shè)計(jì)、光學(xué)等等問題,當(dāng)解決完這些之后,相機(jī)的ISP是一個(gè)核心的問題,普通場(chǎng)景的ISP的核心是拍照或者攝影時(shí),感知這個(gè)場(chǎng)景是什么就可以了,包括最近有一些手機(jī)廠家,他們的相機(jī)里加入了一些場(chǎng)景的識(shí)別功能。目的就是識(shí)別場(chǎng)景之后,能選擇一組更適合這個(gè)場(chǎng)景的ISP參數(shù),然后讓成像更好。
但是智能相機(jī)的目的是把這個(gè)場(chǎng)景里我所有關(guān)注的物體拍清楚,它基于的東西就是物體,所以智能相機(jī)的ISP的核心是基于物體的感知。這又變成了一個(gè)是先有雞還是先有蛋的問題。一個(gè)場(chǎng)景里只有一個(gè)物體還好,但如果有多個(gè)物體,對(duì)當(dāng)前很多ISP的架構(gòu)設(shè)計(jì)是需要有顛覆性的。
在安防場(chǎng)景下,很多應(yīng)用需要低快門的實(shí)現(xiàn),因?yàn)橛羞\(yùn)動(dòng)模糊的出現(xiàn),我們要拍出更清晰的目標(biāo),所以我們的快門限得比較低,很多時(shí)候會(huì)限定在5毫秒以下,有的場(chǎng)景甚至?xí)捎萌挚扉T的相機(jī)。在這種場(chǎng)景下,我們還要面對(duì)場(chǎng)景照度比較低,反差的場(chǎng)景比較大。其實(shí)這是很困難的,比如說我站在這里,我看門口,因?yàn)橛袕?qiáng)光打著我,其實(shí)我是看不到外面的情況,在相機(jī)上也是一樣。
所以我們現(xiàn)在解決這些問題的時(shí)候更多地是采用場(chǎng)景的細(xì)分、物體的識(shí)別,然后再通過經(jīng)驗(yàn)上的東西指導(dǎo)ISP的設(shè)計(jì),以達(dá)到理想的效果,這也是一個(gè)階段性平衡的效果。
上面一排是同一個(gè)場(chǎng)景,不同的相機(jī)不同的ISP調(diào)整出來的效果,下面這個(gè)是一個(gè)寬動(dòng)態(tài)的場(chǎng)景抓拍的效果,這兩個(gè)場(chǎng)景快門都是在5毫秒以下,其實(shí)是很有挑戰(zhàn)的。
這是一個(gè)人臉抓拍的場(chǎng)景,人臉抓拍識(shí)別的難度是很大的。當(dāng)然剛才曠視和云從都講到了,他們的識(shí)別算法很厲害,但是對(duì)這種只有20到30像素,不同的光照下、不同姿態(tài)的識(shí)別是非常有挑戰(zhàn)的,整個(gè)系統(tǒng)的識(shí)別率其實(shí)并不高。這還是在白天,到了晚上,對(duì)這個(gè)場(chǎng)景的要求會(huì)更高一些。
如果我們的人臉抓拍的相機(jī)抓拍到的人臉圖片都像一寸標(biāo)準(zhǔn)證件照的圖片,其實(shí)這個(gè)識(shí)別問題會(huì)變得比較簡(jiǎn)單。
這上面兩幅圖,大家感覺哪幅圖會(huì)好識(shí)別一些?可能大家認(rèn)為是左邊的圖好識(shí)一些,確實(shí)也是這樣,左邊的圖是我們產(chǎn)品的效果,通過我們的努力,我們?cè)诤芏鄨?chǎng)景里面,通過我們相機(jī)抓拍的圖片,直接把人臉識(shí)別系統(tǒng)的識(shí)別率提升了5%到10%。當(dāng)然我們的相機(jī)也是全幀率、全畫幅。
講完了成像,再講講算法。算法不是面對(duì)所有場(chǎng)景的不同算法,我今天講的主要是在嵌入式設(shè)備上,智能相機(jī)的開發(fā)過程中算法要解決的一些問題。
首先是一個(gè)基本流程,我們?cè)谧鲋悄芟鄼C(jī)的時(shí)候,首先會(huì)明確需求,確定數(shù)據(jù)集、性能指標(biāo)、成本指標(biāo),同時(shí)我們會(huì)做嵌入式平臺(tái)的方案選型和評(píng)估,接下來我們會(huì)做PC的仿真、算法的實(shí)現(xiàn),最后才是做嵌入式平臺(tái)的移植優(yōu)化以及算法落地,基本上都是這樣的套路。
難點(diǎn)有很多,首先是數(shù)據(jù),數(shù)據(jù)上面我們吃過的虧比較多。舉個(gè)例子,當(dāng)時(shí)我們?cè)谝豢钕鄼C(jī)產(chǎn)品升級(jí)換代的時(shí)候,因?yàn)閭鞲衅魍.a(chǎn)了,我們進(jìn)行了升級(jí),傳感器的變更造成了ISP的變更,最后造成成像風(fēng)格的變化,最后造成整個(gè)系統(tǒng)識(shí)別率的下降,其實(shí)這也可以理解為是網(wǎng)絡(luò)過擬合造成的問題。
數(shù)據(jù)的多樣性、均衡性以及適應(yīng)場(chǎng)景的能力,以及它和硬件本身傳感器成像的關(guān)聯(lián)都是非常關(guān)鍵的。我們也提出一個(gè)論斷,一個(gè)公司本身的數(shù)據(jù)管理水平直接反映了算法水平,也反映了對(duì)場(chǎng)景的理解水平。
比如說像學(xué)術(shù)界的一些測(cè)試,數(shù)據(jù)集是定義清楚的,做起來比較容易,但是現(xiàn)實(shí)場(chǎng)景里面數(shù)據(jù)集是不確定的,在項(xiàng)目實(shí)施過程中它是在不斷變化的,因此也提出了更高的要求。
第二件事是方案選型。我們團(tuán)隊(duì)評(píng)測(cè)了市面上大概80%的芯片方案,我們對(duì)芯片方案的定義做了兩個(gè)界定:
一個(gè)是要滿足5瓦以下的功耗,功耗太高了不行,它對(duì)整個(gè)系統(tǒng)的熱設(shè)計(jì)有很大的挑戰(zhàn)。
第二,我們做的是實(shí)時(shí)的業(yè)務(wù)。今年市面上主流的芯片方案的算力大概是50到150GFLOPS,到明年我們預(yù)估這個(gè)指標(biāo)會(huì)達(dá)到200到500G。這和很多芯片廠家宣傳的不太一樣的,我們的研發(fā)同事也投訴的會(huì)比較多一些,因?yàn)樾酒瑥S家宣傳芯片算力很強(qiáng),但是實(shí)際拿過來測(cè)試,發(fā)現(xiàn)效果并不令人滿意,這里面確實(shí)存在很多問題。
我們?cè)谧銮度胧铰涞氐臅r(shí)候常用的套路,當(dāng)一個(gè)算法實(shí)現(xiàn)之后,我們要做上板的優(yōu)化,一般會(huì)先做算法的近似,然后做指令集的優(yōu)化,內(nèi)存、緩存的優(yōu)化等等。但是在深度學(xué)習(xí)這個(gè)領(lǐng)域,內(nèi)存的帶寬瓶頸是一個(gè)非常大的問題,如果沒有革命性的突破,芯片的發(fā)展還是符合一個(gè)摩爾定律規(guī)律的,能力不會(huì)一年翻10倍、20倍。
芯片廠家其實(shí)很難跟上算法廠家的節(jié)奏,比如算法廠家在做算法的時(shí)候,可能每個(gè)月算法都有一些變化,都有一些革新和嘗試,但是芯片是很難的,生產(chǎn)一個(gè)芯片的周期到正式量產(chǎn)、成熟的產(chǎn)品化可能需要一年的時(shí)間,周期是很長(zhǎng)的,所以這是一個(gè)長(zhǎng)期的瓶頸。
一個(gè)產(chǎn)品需要滿足行業(yè)普世的需要,它不會(huì)專門為你這個(gè)產(chǎn)品來做,所以很多獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)上專門做優(yōu)化,它的性能會(huì)提升很多,這種性能提升可能在50%甚至到100%,但是在當(dāng)前的芯片上要實(shí)現(xiàn)這種靈活性的適應(yīng)是很難的。
有的提法是說數(shù)據(jù)越來越多,芯片的算力越來越強(qiáng),是不是產(chǎn)品做起來就越來越容易了?我們的判斷不是這樣。比如說當(dāng)我們的產(chǎn)品在一個(gè)場(chǎng)景落地之后,客戶的需求是在不斷升華、不斷細(xì)化的,當(dāng)然這也比較符合人性。在很長(zhǎng)的一段時(shí)間內(nèi),算力還是不能滿足需求的增長(zhǎng)。所以我們就會(huì)關(guān)注網(wǎng)絡(luò),當(dāng)然這里我不具體討論網(wǎng)絡(luò)的結(jié)構(gòu),我只提我們?cè)谧鲞@種嵌入式產(chǎn)品時(shí),對(duì)網(wǎng)絡(luò)的理解。
因?yàn)樗懔Σ粔?,在有限的性能下,我們的假定有兩點(diǎn):一是更好地學(xué)習(xí)和充分挖掘性能特征,并且在一個(gè)產(chǎn)品上,我們對(duì)這些特征在不同的環(huán)節(jié)更好地復(fù)用,可以大大降低計(jì)算的復(fù)雜度;二是非端到端的架構(gòu),在產(chǎn)品里面我們對(duì)每一步、每一個(gè)環(huán)節(jié)是可控的,在這個(gè)可控的基礎(chǔ)上一步步優(yōu)化和挖掘網(wǎng)絡(luò)性能的邊界。這是在算法上我們的一些嘗試和心得。
第三是如何制造。我們光把這個(gè)東西設(shè)計(jì)出來不行,我們還得把它造出來。
供應(yīng)鏈?zhǔn)且粋€(gè)比較頭疼的問題,原來我們沒有進(jìn)行制造,做了之后我們也能深刻理解現(xiàn)在很多手機(jī)廠家所謂的饑餓營(yíng)銷,其實(shí)也是身不由己。當(dāng)解決了一些供應(yīng)鏈的問題,然后就是如何把產(chǎn)品制造出來。
我們現(xiàn)在通過視覺和控制的結(jié)合,用“智能”制造“智能相機(jī)”。這是我們現(xiàn)在的相機(jī)生產(chǎn)線上的自動(dòng)化流程,當(dāng)然整條流水線我們還沒有全部實(shí)現(xiàn)自動(dòng)化,但是這是我們要努力的方向。
最后提一提未來的方向。
我們的判斷是,雙目的視覺會(huì)是一個(gè)非常重要的方向,這是我們2017年10月份安防展推出的一款用于停車停車場(chǎng)行業(yè)的“瞾”系列產(chǎn)品。這款產(chǎn)品的特點(diǎn)是將深度信息和物體的檢測(cè)結(jié)合,在停車場(chǎng)里達(dá)到了接近百分之百的車輛檢出率,這對(duì)行業(yè)是有顛覆意義的。
除了深度的應(yīng)用,當(dāng)前在安防上,我們也在嘗試通過多個(gè)傳感器的融合,來達(dá)到在很低照度下實(shí)現(xiàn)更好的成像效果,從而突破人的感知能力。
- 為什么年輕人不愛換手機(jī)了
- 柔宇科技未履行金額近億元被曝已6個(gè)月發(fā)不出工資
- 柔宇科技被曝已6個(gè)月發(fā)不出工資 公司回應(yīng)欠薪有補(bǔ)償方案
- 第六座“綠動(dòng)未來”環(huán)保公益圖書館落地貴州山區(qū)小學(xué)
- 窺見“新紀(jì)元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機(jī)打造全新一代屏幕壓感
- 清潔家電新老玩家市場(chǎng)定位清晰,攜手共進(jìn),核心技術(shù)決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達(dá)成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。