曠視研究院院長孫劍講述:中國技術(shù)何以打敗Facebook、Google拿下世界第一

COCO 2017競賽,在曠視科技首席科學(xué)家、研究院院長孫劍博士的帶領(lǐng)下,曠視研究院一舉奪得三個冠軍:參與了COCO物體檢測、物體分割和人體關(guān)鍵點(diǎn)檢測三項任務(wù)的挑戰(zhàn),取得了兩項第一(物體檢測、人體關(guān)鍵點(diǎn)),一項第二(物體分割);還在Places語義分割環(huán)節(jié)戰(zhàn)勝谷歌奪得第一。孫劍博士也是深度殘差網(wǎng)絡(luò)ResNet作者之一,最近倍受關(guān)注的AlphaGo Zero的一個關(guān)鍵技術(shù)便是ResNet。

2017年11月8日,孫劍博士出席了由新智元舉辦的 AI World 2017世界人工智能大會上,并發(fā)表了《視覺端計算:從ResNet到ShuffleNet》的主題演講。

image.png

孫劍博士此前提到,曠視成功的秘訣是創(chuàng)新,不斷地創(chuàng)新,持續(xù)不斷地創(chuàng)新。在接受新智元專訪時,他分享了如何做到本質(zhì)創(chuàng)新的秘訣:本質(zhì)創(chuàng)新是希望能觸及問題的本質(zhì),但也分兩個層次。

“大層次來看,算法要解決問題,有兩種: 一種是定義問題、理解問題。今天,人工智能很多問題是不清楚的,因為人工智能屬于跨學(xué)科的研究,以機(jī)器學(xué)習(xí)為基礎(chǔ),有計算機(jī)視覺、語音處理等等問題牽扯在一起,其中很多問題沒有定義清楚。所以在講算法創(chuàng)新的時候,首先要看需要解決什么問題。我認(rèn)為最高層次的算法創(chuàng)新是對問題的理解以及新的看法。所以首先要理解清楚問題,才能夠有本質(zhì)創(chuàng)新。換句話說,只有方向正確了,才可能做出好的算法,這是比較高的層次。

另外,對問題的理解需要挺長時間。如果想真正深刻理解一個問題的話,非常聰明的人可能要花兩三年,不聰明的人可能需要五年,這樣才可能對問題有非常深刻的理解。理解以前都做了什么?你現(xiàn)在做的這個東西是不是有意義的?這是上一層的算法創(chuàng)新,深入理解和清楚定義問題本質(zhì)之后,算法才有意義。

下面一層的算法創(chuàng)新是說,今天在一定時期內(nèi)發(fā)現(xiàn)了一個新問題,然后去找一個算法把這個問題又快又好地解決。

這里遵守兩條準(zhǔn)則,第一條準(zhǔn)則是這個算法必須有一定的推廣性,不能太特殊。比如說做物體識別,舉個例子,原來我們曾經(jīng)做過貓頭檢測,利用貓的耳朵比較尖的特性做了算法,這個問題解決了,但沒有通用性,影響力就不大。 

第二個原則就是別人會不會用、會不會重復(fù)使用你的算法。如果你是在學(xué)術(shù)界或者要公開算法的話,只有別人主動愿意用你的算法,才能形成網(wǎng)絡(luò)效應(yīng)。你自己很看好,但是別人不看好,或者說別人并不去主動用你這個東西,說明你的這個東西沒有觸到用戶的痛點(diǎn)。其實,你的同行也是你算法的用戶,如果他們不得不主動使用你的算法,這就說明真正觸及到了問題的本質(zhì),這條是非常重要的。我們以前在大公司做的一些算法,今天還有很多人用。我們今天在Face++做的算法(ShuffleNet),第二天就有公開的開源社區(qū),去實現(xiàn)這個算法,他們在不少大公司和創(chuàng)業(yè)公司都第一時間用了這個算法。這就說明你的算法特別好用,這樣的東西就是本質(zhì)性創(chuàng)新。”

曠視研究院院長的帶兵之道:讀《孫子兵法》,鼓勵出論文,不在乎數(shù)量

孫劍博士曾談到,在帶領(lǐng)團(tuán)隊拿到COCO競賽冠軍方面,做好了三件事:建團(tuán)隊、激勵團(tuán)隊、培養(yǎng)團(tuán)隊。在接受新智元專訪時,孫劍詳細(xì)分享了如何帶領(lǐng)好一個團(tuán)隊,吸引更多的人才。

他說:“帶團(tuán)隊這件事情其實是多層次的。我最近看《孫子兵法》上講的,為將者首先要智勇雙全,要仁、要嚴(yán)、要信,還要做到明,誰做得對、誰做得不對要非常明。大致就是建立一個很好的文化,建立一些大的框架,哪些是我們應(yīng)該做的,哪些是不應(yīng)該做的。要圍繞著我們公司的價值觀,我們公司價值觀叫“追求、極致、簡單、可靠”,這幾個字對一個團(tuán)隊非常重要?!白非蟆O致”有兩個含義,一個是說我們要做到最好,另一個是說做這件事情的時候要付出最大的努力,把所有的潛力都發(fā)揮出來。”

“從人才觀上的話,我們當(dāng)然是希望找最聰明的人,我們要求并不高,你只要數(shù)學(xué)還不錯就可以。你如果線性代數(shù)還可以,編程還可以的話就可以做這件事情。我們的環(huán)境非常扁平化,所有的數(shù)據(jù)代碼基本上都是共享的,所有的知識都是共通的,包括我們內(nèi)部的MegBrain。你如果想了解每個細(xì)節(jié),就可以找MegBrain的開發(fā)者,他會給你講細(xì)節(jié),到底MegBrain怎么設(shè)計的、怎么優(yōu)化,你會學(xué)到這些東西,可以有一個很自由的空間來做這件事情。還有一個很大的因素,讓大家覺得創(chuàng)新是安全的,是他愿意冒風(fēng)險去做的。我大多數(shù)時候都不會說不要做這個、不要做那個,而是說你試試看,這樣讓大家有一個安全的、愿意探索的環(huán)境,提高命中率。”

AI人才非常稀缺的今天,孫劍表示,在研究院,我們鼓勵出論文。這在國內(nèi)外的創(chuàng)業(yè)公司里面應(yīng)該是少數(shù)現(xiàn)象?!耙驗楹芏鄡?yōu)秀人才希望他們的工作一部分可以被看到。我們通過這樣的方式吸引人才”,他說。

但是,曠視對論文數(shù)量沒有要求?!拔覀儗θ魏蔚氖虑槎紱]有數(shù)量要求,哪怕你只有一篇論文,但只要滿足創(chuàng)新的兩條原則,第一它是通用的,第二別人愿意用,只要有一篇這樣的論文就可以。我以前自己做研究,每次會議投稿時會花很長時間只做兩篇論文,我自己主做一篇,另一篇讓學(xué)生做,或者跟別人一起做一篇。我們不追求數(shù)量,只要有一篇了不起的論文就可以。”

以下是曠視科技Face++首席科學(xué)家孫劍博士在新智元AI World 2017世界人工智能大會上的演講:

孫劍AI WORLD 2017世界人工智能大會演講:

《視覺端計算:從ResNet到ShuffleNet 》

孫劍:各位好,非常高興新智元提供了這樣一個機(jī)會把我們做計算機(jī)視覺研究的人聚在一起,也非常高興見到以前的老朋友,比如騰訊的賈佳亞博士,我們之前曾經(jīng)一起做計算機(jī)圖形學(xué)和計算機(jī)攝影學(xué)。剛才賈佳亞展示了一張圖:那是2004年我們倆合作的第一篇siggraph論文。當(dāng)時非常難,不亞于今天去 COCO 或者 ImageNet拿一個冠軍。今天到場的嘉賓中,華先勝博士也是我在微軟的同事。計算機(jī)視覺在深度學(xué)習(xí)的推動下,發(fā)生了天翻地覆的變化,今天也在此分享一些我最近的工作。

image.png

CV (計算機(jī)視覺)在 AI 中大概的位置我用這一張圖來表現(xiàn),其實我標(biāo)不同的方塊的顏色代表這個領(lǐng)域商業(yè)化的成熟度,這里語音和視覺是更接近商業(yè)化落地的,NLP和通用人工智能還有很長的路要走。

image.png

CV今天非?;馃崾且驗樗蟹浅6嗟膽?yīng)用,從互聯(lián)網(wǎng)、安防、無人車、機(jī)器人到AR、VR等等,也允許大公司和創(chuàng)業(yè)公司在整個市場上并存。

image.png

做CV的話需要什么呢?既需要理論也需要創(chuàng)新,這里分享一下:上周日曠視科技成立了學(xué)術(shù)委員會,非常有幸請到了圖靈獎唯一一位華人得主姚期智先生擔(dān)任學(xué)術(shù)委員會首席顧問,幫我們在理論方面把關(guān)。

今天我會分享一下算法上面的工作。

計算方式的變革(或復(fù)興):神經(jīng)網(wǎng)絡(luò)計算突破馮·諾依曼結(jié)構(gòu)的體系瓶頸

image.png

在講計算機(jī)視覺之前,我想先講一下對算法尤其是計算的理解。我們今天用的計算機(jī)還是馮·諾依曼結(jié)構(gòu)的計算機(jī),它的計算機(jī)體系結(jié)構(gòu)設(shè)計的思想是要把數(shù)據(jù)和程序同時放在內(nèi)存里,好處是程序遇到不同的數(shù)據(jù)時可以改變程序,可以自適應(yīng)地處理數(shù)據(jù),這非常了不起,因為在這之前,如果不這樣的話,每一次不管是插線還是打孔,都很難去重新編程。后來圖靈也問了個問題:既然機(jī)器可以根據(jù)自動處理數(shù)據(jù),那是不是機(jī)器就可以擁有智能。

image.png

但是今天我們用了很長時間的馮·諾依曼結(jié)構(gòu),很大一個局限是它有一個瓶頸:學(xué)術(shù)界叫做馮·諾依曼瓶頸,其實是說CPU和內(nèi)存之間的帶寬是不夠的。雖然 CPU 可以加速,但是數(shù)據(jù)越來越大,就會堵在中間。怎么去突破這一個瓶頸,目前的傳統(tǒng)計算機(jī)結(jié)構(gòu)是不能突破這一瓶頸的。

image.png

而我們大腦其實不是這樣的結(jié)構(gòu),大腦里面所有的計算和表示都是在一個并行的網(wǎng)絡(luò)里面運(yùn)行的。

image.png

image.png

這跟我們今天做的神經(jīng)網(wǎng)絡(luò)也非常類似,這是神經(jīng)網(wǎng)絡(luò)的一個神經(jīng)元或者多個神經(jīng)元在做的一些處理,右邊是人腦神經(jīng)元的一些類別,基本上一個神經(jīng)元會接受相連接的幾百個、上千個神經(jīng)元來的輸入,然后做一個決策:神經(jīng)元到底是激活還是不激活。

image.png

image.png

所以如果我們看今天神經(jīng)網(wǎng)絡(luò)的計算是在做什么呢?其實是在通過一個函數(shù)把一個高維激活向量變成另外一個高維激活向量。我們目前的神經(jīng)網(wǎng)絡(luò)就是不停做這樣的變換,做一次、兩次,做很多次,以至于形成一個非常復(fù)雜的嵌套變換,這就是我們今天的神經(jīng)網(wǎng)絡(luò)。

image.png

image.png

我們可以把它拆成三個因素,一個是表示這樣的激活向量,還有里面的標(biāo)量非線性,還有權(quán)重矩陣,這是里面的三要素。激活向量其實是知識的表示,非線性是來表示這個神經(jīng)元是激活還是不激活,這權(quán)重矩陣是通過監(jiān)督學(xué)習(xí)到的知識。

image.png

這一個方式有很多好的特性,比如說它是高度并行,內(nèi)存帶寬可以非常大,還有一個優(yōu)點(diǎn)就是計算非常簡單,基本上就是矩陣乘,沒有有分枝判斷,沒有馮·諾依曼結(jié)構(gòu)下的復(fù)雜計算,所以這一種計算在一定意義上可以突破馮·諾依曼結(jié)構(gòu)的體系瓶頸,比如說右側(cè)是今天神經(jīng)網(wǎng)絡(luò)的主要模式,左邊是以前的模式,可以看到計算可以提高帶寬10倍甚至上百倍。

image.png

這樣的計算,現(xiàn)在還有NVIDIA、AMD的GPU這樣的并行處理單元來加速,大家可以看到這個數(shù)字,120個TFLOP/S,這是今天 NVIDIA最好的顯卡能做到的計算力。大家可以比較一下去年GPU的顯卡還是Pascal 系列,是10個TFLOP/S,今年不管是 NVIDIA還是谷歌第二代的TPU,計算量提高了10倍、甚至20倍,這遠(yuǎn)遠(yuǎn)打破了摩爾定律,這是在訓(xùn)練端或者服務(wù)器端。

image.png

image.png

在中國也有華為的Mate10的手機(jī),第一款搭載了寒武紀(jì)的1A 神經(jīng)網(wǎng)絡(luò)加速器的手機(jī),可以在客戶端也能夠方便運(yùn)用這樣的計算能力。所以我們自己做研究就會問一個問題,怎么樣去利用這樣的計算力?

image.png

image.png

我們在Face++很早就意識到計算帶來非常大的變革。我們做了一個曠視科技的Brain,就是為了神經(jīng)計算,這里面最重要的東西是深度學(xué)習(xí)平臺,底層是NVIDIA 的引擎,右邊是我們GPU集群,最核心的深度學(xué)習(xí)平臺我們內(nèi)部叫做Brain++,是整個系統(tǒng)管理存儲、標(biāo)注、深度學(xué)習(xí)訓(xùn)練、GPU虛擬化管理甚至模型的發(fā)布,整個一套軟件系統(tǒng)來管理我們所有數(shù)千塊的GPU。

image.png

曠視科技的Brain++ 內(nèi)部有一個最重要的東西叫 MegBrain, 它對應(yīng)的就是一些開源的或者大公司推出的深度學(xué)習(xí)引擎,比如TensorFlow和Caffe。MegBrain是我們自研的一個引擎,早在TensorFlow之前。據(jù)我所知,這是所有創(chuàng)業(yè)公司中唯一一家自研深度學(xué)習(xí)引擎并且全員使用的,我們內(nèi)部已經(jīng)到了7.0的版本。這兩個條件非常重要,既要自研又要全員使用,給我們帶來非常多的好處,所以我們要堅持使用自己的深度學(xué)習(xí)引擎。

4.6 億美元怎么花?

image.png

大家可能前兩天看了一些新聞關(guān)于Face++拿到了一些融資,那融資拿來怎么用呢?我們主要有兩個大的方向,一方面是繼續(xù)打造類似于Brain++的引擎需要更多的計算力,另外一個方面會在城市大腦上做一些商業(yè)的開拓。

image.png

為什么花這么多的資源來做這件事情呢?因為我們相信今天的算法是目前設(shè)計的,但是如果問一個問題,如果今天計算量就提高一萬倍,那你應(yīng)該如何重新設(shè)計自己的算法。一萬倍聽上去很多,其實也不是很難達(dá)到。比方說去年到今年就從10 TFLOP/S 通過NVIDIA和Google的努力到120-180 TFLOP/S,其實達(dá)到了18倍的增速。從計算力來說,如果有500多塊卡,我們就達(dá)到了一萬倍的加速。這是我在Face++研究院非常嚴(yán)肅地在研究的一個問題。有了這樣的計算變化,那視覺計算產(chǎn)生了什么樣大的變化?

image.png

image.png

我可以回顧一下,計算機(jī)視覺到底要解決什么問題。剛才賈佳亞教授也非常詳細(xì)地解釋了視覺計算要處理的一些核心問題?;旧鲜且枋鲆粡垐D片里面都有什么東西,描述這張圖片里正在發(fā)生什么和將要發(fā)生什么。

image.png

我們自己將它定義成四個核心問題,分別是分類、檢測、分割,序列分析,分別對應(yīng)圖象、區(qū)域、像素和視頻的處理,這是Face++研究院核心要做的事。

image.png

以前做這一些問題,大家是通過手工設(shè)計特征的方式加上一個標(biāo)準(zhǔn)的SVM的分類器,這其實也是在做非線性變換,但是問題是這樣的非線性變換做不了很多次,很多研究嘗試做三次、五次、十次,發(fā)現(xiàn)超過三次就不太有效了。另外就是手工設(shè)計特征,人工很難去設(shè)計很好的特征。

image.png

今天深度神經(jīng)網(wǎng)絡(luò)可以做一個非常多次的非線性變換,可以逼近非常復(fù)雜的映射。更重要的是,里面的所有參數(shù)都是自動學(xué)到的,這是深度學(xué)習(xí)網(wǎng)絡(luò)目前的現(xiàn)狀和基本方式。

image.png

這個過程來之不易,里面經(jīng)過了很多代人的研究。有很多認(rèn)知邊界的突破,比如說很多人之前不相信深度神經(jīng)網(wǎng)絡(luò)是好的,是有用的,認(rèn)為它根本不可能被訓(xùn)練起來,這個魔咒其實是通過這幾年的發(fā)展才慢慢破除的。

image.png

image.png

我們看一下神經(jīng)網(wǎng)絡(luò)為什么叫深度學(xué)習(xí),其實說神經(jīng)網(wǎng)絡(luò)的層數(shù)非常多,它夠深,這是2012年Hinton和學(xué)生做的 AlexNet,一個八層的網(wǎng)絡(luò),當(dāng)時認(rèn)為已經(jīng)非常深了。論文里還有一段,專門說八層比五層深是有道理的,證明深度是有道理的。論文發(fā)布以后還有很多人挑戰(zhàn)說其實更淺的也能做出來,現(xiàn)在已經(jīng)沒有人挑戰(zhàn)了。過兩年之后,牛津大學(xué)和谷歌分別開發(fā)出了它們的網(wǎng)絡(luò),20層的網(wǎng)絡(luò),性能提高非常多。這兩個網(wǎng)絡(luò)大概都是20層,這并不是巧合,到了20層以后系統(tǒng)就很難訓(xùn)練起來。我們自己做了一些工作,確實發(fā)現(xiàn)是這樣的問題,當(dāng)非線性系統(tǒng)非常復(fù)雜的時候,確實很難訓(xùn)練它。

image.png

在2015年的時候,當(dāng)時我還在微軟亞洲研究院,我們做了一個工作叫做 ResNet,第一次做了一個152層的網(wǎng)絡(luò),它有效地解決了神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的優(yōu)化問題。我先放一個以前同事做的動畫,給大家看一下152層網(wǎng)絡(luò)到底有多深。其中一個小橫桿是一層。

image.png

這網(wǎng)絡(luò)到底為什么能做成呢?其實核心是引用了一個殘差學(xué)習(xí)的概念,這概念就是說當(dāng)網(wǎng)絡(luò)非常深的時候,你要做一個變換,相鄰兩層的變化差別是不大,那只去學(xué)習(xí)殘差會比直接學(xué)習(xí)映射會更容易,所以我們就設(shè)計了殘差學(xué)習(xí)的思想,實際上可以用一個非常簡單的跨層連接來實現(xiàn),從而達(dá)到非常容易優(yōu)化的復(fù)雜的非線性動態(tài)系統(tǒng)。為什么網(wǎng)絡(luò)可以很好的訓(xùn)練起來,我們自己相信的一個解釋是整個訓(xùn)練過程是一個從淺到深的訓(xùn)練動態(tài)。還有一個數(shù)學(xué)上比較嚴(yán)謹(jǐn)?shù)慕忉屖撬軌蚝芎玫南郧吧疃葘W(xué)習(xí)網(wǎng)絡(luò)反傳算法中梯度消失的問題,這是個非常嚴(yán)重的問題,當(dāng)你層數(shù)非常深的時候,梯度會越來越小,以至于計算機(jī)的精度會表示不了,就無法訓(xùn)練整個系統(tǒng)了,這個就在數(shù)學(xué)上保證了梯度不會變小。殘差網(wǎng)絡(luò)也代表微軟贏得了 ImageNet 2015年的冠軍,第一次超過了人類在圖像識別上的表現(xiàn)。

image.png

image.png

image.png

深度學(xué)習(xí):破除魔咒之旅

image.png

ResNet 網(wǎng)絡(luò)說明了什么?它說明了我們走到今天這一步非常不容易的,Geoffrey Hinton總結(jié)了一下為什么深度學(xué)習(xí)做得越來越好,比如說計算量越來越強(qiáng)、數(shù)據(jù)越來越大,細(xì)節(jié)做的更對了。其實我想說的是殘差學(xué)習(xí)隱含了網(wǎng)絡(luò)結(jié)構(gòu)需要對優(yōu)化友好才可以做好。

image.png

我也分享一下,在前不久 AlphaGo Zero系統(tǒng)里面第一次用不學(xué)習(xí)人類棋譜的方式來戰(zhàn)勝了人類,其中有兩個核心技術(shù),一個是自我博弈的增強(qiáng)學(xué)習(xí),另外一個它也用到了我們的ResNet,用了一個40層或者80層的網(wǎng)絡(luò)來完成對棋譜到底哪里下子、到底對當(dāng)前棋局是贏還是輸?shù)囊粋€判斷。

image.png

image.png

深度神經(jīng)網(wǎng)絡(luò)設(shè)計的演化非常快,我們給大家羅列了從2012年到2016年的一些代表性工作年。進(jìn)展非??煲灾劣谖覀冏龅暮芏嘁曈X計算任務(wù)取得了非常大的進(jìn)展,例如Coco是目前物體檢測最重要的一個基準(zhǔn)測試。

image.png

image.png

今年我們贏得了冠軍。 2015年到2017年僅僅兩年,Coco物體檢測的精度從37變到了52。 37這個數(shù)字是當(dāng)時我們在微軟研究院做的一個工作,是當(dāng)時COCO的第一名。再往前2014年微軟創(chuàng)建COCO的時候,當(dāng)時的結(jié)果只有20多,如果用非深度學(xué)習(xí)方法可能不到20。我們今年也獲得了COCO Keypoint 競賽的冠軍,這個問題就是說如何把每一個人的身體骨架都很精確的用3D姿態(tài)恢復(fù)出來,這樣很容易分析這個人的動作。

image.png

另外我們還獲得了今年第一次舉辦的Places Instance Segmentation 的冠軍。這是大家努力的一個方向,模型越做越大、精度越做越高,所有訓(xùn)練要求計算力越來越大。還有一個方向是說,計算量不夠的時候,應(yīng)該去如何應(yīng)用這個技術(shù),將其商業(yè)化。

image.png

我們以前做研究就講究填補(bǔ)國家空白,其實左邊一個空白我們看到了,然后我們今年提出來一個網(wǎng)絡(luò)叫ShuffleNet,它是為了給定計算量下或者比較小的計算量下,特別是計算量只有5到10個的TFLOP/S的時候,特別是手機(jī)上你怎么做深度學(xué)習(xí)網(wǎng)絡(luò)的推斷。

image.png

這里是ShuffleNet的一些基本機(jī)構(gòu),左邊是最早的網(wǎng)絡(luò),然后ResNet、然后Bottleneck,ResNet,還有 MobileNets,然后右邊是ShuffleNet。

image.png

核心思想就是把計算量最昂貴的1乘1的卷集分成很多組引入Shuffle 的一個操作,我們可以達(dá)到非常好的性能。例如說我們比傳統(tǒng)的AlexNet在同樣精度上可以快15到20倍,這速度并不是理論復(fù)雜度,而是真正在手機(jī)上的實測速度,理論復(fù)雜度比這還要小。

image.png

我們把這東西用在什么地方呢?第一我們用在FGPA(可編程門陣列)芯片上,中間是FGPA智能抓拍機(jī),把這FGPA塞到相機(jī)里,就是智能的抓拍機(jī)。右邊視頻向大家展示一下成本非常便宜的FGPA上如何做智能人像抓拍,這智能人像抓拍機(jī)目前是業(yè)界第一款全畫幅、全幀率的人像抓拍機(jī)。這是保證視頻里人臉都不漏掉的重要因素。

image.png

我們還把Shufflenet用在手機(jī)上。iPhoneX 有3D人臉解鎖,其實我們也已經(jīng)幫助安卓手機(jī)廠商,包括VIVO、小米還有錘子手機(jī),都使用了Face++的人臉解鎖技術(shù),其實就是Shufflenet背后提供的計算,能夠讓人臉解鎖在手機(jī)上的時間小于0.1秒,拿起手機(jī)只要看一下屏幕馬上就可以解鎖,這速度會帶來非常不一樣的體驗,大家有機(jī)會可以試試不同款的手機(jī)。

落地:城市大腦及其他

image.png

另外一個就是剛才華先勝博士講的城市大腦。以前我也玩游戲,玩的一個游戲叫《模擬城市》其實就是你怎么去構(gòu)造、管理這個城市。今天,隨著人工智能和各種技術(shù)的發(fā)展,我們有機(jī)會去做真實的模擬城市的工作,右邊是我們做的計算機(jī)視覺方面的進(jìn)展,是如何在一個城市里面把所有的人和車進(jìn)行檢測跟蹤,把所有屬性都抽取出來,這是城市大腦傳感器最重要的一部分。

image.png

另外,視覺計算還有非常廣的商業(yè)用途,我們的一個產(chǎn)品就是用刷臉做身份認(rèn)證的平臺,目前這個平臺叫FaceID,它是世界上最大的人臉識別云平臺。它在線上為中國上百家互聯(lián)網(wǎng)金融公司提供服務(wù)。右邊是很好的商業(yè)探索,今天帶手機(jī)而不掃二維碼也可以用人臉支付,這是杭州肯德基第一個線下用人臉支付的案例。

image.png

還包括我們今天的無人店和新零售的一些探索,這里面是一個視頻展示一下Face++的技術(shù)如何幫助新零售行業(yè)做更好的線下商業(yè)銷售。

image.png

最后總結(jié)一下,雖然我們做了很多商業(yè)上的應(yīng)用,特別是把核心算法用起來。但是做計算機(jī)視覺和人工智能的人都知道,真正觸及人工智能冰山一角還是非常困難的。在這過程中,我們內(nèi)部就講幾個字,做公司的話,“技術(shù)、商業(yè)、數(shù)據(jù)”這個循環(huán)要轉(zhuǎn)起來。同樣,對于做算法,“熱情、洞察、耐心”是我們最重要的三個方向。

人才是根本:巨大的腦力ALL IN,AI 潛力巨大

image.png

中間這一張照片是我一個朋友分享的,我用這張照片表示人工智能還是很遙遠(yuǎn),前面的路還不知道怎么走,但是我們非常有信心,信心來自于哪里呢?信心來自于人的智力投入,左邊這一張是去年GTC NVIDIA年會拍的照片,右邊是今年計算機(jī)視覺年會CVPR的照片,每一個會議參與者都超過了5千人,這標(biāo)志著世界上所有最聰明的人都在做這一件事情,我相信所有人的聰明才智集合在一起,一定能夠非??焖俚赝苿舆@一件事情的發(fā)展。

image.png

最后我再回顧一下,上周日我們請了姚期智院士來擔(dān)任我們Face++學(xué)術(shù)委員會的首席顧問。我們探討的主題是人工智能的本質(zhì)創(chuàng)新。探討了非常多的話題后,最后回到了根本問題:人才。我們分別讓每一個人回答了一下對于人才的最重要要求。姚院士說希望在我們公司里,所有的研究員都能夠人盡其用。我自己在曠視研究院,最大使命是創(chuàng)造一個好的環(huán)境,讓每一個人才人盡其用。印奇是我們的CEO,他的使命是為公司找到最大的人工智能應(yīng)用場景,同時匯聚交叉學(xué)科的人才,因為我們知道人工智能不是只做計算機(jī)視覺或語音語意理解,而是做認(rèn)知、做機(jī)器人,甚至腦科學(xué)的人都應(yīng)該匯聚在一起,才真正有可能把人工智能的問題一點(diǎn)點(diǎn)理清楚,定義好問題才能更加踏實地向前走。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-11-20
曠視研究院院長孫劍講述:中國技術(shù)何以打敗Facebook、Google拿下世界第一
COCO 2017競賽,在曠視科技首席科學(xué)家、研究院院長孫劍博士的帶領(lǐng)下,曠視研究院一舉奪得三個冠軍:參與了COCO物體檢測、物體分割和人體關(guān)鍵點(diǎn)檢測三項任務(wù)的挑戰(zhàn),取得了兩項第一(物體檢測、人體關(guān)鍵點(diǎn)),一項第二(物體分割);還在Places語義分割環(huán)節(jié)戰(zhàn)勝谷歌奪得第一。孫劍博

長按掃碼 閱讀全文