曠視科技首席科學(xué)家孫劍:計算機視覺研究如何改變我們的生活?

計算機視覺,聽起來似乎很遙遠的一個名詞。但它的應(yīng)用,你一定不會陌生。比如,今天在某些城市,如果亂闖紅燈,就可能被路口的攝像頭捕捉到。從美顏自拍,到增強現(xiàn)實(AR)、虛擬現(xiàn)實(VR)游戲,還有用無人機在人跡罕至的地區(qū)檢測高壓線路,背后都有計算機視覺的參與。

在這一領(lǐng)域,孫劍博士是其中的佼佼者。

2009年和2016年,孫劍兩獲計算機視覺領(lǐng)域的頂級會議CVPR(IEEE Conference on Computer Vision andPattern Recognition)最佳論文。2010年,他還入選《MIT技術(shù)評論》35歲以下年輕創(chuàng)新者。通過設(shè)計152層的神經(jīng)網(wǎng)絡(luò)ResNets,孫劍所帶領(lǐng)的微軟亞洲研究院團隊在2015年獲得ImageNet和MS COCO比賽的五項第一。

在微軟研究院從事研究13年之后,他在2016年7月加入曠視科技,任首席科學(xué)家、研究院院長。曠視研究院從事基礎(chǔ)以及應(yīng)用研究,聚焦于深度學(xué)習(xí)算法、架構(gòu)和數(shù)據(jù)科學(xué)。最近,孫劍帶領(lǐng)的曠視研究院團隊獲得了COCO和Places挑戰(zhàn)賽2017的三項冠軍。

在前不久舉行的CCF-GAIR全球人工智能與機器人峰會發(fā)表題為《云、端、芯上的視覺計算》演講后,孫劍博士接受了《知識分子》的獨家專訪。他用自己的研究經(jīng)歷說明,計算機視覺研究是如何改變我們的生活的。

曠視科技首席科學(xué)家孫劍:計算機視覺研究如何改變我們的生活?

計算機視覺的核心問題一直沒變

《知識分子》:1993年到2003年,你一直在西安交通大學(xué)讀書、做研究,那個時候的計算機視覺的研究面貌跟現(xiàn)在很不一樣吧?

孫劍:其實研究的問題是一樣的。計算機視覺研究的問題幾乎沒怎么變,因為核心問題就是研究怎么樣去做分類檢測、識別跟蹤,大致就是這些問題。

西安交大的“人機所”成立已經(jīng)30多年了,成立之初就叫人工智能與機器人研究所,那時有做圖像的,比如有國防項目就是用攝像頭看一個車,去跟蹤,這樣就需要做車的檢測、跟蹤,跟今天做的是一樣的。

也有機器人項目。那個時候國有機器人還很少,我的導(dǎo)師鄭南寧老師從日本引進了一臺機器臂的設(shè)備,我們專門有一個機器人的組來研究怎么去控制這個機器人,學(xué)習(xí)里面的基本知識,操作機器人抓東西,跟今天的研究也是一樣的。目前這個方向已經(jīng)有很大進展,但是還不夠,還需要更大的進展,因為這是更難的問題——感知問題,只是被動的看,怎么能夠主動地去和世界交互,這個是更難的。看的話,很容易教計算機,給它一張照片,然后就可以學(xué);但是交互的過程,很難有大規(guī)模的交互的例子能提供給計算機,讓它理解,所以這個是最難的。

《知識分子》:那個時候,你做什么樣的研究?

孫劍:人機所其實早期有很多學(xué)數(shù)學(xué)的老師和博士,最早我們做了很多機器學(xué)習(xí)的事情。機器學(xué)習(xí)基本的知識、概念,如何做機器學(xué)習(xí),我都是在人機所學(xué)習(xí)得到的,然后把它運用在計算機視覺上。

舉個例子,我自己本科畢業(yè)設(shè)計時,做了一個硬件設(shè)備——硬件電路板,來實現(xiàn)混沌神經(jīng)網(wǎng)絡(luò),當(dāng)然現(xiàn)在它不是主流?;煦缟窠?jīng)網(wǎng)絡(luò)能夠記憶一些模式,是用硬件來實現(xiàn)的,因為當(dāng)時的算力在CPU上是做不好的,一定要在硬件上來做這件事情。

我讀碩士的時候,就是用神經(jīng)網(wǎng)絡(luò)來做人臉檢測和簡單的人臉識別工作。但是,其實當(dāng)時的人臉識別就僅限于人臉或者是一些車牌這樣的識別,能夠做到一定地步。我博士做的方向是3D感知,也就是立體匹配。計算機視覺有兩大核心問題:一個問題是3D重建;一個問題是識別。這樣就把計算機視覺的一些基本問題學(xué)習(xí)了一下。

《知識分子》:LeCun教授1998年提出LeNet-5,用卷積神經(jīng)網(wǎng)絡(luò),你碩士的時候的神經(jīng)網(wǎng)絡(luò)是怎樣的?

孫劍:我那時候用的那些神經(jīng)網(wǎng)絡(luò)不是卷積神經(jīng)網(wǎng)絡(luò),它可以認為是全連接網(wǎng)絡(luò)的一些改進,做了一些分組,跟卷積有點像。卷積神經(jīng)網(wǎng)絡(luò)是我(本科)畢業(yè)以后才出現(xiàn)的,最早做手勢識別、光學(xué)字符識別(Optical Character Recognition, OCR),大家也沒覺得那個能怎么樣,真的就是這樣。后來,在2000年的時候出現(xiàn)了支持向量機(Support Vector Machine, SVM),一統(tǒng)江湖,所有人都在研究這個,所以關(guān)注神經(jīng)網(wǎng)絡(luò)的人就更少了。

《知識分子》:你在2009年就得過CVPR的最佳論文獎?

孫劍:對。那篇論文不是關(guān)于深度學(xué)習(xí)的,做的是計算攝影學(xué)。計算攝影學(xué)是做什么呢?比如,我們公司有一個業(yè)務(wù)叫手機智能,不是造手機,而是給手機提供核心的算法,人臉解鎖是很大的一個應(yīng)用,另外一個是如何讓照片拍得更好看。

計算攝影學(xué)是我博士畢業(yè)后的一個研究方向,研究如何通過軟件和硬件的修改,拍出更好的或者通過一般的技巧拍不到的照片。比如,今天用手機虛化背景,模擬單反照片的效果,這個就是計算攝影學(xué)——修改相機硬件,就能實現(xiàn)這樣的新的效果,以及加了人工智能算法,使畫質(zhì)得到提升。

計算攝影學(xué)是計算機視覺和圖形學(xué)的交叉,我做了很長時間這個工作。那個時候手機還沒有這么強大,做完了以后,目的是應(yīng)該放到單反相機、卡片機里面去,但是這些廠商(其實也是對的)需要做快速改動的能力和意愿不是那么強,所以并沒有在相機或者單反上廣泛使用,這大概是在十幾年前的事情。今天,時代不一樣了,相機計算力非常強,里面有很好的圖像傳感器,甚至在晴天下拍的照片和單反看不出區(qū)別。另外,現(xiàn)在的手機廠商也非常重視這個方向,如果看手機發(fā)布會的話,基本上照片拍的效果是競爭的一個亮點,所以這也是我們目前投入很大的一個方向。我們?nèi)ツ瓿闪⒘藭缫曆芯吭旱奈餮艌D分院,專門研究計算攝影學(xué)在手機上的創(chuàng)新和應(yīng)用。

我自己也挺感慨的,以前做研究,做完以后發(fā)一些文章,頂多Photoshop里面可能用一些這樣的算法,離實際生活還是蠻遠的,今天真的能夠用深度學(xué)習(xí)的方法重新做一輪這樣的問題,能夠很快用在手機上,這個感覺,非常高興。

卷積神經(jīng)網(wǎng)絡(luò)襲來

《知識分子》:你開始研究和使用卷積神經(jīng)網(wǎng)絡(luò)是什么時候?

孫劍:2013年,我在微軟帶領(lǐng)團隊開始做卷積神經(jīng)網(wǎng)絡(luò)。2012年AlexNet出來,但剛出來的時候也沒有人那么相信(它多么好),尤其是在計算機視覺領(lǐng)域。因為AlexNet只是針對ImageNet,大家不知道它是過擬合了ImageNet,還是在別的任務(wù)也管用。2013年的時候,特別是伯克利的RCNN(Regions with CNN features)出現(xiàn),對于別的數(shù)據(jù)集的檢測提高也非常大,真的具有很強的通用性,所以大家才會非常重視。

我們是在2013年開始研究,2014年第一次參加了ImageNet,物體檢測拿了第二。2015年參加比賽的時候,內(nèi)部就已經(jīng)開發(fā)出了ResNet,ImageNet拿了三個第一名,COCO拿了兩個第一名。而且COCO,只是把ResNet用上去,提升的就非常多,這是我在微軟的工作。其實與此同時,曠視也是非常早,用深度學(xué)習(xí)來做人臉識別,大概也是在2013年開始的,我還沒到曠視。他們當(dāng)時在人臉檢測、識別、關(guān)鍵點定位上拿了三個世界冠軍,這也是他們做的非常早的一個工作。曠視是最早的用深度學(xué)習(xí)來做計算機視覺的創(chuàng)業(yè)公司之一。

《知識分子》:大眾對人工智能、深度學(xué)習(xí)的興趣很多是通過AlphaGo這樣的事情,研究者好像一下子都涌到卷積神經(jīng)網(wǎng)絡(luò)的原因是什么?

孫劍:我覺得擁抱卷積神經(jīng)網(wǎng)絡(luò)也是花了好幾年。2012年AlexNet出來時還有人懷疑,不相信,從2013年到現(xiàn)在也5年了,大家慢慢接受了。深度學(xué)習(xí)核心思想是,它有端到端學(xué)習(xí)的思想,盡可能不要人來設(shè)計復(fù)雜系統(tǒng),因為人的設(shè)計能力是有限的。所以更多人去用這個思想來做事情。不是說這個思想是新的,而是如果這個思想有效,就會有更多的人愿意主動去用。

從圖像識別來說,從ImageNet或者大規(guī)模數(shù)據(jù)學(xué)出來的特征,確實很有通用性。這個特征并不是說抽取語義特性,而是說它能夠把很多東西分得開,比如說ImageNet出來的模型在醫(yī)療圖像上非常好用。醫(yī)療圖像數(shù)據(jù)比較少,先用ImageNet訓(xùn)練,以后再用少量的數(shù)據(jù)根據(jù)抽出來的特征再次做學(xué)習(xí),可以提供很大的幫助,不然醫(yī)療圖像這么少的數(shù)據(jù),又沒有好的特征,確實很難做什么事。

《知識分子》:你和合作者在2015年提出ResNet,它解決什么問題?

孫劍:訓(xùn)練優(yōu)化問題。我們在開發(fā)之前,大概GoogleNet,VGG就是最好的網(wǎng)絡(luò),大概到20多層,再增加層數(shù)就不行了,訓(xùn)練都訓(xùn)練不下去;或者訓(xùn)練的難度非常高,說明整體的優(yōu)化沒有做好。

其實機器學(xué)習(xí)大概要解決三個問題,一個是說系統(tǒng)是否可以有能力擬合,能力是否夠。比如,很簡單的一個線性分離器可能無法表示像AlphaGo那么復(fù)雜的映射關(guān)系,如果加很多層這樣的神經(jīng)網(wǎng)絡(luò),能力就是夠的。不過,這也只是說理論上能力夠。

第二個問題要解決怎么讓它擬合上去,就是訓(xùn)練優(yōu)化問題,ResNet是解決這個問題。當(dāng)然加了ResNet以后,現(xiàn)在可以說是任何深度層的都可以來擬合。大家常用的是幾十層或者是一兩百層這樣的網(wǎng)絡(luò)。

第三個問題今天還沒有解決的很好,就是推廣能力問題。比如,確認了網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)、測數(shù)據(jù)的時候好,如果突然來一個新的場景,能不能也做好?比如說,突然來了一個刮風(fēng)下雨的天氣,又有一個奇怪的車,車上掉了東西下來,這個東西還沒見過,這就需要推廣能力。這是在訓(xùn)練數(shù)據(jù)當(dāng)中無法大規(guī)模收集到的,這個問題今天深度學(xué)習(xí)也好,人工智能也好,還是長期要解決的問題。這跟人不一樣,人有推理、抽象,有先驗,很多東西都能來幫助我們解決推廣能力問題,泛化能力問題。這是下一個深度學(xué)習(xí)解決的問題。像人臉識別解決的非常好了,但是還有很多任務(wù)沒有這么好。

《知識分子》:從研究方法上來說,現(xiàn)在是不是一個巨大的改變,都是用深度學(xué)習(xí),卷積神經(jīng)網(wǎng)絡(luò)來做?

孫劍:對。基礎(chǔ)都得用這個,結(jié)合具體問題的一些領(lǐng)域知識,領(lǐng)域知識用得越多越好?,F(xiàn)在深度學(xué)習(xí)已經(jīng)成為一個工具。我們剛從CVPR2018回來,如果看今年的發(fā)展的熱點,深度學(xué)習(xí)已經(jīng)無處不在了。有幾個Talk很有意思,講者上來就說,我的Talk不包含深度學(xué)習(xí),沒用深度學(xué)習(xí)。像以前專門有論文,題目叫深度學(xué)習(xí)XXX,今天這樣的論文題目已經(jīng)很少了,而是真正深入到問題的本身去研究了。

機器學(xué)習(xí)會長期產(chǎn)生更大的作用

《知識分子》:大家都用深度學(xué)習(xí)了,以前傳統(tǒng)的方法會完全拋棄嗎?

孫劍:沒有完全拋棄,像3D的話還是不能拋棄的,3D幾何的這些關(guān)系,是不能簡單那樣來描述的。包括圖像,其實今天深度學(xué)習(xí)能做的非常好,但是實際上我們在做很多深入的視覺理解中,擬合一個函數(shù)是不夠的,還有很多局限性,做不到非擬合函數(shù)的一些推理功能。比如,如果兩張撲克牌疊在一起很近的話,今天的方法不一定能很好的檢測出兩張牌,但是人是知道這個牌是方形的,多出來一個角不正常,通過推理就能夠推出,下面還有一張牌。人有很強的先驗信息,才能把這個問題做好。

《知識分子》:你今天的主題講的是“云端芯的計算機視覺”,你覺得現(xiàn)在云端、終端和芯片上有哪些不同的要求?

孫劍:云上不用考慮計算量和內(nèi)存訪問、模型大小的一些問題,或者說是有很松的邊界,要追求的是精度問題。在端上,比如說在手機上,它的計算量、內(nèi)存訪問模式和要求的模型大小都是不一樣的。今天因為設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)還是人工的一個事情,所以在云上設(shè)計的模型肯定在端上不是最優(yōu)的設(shè)計,所以需要在端上面設(shè)計才能得到更好的效果。

包括在芯片上也是一樣,不光要調(diào)結(jié)構(gòu),而是內(nèi)部的網(wǎng)絡(luò)表示都要采取低精度化的表示,其實這也是神經(jīng)網(wǎng)絡(luò)很神奇的特性,因為我們一般來說用32位浮點數(shù)表示里面所有的信號,但它(神經(jīng)網(wǎng)絡(luò))其實很穩(wěn)健,不用32位,用幾個比特也能夠很好地把這個信息流給傳播了。

因為我相信人真正的神經(jīng)系統(tǒng)里面也不會用32位浮點數(shù)表示信號,所以,第一就要設(shè)計這樣的算法來適合現(xiàn)有的硬件;第二,其實芯片是演化非??斓囊粋€行業(yè),設(shè)計芯片要考慮這個特性,用低精度來設(shè)計芯片,這樣就能夠做的非常好。我相信在很多設(shè)備上這樣的芯片都會普及,以至于在云上的一些計算可以圍繞這個芯片來做,今天這個發(fā)展非常快,這遠遠不是摩爾定律能夠框起來的,大概幾個月計算量翻一倍,功耗還不變或者說計算量不變,功耗降一半,這個范圍非常寬。

《知識分子》:設(shè)計各種各樣的網(wǎng)絡(luò),看起來就像是藝術(shù),你是基于什么去設(shè)計一個算法的?

孫劍:別的科學(xué)都沒有Science這個名詞,而Computer Science,計算機科學(xué)加了一個Science,其實計算機科學(xué)里面大多數(shù)算法都是設(shè)計出來的,它跟物理、生物實驗做出來的發(fā)現(xiàn)是不太一樣的。我們深度學(xué)習(xí)有點像計算機科學(xué)這個方式,像排序算法是怎么設(shè)計出來的,有各種各樣的排序算法,不是做實驗做出來的。

另一方面,它(神經(jīng)網(wǎng)絡(luò))跟那些純算法還不太一樣,它和數(shù)據(jù)相關(guān),跟數(shù)據(jù)相關(guān)的話,跟平臺也相關(guān),所以核心是說,對要做的一些問題要有非常深入的理解,理解有很多細節(jié),理解整個網(wǎng)絡(luò)在不同的情況下會怎么樣,然后從小出發(fā),抓住小的點,把小的點做大,慢慢就可以設(shè)計好。

《知識分子》:你對微軟的研究氛圍體會如何?

孫劍:鼓勵基礎(chǔ)研究。深度學(xué)習(xí)中有一個梯度下降算法、反傳算法,最后監(jiān)督信號決定了這個系統(tǒng)會是什么樣子的。我覺得在任何一個組織的話,你希望這個組織做什么,不做什么,就相當(dāng)于一個監(jiān)督信號。訓(xùn)練一個分類器,可以接受正樣本、負樣本,這個組織就會像深度學(xué)習(xí)一樣,自動地去反傳、監(jiān)督這個信號,形成它的特色。微軟研究院很鼓勵基礎(chǔ)創(chuàng)新,鼓勵對最前沿問題長期如一日的這么做,這樣才可能有新的突破誕生。

《知識分子》:在人工智能的科研和教育方面,曠視和大學(xué)、科研機構(gòu)有合作嗎?

孫劍:我們在南京成立了研究院,與南京大學(xué)有合作,我們和西安交大人機所、上??萍即髮W(xué)成立了聯(lián)合實驗室,和權(quán)龍老師在香港科技大學(xué)也成立了一個實驗室,因為想實現(xiàn)互補——3D認知方面和圖像識別方面是要結(jié)合在一起的。我們接下來還會找和我們相互補的,不管學(xué)校也好,或者研究機構(gòu)也好,來做這樣的合作。

《知識分子》:年輕人都來學(xué)AI,你有什么樣的經(jīng)驗可以給到他們?

孫劍:如果看長遠一些,機器學(xué)習(xí)會長期產(chǎn)生更大的作用。今天雖然說人工智能,但其實大多數(shù)是機器學(xué)習(xí)的基礎(chǔ)知識,包括如何來用統(tǒng)計思考問題的方法,可能很多做事情的方式都是通過這種方式做的。學(xué)習(xí)這些,我覺得長期來看都是非常有好處的。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-08-30
曠視科技首席科學(xué)家孫劍:計算機視覺研究如何改變我們的生活?
計算機視覺,聽起來似乎很遙遠的一個名詞。但它的應(yīng)用,你一定不會陌生。比如,今天在某些城市,如果亂闖紅燈,就可能被路口的攝像頭捕捉到。

長按掃碼 閱讀全文