ResNet成阿爾法元核心技術(shù) 曠視孫劍詳解Zero的偉大與局限

2017年10月19日,DeepMind團(tuán)隊(duì)發(fā)表了迄今最強(qiáng)版本的AlphaGo——AlphaGo Zero,其中一個(gè)重要模塊是出自華人團(tuán)隊(duì)的深度殘差網(wǎng)絡(luò)ResNet。就此背景,新智元采訪了深度殘差網(wǎng)絡(luò)ResNet作者之一,曠視科技Face++首席科學(xué)家孫劍博士。孫劍認(rèn)為,AlphaGo Zero技術(shù)提升足夠偉大,但在真實(shí)技術(shù)落地過(guò)程中還有著眾多局限,并指出未來(lái)的主流深度學(xué)習(xí)技術(shù)還將會(huì)圍繞大數(shù)據(jù)訓(xùn)練模式的方式展開。在采訪中,孫劍還談了計(jì)算機(jī)視覺(jué)遠(yuǎn)遠(yuǎn)沒(méi)有被解決,“全世界的研究人員一起來(lái)做都不夠”。

圖: ResNet 作者之一、曠視科技Face++首席科學(xué)家孫劍博士

AlphaGo Zero的偉大與局限:兩大核心要素實(shí)現(xiàn)極簡(jiǎn)算法,“無(wú)師自通”短期無(wú)法成為AI主流

“AlphaGo Zero的搜索過(guò)程簡(jiǎn)化了很多,例如把以前系統(tǒng)中的兩個(gè)網(wǎng)絡(luò)合并成一個(gè)網(wǎng)絡(luò),將深度殘差網(wǎng)絡(luò)的輸入做最簡(jiǎn)化?!睂O劍博士在談到本次AlphaGo Zero的技術(shù)特點(diǎn)時(shí)說(shuō):“把19x19棋局圖像直接送給神經(jīng)網(wǎng)絡(luò),讓神經(jīng)網(wǎng)絡(luò)看著棋盤做決策,這個(gè)非常簡(jiǎn)潔?!?/p>

孫劍表示,本次AlphaGo Zero的提升主要有兩個(gè)核心要素,一個(gè)是啟發(fā)式搜索,一個(gè)是深度殘差神經(jīng)網(wǎng)絡(luò),而這兩者又實(shí)現(xiàn)了完美結(jié)合。其中,啟發(fā)式搜索的思想非常樸素,是個(gè)針對(duì)問(wèn)題設(shè)計(jì)的一個(gè)高級(jí)定制版蒙特卡洛數(shù)搜索算法;而深度殘差神經(jīng)網(wǎng)絡(luò)則讓簡(jiǎn)單的搜索算法極大地提升了效率。

深度殘差神經(jīng)網(wǎng)絡(luò)(ResNet)在2015年由孫劍在微軟領(lǐng)導(dǎo)的視覺(jué)團(tuán)隊(duì)率先提出,并在當(dāng)年的ImageNet以及MS COCO兩大學(xué)術(shù)競(jìng)賽中包攬五項(xiàng)冠軍。ResNet一個(gè)重要的突破是實(shí)現(xiàn)了152層的網(wǎng)絡(luò)深度,這讓一些非常復(fù)雜的函數(shù)做映射時(shí)的效率與有效性得到了極大的提升。結(jié)合了ResNet的強(qiáng)大網(wǎng)絡(luò)使AlphaGo Zero能夠快速、準(zhǔn)確地學(xué)習(xí)每一子的落子概率和對(duì)整個(gè)棋局進(jìn)行判斷。

“AlphaGo Zero的偉大之處是第一次讓機(jī)器可以不通過(guò)任何棋譜,在只告訴規(guī)則的前提下,完全從隨機(jī)開始,而且只在一臺(tái)有TPU的單機(jī)上運(yùn)行,不到3天就超越柯潔版的水平,最終成為圍棋大師,這種無(wú)師自通的學(xué)習(xí)模式在AI整個(gè)發(fā)展上是具有里程碑意義的。”孫劍博士講到AlphaGo Zero的技術(shù)意義時(shí)說(shuō)。“但是,這種‘無(wú)師自通’在很多AI落地中也存在一些局限,因?yàn)閲?yán)格講,圍棋規(guī)則和判定棋局輸贏也是一種監(jiān)督信號(hào)。因此,說(shuō)人類無(wú)用,或者說(shuō)機(jī)器可以自己產(chǎn)生認(rèn)知,都沒(méi)有準(zhǔn)確地理解AlphaGo Zero?!?/p>

雖然在技術(shù)上令人驚艷,但在很多AI行業(yè)落地中,所謂的無(wú)師自通或者弱監(jiān)督學(xué)習(xí)在短期還是無(wú)法成為主流。目前人工智能落地解決的很多事情,實(shí)際上都是在模擬人類的某一種技能,讓機(jī)器應(yīng)用這一技能去完成任務(wù),而這需要海量的數(shù)據(jù)與更多的信號(hào)輸入。以曠視Face++所擅長(zhǎng)的人臉識(shí)別為例,人臉識(shí)別是人類特有的一種能力,與演化和后天習(xí)得有關(guān),把這種能力輸出給機(jī)器,就需要人的監(jiān)督信號(hào)。所以,在今后很長(zhǎng)一段時(shí)間內(nèi),監(jiān)督學(xué)習(xí)依然是AI研究與AI商業(yè)化的主流方向。

在創(chuàng)業(yè)公司也做基礎(chǔ)研究:如何做更好、更小的網(wǎng)絡(luò)

對(duì)于這次ResNet被AlphaGo Zero論文引用,孫劍顯然非常開心,還特意發(fā)了朋友圈?!斑@次應(yīng)用在AlphaGo Zero中的ResNet殘差神經(jīng)網(wǎng)絡(luò),曾獲得了CVPR2016的最佳論文獎(jiǎng),我也非常高興這個(gè)技術(shù)可以應(yīng)用在AlphaGo Zero系統(tǒng)中,當(dāng)然ResNet并非我一人的功勞,它應(yīng)當(dāng)歸功于團(tuán)隊(duì)的齊心之作和微軟亞洲研究院開放的研究環(huán)境。目前,我在曠視科技(Face++)也正在打造這樣的開放環(huán)境和原創(chuàng)精神?!?/p>

加入曠視以后,孫劍的研究和交流步伐也沒(méi)有停下。他現(xiàn)在是曠視的首席科學(xué)家,同時(shí)也是曠視研究院的院長(zhǎng)。雖然在采訪中,“商業(yè)化”、“場(chǎng)景”、“落地”等非?!皠?chuàng)業(yè)公司”的詞常常出現(xiàn)在孫劍的論述中。但是,孫劍認(rèn)為,在創(chuàng)業(yè)公司做研究和在大企業(yè)做研究實(shí)際并沒(méi)有什么不同?!白鲅芯亢艽蟮囊粋€(gè)點(diǎn)就是,別人都往那邊走的時(shí)候,你要看看別的方向做不做?!睂O劍說(shuō)。

這樣做的一個(gè)結(jié)果,是曠視研究院在今年7月提出的ShuffleNet,ShuffleNet專門為了移動(dòng)應(yīng)用而生,在設(shè)備提供的計(jì)算量很小的時(shí)候也能快速響應(yīng)。“卷積神經(jīng)網(wǎng)絡(luò)在設(shè)計(jì)空間有幾個(gè)重要的維度,比如深度、卷積核個(gè)數(shù),卷積核大小以及特征圖,每一層的計(jì)算復(fù)雜度完全取決于這幾個(gè)參數(shù)。”孫劍說(shuō):“我們目前得出的結(jié)論是:一個(gè)網(wǎng)絡(luò)的真正性能,主要取決于其計(jì)算復(fù)雜度。如果新的網(wǎng)絡(luò)結(jié)構(gòu)沒(méi)有大的變化,基本是計(jì)算力決定這個(gè)網(wǎng)絡(luò)性能有多好?!?/p>

為了適應(yīng)移動(dòng)端的計(jì)算力,ShuffleNet在結(jié)構(gòu)上繼承了殘差網(wǎng)絡(luò)(ResNet)的設(shè)計(jì)思想,并在此基礎(chǔ)上做出了一系列改進(jìn)來(lái)提升模型的效率:首先,使用逐通道卷積替換原有的3x3卷積,降低卷積操作抽取空間特征的復(fù)雜度;將原先結(jié)構(gòu)中前后兩個(gè)1x1逐點(diǎn)卷積分組化,并在兩層之間添加通道重排操作,進(jìn)一步降低卷積運(yùn)算的跨通道計(jì)算量。

圖: ShuffleNet結(jié)構(gòu)單元

ShuffleNet的主要吸引力在于,它使用的是任何人都可以在任何深度學(xué)習(xí)框架中輕松實(shí)現(xiàn)的簡(jiǎn)單、標(biāo)準(zhǔn)的操作(分組化卷積 + channel shuffling)。這對(duì)于許多應(yīng)用都非常有用,事實(shí)證明,ShuffleNet發(fā)布后也得到同行的廣泛應(yīng)用。任何人都能用,而且易于使用、容易實(shí)施,能快速改進(jìn)性能,這正是我們需要的研究,這樣的研究在未來(lái)也將變得愈發(fā)重要。

除了像ShuffleNet這樣通過(guò)網(wǎng)絡(luò)設(shè)計(jì)的方式把計(jì)算量降下來(lái),曠視在去年還發(fā)表了一項(xiàng)工作DoReFaNet,走的低精度的路子,把內(nèi)部的數(shù)表示從浮點(diǎn)型,切換到定點(diǎn)或者更低位的表示,它可以是網(wǎng)絡(luò)中的權(quán)重,也可以是網(wǎng)絡(luò)中的特征。DoReFaNet訓(xùn)練中的梯度用Low-bits表示,“因?yàn)檫@個(gè)網(wǎng)絡(luò)的權(quán)重、激活,以及梯度分別用一位、兩位、以及四位來(lái)表示,所以我們研究院就叫這個(gè)網(wǎng)絡(luò)DoReFa-Net?!?/p>

在今年的ICCV上,孫劍和曠視的研究人員Yihui He,以及ResNet的另一位作者張祥雨(以前也在微軟亞洲研究院,現(xiàn)在和孫劍一起加盟曠視)合作,也有一篇論文發(fā)表,題為《加速極深神經(jīng)網(wǎng)絡(luò)的特征剪枝》(Channel Pruning for Accelerating Very Deep Neural Networks),繼續(xù)在降低計(jì)算量的這一方向上發(fā)力。

剪枝(Pruning)這種方法,是在網(wǎng)絡(luò)訓(xùn)練好以后,把里面冗余度最大的表示(Channel)去掉,重新訓(xùn)練網(wǎng)絡(luò),這樣網(wǎng)絡(luò)體積比以前小,而精度跟原來(lái)一樣甚至更好;當(dāng)然精度也有可能稍稍降低一點(diǎn),但都在產(chǎn)品應(yīng)用可以接受的范圍內(nèi)。

孫劍介紹說(shuō),現(xiàn)在的神經(jīng)網(wǎng)絡(luò)分支比較多且零碎,以前的剪枝方法已經(jīng)不再適用。“我們這個(gè)方法第一次對(duì)新的現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)做有效剪枝的方法,剪枝能夠和低精度、ShuffleNet結(jié)合在一起,實(shí)現(xiàn)更小、更經(jīng)濟(jì)的網(wǎng)絡(luò)?!?/p>

孫劍說(shuō),這是他們的一個(gè)基礎(chǔ)研究,并沒(méi)有局限于人臉或圖像識(shí)別。作者在論文中寫道,我們剪枝過(guò)的VGG-16通過(guò)5倍加速實(shí)現(xiàn)了最先進(jìn)的結(jié)果,同時(shí)只增加了0.3%的誤差。更重要的是,我們的方法能夠加速ResNet,Xception等現(xiàn)代網(wǎng)絡(luò),分別只有1.4%、1.0%的精度損失,這是非常重要的。

曠視研究院在今年的CVPR有5篇文章發(fā)表,2018年的CVPR截稿時(shí)間是11月,大家也在積極準(zhǔn)備。不過(guò),曠視研究院對(duì)發(fā)文章的數(shù)量沒(méi)有要求,“我從來(lái)不鼓勵(lì)數(shù)量,我看的是質(zhì)量,”孫劍說(shuō):“我以前寫論文也沒(méi)有特別多,但哪怕只有一篇文章,能夠被用在像AlphaGo這樣的系統(tǒng)上,那就有20倍的效果?!?/p>

創(chuàng)建曠視研究院,吃一碗面挖到實(shí)力人才

現(xiàn)在,孫劍到公司每天第一件事情,就是去網(wǎng)上看有沒(méi)有新的、有意思的論文發(fā)表出來(lái)。曠視內(nèi)部也有論文討論小組,大家會(huì)把看到的論文或者自己的實(shí)現(xiàn)/復(fù)現(xiàn)發(fā)到群里面。孫劍每周都會(huì)跟每一個(gè)小組進(jìn)行非常深入的研究,將他以前做研究的思路和方法分享給大家,供年輕人參考,營(yíng)造積極創(chuàng)新的氛圍?!拔颐刻於紩?huì)問(wèn)自己,我應(yīng)該做什么事情,讓大家都有清晰的目標(biāo),讓大家能夠發(fā)揮自己的潛力去做這些事情?!睂O劍說(shuō),而這就是他認(rèn)為他自己最核心的任務(wù)。

“如果說(shuō)我有KPI,那么我的KPI就是在曠視研究院把創(chuàng)新的環(huán)境做好,讓年輕人在這里能夠發(fā)揮最大的潛力來(lái)做創(chuàng)新,把這個(gè)組織越做越強(qiáng),越做越大,”孫劍說(shuō):“而這樣做附帶的效果,就是公司的產(chǎn)品從研究中實(shí)現(xiàn)更強(qiáng)大的競(jìng)爭(zhēng)力和生命力,公司整體也能得到更好的商業(yè)回報(bào)?!?/p>

現(xiàn)在,曠視研究院一共有80多人,分布在北京、西雅圖、南京等城市,目前還有至少2個(gè)分部正在籌建中。孫劍說(shuō),曠視研究院還將繼續(xù)擴(kuò)大,“隨著公司的發(fā)展成比例擴(kuò)大”。對(duì)于人才選擇,孫劍給出了幾個(gè)標(biāo)準(zhǔn):首先,數(shù)學(xué)一般好就行,其次,編程能力要很好,最后,潛力要很大。孫劍解釋說(shuō),深度學(xué)習(xí)現(xiàn)在還是一個(gè)實(shí)驗(yàn)性的科學(xué),很多的結(jié)論都是從實(shí)驗(yàn)中得來(lái),因此需要快速做出東西來(lái)迭代,這對(duì)編程能力提出了很高要求,而要能夠很好地運(yùn)行系統(tǒng),數(shù)學(xué)里線性代數(shù)學(xué)很好就可以了。

曠視研究院現(xiàn)在有基本任務(wù)組(分類、檢測(cè)、圖像分割、視頻分析)、硬件組、平臺(tái)組、引擎組,在第二輪面試的時(shí)候都會(huì)與孫劍直接會(huì)面。除了(校園)招聘,挖掘?qū)嵙θ瞬偶用艘彩菚缫暤囊粭l道路,而這里孫劍本人的名望、實(shí)力和影響力無(wú)疑也是主要的吸引因素。最典型的例子,就是孫劍邀請(qǐng)到前Adobe首席科學(xué)家王玨,后者于今年5月加盟曠視,帶領(lǐng)曠視在西雅圖的研究院。

圖:曠視Face++西雅圖研究院主任 王玨博士

“我跟王玨博士認(rèn)識(shí)了很多年,每次開會(huì)都會(huì)遇到,我們非常了解彼此的工作,我非常欣賞王玨博士的工作——PhotoShop里好幾個(gè)非常創(chuàng)新的功能都是出自王玨之手,他也發(fā)表了很多高質(zhì)量的SIGGRAPH論文,他的風(fēng)格其實(shí)跟我很類似,我們彼此都很認(rèn)可?!睂O劍說(shuō)。

王玨博士在Adobe工作了9年,2016年萌生尋找新環(huán)境繼續(xù)挑戰(zhàn)自己的想法。當(dāng)時(shí),王玨博士收到了包括谷歌、Facebook、騰訊、阿里等許多公司的邀請(qǐng)。最終成功招攬到他的是曠視?!拔胰フ宜浅K炀痛饝?yīng)了。”孫劍笑著說(shuō):“我就請(qǐng)他吃了碗面?!?/p>

計(jì)算機(jī)視覺(jué)問(wèn)題遠(yuǎn)遠(yuǎn)沒(méi)有被解決,投入多少人力都不夠

對(duì)于人臉識(shí)別,孫劍認(rèn)為正臉光照好的情況下,計(jì)算機(jī)已經(jīng)超越人類,現(xiàn)在的問(wèn)題是解決在極端情況下的用例,包括靜態(tài)和動(dòng)態(tài),包括光照、角度、化妝、發(fā)型……最終,人臉識(shí)別其實(shí)是識(shí)別人的問(wèn)題,那么就要做到從背影也能識(shí)別出你是誰(shuí)。這也是人工智能解決小樣本學(xué)習(xí)、抽象和自適應(yīng)能力的一個(gè)核心問(wèn)題。

在研究院的各種方向中,孫劍還特別提到了曠視自己原創(chuàng)的深度學(xué)習(xí)引擎MegBrain,它早于TensorFlow開發(fā),相當(dāng)于曠視內(nèi)部的TensorFlow,也是創(chuàng)業(yè)公司中唯一自我研發(fā)并全員使用的深度學(xué)習(xí)引擎。孫劍說(shuō),曠視對(duì)于計(jì)算引擎的演進(jìn)非常重視,現(xiàn)在MegBrain已經(jīng)開發(fā)到7.0、8.0的版本?!坝昧薓egBrain,大家都不想再用其他引擎”,而擁有自己的原創(chuàng)引擎,大幅加速了曠視自己的產(chǎn)品創(chuàng)新和競(jìng)爭(zhēng)力。

現(xiàn)在曠視的研究氛圍很自由,但領(lǐng)域十分聚焦,也即圖像和視頻理解,關(guān)注其中的文字、人物、車輛,對(duì)應(yīng)曠視的產(chǎn)品和服務(wù)。這比起學(xué)術(shù)界和大公司研究院來(lái)似乎沒(méi)有那么自由,但孫劍對(duì)此并不擔(dān)心,因?yàn)椤皢?wèn)題足夠大”。

他認(rèn)為人臉識(shí)別這個(gè)問(wèn)題遠(yuǎn)遠(yuǎn)沒(méi)有被解決,而視覺(jué)是人工智能里最重要的問(wèn)題之一,人類有90%的信息都是從視覺(jué)進(jìn)來(lái)的。視覺(jué)里的問(wèn)題,“大到把全世界的視覺(jué)研究員都聯(lián)合到一起,在我看來(lái)都是不夠的。”孫劍說(shuō)。

11月8日,在新智元AI World 2017世界人工智能大會(huì)上,孫劍將發(fā)表演講,聚焦人臉識(shí)別等視覺(jué)前沿技術(shù)和問(wèn)題,為我們帶來(lái)計(jì)算機(jī)視覺(jué)最新技術(shù)和應(yīng)用的精彩分享。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-10-26
ResNet成阿爾法元核心技術(shù) 曠視孫劍詳解Zero的偉大與局限
2017年10月19日,DeepMind團(tuán)隊(duì)發(fā)表了迄今最強(qiáng)版本的AlphaGo——AlphaGo Zero,其中一個(gè)重要模塊是出自華人團(tuán)隊(duì)的深度殘差網(wǎng)絡(luò)ResNet。就此背景,新智元采訪了深度殘差網(wǎng)絡(luò)ResNet作者之一,曠視科技Face++首席科學(xué)家孫劍博士。孫劍認(rèn)為,AlphaGo Zero技術(shù)提升足夠偉大,但在真實(shí)技術(shù)

長(zhǎng)按掃碼 閱讀全文