中國科技引領(lǐng)世界 曠視行人再識別技術(shù)首超人類水平

日前,中國人工智能企業(yè)曠視科技Face++的研究團隊在全球論文共享平臺arXiv上公布了一篇名為AlignedReID: Surpassing Human-Level Performance in Person Re-Identification的文章,證明了其在“行人再識別技(ReID)”術(shù)上取得了新的研究成果,使得機器在行人整體的識別能力上已經(jīng)超過了人類。本文就曠視研究院的具體研究方法和展開說明。

近年來,人臉識別技術(shù)的成熟使得機器在辨別人臉的能力上大舉超過人類,在構(gòu)建“智慧城市”、“平安城市”等方面也得到了廣泛應(yīng)用。然而在實際應(yīng)用的場景中,攝像頭并非在任何情況下都可以拍攝到清晰人臉。如在下圖中,因口罩、帽子等遮擋,民警和系統(tǒng)都無法用人臉特征判定嫌疑人身份。

不僅如此,在實際的場景中,一個攝像頭往往無法覆蓋所有區(qū)域,而多攝像頭之間一般也沒有重疊。因此,用全身信息來對人員進(jìn)行鎖定和查找就變得十分必要——通過將整體行人特征作為人臉之外的重要補充,實現(xiàn)對行人的跨攝像頭跟蹤。于是,計算機視覺領(lǐng)域開始逐漸展開針對“行人再識別”技術(shù)的研究工作。

行人再識別:實際意義重大,目前仍依賴大量人力投入

行人再識別(Person Re-Identification,簡稱 ReID),從字面意思理解就是對行人進(jìn)行重新識別,是對不同的、沒有視野重疊覆蓋的(non-overlapping)攝像機拍攝的行人圖像建立對應(yīng)關(guān)系的處理過程。當(dāng)攝像頭拍攝范圍之間不存在重疊時,由于沒有了連續(xù)信息,檢索難度也隨之增大非常多。因此,行人再識別強調(diào)的是在跨攝像機的視頻中對特定行人進(jìn)行檢索。

圖:行人再識別即將圖像中某個行人的特征與其他圖像中行人特征進(jìn)行對比,判斷是否屬于同一個人,相比行人檢測難度更大。

如果說行人檢測是要機器判定圖像中是否存在行人,那么行人再識別就是要機器識別出不同攝像機拍攝的特定人員的所有圖像。具體說,就是給定某人的一張圖片(query image),從多張圖片(gallery images)中找到屬于他/她的那一張或多張,是通過行人整體特征實現(xiàn)的人員比對技術(shù)。

行人再識別(ReID)在公共安防的刑偵工作中以及圖像檢索等場景中有很高的應(yīng)用價值。除此之外,ReID還可以幫助手機用戶實現(xiàn)相冊聚類、幫助零售或商超經(jīng)營者獲取有效的顧客軌跡、挖掘商業(yè)價值。然而,受限于行業(yè)水平,目前行人再識別的精準(zhǔn)度并不高,很多工作仍依賴于大量人力的投入。

曠視打破行人再識別行業(yè)紀(jì)錄,首次超越人類專家

由于圖像拍攝的時間、地點隨機,且光線、角度、姿態(tài)不同,再加上行人容易受到檢測精度、遮擋等因素的影響,ReID 的研究工作非常具有挑戰(zhàn)性。

近年來受益于深度學(xué)習(xí)的發(fā)展,ReID 技術(shù)水平也得到了很大提升,在兩個最為常用的ReID測試集Market1501和CUHK03上,首位命中率分別達(dá)到了89.9%和91.8%。不過,這個結(jié)果與人相比還是有一定的差距。實驗表明,一個熟練的標(biāo)注員在Market1501和CUHK03上的首位命中率分別可以達(dá)到93.5%和95.7%。

為了測試人類的ReID能力,研究者組織了10名專業(yè)的標(biāo)注人員來進(jìn)行測驗。結(jié)果表明,一個熟練的標(biāo)注員在Market1501和CUHK03上的首位命中率分別可以達(dá)到93.5%和95.7%。這個是現(xiàn)有的ReID方法無法企及的。

而在AlignedReID的文章中,曠視科技Face++的研究團隊提出了一種新方法,通過動態(tài)對準(zhǔn)(Dynamic Alignment)和協(xié)同學(xué)習(xí)(Mutual Learning),然后再重新排序(Re-Ranking),使得機器在Market1501和CUHK03上的首位命中率達(dá)到了94.0%和96.1%,這也是首次機器在行人再識別問題上超越人類專家表現(xiàn),創(chuàng)下了業(yè)界紀(jì)錄。

曠視的研究成果意味著繼人臉識別之后,機器在更復(fù)雜的行人再識別領(lǐng)域中也超越了人類!這為目前機器代替人類處理大量以人為中心的圖像或視頻理解問題帶來了更強大的技術(shù)。

曠視科技首席科學(xué)家、研究院院長孫劍表示:“最近幾年,隨著深度學(xué)習(xí)方法的復(fù)興,從2014年的人臉識別到2015年的ImageNet圖像分類,我們已經(jīng)看到機器在越來越多的圖像感知問題中超越了人類。記得不久前和我的導(dǎo)師、前微軟領(lǐng)導(dǎo)沈向洋博士(微軟全球執(zhí)行副總裁)聊天時吹了個?!兄獑栴}5-10年基本都能解掉。今天,我非常高興看到又一個非常難且有巨大應(yīng)用價值的圖像感知問題,被曠視科技團隊的算法超越了人類性能。”

讓多個網(wǎng)絡(luò)自動學(xué)習(xí)人體結(jié)構(gòu)對齊,并彼此相互學(xué)習(xí)

那么曠視科技團隊具體是如何做到的?

和其他基于深度學(xué)習(xí)的ReID方法類似,曠視研究院同樣是用深度卷積神經(jīng)網(wǎng)絡(luò)去提取特征,用Hard Sample Mining后的Triplet Loss做損失函數(shù),把特征的歐式距離作為兩張圖片的相似度。

不同之處在于,曠視科技在學(xué)習(xí)圖像相似度的時候考慮了人體結(jié)構(gòu)的對齊。雖然此前有人考慮過這一點,比如簡單的,把人的頭、身、腿分成三部分;還有精細(xì)一點的,先通過人體骨架估計,然后再通過骨架信息來對齊。但后一種方法,引入了另一個困難的問題或要求額外的標(biāo)注工作。曠視科技的思路是引入端到端的方法,讓網(wǎng)絡(luò)自動去學(xué)習(xí)人體對齊,從而提高性能。

在曠視科技發(fā)表的文章AlignedReID中,深度卷積神經(jīng)網(wǎng)絡(luò)不僅提取全局特征,同時也對各局部提取局部信息。對于兩張圖片中任意一對局部信息,計算它們之間的距離,構(gòu)成一個距離矩陣。再通過動態(tài)規(guī)劃,計算一條從矩陣左上角到右下角的最短路徑。這條最短路徑中的一條邊就對應(yīng)了一對局部特征的匹配,它給出了一種人體對齊的方式,在保證身體個部分相對順序的情況下,這種對齊方式的總距離是最短的。在訓(xùn)練的時候,最短路徑的長度被加入到損失函數(shù),輔助學(xué)習(xí)行人的整體特征。

如圖所示,乍一看,這條最短路徑上有一些邊是冗余的,例如圖中的第一條邊。為什么不只尋找那些匹配的邊呢?曠視Face++給出的解釋是這樣的:局部信息不僅要自我匹配,也要考慮到整個人體對齊的進(jìn)程。為了使匹配能夠從頭到腳按順序進(jìn)行,那么有一些冗余的匹配是必須的。另外,通過設(shè)計局部距離函數(shù),這些冗余匹配在整個最短路徑的長度中貢獻(xiàn)很小。

除了在訓(xùn)練過程中讓人體結(jié)構(gòu)自動對齊外,曠視Face++還提到了同時訓(xùn)練兩個網(wǎng)絡(luò)并使它們互相學(xué)習(xí),可以有效提高模型的精度。這個訓(xùn)練方法在分類問題中已經(jīng)比較常見,曠視Face++的研究員們做了一些改進(jìn)讓它能夠應(yīng)用于度量學(xué)習(xí)(Metric Learning)。

在上圖所示的訓(xùn)練過程中:同時訓(xùn)練的兩個網(wǎng)絡(luò)都包含一個分支做分類,一個分支做度量學(xué)習(xí)。兩個做分類的分支通過KL divergence互相學(xué)習(xí);兩個做度量學(xué)習(xí)的分支通過曠視提出的metric mutual loss互相學(xué)習(xí)。而如前所述,度量學(xué)習(xí)的分支又包括兩個子分支,一個是全局特征的分支,一個是局部特征的分支。比較有趣的是,一旦訓(xùn)練完成,分類分支和局部特征分支都被丟棄,只保留了全局特征分支做ReID。也就是說,無論是訓(xùn)練行人分類,還是通過人體對齊學(xué)習(xí)局部特征,都是為了更好的得到圖像的全局特征。

最后,曠視科技研究團隊還采用了2017年CVPR的一篇名為Re-ranking person re-identification with k-reciprocal encoding文章中提出的k-reciprocal encoding來做重新排序。

上圖的第一行是要查找的行人,第二行為人類專家給出的答案,第三行為機器給出的結(jié)果,可見機器的行人再識別能力已經(jīng)和人類相當(dāng)。

此文所展示的方法讓ReID技術(shù)在實驗結(jié)果的表現(xiàn)中上了全新的臺階。不過曠視在文章的最后也指出,雖然機器在兩個常用數(shù)據(jù)集上超過了人類的水平,但還不能說行人再識別(ReID)任務(wù)已經(jīng)被很好地解決了。在實際的應(yīng)用中,人類,尤其是經(jīng)過專業(yè)訓(xùn)練的人,可以通過經(jīng)驗、直覺,并利用環(huán)境、上下文等綜合信息,在擁擠,模糊,昏暗等情況下進(jìn)行更深入的分析,所以在開放和極端條件下的環(huán)境中,人和機器相比仍具有很大的優(yōu)勢。在未來的實踐中,行人再識別(ReID)的解決和應(yīng)用還需要更多努力。

作為AlignedReID文章作者之一,美國哥倫比亞大學(xué)博士、曠視科技研究院的視頻分析領(lǐng)域科學(xué)家張弛表示:“我們從2016年開始研究ReID,當(dāng)時Top1的精度達(dá)到60%就可以說是state of the art了。但是業(yè)務(wù)要求至少達(dá)到90%以上,甚至更高?,F(xiàn)在我們已經(jīng)在兩個常用數(shù)據(jù)集上做到超過人類水平,到這也只是邁出了實用化的第一步,在實戰(zhàn)場景中還有更多的挑戰(zhàn)要應(yīng)對。希望ReID技術(shù)的進(jìn)一步成熟,能讓我們的社會更安全,更便捷?!?/p>

曠視科技Face++成立于2011年,是中國最早一批用深度學(xué)習(xí)的方法開展計算機視覺應(yīng)用的人工智能企業(yè),被中國科技部列為“中國獨角獸”人工智能類榜首企業(yè),其核心產(chǎn)品包括Face++人工智能開放平臺、FaceID人臉身份驗證平臺等,業(yè)務(wù)覆蓋智能金融、智能商業(yè)和智慧安防等多個領(lǐng)域。目前,曠視科技Face++團隊已累計獲得國際人工智能技術(shù)評測冠軍 15項,其中包括在MS COCO 2017、Places 2017兩項全球頂級計算機視覺競賽中擊敗微軟、谷歌、Facebook和卡內(nèi)基梅隆大學(xué)等國際巨頭和高校奪得的三項世界冠軍。作為國內(nèi)最大原創(chuàng)人工智能企業(yè)之一,曠視科技擁有國內(nèi)外在申及授權(quán)專利近 500 件,并代表行業(yè)領(lǐng)先技術(shù)提供方參與了 15 項人工智能國家及行業(yè)標(biāo)準(zhǔn)制定。

圖為曠視科技行人再識別技術(shù)的應(yīng)用演示:針對擁有特定特征的行人進(jìn)行跨攝像頭檢索,未來可在高效查找走勢人口、追蹤定位目標(biāo)嫌疑人等場景中發(fā)揮價值。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-12-04
中國科技引領(lǐng)世界 曠視行人再識別技術(shù)首超人類水平
日前,中國人工智能企業(yè)曠視科技Face++的研究團隊在全球論文共享平臺arXiv上公布了一篇名為AlignedReID: Surpassing Human-Level Performance in Person Re-Identification的文章,證明了其在“行人再識別技(ReID)”術(shù)上取得了新的研究成果,使得機器在行人整體的識別能力上

長按掃碼 閱讀全文