今年 ICCV 2017會議期間,COCO +Places 2017挑戰(zhàn)賽公布了獲獎榜單。在COCO Challenge 和 Places Challenge 兩個板塊的七項比賽中,曠視科技(Face++)拿下了 COCO Detection/Segmentation Challenge(檢測/分割)、COCO Keypoint Challenge(人體關(guān)鍵點(diǎn)檢測)、Places Instance Segmentation(實體分割)三個項目的冠軍。
有趣的是,Places Challenge 中允許提交五次成績,曠視在實體分割項目上第一次提交的成績就以0.27717 Mean AP遠(yuǎn)遠(yuǎn)甩開了其它隊伍中的最好成績0.24150,最終的第三次提交更繼續(xù)提升到了0.29772,穩(wěn)坐第一名。
近日,曠視科技研究院就在arXiv上連發(fā)三篇論文,內(nèi)容包括了自己在COCO +Places 2017挑戰(zhàn)賽中的獲獎模型。AI 科技評論把這三篇論文簡單介紹如下,感興趣的讀者歡迎查看原論文仔細(xì)研究。
Light-Head R-CNN: In Defense of Two-Stage Object Detector
· 輕量頭部 R-CNN:守護(hù)兩階段物體檢測器的尊嚴(yán)
· 論文地址:https://arxiv.org/abs/1711.07264
· 論文簡介:這篇論文中,作者們首先探究了典型的兩階段物體檢測方法沒有YOLO和SSD這樣的單階段檢測方法運(yùn)行速度快的原因。他們發(fā)現(xiàn),F(xiàn)aster R-CNN 和 R-FCN 在候選區(qū)域產(chǎn)生前或后都會進(jìn)行高強(qiáng)度的計算。Faster R-CNN 在候選區(qū)域識別后有兩個全連接層,而 R-FCN 會產(chǎn)生一張很大的分?jǐn)?shù)表。這些網(wǎng)絡(luò)由于有這樣的高計算開銷的設(shè)計,運(yùn)行速度就較慢。即便作者們嘗試大幅度縮減基準(zhǔn)模型的大小,計算開銷也無法以同樣幅度減少。
曠視科技的作者們在論文中提出了一個新的兩階段檢測器,Light-Head R-CNN,輕量頭部 R-CNN,意在改善當(dāng)前的兩階段方法中計算開銷大的缺點(diǎn)。在他們的設(shè)計中,通過使用小規(guī)模的feature map和小規(guī)模的R-CNN子網(wǎng)絡(luò)(池化層和單個全連接層),網(wǎng)絡(luò)的頭部被做得盡可能輕量化。作者們基于ResNet-101構(gòu)造了一個輕量頭部的R-CNN網(wǎng)絡(luò),在COCO數(shù)據(jù)集上超越當(dāng)前最好水準(zhǔn)的同時還保持了很高的時間效率。更重要的是,只要把骨干結(jié)構(gòu)換成一個較小的網(wǎng)絡(luò)(比如 Xception),作者們的 Light-Head R-CNN 就可以在COCO數(shù)據(jù)集上以102FPS的運(yùn)行速度得到30.7mmAP的成績,在速度和準(zhǔn)確率兩個方面都明顯好于YOLO和SSD這樣的快速單階段檢測方法。相關(guān)代碼將會公開發(fā)布。
檢測精度與推理時間對比圖
Cascaded Pyramid Network for Multi-Person Pose Estimation
· 用于多人姿態(tài)估計的級聯(lián)金字塔網(wǎng)絡(luò)CPN
· COCO Keypoint Challenge 第一名
· 論文地址:https://arxiv.org/abs/1711.07319
· 論文簡介:多人姿態(tài)估計這個課題的研究成果近期有了很大的提升,尤其是在卷積神經(jīng)網(wǎng)絡(luò)快速發(fā)展的幫助下。然而,還是有許多情境會造成檢測困難,比如關(guān)鍵點(diǎn)重疊、關(guān)鍵點(diǎn)不可見以及背景復(fù)雜的情況都還解決得不理想。在這篇論文中,作者們提出了一種新的網(wǎng)絡(luò)結(jié)構(gòu) Cascaded Pyramid Network,級聯(lián)金字塔網(wǎng)絡(luò) CPN,意在解決這些困難情境下的關(guān)鍵點(diǎn)識別問題。具體來說,他們的算法包含兩個階段,GlobalNet 和 RefineNet。GlobalNet 是一個特征金字塔網(wǎng)絡(luò),它可以找到所有“簡單”的關(guān)鍵點(diǎn),比如眼、手;重疊的或者不可見的關(guān)鍵點(diǎn)就可能無法準(zhǔn)確識別。然后RefineNet 是專門用來處理“難”的關(guān)鍵點(diǎn)的,它會把 GlobalNet 中所有級別的特征表征和一個難關(guān)鍵點(diǎn)的挖掘損失集成到一起??偟膩碚f,為了解決多人姿態(tài)預(yù)測問題,他們采用了一個逐步細(xì)化的流水線,首先用檢測器生成一組邊界框,框出圖中的人體,然后用級聯(lián)金字塔網(wǎng)絡(luò) CPN在每個人體邊界框中定位關(guān)鍵點(diǎn)。
根據(jù)所提的算法,曠視科技的作者們在COCO的關(guān)鍵點(diǎn)檢測比賽中刷新了最好成績,在COCO test-dev 數(shù)據(jù)集上取得73.0的平均精度,并在COCO test-challenge 數(shù)據(jù)集上取得72.1的平均精度。這一成績比COCO 2016 關(guān)鍵點(diǎn)檢測比賽的最好成績60.5提升了19%之多。
CPN 的部分檢測結(jié)果
MegDet: A Large Mini-Batch Object Detector
· mini-batch很大的物體檢測模型MegDet
· COCO Detection/Segmentation Challenge 第一名
· 論文地址:https://arxiv.org/abs/1711.07240
· 論文簡介:基于CNN的物體檢測研究一直在不斷進(jìn)步,從 R-CNN 到 Fast/Faster R-CNN,到近期的 Mask R-CNN,再到 RetinaNet,主要的改進(jìn)點(diǎn)都在于新的網(wǎng)絡(luò)架構(gòu)、新的范式、或者新的損失函數(shù)設(shè)計。然而mini-batch大小,這個訓(xùn)練中的關(guān)鍵因素并沒有得到完善的研究。在這篇論文中,作者們提出了一個大mini-batch物體檢測模型MegDet,從而可以使用遠(yuǎn)大于以往的mini-batch大小訓(xùn)練網(wǎng)絡(luò)(比如從16增大到256),這樣同時也可以高效地利用多塊GPU聯(lián)合訓(xùn)練(在論文的實驗中最多使用了128塊GPU),大大縮短訓(xùn)練時間。技術(shù)層面上,作者們也了提出了一種學(xué)習(xí)率選擇策略以及跨GPU的batch normalization方法,兩者共同使用就得以大幅度減少大mini-batch物體檢測器的訓(xùn)練時間(例如從33小時減少到僅僅4個小時),同時還可以達(dá)到更高的準(zhǔn)確率。文中所提的MegDet就是提交到COCO2017比賽的mmAP 52.5%成績背后的骨干結(jié)構(gòu),這個成績也拿下了檢測任務(wù)的第一名。
同一個物體檢測網(wǎng)絡(luò)在COCO數(shù)據(jù)集上訓(xùn)練的驗證準(zhǔn)確率,mini-batch數(shù)量為16的運(yùn)行在8塊GPU上,256的運(yùn)行在128塊GPU上。mini-batch更大的檢測器準(zhǔn)確率更高,訓(xùn)練速度也幾乎要快一個數(shù)量級。
“4.6億美元融資”、“姚期智院士加盟”、“人臉識別方案應(yīng)用于多款手機(jī)上”,再加上COCO比賽相關(guān)的技術(shù)成果和比賽成績,僅近期的幾則消息就可以說明曠視科技已經(jīng)走得很大、很穩(wěn)了。相信未來曠視科技研究院將在計算機(jī)視覺領(lǐng)域做出更多的研究成果,在世界范圍內(nèi)取得商業(yè)和學(xué)術(shù)的雙豐收。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 比亞迪在南京成立銷售新公司
- 螞蟻集團(tuán)等入股清微智能,后者為可重構(gòu)計算芯片研發(fā)商
- 百度在天津成立智能云科技公司,含新能源汽車銷售業(yè)務(wù)
- 華為申請時代旗艦商標(biāo)
- 奇瑞汽車申請智界智行商標(biāo)
- 飛書增資至30.7億元,增幅約4285.7%
- 小米汽車登記緊急通話軟件
- 快手在鄭州成立網(wǎng)絡(luò)科技公司
- OpenAI CEO奧爾特曼:預(yù)計第一批AI智能體今年「加入勞動力大軍」
- 哪吒汽車官網(wǎng)“意外”上熱搜,官方回應(yīng):已修復(fù),別慌!
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。