近日,京東AI研究院計(jì)算機(jī)視覺(jué)與多媒體實(shí)驗(yàn)室提出人臉檢測(cè)算法“Improved Selective Refinement Network(ISRN)”,在業(yè)界頂級(jí)人臉檢測(cè)榜單“WIDER FACE”中的“Easy”、“Medium”和“Hard”三項(xiàng)評(píng)測(cè)集中,以96.3%AP,95.4%AP,90.3%AP的優(yōu)異性能全部獲得排名第一的佳績(jī),在行業(yè)研究平臺(tái)上展現(xiàn)出京東AI研究院出色的人臉檢測(cè)實(shí)力。
圖1 WIDER FACE數(shù)據(jù)集中不同難度的圖片樣例(圖片來(lái)自于WIDERFACE官網(wǎng))
“WIDER FACE”由香港中文大學(xué)舉辦,是目前人臉研究領(lǐng)域中規(guī)模最大、檢測(cè)難度最高的公開(kāi)人臉檢測(cè)數(shù)據(jù)集之一。數(shù)據(jù)集涵蓋32203張圖片與393703張人臉標(biāo)注,應(yīng)用極端人臉尺寸變化、拍照角度引起的人臉姿態(tài)變化、不同程度的人臉遮擋、表情變化、光照強(qiáng)弱差異以及化妝等多種影響因素,極大地增加了圖像人臉檢測(cè)的難度。
圖2."WIDER FACE"人臉評(píng)測(cè)集數(shù)據(jù)樣例,從上至下三行分別對(duì)應(yīng)Easy, Medium, Hard三項(xiàng)難度不同的評(píng)測(cè)
正是基于這種極具挑戰(zhàn)性的檢測(cè)難度、精細(xì)化的評(píng)測(cè)標(biāo)準(zhǔn),“WIDER FACE”吸引了眾多國(guó)內(nèi)外眾多高校和企業(yè)實(shí)驗(yàn)室(包括卡耐基梅隆大學(xué)、加州大學(xué)圣地亞哥分校、浙大、北航、曠視科技、騰訊優(yōu)圖、百度、華為云、滴滴AI、IBM沃森研究院等)參與研究和提升人臉檢測(cè)算法的準(zhǔn)確性和魯棒性。
京東AI研究院能夠在“WIDER FACE”人臉檢測(cè)數(shù)據(jù)集評(píng)測(cè)的“Easy”、“Medium”和“Hard”三項(xiàng)評(píng)測(cè)集中,以96.3% AP,95.4% AP,90.3% AP的優(yōu)異性能全部排名第一,核心在于京東AI研究院計(jì)算機(jī)視覺(jué)與多媒體實(shí)驗(yàn)室對(duì)“WIDER FACE”數(shù)據(jù)集中圖片內(nèi)容人臉區(qū)域較小,難以檢測(cè)問(wèn)題的處理。
圖3. 京東AI研究院提出的ISRN在“WIDER FACE”的Easy,Medium,Hard三項(xiàng)評(píng)測(cè)均取得目前業(yè)界最佳性能(結(jié)果來(lái)自WIDER FACE官方網(wǎng)站[2])
在這個(gè)方面,京東AI研究院計(jì)算機(jī)視覺(jué)與多媒體實(shí)驗(yàn)室的人臉?biāo)惴ńM對(duì)現(xiàn)有的的SelectiveRefinement Nerwork (SRN) 模型進(jìn)行了優(yōu)化改進(jìn):
利用隨機(jī)初始化嘗試大量網(wǎng)絡(luò)結(jié)構(gòu)
結(jié)合Group Normalization實(shí)現(xiàn)隨機(jī)初始化訓(xùn)練,使人臉檢測(cè)算法“Improved Selective Refinement Network(ISRN)”不使用傳統(tǒng)的ImageNet預(yù)訓(xùn)練模型就可以達(dá)到較好的結(jié)果。
改用MS COCO數(shù)據(jù)集做預(yù)訓(xùn)練
MS COCO數(shù)據(jù)集中有較多屬于“人類(lèi)”類(lèi)別的圖片,而且檢測(cè)目標(biāo)尺度變化較大,小物體較多,相對(duì)于ImageNet更適合于WIDERFACE的人臉檢測(cè)。
重新設(shè)計(jì)殘差網(wǎng)絡(luò)的輸入模塊
針對(duì)WIDERFACE數(shù)據(jù)集中的極小人臉,重新設(shè)計(jì)殘差網(wǎng)絡(luò)的輸入模塊,取消對(duì)原始圖片的下采樣操作,最大程度保留人臉的位置信息。然后第一個(gè)多通道數(shù)的卷積層進(jìn)行拆分,來(lái)盡可能少地增加計(jì)算量與顯存的情況:
提升小目標(biāo)人臉的檢測(cè)性能
利用FPN多層特征融合豐富檢測(cè)特征的語(yǔ)義信息,結(jié)合STC(SelectiveTwo-step Classification,在淺層特征的第二階段過(guò)濾掉低分?jǐn)?shù)的樣本)與STR (Selective Two-step Regression,在深層特征的第二階段重新調(diào)整樣本)兩階段分類(lèi)回歸方法來(lái)增強(qiáng)模型的魯棒性,降低模型的誤檢率,提升對(duì)小目標(biāo)人臉的檢測(cè)性能。
京東AI研究院計(jì)算機(jī)視覺(jué)與多媒體實(shí)驗(yàn)室一直致力于人臉識(shí)別、人臉檢測(cè)、人臉關(guān)鍵點(diǎn)檢測(cè)、人臉?lè)纻?、人臉屬性識(shí)別與模型壓縮等計(jì)算機(jī)視覺(jué)領(lǐng)域的技術(shù)研究,并有豐富的算法、產(chǎn)品方面的經(jīng)驗(yàn)積累。
學(xué)術(shù)上,京東AI研究院2018年已經(jīng)在國(guó)際級(jí)學(xué)術(shù)頂會(huì)中發(fā)布了10余篇計(jì)算機(jī)視覺(jué)方向研究論文,并在計(jì)算機(jī)視覺(jué)國(guó)際頂會(huì)CVPR 2018 “Look Into Person” 國(guó)際競(jìng)賽單人和多人人體姿態(tài)估計(jì)兩個(gè)競(jìng)賽單元排名第一;在計(jì)算機(jī)視覺(jué)國(guó)際頂會(huì)ECCV 2018 視覺(jué)領(lǐng)域遷移學(xué)習(xí)挑戰(zhàn)賽的開(kāi)放式圖像分類(lèi)(openset classification)和物體檢測(cè)(detection)兩個(gè)任務(wù)場(chǎng)景中均以大比分優(yōu)勢(shì)排名第一。
圖4. 照片攝于2014年,是當(dāng)時(shí)世界上人數(shù)最多的自拍合影,JDAI-FD檢測(cè)到其中902張人臉,目前業(yè)內(nèi)最佳
應(yīng)用落地方面,京東AI研究院的人臉檢測(cè)與識(shí)別技術(shù)已經(jīng)廣泛應(yīng)用到京東-德清智能門(mén)店、京東7Fresh線下商超的實(shí)體零售場(chǎng)景之中,在京東與德清聯(lián)合打造的多模態(tài)交互政務(wù)機(jī)器人——城市綜合服務(wù)機(jī)器人和同馮氏集團(tuán)聯(lián)合打造的智能商業(yè)顯示屏中,京東AI研究院先進(jìn)的人臉檢測(cè)與識(shí)別技術(shù)也體現(xiàn)出巨大價(jià)值。目前京東AI研究院的人臉檢測(cè)與識(shí)別技術(shù)已形成成熟的技術(shù)解決方案,通過(guò)京東NeuHub人工智能平臺(tái)對(duì)外合作,助力傳統(tǒng)制造業(yè)、實(shí)體零售行業(yè)等多維領(lǐng)域轉(zhuǎn)型升級(jí)。
圖5 京東人臉檢測(cè)技術(shù)在京東實(shí)體零售等場(chǎng)景中的應(yīng)用
京東集團(tuán)副總裁,AI平臺(tái)與研究部負(fù)責(zé)人周伯文博士表示:“京東一直致力于用最先進(jìn)的人工智能技術(shù)做最落地的人工智能應(yīng)用?!贝舜尉〇|AI研究院提出的人臉檢測(cè)算法“Improved Selective Refinement Network(ISRN)”,在業(yè)界頂級(jí)人臉檢測(cè)榜單“WIDER FACE”中的“Easy”、“Medium”和“Hard”三項(xiàng)評(píng)測(cè)集中,以96.3%AP,95.4%AP,90.3%AP的優(yōu)異性能全部獲得排名第一的佳績(jī),體現(xiàn)了京東AI在人臉檢測(cè)領(lǐng)域的領(lǐng)先水平,未來(lái)京東將通過(guò)人工智能技術(shù)的持續(xù)深耕,將持續(xù)應(yīng)用人工智能技術(shù)助力行業(yè)升級(jí),引領(lǐng)美好生活,釋放社會(huì)價(jià)值。
京東AI研究院計(jì)算機(jī)視覺(jué)與多媒體實(shí)驗(yàn)室還將在國(guó)際多媒體頂級(jí)學(xué)術(shù)會(huì)議IEEE ICME2019上,舉行人臉關(guān)鍵點(diǎn)競(jìng)賽“Grand Challenge of 106-p Facial Landmark Localization”,歡迎相關(guān)領(lǐng)域的學(xué)生、研究人員的參與。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )