極客網(wǎng)·人工智能9月11日消息,9月8日-14日,備受矚目的2018歐洲計算機視覺大會(ECCV 2018)在德國慕尼黑召開,吸引了全球AI從業(yè)者的眼球。兩年一屆的ECCV與CVPR、ICCV共稱為計算機視覺領(lǐng)域三大頂級學術(shù)會議,每年錄用論文約300篇。根據(jù)ECCV 2018宣布的最終結(jié)果,商湯科技及聯(lián)合實驗室共有37篇論文入選,超過微軟、谷歌、Facebook等科技巨頭。
極客網(wǎng)了解到,商湯科技ECCV 2018錄取論文在以下領(lǐng)域?qū)崿F(xiàn)突破:大規(guī)模人臉與人體識別、物體檢測與跟蹤、自動駕駛場景理解與分析、視頻分析、3D視覺、底層視覺算法、視覺與自然語言的綜合理解等。這些新穎的計算機視覺算法不僅有著豐富的應用場景,使得更多的智能視覺算法能應用于日常生活之中,還為后續(xù)研究提供了可貴的經(jīng)驗和方向。
例如,商湯入選ECCV 2018論文《人臉識別的瓶頸在于數(shù)據(jù)集噪聲(The Devil of Face Recognition is in the Noise)》中,對于現(xiàn)有人臉數(shù)據(jù)集中的標簽噪聲問題進行了深入研究,對MegaFace和MS-Celeb-1M數(shù)據(jù)集中的噪聲特性和來源做了全面的分析,發(fā)現(xiàn)干凈子集對于提高人臉識別精度效果顯著
再如入選論文《量化模仿-訓練面向物體檢測的極小CNN模型(Quantization Mimic: Towards Very Tiny CNN for Object Detection)》,本文提出一種簡單而通用的框架—量化模仿,來訓練面向物體檢測任務的極小CNN模型。作者提出聯(lián)合模仿與量化的方法來減小物體檢測CNN模型的參數(shù)量實現(xiàn)加速。在有限計算量的限制下,該框架在Pascal VOC和WIDER Face數(shù)據(jù)集的物體檢測性能均超越了當前物體檢測的先進水平。
而在幾個月前舉行的CVPR 2018會議上,商湯科技、香港中文大學-商湯科技聯(lián)合實驗室以及其他商湯科技聯(lián)合實驗室共有44篇論文中稿,商湯科技今年累計入選計算機視覺頂會論文數(shù)量達到81篇!
商湯科技聯(lián)合創(chuàng)始人、商湯研究院院長王曉剛表示:商湯始終堅持對原創(chuàng)技術(shù)的極致追求,正是這種精益求精的精神讓商湯在諸多計算機視覺前沿技術(shù)領(lǐng)域上不斷取得新突破,也在行業(yè)應用方面全面落地。本次會議,華人入選ECCV 2018 的論文數(shù)量非常搶眼,近年來華人學者們對原創(chuàng)研究孜孜不倦的堅守,鑄就CV技術(shù)領(lǐng)域的一股新力量。
參加COCO 2018和VOT 2018均奪冠
商湯原創(chuàng)技術(shù)的不斷進步也在重要的比賽中得到驗證。在2018年的COCO比賽中,商湯科技研究員和香港中文大學-商湯聯(lián)合實驗室同學組成的團隊,在最核心的物體檢測(Detection)項目中奪得冠軍。
香港中文大學-商湯聯(lián)合實驗室團隊MMDet
在COCO 2018的Detection項目奪冠
在此次競賽中,商湯團隊創(chuàng)造性地開發(fā)了三項全新的技術(shù),獲得了大幅度的性能提升:
(1)新的多任務混合級聯(lián)架構(gòu)(hybrid cascade)。通過把不同子任務進行逐級混合,這種新架構(gòu)有效地改善了整個檢測過程中的信息流動。
(2)通過特征導引產(chǎn)生稀疏錨點,而不是使用傳統(tǒng)的規(guī)則分布的密集錨點。這種特征導引的方案使得錨點的投放更為精準,平均召回率提升了超過10個百分點。
(3)采用一種新型的FishNet網(wǎng)絡結(jié)構(gòu),它有效地保留和修正多個尺度的信息,能更有效地用于圖像級,區(qū)域級,以及像素級預測任務。
在test-dev上,商湯團隊對上述框架進行了全面測試,其中單模型和多模型(最終提交的結(jié)果來自于五個模型混合的框架)的mask AP分別達到了47.4% 和49.0%,比去年冠軍(也是商湯團隊獲得)的結(jié)果,44.0% 和 46.3%,有約3個百分點的明顯提高。 在傳統(tǒng)的基于檢測框的指標bbox AP上,這個新的框架也分別達到了單模型54.1%和多模型的56.0%的性能,比去年冠軍的結(jié)果,50.5%和52.6%,也有較大的提升。
值得一提的是,為了推動視覺檢測技術(shù)的進一步發(fā)展,在ECCV期間,香港中文大學-商湯聯(lián)合實驗室還開源了檢測庫mm-detection(https://github.com/open-mmlab/mmdetection)。這個開源庫提供了已公開發(fā)表的多種視覺檢測核心模塊。通過這些模塊的組合,可以迅速搭建出各種著名的檢測框架,比如Faster RCNN,Mask RCNN,和R-FCN等,以及各種新型框架,從而大大加快檢測技術(shù)研究的效率。
此外,商湯科技團隊還參加了視覺目標跟蹤大賽VOT Challenge,并在實時跟蹤項目獲得第一名,這一成績體現(xiàn)了商湯在視覺目標跟蹤技術(shù)的新突破。
VOT Challenge是視覺目標跟蹤領(lǐng)域一年一度的國際權(quán)威比賽,其為跟蹤領(lǐng)域提供了精細的數(shù)據(jù)標注和評測方式,并在2017年引入了實時比賽:被評測算法在跟蹤物體的同時必須保持至少60fps跟蹤速率,來模擬現(xiàn)實場景中的跟蹤情況。
今年的VOT 2018在ECCV 2018期間舉辦,共有72只隊伍參賽,包括微軟亞洲研究院、牛津大學等知名企業(yè)與高校。商湯科技的參賽算法能夠在60FPS的速率下獲得精確的跟蹤結(jié)果,并且在其他兩項項目(普通跟蹤和長時跟蹤)也獲得了驕人的成績。
舉辦新型大賽 推動人工智能行業(yè)發(fā)展
商湯不止于在頂級計算機視覺大賽上獲得好成績,還致力舉辦行業(yè)大賽,制定行業(yè)標準,推動人工智能行業(yè)發(fā)展。
今年8月,商湯科技攜手香港中文大學、亞馬遜、南洋理工大學、悉尼大學聯(lián)合舉辦的首屆WIDER Face and Pedestrian Challenge 2018(簡稱:WIDER Challenge)挑戰(zhàn)賽獲得圓滿成功。作為一項全新的全球頂級計算機視覺競賽,共吸引來自世界各國超過400支隊伍報名。
商湯作為主辦方制定了全新標準數(shù)據(jù)集——WIDER Face人臉檢測數(shù)據(jù)集、WIDER Pedestrian專門用于行人檢測的大規(guī)模數(shù)據(jù)集和WIDER Person Search人物檢索數(shù)據(jù)集,促進高性能算法涌現(xiàn)。
WIDER Workshop現(xiàn)場
參賽隊伍既有中科院計算所、微軟亞洲研究院、北京大學、上海交通大學、中國科學院大學、中國科學技術(shù)大學、NtechLab、卡耐基梅隆大學、香港大學、香港理工大學全球頂尖學府和研究機構(gòu),也有雅虎、京東、曠視、科大訊飛、滴滴等科技公司。
未來,商湯將繼續(xù)賦能AI創(chuàng)新大賽,加速推進以人工智能為核心的創(chuàng)新技術(shù),帶動行業(yè)應用和產(chǎn)業(yè)融合的持續(xù)深入。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )