近日,騰訊優(yōu)圖實(shí)驗(yàn)室在CVPR 2023(IEEE國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議)中斬獲了視覺(jué)異常檢測(cè)(Visual Anomaly and Novelty Detection,VAND)挑戰(zhàn)賽的冠軍,這一榮譽(yù)標(biāo)志著騰訊優(yōu)圖在工業(yè)人工智能領(lǐng)域的技術(shù)實(shí)力和創(chuàng)新能力得到了權(quán)威機(jī)構(gòu)的認(rèn)可。
無(wú)監(jiān)督圖像異常檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究方向,其目標(biāo)是通過(guò)僅使用正常圖像進(jìn)行模型訓(xùn)練,在測(cè)試時(shí)能夠準(zhǔn)確地區(qū)分正常和異常圖像。在工業(yè)外觀質(zhì)檢、產(chǎn)品零件安裝檢測(cè)和智能安全視頻等領(lǐng)域,無(wú)監(jiān)督異常檢測(cè)技術(shù)具有巨大的研究意義和應(yīng)用價(jià)值。工業(yè)領(lǐng)域?qū)τ谝曈X(jué)異常檢測(cè)的需求日益增長(zhǎng)。在工業(yè)生產(chǎn)過(guò)程中,異常情況可能導(dǎo)致質(zhì)量問(wèn)題、安全隱患甚至設(shè)備故障。傳統(tǒng)的異常檢測(cè)方法往往需要人工參與,效率低下且易受主觀因素影響。而基于人工智能的視覺(jué)異常檢測(cè)技術(shù)能夠通過(guò)高效的自動(dòng)化方式,快速識(shí)別和定位異常情況,從而提高生產(chǎn)效率和產(chǎn)品質(zhì)量。
技術(shù)解析:
騰訊優(yōu)圖實(shí)驗(yàn)室與浙江大學(xué)合作,在Zero-shot異常檢測(cè)賽道中提出了創(chuàng)新的解決方案。通過(guò)結(jié)合文本提示和圖像特征對(duì)比的方法,該方案在測(cè)試集上取得了優(yōu)異的成績(jī),綜合F1-max指標(biāo)達(dá)到0.4589,超越了其他參賽隊(duì)伍。這意味著提出的模型能夠在未見(jiàn)過(guò)異常樣本的情況下,準(zhǔn)確地識(shí)別和分割異常圖像。以下可分為三點(diǎn);
(一)異常分類(lèi)
基于WinCLIP[3]異常分類(lèi)框架,我們提出了一種文本提示集成策略,在不使用復(fù)雜的多尺度窗口策略的基礎(chǔ)上顯著提升了Baseline的異常分類(lèi)精度。具體地,該集成策略包含template-level和state-level兩部分:
1) 對(duì)于前者,我們從CLIP Surgery[4]中選定的85個(gè)模板提示中刪掉了一些不適合AD任務(wù)的模板,如“a photo of the weird [obj.]“,最終篩選35個(gè)模板提示。
2) 對(duì)于后者,我們采用通用文本來(lái)描述正常/異常對(duì)象,如“flawless,damaged“等,而沒(méi)有提供過(guò)于詳細(xì)的描述以保證方法的普適性,如”chip around edge and corner“。最終使用7個(gè)正常提示和5個(gè)異常提示。
模板和狀態(tài)提示與樣本類(lèi)別名稱(chēng)結(jié)合后,使用CLIP文本編碼器提取文本特征,并對(duì)正常和異常特征分別求平均值。最終,將正常與異常特征各自的平均值與圖像特征進(jìn)行對(duì)比,經(jīng)過(guò)softmax后得到異常類(lèi)別概率作為分類(lèi)得分,見(jiàn)下圖中藍(lán)色Zero-shot Anomaly Score流程。
自研Zero-shot/Few-shot異常檢測(cè)統(tǒng)一框架
(二)異常分割
類(lèi)比圖像級(jí)別的異常分類(lèi)方法到異常分割,一個(gè)自然而然的想法是將Backbone提取到的不同層級(jí)特征與文本特征進(jìn)行相似度度量。然而,CLIP模型是基于分類(lèi)的方案進(jìn)行設(shè)計(jì)的,即除了用于分類(lèi)的抽象圖像特征外,沒(méi)有將其它圖像特征映射到統(tǒng)一的圖像/文本空間。因此我們提出了一個(gè)簡(jiǎn)單但有效的方案來(lái)解決這個(gè)問(wèn)題:使用額外的線性層將不同層級(jí)的圖像特征映射到圖像/文本聯(lián)合嵌入空間中,見(jiàn)上圖中藍(lán)色Zero-shot Anomaly Map流程。具體地,不同層級(jí)的特征分別經(jīng)由一個(gè)線性層進(jìn)行聯(lián)合嵌入特征空間變換,將得到的變換后的特征與文本特征進(jìn)行對(duì)比,得到不同層級(jí)的異常圖。最后,將不同層級(jí)的異常圖簡(jiǎn)單加和求得最終結(jié)果,具體實(shí)現(xiàn)可參考技術(shù)報(bào)告和源代碼。官方的測(cè)試數(shù)據(jù)集上提出的方法在綜合F1-max指標(biāo)上達(dá)到0.4589,相較于其他眾多參賽隊(duì)伍具有明顯的優(yōu)勢(shì),獲得了該賽道冠軍,證明了所提方法的優(yōu)越性和泛化性。
(三) Few-shot擴(kuò)展
得益于簡(jiǎn)單的結(jié)構(gòu),我們結(jié)合基于memory的PatchCore[5]思路將方法擴(kuò)展到Few-shot賽道,在不進(jìn)行任何調(diào)參的基礎(chǔ)上獲得了積極競(jìng)爭(zhēng)的結(jié)果,獲得了該賽道榮譽(yù)提名獎(jiǎng),我們會(huì)在后續(xù)工作中進(jìn)一步探究該方法在Few-shot上的應(yīng)用潛力與價(jià)值。
該解決方案不僅在Zero-shot異常檢測(cè)賽道表現(xiàn)出色,騰訊優(yōu)圖實(shí)驗(yàn)室還將其擴(kuò)展到Few-shot異常檢測(cè)賽道,并獲得了該賽道的榮譽(yù)提名獎(jiǎng)。在Few-shot異常檢測(cè)賽道中,該方案在異常檢測(cè)準(zhǔn)確率方面表現(xiàn)優(yōu)異,展現(xiàn)出出色的適應(yīng)能力和泛化能力。
騰訊優(yōu)圖實(shí)驗(yàn)室在工業(yè)人工智能領(lǐng)域的相關(guān)成就,為工業(yè)質(zhì)檢、產(chǎn)品安全和智能視頻等領(lǐng)域的發(fā)展提供了新的可能性。未來(lái),騰訊優(yōu)圖將繼續(xù)致力于推動(dòng)計(jì)算機(jī)視覺(jué)和人工智能技術(shù)的創(chuàng)新,為工業(yè)應(yīng)用帶來(lái)更多突破和進(jìn)步,為各行業(yè)提供更智能、高效的解決方案。
關(guān)于CVPR
CVPR是由IEEE主辦的一年一度的全球?qū)W術(shù)型頂級(jí)會(huì)議,全稱(chēng)“IEEE國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議”(IEEE Conference on Computer Vision and Pattern Recognition),今年將于6月18日到22日在溫哥華會(huì)議中心舉辦。
關(guān)于騰訊優(yōu)圖實(shí)驗(yàn)室
騰訊優(yōu)圖實(shí)驗(yàn)室成立于2012年,是騰訊公司旗下頂級(jí)人工智能實(shí)驗(yàn)室。優(yōu)圖聚焦計(jì)算機(jī)視覺(jué),專(zhuān)注人臉識(shí)別、圖像識(shí)別、OCR等領(lǐng)域開(kāi)展技術(shù)研發(fā)和行業(yè)落地,在推動(dòng)產(chǎn)業(yè)數(shù)字化升級(jí)過(guò)程中,優(yōu)圖始終專(zhuān)注基礎(chǔ)研究、產(chǎn)業(yè)落地兩條腿走路的發(fā)展戰(zhàn)略,與騰訊云與智慧產(chǎn)業(yè)深度融合,挖掘客戶痛點(diǎn),切實(shí)為行業(yè)降本增效。與此同時(shí),優(yōu)圖關(guān)注科技的社會(huì)價(jià)值,踐行科技向善理念,致力于通過(guò)視覺(jué)AI技術(shù)解決社會(huì)問(wèn)題,幫助弱勢(shì)群體。
騰訊優(yōu)圖實(shí)驗(yàn)室的研究成果已被CVPR 2023 VAND研討會(huì)收錄。將于6月18日的11:50 AM - 12:00 PM進(jìn)行相關(guān)Talk和QA可以點(diǎn)擊閱讀原文了解詳情。
閱文原文鏈接:(https://sites.google.com/view/vand-cvpr23/schedule )。
參考文獻(xiàn)
[1] Radford, Alec, et al. "Learning transferable visual models from natural language supervision."International conference on machine learning. PMLR, 2021.
[2] Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale."arXiv preprint arXiv:2010.11929(2020).
[3] Jeong, Jongheon, et al. "Winclip: Zero-/few-shot anomaly classification and segmentation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
[4] Li, Yi, et al. "Clip surgery for better explainability with enhancement in open-vocabulary tasks."arXiv preprint arXiv:2304.05653(2023).
[5] Roth, Karsten, et al. "Towards total recall in industrial anomaly detection."Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )