深度學(xué)習(xí)的成功建立在大量的干凈數(shù)據(jù)和深度模型基礎(chǔ)上,但是在現(xiàn)實(shí)場(chǎng)景中數(shù)據(jù)和模型往往不會(huì)特別理想,比如數(shù)據(jù)里存在很多標(biāo)簽噪音,或者考慮到模型的推理速度,神經(jīng)網(wǎng)絡(luò)的層數(shù)不夠深等。特別是對(duì)于業(yè)務(wù)場(chǎng)景,數(shù)據(jù)往往存在很多缺陷,因此讓模型能夠自適應(yīng)的從缺陷數(shù)據(jù)里學(xué)習(xí)是業(yè)務(wù)成功的保障。
近幾年,騰訊優(yōu)圖不斷迭代數(shù)據(jù)和模型缺陷情況下神經(jīng)網(wǎng)絡(luò)的有效訓(xùn)練方法,相關(guān)技術(shù)已經(jīng)在眾多業(yè)務(wù)場(chǎng)景上(行人重識(shí)別,內(nèi)容審核等)落地。本文是騰訊優(yōu)圖實(shí)驗(yàn)室高級(jí)研究員Louis,在騰訊優(yōu)圖和騰訊云大學(xué)、AICUG、AI科技評(píng)論聯(lián)合主辦的「優(yōu)Tech沙龍」的分享整理。
定義帶噪學(xué)習(xí)目標(biāo)
現(xiàn)實(shí)數(shù)據(jù)中存在的標(biāo)簽噪音(label noise)根據(jù)Feature可以分成兩種:Feature independent noise和 Feature dependent noise。Feature independent noise是與特征無(wú)關(guān)的,比如將一只狗的圖片誤標(biāo)記成汽車(chē),狗和汽車(chē)沒(méi)有什么相似特征,所以屬于這類(lèi)。Feature independent noise是與特征有關(guān)的,比如說(shuō)狗和狼具有很多相似特征屬性,標(biāo)注人員可能把狗誤標(biāo)記成狼,那就屬于這類(lèi)。其實(shí)現(xiàn)實(shí)場(chǎng)景更多存在都是feature dependent noise。
噪音普遍存在,所以我們需要訓(xùn)練神經(jīng)網(wǎng)絡(luò)進(jìn)行帶噪學(xué)習(xí),并且要能實(shí)現(xiàn)比較好的性能。那么noise label learning的目標(biāo)是,loss function,使得在noisy labels下訓(xùn)練得到的解,在性能上接近在clean labels下訓(xùn)練得到的解。
各有千秋:主要帶噪學(xué)習(xí)方法分析
關(guān)于帶噪學(xué)習(xí),近些年有一些重要論文。AAAI 2017年發(fā)表的這篇研究(Robust Loss Functions under Label Noise for Deep Neural Networks, AAAI2017)說(shuō)明,MAE以均等分配的方式處理各個(gè)sample,而CE(cross entropy)會(huì)向識(shí)別困難的sample傾斜。因此,針對(duì)noisy labels,MAE比CE更加魯棒,不容易讓模型過(guò)擬合到label noise上。
當(dāng)然,CE也有自身優(yōu)勢(shì)。2018年的這篇文章(Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels, NeurlPS 2018)是接著前面一篇文章往下做的。這篇文章指出,MAE雖然比CE在noisy label更加魯棒,但是CE的準(zhǔn)確度更高,擬合也更快。
那么,如何結(jié)合CE和MAE的優(yōu)勢(shì)呢?這篇文章(Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels, NeurlPS 2018 )提出這樣一個(gè)loss function,也就叫做GCE loss(Generalized Cross Entropy loss)。它如何結(jié)合二者的優(yōu)勢(shì)?這里q是一個(gè)0到1之間的超參數(shù),當(dāng)q趨近于0的時(shí)候,這個(gè)Lq就退化成了一個(gè)CE loss,當(dāng) q趨近于1時(shí),Lq就退化成了MAE loss。所以在真實(shí)場(chǎng)景中,只要對(duì)q進(jìn)行調(diào)整,就會(huì)讓這個(gè)loss在一些noise label數(shù)據(jù)下有很好的表現(xiàn)。
還有的論文是基于信息論設(shè)計(jì)的loss function,Deterministic information loss。它的Motivation是想尋找一個(gè)信息測(cè)度(information measure)I。假設(shè)在I下任意存在兩個(gè)分類(lèi)器f、f’,如果在噪音數(shù)據(jù)集下,通過(guò)I, f比f(wàn)’表現(xiàn)得更好,那么在干凈數(shù)據(jù)集下,f比f(wàn)’表現(xiàn)得也好,也就是說(shuō)它在噪音數(shù)據(jù)集和干凈數(shù)據(jù)集上滿(mǎn)足一致性。如果在噪音數(shù)據(jù)集下它表現(xiàn)得好,那通過(guò)這個(gè)一致性,那么在干凈數(shù)據(jù)集下表現(xiàn)得也一定很好。
把時(shí)間往前推進(jìn)一下,講一些目前正在審稿中的文章,關(guān)于Peer loss。我們構(gòu)造的時(shí)候它等于兩個(gè)loss的加權(quán),α是權(quán)重系數(shù),衡量l1和l2的大小關(guān)系,Xi和Y ?是樣本和對(duì)應(yīng)的label。
為什么peer loss可以很好地解決noisy labels問(wèn)題?為了方便,這里先把l1、l2都定義成CE loss,那么在第一項(xiàng),它表現(xiàn)的像positive learning,因?yàn)樗褪且粋€(gè)傳統(tǒng)的CE function,而在第二項(xiàng),它像 negative learning,也就是在標(biāo)記錯(cuò)的時(shí)候,比如把狗標(biāo)成汽車(chē),如果用positive learning進(jìn)行學(xué)習(xí)的話(huà)那就出現(xiàn)問(wèn)題了,它是隨機(jī)從一個(gè)label中進(jìn)行抽取,希望讓模型學(xué)到它不是一個(gè)鳥(niǎo),狗不是一個(gè)鳥(niǎo),它的語(yǔ)義關(guān)系首先是成立的,是正確的,這樣一來(lái),第二項(xiàng)對(duì)模型也能起到一個(gè)積極的導(dǎo)向作用。
更加有意思的是,單獨(dú)訓(xùn)練第一項(xiàng)和單獨(dú)訓(xùn)練第二項(xiàng)都不可能使模型達(dá)到理論上的最優(yōu),因?yàn)槟P痛嬖趎oisy labels。但是我們證明了它們兩項(xiàng)聯(lián)合訓(xùn)練,在統(tǒng)計(jì)上是可以讓模型達(dá)到最優(yōu)。
我們提出了一個(gè)主要定理,α是權(quán)重項(xiàng),我們證明了存在一個(gè)最優(yōu)的α,用peer loss在noisy labels下進(jìn)行優(yōu)化,它得出的神經(jīng)網(wǎng)絡(luò)的解等價(jià)于用l1在clean labels下進(jìn)行優(yōu)化,可以把l1理解成CE loss。所以我們理論證明了peer loss的最優(yōu)性。
看一下peer loss在數(shù)據(jù)集下的表現(xiàn),這里使用的數(shù)據(jù)集是CIFAR-10,然后我們讓CIFAR-10數(shù)據(jù)集里面有40%的uniform noise或者說(shuō)symmetric noise。圖中的藍(lán)色代表clean label分布,橘黃色代表noisy label分布。通過(guò)peer loss優(yōu)化后,神經(jīng)網(wǎng)絡(luò)可以把兩類(lèi)比較完美地區(qū)分開(kāi),而且中間間隔很大,所以說(shuō)證明了peer loss不僅在理論上成立,在實(shí)際上其實(shí)效果也不錯(cuò)。
再看一下數(shù)值的實(shí)驗(yàn)結(jié)果。我們?cè)贛NIST、Fashion MNIST、CIFAR-10上進(jìn)行了實(shí)驗(yàn),可以看到MNIST和Fashion MNIST上,用peer loss優(yōu)化的結(jié)果超過(guò)了一些其他的結(jié)果,包括DMI的結(jié)果三四十個(gè)點(diǎn),這是非常大的進(jìn)步。在CIFAR-10上也超過(guò)將近5個(gè)點(diǎn),四個(gè)多點(diǎn)左右這樣的一個(gè)結(jié)果。而且,我們發(fā)現(xiàn)peer loss尤其對(duì)Sparse,High這種noise type表現(xiàn)得特別明顯。
以上講的方法主要是設(shè)計(jì)loss function的思路,讓網(wǎng)絡(luò)能夠抵抗noisy labels。但其實(shí)還有很多其他方法,比如samples selection和label correction,這兩個(gè)方法是通過(guò)選擇樣本和對(duì)樣本進(jìn)行糾正來(lái)進(jìn)行帶噪學(xué)習(xí)訓(xùn)練。
這篇發(fā)表在2018年NeurlPS的文章(Co-teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels, NeurlPS 2018)是關(guān)于Co-teaching。它的基本假設(shè)是認(rèn)為noisy labels的loss要比clean labels的要大,于是它并行地訓(xùn)練了兩個(gè)神經(jīng)網(wǎng)絡(luò)A和B,在每一個(gè)Mini-batch訓(xùn)練的過(guò)程中,每一個(gè)神經(jīng)網(wǎng)絡(luò)把它認(rèn)為loss比較小的樣本,送給它其另外一個(gè)網(wǎng)絡(luò),這樣不斷進(jìn)行迭代訓(xùn)練。
接下來(lái)介紹騰訊優(yōu)圖在2019年底發(fā)表的一篇文章,解決一類(lèi)特殊的label noise。這類(lèi)label noise不是人為標(biāo)注產(chǎn)生的,而是在訓(xùn)練中產(chǎn)生的。比如說(shuō)有這樣一批沒(méi)有標(biāo)記的樣本,然后通過(guò)一個(gè)聚類(lèi)算法得到inliers和outliers,outliers是聚類(lèi)算法中認(rèn)為這一點(diǎn)是孤立點(diǎn)或者是噪音點(diǎn),它沒(méi)法歸到聚類(lèi)算法的ID里面,就叫做outliers,inliers是聚類(lèi)算法對(duì)這些樣本進(jìn)行聚類(lèi)后得到一個(gè)個(gè)id,但每一個(gè)id里面可能存在noise,比如說(shuō)對(duì)于id1里面有一個(gè)三角,這個(gè)三角更應(yīng)該是id3里面的樣本。它是在模型的聚類(lèi)過(guò)程中產(chǎn)生,所以說(shuō)這是一類(lèi)特殊的noise type。
騰訊優(yōu)圖提出了一個(gè)框架,叫Asymmetric Co-teaching。因?yàn)榫垲?lèi)中存在inlier和outliers,這兩個(gè)不同源,所以用非對(duì)稱(chēng)的思想去解決noise label的問(wèn)題。
具體來(lái)說(shuō),首先有很多 Target Data,經(jīng)過(guò)模型聚類(lèi)得到Inliers和Outliers。然后通過(guò)k近鄰將outiers進(jìn)行l(wèi)abel。下面一步是比較關(guān)鍵的,和Co-teaching一樣,我們也并行訓(xùn)練兩個(gè)神經(jīng)網(wǎng)絡(luò)C和M,但是我們往C和M送到的樣本是非同源的,一個(gè)Inlier一個(gè)outliers。然后C和M互相發(fā)送他們認(rèn)為loss比較小的樣本進(jìn)行迭代訓(xùn)練。每次訓(xùn)練之后,再進(jìn)行聚類(lèi)。不斷重復(fù)這種迭代過(guò)程,最后我們發(fā)現(xiàn)outliers越來(lái)越少,Inlier也是越來(lái)越多,Inlier每個(gè)ID的noise也是越來(lái)越少。
可以看一下Asymmetric Co-teaching的結(jié)果,我們主要是在行人重識(shí)別這個(gè)問(wèn)題上衡量方法的有效性,也就是ReID??梢钥次覀冞@個(gè)clustering-based的方法在Market和Duke數(shù)據(jù)集中有不錯(cuò)的表現(xiàn),比之前的一些方法也多了五六個(gè)點(diǎn)。
總結(jié)一下,關(guān)于noisy label learning前面主要介紹了六個(gè)方法,我把它們歸為了Feature independent noise和Feature dependent noise。但是值得注意的是,并不是一個(gè)方法去解決Feature independent noise就無(wú)法解決Feature dependent noise,只是說(shuō)一個(gè)方法它更適用于解決哪個(gè)問(wèn)題,然后標(biāo)線(xiàn)框的這兩個(gè)是我們的工作。
多模型協(xié)作,提升網(wǎng)絡(luò)表達(dá)能力
關(guān)于協(xié)作學(xué)習(xí)其實(shí)學(xué)術(shù)界沒(méi)有統(tǒng)一的定義,一般來(lái)講只要是多個(gè)模型互相協(xié)作,去解決一個(gè)或者多個(gè)任務(wù),那就可以把這種學(xué)習(xí)范式叫做協(xié)作學(xué)習(xí)。
按照任務(wù)分,協(xié)作學(xué)習(xí)可以分成兩個(gè):一個(gè)是解決多個(gè)任務(wù),有dual learning和cooperative learning;一個(gè)是多個(gè)模型一起協(xié)作解決一個(gè)任務(wù)。因?yàn)閐ual learning和cooperative learning主要是解決自然語(yǔ)言處理的問(wèn)題,自然語(yǔ)言處理涉及到比如說(shuō)中文翻譯成英文,英文翻譯成中文,這是多個(gè)任務(wù)。我們這里主要是講CV方面,所以說(shuō)我們主要講解決一個(gè)任務(wù),接下來(lái)會(huì)介紹co-training、deep mutual learning、filter grafting和DGD這幾個(gè)工作。
關(guān)于 Co-training的這篇文章(Combining labeled and unlabeled data with co-training, ACM 1998)非常古老,是1998年的,但是它的引用量已經(jīng)好幾千,它其實(shí)是解決了半監(jiān)督的問(wèn)題。
接下來(lái)介紹2018年的這篇文章,發(fā)表在CVPR,這篇叫做deep mutual learning。它的思想極其簡(jiǎn)單,我們都知道蒸餾的時(shí)候teacher是fixed,然后對(duì)于學(xué)生進(jìn)行監(jiān)督,這篇文章的思想就是在蒸餾的過(guò)程中老師并不保持fixed,也進(jìn)行迭代的訓(xùn)練操作,也就是說(shuō)老師教學(xué)生,學(xué)生也教老師。
時(shí)間再拉近一點(diǎn),這是今年騰訊優(yōu)圖中稿CVPR2020年的一篇文章,叫做Filter Grafting。這篇文章的motivation是什么呢?我們知道訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)存在很多冗余或者說(shuō)無(wú)效的filter,比如說(shuō)l1 norm很低,那Pruning就是想把這些filter給移除掉來(lái)加速網(wǎng)絡(luò)的推理能力。那么我們想,如果我們不把這些無(wú)效的filter移除掉,而是通過(guò)其他網(wǎng)絡(luò)的幫助來(lái)激活這些無(wú)效的filter,讓它們重新變得有價(jià)值起來(lái),那是不是可以進(jìn)一步提高網(wǎng)絡(luò)的表達(dá)能力?
這篇文章有一個(gè)重要的發(fā)現(xiàn)是什么呢?我們發(fā)現(xiàn)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)如果在初始化的時(shí)候都采用隨機(jī)初始化,那么在訓(xùn)練完之后,無(wú)效filter的位置是統(tǒng)計(jì)無(wú)關(guān)的。所以我們可以并行訓(xùn)練多個(gè)網(wǎng)絡(luò),在訓(xùn)練的過(guò)程中,每個(gè)網(wǎng)絡(luò)接受上一個(gè)網(wǎng)絡(luò)的部分weight (我們將這種方式叫做grafting),因?yàn)槊總€(gè)網(wǎng)絡(luò)無(wú)效filter的位置是統(tǒng)計(jì)無(wú)關(guān)的。所以其他網(wǎng)絡(luò)有效filter的weight可以填補(bǔ)到自己網(wǎng)絡(luò)里的無(wú)效filter當(dāng)中。多個(gè)網(wǎng)絡(luò)之間互相進(jìn)行這種操作,結(jié)束訓(xùn)練之后每個(gè)神經(jīng)網(wǎng)絡(luò)都會(huì)有更好的特征表達(dá),而且測(cè)試的時(shí)候準(zhǔn)確率性能也會(huì)更好。
可以看一下這個(gè)結(jié)果,對(duì)于在CIFAR-10、CIFAR-100上進(jìn)行的實(shí)驗(yàn),與mutual learning、傳統(tǒng)的distillation、還有RePr相比較,F(xiàn)ilter Grafting效果還是不錯(cuò)的,對(duì)于一些大網(wǎng)絡(luò),特別是對(duì)于CIFAR-100有兩個(gè)點(diǎn)的提升。
Grafting是可以有效提高無(wú)效filter,但是可能有效filter的信息量會(huì)減少。我們?cè)谧鰃rafting加權(quán)的時(shí)候,比如說(shuō)M1和M2進(jìn)行加權(quán),M1的layer1加到M2的layer1上面,雖然填補(bǔ)了M2中無(wú)效filter的空虛,但是M2有效filter可能也會(huì)受到影響。因?yàn)镸1它本身也有無(wú)效filter,它直接加到M2上,M2的有效filter的信息量可能會(huì)減少,
這篇還在審稿中的文章(DGD: Densifying the Knowledge of Neural Networks with Filter Grafting and Knowledge Distillation (under review))是關(guān)于我們的新發(fā)現(xiàn),就是傳統(tǒng)的蒸餾可以解決有效filter信息量可能減少這個(gè)問(wèn)題,這是這篇文章的貢獻(xiàn)。我們提出了DGD的training framework。
DGD在訓(xùn)練的過(guò)程中,并行訓(xùn)練多個(gè)teacher和多個(gè)student。多個(gè)teacher對(duì)student進(jìn)行蒸餾,而student之間進(jìn)行g(shù)rafting。最后訓(xùn)練的結(jié)果是每一個(gè)student的valid filter和invalid filter都會(huì)有信息量的提升。
看一下DGD framework的結(jié)果。我們對(duì)比了傳統(tǒng)的filter grafting,還有knowledge distillation,發(fā)現(xiàn)比grafting,distillation都有不錯(cuò)的提升,比如在CIFAR-100上,各個(gè)網(wǎng)絡(luò)基本都會(huì)比baseline提升兩到三個(gè)點(diǎn)。
朝下一個(gè)難題前進(jìn),提升真實(shí)業(yè)務(wù)場(chǎng)景下的準(zhǔn)確率
前面講的是noise label learning和collaborative leaning,那么基于這兩個(gè)可以做什么呢?
第一個(gè)是設(shè)計(jì)一些feature dependent noise的loss形式。 因?yàn)槲艺J(rèn)為現(xiàn)在對(duì)于noisy label learning領(lǐng)域,feature independent noise可能解決得差不多了,準(zhǔn)確率都很高了,接下來(lái)一個(gè)主要的點(diǎn)就是設(shè)計(jì)一些loss方式來(lái)解決feature dependent問(wèn)題。而且,這個(gè)問(wèn)題是真實(shí)的業(yè)務(wù)場(chǎng)景、真實(shí)的數(shù)據(jù)集上的noise type形式。
第二個(gè)是,我們知道grafting的motivation是來(lái)自于pruning,那么我們是否可以用grafting的一些思想去指導(dǎo)神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行更有效的pruning,這是一些未來(lái)大家有興趣可以探索的一個(gè)點(diǎn)。
Q&A
Q: 您提到的那些噪聲是不是其實(shí)都是已知的,假設(shè)如果現(xiàn)在有一批數(shù)據(jù),標(biāo)注是否正確其實(shí)我們無(wú)法知道,那這種情況有什么好的解決辦法嗎?
A:剛才我講的這些文章中很多是假設(shè)知道noise rate這個(gè)prior knowledge,但真實(shí)場(chǎng)景其實(shí)我們不知道noise rate是多大,我覺(jué)得一個(gè)好的解決方法是用一些design loss的方式,建議大家可以先用一些像peer loss或者DMI loss先進(jìn)行一些嘗試,因?yàn)檫@些是更貼近實(shí)際的。
Q:在grafting的場(chǎng)景里面,如何去判斷有效或者無(wú)效的filter?
A:我們想解決的是減少無(wú)效filter,那么首先要定義什么是無(wú)效filter。傳統(tǒng)的定義方法是通過(guò)L1 Norm進(jìn)行定義,其實(shí)我們覺(jué)得通過(guò)L1 Norm進(jìn)行定義并不完美,不是L1 Norm比較小,filter就不好, L1 Norm比較大,filter信息量就很多。比如對(duì)于一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),如果一個(gè)filter如果都是全1的話(huà),這是沒(méi)有任何信息量,因?yàn)樗鼪](méi)有diversity,但是L1 Norm也很大。所以這篇文章其實(shí)并不是通過(guò)L1 Norm的手段去定義無(wú)效filter,我們是通過(guò)信息量去定義哪些是無(wú)效的filter,哪些是無(wú)效的layer。
Q:Grafting和ensemble有什么區(qū)別?
A:Ensemble其實(shí)訓(xùn)練的是多個(gè)模型,測(cè)試的時(shí)候也是多個(gè)模型。但是grafting的優(yōu)勢(shì)是我們訓(xùn)練的就是多個(gè)模型,但是測(cè)試的時(shí)候只用一個(gè)模型。也就是說(shuō)訓(xùn)練的時(shí)候這些模型進(jìn)行g(shù)rafting,訓(xùn)練之后我們隨機(jī)抽取任何一個(gè)網(wǎng)絡(luò)進(jìn)行測(cè)試都是有比較好的提升的。所以測(cè)試的時(shí)候只用一個(gè)模型,它比ensemble更加高效,inference time更少。
- 為什么年輕人不愛(ài)換手機(jī)了
- 柔宇科技未履行金額近億元被曝已6個(gè)月發(fā)不出工資
- 柔宇科技被曝已6個(gè)月發(fā)不出工資 公司回應(yīng)欠薪有補(bǔ)償方案
- 第六座“綠動(dòng)未來(lái)”環(huán)保公益圖書(shū)館落地貴州山區(qū)小學(xué)
- 窺見(jiàn)“新紀(jì)元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機(jī)打造全新一代屏幕壓感
- 清潔家電新老玩家市場(chǎng)定位清晰,攜手共進(jìn),核心技術(shù)決定未來(lái)
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達(dá)成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。