編者按:語義分割(Semantic Segmentation)是計算機(jī)視覺中的一個重要領(lǐng)域,它可以將圖像中的每一個像素劃分到不同類別的集合中。近年來,語義分割在自動駕駛、醫(yī)療圖像識別等領(lǐng)域發(fā)展迅速、應(yīng)用廣泛。
本文中,百分點感知智能實驗室介紹了語義分割的技術(shù)原理及應(yīng)用場景,并分享了百分點科技基于語義分割技術(shù)在水域監(jiān)控中的應(yīng)用和具體落地流程。
一、場景需求及技術(shù)難點
水域監(jiān)控是為了定期監(jiān)控水域、灘地、堤壩等區(qū)域情況,檢查是否有堤壩缺失或水域變化異常情況的發(fā)生。水域圖像會定時定點拍攝,為了實現(xiàn)輔助監(jiān)控任務(wù)需要將傳回的圖像分割,并將圖像中的不同類型區(qū)域區(qū)分并標(biāo)明。
上圖簡單列出了幾種需要識別的類型:河流、河流兩岸的堤壩、用于加固大壩的防備石,以及河流與堤壩旁的灘地。目前,水域分割任務(wù)的技術(shù)難點有以下幾類:
所需分割類型較多且有些較為相似,畫面中的元素較多,背景復(fù)雜;拍攝高度較高,一些目標(biāo)像素較小且不同類型目標(biāo)大小差異巨大;相機(jī)拍攝距離的不同會造成同一物體在圖像中存在很大差距,占幅不同;部分區(qū)域相鄰的像素對應(yīng)的圖像信息太過相似;圖像中不同類別或?qū)嵗南袼卮嬖诓痪獾膯栴};拍攝條件造成的影響,如光照過曝或過暗、抖動造成的模糊等。
二、技術(shù)路線
在技術(shù)路線上,百分點科技使用了基于語義分割的地理信息提取系統(tǒng)來實現(xiàn)既定任務(wù)。地理信息提取系統(tǒng)可以通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)讓機(jī)器輸入衛(wèi)星遙感影像,自動識別道路、河流、莊稼和建筑物等,并且對圖像中每個像素進(jìn)行標(biāo)注。
語義分割同實例分割(InstanceSegmentation )、全景分割(Panorama Segmentation)共同組成了圖像分割(Image Segmentation)。當(dāng)前人類對用計算機(jī)視覺解決的最重要問題就是圖像分類(Image Classification)、目標(biāo)檢測(Object Detection)和圖像分割,按難度遞增。在傳統(tǒng)的圖像分類任務(wù)中,人們只對獲取圖像中存在的所有對象的標(biāo)簽感興趣。在目標(biāo)檢測中,百分點科技嘗試在邊界框的幫助下了解圖像中存在的所有目標(biāo)以及目標(biāo)所在的位置。圖像分割通過嘗試準(zhǔn)確找出圖像中對象的確切邊界,將其提升到一個新的水平。接下來用圖例簡單介紹以下它們分別是如何工作的:
從上面圖例中可以看出,需要劃分出水域圖像中不同類別的區(qū)域及大小(如河流、灘地、大壩區(qū)域),能夠完成此任務(wù)的技術(shù)路線就是使用語義分割或?qū)嵗指?因為只有它們能夠?qū)⑺驁D像中的每一個像素分割確定為不同類型,從而確定圖像中每種類型區(qū)域的大小和位置,同時該任務(wù)又不需要區(qū)分每個類型的實例,因此最適合方案的就是使用語義分割。下面就為大家介紹一下語義分割的原理。
2. 語義分割原理
語義分割是為完全理解場景鋪平道路的高級任務(wù)之一。越來越多的應(yīng)用程序從圖像中提取、推斷信息和知識,這一事實凸顯了場景理解作為核心計算機(jī)視覺問題的重要性。其中一些應(yīng)用包括自動駕駛、人機(jī)交互、虛擬現(xiàn)實等。近年來,隨著深度學(xué)習(xí)(Deep Learning,DL)的普及,許多語義分割問題正在使用深度學(xué)習(xí)架構(gòu)來解決,最常見的是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),它超越了其他方法在準(zhǔn)確性和效率方面有很大的進(jìn)步。百分點科技同樣也使用了當(dāng)前較為先進(jìn)的基于深度學(xué)習(xí)的語義分割技術(shù),其中最重要的一個核心就是卷積神經(jīng)網(wǎng)絡(luò)。
3. 語義分割網(wǎng)絡(luò)結(jié)構(gòu)
基于深度學(xué)習(xí)的語義分割基本架構(gòu)由編碼器和解碼器組成,編碼器通過濾波器(filter)從圖像中提取特征,解碼器負(fù)責(zé)生成最終輸出,它通常是一個包含對象輪廓的分割掩碼。大多數(shù)架構(gòu)都有這種架構(gòu)或其變體。
因為信息在最后的卷積層(即1 X 1卷積網(wǎng)絡(luò))丟失了,所以解碼器產(chǎn)生的輸出是粗糙的,這使得網(wǎng)絡(luò)很難通過使用這些少量信息進(jìn)行上采樣。為了解決這個上采樣問題,使用基于全卷積網(wǎng)絡(luò)的兩種架構(gòu):FCN-16 和 FCN-8。
在FCN-16中,來自前一個池化層的信息與最終特征圖一起用于生成分割圖。FCN-8 試圖通過包含更多先前池化層的信息來使其變得更好。
與傳統(tǒng)用CNN進(jìn)行圖像分割的方法相比,FCN有兩大明顯的優(yōu)點:一是可以接受任意大小的輸入圖像,而不用要求所有的訓(xùn)練圖像和測試圖像具有同樣的尺寸;二是更加高效,因為避免了由于使用像素塊而帶來的重復(fù)存儲和計算卷積的問題。
同時FCN的缺點也比較明顯:一是得到的結(jié)果還是不夠精細(xì),進(jìn)行8倍上采樣雖然比32倍的效果好了很多,但是上采樣的結(jié)果還是比較模糊和平滑,對圖像中的細(xì)節(jié)不敏感;二是對各個像素進(jìn)行分類,沒有充分考慮像素與像素之間的關(guān)系,忽略了在通常的基于像素分類的分割方法中使用的空間規(guī)整(spatial regularization)步驟,缺乏空間一致性。
為了避免FCN的這些缺點,后來又衍生出了許多語義分割網(wǎng)絡(luò),如U-Net、SegNet、PSPNet、DeepLab等。
標(biāo)注完成之后進(jìn)行數(shù)據(jù)預(yù)處理,如圖像切割、數(shù)據(jù)平衡、數(shù)據(jù)增強(qiáng)等。
圖像切割在原始圖像較大時運用較多,可將一張非常大的圖切割成若干張小圖進(jìn)行訓(xùn)練防止很多圖像細(xì)節(jié)的缺失,也可進(jìn)行隨機(jī)切割增加圖像的多樣性。
數(shù)據(jù)平衡是當(dāng)訓(xùn)練集中存在某些類別的樣本數(shù)量遠(yuǎn)大于另一些類別時對數(shù)據(jù)樣本量進(jìn)行平衡,最簡單的方法有過采樣或欠采樣等。
數(shù)據(jù)增強(qiáng)包含了很多方法,如翻轉(zhuǎn)、旋轉(zhuǎn)、拉伸、模糊、加噪聲、亮度調(diào)節(jié)等,增加數(shù)據(jù)多樣性,增強(qiáng)模型泛化能力。
訓(xùn)練模型時基于全卷積網(wǎng)絡(luò)(FCN)框架使用了金字塔池化,也就是進(jìn)行了多尺度特征融合,這是因為由于在深層網(wǎng)絡(luò)中,高層特征包含了更多的語義和較少的位置信息。這也使得模型除了具備基于深度學(xué)習(xí)的語義分割具備的優(yōu)勢外又結(jié)合多尺度特征,可以提高性能適應(yīng)不同大小的目標(biāo)。
三、應(yīng)用場景
隨著語義分割的發(fā)展,基于語義分割的落地應(yīng)用也越來越多,其中比較典型的有無人駕駛、醫(yī)療影像分析、地理信息提取系統(tǒng)等,百分點科技開發(fā)的水域分割系統(tǒng)就屬于地理信息提取系統(tǒng),下面將展開介紹一下。
無人車駕駛:語義分割也是無人車駕駛的核心算法技術(shù),車載攝像頭,或者激光雷達(dá)探查到圖像后輸入到神經(jīng)網(wǎng)絡(luò)中,后臺計算機(jī)可以自動將圖像分割歸類,以避讓行人和車輛等障礙。
總結(jié)
本文介紹了使用語義分割技術(shù)對水域圖像進(jìn)行分割,實現(xiàn)水域監(jiān)控。語義分割可以將圖像中的每一個像素分類,從而更好地理解圖像中的場景信息,并從中推斷出相關(guān)的知識或語義,這使得語義分割在自動駕駛、醫(yī)療影像分析、增強(qiáng)現(xiàn)實等方向的發(fā)展迅速。此外,語義分割也讓大家進(jìn)一步了解了計算機(jī)視覺、深度學(xué)習(xí)中的一些原理和應(yīng)用。
百分點科技一直關(guān)注和研究圖像分割技術(shù)領(lǐng)域,目前,百分點科技應(yīng)用圖像分割技術(shù)在土地治理、安防監(jiān)控等多個領(lǐng)域已經(jīng)有項目應(yīng)用落地,今后我們也將更加深入地在圖像分割領(lǐng)域進(jìn)行研究。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )