圖像分割是根據(jù)圖像內(nèi)容對指定區(qū)域進行標記的計算機視覺任務(wù),簡言之就是“這張圖片里有什么,其在圖片中的位置是什么?”本文聚焦于語義分割任務(wù),即在分割圖中將同一類別的不同實例視為同一對象。
更具體地講,語義圖像分割的目標在于標記圖片中每一個像素,并將每一個像素與其表示的類別對應(yīng)起來。因為會預(yù)測圖像中的每一個像素,所以一般將這樣的任務(wù)稱為密集預(yù)測。
語義分割的例子,目標是預(yù)測圖像中每一個像素的類別標簽。
當我們有越來越多要用機器執(zhí)行的任務(wù)時,為這些機器配備必需的感知器是很重要的。
自動駕駛中實時語義分割道路場景
還有一點要注意的是我們不會分割同一類別的實例,只需要關(guān)注每一個像素的類別。換句話講,如果在輸入圖像中有兩個目標屬于同一類,分割映射不會將其分為單獨的兩個目標。
相對地,實例分割模型是另一種不同的模型,該模型可以區(qū)分同一類的不同目標。
任務(wù)表征
簡單地說,我們的目標是要用 RGB 圖(高 x 寬 x3)或灰度圖(高 x 寬 x1)為輸入,并輸出一個分割圖,在分割圖中每個像素都包括一個用整數(shù)表示的類別標簽(高 x 寬 x1)。
注意:為了視覺上的理解簡單起見,我標記的是分辨率比較低的預(yù)測圖。事實上,分割標簽的分辨率是和原始輸入圖的分辨率相對應(yīng)的。
與我們處理標準分類值的方法相似,我們通過獨熱編碼類別標簽的方法創(chuàng)建目標——本質(zhì)上講是要為每一個可能的類創(chuàng)建一個輸出通道。
然后我們可以利用每一個像素位深向量的 argmax 函數(shù)將預(yù)測值分解為分割映射(如上圖所示)。
也可以通過將目標重疊在輸入圖像上來對目標進行觀察。
建立網(wǎng)絡(luò)架構(gòu)
針對這項任務(wù)簡單地構(gòu)建神經(jīng)網(wǎng)絡(luò)架構(gòu)的方法是簡單地堆疊大量卷積層(用 same 填充保留維度)后輸出最終的分割映射。通過特征圖的接連轉(zhuǎn)換,直接從輸入圖像學(xué)到了相對應(yīng)的分割映射;然而,在整個網(wǎng)絡(luò)中要保留完整分辨率的計算成本是很高的。
回顧深度卷積網(wǎng)絡(luò),前期的卷積層更傾向于學(xué)習(xí)低級概念,而后期的卷積層則會產(chǎn)生更高級(且專一)的特征圖。為了保持表達性,一般而言,當我們到達更深層的網(wǎng)絡(luò)時,需要增加特征圖(通道)的數(shù)量。
對圖像分類任務(wù)而言,這不一定會造成什么問題,因為對這個任務(wù)而言,我們只需要關(guān)注圖像里面有什么(而不是目標類別對象的位置)。因此,我們可以通過池化或逐步卷積(即壓縮空間分辨率)定期對特征圖進行下采樣以緩和計算壓力。
常用的圖像分割模型的方法遵循編碼器/解碼器結(jié)構(gòu),在這個結(jié)構(gòu)中,我們對輸入的空間分辨率下采樣,產(chǎn)生分辨率更低的特征圖,通過學(xué)習(xí)這些特征圖可以更高效地分辨類別,還可以將這些特征表征上采樣至完整分辨率的分割圖。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4838瀏覽量
107844 -
計算機
+關(guān)注
關(guān)注
19文章
7809瀏覽量
93230
發(fā)布評論請先 登錄
卷積神經(jīng)網(wǎng)絡(luò)一維卷積的處理過程
卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用
聚焦語義分割任務(wù),如何用卷積神經(jīng)網(wǎng)絡(luò)處理語義圖像分割?
分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法
基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法
如何用卷積神經(jīng)網(wǎng)絡(luò)處理語義圖像分割
評論