吳從中,董 浩,方 靜
(1.合肥工業(yè)大學計算機與信息學院,安徽 合肥 230601; 2.安徽省六安市金安區(qū)生態(tài)環(huán)境分局,安徽 六安 237005)
遙感圖像分割是計算機視覺研究的重要組成部分,在環(huán)境監(jiān)測、城市規(guī)劃以及地震、洪災、山火等自然災害的救援方面有著重要的作用和實際應用價值。特別在自然災害的救援方面,若能夠對遙感圖像進行更快、更精準的分割,則能爭取更多的救援時間,從而最大程度地減少損失。道路和建筑物常常是遙感衛(wèi)星捕捉的對象,而對象的背景往往是復雜多樣的。如圖1所示:道路數(shù)據(jù)集包括城市、鄉(xiāng)鎮(zhèn)和荒郊等不同場景下的道路;建筑物數(shù)據(jù)集包括稠密的城鎮(zhèn)建筑物和稀少的鄉(xiāng)村建筑物。這些是遙感圖像背景類內差異較大,前景與背景之間的不平衡等問題的表現(xiàn),使得遙感圖像前景特征很難定位和識別,造成遙感圖像中小目標和目標邊緣的錯分和漏分。

Figure 1 Samples of images(road and building) and corresponding labels圖1 道路、建筑物圖像樣本及其對應標簽
對遙感圖像語義分割的研究方法主要分為2種:基于人工特征提取的傳統(tǒng)方法和基于卷積神經網(wǎng)絡的深度學習方法。傳統(tǒng)的圖像分割方法包括基于閾值的分割方法、基于區(qū)域的分割方法和基于邊緣的分割方法等,這些方法只能提取到圖像的淺層特征,很難充分地表達出圖像的高級語義信息,使得圖像分割的精度和效率都很低。隨著VGGNet[1]、GoogleNet[2]和ResNet[3]等卷積神經網(wǎng)絡在計算機視覺任務中的廣泛應用,大量的遙感圖像分割研究工作都開始采用基于卷積神經網(wǎng)絡的深度學習方法。在深度學習中,網(wǎng)絡通過卷積、下采樣、激活函數(shù)結合大量的訓練數(shù)據(jù),能夠較快且準確地提取遙感圖像的特征。其中,下采樣是重要的一步,通過下采樣可以大大減少網(wǎng)絡的參數(shù)量和計算量,擴大網(wǎng)絡的感受野;但是也會引起前景目標信息的失真和損失,造成混疊。
在傳統(tǒng)的數(shù)字信號處理中,混疊是指由于采樣頻率較低,使得采樣后信號發(fā)生失真,無法恢復到原始信號。此時,研究人員常利用奈奎斯特采樣定理,使采樣頻率滿足是信號最高頻率的2倍或以上,以此來保證采樣后的信號能完整地恢復原始信號。在卷積神經網(wǎng)絡中,由于圖像分割需要經過下采樣和上采樣2個過程,同樣存在混疊。深度學習背景中的混疊是指由于背景類內差異較大以及背景與前景的不平衡的干擾,使信號在采樣后退化成完全不同于原始信號的信號的現(xiàn)象。受到數(shù)字信號處理中低通濾波器可恢復或重建原始信號的特點的啟發(fā),Zhang[4]將濾波處理概念應用到卷積神經網(wǎng)絡中,提出在下采樣前插入相同的高斯模糊層。盡管模糊層能夠在一定程度上減少混疊,但對背景信息模糊過多或者不足會使得邊界細節(jié)信息丟失。這是由于特征圖中不同空間位置、不同通道的信號頻率不同造成的。在各個下采樣前使用相同參數(shù)的高斯濾波器往往達不到最好的效果。例如,在處理背景噪聲信息和前景邊緣信息時,前景邊緣會被過多地模糊,導致重要的邊緣信息丟失,因此應該對前景和背景應用不同的濾波器。
Long等[5]將全卷積網(wǎng)絡FCN(Fully Convolutional Network)中的全連接層替換成卷積層,使深度學習成功地應用于圖像分割。Ji等[6]將FCN成功地應用到建筑物分割上。Ronneberger等[7]在U-Net(U-shaped Network)中提出的跳躍連接被廣泛地應用于編碼解碼中。將下采樣前后的高頻信息和上采樣前后的低頻信息直接級聯(lián)式融合,可有助于恢復圖像細節(jié)和邊緣信息。Zhang等[8]將U-Net成功應用于遙感道路圖像分割中。Badrinarayanan等[9]在語義像素級分割網(wǎng)絡SegNet(semantic pixel-wise Segmentation Network)中提出下采樣索引,在解碼器端使用相應的編碼器端的下采樣索引對特征圖進行非線性上采樣。Chaurasia等[10]提出在LinkNet的編碼和解碼之間通過像素相加的方式,融合兩者之間的特征。Zhou等[11]在D-LinkNet中改進了LinkNet并將其成功地應用于道路分割。但是,這些網(wǎng)絡模型都忽視了下采樣帶來的混疊效應,同時也忽視了Ibtehaz等[12]提出的特征融合前后差異性的影響。
對于遙感圖像存在的尺度變化較大的問題,池化和擴張卷積是2種有效的處理方式。Zhao等[13]在金字塔場景解析網(wǎng)絡PSPNet(Pyramid Scene Parsing Network)中采用不同大小的池化核,增大網(wǎng)絡的感受野,融合不同尺度的特征。通過聚合不同區(qū)域信息,達到充分挖掘全局信息的目的。Yu等[14]首次提出的擴張卷積,在不增加訓練參數(shù)的情況下,增大網(wǎng)絡的感受野,可提取多尺度目標特征。Hamaguchi等[15]提出的局部特征提取LFE(Local Feature Extraction)網(wǎng)絡采用擴張卷積可有效地分割建筑物遙感圖像,但隨著擴張率的增大,網(wǎng)絡的感受野范圍呈指數(shù)級擴大,可能存在冗余信息。因此,擴張率的設計會影響到網(wǎng)絡的性能。DeepLabv3[16]和混合擴張卷積HDC(Hybrid Dilated Convolution)網(wǎng)絡[17]的共同之處都是進行了基于擴張率的設計和改進。然而,人為地設計擴展率或者改變多個擴張卷積的連接方式,仍會存在冗余信息干擾,不利于最終的像素級預測。
引入注意力機制是改善遙感圖像分割的有效方式。Zheng等[18]提出的前景感知關系分割FarSeg(Foreground-aware relation Segmentation)網(wǎng)絡基于遙感圖像數(shù)據(jù)分布間的關聯(lián)性,通過捕獲特征圖不同維度間的數(shù)據(jù)依賴關系,突出對遙感圖像分割有用的前景特征信息,抑制無關的冗余背景信息。Fu等[19]提出的雙重注意力網(wǎng)絡DANet(Dual Attention Network),從空間維度和通道維度引入注意力。在空間維度上,提取特征圖中各個位置的顯著性信息,基于這些空間信息為各個位置分配不同權重;在通道維度上,則關注不同通道間蘊含的有用信息,如圖像紋理、輪廓形狀等。Li等[20]提出的空間和通道注意力網(wǎng)絡SCAttNet(Spatial and Channel Attention Network)將空間注意力與通道注意力結合起來分割遙感圖像。但是,引入注意力的這些網(wǎng)絡計算較為復雜,訓練時間長,分割速度較慢。綜上所述,利用深度學習網(wǎng)絡對遙感圖像分割時仍然存在以下問題:(1)池化和下采樣等操作可能引起混疊效應,導致信號的失真和損失。(2)處理多尺度目標時,增大網(wǎng)絡的感受野也會引入冗余信息。(3)淺層特征和深層特征相加或者通過直接級聯(lián)的融合方法忽視了不同特征間的差異性。

Figure 3 Structure of ARGNet圖3 ARGNet結構
本文提出了一種基于注意力機制的自適應濾波分割網(wǎng)絡ARGNet(Adaptive-Residual-Global Network)網(wǎng)絡,主要工作包括:
(1)提出了自適應濾波模塊AFM(Adaptive Filtering Module)。在不同空間位置、不同分組通道上自適應學習濾波器權重參數(shù),從而避免混疊,同時保留下游任務的有用細節(jié)信息。
(2)提出了注意力門控模塊GAM(Global Attention Module)。自適應捕獲多尺度的上下文信息,同時能夠抑制無關冗余信息,進一步增強前景特征的表征能力。
(3)提出了特征融合優(yōu)化模塊RFM(Residual Fusion Module)。通過一個殘差模塊,進一步學習編碼端的語義信息,從而減少在解碼端不同層級特征融合時的語義差異性。
本文研究的遙感圖像分割任務本質上是一個像素級的二分類問題,需要將圖像分為前景對象和背景2個不同區(qū)域;同時,需要進一步為前景對象區(qū)域的每一個像素分配一個統(tǒng)一的語義標簽。這對網(wǎng)絡能夠精準地建模小目標和目標的邊緣有著更高的要求。本文使用預訓練的ResNet-34為網(wǎng)絡編碼器,以LinkNet為基本骨架,解碼器使用轉置卷積[21]進行上采樣。編碼器與解碼器的基本結構如圖2所示。

Figure 2 Basic structures of encoder and decoder圖2 編碼器與解碼器的基本結構
圖3展示了本文提出的ARGNet結構。在編碼部分的4個下采樣(Enconder1~ Enconder4)前,輸入圖像先通過卷積(卷積核大小k=7,步長s=2,填充層數(shù)p=3)運算后,再經過自適應濾波模塊(AFM)處理。其次,在各個跳躍連接中加入RFM。在網(wǎng)絡的中心部分,增加GAM來改善擴張卷積帶來的不利影響。最后,解碼器層的圖像X經過sigmoid層輸出分割結果。本文的sigmoid()函數(shù)如式(1)所示:
(1)
為了減少卷積神經網(wǎng)絡中的混疊效應,本文在網(wǎng)絡中的每個下采樣前添加了自適應濾波層。在遙感圖像中低頻信息往往具有相對比較平滑的特點,而高頻信息往往具有強度變化明顯的特點。AFM的作用是濾除遙感圖像背景中的高頻信息,從而削弱下采樣引起的混疊效應。先在不同的空間位置和通道上生成濾波器,然后將其應用在采樣前的輸入特征圖上。
(1)空間自適應濾波。由于遙感圖像在不同空間位置中的頻率分量不同,為了有效減少混疊,需要在不同的空間位置(i,j)學習不同的濾波器權重矩陣ω,并將其作用在采樣前的輸入圖像X上,具體如式(2)所示:

(2)

(2)分組通道自適應濾波。特征圖的不同通道可以捕獲圖像的不同方面特性(如圖像的邊緣特性),這些不同特性往往具有不同的頻率分量。網(wǎng)絡可以在每一個特征通道上學習不同的濾波器。由于在卷積中特征圖的通道數(shù)很多,而一些通道會捕獲到相似的信息,所以本文將通道分成G組,在每一組通道上學習一個濾波器。在每一組通道中,特征是相似的,每組通道捕獲圖像的一個不同方面特征,如式(3)所示:
(3)
其中,c(1≤c≤C)表示采樣前特征圖的通道數(shù),g(1≤g≤G)表示劃分的組編號,C為圖像的通道數(shù)。
如圖4所示,通過卷積(conv)、批歸一化(bn)和維度轉換(reshape)等操作, 濾波器在每個空間位置和每組通道中動態(tài)生成。其中,unfold的作用是將輸入特征圖的維度從(B,C,h,w)轉換為(B,C*kh*kw,L),其中,B是批處理的大小,表示一次批處理的圖像數(shù)量,h和w是圖像的高和寬,L=(h-kh+1)*(w-kw+1)。reshape將特征圖的維度從(B,C,h,w)轉換到(B,1,C,h*w)。reshape1在空間維度上進行變換,reshape2在通道維度上變換。采樣前特征圖X的大小為(B,C,h,w),生成的濾波器大小為(G,k*k,h,w),最后,通過softmax層將學習到的濾波器權重歸一化到0~1,同時確保了濾波器的低通特性,如式(4)所示:
(4)
其中,N表示標簽的類別總數(shù),xi表示第i個類。

Figure 4 Structure of AFM圖4 AFM結構圖
當圖像的內容包含高頻背景信息時,學習到的濾波器方差較小;當圖像的內容相對平滑時,學習到的濾波器方差較大。不同方差大小的濾波器有助于對有較大背景類內差異的目標進行特征提取,同時增強目標特征的魯棒性。

Figure 5 Architecture of GAM圖5 GAM結構圖
由于遙感圖像尺度變化較大,D-LinkNet采用擴張卷積來增加網(wǎng)絡的感受野,使得每個擴張卷積的輸出包含較大范圍的目標信息。通過采用不同大小的擴張率(小擴張率用于提取本地信息,大擴張率用于提取長距離信息),從不同的感受野中提取不同尺度的目標特征,捕獲豐富的上下文信息,增強所學特征表征能力。但是,由于較大的擴張率會造成局部信息丟失,當擴張率越來越大時,從輸入圖像中采樣的數(shù)據(jù)會越來越稀疏,不利于小目標的卷積學習。同時,在較大感受野所包含的信息中,存在冗余信息的干擾。為了減少這種影響并進一步提升特征圖的表征能力,本文提出全局注意力模塊(如圖5所示),即在原來級聯(lián)的擴張卷積中,去掉r=1(r表示擴張卷積的擴張率)的擴張卷積塊,保留了r=2,4,8的部分;并在通道維度上將在不同擴張率下所提取的不同尺度的上下文信息拼接起來。之后,通過1×1卷積減少通道維度,降低網(wǎng)絡復雜度。接著將這些不同尺度的上下文信息與CNN提取的原始高級特征經過1×1卷積后以逐像素的方式相乘,從而在空間維度上構成注意力。此外,通過GAM的第1個分支上的GP(Global Pooling)、1×1卷積等操作自適應捕獲前景對象的全局目標信息。最后,將2個分支上學習的特征通過相加融合,從而提取到遙感圖像的多尺度上下文信息,如式(5)所示:

(5)
其中,I*k′(i,j)表示擴張卷積操作,I表示二維遙感輸入圖像,k′(·)表示擴張卷積的卷積核;h和w分別表示圖像的高和寬;r表示擴張率。擴張卷積核大小k′d的計算如式(6)所示:
k′d=(k-1)·(r-1)+k
(6)
其中,k表示一般卷積的卷積核大小。
在網(wǎng)絡編碼部分,4個下采樣層使得空間層級化信息逐漸丟失,D-LinkNet采用跳躍連接,直接將下采樣時的編碼層信息和上采樣時的解碼層信息相連,這樣有助于減少恢復圖像細節(jié)所需要的空間信息。但是,因為編碼部分的特征信息是較低層次的,而解碼部分的特征是較高層次的,所以,直接通過跳躍連接特征可能存在語義上的差異,從而影響最終的預測結果。為此,本文在跳躍連接上引入改進的殘差融合模塊,模塊結構如圖6所示。首先,通過1×1卷積降低通道數(shù)量,減少計算的冗余度;其次,將淺層特征經過2個3×3卷積學習,縮小淺層與深層特征的語義間隙;最后,RFM的輸出是初始輸入與殘差輸出之和。

Figure 6 Structure of RFM圖6 RFM結構圖
DeepGlobe Road Extraction(Demir I等)[22]是道路分割數(shù)據(jù)集,包含泰國、印度和印度尼西亞3個國家的多個不同場景的道路(覆蓋城市、鄉(xiāng)鎮(zhèn)、荒郊、海濱和熱帶雨林等)。圖像大小為1024×1024,地面分辨率為0.5 m。數(shù)據(jù)集中共有6 226幅圖像,隨機選取,其中的5 226幅圖像用于訓練,其余1 000幅圖像用于測試。道路的RGB圖像為jpg格式,對應的標簽為png格式。由于原始圖像尺寸較大,無法直接用于網(wǎng)絡輸入,本文將所有的圖像裁剪為512×512大小。
Inria Aerial Image Labeling是建筑物分割數(shù)據(jù)集,包含了新西蘭基督城的187 000個建筑物。圖像大小為512×512,地面分辨率為0.3 m。實驗中所用數(shù)據(jù)集共5 736幅圖像,其中的4 736幅用于訓練,其余1 000幅用于測試。建筑物的RGB圖像為tiff格式,對應的標簽也為tiff格式。
在遙感圖像分割中,公開的數(shù)據(jù)集相對較少。即使在一些公開的數(shù)據(jù)集中,圖像數(shù)量也遠遠達不到訓練網(wǎng)絡的要求。因此,研究人員常常采用數(shù)據(jù)增強的方式來優(yōu)化訓練,同時防止網(wǎng)絡過擬合。圖像的形態(tài)變換和色彩變換是2種常見的數(shù)據(jù)增強方式。在形態(tài)變換中,有水平和垂直翻轉,90度、180度、270度的旋轉以及尺度縮放等。色彩變換包括飽和度、亮度和對比度的調節(jié)。
為了準確評估網(wǎng)絡的分割效果,本文采用了4個定量指標:精度P(Precision)、召回率R(Recall)、F1分數(shù)和交并比IoU。P表示預測為正樣本的個數(shù)占全部預測為目標的比例。R表示預測為正樣本的個數(shù)占全部正樣本的比例,衡量了分類器對正類的識別能力。由于精度和召回率的相互制約不利于消融實驗中對網(wǎng)絡整體性能的直接評估,常使用F1作為兩者的調和平均。IoU是分割的另一標準度量,表示真實值和預測值的交集占兩者并集的比例。這些評價指標的計算分別如式(7)~式(10)所示:
(7)
(8)
(9)
(10)
其中,TP表示前景對象被正確分類的像素總數(shù),F(xiàn)P表示背景被預測為前景對象的像素總數(shù),TN表示背景被正確判定為背景的像素總數(shù),F(xiàn)N表示前景對象被預測為背景的像素總數(shù)。
實驗硬件配置為Intel Xeon (R)CPU E5-2640 v4@2.40 GHz,顯存為2塊共22 GB的NVIDIA GeForce GTX1080Ti顯卡(每塊顯卡的顯存為11 GB)。實驗軟件配置是Ubuntu16.04LTS系統(tǒng),磁盤容量為184.4 GB;PyTorch深度學習框架,Python編程語言。在訓練時,初始的學習率為0.000 2,若在3個訓練的epoch中,損失函數(shù)沒有下降,則將學習率減小為當前的1/5。batch size設為8;優(yōu)化器是Adam[23],其中,α=0.9,β=0.999,eps=1e-8。
在像素級的二值分類分割網(wǎng)絡中,常采用二進制交叉熵損失函數(shù)bce_loss,它可以很好地度量2個隨機變量的概率分布差異。由于遙感圖像存在背景類內差異較大、前景與背景之間不平衡問題,為了減少復雜背景的影響,本文引入dice_loss[24]損失函數(shù)。dice用于衡量2個樣本的重疊部分,能有效解決部分圖像中前景所占比例較小的問題。本文采用的損失函數(shù)是基于分布類損失函數(shù)bce_loss和基于區(qū)域類損失函數(shù)dice_loss的疊加,如式(11)~式(13)所示:
bce_loss=
(11)
(12)
loss=bce_loss+dice_loss
(13)
其中,gti表示原始圖像對應的標簽,pi表示網(wǎng)絡的預測標簽。
本文分別在DeepGlobe Road Extraction和Inria Aerial Image Labeling 2個數(shù)據(jù)集上進行對比實驗。
在AFM的參數(shù)對比實驗中,為減少訓練時間,本節(jié)使用ResNet18作為LinkNet的編碼器。在AFM中,將濾波器大小k設為3,從而匹配普通卷積中的卷積核的大小,便于在不同維度上進行濾波處理。表1所示是在道路數(shù)據(jù)集上的測試結果。通過不同通道分組實驗發(fā)現(xiàn),隨著分組數(shù)增加,網(wǎng)絡的濾波性能逐漸提升,當G=8時,達到最優(yōu)。再增加分組數(shù),由于可能存在網(wǎng)絡的過擬合從而導致性能下降。

Table 1 Ablation experimental results of different group channels in AFM
本文對不同模塊進行了消融實驗,以定量地驗證各模塊在道路分割數(shù)據(jù)集上的性能,結果如表2所示。本文的網(wǎng)絡較原始的LinkNet34在召回率R和F1方面分別約提升了3.2%和3.6%。

Table 2 Ablation experimental results of different modules on road dataset
在DeepGlobe Road Extraction上的部分測試結果如圖7所示,從左到右依次為原圖、標簽、LinkNet34分割結果、LinkNet34加入GAM分割結果、LinkNet34加入GAM和RFM分割結果,以及最終ARGNet(GAM+RFM+AFM)分割結果。其中,白色表示道路前景對象,黑色表示背景。

Figure 7 Segmentation results on the DeepGlobe Road Extraction test set圖7 在DeepGlobe Road Extraction測試集上的分割結果
圖7第1幅和第2幅原圖中,背景占據(jù)較大比例;第1幅和第3幅原圖存在較大的背景類內差異。此外,道路在形狀上各不相同。這些特點增加了道路分割的困難。如圖7中的第1、2行分割結果所示,通過加入GAM、RFM和AFM模塊逐步改善了由于背景與前景的不平衡帶來的遮擋問題,減少了復雜背景冗余信息的干擾。如第3、4行的分割結果所示,通過加入不同的模塊能夠逐步分割出小目標道路的輪廓。最終ARGNet改善了道路整體分割效果,使得道路更加連通。
不同網(wǎng)絡在道路數(shù)據(jù)集上的實驗結果如表3所示。

Table 3 Experimental results of different networks on road dataset
表4為各個模塊在建筑物數(shù)據(jù)集上的消融實驗結果。如表4所示,ARGNet較原始的LinkNet34在IoU和F1方面分別提升了約4.3%和3.2%。

Table 4 Ablation experimental resutls of different modules on building dataset
在Inria Aerial Image Labeling上的部分測試結果如圖8所示,從左到右依次為原圖、標簽、LinkNet34分割結果、LinkNet34加入GAM分割結果、LinkNet34加入GAM和RFM分割結果,以及最終ARGNet(GAM+RFM+AFM)分割結果。其中,白色表示建筑物前景對象,黑色表示背景。
如圖8中的原圖所示,建筑物的大小、顏色以及不同背景等特點,增加了建筑物分割的難度。如圖中第1行分割結果所示,ARGNet能夠逐步改善由于背景與目標的對比度較低帶來的漏分。如第2行分割結果所示,ARGNet改善了原始網(wǎng)絡會在紅色建筑物邊緣分割產生的鋸齒現(xiàn)象(放大圖像可獲得高分辨率邊緣)。在第3、4行中,ARGNet逐步改善了小目標建筑物的漏分;同時也改善了部分小建筑錯分的情況。ARGNet模型相較于原始的LinkNet34,能夠改善小建筑物和建筑物的邊緣分割,使其有更加規(guī)則、平滑和完整的預測結果。表5是不同網(wǎng)絡在建筑物數(shù)據(jù)集上的實驗結果。

Figure 8 Segmentation results on the Inria Aerial Image Labeling test set圖8 在Inria Aerial Image Labeling測試集上的分割結果
LinkNet34的網(wǎng)絡參數(shù)量為21 642 401。在此基礎上增加AFM(G=8)后,網(wǎng)絡的參數(shù)量變?yōu)?2 555 793。在LinkNet34的基礎上增加GAM后,網(wǎng)絡的參數(shù)量變?yōu)?0 035 617。在LinkNet34的基礎上增加RFM后,網(wǎng)絡的參數(shù)量變?yōu)?3 191 585。
為避免下采樣帶來的混疊效應,本文在Link-

Table 5 Experimental results of different networks on building dataset
Net的下采樣前插入低通濾波器層。同時 ,由于遙感圖像有著較為復雜的背景信息,擴張卷積在增大感受野的同時,可能存在冗余的背景信息干擾。為此,本文通過注意力門控的擴張卷積模塊進一步減少冗余信息的干擾。此外,還引入了殘差融合模塊,以減少不同層級特征在融合時存在的語義上的間隙。經過改進,ARGNet能夠更加精準地分割目標,改善了目標分割的連通性和完整性。