周一鳴,滕旭陽(yáng)
(杭州電子科技大學(xué),浙江杭州 310018)
目前,在中國(guó)城鎮(zhèn)化改造的背景下,對(duì)于一個(gè)地區(qū)城市變遷的分析需求日益強(qiáng)烈。SAR 圖像相較于傳統(tǒng)的光學(xué)圖像,具有成像幅寬大、抗干擾能力強(qiáng)等優(yōu)點(diǎn),對(duì)于房屋建筑面積的變化情況、人口密度的分析、人口遷徙情況的觀察和違章建筑的監(jiān)督等研究具有重要意義[1]。然而,隨著近年SAR 圖像數(shù)據(jù)的急速增加,對(duì)于SAR 圖像的識(shí)別和分割工作相對(duì)落后,因此,對(duì)于SAR 圖像的語(yǔ)義分割、目標(biāo)識(shí)別和對(duì)檢測(cè)結(jié)果的分析等方面的研究具有重要意義。
在計(jì)算機(jī)視覺(jué)領(lǐng)域,關(guān)于SAR圖像的解譯一直是研究的熱點(diǎn),但受斑點(diǎn)噪聲的影響,使得SAR 圖像的分割工作變得十分困難[2]。在傳統(tǒng)的檢測(cè)分割方法中,郭拯危等人[3]提出了基于模糊聚類與最大類間方差法的混合模糊分割算法,該算法優(yōu)化了聚類中心,在噪聲較大、背景環(huán)境復(fù)雜的SAR 圖像中有較大優(yōu)勢(shì)。齊千慧等人[4]提出了基于馬爾科夫隨機(jī)場(chǎng)的改變勢(shì)函數(shù)的遙感圖像分割方法,該方法將圖像鄰域像素點(diǎn)的相關(guān)性引入勢(shì)函數(shù),提高了檢測(cè)系統(tǒng)的泛化能力。武堯等人[5]提出了基于機(jī)器視覺(jué)的多目標(biāo)圖像分割方法,對(duì)檢測(cè)圖像通過(guò)搜索范圍來(lái)繪制灰度直方圖,并以自適應(yīng)算法確定最佳閾值,完成閾值分割。邢濤等人[6]提出了基于動(dòng)態(tài)K均值的毫米波SAR圖像分割方法,用圖像數(shù)目的正比函數(shù)對(duì)適應(yīng)度函數(shù)進(jìn)行加以平均,提高了分割效率。上述傳統(tǒng)分割方法提高了SAR 圖像的分割效率,緩解了人工壓力,但依然存在圖像預(yù)處理復(fù)雜,使用場(chǎng)景受限,魯棒性較差等問(wèn)題。
現(xiàn)階段,隨著深度學(xué)習(xí)的研究不斷深入,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的提出為SAR 圖像的分割帶來(lái)了新的研究方向,CNN[7]可以通過(guò)淺層學(xué)習(xí)的紋理特征和深層學(xué)習(xí)的語(yǔ)義特征,對(duì)SAR 圖像的特征進(jìn)行識(shí)別和分割。目前廣泛使用的語(yǔ)義分割網(wǎng)絡(luò)包括U-Net[8]、DeepLab 系列[9-12]網(wǎng)絡(luò)、CBAM[13]、DANet[14]等。烏蘭等人[15]提出了基于改進(jìn)DeepLabv3+的馬鈴薯根系圖像分割方法,DeepLabv3+可獲得不同尺度的特征信息,但解碼器部分易損失較多的細(xì)節(jié)信息。范藝華等人[16]提出了結(jié)合上下文編碼和特征融合的SAR圖像分割方法,降低了模型的復(fù)雜度和對(duì)計(jì)算資源的需求,但在物體的邊緣分割上存在缺陷。
受成像機(jī)制的影響,SAR 圖像在成像的過(guò)程中,房屋建筑由于平臺(tái)的不穩(wěn)定導(dǎo)致幾何形變,也會(huì)由于斜距成像產(chǎn)生透視收縮,此外,房屋還會(huì)和有一定高度的地物產(chǎn)生疊掩現(xiàn)象,這些都大大增加了圖像信息的提取難度。所以,基于傳統(tǒng)的深度學(xué)習(xí)方法對(duì)SAR圖像中的建筑進(jìn)行分割,效果往往不盡如人意。本文提出了一種基于多尺度混合注意力機(jī)制融合的SAR圖像房屋分割網(wǎng)絡(luò)。首先在特征提取部分引入CBAM 注意力模塊對(duì)重要通道和關(guān)鍵位置進(jìn)行特征增強(qiáng),并對(duì)主干網(wǎng)絡(luò)引入不同膨脹率的空洞卷積擴(kuò)大感受野。然后將提取到的特征圖輸入至DANet 雙通道自注意力網(wǎng)絡(luò),提取上下文信息,避免相同特征受透視收縮和幾何形變而變化。在解碼部分,采用多尺度特征融合處理,增強(qiáng)各局部特征的依賴性。
CBAM 注意力機(jī)制由通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spatial Attention Module,SAM)串行組成。其中CAM 對(duì)輸入特征圖進(jìn)行基于寬度和高度的全局最大池化和全局平局池化,然后通過(guò)多層感知機(jī)激活,最后將兩模塊進(jìn)行基于元素的加和得到輸入特征圖中每個(gè)通道的權(quán)值,將權(quán)值與原始特征圖點(diǎn)乘,以加強(qiáng)關(guān)鍵通道的特征表現(xiàn)。公式可表示為:
其中F為輸入特征圖,Mc()為通道注意力模塊,σ為sigmoid激活函數(shù),MPL為多層感知模塊,AvgPool和MaxPool分別為全局平局池化和全局最大池化。
針對(duì)SAR 圖像中的房屋建筑分割存在部分目標(biāo)小,邊界難以劃分的問(wèn)題,可通過(guò)SAM 模塊進(jìn)行特征增強(qiáng),強(qiáng)化邊界特征。SAM對(duì)輸入特征圖進(jìn)行基于通道的全局最大池化和全局平均池化,然后對(duì)兩特征圖進(jìn)行通道拼接,最后降維后得到每個(gè)特征點(diǎn)的權(quán)值,將權(quán)值與原始特征圖點(diǎn)乘,以加強(qiáng)關(guān)鍵位置的特征表現(xiàn)。公式表示為:
其中Ms()為空間注意力模塊,f7×7為7 × 7 的卷積核,[· ;·]為基于通道維度的拼接。

圖1 CBAM網(wǎng)絡(luò)結(jié)構(gòu)
CBAM 模塊可以加強(qiáng)對(duì)關(guān)鍵通道和重要位置的特征表現(xiàn),但是無(wú)法捕捉相同特征的長(zhǎng)距離依賴,和上下文信息,受SAR圖像成像過(guò)程中幾何形變和透視收縮的影響,需對(duì)網(wǎng)絡(luò)增加自注意模塊,加強(qiáng)相同特征的長(zhǎng)距離依賴關(guān)系。
DANet 注意力機(jī)制由空間自注意力機(jī)制和通道自注意力機(jī)制兩部分并行組成,該注意力機(jī)制可自適應(yīng)地將局部特征與全局特征進(jìn)行集成,捕捉豐富的上下文信息。空間自注意力模塊可將特征圖中相似的特征進(jìn)行關(guān)聯(lián),捕獲網(wǎng)絡(luò)中局部特征的長(zhǎng)距離關(guān)系;通道自注意力模塊可加強(qiáng)不同通道間的相互依賴關(guān)系。通過(guò)加強(qiáng)相似特征間的關(guān)聯(lián)性,解決SAR圖像中房屋幾何形變和透視收縮等帶來(lái)的問(wèn)題。
對(duì)于尺寸為C×H×W的輸入特征圖A,空間自注意力模塊處理步驟如下:
其中,A 為輸入的特征圖,B、C、D 為經(jīng)過(guò)卷積層后得到的特征圖,sij為第i 個(gè)位置對(duì)第j 個(gè)位置的影響,α為尺度參數(shù),初始設(shè)置為0,E∈RC×H×W為最后的輸出特征圖。通道自注意力機(jī)制用于捕獲各個(gè)通道間的依賴關(guān)系,具體步驟如下:
其中,A*為重塑后得到的特征圖,xij為第i個(gè)通道對(duì)第j個(gè)通道的影響,β為尺度參數(shù),并初始化為0,E∈RC×H×W為最后的輸出特征圖。最后將兩個(gè)分支得到的特征圖進(jìn)行相加融合,得到輸出結(jié)果。
傳統(tǒng)的特征提取網(wǎng)絡(luò),在提取特征的過(guò)程中為增加卷積核的感受野,降低計(jì)算量,會(huì)通過(guò)下采樣降低特征圖的分辨率,造成細(xì)節(jié)特征的損失。為不丟失分辨率同時(shí)擴(kuò)大感受野,本文使用空洞卷積,擴(kuò)大感受野的特點(diǎn)可有效適應(yīng)大幅寬的SAR圖像分割任務(wù),同時(shí)通過(guò)調(diào)整卷積核的膨脹率可以得到不同尺度的信息。不同膨脹率的卷積核如圖所示,本文主干網(wǎng)絡(luò)采用ResNet50,ResNet50 包含5 個(gè)stages,共有5 種不同參數(shù)的卷積階段,可以利用ResNet50網(wǎng)絡(luò)的特殊的殘差跳連結(jié)構(gòu)來(lái)避免因網(wǎng)絡(luò)加深帶來(lái)的梯度爆炸和梯度消失的問(wèn)題,加快模型的收斂。本文將stage5 中的卷積改為不同膨脹率的空洞卷積來(lái)增大卷積核的感受野,網(wǎng)絡(luò)結(jié)構(gòu)如下圖。

圖2 不同膨脹率的卷積核

圖3 添加了空洞卷積的ResNet網(wǎng)絡(luò)結(jié)構(gòu)
在上述編碼部分,通過(guò)ResNet50主干網(wǎng)絡(luò)獲得了圖像的基本特征,空洞卷積擴(kuò)大了卷積核的感受野,CBAM 注意力模塊對(duì)特征圖的重要通道和關(guān)鍵位置做了特征增強(qiáng),DANet自注意力模塊在空間和通道兩個(gè)維度上建立了相同特征之間的長(zhǎng)距離依賴,得到了輸出特征圖。為充分利用各模塊提取的特征,增強(qiáng)各模塊在解碼器中的表現(xiàn),本文提出了基于多尺度融合的解碼分類器。通過(guò)ResNet50 的stages4 輸出的為1 024 通道的特征圖,包含通過(guò)CBAM 注意力模塊得到的房屋特征,可通過(guò)1 × 1 的卷積核對(duì)特征圖進(jìn)行逐像素點(diǎn)卷積降維至512維,同理將stage5得到的2 048通道的特征圖通過(guò)1 × 1的卷積核降維至512維,并進(jìn)行2 倍上采樣,最后將DANet 自注意模塊的輸出特征圖與上述特征2倍上采樣后進(jìn)行拼接,上采樣至初始分辨率。通過(guò)多尺度融合,可充分利用淺層特征和上下文信息。

圖4 本文算法網(wǎng)絡(luò)結(jié)構(gòu)
實(shí)驗(yàn)數(shù)據(jù)為高分三號(hào)(GF-3)精細(xì)模式SAR 圖像SARBuD1.0[17],該數(shù)據(jù)集包含中國(guó)不同區(qū)域、不同地形、不同建筑分布類型的建筑區(qū)共60 000 個(gè)大小為256 × 256的SAR圖像樣本,數(shù)據(jù)集中包含,不同極化方式、不同升降軌的樣本,可提高模型的泛化能力,且已完成了對(duì)數(shù)據(jù)集的預(yù)處理,包括幅度圖的生成、地理編碼、輻射定標(biāo)等。本文實(shí)驗(yàn)總共選取不同地形的房屋樣本3000 張,隨機(jī)抽取500 作為測(cè)試集,將剩余的樣本按照10:1 的比例隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集進(jìn)行訓(xùn)練。
本實(shí)驗(yàn)所使用硬件環(huán)境:處理器為Intel(R) Core(TM) i9-10920X CPU @ 3.50GHz,GPU 型 號(hào)NVIDIA GeForce RTX 3090,軟件環(huán)境:Ubuntu18.04,CUDA-11.3,PyTorch-1.10,Python-3.8。實(shí)驗(yàn)相關(guān)參數(shù):權(quán)重衰減為1e-4,初始學(xué)習(xí)率0.01,批處理量為8,迭代次數(shù)為200次。
為測(cè)試訓(xùn)練模型的性能,將分割結(jié)果與真實(shí)的標(biāo)簽圖進(jìn)行分析比較,需選取合適的評(píng)價(jià)指標(biāo),本文選取像素準(zhǔn)確率(Pixel Accuracy,PA)、類別像素準(zhǔn)確率(Class Pixel Accuray,CPA)、平均交并比(Mean Interisection over Union,MIou)、頻權(quán)交并比(Frequency Weighted Intersection over Union,FWIoU)四個(gè)語(yǔ)義分割領(lǐng)域常用的評(píng)價(jià)指標(biāo)對(duì)分割結(jié)果進(jìn)行綜合評(píng)價(jià)。各評(píng)價(jià)指標(biāo)計(jì)算公式分別為:
本實(shí)驗(yàn)中,SAR 圖像中的房屋建筑為正例,背景為負(fù)例。其中TP表示將各個(gè)像素點(diǎn)正確地劃分為正例的個(gè)數(shù),TN表示正確地劃分為負(fù)例的個(gè)數(shù),F(xiàn)P為錯(cuò)誤地劃分為正例的個(gè)數(shù),F(xiàn)N 表示錯(cuò)誤地劃分為負(fù)例的個(gè)數(shù)。PA則可以表示對(duì)房屋和背景正確預(yù)測(cè)的像素?cái)?shù)占總像素?cái)?shù)的比例。CPA 則表示在所有被預(yù)測(cè)為是房屋的像素中,真正屬于房屋的像素。MIoU 表示SAR 圖像數(shù)據(jù)集真實(shí)值和預(yù)測(cè)值兩集合交集和并集之比。各指標(biāo)越接近1,代表分類器越好。
為驗(yàn)證本文算法在對(duì)于SAR 圖像房屋建筑分割任務(wù)上的優(yōu)勢(shì),在相同的實(shí)驗(yàn)條件下將分割結(jié)果分別與CBAM、DANet 三個(gè)網(wǎng)絡(luò)進(jìn)行對(duì)比。對(duì)比結(jié)果如表1所示。

表1 各網(wǎng)絡(luò)分割結(jié)果對(duì)比
傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò),在SAR圖像房屋建筑分割任務(wù)上,受斑點(diǎn)噪聲的影響,存在特征難以提取、相同特征在成像過(guò)程中易變形的問(wèn)題。本文算法在編碼端添加了基于CBAM的空間和通道注意力模塊,基于DANet 的自注意力模塊用于強(qiáng)化特征表現(xiàn)并建立特征間的長(zhǎng)距離依賴,避免了相同特征受透視收縮和幾何形變而難以識(shí)別,增強(qiáng)了網(wǎng)絡(luò)的特征提取能力。對(duì)比各個(gè)網(wǎng)絡(luò)的分割結(jié)果,本文算法在PA、MIoU、FWIoU三個(gè)指標(biāo)上均為最高,PA達(dá)到96.54%且MIoU達(dá)到87.22%。與其他網(wǎng)絡(luò)相比,本文算法在MIoU 上分別提高了5.1%、0.99%。分割效果對(duì)比如圖5所示。

圖5 各網(wǎng)絡(luò)分割效果對(duì)比圖
本文算法在編碼端,在ResNet網(wǎng)絡(luò)的基礎(chǔ)上添加了空洞卷積用于擴(kuò)大感受野,提高特征提取能力。在編碼端采用了基于多尺度特征融合的解碼方式,充分利用各個(gè)注意力模塊,提高特征表現(xiàn)能力。為驗(yàn)證兩模塊在算法中的有效性,將本文算法與未改進(jìn)的算法進(jìn)行比較,表2為本文算法與未加入空洞卷積和未使用多尺度特征融合網(wǎng)絡(luò)的對(duì)比結(jié)果。

表2 不同模塊的性能效果
由表2 可知,使用傳統(tǒng)的解碼器,在SARBuD1.0數(shù)據(jù)集的測(cè)試上,各指標(biāo)與加入多尺度融合算法的解碼器相比有明顯下降。對(duì)比數(shù)據(jù),PA 提高了1.13%,CPA提高了2.04%,MIoU提高了1.95%,F(xiàn)WIoU提高了1.67%,說(shuō)明了在解碼端引入多尺度融合模塊,可有效利用淺層特征和上下文信息,充分利用各注意力模塊。由數(shù)據(jù)可知,空洞卷積的加入也使各指標(biāo)有了較為明顯的提升,說(shuō)明空洞卷積可有效擴(kuò)大網(wǎng)絡(luò)的感受野,增加分辨率,更加精確的定位目標(biāo)。
針對(duì)目前傳統(tǒng)算法對(duì)于SAR 圖像房屋檢測(cè)任務(wù)特征提取不足的問(wèn)題,本文提出了基于多尺度混合注意力融合機(jī)制的SAR圖像房屋分割方法,利用CBAM模塊對(duì)于重點(diǎn)信息的特征增強(qiáng)能力和DANet 建立特征長(zhǎng)距離依賴的能力,提高了網(wǎng)絡(luò)的特征提取能力,其次,在解碼端使用多尺度特征融合的方法充分利用上下文信息,提高了圖像的分割精度。實(shí)驗(yàn)結(jié)果表明,本算法在SAR房屋建筑分割任務(wù)上與傳統(tǒng)網(wǎng)絡(luò)相比有更好的性能。PA 達(dá)到96.54%且MIoU 達(dá)到了87.22%。與CBAM 和DANet 相比,本文算法在MIoU上分別提高了5.1%、0.99%,驗(yàn)證了本文算法的有效性。