黃 濤,姚建華,呂林濤(通信作者),劉皓楠
(1寧夏回族自治區遙感調查院 寧夏 銀川 750021)
(2北京科技大學計算機與通信工程學院 北京 100083)
遙感影像語義分割是遙感影像信息獲取的關鍵環節和研究熱點,近年來,相關研究成果已廣泛應用于檢測土地利用變化、城市擴張及災害預警評估等方面。高分辨率遙感影像能夠表現豐富的地物信息,從而有利于提取地物的復雜特征以識別復雜的場景目標。
隨著卷積神經網絡(convolutional neural networks,CNN)的發展,使用深度學習(deep learning,DL)技術或多種技術結合的智能化地裂縫檢測迅速成為主流[1]。地裂縫是一種對地質環境造成潛在威脅的常見地面病害之一[2]。本文基于深度學習卷積神經網絡模型,對地裂縫進行檢測分割。對地裂縫發育現狀、剖面結構等方面展開全面深入的調查研究,不僅對地裂縫進行進一步研究,且對于較好地掌握寧夏地裂縫發展的新動態、新特點,乃至及時指導城市的發展規劃和城市建設等方面均有一定的參考和指導作用。
傳統檢測地裂縫的方法有以下幾種:1)圖像閾值(image thresholding);2)結合形態學處理和邏輯回歸算法對裂縫進行檢測;3)手工設計特征和分類(hand crafted feature and classification);4)小波變換(wavelet transform,WT);5)邊緣檢測方法(edge detectionbased methods);6)最短路徑方法(minimal path-based methods)。以上方法多用于路面裂縫檢測,因為遙感影像的語義分割任務特殊,情況復雜,因素更多,所以使用以上方法效果不佳。
遙感影像技術一直是圖像識別預測領域的熱點課題[3]。遙感圖像內容由影像組成,通過地圖符號等標記手段進行解釋,相比普通地圖,遙感圖像更直觀明了、信息豐富[4]。
隨著遙感技術的發展,傳統的地物提取技術在處理高分辨率遙感影像時顯得捉襟見肘[5]。準確高效的遙感信息提取手段成為遙感應用中的關鍵環節,DL因在圖像分類中的極佳表現脫穎而出,逐漸應用于遙感檢測的各方面[6]。基于DL的語義分割技術也成為計算機圖像處理領域中較熱門的研究領域。
全卷積網絡(fully convolutional networks,FCN)作為圖像語義分割的先河,將全連接層轉化成卷積層,實現像素級分類。FCN可接受任意大小的輸入圖像,不要求訓練圖像和測試圖像必須有相同尺寸。避免了使用像素塊帶來的重復存儲和計算卷積問題,更加高效。因此,FCN為后續使用CNN作為基礎的圖像語義分割模型提供了重要基礎。
隨著CNN的快速發展,越來越多優秀的通用語義分割模型被提出。通過語義分割技術,可以快速準確地對遙感圖像中每個像素進行分類及進行裂縫檢測。基于DL的地裂縫檢測技術極大地避免了人工參與,自動化提取裂縫信息,且在精度上得到了一定提升。綜合以上因素,本文從DL的角度入手,運用語義分割技術對遙感影像地裂縫進行檢測。
地裂縫提取是一個二分類問題,其構成的4個基礎元素:1)真正例(true positive,TP),模型預測為正例,實際是正例;2)假正例(e positive,FP),模型預測為正例,實際是反例;3)假反例(e negative,FN),模型預測為反例,實際是正例;4)真反例(true negative,TN),模型預測為反例,實際是反例。基于此,3種公認的評價指標如下:
像素精度(pixel accuracy,PA),
交并比(intersection over union,IoU),
均交并比(mean intersection over union,MIoU),
地裂縫需強調邊界,對特征提取和恢復有較高要求,因此本文選用編碼器-譯碼器網絡模型來處理。U-Net網絡的特征提取能力不足以獲取遙感影像中的語義信息,其卷積核的感受野太小、編碼器不夠強大;ResNet擁有強大的語義特征提取的能力,但缺少了對特征細節恢復的能力。結合2種網絡的優勢特點與地裂縫的特征情況,本文將ResNet和U-Net相結合,在U-Net中引入殘差連接,并直接將編碼器與譯碼器連接用來提高準確率,減少處理時間。保留編碼部分中不同層丟失的信息,同時不增加額外的參數與操作,ResU-Net網絡結構如圖1所示。

圖1 ResU-Net網絡結構
ResU-Net接收512像素×512像素.png的圖片和標簽作為神經網絡的輸入數據,在下采樣中加入跳躍連接,捕獲空間信息特征,得到32×32×1 024的特征向量,經過UpSample操作恢復空間信息,每次下采樣之后均會與對應的上采樣操作進行Concat級聯,防止丟失空間信息。
采用交叉熵損失(BCE)、結構相似性損失(structural similarity indes,SSIM)、交疊率損失(IoU損失)這3種損失函數,分別從3個不同的層次進行優化網絡。
2.2.1 交叉熵損失(BCE)
BCE函數分別評估每個像素點的預測值,將預測值與該像素點的標簽進行比較,然后對所有的像素點的比較結果求平均:
式中:G(r,c)為像素點是否為GT label;S(r,c)為預測出像素點為目標的概率。
2.2.2 結構相似性損失(SSIM)
SSIM從圖像組成角度將結構信息定義為獨立于亮度、對比度,反映場景中物體結構度屬性,并將失真建模為亮度、對比度和結構3個不同因素的組合。用均值作為亮度的估計,標準差作為對比度的估計,協方差作為結構相似程度的度量:
SSIM為補丁級別(patch-level,PL),重點關注于邊界。
2.2.3 交疊率損失(IoU損失)
IoU損失是將位置信息作為一個整體進行訓練。
將這3個損失結合起來,利用BCE對所有的像素點來保持其梯度平滑,用IoU損失關注前景信息,SSIM確保預測結果符合原始圖像結構,在邊界位置的損失較大。
優化模塊通過學習特征圖和標簽之間的殘差來優化預測模塊得到的粗略的特征圖。主要架構和預測模塊的架構類似,包含1個輸入層,encode、bridge、decoder和輸出層。和預測模塊不同,encoder和decoder有4個stages。每個stage只有1個卷積層,每層有64個濾波器,大小為3×3,后面跟著1個BN層和ReLu層。在下采樣時,encoder中使用非重疊的max pooling層,然后在上采樣decoder中,使用雙線性插值。將優化模塊的輸出當作模型最終的特征圖輸出。
基于數據集數量較小,采用U-Net網絡和Res-U-Net網絡;基于多尺度的地裂縫提取,采用PSPNet網絡;基于對地裂縫的幾何特征提取,采用BASNet網絡。
不同模型道路提取效果對比如圖2所示,綜合對比這4個網絡結構的預測結果,U-Net網絡略弱于其他的網絡結構,PSPNet和BASNet各有優缺點,對比U-Net網絡和Res-U-Net網絡,它們均采用了編碼器-解碼器結構,但是特征提取網絡采用了不同的方式。可以看出,Res-UNet網絡略優于前2個網絡;ResNet網絡的特征提取能力強于VGG網絡和U-Net網絡,可以讓網絡更好地學習到地裂縫的像素特征。對比PSPNet網絡和U-Net系列網絡,在U-Net系列網絡中,缺少了多尺度的特征模塊的提取,導致U-Net系列網絡對多尺度形態下裂縫提取處理不力,這樣會造成將許多非地裂縫的目標被錯誤判斷成為地裂縫,一些地裂縫未被識別出來。而PSPNet網絡加入金字塔池化模塊,基于不同區域的上下文聚合利用全局上下文信息,進一步減少不同子區域之間的上下文信息丟失。對比BASNet網絡和PSPNet網絡,BASNet網絡加入邊緣檢測算法的HED思想,提出了side output模塊并且輔以優秀的損失函數,使得網絡結構在檢測出裂縫位置的同時也可以在一定程度上反映出地裂縫的幾何特征。

圖2 不同模型道路提取效果對比
不同模型在測試集上的性能對比見表1,可見,Res-U-Net網絡比U-Net網絡在MIoU評價指標中提升了0.16。這是由于ResNet網絡強大的特征提取能力,因此在后面的網絡中,特征提取網絡選用的是ResNet網絡。PSPNet網絡相比于Res-U-Net網絡MIoU,又提升了0.03。這是由于多尺度模塊,其可以更加全面的檢測到地裂縫。BASNet網絡略優于PSPNet網絡,這是由于加入了輔助損失函數,可以細化裂縫邊緣信息。

表1 不同模型在測試集上的性能對比
本文基于寧夏寧東地區包括金鳳、馬蓮臺、羊場灣3個礦區的遙感影像地裂縫分割檢測任務,從數據獲取處理到網絡模型的選取,再到精度性能指標評價。采用深度學習的方法從語義分割的角度切入遙感圖像的地裂縫檢測,結合地裂縫樣本目標的特點,從來自高分16號衛星3張影像大圖中大幅影像中劃分出包含地裂縫的樣本的區域。由于地裂縫樣本目標所占比例遠小于影像整體比例,導致最終所獲得的數據集數量較少。也可通過搜集大量高質量的數據來擴充數據量,但遙感影像數據的獲取和標注是一項非常耗時和復雜的工作,數據直接會影響最后的分割效果,因此采用了數據增強的方法來擴充數據集,增加他的多樣性。同時,通過GAN的網絡生成一些高質量的數據。之后采用U-Net、VGG-U-Net、ResUnet、BASNet、PSP-Net這5種網絡進行對比實驗,分別研究了不同模型對于地面裂縫檢測的影響。結果表明:VGG-U-Net和ResUnet是對U-Net的改進,效果均有所提升;BANet采用了空洞卷積并加入裂縫形狀檢驗模塊,相比之前網絡效果更佳;PSPNet采用PSP金字塔池化模塊提取地裂縫的多尺度特征以實現不同尺度地裂縫的識別,考慮到裂縫周邊像素與地裂縫之間的語義聯系,取得了最好的識別效果。