王偉, 陸冬華, 高巖, 張怡婷
(核工業北京地質研究院遙感信息與圖像分析技術國家級重點實驗室, 北京 100029)
隨著遙感技術的發展,影像空間分辨率得到極大的提升,紋理細節特征更加豐富,因此近年來結合遙感數據和深度學習算法進行地物制圖和目標檢測成為了研究的熱點[1]。利用深度學習進行目標檢測,其理論精度的提升依賴于足夠復雜的網絡模型和足夠多且隨機訓練的訓練樣本。因此具有足夠代表性的樣本集構建是高精度目標檢測精度的先決條件。衛星數量和影像獲取途徑井噴式的增長帶來海量多樣的數據地同時,也帶來了信息的冗余和混雜,如何利用現有數據構建具有足夠表征能力的樣本集是目標檢測必須解決的問題。
部分研究者為了解決常規數據集無法滿足訓練任務的情況,利用可獲得的影像數據或視頻幀數據進行標注,構建了諸如港口車船目標,油田作業平臺等特殊關注目標的檢測數據集,并進行檢測應用[2-3],具有一定可行性。但對于小樣本特殊地物,其樣本量有限,因此簡單采集標注可能仍無法滿足模型對于檢測精度要求。
通過多源數據進行增廣,可以有效提高檢測模型的精度。閆皓煒等[4]基于天地圖、Pleiades、Worldview-2等多源數據建立了輸電塔地物的目標檢測數據集;孫震笙等[5]則利用合成孔徑雷達(synthetic aperture radar, SAR)影像構造了基于GF-3的輸電設施樣本集;韓永賽等[6]通過Google Earth Pro軟件從不同衛星,不同拍攝角度,對多個機場區域進行圖像采樣,建立了關于機場區域的檢測數據集。
而對于原始樣本進行變換的數據增廣策略一定程度上可以緩解因樣本量不足帶來的訓練結果不理想問題[7]。已有研究通過諸如幾何尺度變換、色域變換、噪聲注入[8]等單數據或Mosaic多數據混合方式進行增廣,均取得了顯著的精度提升。通過訓練已有樣本的潛在的數據分布特征,從而生成相似新樣本的生成式對抗網絡[9]是除了傳統增廣方式外另一種優秀的數據增廣方法。除此之外,通過對于檢測目標進行形態學運算增強其形態特征以生成新樣本也能夠對目標檢測精度進行提升[10]。
針對上文提出的有些地物樣本集獲取難度較大從而導致檢測模型泛化效果一般的問題,使用GF-2以及Google Earth影像數據構建不同類型的發電設施以及附屬建筑樣本集,通過基于形態學建筑物指數對原始樣本進行建筑物提取,豐富其結構及紋理特征,同時,利用生成式對抗網絡進行目標增廣,將新的數據集通過CutMix[11]方式進行合成,在此基礎上與原始樣本集一同在YOLOv5、EfficientDet、RetinaDet等模型進行訓練,經過增強后的樣本集檢測精度在各模型上均有不同程度的提升,證明該增廣研究對于遙感影像中的小類別目標檢測的模型精度提升具有直接意義。
對于遙感目標的特征提取,尤其是建筑物目標而言,結構紋理信息的重要性不可忽視。目前已有很多使用包括灰度共生矩陣[12]以及Gabor紋理特征[13]作為空間信息增強方式的研究,也不乏一些通過基于空間注意力[14]的深度學習方法對結構特征進行增強。
而形態學建筑物指數[15](morphological buil-ding index, MBI)基于圖像的形態學特征,綜合考察了建筑物的空間特征,從而表現出建筑物內部亮度較高而環境亮度較低的特征,其對于建筑目標的結構及紋理特征增強有著顯著的效果,尤其是對于諸如停車場,發電網等目標的紋理信息具有較好的增強效果。通過選擇各像元中可見光波段亮度最大值作為該像元的亮度值。在此基礎上建立微分形態剖面(DMPTH),以有效突出建筑物明亮的形態輪廓結構。表達式為
DMPTH={ΔTH(d,s),d∈D,s∈S}
(1)
式(1)中:ΔTH(d,s)為經過亮度重建后的圖像在各方向上進行白帽變換的結果;D和S分別為形態學開運算算子中的結構元素的各尺度和各方向。由于建筑物方向較多,而道路方向較為單一,為了區分道路和建筑物,在此基礎上通過計算不同方向(d,s)的DMPTH均值便可以定義建筑物指數。表達式為
(2)
式(2)中:其中求和參數d分別取1、3、5、7、9的結構尺度,s分別取30°、60°、90°、120°、150°、180°、210°、240°、270°的結構方向;Nd和Ns分別為不同結構元素的尺度和方向。由于建筑物內部各向同性,因此在微分形態學剖面中絕大多數尺度和方向上有著更大的特征值,所以MBI值較大的結構則更有可能是建筑物。通過設定一定閾值,便可以提取出MBI紋理中的建筑物信息。
生成式對抗網絡[16](generative adversarial network, GAN)由生成器和判別器兩個網絡構成,其結構如圖1所示。其中生成器網絡用于從隨機噪聲中生成圖像數據,而判別器網絡將生成器網絡生成的數據與真實數據相比較進行辨別。通過二者的對抗,最終達到平衡,生成器能夠生成更加真實的數據,而判別器則能夠更好地區分真假數據。

圖1 GAN與DCGAN示意圖Fig.1 Structure of GAN and DCGAN
DCGAN (deep convolutional GAN, DCGAN)主要是在原始對抗網絡的基礎上將其中的生成器和判別器替換卷積網絡。通過添加卷積層以及批量正則化層,使得生成的樣本質量以及模型的收斂速度得到了提高。
為了使DCGAN技能區別真圖像又能區分假圖像,因此判別器的損失函數定義為

(3)
CutMix作為一種樣本增強的手段,通過隨機裁剪某一樣本的某一區域,然后利用另一樣本相同區域補充形成新的樣本,以提高檢測模型對于樣本的泛化能力,樣本合成的具體過程表示為
(4)

Mosaic增強方法作為CutMix的改進版,通過將四幅樣本進行隨機翻轉縮放裁剪再拼接到一幅圖像上進行訓練,通過此方法不僅豐富了背景樣本,且在批正則化時同時考慮了四幅圖像的數據,可以有效泛化模型從局部識別對象的能力。
以GF-2以及Google Earth上的可見光高分辨率遙感影像為數據源,按照不同成像時間,不同拍攝角度采集228個發電站數據。對于GF-2采集的影像進行數字正射校正,融合裁剪預處理。將所有樣本裁剪至763×763大小后,按照VOC2007數據集格式進行樣本標注。經過樣本標注后得到包含2 128個不同場景下的發電設施樣本集,總共涵蓋煙囪、變電設施、停車場、發電網、冷卻塔八類地物,共3 990個標簽,每幅圖像中至少包含一個地物目標。數據集示意圖如圖2所示。

圖2 數據集中樣本Fig.2 Samples in dataset
2.2.1 MBI增廣
形態學中的開運算包括腐蝕和膨脹兩部分,通過二者結合,可有效去除圖像中的噪聲,并保留原有信息。經實驗效果驗證,設定腐蝕算子dmin尺度為3,膨脹算子dmax尺度為20可取得較好的圖像平滑效果。同時在45°、90°、135°各方向上對圖像亮度進行微分形態學剖面重建。通過計算各尺度各方向上的微分形態剖面均值,可有效提高道路和建筑物間的差異,得到形態學建筑物指數提取的結果如圖3(b)所示。

圖3 形態學建筑物指數增強過程Fig.3 MBI enhancement process
為了更好地反映建筑物形狀,利用skimage庫中的threshold_otsu閾值分割方法,對提取得到的MBI指數進行自動閾值分割,得到如圖3(c)所示的建筑物區域二值圖像。
最后將原始圖像[圖3(a)]與建筑物提取結果逐像元逐通道相加。同時設定亮度上下界為0和255。最終得到如圖3(d)所示的紋理疊加增強結果。
2.2.2 DCGAN增廣
由于DCGAN對于復雜的地物訓練效果不佳,難以收斂。但是對于結構較為簡單的目標地物通過訓練可以生成滿足要求的結果。通過使用初始學習率0.001,Adam優化器,動量0.5、150個世代數,輸出尺寸64和128,對兩類蒸發塔進行訓練,得到圖4所示兩類蒸發塔在DCGAN中的訓練過程。其中每行分別為兩類蒸發塔在第0、10、50、100、150個世代的訓練結果。

圖4 利用DCGAN對兩類蒸發塔的訓練過程Fig.4 Training process of two types of evaporation towers using DCGAN
2.2.3 MBI-CutMix增廣
CutMix通過將原始樣本進行隨機裁剪拼接,在一定程度上能夠提高模型的檢測精度。通過將MBI增廣后的樣本進行隨機翻轉,裁剪作為背景樣本,并將之與DCGAN生成的樣本以及部分原始標簽樣本進行CutMix增廣,使用該復合增廣方法,不僅可以復用利用已有的樣本,同時也加入了新的檢測信息,相比僅用原始樣本集中的樣本訓練,其檢測效果更好。原始樣本集中包含2 128個訓練樣本,206個驗證樣本,經過MBI-CutMix增廣后,訓練樣本集擴充至4 253,驗證樣本集擴充至402。部分MBI-CutMix增廣結果如圖5所示。

圖5 MBI-CutMix與原始樣本對比Fig.5 Comparison between MBI-CutMix and original sample
YOLOv5是一種常用的單階段目標檢測網絡,其基本思路就是將一幅圖像各特征層分成若干網格,如果某個對象中心落于該網格中,那么該網格就負責預測該對象的類別及預測框信息,由于該網絡在速度與精度方面取得較好的平衡,因此選擇該網絡作為增廣方法檢測模型。
分別將原始樣本,Mosaic增廣后的樣本, MBI-CutMix增廣的樣本輸入到YOLOv5-s模型中進行訓練。模型訓練超參數設置如表1所示。

表1 檢測模型超參數設置Table 1 Detection model hyperparameters setting
模型訓練過程損失變化如圖6所示,由圖6可知,開始時,三個樣本集損失迅速下降,50個epoch后,三者損失均趨于穩定。使用MBI-CutMix增廣的數據集損失下降速度要快于另外兩種方法,Mosaic增廣方法的損失下降速度于三者中最慢。

圖6 三種增廣方法損失變化Fig.6 Loss variation of three augmentation methods
三種方法在YOLOv5-s上訓練得到的檢測精度如表2所示,其中模型的精度衡量使用所有類別的平均精度值表示。

表2 三類數據集在YOLOv5-s上的檢測精度Table 2 Accuracy of three types of datasets on YOLOv5-s
其中Mosaic增廣方法訓練的模型對于樣本集的檢測精度僅有64.71%,比原始數據訓練方法降低了5%。而使用MBI-CutMix方法相比原始數據方法訓練的模型,整體精度提升了2%。Mosaic雖然可以有效增加背景樣本的復雜性以及提高批正則化標簽數量,但對于遙感圖像的復雜樣本,合成過程中可能反而會導致某些樣本信息的丟失,造成特征提取能力下降,目標檢測效果不理想。因此,在對于不同類型的目標數據集進行樣本增廣策略研究時,應當有不同的取舍,不當的使用增廣策略可能反而會導致訓練精度的下降。
Faster RCNN繼承于RCNN,是使用最為廣泛的兩階段檢測模型。而SSD、RetinaDet、EfficientDet相是除YOLO模型外,目前較為優秀的目標檢測模型,尤其在小目標地物檢測中有較多應用[17-18]。為了驗證MBI-CutMix數據增廣方法在不同模型上的表現,分別將原始樣本和經MBI-CutMix方法增廣后的樣本,輸入到Faster RCNN、SSD、RetinaDet、EfficientDet模型中,設定200個世代數進行訓練,最終得到各模型檢測精度如表3所示。通過觀察兩種方法的訓練結果,可以看到MBI-CutMix方法相比原始樣本集,在各類型的檢測模型中,均有一定程度的精度提升,其中EfficientDet模型的總體精度提升了5.61%,效果最好。通過在多個模型上對MBI-CutMix增廣方法進行驗證,結果表明該增廣方法對于目標檢測模型精度有明顯的提升效果。

表3 MBI-CutMix方法在不同檢測模型上的精度Table 3 Precision of MBI-CutMix method on different detection models
表4分別描述了原始樣本以及利用MBI-CutMix方法增廣后樣本集中的各類別驗證樣本在EfficientDet模型上的平均精度。

表4 各類別地物平均精度對比Table 4 Comparison of average accuracy of different classes
表4所示結果,一方面可以證明利用MBI-CutMix增廣方法對于樣本集的總體精度有一定提升;另一方面可以看出使用增廣后樣本對于Reactor-1、Reactor-2復雜目標樣本的精度提升明顯,具體精度相比原始模型分別由0.89、0.83提升至0.93、0.94,由于Cooling-1以及Power Grid類別自身精度較高且地物目標相對簡單,因此改進模型對于這類地物的檢測精度提升不甚明顯。由于自身樣本數量的限制以及類別目標特征較復雜,地物組成較難判別等因素導致針對Cooling-2的小目標檢測精度仍相對較低。
為了從檢測結果角度觀察各增廣方法的提升效果,分別將測試樣本輸入到以原始樣本集訓練,MBI-CutMix樣本集訓練的EfficientDet模型中進行檢測,得到如圖7的檢測結果。

圖7 原始訓練模型與MBI-CutMix訓練模型檢測效果對比Fig.7 Comparison of detection effects between the original training model and MBI-CutMix training model
MBI-CutMix方法增強了樣本的相關紋理信息,模型通過學習相關特征,使其對于紋理特征明顯的地物檢測更為敏感。因此對于待檢圖像中紋理信息突出的地物召回情況有所改善,提升召回情況的同時,對于目標的置信度也有一定程度改善。在檢測結果1中關于停車場的置信度由0.55提升至0.67,發電網置信度由0.74提升至0.90。經過MBI-CutMix數據增廣后訓練得到的模型在針對于紋理信息較為突出的目標檢測時,其檢測效果相比于原始訓練集訓練的模型確實有一定的優勢,突出體現在對于含紋理對象的召回檢出的提升,這對于從大范圍影像中檢出感興趣目標而言,具有積極意義。
遙感圖像的目標檢測,往往因其樣本獲取難度較大,結構紋理信息不足等因素導致其識別精度較低。單純使用傳統的數據增廣方法,對于模型的精度提升能力有限。針對已有問題,提出基于形態學建筑物指數結合生成式對抗網絡的數據增廣方法,并驗證其在不同模型上的檢測效果。得出以下主要結論。
(1)通過形態學建筑物指數對已有的樣本進行預處理,能夠有效提升樣本的紋理信息。而生成式對抗網絡對于煙囪,蒸發塔等一些結構簡單的地物,其生成效果較好。利用CutMix方法對二者進行合成,能夠有效的提升遙感目標檢測的樣本集數量,增強模型訓練檢測的魯棒性,對比原始檢測方法,利用增廣后的樣本進行訓練,尤其對于停車場和發電網的召回情況有所改善。
(2)對于發電設施等數據集,通過將挖掘得到的信息與原始信息進行增廣,相比直接利用Mosaic方法進行學習的效果更好。利用該方法改善了由于模型對原始樣本集特征學習不足導致的精度過低。通過實驗驗證,利用形態學建筑物指數結合生成式對抗網絡的數據增廣方法,對于諸如發電設施相關的遙感目標檢測模型提升顯著,在多個檢測模型上均有2%~5%的精度提高,對于待檢目標的召回情況以及置信度均有一定的提升,這對于針對大范圍的遙感圖像目標檢測具有積極意義。
本文提出的基于形態學建筑物指數結合生成式對抗網絡的數據增廣策略,對于一些基于遙感影像的目標識別,尤其是對于樣本量較少的特殊感興趣地物的目標識別具有一定借鑒意義。