基于深度學習和高分辨率遙感影像的露天礦地物分類方法

2022-07-15 09:23:20宋仁忠鄭慧玉王黨朝王興娟張成業

中國礦業 2022年7期

宋仁忠，鄭慧玉，王黨朝，尚志，王興娟，張成業，李軍

(1.神華北電勝利能源有限公司，內蒙古錫林浩特 026015；2.中國礦業大學(北京)地球科學與測繪工程學院，北京 100083)

0 引言

礦產資源是十分重要的自然資源，礦區開采促進了區域經濟發展，但也會造成地表景觀發生改變[1]。隨著時間的推移以及開采力度的加大，正常土地利用格局會發生改變，同時也進一步對生態環境造成影響[2-3]。在露天礦開采過程中，由于其土地利用類型較為特殊，地表會產生很大的變化，改變原區域的土地利用類型[4]，因此對露天礦區各地物土地利用變化的監測是行業關注的重點問題[5-6]。

目前部分研究者利用露天礦區的遙感影像數據，通過不同的方法進行土地利用類型分類的應用研究仍在發展。董佰山等[7]對面向對象的SVM分類和基于像素的SVM分類法進行對比研究，表明前者能有效對礦區土地利用進行精度分類，但是SVM算法對大規模遙感圖像分類難以實施；高文龍等[8]研究比較不同的分類方法，結果得出隨機森林法的分類精度更高，但是在某些噪音較大的分類或回歸問題上效果不太理想；蔡來良等[9]對礦區點云數據進行自動分類研究，可對研究數據進行快速分類識別地物類型，進行精細分析，但是該研究需要進行彩色三維激光掃描，并提前進行掃描工作，還要考慮掃描儀測量的精度問題。

基于深度學習的遙感影像分類逐漸應用到各個領域，通過自動學習原始數據中的特征及規律能夠準確識別“同物異譜，異物同譜”型的地物[10-11]。LECUN等[12]對卷積神經網絡開展研究工作，但是當時對海量遙感影像數據的應用效果并不理想。LONG等[13]提出了全卷積神經網絡(FCN)的概念，實現了逐像素分類的方法，這也為深度學習解決圖像的語義分割問題奠定基礎。在遙感領域，FCN被廣泛應用于目標檢測、影像分類和信息提取中。隨后U-Net模型[14]、SegNet模型、DeepLab模型、PSPNet模型等語義分割的網絡模型開始不斷發展，語義分割網絡在遙感地物分類中的應用研究也逐漸增多。李帥[15]構建具有高精度的農田識別與分類的應用系統，有效地提高了對研究區的分類精度，但是仍然存在些許不足。MAGGIORI等[16]構建了一種基于FCN的遙感圖像分類框架，實現了高分辨率遙感影像的逐像素密集分類。劉倩等[17]提出一種顧及空間信息與FCN的高分辨率遙感影像分類方法，改善了空間信息缺乏和特征信息提取困難等情況。王協等[18]提出了一種神經網絡模型，基于多尺度學習進行研究分析，表明該方法的分類精度與傳統方法相比更高。李文斌等[19]利用圖像底層特征制作像素級標簽完成FCN模型訓練，克服了背景復雜和目標尺度變化大等問題。通過上述研究可以看出，高分辨率遙感數據在很多領域都發揮了重要的作用。將高分辨率影像中的各種地物特征信息相結合研究分類情況，在有效提高分類精度的同時，分類后的圖像也包含更多的信息[20]。與傳統的分類方法相比，基于深度學習的方法，有利于提高礦區土地利用分類的精度[21]。但是目前對于露天礦區地物的分類研究方法還難以有效利用高分辨率影像數據的優勢[22]，并且當前階段鮮有將深度學習應用于露天礦區高分辨率遙感影像開展土地利用識別工作中。

本文基于高分二號遙感影像的露天礦區數據，采用U-Net模型對露天礦區進行分類研究。首先建立不同的礦區類別樣本庫，構建U-Net模型的訓練集、驗證集以及測試集，進行地物特征信息提取；然后對不同的樣本數據進行訓練，優化網絡模型的精度，訓練出最優的模型；最后對露天礦區土地利用進行分類研究，并且對模型識別的結果進行精度評價。本文采用的方法可以適用于不同的露天礦區高分辨率遙感影像數據的自動識別與分類。

1 數據

1.1 地物類型分類數據

本文露天礦區遙感影像數據來源于高分二號影像，其地理坐標系為WGS84坐標，全色影像分辨率為1 m，多光譜影像分辨率為4 m。本文在綜合研究露天礦區分類類別體系的基礎上，將露天礦區的地物類型分為7類，分別為露天采場、礦區建筑物、堆煤場、道路、水體、裸地以及植被，構建了露天礦區分類類別的樣本庫，露天礦區各分類類別和對應的特征描述見表1。

表1 露天礦區典型地物解譯標志Table 1 Interpretation of typical feature signs in open-pit mining areas

1.2 礦區分類樣本數據集

分類樣本的數據制作主要分為高分數據預處理、影像裁剪、樣本數據制作與裁剪，具體流程如下：首先獲取高分二號數據進行預處理，主要有輻射定標、大氣校正、正射校正和圖像融合。由于深度學習程序計算量大，需對影像數據進行裁剪，裁剪成像素為2的n次方的大小有助于計算識別。本文數據裁剪是對研究的露天礦區高分二號影像進行裁剪，創建尺寸為512×512像素的矢量文件，即每個矢量文件都是像素大小為512的矩形，再通過代碼利用矢量文件將露天礦區影像批量裁剪成512×512像素的子影像。然后根據裁剪好的子影像利用ArcGIS軟件創建面狀矢量數據，進行樣本勾畫，并將樣本矢量數據轉為柵格數據，柵格化時需注意分辨率和裁剪得到的高分二號子影像相同，并對柵格化后的樣本柵格數據進行裁剪，得到尺寸為512×512像素的標簽數據。最后，獲得多組一一對應的子影像和標簽。其中劃分露天采場共有597幅圖像，礦區建筑物共有482幅圖像，道路共有280幅圖像，水體共有125幅圖像，裸地共有349幅圖像，堆煤場共有200幅圖像，植被共有200幅圖像，共計2 233幅圖像，樣本總面積為585.37 km2，部分樣本數據如圖1所示。

圖1 部分子影像及其對應標簽Fig.1 Selected sub-images and their corresponding labels

數據集劃分為訓練集、驗證集以及測試集，將訓練集和驗證集輸入到U-Net模型網絡中，構建分類模型。由訓練集訓練得到最優的網絡模型，再用驗證集進行驗證，最后對測試集的不同地物類型進行預測，得到預測的分類結果并進行精度分析。

2 方法

本文首先獲取高分二號數據進行預處理；然后對露天礦區地物進行目視解譯識別分類，建立礦區分類樣本庫，分為訓練集、驗證集和測試集，并對樣本庫進行數據擴充，將訓練集和驗證集放入U-Net模型中進行訓練，通過多次迭代構建和優化分類模型，再用測試集進行測試，得出分類結果；最后進行精度評價，繼而得到露天礦區土地利用類型分類情況，開展基于深度學習和高分影像的露天礦區土地利用分類研究，技術路線如圖2所示。

圖2 技術流程圖Fig.2 Technical flow chart

2.1 U-Net網絡模型

本文使用的U-Net網絡模型方法采用的是完整的編碼器-解碼器思想，是一個全卷積網絡(FCN)，呈現出一種對稱的U形結構。該網絡由左半邊的收縮路徑(contracting path)和右半邊的擴張路徑(expansive path)組成。收縮路徑部分由4層網絡組成，每一層包含兩個卷積核為3×3的卷積特征提取層和一個池化核為2×2的最大池化層。擴張路徑與收縮路徑對稱，同樣由4層組成，每一層包含兩個卷積核為3×3的卷積特征提取層和一個卷積核為2×2的反卷積層，并且收縮路徑與擴張路徑之間通過跳躍連接將低層級特征與高層級特征進行融合，通過跳躍連接將收縮路徑的圖像細節傳遞到擴張路徑，有利于恢復特征細節信息，緩解網絡訓練過程中可能產生的梯度消失問題，加快網絡訓練速度。在擴張路徑的最后一層，通過卷積核為1×1的卷積層和Sigmoid激活函數輸出識別結果。圖3為本文使用的U-Net模型架構圖。U-Net模型是一個輕量級的網絡結構，網絡參數少，支持小樣本條件下的訓練模型，其最早應用于醫學影像語義分割中，目前在遙感影像處理領域也呈現出較強的應用潛力，能夠對高分辨率遙感影像的不同地物進行識別，如建筑物[23-24]和水體[25]。

圖3 U-Net模型架構圖Fig.3 Architecture diagram of U-Net model

2.2 數據增強

在構建模型的同時還對影像數據進行了增強，使實驗的網絡模型訓練效果更好，并且提高樣本的質量和數量，數據增強的方法如圖4所示。

圖4 數據增強的方法Fig.4 Methods of data enhancement

3 結果

3.1 分類方法對比結果

本文為了更好地體現U-Net模型對地物識別的優勢，對比了最大似然法、隨機森林算法和支持向量機的分類結果。四種分類方法對露天礦區各地物的識別結果如圖5所示。由圖5可以看出，最大似然法對地物的分類結果與參考值范圍差別最大，支持向量機和隨機森林算法次之，基于深度學習的U-Net模型對影像的各地物分類結果與參考值范圍差別最小，精度最好。

圖5 四種分類方法結果圖Fig.5 The results of the four classification methods

為了定量分析四種分類方法的精度，本文根據三個指標對結果進行評價，分別是精確率(Precision)、召回率(Recall)和F1分數(F1-score)。

精確率(Precision)是精確性的度量，即被預測為正樣本的樣本中有多少數量為真正的正樣本，其數學表達式見式(1)。

(1)

召回率(Recall)是覆蓋面的度量，即正樣本總數中有多少實際正樣本數被預測出來，其數學表達式見式(2)。

(2)

F1分數(F1-score)是Precision和Recall的調和平均數，找到Precision和Recall的最佳組合，也是分類問題的一個衡量指標，其最大為1，最小為0，數學表達式見式(3)。

(3)

式中：TP為實際是正數據預測也為正數據的數量；FP為實際為負數據預測為正數據的數量；FN為實際為正數據預測為負數據的數量；TN為實際為負數據預測也為負數據的數量，將上述概念用矩陣示意表顯示見表2，四種分類方法的精度結果見表3。

表2 不同概念矩陣示意表Table 2 Illustrative table of different concept matrices

表3 四種分類方法精度結果Table 3 Accuracy results for four classification methods

由表3可知，U-Net模型對露天礦區地物分類的精度最高，識別效果最好，精確率(Precision)、召回率(Recall)和F1分數(F1-score)分別達到0.86、0.82、0.84。最大似然法的分類精度最低，可能是由于最大似然法是對近似正態分布的目標光譜特征進行分類，而本文露天礦區地物的分布不符合該條件。隨機森林算法和支持向量機在三個精度指標模型上均低于U-Net模型，說明基于深度學習的U-Net方法可以有效提高高分辨率遙感影像的分類精度，能更好地對露天礦區的地物進行識別。

3.2 U-Net模型實驗結果

通過U-Net模型對露天礦區各地物類型進行識別，部分結果如圖6～圖12所示。將識別區與參考值進行對比分析，得出相應結果的精度指標。

圖6 露天采場識別結果Fig.6 The results of open-pit identification

圖7 礦區建筑物識別結果Fig.7 The results of mine site building identification

圖8 水體識別結果Fig.8 The results of water body identification

圖9 道路識別結果Fig.9 The results of road identification

圖10 堆煤場識別結果Fig.10 The results of coal stockpile identification

圖11 裸地識別結果Fig.11 The results of bare ground identification

圖12 植被識別結果Fig.12 The results of vegetation identification

從圖6可以看出，露天采場的邊界部分存在較多的漏識別區，且識別邊界較為破碎。圖10和圖11為堆煤場和裸地的部分識別結果，從識別結果和參考值的對比可以看出，識別結果在邊界處存在較多漏識別區，但是與露天采場的邊界識別結果相比更為整齊。從圖12可以看出，植被識別的結果中存在些許空洞，這主要由于礦區的地表異質性導致的模型沒有完全將植被識別出來。從圖7、圖8和圖9可以看出，礦區建筑物、水體和道路的模型識別結果較為理想，識別區與參考值的區域相對吻合。

3.3 U-Net模型精度評價

構建網絡模型并且完成模型訓練后，還需對模型的精度進行評價，本文從精確率(Precision)、召回率(Recall)和F1分數(F1-score)，U-Net模型對各地物識別結果的具體精度見表4。

表4 分類結果精度Table 4 Accuracy of classification results

由表4可知，礦區建筑物、水體、植被的分類精度較高，堆煤場的分類精度最低，可能是由于不同地區不同年份的堆煤場情況不同，在遙感影像上顯示的地物特征有所區別，導致模型識別時預測出現誤差。

研究區域中水體、植被、礦區建筑物的Precision、Recall和F1-score值較高，分別是0.94、0.89、0.91，0.93、0.89、0.91和0.92、0.87、0.89，這三項指標均高于露天采場、道路、裸地和堆煤場，可能是由于水體、植被和礦區建筑物具有更明顯的地物特征，對模型能更好地進行訓練，誤差相對較小，從實驗結果也可以看出模型對于水體、植被和礦區建筑物的預測識別更加準確。道路和裸地的精度評價結果相似，屬于易混淆的類別，原因是它們的影像特征相似，在進行深度學習識別時，模型存在一定程度的預測誤差，精度結果表明模型能夠對露天礦區的土地利用類型進行有效識別與分類。

4 結論

本文針對礦區的實時監測和生態環境管理的重大需求，提出了基于深度學習的高分辨率遙感影像的露天礦區地物識別方法，主要結論如下所述。

1) 對于礦山開采過程與環境評價問題中常規的監測方法費時、費力、頻次低，無法進行定期大面積同步觀測[26]。而本文基于U-Net模型使用高分辨率遙感影像數據，能在較短時間內自動識別出特定的地物類型，有利于快速高效地研究礦區地表變化以及分析對周邊環境的影響情況，可以實現對大數據的預測。

2) 通過不同方法的分類結果和精度評價進行對比，結果表明，本文使用的U-Net模型對露天礦區地物識別的精度最高，優于最大似然、隨機森林和支持向量機的分類方法。說明深度學習的分類方法能有效的進行地物特征提取并對露天礦區的各地物進行自動識別分類。

綜上所述，本文方法可以為露天礦區的地物分類提供技術支撐，開展對礦區生態環境的監測與修復應用。但是本文在取得結果的同時仍有不足之處，比如本文研究的模型是對研究區域進行二分類，可將模型優化改進為多分類識別。同時可以對長時間序列的礦山地物變化進行動態監測研究，進行更多優化的深度學習網絡模型對比，更快更精準地識別出目標類型。