





[摘要] 深度學習已成為一種高效且精確的遙感圖像分類方法。針對生產建設項目擾動圖斑識別問題,從目標識別和變化檢測兩種思路出發,對比評價Unet、Unet++和Unet3+三種深度學習網絡模型的識別精度,以提出最優的擾動圖斑識別策略。結果表明:基于目標識別策略和變化檢測策略時,均為Unet模型表現最優,其檢測結果分割邊界清晰平滑,誤檢、漏檢情況較少,無冗余特征,預測結果更接近于標簽圖像,識別效果最佳。當遙感影像質量滿足要求、需要精細化的認定結果時,采用基于變化檢測策略的Unet深度學習網絡模型可作為生產建設項目擾動圖斑提取的最優模型;當遙感影像質量不佳或僅有單時相遙感影像,且需要快速確定擾動區域時,宜采用基于目標識別策略的Unet網絡模型;當訓練數據集足夠支撐模型訓練時,可考慮使用結構更加復雜、細節提取能力更強的Unet++與Unet3+網絡模型。
[中圖分類號] TP751;TP18[文獻標識碼] ADOI:10.3969/j.issn.1000-0941.2024.08.007
[引用格式] 盧慧中,卞雪,金秋,等.基于深度學習的生產建設項目擾動圖斑提取算法和識別策略[J].中國水土保持,2024(8):23-28.
2022年12月,中共中央辦公廳、國務院辦公廳印發的《關于加強新時代水土保持工作的意見》提出,全覆蓋、常態化開展水土保持遙感監管,全面監控、及時發現、精準判別人為水土流失情況,依法依規嚴格查處有關違法違規行為。2023年2月,水利部辦公廳印發的《2023年水土保持工作要點》提出,要持續深化遙感監管。組織開展覆蓋全國范圍的水土保持遙感監管,完善遙感解譯判別、核查認定和問題銷號標準,提升智能解譯判別水平,是當前和今后一段時期我國水土保持工作的重要內容。
目前擾動圖斑解譯仍以傳統人機交互目視解譯為主,工作效率較低、成果標準不統一,難以滿足新時期新形勢下水土保持信息化監管的需求。隨著人工智能、大數據等技術的快速發展,深度學習迅速成為一種高效且精確的遙感圖像分類方法,它可以自動從像素級別的原始影像數據中提取地物特征信息,特征學習能力強,擬合、模型預測精度高[1]?;谏疃葘W習方法進行生產建設項目擾動圖斑遙感影像的自動提取,已成為水土保持信息化監管的重點研究方向。目前對生產建設項目擾動圖斑的識別,可以分為目標識別和變化檢測兩種思路。在利用同一時相影像進行擾動圖斑識別方面,金平偉等[2]基于深度學習原理,構建了生產建設項目擾動圖斑自動識別分類CNN模型,并利用2020年高分一號遙感影像和已有的生產建設項目水土保持信息化監管成果數據對模型進行了訓練和應用效果檢驗;伏晏民等[3]以2020年四川省水土保持動態監測高分遙感影像作為數據源,引入殘差思想與注意力機制改進Unet網絡,模型預測結果中改進模型的分割邊界相對于Unet模型更加清晰平滑,相對于Attention Unet模型(引入注意力模塊的Unet模型)的預測結果更加接近于標簽圖像,模型更加穩定。在利用不同時相影像進行擾動圖斑的變化檢測方面,舒文強等[4]選取時相為2020年10—12月和2021年1—3月的遙感影像,研究擾動圖斑變化智能檢測,結果表明通過比較兩期影像的語義信息輸出變化圖斑,可以較為準確地定位地物類發生變化的區域,提取的變化圖斑邊界與實際變化區域較為貼合。
然而,目前很少有研究對目標識別和變化檢測兩種思路進行對比分析,此外,不同應用場景下擾動圖斑的快速精準提取方法有待提高。因此,本研究以江蘇省徐州市為研究區,從目標識別和變化檢測兩種思路出發,分別建立目標識別和變化檢測生產建設項目擾動圖斑數據集,分析生產建設項目擾動圖斑臨域、時序等圖像特征,通過深度學習語義分割模型精度評價指標,對比分析生產建設項目擾動圖斑的自動快速識別技術,并提出最優擾動圖斑識別策略,以期為生產建設項目擾動圖斑自動識別、分類提取提供技術支撐。
1研究區概況
徐州市位于江蘇省西北部,地跨東經116°22′~118°40′、北緯33°43′~34°58′,東西長約210 km,南北寬約140 km,土地總面積11 765 km2,約占江蘇省土地總面積的11%。徐州市水土流失主要分布在生產建設活動相對集中的城區、采礦用地及坡度相對較陡且植被覆蓋度較低的低山丘陵區等區域,生產建設活動導致的人為水土流失是當前徐州市水土流失的主要來源。
2研究方法
2.1技術路線
本研究采用的遙感影像數據源為高分一號衛星影像,包含紅、綠、藍3個波段,分辨率為2 m,前時相為2021年5月,后時相為2022年5月。數據預處理過程主要包括大氣校正、幾何校正、深度轉換、直方圖匹配等。在單時相和多時相高分遙感數據的基礎上,建立擾動圖斑目標識別數據集,應用Unet、Unet++、Unet3+三種深度學習網絡模型進行目標識別和變化檢測的模型訓練、驗證和預測,提取擾動圖斑特征。對目標識別和變化檢測兩種擾動圖斑識別方法進行精度評價,從識別效果、水土保持監管需求、應用難度3個方面分析擾動圖斑識別策略。
2.2數據集制作
以江蘇省水土保持信息化監管工作成果為數據源,制作樣本切片和標簽,切片大小為256×256像素。目標識別數據集的標注原理為:將擾動圖斑標記為1,非擾動圖斑標記為0。變化檢測數據集的標注原理為:將變化部分標記為255,非變化部分標記為0。為增加數據集規模,采用水平翻轉、垂直翻轉、隨機裁切、上下左右平移變換等變換方式增加樣本數據。數據樣本增加后,目標識別生產建設項目擾動圖斑數據樣本為4 420個,變化檢測生產建設項目擾動圖斑數據樣本為10 440個, 盧慧中等:基于深度學習的生產建設項目擾動圖斑提取算法和識別策略將標注樣本按8∶1∶1劃分為訓練集、驗證集、測試集。
2.3試驗環境
試驗平臺配置為Windows10專業版操作系統配置飛槳(PaddlePaddle)深度學習平臺,GPU為Tesla V100,CPU為酷睿雙核,內存為16 GB,顯存為16 GB,硬盤容量為100 GB,編程軟件為Python 3.7,深度學習框架系統為PaddlePaddle 2.2.2。
2.4深度學習網絡模型
本研究采用Unet、Unet++、Unet3+三種深度學習網絡模型結構。Unet在神經元結構分割方面取得了巨大的成功,由于功能在層之間傳播,因此其框架是突破性的[5]。后續在Unet的基礎上涌現出許多優秀的架構,如Unet++、Unet3+等。Unet模型作為全卷積網絡的一種,沒有全連接層,而是依賴卷積層、池化層從影像中提取不同的特征,利用反卷積層來還原影像大小。Unet++網絡結構以Unet為基礎,添加了重新設計的跳躍路徑、密集的跳躍連接及深度監督,Unet++模型中的跳躍連接重點在于融合編碼器和解碼器之間語義上不同的特征[6-7]。Unet3+去掉了Unet++的稠密卷積塊,提出了一種全尺寸跳躍連接。全尺寸跳躍連接改變了編碼器和解碼器之間的互連,以及解碼器子網之間的內連接,讓每一個解碼器層均融合了來自編碼器中的小尺度和同尺度的特征圖,以及來自解碼器的大尺度特征圖,這些特征圖捕獲了全尺度下的細粒度語義和粗粒度語義[8]。3種網絡模型結構見圖1。圖1Unet、Unet++、Unet3+網絡模型結構
2.5網絡模型訓練
在PaddlePaddle 2.2.2深度學習框架系統中,用訓練集和驗證集數據對Unet、Unet++、Unet3+網絡模型進行訓練、驗證,得到參數調整后的訓練模型。在模型訓練過程中,學習策略為高斯隨機初始化參數,學習率為余弦退火策略,激活函數為ReLUctant,并采用Adam優化器和混合損失函數。超參數初始設置為:學習率為8×10-5;二元交叉熵損失函數權重為0.3;洛瓦斯分類損失函數權重為0.7;Epoch設定為30輪;Batch size設置3組,分別為4、8、16。
2.6精度評價指標
3結果與分析
3.1基于目標識別策略的單時相遙感影像擾動圖斑識別
基于目標識別策略,采用3種網絡模型在不同測試集上擾動圖斑的識別精度評價結果見表1。對于Unet模型,在Batch size為4時所有精度評價指標表現均為最好,即準確率為0.967 9、均交并比為0.864 3、Kappa系數為0.924 1、F1分數為0.848 2,訓練時間為81 min。對于Unet++模型,在Batch size為8時的所有指標表現均為最好,即準確率為0.955 2、均交并比為0.834 1、Kappa系數為0.905 2、F1分數為0.810 5,訓練時間為79 min。對于Unet3+模型,在Batch size為4時所有指標表現均為最好,即準確率為0.962 4、均交并比為0.848 6、Kappa系數為0.914 3、F1分數為0.828 7,訓練時間為241 min。
為了全面評估3種網絡模型結構對擾動圖斑的識別精度,分別選擇Unet、Unet++、Unet3+模型在訓練預測中表現最優的結果進行對比分析。在準確率方面,Unet(0.967 9)>Unet3+(0.962 4)>Unet++(0.955 2);在均交并比方面,Unet(0.864 3)>Unet3+(0.848 6)>Unet++(0.834 1);在Kappa系數方面,Unet(0.924 1)>Unet3+(0.914 3)>Unet++(0.905 2);在F1分數方面,Unet(0.848 2)>Unet3+(0.828 7)>Unet++(0.810 5);在訓練時間上,Unet++(79 min)<Unet(81 min)<Unet3+(241 min)。綜合所有精度評價指標來看,Unet模型表現為最優,其次是Unet3+模型,Unet++模型表現最差,然而Unet3+模型因網絡結構最為復雜,故訓練時間最長,遠高于Unet模型和Unet++模型。
基于目標識別策略,采用3種網絡模型結構的擾動圖斑預測結果見圖2。綜合來看,Unet模型的檢測結果分割邊界波動幅度小,與真實地物標簽吻合度最好,誤檢、漏檢情況最少,冗余特征較少,預測結果最接近于標簽圖像。Unet++和Unet3+模型的檢測結果分割邊界不清晰、破碎、波動幅度大,冗余特征較多,誤檢、漏檢的情況也較多,預測結果與標簽圖像差異較大。雖然3種網絡模型的檢測結果均存在誤檢、漏檢情況,但Unet模型的預測效果最為穩定。其原因可能是:一方面目標檢測數據集為整個施工擾動區域,邊界不夠明確;另一方面Unet++和Unet3+模型相比Unet模型,結構更加復雜,特征提取能力更強,所需的訓練樣本數量也更多,在訓練數據集較小的情況下,出現了訓練過擬合與提取了錯誤地物特征的現象。總體來看,基于Unet模型的預測效果最好,Unet3+網絡的預測效果優于Unet++模型。
3.2基于變化檢測策略的多時相遙感影像擾動圖斑識別
基于變化檢測策略,采用3種網絡模型在不同測試集上的擾動圖斑識別精度評價結果見表2。對于Unet模型,在Batch size為16時所有精度評價指標表現均為最好,即準確率為0.991 7、均交并比為0.945 6、Kappa系數為0.971 5、F1分數為0.943 0,訓練時間為84 min。對于Unet++模型,在Batch size為4時所有指標表現均為最好,即準確率為0.986 7、均交并比為0.914 6、Kappa系數為0.953 9、F1分數為0.907 9,訓練時間為110 min。對于Unet3+模型,在Batchsize為4時所有指標表現均為最好,即準確率為0.989 9、均交并比為0.933 9、Kappa系數為0.965 0、F1分數為0.930 0,訓練時間為263 min。
為了全面評估3種網絡模型對擾動圖斑的檢測效果,分別選擇Unet、Unet++、Unet3+模型在訓練預測中表現最優的結果進行對比分析。在準確率方面,Unet(0.991 7)>Unet3+(0.989 9)>Unet++(0.986 7);在均交并比方面,Unet(0.945 6)>Unet3+(0.933 9)>Unet++(0.914 6);在F1分數方面,Unet(0.943 0)>Unet3+(0.930 0)>Unet++(0.907 9);在Kappa系數方面,Unet(0.971 5)>Unet3+(0.965 0)>Unet++(0.953 9);在訓練時間方面,Unet(84 min)<Unet++(110 min)<Unet3+(263 min)。綜合所有精度評價指標來看,與基于目標識別策略的擾動圖斑識別效果相同,Unet模型表現為最優,其次是Unet3+模型,Unet++模型表現最差,但Unet3+模型訓練時間最長。
基于變化檢測策略,采用3種網絡模型結構的擾動圖斑預測結果見圖3。綜合來看,基于Unet模型的檢測結果分割邊界清晰平滑,無誤檢、漏檢,無冗余特征,預測結果接近于標簽圖像?;赨net++和Unet3+模型的檢測結果分割邊界不清晰、破碎,有大量冗余特征被誤檢,與基于Unet模型的檢測結果相比,錯誤預測了一些建筑物邊緣陰影、空隙和道路,檢測結果與標簽圖像存在較大差異。原因可能是Unet++和Unet3+在訓練數據集較小的情況下,出現了訓練過擬合與提圖3基于變化檢測策略的3種網絡模型擾動圖斑預測結果
取了錯誤地物特征的現象??傮w來看,與基于目標識別策略的擾動圖斑識別效果相同,Unet模型的檢測效果最佳,Unet3+模型優于Unet++模型。
4擾動圖斑識別策略研究
由表1和表2對比分析可以看出,基于變化檢測識別策略的擾動圖斑識別效果,除訓練效率稍低于目標識別策略外,其余各精度評價指標均表現更加優秀。對于3種網絡模型結構,基于兩種識別策略時,Unet模型均表現最優,其次是Unet3+模型,最后是Unet++模型。具體來說:準確率和Kappa系數在基于兩種識別策略時差距較?。痪徊⒈群虵1分數在基于變化檢測策略時的結果要明顯優于基于目標識別策略;基于目標識別策略時的訓練時間少于基于變化檢測策略。其原因主要包括:①基于變化檢測策略時,需要融合前后2個時相的遙感影像作為輸入數據,數據處理量要大于基于目標識別策略,由此可以獲得更多的鄰域對比語義信息,但是另一方面也增加了訓練時間。②基于變化檢測策略時,數據集樣本量要明顯多于基于目標識別策略的數據集樣本量,在更大的數據集支撐下,基于變化檢測策略的訓練效果要優于基于目標識別策略。
從識別效果、水土保持監管需求、應用難度3個方面分析兩種擾動圖斑識別策略的優缺點。
1)在識別效果方面,目標識別策略與變化檢測策略實際上都是像素級語義分割任務,主要區別在于目標識別策略僅針對單時像遙感影像,而變化檢測將前后2個時相的遙感影像在像素層級上連接在一起,作為深度學習訓練的輸入影像。相比于單時相遙感影像的3個特征輸入通道,變化檢測策略將兩時段數據在通道層結合,將特征輸入通道增加至6通道,豐富了學習的淺層特征,補充了不同時序下目標鄰域的對比語義信息,有利于深度學習神經網絡提取出更全面的深層抽象語義特征信息,提升模型的識別效果。
2)水土保持監管工作中,部分未超過追認年限的已完工違規違法項目仍有監管需求,目標識別策略僅從單時相遙感影像出發,缺失關鍵的多時序及領域對比信息,無法將已完工違規違法建設項目同合規建設項目進行區分,極易出現誤識別、漏識別的現象;而變化檢測識別策略可以基于不同領域、不同時序對生產建設項目水土保持擾動圖斑特征進行全面考量,可以顯著改善對已完工項目的性質認定出現錯誤的問題。
3)在應用難度方面,雖然變化檢測策略的總體識別效果優于目標識別策略,但是對2個時相的遙感影像預處理工作要求較高,幾何配準、大氣校正、直方圖匹配、位深同步均有硬性要求,若無法滿足遙感影像預處理要求,則識別效果必然大打折扣,甚至無法使模型進行預測識別。與之相比,目標識別策略是基于單時相遙感影像進行擾動圖斑的提取,可以從根源上解決雙時相遙感影像的配準處理問題,同時訓練模型所需的樣本標注可以采用水土保持監管工作擾動圖斑的認定成果,經過簡單處理后就可以批量制作訓練數據集,無需針對雙時相遙感影像的對比變化進行圖斑細化認定工作,訓練的模型在當期影像上就可獲得較好的泛化效果。
本研究中采用的3種深度學習網絡模型中,Unet模型的識別效果最優秀,分割邊界清晰平滑,誤檢、漏檢情況較少,無冗余特征,預測結果接近于標簽圖像。同時Unet模型網絡結構精簡,參數量少,訓練速度最快,有利于高效應用。由于研究數據集樣本量較小,因此Unet++模型和Unet3+模型受限于復雜的網絡架構,提取了大量的冗余特征,但是當數據集樣本量較大時,Unet++模型和Unet3+模型因其更強的細節提取能力,故可能有更好的識別效果。綜上,當遙感影像質量滿足要求,且需要精細化的認定結果時,基于變化檢測策略,采用Unet模型結構可作為提取生產建設項目擾動圖斑的最佳模式;當遙感影像質量不佳,或僅有單時相遙感影像,且需要快速確定擾動區域時,宜采用基于目標識別策略的Unet模型;當訓練數據集較大,可以支撐復雜模型訓練時,Unet++模型和Unet3+模型均可能會有更好的識別效果。
5結論
針對生產建設項目擾動圖斑識別問題,從目標識別和變化檢測兩種思路出發,依托徐州市生產建設項目水土保持監管工作中擾動圖斑認定成果,建立了徐州市生產建設項目水土流失擾動圖斑目標識別、變化檢測數據集,分析單時相和多時相遙感影像的生產建設項目擾動圖斑特征,對比評價Unet、Unet++和Unet3+三種網絡模型的識別精度,提出最優的擾動圖斑識別策略。基于目標識別策略時,Unet模型表現最優,其中準確率為0.967 9、均交并比為0.864 3、Kappa系數為0.924 1、F1分數為0.848 2;基于變化檢測策略時,同樣是Unet模型表現最優,其中準確率為0.991 7、均交并比為0.945 6、Kappa系數為0.971 5、F1分數為0.943 0?;赨net網絡的檢測結果分割邊界清晰平滑,誤檢、漏檢情況較少,無冗余特征,預測結果更接近于標簽圖像,識別效果最佳。從識別效果、水土保持監管需求、應用難度3個方面分析了擾動圖斑識別策略的實用性,當遙感影像質量滿足要求,且需要精細化的認定結果時,采用基于變化檢測策略的Unet網絡模型可作為生產建設項目擾動圖斑提取的最優模型;當遙感影像質量不佳或僅有單時相遙感影像,且需要快速確定擾動區域時,宜采用基于目標識別策略的Unet網絡;當訓練數據集足夠支撐模型訓練時,可考慮使用結構更加復雜、細節提取能力更強的Unet++與Unet3+網絡模型。
[參考文獻]
[1] 王小燕,李靜瀾,白艷萍,等.基于深度學習的遙感影像分類方法研究[J].中國水土保持,2023(12):7-10.
[2] 金平偉,黃俊,姜學兵,等.基于深度學習的生產建設項目擾動圖斑自動識別分類[J].中國水土保持科學,2022,20(6):116-125.
[3] 伏晏民,曾濤.引入殘差和注意力機制的U-Net模型在水土保持遙感監管人為擾動地塊影像自動分割中的研究[J].測繪,2022,45(1):16-21.
[4] 舒文強,蔣光毅,郭宏忠,等.基于深度學習理論的山地城市水土保持衛星影像變化圖斑提取實踐[J].中國水土保持,2022(5):26-29.
[5] RONNEBERGER O, FISCHER P, BROX T. Unet: convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and ComputerAssisted Intervention,Springer,2015:234-241.
[6] HUANG G, LIU Z, LAURENS V, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Honolulu:IEEE,2017:2261-2269.
[7]ZHOU Z W, SIDDIQUEE M M R, TAJBAKHSH N, et al. UNet++: a nested unet architecture for medical image segmentation[C]//Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support, Granada:Springer, 2018:3-11.
[8] HUANG H M, LIN L F, TONG R F,et al. UNet 3+: a fullscale connected unet for medical image segmentation[C]//IEEE International Conference on Acoustics,Speech and Signal Processing,Barcelona:IEEE,2020:1055-1059.
收稿日期: 2024-01-09
基金項目: 中央級公益性科研院所基本科研業務費專項(Rc923003,Y921004,Y922003,Y923005);安徽省自然科學基金項目(2308085US04);南京水務科技項目(202303)
第一作者: 盧慧中(1990—),女,黑龍江方正人,高級工程師,博士,主要研究方向為土壤侵蝕與水土保持。
通信作者: 金秋(1983—),男,吉林省吉林市人,高級工程師,博士,主要研究方向為農村水利與水土保持。
E-mail: fengyuwuzujq@163.com
(責任編輯李佳星)