李旭青 張秦雪 安志遠 金永濤 張秦浩 丁 暉
(1.北華航天工業學院遙感信息工程學院, 廊坊 065000; 2.河北省航天遙感信息處理與應用協同創新中心, 廊坊 065000; 3.北京電子工程總體研究所, 北京 100854)
中國是冬小麥種植大國,冬小麥種植面積常年穩定在2 200萬hm2左右,約占全國耕地總面積的18%。及時準確獲取冬小麥生長和分布情況,有利于冬小麥產量估值,為我國農業政策制訂、農產品布局提供有力的依據[1]。遙感技術具有覆蓋范圍廣、重訪周期短、獲取成本相對低等優勢,在農作物生長態勢感知、產量估算、生產管理中扮演著重要角色[2]。
目前,利用高分辨率遙感影像實現冬小麥解譯成為可能。高分辨率遙感影像具有豐富的地物紋理信息及多光譜波段,常用于農作物提取,它往往以高維性、異質性、光譜特征的大空間變異性、類別不平衡性及重疊類條件分布等特征表現出復雜的數據屬性[3-5]。近年來,隨著遙感技術的不斷發展,針對高分遙感影像的成像特點研究人員提出了植被指數閾值模型、長時間序列植被指數擬合重建、統計模型等遙感地物分類方法。植被指數閾值模型中的NDVI與EVI因可以較穩定地表達光譜特征而被廣泛應用[6-8],但氣溶膠、雙向反射、云層引起的噪聲及茂盛植被帶來的飽和問題使僅依靠光譜信息進行植被指數解譯的方法受到限制[9-10]。長時間序列的植被指數擬合重建方法充分考慮了冬小麥的物候特征,將時序化的植被指數數據通過非對稱高斯函數擬合法、雙Logistic函數擬合法、SG濾波法等進行擬合重建,通過定性及定量對比分析得到最優的模型[11-14],但是在一定程度上會影響空間離散分布的地物識別精度。傳統的統計模型及隨機森林[15-16]、SVM[17]等機器學習算法基于像元值、時間、光譜指數等多特征因素進行提取,通過分類器進行模型預測。這些方法對于地物均勻分布及離散分布的樣本有良好的分類效果,但是存在以下問題[18-19]:人工設計的特征需要研究者具有豐富的專業知識,具有主觀性;傳統模型的特征復雜性難以表達碎片化地物及易混淆地物的分布情況,需要更高級的特征對其進行表達。因此,傳統的遙感地物分類方法具有一定的主觀性,使模型的準確性及泛化能力受到了限制。如何有效地提取高分影像的光譜、空間信息特征及高級的語義特征是遙感影像識別任務的關鍵。
隨著深度學習的不斷發展,卷積神經網絡作為復雜特征提取器在遙感影像地物提取中被廣泛應用[20-24]。LONG等[25]提出了全卷積神經網絡(FCNN),其使用卷積層代替傳統神經網絡的全連接層進行反卷積,解決了空間坐標丟失的問題;將淺層網絡的低級特征與深層網絡的高級特征進行耦合,經過訓練可以對圖像進行更準確和詳細的分割[26]。RONNEBERGER等[27]在FCNN的基礎上擴大了網絡框架,提出了用于醫學影像分割的卷積神經網絡(U-Net),其更深層次的特征耦合使其分割精度得到提高。以上網絡對高維圖像的豐富特征有著很好的表達效果,但是存在以下問題:高分影像中不同空間位置的冬小麥對象存在尺寸、視野、姿態及部分變形的幾何變化,固定結構的卷積模塊限制了對可變形對象特征的泛化能力;像素級分類方法對噪聲敏感,難以獲取對象級的語義信息,在提高圖像整體識別精度的同時會使預測圖像產生“椒鹽”噪聲。因此,對于具有精細定位的遙感影像地物識別任務需要自適應地確定尺度或者感受野。DAI等[28]突破固定卷積的局限性,提出了可變形卷積神經網絡模型。在標準的卷積模塊中加入可訓練的二維偏移量,可以使采樣網絡自由變形,實驗證明這種方法在目標檢測任務中取得了較好的結果[29-32]。
本文結合高分遙感影像的特點,提出可變形全卷積神經網絡(DFCNN),該模型在U-Net網絡基礎上進行改進,引入可變形卷積的思想,將可訓練的二維偏移量加入到網絡中的每個卷積層前,使卷積產生形變,并獲得對象級語義信息,提高網絡模型對幾何變化特征的提取能力。將DFCNN模型引入到冬小麥面積提取領域,以高分二號遙感影像為研究對象,并使用該模型進行基于像素的冬小麥對象識別。將分類結果與基于傳統的FCNN模型、U-Net模型、隨機森林(RF)算法得到的結果進行對比,驗證DFCNN模型對形狀、大小不同的冬小麥復雜特征的表達能力以及對對象級特征的提取能力。
研究區位于河北省廊坊市大廠回族自治縣(圖1),地理范圍為39°49′~39°58′N,116°48′~117°3′E,海拔為10.5~24.5 m,農田有效灌溉面積約為9 327 hm2,占總面積的52.91%,具有2個國家級糧食示范區,農作物分布廣袤。大廠回族自治縣地處華北平原北端屬溫帶亞濕潤氣候區,年平均降水量580.6 mm,年平均氣溫11.9℃,四季分明,光照降水充足,氣候條件適合冬小麥種植,研究區域冬季農作物主要為冬小麥,具有分布集中、面積廣闊、近水源等特點。

圖1 大廠回族自治縣行政區劃示意圖Fig.1 Administrative division diagram of Dachang Hui Autonomous County
冬小麥普遍于9月中下旬至10月上旬播種,翌年5月底至6月中旬收獲,本文選用GF-2號衛星PMS2傳感器,獲取2017年12月15日河北省廊坊市大廠回族自治縣在云量較少時的GF-2號多光譜影像和全色影像,作為數據源。影像包括冬小麥、裸地、坑塘、河流、林地、住宅、操場、工廠、村落、道路10類遙感場景。
將原始GF-2號影像中的多光譜影像及全色影像進行融合,將預處理后尺寸為7 730像素×6 908像素的影像順序切割為728幅256像素×256像素的樣本數據集,并使用Labelme標注軟件對數據集進行標注,得到728幅256像素×256像素的標注集。為了防止模型過擬合,將實驗數據集與標注集進行同步水平、垂直翻轉并進行隨機打亂處理,以達到數據增強的效果。最終得到2 184組樣本集,使用留出法提取樣本集的80%作為訓練集進行模型訓練,剩余20%作為測試集進行模型評價和輔助調參。
遙感圖像解譯與深度學習中的語義分割任務相同,本質上是為了實現基于圖像像素的分類,所以本文基于語義分割網絡中的U-Net設計出了DFCNN模型,對遙感圖像中地物的顏色、形狀、紋理、位置等特征進行綜合提取與優化,最終達到自動解譯目的。
RONNEBERGER等[27]在全卷積神經網絡(FCNN)的基礎上擴大了網絡的框架,提出了用于醫學影像分割的U-Net網絡。但是直接使用U-Net網絡解譯遙感影像還存在以下問題:輸出影像尺寸與原始影像尺寸不同,存在影像信息缺失;網絡模型適用于背景干擾因素小、特征差異明顯、類間邊界顯著的醫學影像,對存在復雜背景信息、易混淆的相似地物、邊界模糊的GF-2遙感影像的擬合能力有所欠缺;遙感影像中的冬小麥對象存在尺寸、視野、姿態及部分變形的幾何變化,固定的卷積結構限制了模型對可變形對象的表征能力。因此本文對U-Net網絡模型進行了改進。
(1)卷積填充
U-Net網絡存在輸出影像像素缺失問題,主要是因為卷積核對影像進行步長為1的滑動卷積后,會使輸出特征圖像的尺寸縮小。

(w',h')= w-f-1s,h-f-1s
(1)
式中h、w——卷積前影像的寬度與高度
h′、w′——卷積后影像的寬度與高度
f——卷積核尺寸
「·?——向上取整s——步長
本文在卷積前,對影像邊緣尺寸為(f-1)/s的區域進行填充補零,使卷積前后的影像尺寸相同,從而解決像素缺失問題。
(2)網絡結構修改
作為卷積神經網絡的核心層,卷積層的深度會影響網絡模型對特征的提取效果,經LeNet[33]、AlexNet[34]、VGG[35]等網絡模型證明,在一定程度上增加卷積層深度,可以有效提取輸入數據中更為復雜的特征。遙感影像相較于醫學影像具有更復雜的特征信息,所以本文在U-Net原有的19個卷積層基礎上,增加了4個卷積層以增強模型的表征能力。
(3)可變形卷積模塊
傳統的卷積采用固定的卷積形狀,卷積過程包括兩個步驟:①在輸入特征圖X上使用規則卷積核網格grid進行滑動采樣。②對權重ω的采樣值求和。輸出特征圖中每個位置P0對應的輸出特征值y,都是由卷積核grid位置(G(x,y))的權重ω和輸入特征圖grid位置(G(x,y))的特征值內積求和得到,即
G(x,y)=
{(xi,yj),(xi+1,yj+1),…,(xn-1,yn-1),(xn,yn)}
(i=1,2,…,n;j=1,2,…,n)
(2)
(3)
式中G(x,y)——當前感受野的采樣位置
xi——感受野的橫坐標
yj——感受野的縱坐標
Pn——輸入特征圖像素位置
grid——當前卷積區域感受野
Y(P0)——固定卷積的輸出特征圖中,每個感受野采樣位置對應的輸出特征值
ω(Pn)——當前感受野采樣位置的卷積核權重
X(Pn)——當前感受野采樣位置的輸入特征值
固定結構的卷積對特征圖固定位置進行采樣,同一卷積層中所有激活單元的感受野大小、形狀相同。DAI等[28]發現,相同的感受野會限制模型對圖像中不同位置、不同尺寸、不同形狀對象的識別能力,為此提出了自適應感受野大小的可變形卷積神經網絡。為提取出GF-2遙感影像中冬小麥的幾何特征,本文在U-Net網絡的每個池化層后,加入可變形卷積神經網絡的可變形卷積模塊,通過在卷積過程中加入可訓練的偏移量ΔPn,改變了grid采樣位置及感受野形狀,使模型可以對不同大小、形狀的冬小麥進行自適應采樣。
(4)
式中x(Pn+ΔPn)——當前感受野采樣偏移位置的輸入特征值
本文設計的DFCNN模型由23個卷積層(C1~C23)、4個池化層(P1~P4)、4個上采樣層(UP1~UP4)組成,并在每個卷積層后加入可變形卷積模塊,整個網絡結構如圖2所示。

圖2 DFCNN模型結構Fig.2 DFCNN model structure
DFCNN模型的訓練機硬件環境為3.6 GHz的Inter Core i7-9700KF中央處理器,內存為16 GB。通過顯存為6 GB的RTX 2080 GPU搭載CUDA并行計算架構實現訓練模型的加速。為了提高模型的部署效率采用Python作為實現語言,選擇面向數據流的tensorflow框架作為軟環境來實現網絡模型的搭建、訓練和調參。
損失函數表示模型的預測值與真實值的不一致程度,分為經驗風險損失函數和結構風險損失函數。由于網絡中加入了正則項來避免過擬合,所以本文使用tensorflow框架提供的結構風險損失函數作為評價指數來評估網絡的擬合程度與泛化能力。結構風險損失函數表示為
(5)
(6)
式中yi——Softmax歸一化輸出張量中對應分量
Vi——第i個輸出分量的值
Vj——第j個輸出分量的值
Hy′(y)——交叉熵損失值
y′i——樣本標簽中的第i個值
學習率決定了梯度下降的步長,過小的學習率會影響模型訓練的效率,過大的學習率可能會導致模型陷入局部最優。批尺寸(batchsize)決定了梯度下降的范圍,過小的批尺寸使梯度下降方向不準確、震蕩大,過大的批尺寸可能同樣會陷入局部最優。因此,如何對學習率、正則項系數、批尺寸進行微調是網絡模型訓練的關鍵。
本文將預處理后的帶有樣本影像和標簽的訓練集(1 747幅圖像)和測試集(437組幅圖像)輸入DFCNN模型進行訓練,通過觀察網絡中的損失值及準確率變化曲線,對網絡的學習率、正則項系數、批尺寸等參數進行微調。分別使用不同的學習率(1×10-5、5×10-5、1×10-4、5×10-4、1×10-3)、正則項系數(0、4×10-4、4×10-3、1×10-2、4×10-2)、批尺寸(1、2、3、4、5)訓練模型,損失值及準確率變化曲線如圖3所示。

圖3 不同參數對應的訓練模型損失值及精度Fig.3 Loss value and accuracy of training model corresponding to different parameters
由圖3a可知,在正則項系數及批尺寸固定的前提下,準確率隨學習率的增大呈先增后減趨勢,在學習率為0.000 5時達到峰值,說明此時模型的訓練效果達到最佳,過大的學習率會使模型陷入局部最優。由圖3b可知,在學習率及批尺寸固定的前提下,準確率隨正則項系數增大呈先增后減趨勢,在正則項系數為0.004時達到峰值,說明此時模型的訓練效果達到最佳,過大的正則項系數會削弱特征的表達能力,使模型產生欠擬合。由圖3c可知,在學習率及正則項系數固定的前提下,準確率隨批尺寸的增大呈持續增長的趨勢,在批尺寸為5時模型的訓練效果達到最佳,由于批尺寸的增加受限于實驗硬件環境的GPU內存,所以本文只測試了當前硬件環境支持的批尺寸。
綜上分析,在學習率為0.000 5、正則項系數為0.01、批尺寸為5的情況下,模型訓練效果最佳,訓練集的最優損失值為0.048,最優準確率為98.1%。
3.3.1評價指標
DFCNN是一種基于像素的地物識別方法,為了檢測網絡模型正確識別每個像素的效果,本文采用像素精度(Pixel accuracy)作為GF-2遙感影像語義分割的評價指標。
(7)
式中PA——像素精度,標記正確的像素占總像素的比例
k——像素種類數
Pii——i類像素被預測為i類像素的概率
Pij——i類像素被預測為j類像素的概率
考慮到網絡模型提取的特征在不同類別中的表達差異性,采用平均像素精度(Mean pixel accuracy)評價可變形全卷積神經網絡對目標地物和背景地物的整體分割效果。
(8)
式中MPA——平均像素精度
3.3.2識別性能分析
冬小麥分布復雜,存在尺寸、視野、姿態及局部變形的幾何變化。因此,本文選用大廠回族自治縣研究區域內與樣本非交叉的高分遙感影像作為模型輸入,影像中存在不同尺寸、形狀的冬小麥以及操場、裸地、坑塘等易混淆背景地物。本文算法可以精確地識別出研究區內不同尺寸及不同空間分布的冬小麥位置,并能較準確地分割冬小麥和背景地物,說明本文算法具有較強的泛化能力和魯棒性。為了進一步評估DFCNN模型的影像分割性能,本文分別使用基于滑動窗口的FCNN模型、U-Net模型、RF算法對冬小麥進行自動解譯,不同算法預測結果如圖4所示。

圖4 不同算法的預測結果Fig.4 Prediction results of different algorithms
環境復雜的測試影像(圖4a)中存在大面積的建筑、裸地、道路、坑塘等背景地物,可用于驗證DFCNN模型的魯棒性。針對與冬小麥顏色特征相近的坑塘地物,FCNN模型(圖4b)出現了嚴重的誤分情況;具有更深網絡層次的U-Net模型(圖4c)明顯減少了易混淆特征對分類的影響,但是從整幅影像上看仍存在大量的“椒鹽”噪聲;RF算法(圖4d)在一定程度上降低了“椒鹽”噪聲,但目標地物的邊界識別效果還不夠理想;DFCNN模型(圖4e)對冬小麥的識別效果最優,邊界更為平滑,對于易混淆地物也具有較強的識別能力。本文將統計的像素精度、平均像素精度結果及訓練性能和本文模型(DFCNN)的結果進行對比,結果如表1所示。

表1 冬小麥特征提取對比實驗結果Tab.1 Experimental results on feature extraction of winter wheat
由表1可知,FCNN模型的像素精度偏低,為89.3%,其分割結果出現了坑塘地物誤分情況,說明其提取的冬小麥特征魯棒性差,容易受到混淆地物的影響。具有更深層網絡及特征疊加的U-Net像素精度明顯提升,為93.9%,但是其預測結果依然會出現“椒鹽”噪聲,冬小麥邊界分割不平滑。加入可變形卷積模塊的DFCNN像素精度最高,為98.1%,噪聲明顯降低,且冬小麥邊界更為平滑,說明可訓練的偏移量有助于冬小麥幾何變化特征的充分表達。
從模型訓練效率來看,DFCNN訓練時間和解譯
時間為0.324 h和0.630 s,與U-Net相比,增加了0.018 h和0.07 s,但準確率提高了4.2個百分點,說明DFCNN對冬小麥特征提取的效果最優。
將深度學習引入冬小麥遙感影像自動解譯領域,針對遙感影像數據特點和U-Net網絡結構的局限性,綜合遙感影像的顏色、形狀、紋理、位置以及幾何特征,設計了DFCNN模型。DFCNN模型在U-Net模型卷積層中加入卷積填充,使模型預測影像與輸入影像尺寸相同,避免了像素缺失,實現了端到端的輸出;在原始U-Net模型層次基礎上增加了4個卷積層,更深層次的網絡有利于遙感影像復雜特征的表達;在卷積中加入了可變形卷積模塊,使DFCNN模型可以進行自適應采樣,以增強對高分遙感影像中冬小麥幾何變化特征的表達。通過對比FCNN模型、U-Net模型、RF算法和DFCNN模型,結果表明,DFCNN模型對冬小麥識別效果最佳,像素精度達到98.1%,解譯時間為0.630 s。