戚澍仉子赫張博洋
(1.中國林場集團有限公司,北京 100084;2.哈爾濱工程大學 智能科學與工程學院,哈爾濱 150001)
森林資源是人類生活環境不可或缺的一部分,定期開展森林調查,及時掌握分析森林資源動態變化,有助于加強生態林業建設。林木區域分割在森林資源檢測方面十分重要,高效且輕量級卷積神經網絡模型的設計為林木圖像分割、林木區域提取以及實時掌握森林資源動態變化提供了便捷的解決方案[1-4]。
傳統圖像分割方法雖然可以提取到圖像的低級特征,但更深層次的特征信息卻難以提取,如閾值分割法[5]、區域分割法[6]和邊緣分割法[7]等,這些方法大多受限于計算機硬件環境和人工因素,對于復雜程度較高的圖像分割效果不理想。劉媛媛等[8]提出多閾值的圖像分割優化算法,由于只考慮閾值特征而忽略其他特征影響,分割準確率低。王雷等[9]提出區域生長法和極值自適應中值濾波結合的分割算法,但計算量大、分割速度慢且受人為因素干擾。張鵬帆等[10]提出改進邊緣分割法,易受噪聲影響,尤其是復雜背景的分割任務,分割準確率較低。隨著卷積神經網絡在計算機視覺領域的飛速發展,也促使其擴展到林木圖像分割領域,憑借著強大的特征自主學習能力和高效的特征擬合關系,在圖像識別、圖像分割等領域取得不俗的進展。FCN網 絡[11]、SegNet網 絡[12]、Deeplab系列[13-16]、PSPNet網絡[17]和U-Net網絡[18]等開辟了以編碼器解碼器結構解決特定圖像任務的先河。注意力機制[19-20]的提出刷新著圖像語義分割領域的精度,自主發現有用的顯著特征信息并提高其權重值,同時抑制無用的特征信息以增強語義,如GENet網絡[21]、SENet網絡[22]、BiSeNet網絡[23]以及DANet網絡[24]。徐青[25]設置注意力模塊以構建多尺度上下文級聯關系的網絡模型,解決了其他樣地混雜的植被分割問題,使得模型自主學習提取特征信息。譚大寧等[26]提出Transformer U-Net網絡利用通道交換網絡以獲得更好的信息互補性,并采用帶注意力機制的Transformer模塊對融合特征圖進行全局上下文建模,分割效果得以顯著提升。王曦等[27]結合U-Net網絡和FPN算法,充分融合圖像特征信息,提升分割精度。Arief等[28]整合隨機深度方法和深度反轉網絡模型,并將其融合低級網絡層,進一步處理數據,提高分割準確率。Shamsolmoali等[29]提出帶有多個密集連接殘差網絡塊的RDU-Net網絡模型,便于網絡特征重用,改善分割結果。
本文提出一種基于改進USE-Net網絡的林木圖像語義分割模型,添加SE(Squeeze-and-Excitation Networks, SE)注意力模塊在網絡的過渡層,以自主學習林木圖像特征通道之間的相關性,充分融合林木特征信息,提高模型運行效率,并減少參數計算,從而提高林木圖像的分割精度,為林木圖像語義分割提供了一個全新的視角。
傳統圖像分割方法運行效率低,精準度差,難以處理復雜環境下的林木圖像分割任務,可靠性不高,實用性不強。卷積神經網絡的林木圖像語義分割方法逐漸成為林業界最受歡迎的方法之一。圖像語義分割流程如圖1所示,分為如下4個步驟。
(1)林木圖像預處理階段:對輸入的林木圖像進行預處理,包括去除無林木區域的圖像、高斯濾波進行圖像增強以及采用數據增強手段擴充數據集。
(2)劃分及加載數據集階段:按照訓練集和測試集一定比例劃分數據增強后的數據集,等待數據集的加載和網絡模型的訓練。
(3)網絡模型訓練階段:加載數據集和定義林木標簽后,開始改進USE-Net網絡模型的迭代訓練,不斷調整超參數,保存效果最好的模型訓練參數。
(4)林木分割預測階段:改進USE-Net模型訓練后,按照最佳模型訓練參數對分割的林木圖像預測。

圖1 林木圖像語義分割流程圖Fig.1 Flow chart of tree image semantic segmentation
所提網絡模型在U-Net網絡基礎上進行改進,提出帶有注意力機制的卷積神經網絡模型來精準分割林木圖像。改進USE-Net網絡整體結構如圖2所示。該網絡是基于編碼器-解碼器結構的卷積神經網絡模型,編碼器的收縮部分對稱于解碼器的擴張部分,整體呈現獨特的U型結構。改進USE-Net網絡由8個標準卷積單元、4個下采樣層、1個SE模塊和多個上采樣層構成。將SE注意力模塊插入到網絡最后一層過渡層,著重學習通道之間的林木特征關系,顯式建模特征通道的相互依賴性,充分提取林木特征信息。輸入林木圖象經過多次卷積、特征提取和林木特征合并之后,將得到與輸入圖像相同分辨率的林木預測結果圖。在網絡最后一層中,經過1×1卷積層和Sigmoid激活函數得到最終的林木分割結果圖。
SE注意力模塊結構如圖3所示,主要分為Squeeze操作和Excitation操作。Squeeze操作順著特征維度進行林木特征壓縮,將輸入林木圖像分辨率H×W×C經過全局平均池化,壓縮為1×1×C的特征圖,具有全局感受視野,在特征通道上響應全局分布。Excitation操作連接全連接層,通過自主學習顯式建模林木特征通道間相關性的特點來為每個特征通道生成權重,然后通過乘法逐通道加權到先前的特征,得到尺寸為H×W×C的林木特征圖。
改進USE-Net網絡在Windows 10操作系統、GPU(GeForce RTX 3090)、基于Pytorch深度學習框架進行網絡迭代訓練,具體實驗環境見表1。

表1 實驗環境配置Tab.1 Experimental environment configuration

圖2 改進USE-Net網絡整體結構圖Fig.2 Diagram of the overall structure of the improved USE-Net network

圖3 SE注意力模塊結構圖Fig.3 Diagram of SE attention module structure
實驗數據集來源于黑龍江省哈爾濱市某實驗林場拍攝的多組林木圖像。由于改進USE-Net分割模型的訓練需要大量數據集,為滿足其需求,防止訓練過程中過擬合情況,采用上下翻轉、水平鏡像、垂直鏡像、尺度縮放等幾何變換方式對原始數據集進行處理,將輸入的林木圖像和樣本標簽一起增強,避免出現數據增強后林木圖像和樣本標簽不對應的情況。數據集擴充后,共得到985張分辨率大小為512×512的林木圖像,并按照訓練集和測試集4∶1比例劃分數據集以得到788張訓練集圖像和197張測試集圖像。圖4為輸入的林木圖像樣本,圖5為對應的樣本標簽。

圖4 輸入林木圖像Fig.4 Input forest tree images

圖5 對應林木圖像標簽Fig.5 Corresponding forest tree image labels
在網絡迭代訓練過程中,需選擇損失函數(Loss functionJ(θ))來計算得到林木提取結果與樣本標簽的誤差,將得到誤差信號作為反向輸入,并利用隨機梯度下降法進行學習,不斷更新參數使得誤差逐漸降低至收斂。在進行梯度下降時,利用Softmax函數計算林木圖像中所有像素點的交叉熵,并取其平均值作為改進USE-Net網絡的損失函數。通過梯度下降法反向傳播更新改進USE-Net每層網絡的參數,不斷反復訓練直至準確率達到預期,改進USE-Net網絡迭代運算過程是高效的。具體如公式(1)所示。

式中:N和k分別代表樣本數和對應標簽數;θ是偏移量;m表示任意一張林木圖像,(xi,yi)是林木像素i和其對應的分類類別。
改進USE-Net網絡在林木圖像訓練集的損失值變化情況如圖6所示。該模型在迭代前期損失值快速下降,迭代后期損失值逐漸趨于穩定,穩定在0.05附近,表明其能夠很好找到梯度下降方向,學習效果良好,網絡性能較穩定。

圖6 改進USE-Net網絡損失值變化圖Fig.6 Improved USE-Net network loss value change figure
改進USE-Net網絡在不同迭代次數下測試準確率變化情況如圖7所示。迭代初期,準確率快速提升,后期提升平緩并逐漸趨于穩定,準確率達到92.3%,在一定程度上驗證了改進USE-Net網絡對林木區域的提取分割能力。

圖7 改進USE-Net網絡測試準確率Fig.7 Improved USE-Net network test accuracy
優化算法的選取對于網絡模型迭代訓練具有重要作用。改進USE-Net網絡訓練過程中,選定Adam優化算法,并與SGD、Adagrad、RMSProp優化算法進行對比分析,統一設置其學習率為0.000 1,4種優化算法的損失值變化情況如圖8所示。

圖8 4種優化算法的損失值變化圖Fig.8 Diagram of loss value change for four optimization algorithms
由圖8可知,RMSprop算法前期收斂下降太慢,SGD算法和Adagrad算法損失值沒有得到很好的收斂,數值太高,且不具備良好的穩定性,不能有效分割林木區域,而Adam算法具有最佳的收斂速度,損失值能夠快速收斂并逐漸趨于穩定,驗證了該優化算法具備優越的林木區域分割能力。
采用閾值分割法、Canny邊緣檢測算法、U-Net網絡和改進USE-Net網絡對林木圖像進行分割預測,對比分割結果如圖9所示。由圖9可知,閾值分割和Canny邊緣檢測算法存在嚴重的錯分割和漏分割情況,且該方法具有很大的局限性和人為因素干擾,不能用來處理大型復雜場景下的林木圖像分割任務。然而,U-Net網絡雖然在處理林木區域中顯示出一些優勢,但是面對遮擋物陰影錯綜復雜的情況,非林木區域的像素值十分接近林木區域,U-Net網絡在林木邊界處存在較大的誤差。相比之下,提出的改進USE-Net網絡能夠很好地識別林木邊界,將陰影和林木區域精準分開,特別在林木邊界等細微處,表現出較強的分割能力。

圖9 不同模型的林木分割結果圖Fig.9 Different models of forest tree segmentation results figure
本文提出了一種基于改進USE-Net網絡的林木圖像語義分割模型,相比于傳統圖像分割網絡,該模型引入注意力機制在網絡的過渡層,在通道維度上建立特征依賴關系,突出林木特征信息并抑制無關特征。改進USE-Net網絡在某林場數據集上達到最佳林木分割效果,實驗驗證了該網絡的精準性,在準確提取林木區域和實時掌握森林資源動態變化方面具有應用價值。