張善文,齊國紅,徐新華
(鄭州西亞斯學院電子信息工程學院, 鄭州 451150)
基于遙感圖像(RSI)的飛機自動檢測在動態監測和軍事監視中具有很高的應用價值,但由于飛機圖像在RSI中所占比例相對較小,且飛機圖像的個數、大小、姿態、陰影、光照和背景等多變,使得遙感圖像飛機檢測成為一項具有挑戰性的課題。
隨著遙感技術、成像平臺、大數據等技術的不斷發展,涌現出了一些基于卷積神經網絡(CNN)和全卷積神經網絡(FCN)的RSI飛機檢測方法,且取得了顯著檢測準確率。Zhang等[1]構建了一種基于CNN的有效飛機檢測框架,用于檢測超大復雜場景中的多尺度目標,能夠快速、準確地生成數量適中的目標候選對象,用于檢測多尺度飛機。Zhong等[2]利用數據增強、遷移學習、DCNN和有限的訓練樣本,提出了一種端到端的飛機檢測方法。Li等[3]提出了基于改進卷積神經網絡的RSI飛機檢測,實現了飛機的自動識別與定位。Yan等[4]設計了一種基于中心建議區域和不變特征的飛機檢測方法。從RSI中提取建議區域,然后提取不變性特征訓練集成學習分類器,利用訓練好的分類器從RSI中檢測識別飛機。Fu等[5]提出了一種特征融合算法,用于多尺度飛機檢測特征表示,取得了較高的檢測準確率。蘭旭婷等[6]提出了一種基于注意力與特征融合的RSI飛機目標檢測方法。該方法結合了注意力模塊和特征融合模塊,對RSI飛機檢測,取得了較高的檢測精度和速度。
U-Net是一種比較簡單的、廣泛應用的圖像語義分割模型,在圖像分割方面表現出了顯著的性能[7]。張翠軍等[8]提出了一種基于改進U-Net的RSI建筑物分割方法,對建筑物進行檢測。楊丹等[9]在U-Net中融合Inception模塊,提出了一種多尺度卷積核U-Net(MSU-Net)并應用于視網膜血管分割任務,在視網膜血管分割中取得了較高的準確率。Tarasiewicz等[10]提出了一個輕量級U-Net(LWU-Net)并應用于多模態磁共振腦腫瘤圖像分割中,得到了精確的腦腫瘤輪廓。Xiong等[11]針對工業部件缺陷圖像的背景噪聲大、環境不可預測、缺陷形狀大小不一等因素導致缺陷檢測準確率降低問題,提出了一種多尺度特征融合注意力U-Net (AU-Net),該模型將注意力U-Net與多尺度特征融合模塊相結合,有效檢測噪聲低質量圖像中的缺陷。Yuan等[12]提出了一種改進的AU-Net,能夠就深度豐富的語義信息和淺層細節信息相融合,進行大尺寸差異的磁共振血管造影動脈瘤圖像進行自適應精確分割。
針對RSI飛機檢測難題,在MSU-Net,LWU-Net和AU-Net啟發下,構建一種輕量級多尺度注意力U-Net (LWMSAU-Net),并應用于RSI飛機檢測任務。
U-Net是一種全卷積U型對稱網絡,由相互對稱的編碼過程、解碼過程和連接過程組成,其基本架構如圖1(a)所示。傳統U-Net對于每個鄰域需要運行一次,且對于鄰域重疊部分需要重復運算,其運算效率較低。針對RSI和包含的飛機圖像的復雜性,在MSU-Net,LWU-Net和AU-Net的基礎上,利用多尺度卷積、模型輕量化、殘差連接、注意力機制等優點,從U-Net的模型參數個數、編碼、解碼和連接方式多個角度,對模型進行改進,構建一個輕量級多尺度注意力U-Net (LWMSAU-Net),其基本架構如圖1(b)所示。殘差連接能夠避免提到消失問題,在U-Net編碼和解碼部分,提高網絡的性能。得到編碼模塊和解碼模塊如圖1(c)和圖1(d)所示。

圖1 U-Net和LWMSAU-Net結構
在圖1(b)中,LWMSAU-Net的編碼過程有4個模塊,每個模塊包含3個卷積和1個最大池化操作,每次池化下采樣后,特征圖的個數乘以2,其維數變小;解碼過程有4個模塊,在每個模塊操作前,反褶積將特征圖的維數乘以2,特征圖的數量減半,再與左邊對稱的編碼過程的特征圖相結合。由于編碼特征圖與解碼特征圖的維數不同,所以需要通過裁剪操作使得對應的特征圖的維數相同,便于特征圖融合;連接過程采用跳躍連接方式,將U-Net得到的淺層和深層的特征進行融合;最后采用SoftMax分類器進行像素級分類。
模塊中由3種不同尺度特征的卷積核進行特征提取:1×1、3×3和5×5,并在卷積后使用3×3最大池化層進行眼底視網膜血管特征信息融合。經過池化層融合后的特征信息輸入到1×1卷積層進行尺度壓縮,解決了不同尺度信息提取過程中網絡參數和特征量冗余的問題。
在編碼和解碼部分使用一個殘差注意力門連接加強特征重用,將編碼中提取的低級特征和解碼中高級語義特征進行整合,提高模型的檢測性能,從而得到更多不同尺度飛機圖像的細節,其結構如圖1(e)所示。
底層卷積特征能夠保留飛機的細節信息,為了最大限度地提取不同尺度大小的飛機圖像特征,將多尺度卷積模塊Inception引入U-Net編碼部分,如圖1(f)所示。其主要過程為:將多個不同的淺層和深層網絡特征級聯,并對不同的卷積層賦予不同的權重,通過模型訓練自動學習殘差注意力模塊中的參數,使得殘差注意力模塊能夠同時關注多個編碼得到的特征,使模型更好地關注飛機的局部特征。在每一個注意力門結構中,從解碼器的前一層提取的特征被用作門控特征,由此調整并行的殘差輸出xi的權重;再將經過權重調整后的xi與G進行拼接整合;注意力門函數可表示為:
αi=fatt(αi,G;θatt)
(1)
式中:fatt通過一組參數θatt定義xi與G的運算。運算包含使用通道方向1×1卷積的線性變換以及利用激活函數Relu和Sigmoid的非線性變換。注意力門操作不改變輸入xi的維數,所以可以靈活地用于各種U-Net結構中。
模型性能可以通過計算檢測的飛機圖像與標注的飛機圖像之間的差異估計,利用交叉熵值來評定網絡的訓練效果,當交叉熵值越小,表明網絡的訓練效果越好。在LWMSAU-Net的訓練過程中,計算標注的飛機圖像與檢測的飛機圖像的每個像素點的交叉熵,然后取平均值,再利用平均像素交叉熵損失函數評估評定LWMSAU-Net的訓練效果,平均交叉熵損失可表示為:

(2)
式中:p(x)和q(x)分別為標注圖像和檢測圖像的像素分類向量;N為圖像的總像素數;X為輸入圖像的特征向量;x為輸入圖像每個像素的特征向量。
得到損失值后,再利用反向傳播算法將損失值回傳到網絡的每個卷積層,對卷積層的權重參數進行更新,進行多次迭代直到損失值穩定時訓練結束。
采用公開RSI數據集EORSSD(https://github. com/rmcong/EORSSD-dataset)中的包含飛機圖像的RSI子集進行實驗,驗證所提出的飛機檢測方法LWMSAU-Net。該子集包含258幅飛機RSI圖像,不同圖像包含一個或多個小尺寸、不同位置和角度、不同分辨率和背景的飛機。由于原始飛機RSI的分辨率不同,從973像素×760像素到242像素×239像素,為了模型方便訓練,將每張圖像的大小調整為128像素×128像素。利用圖像數據集擴展方法將每幅圖像擴展為10幅圖像,得到共包含2 580幅飛機RSI數據集。在擴展數據集中每幅圖像都包含飛機,以保證所提出檢測方法可對飛機自動檢測。在該數據集上按照5折交差驗證法進行實驗,并與U-Net,MSU-Net,LWU-Net和AU-Net方法進行比較。迭代次數設為3 000,學習率為0.01,批大小為32,Adam為模型優化算法。所有實驗的軟件配置為PyCharm,Keras,TensorFlow,Python;硬件配置為64位操作系統Win10,Intel(R)CoreTM i7-9700KCPU@3.6 GHz,64.0 GB內存,NVIDIA GeForce GTX1070Ti。
檢測準確率表示正確分類的飛機像素占真實飛機像素的比值P:
(3)
式中:TP為經過網絡得到的飛機檢測結果與原始飛機區域的重合部分;FP為分割結果中不屬于飛機區域的部分。
圖2為基于LWMSAU-Net和經典U-Net的飛機檢測方法在訓練集上關于迭代次數的損失值。

圖2 LWMSAU-Net和經典U-Net的損失值
從圖2看出,隨著迭代次數增加,2個模型的損失值在1 000次之前下降很快,當次數不斷增加時損失值趨于穩定;經典U-Net的損失值變化曲線波動較大;當迭代次數大于2 500次時兩個模型都基本收斂,表明模型達到了較好的訓練效果。為了公平起見,下面實驗中,選擇所有訓練好的模型都為迭代次數為3 000次時的模型,由此在測試集上進行飛機檢測。
圖3(c)~圖3(g)為基于U-Net,MSU-Net,LWU-Net,AU-Net和LWMSAU-Net的檢測方法對一幅簡單RSI的飛機分割圖像。為了充分展現U-Net的優勢,將LWMSAU-Net與傳統的3種圖像分割算法進行比較: K-均值聚類算法(KMC)、改進的均值聚類算法(MKMC)和模糊C-均值聚類算法 (FCM)分割結果如圖3(h)~圖3(j)所示。

圖3 基于飛機分割結果
從圖3可以看出:5種U-Net及其改進模型都能實現飛機圖像的準確定位和完整分割;LWMSAU-Net的分割效果最好,增強了對細節部分的分割效果,分割圖像最接近標注圖像;U-Net的分割效果比較差,飛機輪廓模糊,與標注圖像差異最大;MSU-Net和AU-Net的分割效果優于LWU-Net;MSU-Net的分割效果優于AU-Net。基于U-Net系列的圖像分割方法明顯優于傳統的圖像分割方法的主要原因是:5種基于U-Net類的圖像分割方法能夠將多層編碼部分的低級特征和對應的解碼中高級語義特征進行充分融合,再通過分類器Softmax進行像素級分類,可得到完整的飛機圖像。
為了表明所提出模型LWMSAU-Net的魯棒性,分別使用5種U-Net類方法對5幅復雜RSI進行魯棒性對比實驗。復雜圖像指RSI的背景且包含的飛機圖像模糊、飛機較小,如圖4(a)所示,分割效果如圖4(b)~圖4(f)所示。

圖4 由5種U-Net類方法分割的飛機圖像
由圖4可以看出:5種U-Net類方法均能夠將5幅復雜背景下多個模糊的飛機圖像分割出來,但LWMSAU-Net幾乎不受環境的影響,穩定性較高,能夠有效的分割出飛機區域,分割的飛機圖像與標注圖像最相似;U-Net的分割結果最差,能夠定位飛機,但分割的飛機圖像的邊緣比較模糊;LWU-Net丟失小目標,不能對較小飛機圖像進行分割;MSU-Net和AU-Net能夠分割出完整的飛機,但分割的飛機圖像有明顯的噪聲。
在2 580幅的擴展數據集上利用5折交差驗證方法進行實驗。表1為5種U-Net類方法的飛機分割結果。

表1 5種U-Net類方法的飛機檢測的平均準確率和 模型的訓練時間
由圖3和圖4可以看出:5種U-Net類方法明顯比3種傳統方法好。由表1可以看出:提出的LWMSAU-Net優于其他4種U-Net類方法,準確率達94.22%,其次是MSU-Net,其檢測性能較好,準確率為92.13%,主要原因是MSU-Net 和LWMSAU-Net均具有多尺度特征提取能力,能夠同時對不同尺度的飛機圖像進行分割;SCNN和M-FCN不適合提取多尺度飛機檢測;LWU-Net和LWMSAU-Net的訓練時間較少,其原因是他們的模型為輕量級、層數少、訓練參數少;LWMSAU-Net的訓練時間最少的原因是,它利用了多尺度卷積模塊和殘差連接模塊,加速了模型收斂。
針對傳統的飛機檢測方法對背景復雜且包含不同尺度飛機的檢測效果不理想問題,構建了一種輕量級多尺度注意力U-Net模型(LWMSAU-Net)。該模型充分利用了輕量級、多尺度卷積、殘差連接、注意力和U-Net的優勢,通過多尺度U-Net提取不同尺度特征圖,再通過殘差級聯,將編碼特征與對應的解碼特征相融合,從而增加飛機檢測的細節信息,提高對較小飛機的檢測準確率。在公開的飛機遙感圖像集上進行實驗驗證,結果表明:LWMSAU-Net能夠有效分割遙感圖像的飛機,準確率為94.22%。未來工作為對遙感圖像的密集飛機目標檢測進行深入研究,設計參數優化方案,進一步提升本模型的魯棒性和泛化能力。