注意力卷積長短時記憶網絡的弱小目標軌跡檢測

2020-12-23 09:12:24楊其利周炳紅李明濤

光學精密工程 2020年11期

楊其利，周炳紅，鄭偉，李明濤

(1.中國科學院國家空間科學中心，北京 100190；2.中國科學院大學工程科學學院，北京 100049)

1 引言

紅外弱小目標的軌跡檢測是紅外導引的一項關鍵技術。基于紅外序列圖像的弱小目標運動軌跡提取技術是對成像傳感器采集的圖像序列進行特征提取，并根據這些特征對圖像序列中的小目標進行關聯、匹配，得到運動目標的運動軌跡。近地天體大多距離地球遙遠，尺寸小且亮度低，難以被有效探測到，其信息采集主要依靠望遠鏡(可見光和紅外)和雷達等天文觀測設備，目前紅外探測技術已被引入到近地天體預警和監測任務中。紅外場景的目標檢測和提取可以全天時工作，在小天體探測、導彈制導及戰場偵察等航空航天領域具有重要的地位。

傳統有效的方法是在多幀圖像序列中首先估計目標的運動軌跡，沿軌跡進行目標能量積累，然后對積累后的圖像進行檢測判決。由于目標能量在連續幀圖像之間是相關的，而噪聲在連續幀之間是不相關的，因而沿目標軌跡的能量積累將遠遠大于非目標軌跡上的能量積累，在積累后的圖像上進行判決將有較高的信噪比，得到較好的檢測性能。這種先估計軌跡后檢測目標的方法亦被稱作檢測前跟蹤(Track Before Detect， TBD)[1]技術。

Blostein等[2]的多階假設檢驗方法可以同時檢測多個線性運動目標，它將多個目標的軌跡組織成一棵樹的形式，然后利用假設檢驗方法對樹的每一層進行修剪，能夠有效地檢測單個目標的軌跡。這種算法的效率和直接軌跡匹配的算法相比，有數量級的顯著提高，但是需要在目標范圍內將目標限制為均勻的直線運動，因此該方法的應用受到限制。Liou等[3]提出了一種高階相關方法，該方法可以在目標數量、初始條件等未知的情況下，從有噪聲的三維圖像中檢測出直線或曲線軌跡，適用于不同雜波密度下的多目標檢測，但是它將灰度圖像轉化為二值圖像，轉化時若閾值選擇得較高則漏檢率高，導致航跡檢測失敗；相反，運算量較大。Barniv等[4]提出的動態規劃方法，利用了分段優化的思想，將目標軌跡搜索問題分解為分級優化的問題，這種方法不僅可以檢測勻速運動的目標，而且也可以用于檢測機動運動的目標。然而，隨著目標信噪比的降低，基于動態規劃方法的性能下降非常明顯，且該方法空間復雜度較高算法實時性較差。Reed等[5]提出了三維匹配濾波方法，將弱小目標檢測問題轉化為三維空間上速度匹配的問題，并且通過理論推導獲得了頻域上最優三維匹配濾波方程，但是三維匹配濾波器需要事先知道目標的灰度分布函數以及目標運動速度，在實際應用中，這些參數很難事先得到。

深度學習方法在視覺目標跟蹤領域的巨大成功，為移植或搭建適用于紅外目標跟蹤的深度學習模型提供了可能。對于時空序列問題，近年來火熱的基于卷積神經網絡(Convolutional Neural Network， CNN)的AlexNet[6]，VGG[7]，GoogleNet[8]等算法都無法解決。主要原因是以上3種算法代表的卷積神經網絡的優點是對結構表征能力很強，缺點是局限于靜態圖，無法建模動態圖的時空序列問題。遞歸神經網絡(Recurrent Neural Network， RNN)[9]很重要的一個用途是處理和預測序列數據，可能在紅外場景下有所作為。對于缺乏形狀和紋理特征的紅外目標，可以嘗試利用紅外目標時間維度上的信息。長短時記憶網絡(Long Short-Term Memory， LSTM)[10]是遞歸神經網絡的一種變體，它解決了網絡訓練過程中梯度爆炸和消失的問題。Shi等[11]在結合了LSTM的序列處理能力和CNN的空間特征表達能力后，提出了能夠解決時空序列預測問題的卷積LSTM模型(Convolutional Long Short-Term Memory， ConvLSTM)，這種結構被用于處理降水臨近預報的序列圖像，特別適合于時空數據。張等[12]提出將ConvLSTM與3D卷積神經網絡相結合的方法，用于手勢識別任務，考慮到手勢主要包含手的局部信息和手臂的全局運動信息，他使用3D卷積神經網絡用于學習局部的短期時空特征，使用ConvLSTM學習長期時空特征，這種短期和長期時空特征相結合的學習方法在任務中取得了最佳的精度。人類的視覺注意力機制能夠幫助人眼在復雜的環境中快速定位至最感興趣的目標。謝等[13]提出一種基于注意力的網絡結構，用于檢測圖像的顯著區域，突出了圖像前景區域像素并抑制背景區域信息，實現了減少背景干擾的目的。

序列圖像目標軌跡提取，本質上就是同時提取序列圖像中目標的時間維運動信息和空間維特征信息的過程。因此，受上述研究者的啟發，本文針對連續15幀紅外圖像序列，提出一種將ConvLSTM，3D卷積核以及注意力機制結合在一起的網絡架構，充分利用紅外序列的時間維信息和空間維信息，實現紅外圖像序列弱小目標運動軌跡的檢測，其中3D卷積核用于提取短期時空信息，ConvLSTM用于提取序列的長期時空信息，注意力機制用于篩選與弱小目標運動軌跡相關的關鍵信息，同時忽略絕大部分不重要的背景信息。

2 注意力機制卷積長短時記憶網絡

2.1 長短時記憶神經網絡

長短時記憶網絡是循環神經網絡的改進形式，解決了原始遞歸網絡對于長時期依賴問題，即通過之前提到但是時間上較為久遠的內容進行后續的推理和判斷。LSTM的基本思路是引入門控單元，來處理記憶單元的記憶、遺忘、輸入、輸出程度的問題，如圖1(a)所示，其基本單元被稱為記憶塊，由1個中心節點和3個門控單元組成。中心節點通常被稱為記憶細胞，用以存儲當前網絡狀態，3個門控單元分別被稱為輸入門、輸出門和遺忘門，用以控制記憶塊內信息流動。在前向傳播過程中，輸入門用以控制輸入到記憶細胞的信息流，輸出門用以控制記憶細胞到網絡其他結構單元的信息流。在反向傳播過程中，輸入門用以控制迭代誤差流出記憶細胞，輸出門用以控制迭代誤差流入記憶細胞。而遺忘門則用以控制記憶細胞內部的循環狀態，決定信息的取舍或遺忘。通過這種門控機制，LSTM網絡得以控制單元內信息流動，使其具備保存長時間信息的能力，即‘記憶’能力，在訓練過程中能夠防止內部梯度受外部干擾，避免了梯度彌散和梯度爆炸問題。設單個LSTM記憶塊的輸入向量為Xt，前向傳播公式可表述如下。

圖1 (a)長短時記憶網絡，(b)卷積長短時記憶網絡

長期記憶單元Ct更新過程：

it=σ(WxiXt+WhiHt-1+bi)，

(1)

ft=σ(WxfXt+WhfHt-1+bf)，

(2)

(3)

(4)

短期記憶單元Ht更新過程：

ot=σ(WxoXt+WhoHt-1+bo)，

(5)

Ht=ot°tanhCt，

(6)

其中ot表示輸出門，控制著短期記憶如何受長期記憶影響。

單個LSTM記憶快的輸出Ct，Ht循環作為記憶快的輸入輸出，即第t-1時刻記憶快輸出Ct-1，Ht-1為t時刻LSTM記憶快的輸入值，此為層內循環。層內各時刻LSTM記憶快共用相同權重參數W～和偏置系數b～，因此，單層LSTM網絡可以看作單個LSTM記憶快輸入輸出值的循環計算。此外，短期記憶Ht還作為下一個LSTM記憶快的輸入參與到該層循環計算中，此為層間計算。

2.2 卷積長短時記憶網絡

Shi等[11]針對雷達回波序列圖像，提出了卷積長短時記憶網絡(Convolutional Long Short Term Memory Networks， ConvLSTM)，解決了臨近降水預測問題。此后，ConvLSTM已被應用于動作識別[14]、手勢識別[12]和其他領域[15]，這些數據都有很強的時空相關特性。

如圖1(b)所示，ConvLSTM單元與LSTM單元具有同樣的3個門控制單元和1個中心節點，分別是：輸入門、遺忘門、輸出門和記憶細胞。最大的不同是在當前時刻的輸入與短期記憶結合后進行了單層卷積計算，這個不同點是提取空間結構信息的關鍵。ConvLSTM可以描述為：

it=σ(Wxi*Xt+Whi*Ht-1+bi)，

(7)

ft=σ(Wxf*Xt+Whf*Ht-1+bf)，

(8)

ot=σ(Wxo*Xt+Who*Ht-1+bo)，

(9)

(10)

(11)

Ht=ot°tanhCt，

(12)

ParamConvLSTM=K×K×(Cin+Cout)×Cout×4.

(13)

在繼承全連接LSTM算法強大的時間相關性處理能力的基礎上，通過增加一層卷積結構解決了原算法的空間數據冗余的問題，實現了空間結構的表征能力。

2.3 3D卷積神經網絡

3D卷積神經網絡在2D卷積神經網絡[19]的基礎上改變而來，主要運用在視頻分類[16]、動作識別[17]、醫療診斷[18]等領域。3D卷積是通過堆疊多個連續幀組成一個立方體，然后在立方體中運用3D卷積核。通過這種結構，卷積層中的特征圖都會與上一層中的多個相鄰幀相連，從而捕獲運動信息。如圖2所示，一個特征圖某個位置的值是通過卷積上一層的連續三組特征圖的同一位置的局部感受野得到的。通過對連續的三組特征圖進行卷積處理，得到一組3D的特征圖。

圖2 相同的3D卷積核應用于輸入視頻中的重疊立方體以提取運動特征[17]

在構造3D卷積層時，首先建立一組小的3D卷積特征提取器，掃描輸入來獲取更高層次的特征表示。使用不同的卷積核與輸入特征做卷積操作來生成新的特征體。3D卷積操作的函數表示為：

(14)

2.4 采用注意力機制的卷積長短時記憶網絡結構

2.4.1 基于注意力機制的ConvLSTM

為了研究不同的門控單元與注意力機制組合后的特性，本文使用了兩種卷積長短時記憶單元的變體，由于結構中引入了注意力機制[20]，考慮到結構的計算量會有所增加，且并不是所有門控單元都需要卷積操作，因此，兩種變體的結構中將部分門控單元改為全連接操作。

第一種變體，如圖3(a)所示，在ConvLSTM的基礎上，將ConvLSTM的遺忘門、輸出門的卷積操作改為全連接操作，由于輸入Xt和上一時刻的短期記憶Ht-1為二維張量特征映射，需要通過全局最大池化的方式將其變為一維向量，并且在輸入門it中增加了注意力機制。并將這種結構稱為基于輸入門注意力機制的卷積長短時記憶單元(Convolutional Long Short Term Memory based on Attention Mechanism of Input Gate， AIConvLSTM)。Sigmoid激活函數使門值處在0～1范圍內。輸入門和其他門控單元可以重新定義為：

(15)

(16)

Zt=Wi*tanh(Wxi*Xt+Whi*Ht-1+bi)，

(17)

(18)

(19)

(20)

(21)

(22)

(23)

Ht=ot°tanhCt，

(24)

圖3 (a)輸入門注意機制的卷積長短時記憶單元，(b)輸出門注意機制的卷積長短時記憶單元

第二種變體，如圖3(b)所示，也是在ConvLSTM的基礎上，將輸入門、遺忘門的卷積操作改為全連接操作，但是注意力機制位于輸出門的位置。將這種結構稱為基于輸出門注意力機制的卷積長短時記憶單元(Convolutional Long Short Term Memory based on Attention Mechanism of Output Gate， AOConvLSTM)。輸出門和其他門控單元可以重新定義為：

(25)

(26)

(27)

(28)

Zt=Wo*tanh(Wxo*Xt+Who*Ht-1+bo)，

(29)

(30)

(31)

(32)

(33)

Ht=ot°tanhCt，

(34)

2.4.2 模型設計

本文的網絡結構引入了3D卷積核和帶有注意力機制的卷積長短時記憶單元。3D卷積核用于提取輸入圖像序列的時間和空間特征，而帶有注意力機制的卷積長短時記憶單元用于進一步學習時空特征的關聯信息，并且過濾掉與任務無關的信息。如圖4所示，模型包含10個可調參數層，輸入層接收連續15幀尺寸為48×48的圖像序列。為了研究不同變體的卷積長短時記憶單元的特性，本文將該模型作為主體架構。

第一階段，特征提取層，利用不同的3D卷積核對原始輸入的15幀連續圖像序列分別進行卷積操作，初步提取多幀圖像關于弱小目標運動軌跡的特征。3D卷積核的時間維為3，空間維為3×3，卷積核數為64，跨距和零填充都為1×1×1，后接ReLU激活函數和批標準化層。

第二階段，雙支路3D卷積融合模塊，該模塊包含兩個3D卷積支路，共3個3D卷積層，每個卷積層后跟ReLU激活函數和批標準化層，兩個支路通過“串聯”操作進行信息融合。其中一個支路包含一個3D卷積層和批標準化層，另一個支路包含兩個串聯的3D卷積層和批標準化層。這一階段的主要目的是通過兩個分支網絡對第一個3D卷積層得到的特征信息進行提取和抽象，并通過“串聯”操作融合不同抽象程度的時空特征。該階段所有3D卷積核都采用時間維為3，空間維為3×3，卷積核數為64，跨距和零填充都為1×1×1的參數設置。

圖4 基于注意力機制的卷積長短時記憶網絡結構

第三階段，3D卷積層，這一層采用時間維為3，空間維為3×3，卷積核數為32，跨距和零填充都為1×1×1的3D卷積核，后接ReLU激活函數。該層通過減小卷積核數量，進一步抽象圖像序列的信息，有效減少特征圖的數量，并為下一卷積長短時記憶模塊的輸入做準備，降低計算時間。以上多層3D卷積層都學習到了局部的短期時空特征。

第四階段，注意力卷積長短時記憶(Convolutional Long Short-term Memory with Attention Mechanism， AConvLSTM)模塊，該模塊由兩層改進的卷積長短時記憶單元堆疊而成，用于學習圖像序列的長期時空特征圖，能夠很好地模擬特征信息的時空關系。卷積核大小設置為3×3，跨距和零填充都為1×1，核數為32。由于在卷積核中都使用了“零”填充，因此AConvLSTM在不同階段的時空特征都具有相同的空間大小，即AConvLSTM的輸出特征圖空間尺寸依然為48×48。

第五階段，3D卷積模塊，該模塊由3個3D卷積層組成。所有3D卷積核的時間維設置為3，空間維為3×3，跨距和零填充都為1×1×1，前兩層卷積核數為16，后接ReLU激活函數。由于弱小目標軌跡檢測任務是一個二分類問題，最后一層3D卷積層輸出網絡的預測，因此，卷積核數為1，后接Sigmoid激活函數。

2.4.3 模型實現

本實驗使用Google開源的Keras框架來實現，使用的訓練數據集為仿真的視頻數據，包括3 000個數據維度為48×48×15的紅外圖像序列，測試樣本來自5個紅外圖像序列。實驗的硬件環境是：CPU為Intel(R) Xeon(R) Silver 4114 CPU @ 2.20 GHz，內存為32 GB，系統類型為64位Windows10 操作系統，網絡采用帶動量參數的隨機梯度下降法進行訓練：

(35)

其中：mom為動量參數，Δwi是參數w第i輪的更新量，lri+1是當前的學習率，L是損失函數，wc是權重衰減系數。動量參數可以加快收斂速度，這里動量設置為0.9，權重衰減系數設置為0.000 5，總共迭代120代，初始學習率為0.001，每隔20代下降0.000 2，每一次學習的樣本數量(batch size)設置為2。使用的損失函數為交叉熵損失函數，它是語義分割問題中常用的損失函數，其數學表達式為：

(36)

3 實驗設置

在本節中，本文提出的模型將在5個紅外圖像序列上進行測試和評估。首先簡要描述模型訓練用到的訓練數據集以及5個紅外圖像序列測試集。然后介紹了用于衡量模型性能的評價指標。

3.1 數據集描述

本文所使用的訓練數據集是在一段不含目標的紅外視頻中，人工加入高斯信號構造的仿真數據集。首先對每幅圖像隨機生成坐標點，提取48×48區域作為背景樣本。然后將二維高斯強度模型作為目標樣本添加到背景樣本中。二維高斯模型如下：

(37)

其中：(x0，y0)是圖像目標的中心，s(i，j)是目標在圖像位置(i，j)的像素值。生成目標的強度sE是介于0到1之間的隨機數，σx和σy是高斯分布標準差。利用不同的參數可以產生不同信噪比的弱小目標，相鄰的兩幀圖像中的目標中心間隔1個像元，每次生成連續的15幀圖像序列。本文生成的目標信噪比介于1～5 dB，訓練樣本如圖5所示。測試集是5個紅外圖像序列，用于驗證所提算法的有效性，前3個序列來自真實序列，后兩個序列為仿真序列，其詳細描述如表1所示。

圖5 紅外圖像序列仿真數據集

表1 五個真實圖像序列的細節描述

3.2 度量指標

實驗使用了4種度量方法：均方根誤差，平均絕對誤差，峰值信噪比和結構相似度。

均方根誤差(Root Mean Square Error， RMSE)是預測值與真值偏差的評分和觀測次數比值的平方根，對一組測量中的特大或特小的誤差反映特別敏感。因此，均方根誤差能夠很好地反映出測量精密度。其數學表達式如下：

(38)

其中：Xij，Yij分別表示網絡輸出觀測圖像X和真值圖像Y中位于(i，j)位置像素的值，R，C分別表示圖像的高度和寬度。

平均絕對誤差(Mean Absolute Error， MAE)是觀測值與真值絕對誤差的平均。平均絕對誤差由于離差被絕對值化，不會出現正負相抵消的情況。因而，平均絕對誤差能夠更好地反映預測值誤差的實際情況：

(39)

其中：變量Xij，Yij，R，C含義同RMSE一樣。RMSE相當于L2范數，MAE相當于L1范數。次數越高，計算結果就越與較大的離差值有關，而忽略較小的離差值。這就是RMSE針對預測值更加敏感的原因。

峰值信噪比(Peak Signal to Noise Ratio， PSNR)是經常用于圖像壓縮、超分辨率圖像重建等領域中信號重建質量的評價方法，它通過均方根誤差進行定義，單位為分貝(dB)：

(40)

式中變量Xij，Yij，R，C含義同RMSE一樣。PSNR是最普遍和使用最為廣泛的一種圖像客觀評價指標，它是基于對應圖像像素點的誤差，即基于誤差敏感的圖像質量評價指標，數值越大表示失真越小。

結構相似度(Structural Similarity Index， SSIM)也是一種全參考的圖像質量評價指標，它分別從亮度、對比度、結構三方面度量圖像的相似性：

(41)

(42)

(43)

(44)

(45)

其中：μX，μY分別表示觀測圖像X和真值圖像Y像素的均值，R，C分別表示圖像的高度和寬度。σX，σY分別表示觀測圖像X和真值圖像Y的標準差，σXY表示圖像X和Y的協方差，為了避免分母為0，C1，C2通常設置為常數，這里C1=(K1L)2，C2=(K2L)2，K1=0.01，K2=0.03，L=255。

3.3 基準模型

為了分析注意力機制卷積長短時記憶單元的特性，本文構造了兩種不同的注意力卷積長短時記憶網絡模型，第一個模型是將圖4架構中的注意力卷積長短時記憶模塊中的兩層AConvLSTM都替換為AIConvLSTM，稱這個模型為3D-AIConvLSTM，第二個模型是將圖4架構中的兩層AConvLSTM都替換為AOConvLSTM，稱這個模型為3D-AOConvLSTM。另外構造了兩種基準模型與它們進行了對比試驗。第一個基準模型是將圖4主體架構中的兩層AConvLSTM替換為兩層時間維為3，空間維為3×3，核數為32，跨距和零填充都為1×1×1的3D卷積層，稱這個基準模型為3DCNN。第二個基準模型是將主體架構中的兩層AConvLSTM都替換為ConvLSTM，稱這個模型為3D-ConvLSTM。

圖6 四種模型在8個紅外短序列的弱小目標軌跡提取結果

4 實驗結果分析與模型對比

圖6展示了不同軌跡檢測方法對8個連續15幀紅外圖像短序列的軌跡提取結果，其中，紅色矩形框標注了紅外圖像真實目標的位置，粉色矩形框標注了不同方法對目標運動軌跡提取的結果(彩圖見期刊電子版)。第1列展示了8個短序列的首幀圖像，其中圖6中1-A與1-B為來自序列1的紅外圖像，2-C與2-D為來自序列2的紅外圖像，3-E與3-F為來自序列3的紅外圖像，4-G與5-H分別來自序列4、序列5的紅外圖像。第2列展示了對應紅外短序列小目標的真實運動軌跡，第3列至第6列分別展示了3DCNN方法、3D-ConvLSTM方法、3D-AIConvLSTM方法和3D-AOConvLSTM方法對8個短序列的檢測結果。

由圖6可知，3DCNN方法的軌跡提取長度要短于真實的運動軌跡，背景中殘留了大量的噪聲和雜波。3D-ConvLSTM方法提取的軌跡非常接近真實的目標運動軌跡，但背景中殘留的噪聲和雜波要比3DCNN更多，特別是1-A，1-B，4-G，5-H的檢測結果，兩種方法都殘留了大量的雜波和噪聲。3D-AIConvLSTM的結果顯示，其雜波殘留非常少，效果要優于3DCNN和3D-ConvLSTM方法的結果，且提取的目標運動軌跡也接近真實軌跡，但對于2-D和3-E的短序列處理結果，其軌跡出現了斷點，即目標運動軌跡不連續。3D-AOConvLSTM方法的處理結果，展示了其提取的目標軌跡不僅非常接近真實軌跡，其連續的運動軌跡，效果要優于3D-AIConvLSTM方法，背景中的噪聲和雜波也殘留非常少，效果優于3DCNN方法和3D-ConvLSTM方法。因此，基于輸出門注意力機制的卷積長短時記憶網絡模型(3D-AOConvLSTM)能夠很好地提取復雜背景下弱小目標的運動軌跡。

為了客觀地描述本方法的優勢，本文還在5個紅外圖像序列，計算了均方根誤差(RMSE)，平均絕對誤差(MAE)，峰值信噪比(PSNR)和結構相似度(SSIM)等4個度量指標，用于衡量上述4種軌跡提取方法的性能，表2～表5展示了不同方法對于5個紅外圖像序列在4個度量指標上的均值。

表2 四種軌跡提取方法在不同序列上的均方根誤差

表3 四種軌跡提取方法在不同序列上的平均絕對誤差

表4 四種軌跡提取方法在不同序列上的峰值信噪比

表5 四種軌跡提取方法在不同序列上的結構相似度

由表2～表5所示，基于輸出門注意力機制的卷積長短時記憶網絡(3D-AOConvLSTM)除了在序列1紅外圖像上的結構相似度指標上，與取得該指標最優值的3DAI-ConvLSTM方法僅相差0.000 2，在序列5紅外圖像上的均方根誤差和峰值信噪比取得次優結果之外，在5個序列上的其他度量指標均達到了最優的結果。

表6展示了4種軌跡方法的參數容量，2種基于注意力機制的卷積長短時記憶網絡，即3D-AIConvLSTM和3D-AOConvLSTM的參數數量最少，均只有432 560個參數，少于3DCNN和3D-ConvLSTM的參數量。

為了展示整個序列的弱小目標運動軌跡，本文通過在時間維上疊加同一序列所有軌跡提取結果，繪制了軌跡平面，并且把出現3次以上非0像素點的位置設置為0，其展示結果如圖7所示(彩圖見期刊電子版)。第1列展示了5個序列的真實運動軌跡，第2列至第4列分別表示3DCNN，3D-ConvLSTM，3D-AIConvLSTM以及3D-AOConvLSTM方法對5個序列提取的完整軌跡，黃色圓圈標注了處理結果的雜波部分，藍色圓圈標注了軌跡的間斷部分。由圖7可知，序列1只包含一個運動目標，且運動軌跡為一條直線，序列2包含4個目標，運動軌跡比較隨意，序列3包含大量的運動目標，且軌跡交織在一起，部分目標的運動軌跡不連續，呈虛線狀態。序列4和序列5均各包含一個目標，并保持直線運動。3DCNN方法提取的軌跡呈虛線狀，軌跡間隔過大，背景中殘留了較多雜波噪聲。3D-ConvLSTM方法提取的軌跡與真實的軌跡相似，但是序列2和3的結果中仍然出現了軌跡間斷的部分，背景中殘留的雜波比3DCNN方法還要嚴重，特別是在序列4和序列5中，3DCNN和3D-ConvLSTM方法殘留了大面積的雜波背景，這主要是由序列中的強雜波和背景快速運動造成的。3D-AIConvLSTM方法得到的結果顯示背景噪聲很少，但序列3中部分目標的運動軌跡沒有檢測出來，造成了漏檢現象。3D-AOConvLSTM方法得到的軌跡與真實的軌跡最為相似，背景噪聲也很少，其軌跡檢測結果明顯優于3DCNN，3D-ConvLSTM和3D-AIConvLSTM方法。

本文通過控制變量的方式，在同一個主體架構上，逐步替換網絡中的注意力卷積長短時記憶模塊，由以上對比方法的實驗結果可以看出，所有網絡層均為3D卷積核的3DCNN檢測到的軌跡表現為軌跡短、不連續，未能檢測到目標的全部軌跡信息，而在此基礎上替換了兩層3D卷積核的3D-ConvLSTM則檢測到真實軌跡的完整信息，表現為連續的完整軌跡，這就從實驗結果上體現出3D卷積核只能提取序列的短期時空信息，正好印證了3D卷積核的結構特性，即只能卷積相鄰的幾組特征體，而3D-ConvLSTM由于使用了ConvLSTM單元，其結構上的循環特性保證了序列不斷的信息抽取，其軌跡檢測結果的完整性和連續性也驗證了它的結構特性。在3D-ConvLSTM的基礎上，本文又提出了3D-AIConvLSTM和3D-AOConvLSTM，它們在ConvLSTM單元中均使用了注意力機制，最大的不同就是在LSTM中添加的卷積操作位置不同，由3D-AIConvLSTM和3D-AOConvLSTM的對比實驗可以看出，不同的卷積位置取得的軌跡檢測結果大不相同，在輸入門中加入卷積操作和注意力機制，由于輸入門控制著新記憶信息寫入長期記憶的程度，輸入數據被丟棄之后會直接進入長期記憶，并會進一步與輸出門信息融合，形成短期記憶，使短期記憶保留的信息越來越少，在減少背景雜波的同時，也相應的丟失了目標信息，而在輸出門中加入卷積操作和注意力機制，長期記憶接收來自輸入門的信息，并融入了來自輸出門的信息，這也是3D-AOConvLSTM的軌跡要優于3D-AIConvLSTM的原因。

表6 四種軌跡提取方法的模型參數數量

圖7 不同檢測方法在5個序列上的軌跡提取結果

針對連續15幀的復雜紅外圖像序列，3D-AOConvLSTM方法利用3D卷積核提取短期的時空信息，利用AOConvLSTM單元提取時空信息的長期信息，利用注意力機制丟棄大量的冗余時空信息，實現了對弱小目標運動軌跡的有效提取。基于輸出門注意力機制的卷積長短時記憶網絡表現效果最好的原因，在于它將注意力機制放置在輸出門的位置，輸出門控制著短期記憶如何受長期記憶影響，它能夠從長期記憶中提取與任務相關的重要信息，并舍棄冗余信息，而基于輸入門注意力機制的卷積長短時記憶網絡層將注意力機制放置在輸入門的位置，控制著新記憶信息寫入長期記憶的程度，若長期記憶中的重要信息被錯誤的丟棄，那么后續時刻與任務相關的信息將永久消失，這就是將注意力機制放置在輸出門的優勢。

5 結論

本文通過結合3D卷積核、長短時記憶單元以及注意力機制，設計了深度學習網絡架構，建立了紅外圖像序列中多幀圖像與軌跡檢測之間的相關性，從大量時空信息中有選擇的篩選和任務相關的重要信息，同時忽略絕大部分冗余的信息，能夠應用在近地小天體的探測和預警任務中。本文方法無需任何先驗知識，就能夠精確檢測到小運動目標的運動軌跡，解決了基于TBD軌跡搜索算法存在的需要事先獲取目標灰度分布函數或運動速度等先驗知識的問題。與3DCNN，3D-ConvLSTM，3D-AIConvLSTM方法對比，基于輸出門注意力機制的卷積長短時記憶網絡實現了對紅外序列圖像中低于6 pixel弱小目標的運動軌跡有效檢測，檢測效果最好，背景噪聲殘留最少，在均方根誤差和平均絕對誤差上相對于3DCNN、3D-ConvLSTM和3D-AIConvLSTM方法平均降低了32.8%和46.3%，在峰值信噪比和結構相似度上平均提高了18.3%和4.3%。

注意力卷積長短時記憶網絡的弱小目標軌跡檢測

1 引 言

2 注意力機制卷積長短時記憶網絡

2.1 長短時記憶神經網絡

2.2 卷積長短時記憶網絡

2.3 3D卷積神經網絡

2.4 采用注意力機制的卷積長短時記憶網絡結構

3 實驗設置

3.1 數據集描述

3.2 度量指標

3.3 基準模型

4 實驗結果分析與模型對比

5 結 論

1 引言

5 結論