李文波,王 玉,王明泉,商奧雪,豐曉鈺
(中北大學信息與通信工程學院,山西 太原 030051)
紅外熱成像由于其通過目標和背景的輻射產生場景圖像的特點,不受環境因素的影響,可以24 h不間斷工作,因此在民用、醫學和軍事領域得到了廣泛應用[1]。隨著紅外圖像應用范圍的進一步擴大,視頻圖像已成為紅外領域信息傳播的主要載體之一,人們對紅外成像視頻幀率的要求也越來越高。因此,如何獲取更高質量、更豐富信息的近紅外圖像成為亟待解決的問題。
傳統的基于光流的視頻插幀方法[2]主要組成部分是光流估計網絡和幀重建網絡。光流估計的方式是進行單尺度的特征提取,這種方式應用到瞬態場景下得到預測幀效果很差,幀重建是結合空間信息合成所需的中間幀。其中,光流估計得到的結果對形成的中間幀效果有非常關鍵的影響[3]。由于插幀場景是在瞬態場景下進行的,若使用普通場景下的插幀方法,經過實驗得到的結果顯示得不到較高質量的紅外視頻插入幀。常用的如Flownet[4]、PWC-net[5]等光流估計網絡,在瞬態場景下視頻插幀任務中,由于對應點運動位移過大,直接對光流建模超出了網絡的建模范圍,使得網絡在建模時很難正確找到對應位置的2個點進行光流計算[6]。從數學的角度解釋該問題,可以將深度網絡解決問題的過程看作在解空間搜索最優解的過程。通常對于輸入的圖片,其最優解出現的位置在解空間的中間部分。正常場景下的輸入數據集也都屬于該種類圖片,但是對于瞬態場景,由于運動位移過大,導致它的解通常位于解空間的邊緣,因此深度網絡搜索過程中無法尋到全局最優解,進而輸出邊緣最優解作為最終的答案。這就使得光流信息作用到所插入幀圖像后魯棒性不好。
針對上述問題,如何更好地利用光流信息得到魯棒性較好的插入幀圖像,成為研究視頻插幀的難點問題之一,由于是在瞬態狀態下進行的,如果對其進行單尺度特征提取,容易導致它的解位于解空間邊緣的同時也會造成丟失很多細節信息,簡而言之,就是難以獲得魯棒性較好的預測中間幀[7],因此,本文提出了一種基于注意力的多尺度、多分支光流網絡,利用注意機制和不同光流信息之間的互補特性,深入學習相鄰幀之間的運動信息,從前后相鄰2幀中得到細微的運動。具體來說,使用紅外視頻的相鄰2幀提取光流,并生成新的光流信息,以更好地捕捉瞬時間的細微運動。本文使用Inception網絡[8]將3條光流信息輸入到三分支網絡中進行特征提取。考慮到單尺度特征不能充分提取局部運動,提出了一種新的多尺度特征融合模塊(multiscale feature fusion,MSFF),該模塊利用空間注意力機制聚焦每個尺度上的關鍵信息。然后,由于每條光流信息對插入幀的貢獻不同,提出了一種多光流特征重加權(multi-optical flow feature reweighting,MOFRW)模塊,該模塊使用通道注意力機制自適應地分別為每個光流選擇特征。對所提方法在多個紅外數據集上進行測試,均得到了高質量的視頻插幀效果。最后,使用了在視頻插幀領域廣泛采用的L1范式損失作為優化函數,此外,還使用了感知損失函數,通過網絡深層的更高維特征的相似度去評價預測得到的紅外圖像的準確性。
目前,紅外視頻幀率提升技術主要分為2大方向。一是硬件支持的改進,二是從算法性能的角度上對紅外視頻幀率提升進行改進,即視頻幀插入技術。
硬件支持的改進是利用紅外高幀率攝像機在短時間內完成高速運動目標的快速連續采樣。圖像信息經過處理后,傳輸給計算機,再由計算機讀出并顯示圖像。然而,這種方法昂貴的成本大大降低了提高幀率的可能性[9]。并且目前大部分國內外紅外熱像儀生產廠家將重點放在紅外成像分辨率提升技術上,在對紅外視頻幀率提升技術上的研究相對較少,幀率也都是相對較低,目前在普通民用中,市面上比較流行的紅外熱像儀幀率都在9 Hz、25 Hz、30 Hz,一般不超過60 Hz[10]。這些幀率在普通常規場合下可以滿足多方面需求,但是在物體快速甚至高速、極速運動的情況下幀率較低的設備就不適用了,如在爆炸場下就需要高幀率紅外熱像儀來拍攝以保證后期對溫度、目標識別等方面深入研究的正確性、可靠性。針對這一問題中國傳媒大學王金濤、劉英納等[11]提出專利紅外熱像儀幀率擴展裝置。一小部分廠家,如FLIR、i3system等公司在提升設備幀率上有研究并取得了一定成果,如FLIR公司的FLIR X8580 SLS、FLIR X6980 SLS等[12]。但是高速紅外熱像儀的價格非常昂貴。將舊紅外熱像儀更新換代,對于一些普通企業來說成本代價過高。因此,深入研究使用算法的方式去提升紅外幀率成像具有非常重要的意義。
視頻幀插入技術是通過相應的時空信息在相鄰幀之間插入中間幀,從而將視頻幀率從30幀/s提高到60幀/s,獲得更高幀率的紅外視頻。在最早期的時候人們借鑒CRT顯示器的脈沖顯示模式,提出了插黑幀技術,其最大特點就是便于實現,但最后的顯示效果差強人意。同時在早期提出幀率轉換技術需求時,研究者們只是對視頻進行簡單處理(采用幀重復和幀平均的算法),未考慮到運動信息,此方法若運用到視頻中,對于存在運動的物體,則會出現非常明顯的模糊和重疊問題;21世紀初,由于需要幀率提升的視頻中均存在運動場景,若使用上述不考慮運動補償的方法進行視頻插幀,得到的結果就是無法合成高質量視頻插幀圖像。因此,研究者們開始嘗試使用可以捕獲物體運動信息的算法以生成較好的視頻插幀圖像,這一階段產生了一系列基于運動估計和運動補償的算法。Bao等[13]提出一種運動估計和補償驅動的神經網絡用于視頻幀插值,提出了一種融合光流和插值核的自適應扭曲層來合成目標幀像素。這一層是完全可微的,使得流估計網絡和核估計網絡可以共同優化。這種方法通常會產生效果較好插值結果,但在大的運動變化下可能無法保留高頻細節。Choi 等[14]提出了運動補償幀插值的運動估計和運動矢量細化新方法,提出使用3個視頻幀得到雙向運動矢量的估計方法。之后,自Dosovitskiy等[15]提出FlowNet里程碑式的方法以來,后面幾年深度學習在計算機視覺領域取得了巨大的成功,基于深度學習的光流估計網絡也被不斷提出。Jiang等[2]提出了SuperSlomo,使用2個雙向流的線性組合作為中間流的初始近似,然后使用U-Net對其進行細化。但這種方法往往無法捕獲大運動,導致無法得到較好的插值結果。Niklaus等[16]利用給定幀之間的雙向光流,在利用合成網絡渲染輸出幀之前,直接將圖像及其上下文特征前向扭曲到插值瞬間。為了使這種splatting完全可微,進一步引入softmax splatting,允許端對端訓練特征提取。盡管取得了相當先進的性能,但由于固有的網絡復雜性和大量的內存限制,該方法需要更多的計算資源消耗時間。Choi等[17]提出了CAIN,采用通道注意機制和PixelShuffle直接學習插值結果。Zhang等[18]提出了一種注意力增強殘差塊,該殘差塊利用殘差塊中的三重注意力機制,利用通道和空間注意力以及對特征的不同空間位置和通道的多頭自注意力來提取特征,這使得網絡更多地關注關鍵的感興趣區域,然而當處理快速移動的對象時,這些方法往往會產生模糊的結果。
本文提出了一個多尺度特征融合模塊和一個多光流特征重加權模塊,基于注意力機制從通道和空間角度聚焦瞬態運動區域顯著特征。該操作提高了網絡的泛化能力,增強了插入幀圖像的魯棒性。通過這些改進,本文提出的模型在紅外視頻幀率提升任務中實現了更好的性能。
紅外視頻幀率提升任務的整體結構框架如圖1所示。

圖1 本文整體結構框架
該模型分為3個部分:光流提取、特征學習和輸出網絡。如圖1所示,其中,光流提取是通過紅外視頻的相鄰2幀計算光流,生成新的光流信息,特征學習部分使用Inception模塊進行特征提取,第1個Inception塊中每個尺度有6個卷積核,第2個Inception塊中每個尺度有16個卷積核。此外,還分別使用多尺度特征融合(MSFF)和多光流特征重加權(MOFRW)模塊對特征進行融合和加權。輸出網絡使用特征融合模塊和幀重建模塊得到最終的預測幀。
本文使用總變差光流[19]方法來計算相鄰幀之間的光流。該算法適用于瞬態運動分析,可以克服在插幀過程中丟失小細節的成本問題。用u和v分別表示光流場的水平分量和垂直分量,用來描述相鄰前后幀之間的運動信息。另一種光流導數稱為光應變,它能夠近似于前后幀形變的強度,可以定義為
(1)
式中:Of=[u,v]T為光流矢量,包括水平分量u和垂直分量v;? 為Of的導數。
2.2.1 Inception網絡
對于卷積神經網絡模型,較大的卷積核通常具有較大的感知場,可以更好地捕捉輸入數據中的全局特征,而較小的卷積核更適合提取局部特征。由于不同光流圖像中關鍵信息的位置存在差異,為卷積運算選擇合適的卷積核大小更為復雜。受文獻[8]的啟發,本文采用了Inception網絡,在同一級別上并行使用多個不同尺度大小的卷積核。提取不同尺度和抽象層次的特征,可以更好地適應不同大小和復雜程度的圖,使網絡能夠捕獲更豐富的信息。另外,Inception模塊使用1×1、3×3和5×5的小卷積層,同時增加一個額外的1×1卷積層來限制輸入通道的數量。這種設計可以有效減少模型參數的數量和計算量,提高計算效率。最后,在每個Inception模塊之后使用最大池化操作,可以進一步減小特征映射的大小和計算量,過濾掉輸入特征映射中的噪聲和冗余信息,更好地聚合特征信息。本文中使用的Inception網絡結構如圖2所示。

圖2 Inception模塊結構
2.2.2 多尺度特征融合(MSFF)模塊
本文提出的MSFF模塊旨在獲取不同尺度下紅外視頻相鄰幀光流圖像的運動信息。為了增強每層特征的顯著性和表達性,首先使用空間注意模塊(SAM)進行自適應加權,如圖3a所示。SAM模塊可以學習前一幀和當前幀的特征,生成相應的注意映射(attention mapping,Attn),并與輸入特征相乘,以增強前后幀紅外視頻圖像局部信息的表達和運動區域特征的表示。

圖3 SAM模塊結構和MSFF模塊結構
本文提出的MSFF模塊采用三步策略在低級光流特征中捕獲更多局部運動信息,如圖3b所示。首先,為了連接當前層特征,對前一層的特征進行下采樣;然后,對下采樣的特征進行SAM處理,在進入SAM之前,對特征進行與增強特征的求和操作;其次,對當前層進行SAM處理;最后,將前層和當前層的處理特征連接起來,得到相鄰層的最終多尺度融合特征。該設計可以提取和融合不同層次和尺度的不同運動信息,以增強前后相鄰2幀紅外圖像局部信息的表達和識別精度。
2.2.3 多光流特征重加權(MOFRW)模塊
本文提出的多光流特征重加權(MOFRW)模塊將不同模式的光流信息拼接在一起。它使用通道注意力模塊(CAM)對每條光流信息進行加權,如圖4a所示。本設計可以充分利用不同尺度的光流信息的特點和優勢,提高光流特征的性能和差異性,從而獲得更加準確可靠的動態信息。在進行CAM和加權計算時,還需要根據各通道的重要性對其進行加權,進一步抑制噪聲和冗余信息,提高光流特征的性能和區分能力。

圖4 CAM模塊結構和MOFRW模塊結構
MOFRW模塊通過4個主要步驟實現多段光流特征信息的注意加權。整個過程如圖4b所示。將3個光流特征拼接在一起。利用CAM提取不同光流信息特征映射的通道注意力向量,得到3種光流特征的通道注意力向量。再利用Softmax對3個光流通道注意力向量進行特征重新校準,獲得每個光流信息交互的新注意力權重;之后對重新校準的權重和相應的特征映射進行點積運算。對多光流特征信息進行注意加權后,得到輸出的特征圖。最后,將多特征輸入拼接的光流特征和注意力加權特征與輸出相加,得到一個重新加權的多光流加權特征圖。MOFRW模塊的計算過程為:
Ci=CAM(Fi)i=u,v,γ
(2)
(3)
ζi=Fi⊙AAttii=u,v,γ
(4)
Oout=Finput+Cat([ζu,ζv,ζγ])
(5)
3.1.1 訓練數據
本文在OTCBVS數據集中的Terravic Motion IR Database[20]上進行模型的訓練和測試。Terravic Motion IR Database中包含18個熱序列數,是在運動場景下拍攝的紅外序列幀,主要使用戶外運動和跟蹤場景、室內走廊運動、水下和近地表運動等紅外序列幀,Terravic Motion IR Database數據集包含25 355張紅外圖像。本文使用其中的15 285個樣本作為訓練集,1 542個樣本作為驗證集。數據集中所有圖像的尺寸均為320×240。
3.1.2 訓練策略
本文采用 AdamW[21]作為優化器,將其衰減設置為0.018 3,訓練100輪。每一批次數據的大小是32,學習率使用余弦函數進行調節,這些參數是根據實驗經驗和實驗結果選擇的。訓練過多可能會導致出現過擬合現象,BatchSize設置過小可能導致網絡收斂速度慢、訓練時長增加等,過大可能會導致顯存溢出、收斂難度增大。在硬件配置方面,采用了NVIDIA GeForce RTX2080Ti作為訓練和測試硬件。
在損失函數部分,對于光流的預測結果,本文使用L1范式損失作為優化函數,這已被證明比L2的結果更清晰[22]:
(6)
式中:fgt為紅外中間幀真實的光流值;fpred為預測的紅外中間幀光流值。
此外,還使用了基于特征的感知損失函數,通過網絡深層的更高維特征的相似度去評價預測得到的紅外圖像的準確性程度,即
(7)
式中:φ(·)為VGG16模型中的第2層池化層之前的網絡結構。
最后,結合式(6)和式(7),網絡的損失函數為
L=λ1L1+λ2Lp
(8)
式中:λ權重分別設定為0.020 0、0.000 5。
3.1.3 評價指標
本文采用2種在視頻插幀領域中最常用的質量指標,即峰值信噪比(PSNR)和結構相似性(SSIM),PSNR是基于均方誤差(MSE)發展而來,計算方法如下:
大小為r×c的2幅圖像,原始圖像I和噪聲圖像K,2幅圖像間的均方誤差值SME定義為
(9)
2幅圖像間的峰值信噪比值RPSN定義為

(10)

結構相似性(SSIM)的基本思想是通過亮度(luminance)、對比度(contrast)、結構(structure)這3個方面來對2幅圖像的相似性進行評估,SSIM的計算過程如下:
(11)
(12)
(13)
SSIM(X,Y)=L(X,Y)·C(X,Y)·S(X,Y)
(14)

PSNR與SSIM的數值越大表示預測圖像和原始圖像的誤差越小、質量越好。同時注意到,這些指標并不總是與人類觀察者所感知的視頻質量很好地相關。因此,使用了一種更具感知相似性判斷的衡量標準,即LPIPS[23]。LPIPS的值越小代表2幅圖像之間的相似度越高,反之值越大,代表差異越大。
本文同當前流行的視頻插幀算法進行了對比實驗,比較的方法有:DVF[24]、MEMC[13]、Slomo[2]、CAIN[17]、QVI[25]、XVFI[26]。為避免實驗的偶然性,經過多次實驗后,得到的結果如表1所示,容易得出本文方法與上述方法對比所得到的結果在PSNR、SSIM、LPIPS都取得了很好的效果。

表1 不同方法的比較
在圖5中,展示了運用本文算法得到的預測中間幀紅外視頻圖像與真實中間幀紅外視頻圖像對比,并且可視化了預測中間幀光流結果與真實中間幀光流結果。下列3組圖片中上方每組右側是預測幀光流圖可視化,左側是真實幀光流圖可視化,下方右側是預測幀紅外圖像,左側是真實幀紅外圖像。通過觀察可知,本文方法可以有效預測出光流信息,并且也可以得到魯棒性很好的預測中間幀紅外視頻圖像。

圖5 視頻插幀真值、結果可視化和光流預測真值、結果可視化
為了證明本文中所提出模塊的有效性,對其進行了消融實驗。實驗數據是基于Terravic Motion IR Database數據集中的紅外視頻幀計算得到的。將通過一個帶有六層卷積模塊的殘差網絡作為基礎網絡[27](BaseNet),然后依次添加多尺度特征融合模塊(MSFF)和多光流特征重加權(MOFRW)模塊。實驗結果如表2所示,容易得出,本文所提出的網絡模塊可以綜合提高所插紅外視頻幀的性能。

表2 不同模塊對模型的影響
本文提出了一種瞬態場景下基于光流法的紅外視頻插幀算法,該算法可以有效解決瞬態場景下,相鄰幀單尺度特征提取容易導致它的解位于解空間邊緣的同時也會造成丟失很多細節的問題,該算法結合了多尺度、多通道、注意力機制等方法,利用不同光流的互補特性,能夠深入學習相鄰2幀紅外圖像之間的運動信息,提取出顯著特征和區別特征。本文設計了2個模塊,MSFF和MOFRW模塊。其中,MSFF模塊專門用于突出紅外視頻相鄰幀之間細微局部運動。相比之下,MOFRW模塊使用不同光流的貢獻來重新加權,以提取關鍵特征并過濾掉冗余特征。最后,實驗結果表明,本文方法可以得到高質量的紅外插幀圖像,并與目前最先進的方法相當,充分證明了本文算法的有效性。然而,雖然本文提出的紅外視頻插幀方法已經取得了很不錯的效果,但是在面臨眾多復雜多變的應用場景下,紅外視頻插幀算法仍有提升的空間。本文所提方法是通過多尺度、多通道、注意力機制等方法,利用不同光流的互補特性,提高光流信息預測準確性來改善視頻插幀的效果,在之后的研究中可以嘗試使用生成對抗網絡等其他先進的深度學習方法,在現有模型的基礎上獲得更加自然逼真的紅外視頻插幀結果。