趙尚男,王靈杰*,張 新,吳洪波,2
(1.中國科學院 長春光學精密機械與物理研究所 中國科學院光學系統先進制造技術重點實驗室,吉林 長春 130033;2.中國科學院大學,北京 100049)
隨著遠距離紅外光學系統的快速發展,紅外目標檢測與跟蹤技術在交通、醫療、安防及軍事等領域得到了廣泛應用。
目前,紅外目標檢測與跟蹤領域存在兩個問題:目標弱小和背景復雜。當目標所占像素不超過圖像總像素0.15%,且目標與背景的信噪比低于4dB時,目標則被視為弱小目標[1]。弱小目標與周圍背景的對比度較低,不具備形狀、紋理等特征,很難從復雜的背景中檢測出來[2];另一方面,由于煙霧、云層、海面、目標與載體的相對運動及人為因素的干擾,導致紅外圖像中出現噪聲、模糊、陰影,從而使得紅外背景雜波日益復雜[3-4]。
目前,基于常規的紅外目標檢測方法(如:空域濾波方法、小波變換方法、Top-hat變換、馬爾科夫隨機場法[5]、主成分分析法等)多數存在先驗條件要求過多、虛警率高、計算復雜等問題[6-8]。例如:傳統的基于小波變換的目標檢測方法性能不穩定,且不能有效地抑制不同復雜背景雜波。而改進的基于小波變換的算法通常較為復雜,影響實時性。Top-hat變換方法的性能很大程度上依賴于選取的結構元素,通過對結構元素形狀、大小的調整才可以檢測不同類型的目標。
另一方面,隨著神經科學及腦科學的發展,人類視覺系統(Human Visual System, HVS)在紅外目標檢測領域的應用取得了一系列成果,基于HVS機制(如:側抑制、感受野、脈沖發放機制)的目標檢測算法在提高紅外目標檢測算法的魯棒性、背景雜波和噪聲抑制能力等方面取得了明顯進步[9-11]例如:2012年,Wang X等人提出一種基于視覺注意的紅外弱小目標檢測算法[12]。該算法采用高斯差分(Difference of Gaussian,DOG)濾波器計算顯著圖,而后通過“勝者為王”(Winner Take Au, WTA)競爭機制和“返回抑制”(Inhibition of Return, IOR)控制機制搜索提取出顯著圖中突出區域潛在的目標,該算法的魯棒性較高,且檢測概率可達到94.68%;2014年,Dong X等人提出一種基于三種人類視覺機制(包括對比機制、視覺注意和眼球微動機制)的紅外小目標檢測算法[13]。該算法在復雜背景下具有較好的抗噪性和較低的虛警率。2017年,張葉等提出了一種基于多特征、多尺度視覺顯著性的目標檢測方法,該方法利用了人眼對不同用大小的圖像關注目標不同的特點對圖像進行上下采樣,而后同時對各尺度圖像進行顯著性檢測,避免了目標漏檢和檢測重疊,該方法對目標檢測的真正率達97.73%,虛警率為3.37%[14]。2018年,Yuwen C 提出了一種基于人眼視覺注意的目標檢測方法,基于視覺對比機制和Pop-out 效應,設計了一種可進行加權調節尺度的局部對比測量方法,將弱小目標從復雜背景中提取出來,實驗獲得的平均背景抑制因子為30.82,信雜比增益為7.06,但其每幀圖像的平均處理時間為19.21 s[15]。盡管上述算法在強雜波背景下的紅外弱小目標檢測方面取得了一定的進展,但仍存在一些問題,包括:對復雜背景的抑制能力不足,算法過于復雜等。
考慮到人類視覺信息處理具有既平行又串行的特點,同時視覺信息的整合機制是個多級同步的過程,在人腦視覺系統中,視覺信息被分為形狀、空間頻率、方向和對比度等特征,在分別進行平行處理后,屬于同一物體的各種視覺特征再被整合在一起進行加工,從而形成完整的視知覺[16]。該機制使得HVS具有極強的目標檢測與識別處理能力,在復雜背景下可迅速分辨出感興趣的目標,可為紅外弱小目標檢測問題提供嶄新的思路。
因此,為了提高弱小目標檢測算法的檢測性能和穩定性,將人類視覺特征整合機制應用了到紅外目標檢測領域,并建立了基于特征整合的信息處理模型。文中詳細給出了弱小目標檢測算法的理論模型和計算步驟,并進行了仿真對比實驗,證明了算法的有效性。
1980年Treisman在Neisser理論的基礎上提出特征整合理論(Feature Integration Theory, FIT),該理論認為注意由預注意和集中注意兩個階段構成,預注意階段將視覺場景按照顏色、方向、空間頻率、亮度等特征進行分解,形成不同的特征圖(Feature Map, FM),該階段并不能識別對象,只是對不同特征進行并行處理[17]。集中注意階段也稱為特征整合階段,該階段將特征進行整合,集成為對象,其中特征顯著的位置成為視覺注意的位置。
在特征整合理論的基礎上,建立了一種基于特征整合的信息處理模型,如圖1所示。首先,對輸入的視覺場景信息進行初級信息處理,初步檢測出目標。其中,初級信息處理的方法可為HVS對視覺信息的加工方法,如利用感受野、側抑制、同步脈沖方法機制等進行目標的初步檢測。而后,對于初級信息處理后的場景進行特征分解,提取出場景的結構信息、亮度信息、對比度信息等空域特征和場景的高頻信息、低頻信息等頻域特征。最后,對各通道獲得的特征信息進行特征整合,從而輸出帶有顯著目標的場景。

圖1 基于特征整合的信息處理模型Fig.1 Information processing model based on visual feature integration
在人類視覺系統HVS中,神經元上對于不同刺激所產生響應的區域稱為感受野(RF, Receptive Field)。感受野分為同心圓式對稱型感受野、簡單細胞感受野及復雜細胞感受野,其中,位于視覺通路中的視網膜和側膝體上的感受野是同心圓式對稱型感受野。同心圓式對稱型感受野分為on-中心型和off-中心型感受野,其中on-中心型視網膜神經節細胞感受野模型的中心機制是興奮性的,且作用相對較強,具有更高的峰敏感度,而周邊機制是抑制性的,作用相對較弱,但作用面積更大。off-中心型視網膜神經節細胞的感受野模型則與此相反。不論哪種類型的同心圓型感受野模型,其中心機制和周邊機制的方向是相反的,故是相減的關系。同心圓式對稱型感受野位于視覺通路的開端,可對外界場景信息進行初步的感知,具有抑制背景雜波和突出目標的功能。
1965年,Rodieck提出使用髙斯差分模型即DOG模型來模擬同心圓式對稱型感受野,DOG模型的表達式為:
DOG(x,y,σ1,σ2)=
(1)
其中σ1和σ2為高斯函數的均方差。σ1和σ2分別決定了低截止頻率flow和高截止頻率fhigh。
感受野模型對圖像的處理過程可通過卷積濾波過程實現,DOG模型可視為帶通濾波器,利用卷積模板對圖像各像素點進行濾波,濾波處理過程為:
R(x,y)=DOG(x,y)*I(x,y)=
(2)
其中:DOG(x,y)為DOG濾波器,I(x,y)為輸入圖像的灰度分布,R(x,y) 為輸出圖像的灰度分布。
根據建立的基于特征整合的信息處理模型,在進行初級信息處理后進行特征分解,在空域和頻域通道分別分解出弱小目標的結構特征和高頻分量特征。在空域通道,利用圖像信息構造二階微分Hessian矩陣,計算Hessian矩陣的直跡與行列式進行局部極值的判定,進而提取出含有弱小目標的結構分量特征;在頻域通道,利用小波變換對圖像頻域進行二級分解,進而提取出含有弱小目標的高頻分量特征。
在空域通道中,利用獲得初級信息處理后的圖像,根據其像素信息構造二階微分Hessian矩陣,如公式(3)所示:
(3)
式中:Dxx(x,y)為水平方向的二階微分算子,Dyy(x,y)為垂直方向的二階微分算子,Dxy(x,y)為45°方向的二階微分算子。
而后,計算Hessian矩陣的直跡Tr_H與行列式Det_H,如公式(4)所示:
(4)
式中λ1和λ2是Hessian矩陣的特征值。
根據Dxx(x,y)和Det_H可進行局部極值的判定:若Det_H>0且Dxx(x0,y0)<0,則點(x0,y0)為局部極大值點,即圖像中的點目標;若Det_H>0且Dxx(x0,y0)>0,則該(x0,y0)為局部極小值點;若Det_H<0,則該(x0,y0)為鞍點;若Det_H<0,則點(x0,y0)為臨界點。
最后,利用公式(5)提取出含有弱小目標的結構分量特征。
Q(x,y)=
(5)
式中Q(x,y)是結構分量特征圖像的灰度值。
在頻域通道中,利用獲得初級信息處理后的圖像,利用小波變換對該圖像的頻域進行二級分解,分解后該圖像的小波變換系數向量包括:一個近似系數矩陣和兩組行、列、對角線細節系數矩陣,其中近似系數矩陣代表圖像的低頻背景部分,行、列、對角線細節系數矩陣代表圖像的高頻部分。而后,將小波變換系數向量中的近似系數矩陣設為0,再計算小波變換系數向量的反變換,取其絕對值,從而獲得含有弱小目標的高頻分量特征圖像F(x,y)。
由于在空域和頻域通道中被判定為背景的圖像灰度值都已置為0,因此,接下來采用點乘的方式將結構分量特征圖像Q(x,y)和頻域分量特征圖像F(x,y)整合為輸出圖像Out(x,y),從而將兩個通道中的背景進一步去除,降低檢測結果的虛警率,換言之,只有在兩個通道中均被判定為弱小目標的像素值才可被保留下來,進而達到通過結合各通道的不同特征實現增強目標、抑制背景的效果,其特征整合過程如公式(6)所示。
Out(x,y)=Q(x,y)·F(x,y),
(6)
式中:Q(x,y)表示在空域通道中獲得的結構分量特征圖像,F(x,y)表示在頻域通道中獲得的含有弱小目標的高頻分量特征圖像,Out(x,y)表示將空域通道與頻域通道的分量特征整合后的輸出圖像。

圖2 算法流程Fig.2 Process of proposed method
提出的一種基于視覺特征整合的弱小目標檢測算法的主要思路是:首先,利用視網膜神經節細胞感受野的數學模型DOG對紅外圖像進行初級信息處理,初步檢測出弱小目標。而后,進行特征分解,分為空域和頻域通道并行處理,分別提取出含有弱小目標的結構特征和高頻分量特征。最后,將空域通道與頻域通道的分量特征整合,提取出復雜背景下的弱小目標。算法總體流程如圖2所示。
根據圖2,算法的具體步驟如下:
步驟1:利用DOG模型進行初級信息處理。
首先根據公式(1)建立DOG濾波器模板,而后利用濾波模板根據公式(2)對圖像進行卷積濾波處理。為了降低計算量,利用如公式(7)所示的DOG帶通濾波器對原始圖像進行卷積處理。
S(i,j)=|Iflow(i,j)-Ifhigh(i,j)|,
(7)
其中flow和fhigh分別為DOG濾波器的低通和高通模板。
為了增強顯著域,flow設為很低,為均值濾波模板,fhigh設為很高,同時,考慮到頻率很大的噪聲需要被消除,fhigh為5×5的高斯核,flow和fhigh的濾波模板如公式(8)所示。
(8)
步驟2:特征分解。
將初級信息處理后的原始圖像進行特征分解,在空域和頻域通道分別分解出弱小目標的結構特征和高頻分量特征。
步驟2.1:在空域通道,利用圖像信息根據公式(3)構造二階微分Hessian矩陣,根據公式(4)計算Hessian矩陣的直跡與行列式,而后再利用公式(5)進行局部極值的判定,進而提取出含有弱小目標的結構分量特征;
步驟2.2:在頻域通道,利用‘sym’小波,對圖像頻域進行二級分解,將小波變換系數向量中的近似系數矩陣設為0,再計算小波變換系數向量的反變換,取其絕對值,從而獲得含有弱小目標的高頻分量特征圖像F(x,y),從而提取出含有弱小目標的高頻分量特征。
步驟3:將空域通道與頻域通道的分量特征整合。
將所述步驟2.1獲得的含有弱小目標的結構分量特征圖像和步驟2.2獲得的含有弱小目標的高頻分量特征圖像進行點乘,如公式(6)所示。
本實驗的硬件平臺為臺式計算機,CPU主頻為2.7 GHz,內存4 GB,軟件平臺為MATLAB 2017a,實驗對象是:弱小目標。選取6幅帶有復雜背景、噪聲及不規則干擾的單幀紅外圖像作為測試對象,如圖4第1列所示。表1是原始圖像的基本信息,可以看出本實驗中的原始圖像均滿足復雜背景和弱小目標的要求,即:目標尺寸小于總像素的0.15%,信噪比小于4 dB以及對比度小于15%。

表1 實驗中原始圖像的基本信息
采用信雜比增益(SCRG, Signal to Clutters Ratio Gain)和背景抑制系數(BSF, Background Suppression Factor)作為算法性能的評價參數。其中,信雜比增益定義為處理后的輸出圖像信雜比與輸入圖像信雜比的比值,其表達式如公式(9)所示。
(9)
式中Rsci和Rsco分別表示輸入和輸出圖像的信雜比。信雜比的表達式如公式(10)所示:
(10)
式中:T為目標的灰度值,B為整幅圖像的灰度平均值,δ為圖像的平均方差。
背景抑制因子反映算法對背景的抑制程度,其表達式如公式(11)所示:
(11)
其中Cin,Cout分別代表輸入、輸出圖像的標準差。
此外,繪制ROC曲線(Receiver Operation Characteristic,ROC)測試輸出結果的檢測概率。ROC曲線的橫軸為負正類率(False Postive Rate,FPR),即虛警率;縱軸為真正類率(True Postive Rate,TPR),即檢測概率。
在實驗中,將所提出的算法與形態學(Top-hat)算法,Max-mean算法,Max-median算法,TDLMS算法及Shi′s算法[18]進行了比較,其中前3種方法是常用來評估新算法的經典算法,TDLMS算法具有很好的背景抑制能力,Shi′s算法為基于HVS側抑制機制的目標檢測算法。
為了獲得紅外目標檢測應用下的最佳性能,本實驗中每種算法的參數設定如下:Top-hat算法的結構元素大小為12×12;Max-mean和Max-median算法的濾波尺寸為9×9[19];TDLMS算法的步長和濾波窗口設置為:0.5×10-7和5×5[20]。
圖3顯示了輸入場景信息經過基于特征整合的信息處理模型的處理結果,從輸入視覺場景和顯著目標的圖像信息和三維灰度信息可以看出,視覺場景信息經初級信息處理后,可初步提取出目標,但會殘余大量背景雜波及噪聲;而后,再經過空域結構特征和高頻信息特征提取,再將其進行整合,可輸出顯著目標。該模型可通過初級信息處理、空域頻域特征提取與整合的處理機制將復雜背景中的弱小目標提取出來,且背景雜波得到了較好地抑制。

圖3 基于特征整合模型的處理結果Fig.3 Processing results based on visual feature integration model
圖4中顯示了不同算法的檢測結果圖像,同時,圖5是相應的SCRG和BSF結果,圖6是相應的ROC曲線。從圖4第2列的結果可以看出,Top-hat算法對復雜背景的抑制效果較好,但在目標亮度十分微弱時(圖4(e)~圖4(f)),目標增強效果較差;根據第3列和第4列可以看出,與Max-mean和Max-median法相比,所提出的方法具有較強的增強目標和抑制背景能力;根據圖4第5列,TDLMS的檢測結果通常會具有較好的背景抑制能力,然而由于TDLMS算法的檢測效果嚴重依賴于算法中的權值矩陣的步長,因此當背景十分復雜時(圖4(a)~圖(b))檢測結果會殘留較多的背景雜波。根據第6列,Shi′s可以在復雜背景下較好地提取小目標。然而,當原始圖像有大量的噪聲時如圖4(a)~圖(b)和圖4(d),檢測結果會殘留大量的噪聲。根據第7列,由于提出的算法利用DOG濾波器初步檢測出目標后,分為空域和頻域兩個通道分別提取出含有弱小目標的結構特征和高頻分量特征并整合輸出,從而使得弱小目標從復雜的背景中準確提取出來,并且檢測結果雜波和噪聲相對較少。
圖5為不同算法弱小目標檢測結果的SCRG和BSF,根據圖5的實驗結果,提出的算法相比于其他5種對比算法在圖4(a)~圖4(f)中獲得了最高的SCRG和BSF。同時,Shi′s算法在圖5(a)~圖5(d)中的SCRG和BSF高于提出的算法,說明當原始圖像具有較少的噪聲時Shi′s算法可以在復雜背景下提取出弱小目標。然而,如圖5(a)~圖5(b)和圖5(d)當原始圖像存在較多的噪聲時,Shi′s算法的SCRG和BSF明顯降低。

圖4 原圖和不同方法的目標檢測結果Fig.4 Original images and target detection results of different methods

圖5 不同方法弱小目標檢測結果的SCRG 和BSFFig.5 SCRG and BSF of dim small target detection results of different methods
另一方面,根據圖6的ROC曲線圖,在虛警率Pf為10-3的情況下,提出的算法與Top-hat算法、Max-mean算法、Max-median算法、TDLMS算法、Shi′s算法的平均檢測概率分別為:95.17%,63.50%,39.17%,17.08%,51.67%,74.33%。可以看出,提出的基于自適應感受野及側抑制的紅外目標檢測算法的檢測概率Pd最高,其次依次是Shi′s算法,Top-hat算法和TDLMS算法,Max-mean 和Max-median算法在相同虛警率下低于其他算法。

圖6 不同方法弱小目標檢測結果的ROC曲線Fig.6 ROC curves of dim small target detection results of different methods
針對復雜背景下的弱小目標檢測問題,利用人眼視覺系統的特征整合機制,提出了一種基于視覺特征整合的目標檢測算法。首先,利用視網膜神經節細胞感受野的數學模型DOG對紅外圖像進行初級信息處理,初步檢測出弱小目標。而后,分為空域和頻域兩個通道分別提取出含有弱小目標的結構特征和高頻分量特征。最后,將空域通道與頻域通道的分量特征整合,提取出復雜背景下的弱小目標。對比實驗結果表明,相比于形態學方法、Max-mean,Max-median,TDLMS,Shi′s方法,提出的算法具有較強的背景抑制和目標增強能力,當虛警率為10-3時,平均檢測概率為95.17%,基本滿足了弱小目標檢測的要求。