邢靜,劉小虎
(西安培華學院 智能科學與信息工程學院,陜西西安,710125)
由于可見光圖像的跟蹤在光照條件變化大或光照條件差的時候不可靠,而紅外圖像通過檢測物體的熱信息來跟蹤目標,對光照條件要求較低,因此,紅外圖像可以為可見光圖像提供補充信息[1]。紅外成像的圖片由于低解析度和粗糙的紋理,在特定的條件下進行對象跟蹤也是不可靠的。因此,現在著重于將可見光和紅外圖像結合到一起來克服單模態方法的局限性。可見光與紅外圖像融合的目標檢測跟蹤技術,已經被各國普遍地應用于打擊犯罪、城市規劃、體育賽事轉播、安防監控、商業領域、無人車、無人機、機器人等方面。但是,對每個模態可靠性的度量、多模態的校準、如何生成有效的聯合特征、計算成本可是否偏高,能否滿足實時跟蹤的要求,這些因素給我們的研究帶來了挑戰。如何實現可見光與紅外圖像的融合,并對目標進行準確的檢測與跟蹤是目前研究處理的熱點和難點。
對可見光與紅外圖像融合的目標檢測跟蹤技術,可以根據聚合的層級將聚合方法進行劃分為像素級融合跟蹤、特征級融合跟蹤和決策級融合跟蹤。除了根據融合層級對聚合方法進行分類,還可以根據方法的類型對聚合方法進行分類,劃分為傳統方法、多尺度變換、稀疏表示、圖、深度學習和相關濾波器的方法。對可見光與紅外圖像融合的主要方法如圖1所示。下面將對這些方法展開詳細敘述。

圖1 可見光與紅外圖像融合的主要方法
傳統跟蹤方法利用了手工制作的特征,例如顏色直方圖、HOG、SIFT、ORB和LBP。此外,在這些方法中,采用了傳統的跟蹤技術,如卡爾曼濾波、粒子濾波和均值漂移等進行跟蹤。但是這些方法有較大的局限性。首先,跟蹤中使用的特征是手動提取或設計的,這在許多情況下可能無效。到目前為止,已經可以證明手工制作的特征存在較大的局限性。因此,這些跟蹤器無法很好地處理跟蹤過程中的一些難題,例如規模變化和快速運動。其次,上述方法在計算上比較昂貴,尤其是基于粒子濾波器的方法。而且傳統的跟蹤方法都不能滿足實時性要求。最后,上述方法通常只是使用幾個甚至一個視頻來測試所提出的算法,不足以全面評估處理不同挑戰的性能。
多尺度變換的原理是把采集的原始圖片分解為各種不同尺度的分量,每個分量代表不同尺度的子圖像,而通常真實場景中的對象包括各種尺度的分量。文獻表明,人類視覺特征與多尺度變換是基本一致的,同時這些特征會使融合后的圖像具有出色的視覺效果[4,8,9,10,11,12]。
多尺度變換的融合方法一般需要三步:(1)用不同尺度來表示每個原始圖像;(2)把各種不同尺度表示的原始圖像按照給定的規則進行融合;(3)通過逆尺度變換來得到融合圖像。選擇合適的變換和融合規則是基于多尺度變換融合的關鍵所在[4,8,9,10,11,12]。

圖2 多尺度變換原理圖
基于多尺度變換的方法是圖像融合中最活躍的領域,它假定圖像將由不同顆粒中的各個層表示。這些方法將源圖像分解為多個級別,將特定的圖層與特定規則融合在一起,并相應地重建目標圖像[4,8]。
稀疏表示能夠表征人類的視覺系統,有效地抑制噪音和錯誤。它也能被用于可見光與紅外圖像融合的跟蹤算法中,因為它有助于生成有效的聯合特征。然而,一些基于稀疏表示的方法沒有考慮模態的可靠性,因此當個別模態出現偶然擾動或故障時,算法的表現可能會被限制。
基于稀疏表示的融合跟蹤的最大缺點是效率。幾乎所有的稀疏表示融合跟蹤算法都不能滿足實時性要求,這可能是因為在線優化在基于稀疏表示的方法中很耗時。基于稀疏表示的融合跟蹤的原理圖[9]如圖3所示。

圖3 基于稀疏表示的融合跟蹤的原理圖
在基于圖的方法中,可見光和紅外圖像都應該用圖表示,并且必須建立可見圖和紅外圖之間的特定關系。這種關系和權重是基于圖的方法的關鍵點。該方法的主要目的是抑制可見光和紅外圖像融合跟蹤中的背景效應,從而獲得更好的特征表示。此外,通過考慮前景的塊權重,將可見光圖像和熱力特征進行連接。但是,該方法有兩個缺點。首先,它在計算跨模態一致性時沒有考慮模態權重。這意味著該方法在跟蹤過程中無法區分更可靠的模態,因此會受到單個源的成像限制的影響。其次,它的速度極低,不滿足實時性的要求。
近年來,深度學習已在計算機視覺,模式識別和圖像處理等各個領域展示了最先進的性能。深度學習具有對數據之間的復雜關系進行建模的強大功能。此外,深度學習無需人工干預即可自動從數據中提取獨特的功能。基于深度學習的方法學習到的特征更有效、更穩健,因此有利于跟蹤問題。基于深度學習的方法是當前領域的主流方向,但是它的主要問題是計算成本。因此必須采取措施降低計算成本,從而使基于深度學習的融合跟蹤器更快。
相關濾波器是一類分類器,用于最優化及在相關輸出中產生峰值,主要是為了實現場景中目標的準確定位。基于相關性過濾的跟蹤算法高效、準確,因此雖然對于基于相關濾波器的可見光與紅外圖像融合跟蹤方法的研究處于剛剛起步的階段,但由于相關濾波器高效、準確的優勢,使其未來的發展值得期待。
像素級融合跟蹤,是指首先融合不同模態的圖像以產生更多信息的圖像,然后基于這些融合圖像進行目標跟蹤[5]。這個方法易于實現,但是它保留了原數據源中最多的信息,因此非常耗時而且會顯著地降低整個跟蹤算法的速度[7]。像素級融合跟蹤原理圖如圖5所示。

圖4 基于特征級深度學習的可見光與紅外融合跟蹤算法的框架[9]

圖5 像素級融合跟蹤原理圖[7]
該方法首先提取可見光圖像和紅外圖像的特征,然后按照設計的融合規則進行融合,得到融合特征[6]。融合特征會被跟蹤任務使用。該方法直接構造了多模態的特征,因此比像素級融合跟蹤更加直接。特征級融合跟蹤原理圖如圖6所示。

圖6 特征級融合跟蹤原理圖[6]
決策級融合跟蹤,又被稱為聚合前跟蹤的方法,對不同的模態分別運行跟蹤算法,最后將跟蹤的結果融合得到最終的結果。該算法有一些優勢。首先,非常靈活,可以選擇不同的跟蹤器分別基于可見光和紅外圖像進行跟蹤。大多數決策級融合跟蹤方法唯一需要的是目標周圍的邊界框。其次,與像素級和特征級融合跟蹤方法相比,它的計算成本通常更低。因此,其跟蹤速度可能比像素級和特征級融合跟蹤方法更快。此外,決策級融合跟蹤對可見光和紅外圖像的配準要求較低。決策級融合跟蹤原理圖如圖7所示。

圖7 決策級融合跟蹤原理圖
傳統方法利用了手工制作的特征,因此無法處理跟蹤過程中的快速運動等問題,且計算成本較昂貴,難以滿足實時性要求;基于多尺度變換的方法,依賴于預定義的變換以及用于分解和重建的相應級別,但是,沒有標準用于評估這些轉換和級別,從而容易降低性能;稀疏表示方法能有效抑制噪聲,可靠性高,但效率極低;基于圖的方法能抑制背景效應,但會受到單源成像限制影響,且實時性低;深度學習方法比較穩健、有效,但是計算成本過高;相關濾波器方法高效、準確,但發展相對緩慢。

圖8 可見光與紅外融合跟蹤技術的發展趨勢
可見光與紅外融合的跟蹤方法,關鍵是要針對圖像特征、成像機制等特點,同時考慮計算魯棒性、實時性和成本等要求,合理地選擇跟蹤方法,以求得到最好的性能。無論是傳統方法、稀疏表示、圖表示等經典方法,還是深度學習和相關濾波器等新興的方法,通常都是使用單一方法進行跟蹤過程。因為每種方法都有各自的局限性。所以不能達到很好的效果。可見光與紅外融合的跟蹤技術未來的發展趨勢是利用多種跟蹤方法相結合,優勢互補,從而最大限度地提升性能,提高系統的魯棒性與實時性。