皋婕,季澤華,楊智欽,熊鳳超,陸建峰
(南京理工大學計算機科學與工程學院,江蘇 南京 210094)
顯著性目標檢測旨在模擬人類的視覺系統,發現圖像中的感興趣的目標,是計算機視覺重要研究內容。顯著性概念的提出是受到早期靈長類動物視覺系統和神經元結構的啟發[1],引入顯著性的概念可以將有限的計算資源分配給圖像視頻中更重要的部分。因此,顯著性檢測在視覺跟蹤[2-3]、語義分割[4],圖像視頻壓縮,圖像檢索等領域中有著重要的應用價值。
早期顯著性檢測方法,大多數基于手工特征如強度、顏色、方向的特征[5-7],或這些特征的組合生成顯著圖。隨著近幾年卷積神經網絡(Convolutional Neural Networks, CNN)的應用越來越廣泛,基于深度學習的顯著目標檢測方法得到大量研究。
此類模型通過學習大量的輸入與輸出之間的非線性映射關系,避免了顯式的手工特征抽取,具有更強的表達能力。基于卷積神經網絡的顯著性檢測模型表現遠好于早期的基于手工特征的模型,其中以基于全卷積神經網絡(Fully Convolutional Networks, FCN)的顯著模型為代表[8-9]。
雖然基于彩色圖像的顯著性目標檢測的研究已經取得了很大的進展,但是在某些場景中,這些已經十分成熟的模型會失效,如目標與周圍的環境具有相近的顏色、紋理,并且沒有明顯的邊緣,這種情況下彩色圖像提供的信息不足以正確識別出感興趣的對象。
高光譜成像技術為解決此類問題提供了新方案,高光譜圖像記錄了每個目標的連續光譜信息,這是傳統彩色相機無法做到的。這些光譜信息提供了場景詳細的材料信息,為材料成分分析和基于材料的目標檢測提供了基礎。基于高光譜圖像,Liang等人[10]將基于高光譜成像的顯著性物體檢測概念擴展到材料級別。Liang的方法擴展了Itti的視覺注意模型[1],從高光譜圖像中提取材料信息生成顯著圖以進行目標檢測。 這里主要使用三種方法進行了擴展:一是使用顏色匹配函數將高光譜圖像轉換為三色圖像,而后直接應用Itti模型;二是將光譜波段分組來替換Itti模型中的顏色對;三是使用光譜角距離(Spectral Angle Distance, SAD)和歐幾里德距離(Euclidean Distance, ED)計算出光譜響應及其鄰域之間的差異,得到顯著圖。這些方法使光譜數據中的額外信息得到利用。
1,1.1 基于顯著性的視覺注意力快速場景分析模型
Itti等人提出了一個基于彩色圖像的顯著性模型,他們首先對輸入的彩色圖像使用二元高斯金字塔[11]創建了九個空間比例尺,保證模型特征的多尺度提取。在經過低通濾波后,分別提取顏色、方向、強度特征。R,G,B分別作為圖像輸入的紅色,綠色和藍色通道,強度函數I被定義為三個通道的平均值;顏色函數有四個,分別為從原始的紅色,綠色和藍色通道計算出的紅色,綠色、藍色以及黃色通道函數;局部方向信息由定向Gabor金字塔得到。隨后對這三類函數進行中心-周圍差分運算以及歸一化,這里的中心-周圍差分運算指根據“中心-周圍”拮抗理論,算出每一個像素點(作為中心點)相對于周圍的像素點的顯著值,方法是將尺度較大的圖像和尺度較小的圖像進行跨尺度減操作,能得到局部中心和周邊背景信息的對比信息。最后得到42張特征圖,分別為6張強度圖,12張顏色圖和24張方向圖。為了防止某幾張圖的顯著特征在42張圖的融合過程中被平均,Itti模型提出一種歸一化運算符,在缺少自上而下監督的情況下增強波峰較少時的峰值,抑制波峰較多時的峰值。在經歷此種歸一化后使用線性組合將特征圖融合,得到最終的顯著圖。
1,1.2 高光譜解混
由于傳感器的空間分辨率低以及遠距離圖像采集,高光譜圖像中總是存在難以分析的混合像元,即單一像元包含多種材質。高光譜圖像解把混合的像元分解為一組稱為端元(Endmember)的光譜特征以及它們相應的混合比例,即豐度(Abundance)。按照光譜混合方式,高光譜圖像解混可以分為線性光譜混合模型(Linear Spectral Mixture Model, LMM )和非線性光譜混合模型(Nonlinear Spectral Mixture Model, NLMM)。LMM由于其簡單性和適用性而在混合算法中被廣泛采用。基于LMM的高光譜解混方法大致分為三類:
(1)單純形幾何理論。高光譜數據在幾何角度上可以視為單純形(Simplex)基于單純形幾何的解混方法利用高光譜圖像的幾何信息對數據進行分解,可以分為基于純像元的方法和非純像元的方法。基于純像元的方法假設數據集中存在只包含一種材質的像元,而非純元方法無此假設。
(2)基于統計理論。在數據高度復雜、材料高度混合的情況下,基于幾何的方法可能不再適合。在這些情況下,提出基于統計的方法來替代幾何理論,但統計方法通常具有更高的計算復雜度。代表性的方法有如獨立成分分析(Independent Components Analysis, ICA)[12-13]、非負矩陣分解(Nonnegative Matrix Factorization, NMF)[14-15]等。
(3)稀疏回歸理論。稀疏回歸理論假設高光譜圖像可以通過預先已知的若干純光譜特征的線性組合來表示,那么解混就是在光譜庫中找到最佳的光譜子集,用以更好地表示高光譜圖像中的混合像元。由于高光譜圖像中的端元數量與光譜庫中的數量相比非常少,解混變成了利用線性稀疏回歸技術和稀疏性正則化技術進行優化的過程。基于稀疏回歸的方法要求我們在解混前有一個庫,里面包含了待解混圖像中存在的所有端元,因此光譜庫的構建十分關鍵。
受益于深度學習強大學習能力,錢等人提出了一種基于線性光譜混合模型和迭代收縮閾值算法(Iterative Shrinkage Thresholding Algorithm, ISTA)提出了一種基于深度展開的深度盲解混算法(Unfolded Blind Neural Network, UBNN)[16]。UBNN把ISTA的迭代算法展開,形成深度編碼結構,然后將端元矩陣以解碼器結構連接,形成編碼器-解碼器結構,實現盲解混,并且取得了較好的解混精度和速度。
1.2.1 整體框架
我們提出深度與手工特征融合的高光譜顯著性檢測模型,將其簡稱為HD-Detector(Handcraft and Deep Detector)。首先將高光譜數據輸入深度解混網絡(詳見1.2.2節),得到若干個端元的豐度圖。然后根據解混結果中的豐度圖來計算光譜空間分布,提取顯著性,生成材料特征圖。同時我們計算歐幾里得距離以及光譜角距離來測量兩個光譜矢量之間的相似性。基于這兩種距離,我們可以計算出另外兩個顯著圖。將上述三幅圖進行線性組合,就得到了最終的顯著圖。最后,使用最佳閾值對圖片進行二值化,得到結果。我們把它命名為深度與手工特征融合基于深度解混的高光譜顯著性檢測模型

圖1 整體框架圖
1.2.2 深度高光譜圖像解混
首先我們的方法基于LMM(線性混合模型),LMM模型認為采集的光譜是端元光譜線性組合產生,以此為前提假設。假定有p個波段的高光譜圖像,LMM模型將一個像元表示為R個端元以及其對應的豐度。即:

通常每個像元是由端元矩陣中的幾個端元組成,即豐度矩陣是稀疏的。范數是得到稀疏解的重要方式,但L1正則化對于大小不同的值的處理力度是一樣的,這對于稀疏問題是“不公平”的,稀疏問題要抑制接近0的值,保持較大的值,所以我們采用L1/2約束半閾值算法來產生更強的稀疏性。此外,也已有從幾何角度證明了L1/2與最小值之間關系密切,即稀疏表示使單純形的值最小化。理論分析和實驗結果表明,L1/2[17]是比L1更有前途的替代方法。因此,L1/2約束半閾值算法將問題建模為:

當端元已知時,求解豐度的過程可以看做是稀疏回歸問題,近端梯度算法(Proximal Gradient Decent)是求解這類問題的方法。它把問題分解為可微分部分和不可微分兩部分,并且對可微分部分進行梯度下降,把得到的結果用于不可微分部分對應的近端算子投影,得到相應的解。采用近端梯度下降算法求解矩陣A,我們可以得到,


上述公式可以進一步轉化為



圖2 遞歸神經網絡結構圖

圖3 遞歸神經網絡結構圖
用公式4代替公式里的θ,我們的網絡結構如圖4所示,共三層,每層網絡的參數共享,在經過這些層時,同時學習和優化公式5里W',S',θ'并經過歸一化以保證ASC約束,即所有端元的豐度值和為1。經過最后一層時,端元矩陣M作為參數也被學習。此方法提供了更稀疏并且更好的解混結果。

圖4 深度網絡結構圖
1.2.3 全局材質分布特征
根據解混得到的豐度特征,我們使用材料的光譜空間分布來計算顯著性,對于彩色圖像的顯著性提取告訴我們:顯著對象的顏色分量傾向于集中在空間域中,但是背景對象的顏色分量通常分布在整個圖像上。因此,顏色分量的整體分布方差可用于指示對象的顯著程度。同樣的,對于高光譜圖像,具有材料顯著性的對象的光譜分布傾向于集中在空間域中,因為光譜空間分布本質上反映了場景中的材質成分,材料出現在圖像上的頻率越低且其空間分布越集中,它就更可能屬于一個顯著性物體。我們根據Liang的顯著性提取模型[18],可以得到,端成員mc的空間分布方差可表示為沿x和y維度的方差的組合:

其中Z為歸一化因子:

隨后可以根據當前像元u與圖像中心uc的距離進行顯著性加權,來消除臨近邊界的一些小目標光譜的影響。
1.2.4 局部空間結構信息
類似Liang的方法[10],加入了兩個淺層的、多尺度的、采用了中心-周圍差分計算的特征。這里的“多尺度”指的就是使用高斯金字塔進行尺度變換,這些金字塔逐步對輸入圖像進行低通濾波和二次采樣,生成九張尺度圖,增強了方法的尺度不變性。“中心-周圍差分計算”根據視覺神經元的相關原理[1],把金字塔中的低層級圖像的像素點看成“中心”,把高層級圖像的對應像素點看成“周圍”。然后把高層級圖像通過內插至與低層級圖像相同的比例,最后,把兩個圖像對應像素點的某種特征的值,進行逐點相減。這種計算可以提取中心和周邊背景信息反差對比強烈的區域。我們用淺層特征來捕獲局部信息,假設有兩個光譜向量Aj,Ak,我們計算他的兩種距離:歐幾里得距離以及光譜角距離:


這兩種距離可以反映光譜向量之間的相似度,得到的特征圖反映了局部信息。將淺層特征和深度特征相結合可以綜合全局和局部的光譜特征,得到圖像完整的光譜空間特征。將1.2.3節中得到的材料特征圖與歐幾里得距離圖、光譜角距離圖進行線性組合,就得到了最終的顯著圖。
1.2.5 顯著目標檢測
為了方便觀察,我們將得到的顯著性圖轉化為表示出顯著物體的矩形框。首先我們對顯著圖進行二值化,采用OTSU(大津)算法,此算法由日本學者大津(OTSU)于1979年提出,使用最大類間方差法來找到最佳閾值[19]。記T為前景與背景的分割閾值,前景點數占圖像比例為ω0,平均灰度為u0,背景點數占圖像比例為ω1,平均灰度為u1。T的值從最小灰度值到最大灰度值遍歷,當T使得方差值,即最大時,T即為分割的最佳閾值。以此閾值對顯著圖進行二值化,用矩形框表示出值為1的區域,即為顯著性物體。
1.3.1 實驗數據
我們數據集共43張,一部分來自[18]中的使用的數據集,一部分由我們自己采集并標注,波段數從16到81不等。數據集包括日常目標,例如水果,魔方,水漬,花朵、窗戶、車輛等。每個圖像包含顏色相似但材料不同的混合對象。圖5展示了一些典型的樣本,例如,圖5中第一行第一張圖片,只有下方的魔方是真實的,上方的魔方都是打印圖案;第二張展示了真實水果和真實水果中的塑料水果,第三張展示了墻壁上的水漬等等。數據集標注為手動矩形框標注。

圖5 數據集示例(和高光譜圖像對應的彩色圖像)
1.3.2 對比指標
(1)PR曲線:PR曲線是以recall(召回率)為橫坐標,precision(精準率)為縱坐標繪制的曲線。
我們知道,把正例正確地分類為正例,表示為TP(True Positive),把正例錯誤地分類為負例,表示為FN(False Negative)。把負例正確地分類為負例,表示為TN(True Negative),把負例錯誤地分類為正例,表示為FP(False Positive)。precision是指分類正確的正樣本個數占分類器判定為正樣本的樣本個數的比例,recall是指分類正確的正樣本個數占真正的正樣本個數的比例,即:

只用某個點對應的精確率和召回率是不能全面地衡量模型的性能,只有通過P-R曲線的整體表現,才能夠對模型進行更為全面的評估。
(2)ROC曲線及AUC值:ROC曲線是以假正例率(False Postive Rate,FPR)為橫軸,是真正例率(True Postive Rate,TPR)縱軸繪制的曲線。
FPR代表分類器預測的正類中實際負實例占所有負實例的比例;TPR代表分類器預測的正類中實際正實例占所有正實例的比例,即:

AUC表示ROC曲線下的面積,主要用于衡量模型的泛化性能,即分類效果的好壞。AUC是衡量二分類模型優劣的一種評價指標,表示正例排在負例前面的概率。AUC越大,模型性能越好
(3)IoU:IoU是交并比(Intersection over Union),適用于在輸出中得出一個預測范圍(bounding box)的任務。IoU是兩個區域重疊的部分除以兩個區域的集合部分得出的結果,用于測量真實和預測之間的相關度,相關度越高,該值越高。
1.3.2 對比方法
(1)定量分析。我們對比了Itti、Liang以及我們的方法,Itti模型是最經典的彩色顯著性檢測模型,而Liang的方法是基于高光譜圖像來做的顯著性檢測工作,我們將3種方法應用于我們的數據集上,進行了定量實驗,得到了PR曲線、ROC曲線、AUC值以及IoU值。
由于顯著圖的取值范圍為[0,255],我們將閾值thresh從0到255遍歷,得到了256組Precision、Recall、Fpr、Tpr、IoU值。256組Precision以及Recall值可以畫出PR曲線;同樣的,256組Fpr以及Tpr值可以畫出ROC曲線,計算曲線下面積可以得到AUC值。而IoU(Intersection over Union)指的“預測的邊框”和“真實的邊框”的交集和并集的比值,可以較好地反映預測結果是否準確,我們在實驗中由256組IoU值取平均得到最后的評價值。

圖6 PR曲線

圖7 ROC曲線

圖8 AUC值

圖9 IoU值
(2)定性分析。
①深度解混的結果。我們通過圖4的網絡進行盲解混,得到端元數量不等的解混結果,圖10展示了一些圖片的解混結果。可以看到第一行的豐度圖區分了背景、葉子、花朵;第二行的豐度圖區分了背景、手、黃布;第三行的豐度圖區分了窗沿、墻壁、窗框、玻璃。

圖10 深度解混結果示例
②材料顯著性提取。通過解混得到的豐度圖和端元向量,我們使用光譜的空間分布方差來提取材料顯著性,得到的材料顯著圖,如圖11所示,這是綜合了全局和局部信息的結果。

圖11 材料顯著圖示例
③顯著性目標檢測。我們對比了Itti、Liang以及我們的方法,我們將3種方法應用于我們的數據集上,得出了對比結果。
第一列為彩色圖像,第二列為HD-detector生成的顯著圖,第三列為Itti模型的檢測結果,第四列為Liang的模型的檢測結果,第五列為我們的方法的檢測結果。
由圖12可以看見在檢測外形相似,材料組成與背景不同的目標時,我們的方法展現了很大的優勢。在第一行的圖像中,中間的魔方為打印出來的魔方圖案,兩側為真實魔方,由于紙質圖案顏色和真實魔方仍有差距,所以Itti模型和Liang的模型都可以識別出目標物體的一部分,但效果誤差較大,而我們的方法可以準確識別出紙質魔方的輪廓。對于第二行的真水果和塑料水果圖像,由于顏色和輪廓都十分相近,Itti和Liang的模型都無法檢測出正確的目標物體,而我們的方法由于對材料顯著性進行了提取,所以準確識別出了與周圍環境材料組成不同的真水果。

圖12 對比實驗
而對于目標的顏色、形狀與背景差異較大的情況,我們的方法并沒有很大優勢,如第三行的圖像,水杯和后景的顏色差異巨大,所以我們的方法效果并不突出。當圖像的材料組成復雜,紋理輪廓繁雜時,我們的方法展現了優勢。在第四、五行的圖像檢測中,Itti和Liang的模型檢測的結果出現了檢測結果是真實值的一小部分或包含了太多無關像元的情況,而我們的方法能較好地從復雜的場景中識別出正確的目標。
由此可得,我們的方法在定性和定量指標上均有出眾的表現。
我們的方法將深度學習、神經網絡與基于高光譜圖像的近距離顯著性目標檢測結合起來將淺層局部手工特征與深層全局材質分布特征結合,充分利用高光譜圖像含有的大量信息。首先利用深度展開技術進行解混并使用光譜空間分布方差提取材質分布特征,引入L1/2約束半閾值算法保證更好的稀疏性。然后利用多尺度的中心周圍差分運算提取空間結構特征。將深度特征和淺層特征結合,全局特征與局部特征結合,更好地提取了圖像的顯著性,更有效地進行顯著目標檢測。實驗結果表明,我們的方法在(1)目標和背景輪廓、顏色、紋理相似,但材料組成不同的情況下;(2)圖像的材料組成太復雜的情況下有出色的效果,有效地檢測出顯著性目標。未來我們將把深度學習技術引入高光譜近距離顯著性檢測的整個過程,不僅部分應用于解混這一步驟,以進行更強大的顯著性檢測。