秦昊林, 許廷發,2,3, 李佳男,3*
(1.北京理工大學 光電學院, 北京 100081; 2.北京理工大學重慶創新中心, 重慶 401120;3.北京理工大學 光電成像技術與系統教育部重點實驗室, 北京 100081)
顯著性目標檢測(SOD)技術作為偽裝識別、異常檢測、動作識別等任務[1-3]的關鍵技術之一,得到了廣泛關注和研究。近年來,隨著高光譜圖像處理技術的發展,基于高光譜圖像的顯著性目標檢測(HSOD)技術取得了優異的成績,并展現出了驚人的潛力。與傳統的彩色圖像(RGB)相比,高光譜圖像具有額外的、豐富的光譜信息,能夠更準確地反映物體特性。尤其是在復雜環境條件下,例如相似背景、過曝光、不均勻光照等情況,高光譜SOD技術具有更明顯的優勢。
在先前研究中[4],人們主要使用光譜強度、光譜角距離等淺層手工特征計算每個像素的顯著性得分,并生成顯著性結果圖。但是這些傳統方法的魯棒性和檢測精度往往差強人意。近年來,深度學習技術在計算機視覺領域取得了巨大成功[5-7]。受此啟發,人們將該技術引入高光譜顯著性目標檢測任務[8],并提出了具有更高檢測性能和魯棒性的神經網絡模型。然而這些模型的訓練需要大量帶有嚴格像素級標注的數據樣本。這會帶來高昂的標注成本[9],限制了深度學習技術在該領域的進一步發展,是一項亟待解決的重要挑戰。
為了解決上述問題,本文采用半監督訓練模式降低標注成本,同時充分利用高光譜圖像特性以提高檢測性能。具體地,高光譜圖像中每個像素點都包含了一條完整的光譜曲線,如圖1所示。基于這一特性,可以利用超像素方法實現高精度的像素聚類,對人眼無法感知的光譜信息進行捕捉。此外,各光譜通道間的相互影響也是一項值得關注的特性[10]。

圖1 網絡建立動機示意圖
受上述啟發,本文提出一種半監督高光譜SOD算法,該算法使用一個小規模全監督數據集和一個大規模弱監督數據集進行半監督訓練。其中全監督數據集包含以像素級標注作為標簽的少量數據,弱監督數據集具有大量使用顯著性邊界框作為弱標簽的數據。本文提出的算法由孿生預測模塊和注意力輔助模塊兩部分組成。當給定一張輸入圖像時,孿生預測模塊根據對應的弱標簽生成兩張同源圖像作為輸入,并利用共享權重參數的兩個分支網絡分別預測,生成對應的顯著性結果圖。在訓練過程中,通過最小化結果圖之間的差異來學習弱標簽中的隱式約束。注意力輔助模塊引入一個超像素級通道注意力網絡,以充分利用光譜信息。在弱標簽的指導下,它可以為弱監督數據集中的每張圖像生成準確的掩碼。在實際訓練中,本文首先在全監督數據集上利用像素級標簽訓練孿生預測模塊,并引入注意力輔助模塊為弱監督數據集生成掩碼,之后利用掩碼優化預測模塊。本文在多個高光譜和彩色數據集上進行了大量的定量評估和定性分析實驗,都展現了優異的SOD效果,同時顯著節省了像素級標注成本。
本文的主要貢獻可以概括為以下4點:
1)提出了一個半監督檢測算法,減少了對全監督數據的需求,有效降低了像素級標注帶來的成本。這是半監督訓練策略在高光譜SOD任務的首次應用。
2)提出了一個孿生預測模塊,以兩張同源圖像作為輸入,有效捕獲顯著性邊界框的隱式約束,使弱標簽具有與像素級標簽相近的約束能力。
3)提出了注意力輔助模塊,它基于超像素級通道注意力網絡來充分利用高光譜圖像特性,有效抑制了背景的干擾,顯著提升了檢測性能。
4)在多個高光譜和彩色數據集上對提出的算法進行了性能評估,達到了先進的檢測精度,為后續工作提供了新的標準。
基于高光譜圖像的SOD技術是一個新穎且有價值的研究方向。Itti等[11]使用顏色對比度和相對位置方向來計算各像素顯著性得分,提出了首個SOD模型。受此啟發,Moan等[12]、Liang等[13]、Zhang等[10]先后提出了利用淺層手工特征的高光譜SOD方法。然而這些傳統方法在處理復雜情況時表現出了精度低、魯棒性差的缺陷。為了解決這些問題,Imamoglu等[14]首次將深度學習技術應用于高光譜SOD任務中,提出了基于卷積神經網絡的自監督模型。之后Huang等[15]對其進行了優化,通過同時考慮空間和光譜信息進一步提升了模型性能。與傳統方法相比,這些基于深度學習技術的神經網絡模型顯著提高了檢測精度和魯棒性。但是模型的訓練需要大量帶有像素級標簽的訓練樣本,這將帶來高昂的標注工作成本,限制了深度學習技術在該領域的發展。
近年來,在神經網絡模型訓練中引入半監督訓練策略成為各項計算機視覺任務的研究熱點。與常用的全監督訓練策略相比,半監督訓練策略表現出了更強的擴展性,同時大大減少了人工監督成本。例如,Pan等[16]提出了一種雙流混合網絡來模擬雙目視覺以進行SOD。文獻[17]提出了一種使用線性反饋系統模型的半監督分類器來生成平滑準確的顯著性結果圖。然而上述算法只適用于傳統彩色圖像,無法擴展到光譜圖像。據了解,這是首次將半監督訓練策略應用于高光譜SOD任務之中。
注意力機制在SOD任務中發揮了重要作用。Zhang等[18]提出了一種用于遙感圖像的密集注意力流體網絡。文獻[19]使用了一個交叉注意模塊來捕獲周圍像素的有價值的上下文信息。這些工作都證明了注意力機制有助于檢測性能的提升,但是他們只關注了數據的空間維度信息,而忽略了對光譜信息的深度挖掘。合理利用高光譜圖像的光譜通道,構建能夠充分利用光譜特性的注意力網絡,將有助于提高檢測精度。
圖2展示了本文提出的算法整體架構。本文基于U2Net[20]構建了具有雙分支孿生結構的預測模塊,用于預測輸入圖像的顯著性結果圖,并學習弱標簽中的隱式約束條件。另外,本文還提出了由超像素級通道注意力網絡和U2Net組成的注意力輔助模塊,用于預測模塊的優化。在訓練過程中,本文首先在全監督數據集上對孿生預測模塊進行預訓練,以原始圖像和孿生圖像作為輸入,輸出預測結果。之后利用邊界框弱標簽為弱監督數據集生成邊界圖像并送入注意力輔助模塊,其中U2Net加載預訓練參數,生成對應掩碼。最終在弱監督數據集上,利用掩碼采用全監督策略對孿生預測模塊進行優化訓練,生成高質量顯著性結果圖。

圖2 超像素注意力孿生半監督算法架構圖
本文提出的算法通過小規模的全監督數據集和大規模的弱監督數據集進行半監督訓練。弱監督數據和全監督數據之間的關鍵差異在于弱標簽失去了對每個像素的約束[21]。當使用邊界框作為弱標簽時,每個像素上的約束被轉換為區域級隱式約束。為了充分利用這種隱式約束,本文提出孿生預測模塊,其詳細結構如圖2所示。該模塊以原始圖像和孿生圖像作為輸入,其中孿生圖像是根據顯著性邊界框裁剪原始圖像獲得的同源圖像。兩幅圖像被同時輸入到孿生預測模塊中,其中兩個分支網絡之間共享權重參數,最終分別生成預測結果。在訓練過程中,通過最小化兩個分支的預測結果之間的差異,孿生預測模塊可以捕獲弱標簽和像素之間的隱式約束。本文通過計算均方誤差來表示這一差異,其計算公式為
(1)
式中:LMSE為預測結果之間的差異;N為預測的顯著性結果圖的總像素數;Ap和Bp分別表示兩個分支預測結果中的第p個像素。在訓練過程中,本文使用U2Net作為特征提取網絡,它以淺層UNet為基礎塊,使用卷積核為3×3的卷積層提取特征。構建了U型網絡結構,利用池化層和空洞卷積層來捕獲多尺度信息。最終生成預測結果,計算與像素級標簽之間的混合損失函數。
顯著性邊界框弱標簽可以被視為帶有噪聲的像素級標簽。框外的像素不包含噪聲,被視為背景。在噪聲的干擾下,框中的背景點被誤認為前景點。這種誤差會使網絡在梯度反向傳播過程中收斂到錯誤的方向。因此本文考慮利用每個像素的光譜曲線進行超像素聚類,來幫助算法準確區分背景和前景。此外,本文還充分利用了光譜通道之間的相互聯系,以作為實現物體類型準確劃分的可靠基礎。綜上,本文設計了一個超像素級通道注意力網絡來抑制弱標簽中隱含的噪聲。傳統的超像素分割算法在數學上是不可微分的,因此采用可以集成到神經網絡中進行端到端訓練的超像素采樣網絡[22]。此外,本文計算了空間全局權重,利用全局特征進行逐通道信息校正。超像素級通道注意力網絡的詳細流程如圖3所示。

圖3 超像素級通道注意力網絡示意圖
具體地,給定輸入特征圖F∈RH×W×C(H和W分別為輸入特征圖的高和寬,C為特征圖的光譜通道數量)沿光譜通道執行全局平均池化操作從而生成每個通道的權重矩陣,其計算公式為
R1×1×1,c=1,…,C
(2)
式中:Mc為第c個光譜通道對應的權重矩陣;Fc為輸入特征圖的第c個光譜通道。之后沿空間維度對Mc進行廣播,生成具有原始尺寸的全局通道權重P∈RH×W×C。
P={Pc∈RH×W×1|c=1,…,C}
(3)
Pc=φ(Mc)
(4)
式中:φ(·)表示沿空間維度的廣播操作。
同時,利用超像素采樣網絡對輸入特征圖F進行迭代優化,生成超像素圖S。之后將其與上述步驟生成的全局通道權重P沿光譜通道維度進行數據拼接,并經過卷積核為1×1的卷積層和Sigmoid激活函數來獲取通道權重特征圖E,其計算公式為
E=Sigmoid(Conv(Cat(S,P)))∈RH×W×C
(5)
S=ψ(F)∈RH×W×C
(6)
式中:ψ(·)為超像素采樣操作。生成的通道權重與輸入特征圖具有相同尺寸,每個點的取值表示了對應像素在計算最終顯著性結果圖時的重要程度。因此,可以利用通道權重特征圖E對輸入特征圖F進行逐點校正,其計算公式為
=F?E
(7)
為了使預測模塊更好地收斂,本文在訓練過程中參考文獻[23],使用混合損失函數,其計算公式為
LFUS=LBCE+LSSIM+LIOU
(8)
式中:LBCE表示二元交叉熵損失函數;LSSIM表示結構相似度損失函數;LIOU表示邊界框損失函數。LBCE在所有像素點上約束算法收斂,而非關注某個特定區域,其計算公式為

(9)
式中:Gi∈{0,1}為像素i的真實標簽;Si∈{0,1}為該像素預測為顯著性目標的預測概率。LSSIM對局部結構變化敏感,有助于優化結果邊界,其計算公式為
(10)
式中:x和y表示兩張圖像;μx和μy為圖像中所有像素的平均值;σx和σy為像素對于均值的偏差;常數C1和C2用于保證分母不為零,通常C1=0.012,C1=0.032。LIOU把位置信息作為一個整體,使算法具有更強的多尺度處理能力,其計算公式為
(11)
綜上,本文使用了混合損失函數LFUS使網絡得到有效收斂。
在開始訓練之前,本文使用旋轉和翻轉操作進行數據增強,之后在RTX 3090 GPU上使用Adam優化器對算法進行訓練。本文采用5種廣泛使用的性能評價指標對提出的算法進行綜合評估,包括平均絕對誤差(MAE)、F-measure(Favg、Fmax)、曲線下面積(AUC)和歸一化掃描路徑顯著性(NSS)。
本文在HSOD-C和HS-SOD兩個高光譜SOD數據集上進行實驗。在HSOD-C上,隨機選取56張圖像作為全監督數據集,120張圖像作為弱監督數據集,24張圖像作為測試集。設置初始學習率為0.001,每次訓練8張圖像。總計在全監督數據集上訓練25輪,在弱監督數據集上訓練35輪。考慮到數據集的規模,使用輕量化版本U2Net?作為特征提取骨干網絡。對于HS-SOD數據集,選擇15張圖像作為全監督數據集,35張圖作為弱監督數據集,10張為測試集。其余訓練參數與HSOD-C保持一致。考慮到HS-SOD數據集規模很小,容易出現過擬合現象,因此先在HSOD-C上進行預訓練,之后在HS-SOD數據集上加載預訓練模型進行微調。
本文將提出的算法與目前流行的6種高光譜顯著性檢測算法進行了對比。其中:GS[24]算法將光譜波段劃分為4組,利用了各波段之間的對比度;SAD[24]和SED[24]算法分別利用光譜角距離和光譜歐式距離計算各像素點顯著性得分,并生成顯著性結果圖;SED-GS[24]和SED-SAD[24]是上述算法的融合算法,結合了多項淺層手工特征。這些算法都屬于傳統高光譜SOD算法范疇。此外還有基于卷積神經網絡的SUDF[14]算法。
表1展示了各算法在HSOD-C數據集上的檢測結果。由表1可以看到,與傳統算法相比,基于神經網絡的算法在檢測精度上有著顯著提升,表明了深度學習技術在該領域具有很高的發展潛力。與SUDF算法對比可見,本文提出的算法具有更優異的檢測性能,其中F-measure提升了大約0.1,提升幅度最高。值得注意的是,與U2Net算法相比,本文算法已經達到了相近的檢測精度。表2展示了不同場景下各算法在HSOD-C數據集上的可視化結果,從中可見本文的算法能夠精確地定位顯著性目標,并勾勒出了更準確的目標輪廓。這得益于網絡中超像素通道注意力的應用,根據光譜信息生成的超像素使得算法具有更強的抗背景干擾能力。

表1 HSOD-C實驗結果
表3和表4分別展示了各算法在HS-SOD數據集上的定量評估結果和可視化預測結果圖。與6種流行的高光譜SOD算法相比,本文算法在各項性能評價指標上都有顯著提升,并達到了最佳的檢測精度。在基于預訓練模型進行遷移學習的情況下,本文算法在半監督訓練策略下,檢測性能超過了基于全監督訓練策略的U2Net算法。此外,在HS-SOD數據集上,本文算法也具有優異的可視化效果。與其他流行算法相比,預測結果受背景干擾較小,突出了顯著性目標的位置和輪廓。上述結果表明,本文算法在降低標注成本的同時實現了先進的檢測性能。

表3 HS-SOD實驗結果

表4 HS-SOD的可視化結果
HSOD-C數據集收集了復雜環境條件下的高光譜數據,包括不均勻光照、相似背景、過曝光等。表5 展示了本文算法在這些復雜環境條件下的預測結果,并與基于RGB的流行算法BASNet進行了對比。由表5可見:在過曝光情況下,強烈的光照使得背景和目標呈現的顏色相近。此時只利用三基色信息的BASNet算法將無法分別背景和目標,預測結果出現嚴重偏差;在相似背景和不均勻光照情況下,BASNet算法受背景干擾嚴重,只能檢測到部分目標,嚴重影響檢測精度和性能;與之形成鮮明對比的是,本文算法在3種復雜環境條件下依舊展現出了穩定的檢測性能。這是因為高光譜顯著性檢測關注的是光譜顯著性,而不是傳統的視覺顯著性。在光照條件變化、顏色偽裝等挑戰下,目標的光譜特性例如光譜曲線、光譜梯度、紅外熱輻射等不會發生顯著變化,基于高光譜圖像的檢測模型仍具有可靠的檢測性能。另外,本文算法利用超像素模塊保證了目標的完整性,抗背景干擾能力強,預測結果具有更精確的輪廓。綜上,本文算法在復雜環境條件下仍可以得到高質量檢測結果,具有可用于偽裝識別任務的潛力。

表5 復雜環境條件下的預測結果
將本文算法擴展到RGB圖像并在ECSSD數據集上進行實驗。選擇其中200張圖像作為全監督數據集,600張圖像作為弱監督數據集,200張圖像作為測試集。設置每批訓練樣本量為8,初始學習率為0.001。在完全監督數據集上訓練200輪,在弱監督集上訓練300輪。與8個流行算法進行對比,包括BL[25]、MS[26]、LPS[27]、GMR[28]、RBD[29]、MBD[30]、MST[31]和LFCS算法[32]。
表6展示了各算法在ECSSD數據集上的測試結果。由表6可見:在處理基于RGB圖像的SOD任務時,本文算法與同類算法相比仍然顯示出先進的性能,各項性能評價指標均達到最佳值;F-measure的提升最為顯著,其余指標也有不同程度的提高。在ECSSD數據集上的可視化結果如表7所示,從中可見本文所提出的算法對邊緣細節的處理效果較好,能夠抵抗目標內部變化的干擾。實驗結果表明,本文提出的算法具有出色的泛化能力,并在高光譜和RGB圖像上都具有先進的檢測性能。

表6 ECSSD實驗結果

表7 ECSSD的可視化結果
本文在HSOD-C數據集上設計了多組消融實驗以驗證各模塊的有效性,結果如表8所示。對加載預訓練模型、使用全局通道權重、使用超像素光譜聚類和使用孿生結構四個部分進行消融研究。考慮到使用半監督訓練策略,各組消融實驗都啟用了預訓練,即在全監督數據集上對孿生預測模塊進行預訓練。

表8 各部分在HSOD-C上的性能評估
本文以未使用孿生預測模塊和注意力輔助模塊的網絡結構作為基準模型,其結果展示在表8的第1行。本文提出的基于超像素注意力和孿生結構的半監督算法結果展示在表8的第5行,其啟用了所有模塊。
本文首先驗證了注意力輔助模塊的有效性。如表8第2行結果所示,當啟用完整的注意力輔助模塊時,Fmax小幅度下降了0.002,而AUC顯著提升了0.06。這表明注意力輔助模塊能夠提升檢測性能,但是缺失孿生結構會使得優化效果明顯下降。為進一步分析注意力輔助模塊的作用,本文評估了生成通道權重特征圖的兩個要素:全局通道權重和超像素聚類。具體地,表8的3~5行對應了3種網絡結構下的檢測結果,從中可以發現全局通道權重和超像素聚類都起到了增強檢測性能的作用,當使用完整的注意力輔助模塊時能夠達到最佳狀態。另外,通過對比基線模型和僅使用孿生結構的模型結果可以發現,孿生結構顯著提升了檢測精度。
此外,本文測試了不同損失函數對算法收斂效果的影響,結果如表9所示。其中LBS=LBCE+LSSIM,LBI=LBCE+LIOU,LFUS=LBCE+LSSIM+LIOU。對比不同損失函數下的算法檢測結果可以發現,當使用單一損失函數時,不同損失函數對算法的約束能力近似,檢測精度差異不大。當使用兩項及以上的混合損失函數時,對算法具有更強的約束能力,收斂效果更好,檢測性能得到了顯著提升。尤其是3種損失函數同時使用時,算法達到了最佳的收斂效果。

表9 不同損失函數的約束效果
本文對算法的訓練過程進行可視化分析。圖4中,第1行顯示了算法在全監督數據集上進行預訓練時的預測結果。第2行可視化了在算法在弱監督數據集上的優化過程。由圖4可以發現,經過全監督數據集的預訓練,算法只能確定顯著性目標的大致位置,無法確定目標輪廓,受背景干擾嚴重。在優化過程中,算法更加收斂,逐步勾勒出目標輪廓,定位更準確。可視化結果表明了注意力輔助模塊的有效性。

圖4 訓練期間結果的漸進可視化圖
本文提出了一種使用超像素級通道注意力和孿生結構的半監督高光譜SOD算法。該算法采用半監督訓練策略,通過使用少量全監督數據和大量弱監督數據有效降低了進行像素級標注帶來的高昂成本。所設計的孿生預測模塊可以有效地學習弱標簽的隱式約束,引入的超像素級通道注意力網絡充分利用了高光譜圖像的光譜特性。本文在高光譜和彩色數據集上進行了性能評估,廣泛的實驗結果表明,所提出的算法可以在高光譜和彩色SOD任務中發揮先進的性能。
本文提出的算法還存在一些局限性,使用部分全監督數據集和部分弱監督數據集進行訓練,這與一般意義上的半監督學習略有不同。在未來的工作中,將在優化過程中刪除弱標簽的指導。