趙悉超,劉政怡,李 煒
1.安徽大學 計算智能與信號處理教育部重點實驗室,合肥 230601
2.安徽大學 計算機科學與技術學院,合肥 230601
3.安徽大學 信息保障技術協同創新中心,合肥 230601
在過去幾年中,人們一直在探索人類的視覺注意力機制,并在這一領域做出了很多卓著的工作。其中的顯著性檢測是使機器視覺系統具有這樣的能力,即自動地選擇單個圖像中的顯著區域。然而,隨著大規模的圖像數據和無處不在的互聯網時代的到來,使得人們的注意力從單一圖像轉移到圖像組[1]。協同顯著性檢測是突出顯示圖像組的共同的前景對象[2],它是視覺顯著性檢測的一個新分支,并且是一個具有挑戰性的任務,因為單個圖像中的特定顯著對象在圖像組中可能不夠突出。協同顯著區域具有兩種性質:(1)每張圖片的協同顯著區域與其周圍相比應該具有較強的局部顯著性;(2)所有的協同顯著區域應該是相似的[3]。協同顯著性檢測近年來得到了廣泛的研究與應用,例如圖像/視頻協同分割[2]、視頻興趣動作提取[4]、圖像/視頻協同定位[5]。
協同顯著性模型從檢測一對圖像之間的協同顯著對象開始。文獻[6]利用顯著對象引起的局部結構變化來獲得協同顯著性,從而獲得圖像對的協同顯著圖。在文獻[7]中,協同顯著性被表述為使用三個可用顯著性模型的單幅圖像顯著性圖和基于多層圖的多圖像顯著性的組合。協同顯著性檢測不限于圖像對。在文獻[8]中,使用聚類性對比線索和空間線索用于檢測協同顯著區域。Li 等人[9]將區域級融合和像素級細化相結合,以生成最終的協同顯著圖。而協同顯著性檢測方法[7-9]將協同顯著物體檢測問題轉化為圖像對顯著性傳播問題,該問題利用每對圖像之間的相似性,在一張圖像的顯著圖的指導下尋找另一張圖像中與其具有共同屬性的區域。文獻[10]通過將改進流形排序算法引入圖像顯著性檢測模型中,生成協同顯著圖。文獻[11]介紹了通過融合前景和背景先驗生成協同顯著圖的方法。Yu等人[12]提出了一種新的自下而上的方法來檢測圖像協同顯著值。當然,關于學習方法在協同顯著性檢測領域也取得了許多成就,如Zhang等人提出的文獻[4,11,13]分別以自適應多實例學習和深度學習進行協同顯著檢測;文獻[14]則采用端到端的群組式完全卷積網絡進行協同顯著性檢測;而文獻[15]則是通過結合深度學習和種子傳播方式進行協同顯著性檢測;文獻[16]將對象級和區域級處理相結合,以檢測一組圖像中的協同顯著對象;文獻[17]則是將協同顯著性檢測分解為兩個子問題,通過兩階段多視圖光譜旋轉共聚類。這些文獻都不同程度上獲得一定的效果。
盡管上述基于種子傳播與圖模型的協同顯著性檢測方法獲得了優異的性能,但它們有兩個主要缺點:(1)準確的種子點是模型預測的基石,然而對于處理真實世界圖像時,由于圖像組中圖像隨著光照、視角等條件變化時,容易出現混淆前景和背景的情況,傳統顯著性檢測方法不可避免地獲得不準確的顯著種子點,錯誤引導了傳播算法,限制了協同顯著性檢測的性能。(2)現有的方法都是模擬節點對之間的關系,忽略了多個頂點之間的高階信息,導致頂點之間的關系可能是次優的,以及顯著性種子點在不完備的節點關系中傳播,限制了協同顯著性檢測的性能。
為了克服這些缺點和限制,本文提出了一個基于超圖的種子點傳播的協同顯著性檢測框架,所謂超圖是有別于傳統的圖的構造,圖像的邊構造基于一定的規則,這部分內容會在后面文章做詳解。該無監督的檢測方法主要基于兩個人類先驗,即前景的圖像間一致性和圖像內凸包約束性。本文的算法框架如圖1 所示。從左到右依次是:首先,不可忽視深度學習技術在顯著性檢測領域中的快速發展,本文利用深度學習技術獲取顯著性檢測的更加精準的顯著種子點;其次,提取每個超像素的特征以構建超圖模型,超圖的高階信息捕獲了更全面的上下文信息,因此提高了檢測協同顯著對象的能力;然后,每張圖像通過其他n-1 張圖像對其顯著性傳播生成該圖像的協同顯著圖組,其個數為n-1 張;接著將該圖像自身的顯著圖與上述生成的協同顯著圖組經過融合,獲得初始的結果;最后,利用圖像內顯著性約束抑制背景,增強前景,提高協同顯著性檢測模型的性能,融合兩者的顯著圖獲得滿意的結果。本文的主要貢獻為:
(1)提出了基于相似性的顯著性傳播方案的協同顯著性檢測,然后是精確的查詢,其帶來深層次信息以發現顯著圖的更高級屬性,并且將超圖建模引入到協同顯著性檢測的過程中。超圖是一種豐富的結構化超像素圖像表示,通過它們的上下文而不是它們的個體值來建模。
(2)基于具有興趣點的圖像內約束來估計顯著對象的空間位置帶來的位置信息,以抑制非常見部分與真實場景中被錯誤恢復的背景。
(3)在Cp和iCoseg基準數據集進行實驗,并與其他先進方法比較,證明了本文方法的優勢。
接下來在第2章中詳細介紹本文的方法,并在第3章中給出相應的實驗結果分析。

Fig.1 Algorithm framework圖1 算法框架
在本文提出的方法中,每個超像素充當一個頂點,構造超圖G=(V,E,w)來表示超像素之間的高階關系,其中頂點集合定義為V,超邊集為E。
超邊的權重是一個恒正的值,定義為W(e)。超圖的關聯矩陣H可以定義如下:

其中,關聯矩陣H的維度為|V|×|E|,它的含義是表示頂點屬于哪個超邊,因此它可以表示頂點和超邊界之間的關系。在本文的協同顯著性超圖模型中,將每個頂點作為“質心”,并使用基于Lab特征描述符計算的相似性距離。每個“質心”vi依據相似性距離選擇與其連接的k個鄰近頂點vj所在的超邊ej,同時連接的權重被賦予二值化描述非1 即0,從定義可以看出,超邊的權重w(ei)恒為常數k。依據關聯矩陣,如下公式將定義每個頂點的度d(v)和超邊的度δ(e)為:

設D(v)、D(e)、V分別代表頂點度矩陣、超邊度矩陣以及超邊權重。傳統的圖模型(成對節點表示)是超圖模型的一種特列,當超圖模型中每個超邊僅含有兩個節點時就是傳統的圖模型。圖2 展示了超圖模型的一個示例,直觀地解釋了如何構建超圖模型。圖中的二維空間中展示了7個點,并將它們分配給7個超邊。左側是傳統圖模型,其中兩個節點通過邊相互連接;中間圖表示同樣的節點用超圖的關系,表達模型超邊取最近臨近k=2;右側是中間超圖對應的關聯矩陣,如果超邊界ej包含vj,則將關聯矩陣H(i,j)設置為常數1,反之為0。不同于成對節點不能很好地挖掘節點與節點之間以及節點與邊之間的關系,超圖可以根據關聯矩陣將節點群包圍成一個緊密聯系的子集合即為超邊。因此,超圖能夠發掘隱藏在節點中的豐富信息。

Fig.2 Example of hypergraph and its corresponding hypergraph matrix H圖2 超圖及其對應的超圖關聯矩陣H示例
協同顯著性檢測的目的是提取相關圖像中的協同顯著區域。協同顯著區域不僅在每個單獨的圖像中顯著,而且通常出現在一組相關圖像中。因此,“顯著”和“協同”是共同反映協同顯著性j的定義的兩個關鍵屬性。將協同顯著性檢測重新定位為簡單分類任務,即將圖像中的每個區域/超像素分類為協同顯著區域還是非協同顯著區域。本文提出的算法首先使用預先訓練的深度顯著性檢測模型為每個圖像生成單顯著圖Tˉ。然后使用超像素分割算法(SLIC)將圖像組分割為一組超像素。設為m-th 圖像的k-th超像素顯著值,其由超像素對應的像素值的平均值計算而來。r(v)和r(u)分別是頂點v和u的協同顯著分數,其中r∈[0,1]。定義查詢向量y=[y1,y2,…,yu,…,yz]以引入超像素的標記信息并將其初始顯著性標簽分配給y的相應元素。y(u)是頂點u的標簽值,其中假設第i張圖像為查詢圖像,則若節點,則y(u)=1 是指第v個超像素是顯著節點,標簽為1,反之亦然。若節點u屬于待預測圖像中的超像素則也賦值為0。h(u,e)和h(v,e)分別表示u和v是否屬于超邊e。w(e)/δ(e)可以被看作是超邊e的歸一化權重。協同顯著性分數預測值r(u)可以通過以下公式預測得到:

從公式中可以看出,第一項是指兩個頂點v和u屬于同一超邊的概率比較高,并且這些超邊具有較高權重,則這些頂點的協同顯著性值應該更接近。第二項是流行排序項,是指最終預測的標記節點的值應該逼近原始查詢的標簽。為了最小化代價函數,通過以下公式求解最優值r:

其中,類比于標準圖拉普拉斯矩陣來定義超圖拉普拉斯矩陣[10,18]為在獲得Γ之后,預測標簽r可以由以下公式求得:

其中,I是維數等于總節點數的單位矩陣,α是權重參數,在實驗中將其設置為0.5。直接將每個顯著圖中的超像素的標簽構成查詢向量,預測剩余圖像的節點標簽,即r向量。總之,查詢y非常重要。不準確的查詢可能導致不滿意的結果。在這項工作中,深入考慮了查詢點在計算超像素的協同顯著性傳播時的重要性,因此采用深層的基于深度學習的顯著性網絡生成顯著圖,學習準確的查詢點標簽向量y以提高協同顯著性檢測性能。
對于傳統的圖模型來說,簡單地將超圖的拉普拉斯矩陣轉移為簡單圖拉普拉斯矩陣可以實現轉移學習。超邊結構本質上含有兩個或兩個以上超像素上的內在聯系信息。即,如果兩個超像素在多個超邊中具有較高的出現頻率,則它們傾向于共享更多的視覺特性并且具有更高的視覺相似性。在本文的實驗部分中,直觀地比較了基于傳統圖模型的協同顯著性檢測和本文方法的性能。從中可以看出后者更有效。
本文通過上述方法獲得了顯著種子傳播圖。眾所周知,如果超像素是共同顯著的,它將在大多數顯著種子傳播圖中出現更多的頻率。基于此原理,融合公式定義如下:

其中,M是一組中的圖像數。rep(k)被定義為計算超像素k在M個圖像中被分類為共同顯著的次數。對于一張圖像來說,該策略將來自于不同查詢圖像對該圖像利用上述算法引導生成的M-1張圖像以及自身的顯著圖進行融合,獲得精細的協同顯著性結果。
如圖1 所示,圖像間協同性檢測傳播圖,獨立計算每個超像素的協同顯著性得分,缺乏完全抑制背景的能力。在圖像內顯著性約束部分,主要關注如何抑制由上述方法產生的具有高顯著分數的背景節點。由于每個圖像不僅包含每個超像素的特征信息,還包含節點的空間分布之間的相互關系。因此,設計了改進的凸包方法[18]以獲得空間分布圖。最優的凸包應該能夠提供顯著對象的粗略位置。首先計算一個包圍興趣節點的凸包,以估計顯著區域的位置。然后使用凸包的邊緣作為起點來獲得基于凸包的空間興趣點分布圖。通過以下公式生成圖像中超像素的顯著性值:

其中,μr表示第r個超像素的平均位置,μr是RGB圖像中的上述顯著部分的空間分布的邊界點。從方程(8)中可以發現,當值距離凸包中的最近點時,它的值更小。
最后結合基于超圖的跨圖像顯著性傳播和圖像內顯著性約束來融合生成圖像的最終協同顯著圖:

如果超像素r屬于協同顯著對象,則預測值接近1,如果被視為背景,則接近0。最終結果在增強和抑制背景方面獲得了顯著的提高,達到了最接近人類視覺系統觀測的結果。
本文的算法流程如下所示:
初始化:
通過式(1)計算超圖G的關聯矩陣H;
通過式(2)計算超圖節點度矩陣D(v);
通過式(3)計算超圖邊度矩陣D(e);
通過式(6)預測未標記標簽的協同顯著值;
通過式(7)融合生成的M-1 張圖像以及自身的顯著圖,得到圖像間協同顯著圖Sinter;
通過式(8)得到圖像內協同顯著圖Sintra;
通過式(9)融合圖像間和圖像內的協同顯著圖,得到最終的S協同顯著圖。
3.結束。
在兩個基準數據集上評估了所提出的算法:Cp數據集[19]和iCoseg 數據集[20]。前者包含105 個圖像對,后者包含38個圖像組,總共643個圖像。類似于文獻[20-21],采用4 個標準來評估本文方法的性能,即PR(precision-recall)曲線、ROC(receiver operating characteristic)曲線、F-measure 曲線、MAE(mean absolute error)。PR 曲線、ROC 曲線和F-measure 曲線是由一系列閾值T生成,閾值T在0到255之間變化。
實驗中,每個圖像利用SLIC算法分割為ni個超像素塊,其中SLIC 算法的初始分割數量預定義為200。在顯著性檢測數據集(DUT-OMRON,MSRA10K)上預訓練的深度學習網絡DHSnet網絡被用來生成初始顯著圖,式(4)中μ=1。
使用所提出的模型來生成Cp數據集上的協同顯著圖。將所提出的模型與三種較先進的協同顯著性檢測方法進行比較,即CG[19]、CB[8]和EMR[10]。對于主觀評價,圖3 中顯示了部分實驗示例,其中包含4 個圖像組中的示例,即鱷魚、狗、交通標志和公共汽車。比如CB 無法檢測出協同顯著區域的輪廓如前兩列的鱷魚檢測效果,而EMR 方式存在錯誤抑制協同顯著區域如后兩列卡車的檢測效果圖,CG存在顯著值不平滑問題,可以看出,本文提出的框架明顯提高了協同顯著性檢測的性能。
對于定量評估,實驗結果如圖4 所示。對于Fmeasure曲線縱軸表示F-measure值,橫軸表示[0,255]閾值。與其他方法相比,本文的PR曲線和ROC曲線是最優的。此外,本文模型中的F-measure的最高得分為0.9,并且在大部分區間內[0,240]取得了最高的F-measure值。此外,如表1所示,本文所提出的方法獲得最低的MAE分數。因此本文提出的框架相比于其他的現存方法在4種評價指標上均有明顯提高。

Table 1 MAE scores on Cp dataset表1 Cp數據集上的MAE對比
對于另一個廣泛使用的iCoseg 數據集,相比Cp數據集,本文方法在主觀性和客觀性方面與8個現存流行的協同顯著性檢測模型進行了比較,因為這些方法相關作者已提供相關結果集或代碼,包括HS[7]、CB[8]、EMR[10]、CSLDW[4]、CSDR[22]、SP-MIL[13]、TS[16]、MVSRC[17]。兩個圖像組的示例結果如圖5所示。前一組的協同顯著目標是一只隱藏在灌木叢中的豹子,即使人眼也很難在豹子和灌木叢之間做精確的細節和邊緣區分,但是本文方法可以有效地勾勒出來豹子的邊緣。對于后一組,協同顯著對象是在操場上玩耍的女孩們,從圖像組中可以看到橙色和黑色經常出現在女孩的衣服和背景中。基于低級特征的傳統方法不足以區分前景和背景,導致協同顯著性檢測結果令人不滿意。而從圖5中可以看到,本文方法達到了與真實的標簽圖像最接近的結果。從HS和CSLDW 的效果圖可以看出這兩個方法都沒能把非協同限制區域抑制住,導致協同顯著區域的輪廓未能檢測出來。CB將大部分背景區域抑制了,但是同時也將協同顯著區域也抑制住了,EMR 缺點是對非協同顯著區域的抑制不夠充分,CSDR會錯誤將協同顯著區域抑制住,而本文方法的效果圖要好很多。由于SP-MIL、TS、MVSRC等相關文獻工作者未能提供代碼或結果集,因此未能實現質量效果對比及繪制相應的PR曲線和ROC曲線。

Fig.3 Comparison effect of 4 detection models on Cp dataset圖3 4種檢測模型在Cp數據集上的對比效果

Fig.4 Comparative experiment of 4 detection models on Cp dataset圖4 4種檢測模型在Cp數據集上的對比實驗
對于定量評估,使用PR 曲線、ROC 曲線和Fmeasure測量曲線,如圖6所示。雖然本文PR曲線和ROC 曲線并不總是超過其他曲線,但它們在很寬的閾值范圍內都表現很出色。對于F-measure測量,本文模型實現了最高的F-measure 值為0.88,而算法模型HS、CB、EMR、CSLDW、TS、SPMIL、MVSRC、CSDR的F-measure值分別為0.755 1、0.754 1、0.819 4、0.798 5、0.834 0、0.814 3、0.810 0、0.817 6。結果表明,本文方法具有一定閾值的顯著對象分割的最佳性能。此外,從表2中可以看出,與其他方法相比,本文模型中MAE的值顯著降低。

Fig.5 Comparison effect of 6 detection models on iCoseg dataset圖5 6種檢測模型在iCoseg數據集上的對比效果

Fig.6 Comparative experiment of 6 detection models on iCoseg dataset圖6 6種檢測模型在iCoseg數據集上的對比實驗
本節實驗用來展示框架中每個部分的效果。為了公平起見,實驗中只進行了一個因素的更改。從圖7 和表2 中可以看到:(1)與基于像素級別的方法EMR 相比較,所提出的具有超像素級別(Proposed-NS)的框架的性能取得了更好的結果。(2)在不使用深度學習單顯著性模型(Proposed-ND)來產生初始顯著性查詢的情況下,本文提出框架(Proposed)的MAE得分從0.085大幅增加到0.147。(3)相比基于標準圖模型協同顯著性檢測方法(Proposed-NHG),在結合超圖后,本文提出的方法3個評估指標得到顯著提高。(4)相比沒有圖像內的凸包約束的模型(Proposed-NIMC),本文提出協同顯著性檢測方法獲得更高的性能。它可以抑制遠離凸包的背景區域并增強前景區域。除此之外,雖然所提出的沒有圖像內空間分布約束(Proposed-NIMC)的模型比Proposed更差,但它仍然獲得了比其他現有方法更令人滿意的性能。

Table 2 MAE scores on iCoseg dataset表2 iCoseg數據集上的MAE對比

Fig.7 Comparison of algorithm models on iCoseg dataset圖7 在iCoseg數據集上的算法模型分析對比
本文提出了一種新穎而有效的協同顯著性檢測方法。設計了一種圖像間顯著性傳播和圖像內的位置約束條件,通過融合兩者的結果最終產生了基于超像素級別的協同顯著性檢測結果。兩個基準數據集的定性和定量評估也表明,所提出的協同顯著性模型優于較先進的協同顯著性檢測模型。在以后協同顯著性檢測的研究過程中,可以通過深度學習框架提取更深層次的特征,或者提取能體現一組圖像中的協同信息的特征,這樣再結合本文算法進行構圖,最終的實驗效果會更好。