牛玉婷 張麗華 吳克偉 謝 昭 楊興明
(合肥工業大學計算機與信息學院 安徽 合肥 230009)
基于多因素貝葉斯的遮擋目標檢測
牛玉婷 張麗華 吳克偉 謝 昭 楊興明
(合肥工業大學計算機與信息學院 安徽 合肥 230009)
復雜場景中的遮擋現象會造成目標外觀信息損失,致使檢測過程中容易出現目標遺漏。通過分析目標表示對特定布局的依賴性,提出一種基于多因素貝葉斯的遮擋目標檢測方法。首先,使用部件模型提供目標局部區域的候選提議,然后,根據空間布局關系估計部件的可見性概率,并同時考慮目標部件的外觀特征和形變位置,最后,構建基于外觀、形變、可見性因素的貝葉斯模型,并采用最大化曲線下方面積設計目標檢測評價函數,完成多因素權重學習。實驗結果證明在PASCAL數據集中的有效性,優于目標檢測的現有方法。
遮擋目標檢測 可見性 多因素 貝葉斯
目標檢測是通過提取目標的可判別特征,訓練獲得區分目標和背景的分類器,在圖像中確定目標位置的過程[1]。目標檢測在視頻監控[2]、圖像檢索[3]等領域有著廣泛的應用價值。然而,由于真實世界中多目標之間復雜的空間位置關系,成像過程中存在大量的遮擋現象,致使目標檢測丟失。
現有方法在處理遮擋先驗,通常使用位置和遮擋類型,如規則網格的區域外觀驗證[4]、網格二值可見性標記[5]等。然而,上述模型的網格約束較強,無法泛化到不同目標類別的驗證中。
目標的組成結構關系,成為目標檢測的重要線索,基于結構化表示的部件模型[6]PbM(Part based Model)提供了重要區域的潛在位置估計方法,該方法考慮部件位置偏移作為目標形變處理的數據依據。然而,部件模型在處理遮擋問題時,仍然會出現大量漏檢,部件模型及其演化模型Branch-and-Bound(BB)[7], Histogram Sparse Code (HSC)[8], Local Structure HOG and LBP(LS-HOGLBP)[9]等都缺乏對局部部件遮擋的解釋能力。
針對部件模型遮擋處理能力的不足,需要部件重構關系,擴展的部件模型研究被展開。例如Grammar[10]模型中支持遮擋情況下的部件推理關系,Ouyang等[11]提出的檢測模型中多個目標區域之間的重疊可以通過聯合遮擋配置關系驗證。但是,上述方法仍然是基于外觀的,本質上無法回避外觀歧義性。
進一步多目標在成像過程中的空間投影關系,成為部件遮擋評價的重要依據。通過考慮遮擋圖像與真實空間的物理投影關系,驗證場景布局的遮擋配置,可以實現部件可見性概率的估計,例如3D注釋[12]、Poselet[13]、3D Aspectlets[14]等,其中Hsiao等[15]使用物理世界假設,實現局部興趣點遮擋概率估計,改善了遮擋估計的準確性。但是,上述方法是針對特定的目標類別,在遮擋檢測中不具有通用性,并且這些方法缺乏驗證部件可見性的結構信息。因此,本文關注在利用部件外觀,形變信息的基礎上,加入可見性評價來進一步擴展對目標的描述,并采用貝葉斯框架融合多個因素,通過權重優化學習實現多因素貝葉斯的遮擋檢測模型。本文的主要創新點如下:
(1) 針對遮擋情況下的部件外觀描述不足,提出一種基于目標外觀、形變、可見性的多因素目標檢測模型,同時考慮可見性所具有的統計特性,采用貝葉斯框架評價各個因素的重要性,實現多因素融合。
(2) 針對外觀、形變與可見性特征分布不同,權重難以估計,采用最大化曲線下面積方法,實現了多因素貝葉斯模型的權重優化學習。
(3) 在PASCAL數據上,驗證了本文算法在通用目標檢測上的執行性能,優于當前先進算法。
1.1 目標評價的能量函數
基于部件的模型將目標劃分成多個關鍵部件,并通過對部件之間引入幾何約束,使模型在處理目標檢測中的形變目標更加魯棒[6]。然而,該模型并沒有考慮遮擋情況下的部件評價。Hsiao等[15]采用物理統計可見性對目標進行遮擋評價,但是該方法缺乏驗證部件可見性的結構信息,并且沒有對描述部件的多個因素形成統一的目標檢測框架。因此我們在結構化表示的基礎上提出采用貝葉斯框架評價外觀、形變、可見性因素的重要性,并通過權重優化學習獲得可靠的目標檢測模型。
可見性項被用來估計由遮擋引起的信息不充分,但是它的統計特性不適用于部件模型。為此我們采用貝葉斯框架來評價外觀、形變和可見性因素的重要性,并提出一種新的遮擋布局檢測評價:
p(Y|d)= pa(Y|da)·pe(Y|de)·pv(Y)=
(1)
其中Y是目標部件的可見性標記,用于描述遮擋配置。yi是第i個部件外觀評價下的可見性標記,其數值為1表示該部件外觀可見,Npt為目標被劃分的部件個數,p(yi|da,i)是外觀項的概率,p(yi|de,i)是形變項的概率,p(yi)是可見項的概率。d=(da,de)是外觀和形變概率化過程中使用的參數。為了便于模型參數的優化求解,進一步將貝葉斯概率轉化為能量函數形式:
ψ(Y;d,ω)=ψa(Y;da)+ψe(Y;de,ωe)+ψv(Y;ωv)=
(2)
其中ψa是外觀項,對應為p(yi|da,i)的能量形式,ψe是形變項,對應為p(yi|de,i)的能量形式,ψv為可見性項,對應為p(yi)的能量形式。因為各個因素在目標檢測中的貢獻不同,我們使用系數ω=(ωe,ωv)來確定各項的重要性。當系數降為0時,表示不需要考慮相應的項,原始的部件模型可以被視為可見項系數極小情況下的模型。在合適的系數下,根據式(2)計算的能量越低的候選框代表越可靠的檢測結果。
本文的多因素貝葉斯模型包括3項,分為是外觀項ψa(Y;da),形變項ψe(Y;de,ωe),可見性項ψv(Y;ωv)。不同項的能量,使用不同的目標部件描述子進行計算。
(1) 外觀項是用來分析目標的外觀相似度。我們在部件模型的基礎上,采用相似于文獻[10]的方法對外觀項建模,即p(yi|da,i)=sigmoid(si-da,i),其中si為訓練獲得的分類邊界閾值,da,i∈d是sigmoid函數的平移參數,通過經驗期望獲得。在能量函數中進一步將外觀概率轉化為能量形式ψ(yi;da,i)=-log(p(yi|da,i))。
(2) 目標形變項是用來分析目標部件的偏離程度。我們考慮部件位移信息對形變項建模,p(yi|de,i)=sigmoid(de,i-ei),其中ei是部件位置偏移量,平移參數使用訓練集的期望平移量de,i=E(ei)。 同時,在式(2)中引入因素權重ωe,將形變項轉化為的能量函數形式ψ(yi;de,i,ωe)=ωe·-log(p(yi|de,i))。
(3) 可見性項是用來描述目標部件在遮擋情況下可能引起的目標損失,我們借助物理投影約束對目標可見性建模,采用文獻[15]的方法獲得可見性概率p(yi),同時在能量函數中引入參數ωv表示該因素的重要性。可見項的能量形式為ψ(yi;ωv)=ωv·(1-yi)·(-log(p(yi)))。顯然當部件可見時,即yi=1,該能量為ψ(yi;ωv)=0,即不考慮外觀退化因素。
1.2 多因素權重優化
本文模型考慮能量函數中的每個因素為一個弱檢測器。為了權衡各個因素的價值,我們在估計各個因素權重的過程中,采用最大化曲線下方面積學習混合模型中的系數[16]。根據式(2),注意到能量最小化與目標判定單調性相反,因此,曲線下方面積評價的求解方式可以定義為:
(3)

本文使用貪婪策略對多因素權重進行優化,并考慮正則項避免權重不均衡,從而有目標函數G(Ψ;f,ω)=‖ω‖2/2-φ(Ψ;F,ω)。訓練數據集來自PASCAL數據集并且優化混合權重為ω*=argminωG(Ψ;F,ω)。我們將在實驗中進一步分析本文所提出的模型相較其他模型的優勢。
為了評價本文所提出的多因素貝葉斯遮擋目標檢測模型MFB(Multi-factorBayesianModel)在通用目標中的檢測效果,我們在PASCAL2007 數據集上進行實驗,并與Grammar[10]、Poselet[13]、部件模型[6]、HSC[8]和LS-HOGLBP[9]作對比,其中Grammar和Poselet模型能夠有效處理目標檢測中的遮擋現象,而部件模型、HSC、LS-HOGLBP是當前先進的基于部件的目標檢測模型。PASCAL2007訓練集包含2 501張真實場景的圖像,測試集包含4 952張真實場景的圖像,測試時目標是預測圖像中給定類別的所有目標的GroundTruth窗口。本文中,只有預測窗口與GroundTruth窗口面積重疊超過50%,才判定為正確檢測。為了保證公平對比,本文程序和對比方法的程序在同一臺PC上在單線程條件下運行,本文PC的配置為IntelCPUi5-3470。所有方法都使用文章的缺省設置。
為了驗證本文方法能夠有效處理目標檢測中的遮擋現象,表1給出了MFB模型與Grammar,Poselet在人體類別中的遮擋目標檢測結果,可以看出本文方法的表現優于當前先進的遮擋檢測方法。進一步具體分析可以得到如下結論:(1)Poselet模型的檢測精度比Grammar模型高出1.8%。這是因為Grammar模型在處理遮擋時僅關注部件的外觀評價。而Poselet模型從空間布局中入手利用3D點注釋選擇一致的動作部件,避免了外觀本身所具有的歧義性。(2)MFB模型在行人檢測上的表現比Poselet模型提高了1.7%。這是因為不同于以上兩種模型,MFB模型不僅考慮了部件可見性的物理度量,且通過貝葉斯框架將其與外觀,形變因素相結合,采用權重優化學習,發揮了各個因素之間互補作用,從而能夠更加有效地處理遮擋情況下的目標檢測。

表1 PASCAL數據集中不同模型的人體檢測結果
圖1給出了PASCAL數據集中遮擋人體檢測示例,圖中(a)中人體被動物遮擋,部分外觀信息丟失。MFB模型采用結構化描述,檢測獲得目標人體的多部件位置,對應(a)中8個白色的檢測框。針對被遮擋嚴重部件,對應(a)中的左下角三個檢測框,(b)中的灰色檢測框給出了外觀特征與形變約束,在此基礎上MFB模型根據空間布局關系進行了可見性推理,如(c)所示,其中從黑色到白色對應可見性從弱到強。

圖1 MFB的遮擋人體檢測示例
為了進一步評價本文方法在通用目標類別檢測上的表現,我們在PASCAL數據庫中的20個類別上進行實驗,并將MFB模型與部件模型、HSC、LS-HOGLBP作對比。其中HSC和LS-HOGLBP是為了改善低層特征表達。我們同樣與Hsiao[15]的模型進行了對比。Hsiao提出使用線性模型將密集的HOG檢測與物理統計可見性結合提高遮擋檢測表現。為了進行有效的對比,我們轉變Hsiao的模型為基于部件的檢測,記作可見性的貝葉斯表達BwV(Bayesian with Visibility),也是MFB模型的特殊形式。與此同時,MFB模型可以變化成不同的子模型在特定項的權重為0時,外觀的貝葉斯表達BwA(Bayesian with Appearance),形變的貝葉斯表達BwD(Bayesian with Deformation)。我們將部件模型選為基準。
通過在PASCAL數據庫上的對比,實驗數據說明本文算法在通用目標檢測上優于當前先進檢測算法。表2給出了不同算法在20類目標中的檢測結果,具體分析可以得到以下結論:(1) 本文方法在所有類別上的平均檢測精度為41.2%,高于所有比較的模型,這一表現說明了我們提出的模型是有效的,多種因素之間具有互補性。(2) MFB比基準部件模型提高了9.9%,而比HSC和LS-HOGLBP只提高了6.9%,這是因為HSC和LS-HOGLBP模型有效的特征表達使其表現優于部件模型。我們進一步對一些特定類分析,發現在類別如鳥和狗,MFB模型比HSC和LS-HOGLBP只高出1%,這是因為這些類別有較多的變形以及部件等分位點置信度低。而在類別船、自行車和沙發上,MFB提高了9%,這是因為這些目標是剛性的,部件位置更加準確并導致更加可靠的可見性圖估計和貝葉斯評價。(3) 為了進一步說明MFB中各個因素的重要性,我們分析了BwD、BwA和BwV在目標檢測中的表現,其中BwD的表現比BwV高出了10.3%,BwV的表現比BwA高出了2.9%,可以看出形變因素最重要,外觀因素和可見性因素仍有提升空間。而MFB比BwA高出了20%,比BwA高出了17.1%和比BwV高出了6.8%的表現,說明多因素模型和權重估計都是有效的,遮擋目標可以通過多因素貝葉斯模型被有效地檢測出。(4) 在時間效率上,基準部件模型每幅圖花費2.51秒,HSC模型為4.71秒,MFB模型為5.13秒。這是因為MFB模型中特征的獲取需要大量時間。

表2 在20個類別上不同模型的平均查準率

續表2
圖2進一步給出了MFB與HSC的檢測結果。為了公平比較,圖2給出的是在每張圖像虛警率為0.1情況下的檢測結果。黑色框為HSC檢測結果,白色框為HSC丟失的檢測結果,MFB能夠成功檢測出所有位置,即相同虛警率情況下遺漏的目標被MFB模型找出。這一結果說明本文提出的多因素貝葉斯模型能夠實現多因素的有效融合和遮擋檢測的準確性提升。

圖2 MFB和HSC在PASCAL上的目標檢測結果
針對遮擋檢測不準確的情況,提出使用布局關系估計部件可見性,并融合外觀,形變因素擴展對目標的描述,解決遮擋情況下由信息損失造成的漏檢。本文方法采用貝葉斯框架將外觀、形變、遮擋多因素融合,并使用目標檢測中的最大化曲線下方面積的評價指標對多因素的權重進行聯合優化。實驗結果說明在PSACAL數據庫上,能夠實現優于現有方法的目標檢測效果。但是由于場景混雜,導致局部梯度特征無法完全描述目標及其部件,造成漏檢情況,因此下一步將集中在利用卷積神經網絡特征學習目標部件的外觀表示,提高部件定位的準確性,完成更有效的可見性估計,減低由于外觀信息丟失,引起的遮擋檢測錯誤。
[1] Pedersoli M,Vedaldi A,Gonzàlez J,et al.A coarse-to-fine approach for fast deformable object detection[J].Pattern Recognition,2015,48(5):1844-1853.
[2] 黃凱奇,陳曉棠,康運鋒,等.智能視頻監控技術綜述[J].計算機學報,2015,38(6):1093-1118.
[3] 黎向陽,吳敏華,施智平.基于Gabor變換域的積分直方圖鞋印圖像檢索[J].計算機應用與軟件,2015,32(3):215-219.
[4] Kwak S,Nam W,Han B,et al.Learning occlusion with likelihoods for visual tracking[C]//2011 IEEE International Conference on Computer Vision (ICCV), 2011:1551-1558.
[5] Gao T,Packer B,Koller D.A segmentation-aware object detection model with occlusion handling[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition,Providence,RI,USA,2011:1361-1368.
[6] Felzenszwalb P F,Girshick R B,McAllester D,et al.Object detection with discriminatively trained part-based models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.
[7] Kokkinos I.Bounding part scores for rapid detection with deformable part models[C]//Proceedings of the 2012 European Conference on Computer Vision,Florence,Italy,2012:41-50.
[8] Ren X,Ramanan D.Histograms of sparse codes for object detection[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition,Portland,OR,USA,2013:3246-3253.
[9] Zhang J,Huang K,Yu Y,et al.Boosted local structured HOG-LBP for object localization[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition,Providence,RI,USA,2011:1393-1400.
[10] Girshick R B,Felzenszwalb P F,McAllester D A.Object detection with grammar models[C]//Advances in Neural Information Processing Systems 24,Granada,Spain,2011:442-450.
[11] Ouyang W,Zeng X,Wang X.Modeling mutual visibility relationship in pedestrian detection[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition,Portland,OR,USA,2013:3222-3229.
[12] Pepikj B,Stark M,Gehler P,et al.Occlusion patterns for object class detection[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition,Portland,OR,USA,2013:3286-3293.
[13] Zia M Z,Stark M,Schindler K.Explicit occlusion modeling for 3D object class representations[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition,Portland,OR,USA,2013:3326-3333.
[14] Bourdev L,Maji S,Brox T,et al.Detecting people using mutually consistent poselet activations[C]//Proceedings of the 11th European Conference on Computer Vision.Springer,2010:168-181.
[15] Hsiao E,Hebert M.Occlusion reasoning for object detection under arbitrary viewpoint[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(9):1803-1815.
[16] Paisitkriangkrai S,Shen C,Hengel A V D.Efficient pedestrian detection by directly optimize the partial area under the ROC curve[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition (ICCV),2013:1057-1064.
DETECTION OF OCCLUSION TARGET BASED ON MULTI-FACTOR BAYES
Niu Yuting Zhang Lihua Wu Kewei Xie Zhao Yang Xingming
(SchoolofComputerandInformation,HefeiUniversityofTechnology,Hefei230009,Anhui,China)
Occlusion in complex scenes can result in loss of target appearance information, which leads to the loss of target in the detection process. By analyzing the dependence of the target representation on a particular layout, a multi-factor Bayesian method for occlusion target detection is proposed. First, a candidate proposal for the target local region is provided using the component model. Then, the visibility probability of the components is estimated according to the spatial layout, and the appearance characteristics and the deformation position of the target components are also considered. Finally, to complete the multi-factor weight learning,a Bayesian model based on appearance, deformation and visibility factors is constructed, and the area under the maximum curve is used to design the target detection and evaluation function. The experimental results demonstrate the effectiveness of the PASCAL data set, which outperforms the existing methods of target detection.
Occlusion target detection Visibility Multi-factor Bayes
2016-01-19。國家自然科學基金項目(61273273,61503111,61501467)。牛玉婷,碩士生,主研領域:計算機視覺。張麗華,副教授。吳克偉,講師。謝昭,副研究員。楊興明,副教授。
TP391.41
A
10.3969/j.issn.1000-386x.2017.04.032