毛玉仁, 郭 松, 鄭陽明, 林 華
(1.浙江大學 航空航天學院 微小衛星研究中心,浙江 杭州 310027; 2.上海航天技術研究院, 上海 200235)
基于似物性判別的視覺目標檢測方法*
毛玉仁1, 郭 松2, 鄭陽明1, 林 華1
(1.浙江大學航空航天學院微小衛星研究中心,浙江杭州310027;2.上海航天技術研究院,上海200235)
提出了一種基于似物性判定理論的單圖像視覺目標檢測算法。在組合幾何學的引導下遴選候選圖像窗口;應用創新提出的基于圖像分割的結構化特征結合支持向量機對候選窗口的似物性進行評分;根據評分對候選窗口進行排序遴選。在PASCAL VOC2007數據集上進行了定量驗證,結果表明:當候選集容量為1 000時,算法可達到96.1 %的召回率。檢測性能優于目標識別領域的4種經典算法。
目標檢測; 似物性判定; 基于圖像分割的結構化特征
基于單張圖像的目標檢測是計算機視覺領域最富挑戰的研究課題之一。目前,對于一些特定物體的目標檢測技術已經很成熟并廣泛應用于各種圖像設備中,如人臉檢測[1]、行人檢測[2]等。但是,針對任意物體的目標檢測仍是計算機視覺領域的難題。而該檢測技術恰恰是當前人工智能設備中急需的技術。本文主要研究針對任意物體的目標檢測技術,即準確定位出圖像中的前景物體,并指明該物體的存在范圍。
基于圖像窗口似物性(objectness)判別的目標檢測方法是目前目標檢測領域的研究熱點,被廣泛認為是解決任意物體檢測問題的有效途徑。本文在似物性檢測(objectness estimation)的思想的基礎上,提出了一種基于似物性判別的目標識別方法。該方法創新性地引入了組合幾何學的知識,縮小了初始候選圖像窗口集的容量。采用特征工程的方法提出了一種基于圖像分割的特征,可以較好地表征圖像窗口的似物性。結合支持向量機(support vector machine,SVM),生成了一種對圖像候選窗口進行評分的體系。應用評分對初始候選集進行排序,可遴選出最有可能包含目標的候選圖像窗口。
算法在PASCAL VOC2007[3]的測試圖片上進行測試。取得了較4種經典方法[4~7]更好的檢測性能。
似物性定義了一個圖像窗口中包含一個目標物體的可能性。基于似物性判定的目標檢測方法旨在生成一個涵蓋圖像中所有前景物體(即目標)的圖像窗口候選集。所提出的候選集容量盡可能小,召回率盡可能高。基于似物性的目標檢測方法的整體框架如圖1所示。

圖1 基于似物性判定的目標檢測方法的整體框架
目前,初始候選集的生成[8~10]旨在方法的源頭減小候選集的容量,縮小目標檢測在圖像上的搜索范圍。評分模塊對候選集中的圖像窗口的似物性進行打分,似物性越高評分越高,反之越低。評分之后對候選圖像窗口按其得分進行逆序排序,遴選將排在前面的圖像窗口集合作為目標檢測方法提出的最終候選集。
本文在基于似物性的目標檢測框架的基礎上采用基于滑動窗口的方法在組合幾何的指引下進行初始候選集生成,并提出了基于圖像分割的結構化特征對評分模塊進行改進,取得了較經典方法更好的檢測性能。本文方法的檢測效果如圖2所示,其中矩形框框定的區域為所提出候選集中IoU(intersection of union) 最高的候選窗口。

圖2 本文方法在VOC2007數據集測試圖片上的檢測效果
2.1 初始候選集生成
對一張W×H的圖像,遍歷圖像中所有位置所有尺寸需要WH(W-1)(H-1)/4個圖像窗口。可見,通過窮舉遍歷生成初始候選集在計算上是不可行的。初始候選集必須在更優化的策略下生成,在容量盡可能小的情況下覆蓋圖像中所有潛在的目標區域。
文獻[11]從組合幾何學的角度證明了在采用IoU-0.5準則(IoU大于0.5,即認為有效覆蓋了目標) 的情況下,一張圖像中的所有潛在目標可以被少于5 000個具有36種圖像窗口尺寸的圖像窗口完全覆蓋。本文結合文獻[4]和文獻[11]提出了一種初始候選集生成策略,如下:1)定義36種圖像伸縮尺寸{(W0,H0)},并將原圖像進行伸縮變化到以上尺寸生成36種尺寸的圖像,其中,W0,H0∈{10,20,40,80,160,320}。2)用8×8的圖像窗口在每一種尺寸對應的圖像上滑動遍歷所有位置,并賦予每個圖像窗口以隨機評分。3)運用極大值抑制將得分小的窗口去除。如果一種尺寸上的候選窗口數量大于150,則隨機選取150個候選窗口作為對應尺寸圖像的候選集。4)獲得所有8×8候選窗口后,進行相應的反變換,映射到原圖像的對應位置和對應尺寸。
通過上述策略產生的初始候選集可以在容量小于3 000時覆蓋97 %以上的潛在目標。
2.2 基于圖像分割的結構化特征
如何在初始候選集的基礎上遴選出似物性高的候選圖像窗口是基于似物性的目標檢測問題的關鍵。本文提出了一種基于圖像分割的結構化特征(segmentation-based structural feature,SSF),可以提升似物性判定的性能。
通過觀察圖像分割后的結果,發現含有潛在目標的圖像窗口包含的分割圖塊的結構與不包含的目標的窗口具有很大區別。前者窗口中有著更多的完整的獨立圖塊,獨立于窗口外超像素,如圖3所示。窗口內的圖塊的組合方式,本文稱為窗口基于圖像分割的結構,也可以作為區分窗口是否包含目標的特征。
得益于圖像分割領域的研究進展[12~14],圖像分割可以實現與邊緣檢測等底層視覺變換的快速和高效,保證了基于圖像分割的方法的運算效率。本文采用文獻[12]提出的圖像分割方法。參數設定為δ=0.08,k=300。
本文圖像分割方法的結構化特征(SSF)共13維,來源于窗口中的圖塊的3種屬性:存在范圍,完整性和獨立性。

圖3 基于圖像分割的結構化特征效果展示
將圖塊的存在范圍劃歸于6個區間中((0.5,1],(0.25,0.5],(0.125,0.25],以此類推),并計算屬于每種區間的圖塊的完整性和獨立性。通過上述策略可以得到12維特征。另外,圖像窗口的橫、縱比可以作為判斷似物性的輔助特征。容易發現,一個100×200的圖像窗口較一個5×200的圖像窗口更有可能包含有目標。故將圖像窗口的橫、縱比作為SSF第13維特征。
SSF的前6維特征定義了圖像窗口中包含的圖塊的完整性,可以由式(1)計算

(1)
式中Ss,sk,T分別為圖像窗口中包含的所有圖塊的集合,集合中的第k個圖塊及決定一個圖塊是否完整的閾值,設置T=0.6;Psk為sk的存在范圍。

(2)
式中Wsk,Hsk分別為圖塊sk的外界矩形的寬度和高度;W,H分別為該圖像窗口的寬度和高度。
Isk為表征sk完整性的變量
(3)
六維特征用于表示屬于各存在范圍區間的圖塊的獨立性的統計信息計算如下

(4)

示例圖4中,以圖4(a)所示的圖像窗口為例解釋f1和f7的計算過程,由此可類推f2~f6和f8~f12的計算方法。該圖像窗口中的綠色圖塊和青色圖塊的外接矩形的面積大于了窗口1/2的面積(即1/2 第13維特征被定義為圖像窗口的橫縱比,其可由式(5)計算 (5) 上述13維特征具有旋轉不變和尺度不變形,可以作為衡量圖像窗口似物性的穩定特征。從圖3中可看出,SSF具有較強的區分度。 圖4 f1和f7計算示例 2.3 生成評分模型進行排序遴選 借鑒文獻[4]的評分策略在SSF的基礎上對圖像窗口的似物性進行評分。 首先,計算初始候選圖像窗口的評分 si=〈w,φ(F)〉 (6) 式中w∈R13。Si為過濾得分(filtering score);i為圖像窗口所屬伸縮尺寸的標記,i∈[1,2,…,36];F為圖像窗口的SSF;φ(·)為所選的核函數。 為了得到w,本文引入帶高斯核的支持向量機。在訓練過程中,正例為在VOC2007的訓練集中隨機遴選的IoU大于0.6的圖像窗口。負例為在VOC2007的訓練集中隨機遴選的IoU小于0.4的圖像窗口。正、負例各2 000個。 在得到si后,對模型進行調優。對每一種尺寸的窗口的得分進行加權加偏 (7) 式中vi,ti∈R分別為每一種窗口伸縮尺寸i的權重和偏置。其可以由36個線性支持向量機訓練得到。訓練集為VOC 2007的訓練集中的樣本的初始候選集。應用過濾得分si作為1維特征對線性支持向量機進行訓練。樣本則根據IoU-0.5準則進行標注。IoU大于0.5的候選窗口標注為正例,小于0.5被標記為負例。 實驗在包含20類4 952張圖片的PASCAL VOC 2007測試集上進行。 首先,對SSF在似物性檢測上的區分度進行了測試,然后測試了基于似物性判定的目標檢測算法的檢測率(detection rate)隨候選窗口數量(#WIN)的變化情況。并在相同測試集上與4種其他方法進行了對比。 3.1 特征區分度測試與對比 為了證明SSF的泛化性和區分度,構建了評測系統用于評價其在判別一個圖像窗口中是否含有目標的性能。即用應用SSF作為二分類器的輸入特征,對圖像窗口是否包含物體進行二分類。 訓練集由在VOC2007訓練集中的圖片上隨機選取的圖片窗口組成,其中正、負樣本各2 000個。測試集由在VOC2007測試集中的樣本上隨機選取的圖片窗口組成,其中,正、負樣本各500個。樣本的標定按照IoU-0.5準則進行,即IoU大于0.5的圖像窗口被標記為正例,小于0.5的被標記為負例。在同樣采用線性支持向量機作為分類器的情況下。應用SSF特征可以達到的分類準確率高于經典的BING[4]特征和卷積神經網絡中間層特征(VggNet 第19層輸出向量)。識別準確率如表1所示。 表1 分類準確率對比 實驗結果表明:本文SSF特征對圖像窗口的似物性具有表征能力。在維度較低的情況下,性能優于經典的似物性特征描述子。 3.2 檢測率測試與對比 應用DR#win測量準則在VOC 2007測試集上驗證所提出的基于似物性判定的目標檢測方法,并與方法BING[4],OBN[5],CSVM[6],SEL[7]進行了對比。結果如圖5所示。定量實驗結果表明:所提方法在候選集容量為1 000時可達到96.1 %的召回率。在候選樣本容量小于100時性能明顯優于其他4種方法,即本文方法可以在小尺寸候選集上取得更高的召回率。圖中展示的其他4種經典方法的結果均按照對應文獻中提供的參數設定進行仿真。 圖5 檢測率隨候選窗口數量變化情況對比 提出了一種基于圖像分割的結構化特征,該特征對圖像窗口的似物性具有很強的表征能力。在該特征和組合幾何學的基礎上,提出了一種基于似物性判定的目標識別方法,其可以在候選集容量較小的情況下,取得較高的召回率。方法適用于人工智能設備的視覺系統,具有廣闊的應用前景。 [1] Viola P,Jones M J.Robust real-time face detection[J].International Journal of Computer Vision,2004,57(2):137-154. [2] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]∥Computer Vision and Pattern Recognition(CVPR),San Diego:IEEE,2005:886-893. [3] Everingham M,Winn J.The PASCAL visual object classes challenge 2007,VOC 2007,Development Kit[R].Leeds:University of Leeds,2007. [4] Cheng M M,Zhang Z,Lin W Y,et al.BING:Binarized normed gradients for objectness estimation at 300fps[C]∥Computer Vision and Pattern Recognition(CVPR),Columbus:IEEE,2014:3286-3293. [5] Alexe B,Deselaers T,Ferrari V.Measuring the objectness of image windows[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(11):2189-2202. [6] Zhang Z,Warrell J,Torr P H S.Proposal generation for object detection using cascaded ranking SVMs[C]∥Computer Vision and Pattern Recognition(CVPR),Colorado:IEEE,2011:1497-1504. [7] Uijlings J R R,van de Sande K E A,Gevers T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171. [8] Yan Q,Xu L,Shi J,et al.Hierarchical saliency detection[C]∥Computer Vision and Pattern Recognition(CVPR),Portland:IEEE,2013:1155-1162. [9] Alexe B,Deselaers T,Ferrari V.What is an object[C]∥Computer Vision and Pattern Recognition(CVPR),San Francisco:IEEE,2010:73-80. [10] Zitnick C L,Dollár P.Edge boxes:Locating object proposals from edges[C]∥European Conference on Computer Vision,Zurich:Springer International Publishing,2014:391-405. [11] Zhao Q,Liu Z,Yin B.Cracking bing and beyond[C]∥British Machine Vision Conference(BMVC),BMVA Press,2014. [12] Felzenszwalb P F,Huttenlocher D P.Efficient graph-based image segmentation[J].International Journal of Computer Vision,2004,59(2):167-181. [13] Arbelaez P,Maire M,Fowlkes C,et al.Contour detection and hierarchical image segmentation[J].IEEE Transactions on Pattern Analysis and Machine intelligence,2011,33(5):898-916. [14] Shi J,Malik J.Normalized cuts and image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(8):888-905. Visualobjectdetectionmethodbasedonobjectnessestimation* MAO Yu-ren1, GUO Song2, ZHENG Yang-ming1, LIN Hua1 (1.Micro-satelliteResearchCenter,SchoolofAeronauticsandAstronautics,ZhejiangUniversity,Hangzhou310027,China;2.ShanghaiAcademyofSpaceflightTechnology,Shanghai200235,China) An object detection method for single images based on objectness estimation theory is proposed.Original proposals are generated based on combinational geometry.The proposals are scored by segmentation-based structural feature and support vector machine.Proposals are sorted according to their score.Quantitative validation on PASCAL VOC 2007 dataset,when the number of the proposals is 1 000,the algorithm can achieve recall rate at 96.1 %.Its detection performnce outperforms four classic algorithms. object detection; objectness estimation; image segmentation-based structural feature 10.13873/J.1000—9787(2017)11—0147—04 TP 391.41 A 1000—9787(2017)11—0147—04 2016—10—31 國家“863”高技術研究發展計劃資助項目(GFJG—128205—E31401) 毛玉仁(1991-),男,碩士研究生,主要研究方向為計算機視覺,機器學習。 鄭陽明(1978-),男,通訊作者,副教授,主要從事機器人整體,計算機視覺,人工智能應用等方面的研究工作。

3 實驗設計與結果分析


4 結 論