唐允恒
(重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶 400044)
基于加權(quán)SIFT特征的目標(biāo)檢測算法
唐允恒
(重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶 400044)
復(fù)雜圖像中對特定目標(biāo)的檢測和定位是機(jī)器視覺領(lǐng)域的難點(diǎn)之一。提出使用中層視覺元素描述檢測目標(biāo),以建立權(quán)值模板圖像;然后對目標(biāo)圖像和權(quán)值模板進(jìn)行加權(quán)SIFT特征匹配得到最優(yōu)匹配位置,從而實(shí)現(xiàn)目標(biāo)檢測。該方法以自行車為檢測目標(biāo)進(jìn)行實(shí)驗(yàn),檢測率達(dá)到86%,優(yōu)于傳統(tǒng)SIFT-AdaBoost和HOG-SVM檢測方法。實(shí)驗(yàn)結(jié)果表明該方法能夠減少復(fù)雜圖像中背景干擾的問題,對于不同姿態(tài)的目標(biāo)進(jìn)行檢測也有較強(qiáng)的魯棒性。
目標(biāo)檢測;中層視覺元素;權(quán)值模板;SIFT
近年來目標(biāo)檢測技術(shù)在智能監(jiān)控系統(tǒng)、軍事目標(biāo)檢測及醫(yī)學(xué)手術(shù)導(dǎo)航中手術(shù)器械定位發(fā)揮了巨大作用,因此受到廣泛關(guān)注。Shashua等人[1]通過手動劃分目標(biāo)區(qū)域,并對這些區(qū)域提取SIFT特征,使用AdaBoost訓(xùn)練SIFT特征分類器來檢測目標(biāo),取得了良好的檢測效果,但是該方法對光照強(qiáng)度和檢測目標(biāo)的形狀姿態(tài)敏感,目標(biāo)姿態(tài)的變化和成像的環(huán)境改變?nèi)菀讓?dǎo)致錯(cuò)誤的檢測。Dalal等人[2]提出使用方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征描述感興趣的目標(biāo),使用支持向量機(jī)(Support Vector Machine,SVM)分類器對HOG特征進(jìn)行分類,最后用分類器對測試圖像進(jìn)行檢測,在行人檢測領(lǐng)域大大提高了檢測的準(zhǔn)確性,但是HOG-SVM這種對圖像目標(biāo)和背景不加區(qū)分的方法,很容易受到遮擋,尺度變化和目標(biāo)形狀姿態(tài)的改變等因素的干擾從而造成定位困難?,F(xiàn)在圖像趨于復(fù)雜多樣,存在視角變化、光照變化、復(fù)雜背景環(huán)境、目標(biāo)形狀變化以及噪聲干擾等問題,使得復(fù)雜圖像中對特定目標(biāo)的檢測成為是一個(gè)研究難點(diǎn)。
在圖像趨于復(fù)雜的現(xiàn)狀下,有學(xué)者提出通過區(qū)分模板圖像中的目標(biāo)信息和背景信息并提高目標(biāo)信息的權(quán)值的方式來減少背景信息的干擾。Shrivastava等人[3]在對風(fēng)景圖像匹配的研究中取得了良好的結(jié)果。他們認(rèn)為圖像中獨(dú)特的局部區(qū)域比那些相互之間近似的局部區(qū)域能夠提供更多的信息。即在風(fēng)景圖像中獨(dú)特的標(biāo)志性建筑的區(qū)域比那些在圖像中紋理極為相似的天空,樹林和廣場等區(qū)域更加重要。這種思想在中層視覺元素的研究中得以延續(xù)和發(fā)展。
中層視覺元素是由Fan等人[9]在2005年提出的概念,中層視覺元素是指在圖像中能夠描述某一類目標(biāo)物體特性的局部圖像塊,即這些圖像塊在本類目標(biāo)物體圖像中普遍存在,但在其他類目標(biāo)物體圖像中不存在。這樣的圖像塊在圖像中所代表的局部區(qū)域就是目標(biāo)信息。
本文通過提取中層視覺元素的方法區(qū)分目標(biāo)信息和背景信息,并構(gòu)建相應(yīng)的權(quán)值模板提高目標(biāo)信息的權(quán)值,而降低背景信息的權(quán)值。使用SIFT特征結(jié)合權(quán)值模板進(jìn)行加權(quán)匹配,最終檢測出目標(biāo)物體。實(shí)驗(yàn)結(jié)果表明本文提出的方法能夠有效的降低背景信息帶來的干擾,相較于傳統(tǒng)SIFT-AdaBoost和HOG-SVM檢測方法有更好的檢測結(jié)果。
算法框架分為訓(xùn)練和檢測兩個(gè)階段,如圖1所示。訓(xùn)練階段的主要目的是通過訓(xùn)練圖像生成權(quán)值模板,其中正樣本圖像是指包含檢測類別的圖像,而負(fù)樣本圖像是指與檢測類別無關(guān)的干擾圖像。在檢測階段對模板集里的每個(gè)模板圖像的SIFT特征與檢測圖像的SIFT特征進(jìn)行基于權(quán)值模板的匹配,每個(gè)模板圖像在檢測圖像中都會產(chǎn)生一個(gè)匹配框,最后通過匹配框融合的方法形成最終的檢測框,得到目標(biāo)檢測的結(jié)果。

圖1 算法框架圖
1.1 訓(xùn)練階段
(1)中層視覺元素提取
提取中層視覺元素的目的是找出那些在正樣本中普遍存在,而對于負(fù)樣本有很好的區(qū)分度的局部特性,這種特性很難由灰度、邊緣等低層視覺元素表示,低層視覺元素側(cè)重于圖像處理的過程,而難以對圖像中局部特性進(jìn)行分析。
本文采用Bansal等人[5]提出的方法提取中層視覺元素,其具體的提取過程如下:對于每張帶正負(fù)樣本標(biāo)簽的訓(xùn)練圖像,使用固定像素的窗口滑動掃描整個(gè)訓(xùn)練圖像。在掃描過程中,對滑動窗口中的圖像塊進(jìn)行HOG特征提取并根據(jù)訓(xùn)練圖片的標(biāo)簽確定HOG特征的標(biāo)簽。然后對正樣本的HOG特征集進(jìn)行均值偏移(Mean Shift,MS)聚類,得到多個(gè)正樣本聚類中心。刪減樣本特征很少的聚類中心,保證剩余聚類中心是本類別的共性特征。計(jì)算正樣本聚類中心所在區(qū)域正樣本特征數(shù)與負(fù)樣本特征數(shù)比例,比例越大說明這個(gè)正樣本中心區(qū)域代表的正樣本特性能夠很好地區(qū)別于負(fù)樣本特性。選擇正負(fù)樣本比例高的聚類中心區(qū)域,這些區(qū)域中的正樣本特征對應(yīng)的圖像塊就是中層視覺元素。圖2展示了部分提取出的自行車的中層視覺元素。
(2)生成權(quán)值模板
在獲得中層視覺元素圖像塊后,通過以下步驟對模板圖像進(jìn)行處理獲取權(quán)值模板:
①選取訓(xùn)練集正樣本圖像作為模板圖像T,其大小為a×b像素
②初始化權(quán)值矩陣W,權(quán)值矩陣大小和模板圖像大小相同,權(quán)值矩陣的初值Wij=0(1≤i≤a,1≤j≤b)。
③為了體現(xiàn)特征塊的多樣性,全方位考慮模板圖像不同位置的特征,實(shí)驗(yàn)隨機(jī)選擇了50個(gè)中層視覺元素圖像塊,并對每個(gè)中層視覺元素圖像塊使用四個(gè)尺度進(jìn)行采樣作為特征塊集。
④對所有特征塊依次在模板圖像上進(jìn)行相似性匹配。每個(gè)特征塊滑動掃描整個(gè)模板圖像,把當(dāng)前滑動窗口中的模板圖像塊作為模板塊。計(jì)算特征塊與模板塊之間的相似度。相似度計(jì)算公式為:


圖2 自行車的中層視覺元素
其中k(x,y)代表特征塊在(x,y)點(diǎn)的像素值,kmean代表特征塊所有像素點(diǎn)灰度的平均值,p(x,y)代表模板塊(x,y)點(diǎn)的像素值,kmean代表模板塊所有像素點(diǎn)灰度的平均值。將每個(gè)特征塊掃描整個(gè)模板圖像,記錄下最佳匹配位置、范圍和相似度。所有特征塊掃描完畢后,對記錄中所有最佳匹配位置提高對應(yīng)區(qū)域的權(quán)值。對于記錄中最佳匹配位置相同的情況,比較這些相同位置記錄中的相似度,選擇最高相似度的記錄并提高這該區(qū)域的權(quán)值:

將所有選取的中層視覺元素圖像塊進(jìn)行以上操作,得到一個(gè)模板圖像大小的權(quán)值圖像W,對W進(jìn)行歸一化:

其中Max(W)代表權(quán)值矩陣W中權(quán)值的最大值。從訓(xùn)練集正樣本選取多張圖片作為模板,重復(fù)上述操作,最終生成權(quán)值模板集,圖3展示了部分模板圖像和對應(yīng)的權(quán)值模板。

圖3 模板圖像和權(quán)值模板
1.2 檢測階段
(1)加權(quán)SIFT特征匹配算法
對模板圖像和檢測圖像進(jìn)行SIFT特征檢測[8],模板圖像上一個(gè)SIFT特征點(diǎn)a(xa,ya)的與檢測圖像上SIFT特征點(diǎn)b(xb,yb)的為例,其SIFT特征向量分別為和?;跈?quán)值模板,使用帶權(quán)重的余弦公式計(jì)算特征點(diǎn)對的加權(quán)相似度Simweighted:

其中Weigh(xa,ya)代表模板圖像所對應(yīng)的權(quán)值矩陣在(xa,ya)的值。
圖4展示了使用帶權(quán)的SIFT特征和原始的SIFT特征的匹配結(jié)果對比,藍(lán)點(diǎn)表示檢測到的SIFT特征點(diǎn),紅線表示兩對最優(yōu)匹配點(diǎn)對的連線。

圖4 加權(quán)SIFT特征匹配與SIFT特征匹配比較
(2)匹配框融合
權(quán)值模板集中的每個(gè)權(quán)值模板對檢測圖像進(jìn)行加權(quán)SIFT特征匹配都會通過以下方法產(chǎn)生一個(gè)匹配框和匹配度:選擇加權(quán)相似度Simweighted最高的兩組點(diǎn)對(S1,S2)、(K1,K2),其中S1、K1是權(quán)值模板上的點(diǎn),S2、K2是檢測圖像上的點(diǎn)。通過建立S1、K1在權(quán)值模板的相對位置到S2、K2在檢測圖像中相對位置的一一對應(yīng)關(guān)系,可以將權(quán)值模板映射到檢測圖像中,這個(gè)映射區(qū)域就是匹配框,匹配框的匹配度就這兩組點(diǎn)對的加權(quán)相似度之和。
然后使用以下操作將這些匹配框進(jìn)行融合為檢測框,首先選擇匹配度排名前5的匹配框,保留匹配度最高的匹配框,計(jì)算這個(gè)匹配度最高的匹配框和其余匹配框二者的交集面積,若交集面積占二者較小框面積一半以上則保留該匹配框,否則刪掉該匹配框,計(jì)算保留下來的匹配框的最大邊界值作為最終檢測窗口的邊界。圖5展示幾種不同場景下姿態(tài)各異的自行車檢測的實(shí)驗(yàn)結(jié)果。
2.1 數(shù)據(jù)集
訓(xùn)練集選取VOC2007數(shù)據(jù)集60張自行車圖像作為正樣本和60張其他干擾圖像作為負(fù)樣本,如圖5所示。

圖5 檢測結(jié)果

圖5 本文實(shí)驗(yàn)所用訓(xùn)練數(shù)據(jù)集示例
2.2 實(shí)驗(yàn)分析
本文在Linux操作系統(tǒng)中的MATLAB R2010b環(huán)境下進(jìn)行實(shí)驗(yàn)。為驗(yàn)證本文所提算法的有效性,將本文算法與SIFT-AdaBoost[1]和HOG-SVM[7]目標(biāo)檢測算法進(jìn)行對比實(shí)驗(yàn),IoU(Intersection-Over-Union)參數(shù)[10]作為評價(jià)指標(biāo),

其中檢測窗口就是檢測結(jié)果中框選出的目標(biāo)窗口,標(biāo)記窗口是人工標(biāo)記的目標(biāo)真實(shí)位置。若IoU>0.5則認(rèn)為是成功檢測。檢測成功圖像數(shù)量占總檢測圖像數(shù)量的比例即為檢測率。圖6展示了三種算法對不同場景中自行車的檢驗(yàn)結(jié)果,其中黃色框?yàn)闃?biāo)記窗口,紅色框?yàn)楦鱾€(gè)算法的檢測窗口,沒有紅色窗口的檢測結(jié)果表示未檢測出目標(biāo)。

圖6 對比實(shí)驗(yàn)結(jié)果
100張自行車為目標(biāo)的公共場景作為檢測圖像對比實(shí)驗(yàn),以檢測率和檢測成功檢測的平均IoU為檢測指標(biāo),結(jié)果如表1所示。SIFT-AdaBoost方法容易受到檢測目標(biāo)姿態(tài)影響,導(dǎo)致檢測率較低。HOG-SVM方法在訓(xùn)練分類器時(shí),訓(xùn)練圖像中包含大量的背景信息而產(chǎn)生較多誤檢測導(dǎo)致平均IoU較低,而本文方法能夠較好的減少背景信息帶來的影響,對不同姿態(tài)的目標(biāo)魯棒性較強(qiáng)。從實(shí)驗(yàn)結(jié)果可以看出,本文方法具有較好的檢測性能。

表1 自行車檢測結(jié)果對比
本文根據(jù)傳統(tǒng)目標(biāo)檢測算法對解決復(fù)雜圖像中發(fā)生形變、存在遮擋及目標(biāo)受干擾下定位存在困難的情況,提出使用中層視覺元素訓(xùn)練權(quán)值模板,這種權(quán)值模板區(qū)分了模板圖像中的目標(biāo)信息和背景信息,在目標(biāo)檢測過程中有效地減少了背景信息帶來的干擾。實(shí)驗(yàn)結(jié)果表明,本文方法能夠檢測并定位不同復(fù)雜場景中的目標(biāo),對于不同姿態(tài)的目標(biāo)進(jìn)行檢測也有較強(qiáng)的魯棒性。
參考文獻(xiàn):
[1]Shashua A,Gdalyahu Y,Hayun G.Pedestrian Detection for Driving Assistance Systems:Single-Frame Classification and System Level Performance[C].Intelligent Vehicles Symposium.IEEE Xplore,2004:1-6.
[2]Dalal N,Triggs B.Histograms of Oriented Gradients for Human Detection[C].IEEE Computer Society Conference on Computer Vision &Pattern Recognition.IEEE Computer Society,2005:886-893.
[3]Shrivastava A,Malisiewicz T,Gupta A,et al.Data-Driven Visual Similarity for Cross-Domain Image Matching[J].Acm Transactions on Graphics,2011,30(6):1-10.
[4]Bailly A,Malinowski S,Tavenard R,et al.Advanced Bag-of-Temporal-SIFT-Words for Time Series Classification[J],2016.
[5]Bansal A,Shrivastava A,Doersch C,et al.Mid-Level Elements for Object Detection[J].Southeast Asian Journal of Tropical Medicine& Public Health,2015,10(1).
[6]Doersch C,Gupta A,Efros A.Mid-Level Visual Element Discovery as Discriminative Mode Seeking[J].Advances in Neural Information Processing Systems,2013,1:1.
[7]宋瑨,王世峰.基于可變形部件模型HOG特征的人形目標(biāo)檢測[J].應(yīng)用光學(xué),2016,37(3):380-384.
[8]Lowe D.Distinctive Image Features from Scale-Invariant Key Points[J].International Journal of Computer Vision,2004,60(2):91-110.
[9]Fan J,Gao Y,Luo H,et al.G.:Statistical Modeling and Conceptualization of Natural Images[J].Pattern Recognition,2005,38(6):865-885.
[10]Hosang J,Benenson R,Dollár P,et al.What Makes for Effective Detection Proposals[J].IEEE Transactions on Pattern Analysis& Machine Intelligence,2016,38(4):814-830.
Object Detection Algorithm Based on Weighted SIFT Features
TANG Yun-heng
(College of Computer Science,Chongqing University,Chongqing 400044)
Detection and localization of specific targets in complex images is one of the difficulties in machine vision.Uses the middle-level visual elements to describe the detection target to establish a weight template image;in order to achieve target detection,matches the weighted SIFT features of weight templates and the target images to get the optimal match position.Takes bicycles as the detection targets which have the detection rate of 83%,and our approach is better than SIFT-AdaBoost and HOG-SVM detection method.The result shows that this approach can reduce the background information interference in complex images,and has strong robustness to the targets with different poses.
Object Detection;SIFT;Mid-Level Visual Elements;Weight Template
1007-1423(2017)11-0074-05
10.3969/j.issn.1007-1423.2017.11.015
唐允恒(1992-),男,重慶人,碩士研究生,研究方向?yàn)閳D像處理目標(biāo)檢測
2017-03-21
2017-04-12