劉 瓊 秦世引
(北京航空航天大學(xué) 自動(dòng)化科學(xué)與電氣工程學(xué)院,北京100191)
隨著計(jì)算機(jī)科學(xué)和認(rèn)知科學(xué)的交叉發(fā)展,基于人類視覺生理機(jī)制實(shí)現(xiàn)計(jì)算機(jī)視覺并應(yīng)用于目標(biāo)檢測(cè)逐漸成為一個(gè)活躍的研究分支[1-4].心理學(xué)對(duì)人類視覺生理機(jī)制的研究發(fā)現(xiàn),包含新異刺激、較強(qiáng)刺激和人所期待刺激的場(chǎng)景區(qū)域最容易引起觀察者的研究注意[5].目前絕大部分的視覺注意計(jì)算模型都針對(duì)前兩種刺激來源開展研究,即通過視覺顯著性度量尋找感興趣區(qū)域[6-7].很顯然,與前述兩種刺激引發(fā)的注意機(jī)制不同,目標(biāo)檢測(cè)是源于高層知識(shí)驅(qū)動(dòng)的視覺行為,這種刺激可以處于圖像中的任意非顯著位置,因此簡(jiǎn)單地將已有的視覺注意計(jì)算模型應(yīng)用于目標(biāo)檢測(cè)時(shí),將會(huì)產(chǎn)生大量無關(guān)的視點(diǎn)轉(zhuǎn)移而浪費(fèi)時(shí)間,甚至漏檢.
從人腦的認(rèn)知原理可知:即使在復(fù)雜的場(chǎng)景下,人眼也可以辨識(shí)出目標(biāo)位置.人腦可以根據(jù)經(jīng)驗(yàn)預(yù)測(cè)目標(biāo)大致區(qū)域后再進(jìn)行細(xì)致的搜索,因此由粗到精是人眼檢測(cè)目標(biāo)的常用檢測(cè)模式.針對(duì)現(xiàn)有的視覺注意計(jì)算模型應(yīng)用于目標(biāo)檢測(cè)的不足,并受人類視覺系統(tǒng)檢測(cè)目標(biāo)的行為方式所啟發(fā),本文提出了一種基于決策規(guī)則的目標(biāo)區(qū)域預(yù)測(cè)方法,并對(duì)Itti-Koch視覺注意計(jì)算模型進(jìn)行了改進(jìn),進(jìn)而將兩者結(jié)合起來,以實(shí)現(xiàn)快速精確的目標(biāo)檢測(cè).
根據(jù)大腦中存有的先驗(yàn)知識(shí)進(jìn)行區(qū)域預(yù)測(cè),并逐漸聚焦注意力是人類視覺系統(tǒng)執(zhí)行目標(biāo)檢測(cè)任務(wù)之前的潛意識(shí)行為[8].在實(shí)現(xiàn)計(jì)算機(jī)目標(biāo)檢測(cè)算法時(shí),采用類似的由粗到精的目標(biāo)檢測(cè)模式,可以縮小檢測(cè)范圍,提高檢測(cè)速度[9].本文通過將圖像從上往下依次劃分為Ah,Am,Al3個(gè)水平子區(qū)域,并計(jì)算各子區(qū)域的方向特征灰度比率和區(qū)域信息熵特征,作為預(yù)測(cè)目標(biāo)區(qū)域的依據(jù).
水平和垂直方向特征是行人的典型特征,尤其在遠(yuǎn)距離拍攝的情況下,其步態(tài)對(duì)水平和垂直方向特征的干擾可以忽略不計(jì).因而,提取圖像的水平和垂直方向特征圖,綜合比較特征圖中各子區(qū)域的灰度比率值,可以將天空、地面、車輛等具有典型水平方向特征的物體與行人初步分辨.Gabor濾波器模擬人眼視網(wǎng)膜細(xì)胞對(duì)方向信息的感知特性,在提取方向特征中得到了廣泛地應(yīng)用[10].本文采用Gabor濾波器提取水平和垂直方向特征圖后,根據(jù)式(1)計(jì)算各子區(qū)域的灰度比率特征值作為有效預(yù)測(cè)目標(biāo)區(qū)域的第1類特征.

其中,r(x)為x子區(qū)域在原圖方向特征圖中的灰度比率特征值;g(xij)為x子區(qū)域中(i,j)處的像素灰度值;g(OFMkl)為原圖方向特征圖中(k,l)處的像素灰度值.
由于場(chǎng)景中建筑物的出現(xiàn)頻率高且同樣具有典型的垂直和水平方向特征,因而根據(jù)單一的方向特征無法有效地預(yù)測(cè)目標(biāo)區(qū)域.通過對(duì)比發(fā)現(xiàn):當(dāng)區(qū)域中主要內(nèi)容為建筑物時(shí),其紋理豐富導(dǎo)致灰度分布比較均勻,信息熵較大;反之當(dāng)區(qū)域中主要內(nèi)容為行人時(shí),其灰度的分布比較集中,且信息熵較小.因此,本文選擇區(qū)域信息熵作為有效預(yù)測(cè)目標(biāo)區(qū)域的第2類特征.信息熵的計(jì)算式為

其中,pi為子區(qū)域256維灰度直方圖中各個(gè)維度上的像素個(gè)數(shù)占該區(qū)域總像素個(gè)數(shù)的比率.
通過對(duì)街道戶外場(chǎng)景圖像提取相應(yīng)特征,并分析3個(gè)子區(qū)域的兩類特征屬性值的大小關(guān)系,如圖1所示,可建立表1中的預(yù)測(cè)規(guī)則集,表中|d|代表原圖任意兩個(gè)子區(qū)域的熵差.

圖1 3個(gè)水平子區(qū)域圖像及其對(duì)應(yīng)的3種特征屬性值

表1 目標(biāo)區(qū)域預(yù)測(cè)的規(guī)則集合
本文在預(yù)測(cè)過程中采用逐步剔除非目標(biāo)區(qū)域的方式,得到目標(biāo)區(qū)域.決策算法具體步驟如下:
1)區(qū)域劃分:將原圖劃分為3個(gè)大小近似相等的水平子區(qū)域.
2)特征提取與計(jì)算:①采用Gabor濾波器提取原圖的水平和垂直方向特征圖;②根據(jù)式(1)計(jì)算各子區(qū)域方向特征;③根據(jù)式(2)計(jì)算各子區(qū)域信息熵.
3)目標(biāo)區(qū)域預(yù)測(cè):①根據(jù)各子區(qū)域的特征屬性值以及其位置信息,并對(duì)照表1中的規(guī)則前件;若圖像某一區(qū)域的相應(yīng)特征能完全滿足第1條或第3條規(guī)則的前件,則排除該區(qū)域;若圖像某一區(qū)域的相應(yīng)特征能完全滿足第2條規(guī)則的前件,則排除該區(qū)域,并將其相鄰的上方區(qū)域作為目標(biāo)區(qū)域;若圖像某一區(qū)域的相應(yīng)特征能完全滿足表中第4條規(guī)則的前件,則保留該區(qū)域;若圖像中所有子區(qū)域的特征組合不能構(gòu)成表1中任何規(guī)則的規(guī)則前件,則將整幅圖像作為目標(biāo)區(qū)域;②當(dāng)預(yù)測(cè)結(jié)果為相鄰的兩個(gè)區(qū)域,則將其合并輸出,作為一個(gè)目標(biāo)區(qū)域.
根據(jù)上述區(qū)域預(yù)測(cè)的決策算法,對(duì)83幅待檢測(cè)圖片進(jìn)行測(cè)試發(fā)現(xiàn),本文算法預(yù)測(cè)準(zhǔn)確率平均為96%,相對(duì)隨機(jī)預(yù)測(cè),準(zhǔn)確率提高了63%.部分實(shí)驗(yàn)圖像的目標(biāo)區(qū)域預(yù)測(cè)結(jié)果如圖2所示.

圖2 原圖與行人所在區(qū)域的預(yù)測(cè)結(jié)果
經(jīng)典的Itti-Koch模型中對(duì)所有視覺特征通道采取一概而論的方式,因而將模型直接用于目標(biāo)檢測(cè)將有可能導(dǎo)致誤檢.本文通過優(yōu)選特征以及優(yōu)化特征顯著圖之間的組合權(quán)重,得到了更好的檢測(cè)效果.通過大量試驗(yàn),當(dāng)方向特征的融合權(quán)重設(shè)置為2,灰度和顏色特征的融合權(quán)重設(shè)置為1時(shí),對(duì)行人目標(biāo)的檢測(cè)效果最為可靠.此外,考慮到通常情況下,行人目標(biāo)并不具有對(duì)角線方向的特征,而提取該特征反而會(huì)給目標(biāo)檢測(cè)帶來不利的競(jìng)爭(zhēng),因此,在改進(jìn)的Itti-Koch模型中,方向特征只考慮水平和垂直兩個(gè)方向.改進(jìn)后的Itti-Koch計(jì)算模型如圖3所示.

圖3 改進(jìn)的Itti-Koch視覺注意計(jì)算模型
對(duì)目標(biāo)區(qū)域進(jìn)行預(yù)測(cè)并結(jié)合具有主動(dòng)搜索行為的視覺注意模型,是本文實(shí)現(xiàn)復(fù)雜場(chǎng)景快速目標(biāo)檢測(cè)與精確定位的核心思想,檢測(cè)流程如圖4所示.

圖4 基于區(qū)域預(yù)測(cè)和視覺注意模型的目標(biāo)檢測(cè)流程
快速目標(biāo)檢測(cè)與定位的具體算法步驟如下:
1)目標(biāo)區(qū)域預(yù)測(cè):根據(jù)目標(biāo)區(qū)域預(yù)測(cè)的決策算法實(shí)現(xiàn)目標(biāo)區(qū)域預(yù)測(cè).
2)基于改進(jìn)Itti-Koch模型的視覺注意計(jì)算:①優(yōu)化模型參數(shù);②將預(yù)測(cè)的目標(biāo)區(qū)域作為視覺注意計(jì)算模型的輸入,計(jì)算模型預(yù)測(cè)結(jié)果.
3)目標(biāo)精確定位:人工輔助判斷模型計(jì)算結(jié)果是否為目標(biāo)區(qū)域.若是,即輸出帶有目標(biāo)位置標(biāo)記的原始圖像;若否,即開始新一輪的特征顯著圖之間的競(jìng)爭(zhēng)得到新的計(jì)算結(jié)果,并給出新的判斷,直到找到目標(biāo)位置.
本文實(shí)驗(yàn)分別在圖像數(shù)據(jù)庫和實(shí)拍圖像中進(jìn)行.圖像數(shù)據(jù)庫來源于Li Jia的自然圖像數(shù)據(jù)庫[11]和 MIT LabelMe 圖像數(shù)據(jù)庫[12].在上述兩個(gè)圖像庫中包含有行人目標(biāo)的街道戶外場(chǎng)景圖像,共選出52幅.此外,實(shí)拍圖片31幅.為了充分說明區(qū)域預(yù)測(cè)和改進(jìn)視覺注意模型結(jié)合的有效性,將本文算法與經(jīng)典的Itti-Koch模型相比較,部分實(shí)驗(yàn)結(jié)果如圖5.從圖中可看出,本文算法只需很少的視點(diǎn)轉(zhuǎn)移,即可精確捕獲目標(biāo).
對(duì)83幅圖像進(jìn)行目標(biāo)檢測(cè),其算法性能分析統(tǒng)計(jì)結(jié)果如表2.

表2 算法性能分析統(tǒng)計(jì)結(jié)果對(duì)比
結(jié)果表明:相比單純的Itti-Koch模型視覺注意計(jì)算,本文的快速目標(biāo)檢測(cè)方法縮短了30%的檢測(cè)時(shí)間,并提高了9%的檢測(cè)準(zhǔn)確率.

圖5 Itti-koch模型與本文方法在圖像庫圖像與實(shí)拍圖像中的目標(biāo)檢測(cè)結(jié)果
本文提出的結(jié)合區(qū)域預(yù)測(cè)與視覺注意計(jì)算的目標(biāo)檢測(cè)方法在能快速檢測(cè)到目標(biāo)的同時(shí),還能保證檢測(cè)結(jié)果具有較高的準(zhǔn)確率.實(shí)現(xiàn)區(qū)域預(yù)測(cè)的4條規(guī)則主要源于對(duì)日常拍攝的自然圖像的總結(jié).在這一類圖像中,行人在圖像中的尺寸一般不超過圖像高度的1/3.由于文中實(shí)驗(yàn)圖像都是自然圖像,且通過日常非特寫的拍攝方式獲取,因此可將其推廣用于安防視頻監(jiān)控以及災(zāi)難救援中的行人檢測(cè),也可用于相機(jī)拍攝中的人物鎖定等.
本文方法以戶外場(chǎng)景中的行人目標(biāo)作為實(shí)驗(yàn)驗(yàn)證平臺(tái),在將其應(yīng)用于不同檢測(cè)目標(biāo)時(shí),只需構(gòu)建相應(yīng)的區(qū)域預(yù)測(cè)決策規(guī)則,優(yōu)化視覺注意模型參數(shù),則基于區(qū)域預(yù)測(cè)和視覺注意模型相結(jié)合的快速目標(biāo)檢測(cè)模式依然適用.
References)
[1]鄭南寧.認(rèn)知過程的信息處理和新型人工智能系統(tǒng)[J].中國(guó)基礎(chǔ)科學(xué),2000(8):11-20 Zheng Nanning.Information processing for cognition process and new artificial intelligent systems[J].China Basic Science,2000(8):11-20(in Chinese)
[2]王璐,蔡自興.未知環(huán)境中基于視覺顯著性的自然路標(biāo)檢測(cè)[J].模式識(shí)別與人工智能,2006,19(1):100 -105 Wang Lu,Cai Zixing.Visual saliency based natural landmarks detection under unknown environments[J].Pattern Recognition and Artificial Intelligence,2006,19(1):100 -105(in Chinese)
[3]Mutch J,Lowe D G.Object class recognition and localization using sparse features with limited receptive fields[J].International Journal of Computer Vision,2008,80(1):45 -57
[4]李志成,秦世引,Itti L.遙感圖像的顯著-概要特征提取與目標(biāo)檢測(cè)[J].北京航空航天大學(xué)學(xué)報(bào),2010,36(6):659 -662 Li Zhicheng,Qin Shiyin,Itti L.Extraction of saliency-gist features and target detection for remote sensing images[J].Journal of Beijing University of Aeronautics and Astronautics,2010,36(6):659-662(in Chinese)
[5]Yantis S.Stimulus-driven attentional capture and attentional control settings[J].Journal of Experimental Psychology:Human Perception and Performance,1993,19(3):676 -681
[6]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254 -1259
[7]張菁,沈蘭蓀,高靜靜.基于視覺注意模型和進(jìn)化規(guī)劃的感興趣區(qū)檢測(cè)方法[J].電子與信息學(xué)報(bào),2009,31(7):1646-1652 Zhang Jing,Shen Lansun,Gao Jingjing.Region of interest detection based on visual attention model and evolutionary programming[J].Journal of Electronics & Information Technology,2009,31(7):1646 -1652(in Chinese)
[8]Pollmann S,Manginelli A A.Repeated contextual search cues lead to reduced bold-onset times in early visual and left inferior frontal cortex[J].Open Neuroimag J,2010(4):9 - 15
[9]Oliva A,Torralba A,Castelhano M S,et al.Top-down control of visual attention in object detection[C]//SuviSofi Oy Ltd.Proceedings of the IEEE International Conference on Image Processing.Barcelona,Spain:IEEE Signal Processing Society,2003:253-256
[10]Durrie D,Mcminn P S.Computer-based primary visual cortex training for treatment of low myopia and early presbyopia[J].Trans Am Ophthalmol Soc,2007,105:132 -140
[11]Li Jia.Photography image database[EB/OL].University Park:The Pennsylvania State University,2001[2010-06-17].http://www.stat.psu.edu/~ jiali/index.download.html
[12]Torralba A.LabelMe image database[EB/OL].Cambridge,MA:Computer Science and Artificial Intelligence Laboratory,Massachusetts Institute of Technology,2006 [2010-06-17].http://people.csail.mit.edu/torralba/GlobalFeaturesAndAttention/
北京航空航天大學(xué)學(xué)報(bào)2011年10期