潘智勇, 劉 揚, 劉國軍, 郭茂祖,2,3
(1 哈爾濱工業大學 計算機科學與技術學院, 哈爾濱 150001; 2 北京建筑大學 電氣與信息工程學院, 北京 100044;3 建筑大數據智能處理方法研究北京市重點實驗室(北京建筑大學), 北京 100044; 4 北華大學 計算機科學技術學院, 吉林 吉林 132013)
圖像分類和對象識別一直是計算機視覺研究的重要方向,其準確率直接受到圖像中對象特征表達的影響?,F階段圖像的特征表達主要基于圖像局部底層特征,如尺度不變特征變換(Scale-invariant feature transform,SIFT)[1]和方向梯度直方圖(Histogram of Oriented Gradient, HOG)[2]等。但局部特征與上層語義之間存在嚴重的“語義鴻溝”,直接影響局部底層特征對圖像中對象表達的準確性。近年來,中層特征[3-6]的提出,有效地解決了“語義鴻溝”的問題。對于圖像理解問題,主題模型[7-8]的主題以中層特征的形式表達圖像中不同尺度的對象組成部件[9]。現階段主流的主題模型隱狄利克雷分配(latent Dirichlet allocation,LDA)在圖像分類和場景分類等圖像理解問題上取得了很好的應用[10-12]。但LDA模型忽略了視覺詞匯之間的空間位置關系,一定程度上影響了模型在圖像分類的準確率?;贚DA模型,馬爾可夫主題隨機場(Markov topic random fields,MTRF)[9]在主題層利用馬爾可夫隨機場融合相鄰主題間的空間關系,提高了視覺詞匯的主題分配的準確性和圖像分類的準確率,尤其在圖像區域內主題分配的準確性方面,表現得更為明顯。同時,主題表達的對象組成部件之間也呈現出較好的結構關系。高效滑動子窗搜索(Efficient Subwindow Search,ESS)[13]算法是一種快速有效的區域搜索方法,可以發現區域內圖像特征的結構特征,從而準確地識別和表達對象。因此,本文以MTRF模型產生的主題作為圖像特征,以ESS算法搜索區域,并學習區域內主題特征構成的對象結構,檢測和識別對象位置,提高對象識別的準確率。
隱狄利克雷分配模型基于詞匯獨立性和主題獨立性假設的條件,忽略了視覺詞匯的空間關系。但視覺詞匯是局部特征,沒有空間位置的關系,視覺詞匯無法形成有意義的對象表達。圖像的視覺詞匯是主題以一定概率聚類產生的結果,主題表現為對象的組成部件,因此,相鄰視覺詞匯由同一主題產生的概率較高。依據這一特點,馬爾可夫主題隨機場(Markov topic random fields,MTRF)[9]模型利用Potts模型,在主題層建立起相鄰主題間的關系,從而表現出相鄰視覺詞匯的位置關系。因此,主題的產生過程中,不僅受到多項式分布的影響,還融合了相鄰主題的關系。
MTRF的概率圖模型如圖1所示。對于由M幅圖像組成的圖像集,每幅圖像分別包含N個視覺詞匯的圖像集,其視覺詞匯由K個主題產生,Z={z1,z2,…,zk}。與LDA模型相似,參數α和β為模型的狄利克雷超參,避免過擬合。φ表示主題中視覺詞匯的概率分布,θ表示圖像中主題的概率分布。主題zi表示產生視覺詞匯wi的主題。zi與zj之間的邊代表相鄰主題之間的關系。

圖1 MTRF概率圖模型
MTRF在主題采樣分配過程中,有效地融合了相鄰主題的影響,因此,其主題采樣公式為:
p(Z|θ,α,λ)∝λf(zi,zj)+(1-λ)p(Z|θ)p(θ|α)
(1)
其中,f(zi,zj)表達相鄰主題之間的關系,數學表述公式如下:
f(zi,zj)=exp(∑iσI(zi,zj))
(2)
指示函數I體現主題間關系。I=1,相鄰主題相同;I=0,相鄰主題不同。推導可得數學公式如下:
(3)
并且,σ為馬爾可夫隨機場參數。參數λ表明產生主題的形式,具體表現為:當λ=1時,p(Z|θ,α,λ)∝f(zi,zj),相鄰主題間存在關系,當前主題的產生受相鄰主題的影響,由馬爾可夫隨機場產生;當λ=0時,p(Z|θ,α,λ)∝p(Z|θ)p(θ|α),主題間獨立,當前主題的產生主要受多項式分布影響。由此,一幅圖像的產生主要過程為:
(1)主題分布θ服從參數為α的狄利克雷分布,θ~Dir(α)。
(2)視覺詞匯在每個主題中的分布φ,φ~Dir(β)。
(3)具有N個視覺詞匯的圖像,其視覺詞匯wn的產生步驟可分述如下。
① 檢測主題的產生方式,以概率p(Z|θ,α,λ)抽取主題zn。
② 每一個視覺詞匯wn以概率p(wn|φzn)產生。
MTRF需要利用變分推理或采樣算法對后驗概率p(Z|W)求得近似估計。吉布斯采樣算法是一種簡單有效的采樣算法,其采樣過程是保持當前待采樣主題不變時,基于其它主題對當前主題分配進行采樣。研究中將會用到的公式如下:
(4)
其中,
p(Z,W|α,β,σ,λ)=p(Z|α,σ,λ)p(W|Z,β)∝(λf(zi,zj)+(1-λ)p(Z|θ)p(θ|α))×p(W|Z,β)
(5)
p(Z,W|α,β,σ,λ)=p(Z|α,σ,λ)p(W|Z,β)∝(λf(z,zj)+(1-λ)p(Z|θ)p(θ|α))×p(W|Z,β)
(6)
結合公式(5)和公式(6),可得:
p(zi|Z,W)∝(λexp (∑E(i, j)σI(zi,zj))+
(7)
其中,Z為圖像中除當前主題外,其它所有主題的分配;為圖像m中除當前視覺詞匯wi之外,由主題k產生的視覺詞匯數;為圖像m中視覺詞匯的總數;為圖像集中,除當前詞匯wi之外由主題k產生的視覺詞匯wi的總數;為圖像中由主題k產生的視覺詞匯總數;E(i,j)為主題zi與其相鄰主題zj之間的關系。
經過一定次數的迭代,得到后驗概率p(Z|W)的穩態分布,并且每個視覺詞匯分配一個主題。以視覺詞匯上分配的主題表達圖像,可以形成有效的中層特征,表達對象的組成部件及部件間的關系。
為實現對象檢測識別,人們常利用滑動窗的方法,以一定尺寸的滑動窗口在圖像中提取區域特征,利用分類器算法對獲取的窗口進行評估,檢測出對象位于不同位置的概率。但考慮到圖像中對象一般位于少數區域,因此,基于滑動窗口的方法會由于候選區域過多而造成模型效率低,系統資源要求高等問題。為應對這些問題,高效滑動窗搜索(efficient subwindow search,ESS)[13]算法在不依賴對象的形狀的情況下,保證尋找到全局最大的區域。同時,ESS算法并不需要滑動搜索所有區域,因此算法運算速度很快。
ESS以高、低、左、右4個坐標參數化來表示區域邊界,利用分支限界的目標搜索方式,將參數空間分裂成不相交的子集,同時維持所有子集的最優邊界。


其中,條件(1)確保f的上邊界,條件(2)確保獲得最優值。
分析可知,ESS的運算速度和搜索區域的有效性,使其在對象識別任務中得到了廣泛的應用。
本部分實驗主要探究MTRF與ESS等結構化算法結合實現對象識別的可行性和對于LDA和BOW算法的優勢,但并未討論如何學習最優參數,因此重點對比了相同參數條件下,MTRF與LDA和詞袋(Bag of Words, BOW)模型對象識別的準確率,實驗主要基于2個數據集:Caltech101[14]和VOC2007[15]數據集。實驗過程中,研究提取SIFT特征并學習獲得含有1 000視覺詞匯的詞典表達圖像,分別以MTRF和LDA的主題和BOW算法的詞頻作為圖像特征表達ESS算法提取的圖像區域,對比識別準確率。交并比(intersection over union,IOU)是評價對象檢測準確性常用的標準,一般情況下,IOU大于50%,可判定為模型正確識別了對象。
Caltech101數據集由102類對象組成,其中101類用于圖像分類和對象識別的對象類,此外則為背景類,總共9 144幅圖像。圖像中對象主要位于圖像的中心位置,并且同類對象在圖像中尺寸和姿態等特征相似。
實驗過程中,將分別從各類對象中隨機抽取30幅圖像組成訓練數據集,其余圖像組成測試數據集。在101類對象識別過程中,MTRF、LDA的主題數設置為50時,MTRF在78類對象的識別準確率高于LDA,81類對象的識別準確率高于BOW。而MTRF的識別準確率高于LDA和BOW的10類對象的對比結果則分別如圖2、圖3所示。從圖2、圖3中可以看出,MTRF高于LDA和BOW算法的類別中,優勢明顯。以所有類別的平均識別準確率(average accuracy)為評價指標。研究指出,MTRF和LDA的平均識別準確率即為84.15%和 81.98%, BOW的平均識別準確率為81.51%。由于MTRF算法在主題采樣分配過程中融合了相鄰主題的關系,使主題分配、尤其局部區域內的主題分配更趨準確,因此,其識別準確率要明顯高于其它2種算法。

圖2 MTRF高于LDA的10類對象的對比結果

圖3 MTRF高于BOW的10類對象的對比結果
VOC2007數據集主要由20類對象,共9 963幅圖像組成,其中,5 011幅圖像組成訓練驗證集,用于訓練模型參數;4 952幅圖像組成測試集,用于測試和評價模型。與Caltech101數據集不同,VOC2007的圖像包含多類對象,背景比較復雜,并且對象在圖像中的尺度、位置和姿態都不相同。
實驗過程中,將以訓練驗證集數據訓練ESS檢測器,以測試集數據對比模型的識別準確率,并以所有類別對象的平均分類精度均值(mean Average Precision, mAP)作為模型的評價指標。研究得出MTRF、LDA和BOW各類對象識別的實驗對比結果可見表1。其中,以平均分類精度(Average Precision,AP)作為各類對象識別準確率的指標。由表1可以看出,在各類對象的識別過程中,MTRF由于融合了相鄰主題關系,主題分配更加準確,圖像表達也更為有效,因此,對象識別的準確率更高。在數據集20類對象中,MTRF在11類對象的識別準確率要高于其它算法,而其它類別也與最優的結果比較相近。圖4列舉出部分VOC2007數據集中,MTRF算法的對象識別結果。由圖4可以看出,MTRF與ESS算法的結合,識別范圍內的背景很少,對象識別更準確有效。

表1 VOC2007數據集上部分對象識別準確率對比

圖4 VOC2007數據集上部分對象識別結果
本文提出了一種基于馬爾可夫主題隨機場和高效搜索子窗口算法的對象識別方法。該方法利用馬爾可夫主題隨機場主題分配的準確性和高效搜索子窗口算法的特點,研究搜索并識別對象。馬爾可夫主題隨機場在主題采樣分配過程中融合了相鄰視覺詞匯的空間關系,在局部區域內主題分配和圖像表達趨于精準,主題表現為更具意義的對象組成部件,在相當程度上尤其利于表達對象的結構特征。高效滑動窗搜索算法通過學習區域內主題表達的對象結構特征,在對象檢測和識別的實現上高度突顯其優良性能。因此,對于對象識別問題,本文提出的方法,有效地提高了主題模型在對象識別問題上的準確率。