宗海燕,吳 秦+,王田辰,張 淮
1.江南大學(xué) 江蘇省模式識別與計算智能工程實驗室,江蘇 無錫 214122
2.物聯(lián)網(wǎng)技術(shù)應(yīng)用教育部工程研究中心,江蘇 無錫 214122
場景分類是計算機(jī)視覺的一個重要研究方向,在很多領(lǐng)域如圖像檢索[1]、視頻檢索[2]、安全監(jiān)控系統(tǒng)[3]、移動機(jī)器人視覺導(dǎo)航[4]等都得到了廣泛的應(yīng)用。圖像的場景分類問題實際上是利用計算機(jī)模擬人類的視覺感知原理,對包含若干語義信息的場景圖像實現(xiàn)自動標(biāo)注。雖然在特征提取方面已經(jīng)取得了很多的成果,但是由于空間位置、光照、尺度等變化因素的影響,場景分類還是存在很大的挑戰(zhàn)性。
早期的場景圖像分類方法大多是利用圖像全局的低層特征[5-7],包括圖像的紋理、顏色和形狀等,雖然執(zhí)行簡單,計算成本低,但是分類的性能有限。Lowe于1999年提出了尺度不變特征變換算法(scaleinvariant feature transform,SIFT)[8],在空間尺度中通過建立高斯差分金字塔提取關(guān)鍵點,對尺度、旋轉(zhuǎn)和亮度具備一定的魯棒性,但是SIFT特征向量維數(shù)過高,計算量較大。后來2005年Li等人首次提出用視覺詞袋模型(bag of visual word,BOVW)[9]表示圖像的方法。將提取的特征表述成多個視覺詞匯的組合,構(gòu)成字典,通過分析計算樣本中視覺詞匯出現(xiàn)的頻率來對樣本進(jìn)行分類。模型主要分為三部分:特征的提取、視覺詞匯的形成和場景模型的建立。BOVW模型比較簡易,能夠有效降低樣本的特征維數(shù),但是該模型沒有考慮特征點的空間位置信息。針對這一缺點,Lazebnik等人于2006年提出了空間金字塔匹配模型(spatial pyramid matching,SPM)[10],對樣本空間進(jìn)行不同等級的劃分,充分考慮了特征的空間位置信息,很大程度地提升了BOVW模型的性能。后來,Wu等提出了CENTRIST[11](census transform histogram)特征,該特征能刻畫場景的全局結(jié)構(gòu)信息,易于實現(xiàn),無參數(shù),計算成本比較低,具有光照不變性。2012年Gazolli和Salles改進(jìn)提出的CMCT(contextual mean census transform)[12]特征,融合了結(jié)構(gòu)信息以及上下文信息。2014年Gazolli和Salles再次改進(jìn)提出了CTDN(census transform of distant neighbors)[13]特征,考慮增加遠(yuǎn)距離點的信息,但是對樣本的旋轉(zhuǎn)以及拍照角度等問題不具備一定的魯棒性。于是本文提出多尺度遠(yuǎn)距離點差值統(tǒng)計變換特征(multiscale census transform of difference of distant neighbors,MCTDDN),充分考慮了像素之間的對比度信息,并且利用二維Gabor濾波解決了樣本的旋轉(zhuǎn)以及拍攝角度等問題。
由于場景具有復(fù)雜性和多樣性,受到光照、拍攝角度等多方面影響,基于空間金字塔的詞袋模型提供的分類信息仍然具有局限性,僅僅利用單一的詞袋模型特征對場景進(jìn)行分類達(dá)不到很好的分類效果。對于場景圖像,相鄰像素以及圖像塊之間存在著一定的空間對比度信息,基于這一發(fā)現(xiàn),本文提出MCTDDN,并將該特征與BOVW模型特征進(jìn)行相互融合,全局的結(jié)構(gòu)信息和局部的關(guān)鍵點信息相結(jié)合,實現(xiàn)兩者特征的互補(bǔ)。文獻(xiàn)[14]的特征融合是將BOVW模型特征與局部二值模式(local binary patterns,LBP)或者LBP相關(guān)改進(jìn)特征進(jìn)行融合,但是LBP在圖像比較模糊或者光照變化強(qiáng)烈條件下,不能有效刻畫出紋理特征,而本文改進(jìn)的算法對光照具有一定的魯棒性。另外,以往的一些算法只是簡單的兩種特征的并集或者串集,或者是以某種系數(shù)的串集,得到的特征維數(shù)增加,會將占用很大的內(nèi)存空間。不同于以往算法,本文采用的融合算法先分別利用兩種特征進(jìn)行分類,最后將兩者分類結(jié)果進(jìn)行融合,利用兩者的互補(bǔ)關(guān)系,在場景分類中取得了較好的分類效果。

Fig.1 Framework of bag of word algorithm based on spatial pyramid圖1 基于空間金字塔的詞袋模型算法框架
隨著計算機(jī)性能的大幅提升,機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)的快速發(fā)展,特征融合的優(yōu)勢越來越明顯。將來源不同的信息整合到一起,去冗余;得到的融合信息將利于之后的分析處理。融合模型有多種方式,例如多核學(xué)習(xí)[15-16]、多視圖學(xué)習(xí)[17]等,融合沒有唯一正確的方法。融合的目標(biāo)就是盡量保持“準(zhǔn)確性”和“多樣性”間的平衡。多核學(xué)習(xí)雖然在解決一些異構(gòu)數(shù)據(jù)集問題上表現(xiàn)出了非常優(yōu)秀的性能,但由于需要計算各個核矩陣對應(yīng)的核組合系數(shù),需要多個核矩陣共同參加運算,會占用很大的內(nèi)存空間。高耗的時間和空間復(fù)雜度是導(dǎo)致多核學(xué)習(xí)算法不能廣泛應(yīng)用的一個重要原因。多視圖學(xué)習(xí)是把數(shù)據(jù)表示成多個特征集,在每個特征集上用不同的學(xué)習(xí)方法進(jìn)行學(xué)習(xí)。如果只是簡單地將不同特征組合,得到的特征將失去原來的意義,增加了維數(shù)給學(xué)習(xí)帶來困難。本文就是將兩種特征分別在不同的核協(xié)同表示模型上進(jìn)行學(xué)習(xí),通過計算兩者結(jié)果的殘差獲得最后的分類結(jié)果,充分發(fā)揮了各個特征的優(yōu)勢。
給定一個樣本集,首先提取每張圖像的SIFT特征,將獲得的離散特征點通過聚類生成視覺詞匯表;同時對圖像空間按金字塔水平進(jìn)行多層次的網(wǎng)格劃分,將第l層(l=0,1,…,L,L為總層數(shù))圖像沿水平和垂直方向分別劃分2l個單元,每一層圖像則被分為4l個相等同大小的子區(qū)域,分別統(tǒng)計每個子區(qū)域中視覺單詞出現(xiàn)的次數(shù),得到不同子區(qū)域的視覺單詞頻次直方圖,將一層中所有子區(qū)域的視覺單詞頻次直方圖按順序排列,通過式(1)得到該層的直方圖向量[10]:

給定兩幅圖像X、Y,它們在第l層的匹配度可通過式(2)直方圖交叉核計算:

根據(jù)金字塔匹配原理,第l層匹配包含了第l+1層所有的匹配,因此可以用Il-Il+1來表示第l層新增加的匹配,層次越高,圖像劃分更稠密,匹配度更高,因此將每一層次的權(quán)重設(shè)置為1/2L-l,綜合所有層次,得到金字塔匹配核如式(3):

基于空間金字塔的詞袋模型引入了特征點的空間位置信息,在實際應(yīng)用中取得了不錯的成果,圖1描述了該模型的基本框架。



Fig.2 Pixel distribution atK=4圖2 K=4時的像素分布圖
將得到的CTDN二進(jìn)制值轉(zhuǎn)化為十進(jìn)制,最后將得到的所有點的特征值統(tǒng)計成直方圖。
Gabor濾波器[20]是一個常用于邊緣檢測的線性濾波器。Gabor濾波器的頻率和方向表示接近人類視覺系統(tǒng)對于頻率和方向的表示,Gabor濾波常用于紋理表示和描述。二維Gabor濾波器具有在空間域和頻率域同時取得最優(yōu)局部化的特性,與人類生物視覺特性很相似,因此能夠很好地描述對應(yīng)于空間頻率(尺度)、空間位置及方向選擇性的局部結(jié)構(gòu)信息。Gabor濾波器可以在頻域的不同尺度、不同方向上提取相關(guān)特征,其定義如式(6)所示:

其中:


其中,μ為濾波方向;ν為濾波尺度;z為圖像坐標(biāo);σ為高斯函數(shù)半徑;κμ,ν為濾波器的中心頻率;κmax為最大頻率;f為空間因子。本文設(shè)置二維濾波器為5個尺度ν={0,1,…,4},8個方向μ={0,1,…,7},最終得到40個不同的Gabor濾波函數(shù),將其與圖像進(jìn)行卷積操作。
本文提出的多尺度遠(yuǎn)距離點差值統(tǒng)計變換特征算法的總體框架圖如圖3所示。給定一張測試圖片,分別在像素圖和濾波圖上提取改進(jìn)的遠(yuǎn)距離點差值統(tǒng)計變換特征,兩者信息補(bǔ)充結(jié)合作為最后的多尺度統(tǒng)計變換特征(MCTDDN)。

Fig.3 Overall framework of MCTDDN圖3 MCTDDN總體框架圖
CTDN算法提取了遠(yuǎn)距離的鄰點信息,但是并沒有考慮遠(yuǎn)距離點與滑動窗口的對比度信息,對于背景類似的結(jié)構(gòu)塊不能獲得區(qū)分性較高的特征,于是本文提出遠(yuǎn)距離點差值統(tǒng)計變換(census transform of difference of distant neighbors,CTDDN)特征,通過像素之間差值的計算提取滑動的窗口與對應(yīng)遠(yuǎn)距離像素點的對比度信息,進(jìn)而獲得圖像樣本的上下文信息,該遠(yuǎn)距離點滿足所在的窗口區(qū)域與滑動窗口無交集且距離最近的要求,如圖4所示,通過增加對比度信息來增強(qiáng)圖像特征的表達(dá)力,凸顯出各個塊的差異,使得結(jié)構(gòu)類似的樣本更加具有區(qū)分力。

Fig.4 CTDDN feature extraction process圖4 CTDDN特征提取過程
假設(shè)給定一個中心點的像素值為I(x,y)的3×3滑動窗口,為了降低算法的復(fù)雜性,本文僅選取距離中心點k=4像素遠(yuǎn)的像素點Np作為遠(yuǎn)距離鄰點,p=0,1,…,7,像素值分別表示為I(x-4,y-4),I(x-4,y),I(x-4,y+4),I(x,y-4),I(x,y+4),I(x+4,y-4),I(x+4,y),I(x+4,y+4)。將Np分別與滑動窗口邊緣點Ip做差值運算,Ip的像素值分別表示為I(x-1,y-1),I(x-1,y),I(x-1,y+1),I(x,y+1),I(x+1,y-1),I(x+1,y),I(x,y-1),I(x+1,y+1),可以通過式(9)得到8個差值的均值(x,y):

該滑動窗口中心點的CTDDN值可以通過式(10)計算得來:

其中,(x,y)為中心像素點的位置坐標(biāo),Mp為遠(yuǎn)距離點與最近的滑動窗口邊緣點的差值,將得到的CTDDN二進(jìn)制值轉(zhuǎn)換為范圍在[0,255]的十進(jìn)制數(shù),最后將整個樣本的特征值統(tǒng)計成直方圖。
考慮到塊與塊之間的獨立性,給定一個n×n的滑動窗口,設(shè)置距離值k=(3n-1)/2來選取遠(yuǎn)距離點,以避免塊與塊之間信息的重合。如圖5所示,當(dāng)k=1,2,3時,選取的遠(yuǎn)距離點所處的窗口都與原窗口有信息交匯;當(dāng)k=4時,設(shè)置的遠(yuǎn)距離的鄰點與中心點距離最近且與原窗口相互獨立,既能在更大的區(qū)域提取特征,又能避免信息的冗余。

Fig.5 Information intersections with different distance values圖5 不同距離值的信息交叉圖

本文融合算法的整體流程如下:
(1)將訓(xùn)練樣本和測試樣本的兩種特征通過高斯核映射到高維空間;(2)將訓(xùn)練樣本高維空間特征作為字典;(3)提取測試樣本的特征,根據(jù)對應(yīng)字典的重構(gòu)誤差,得到誤差最小時的整體重構(gòu)系數(shù);(4)將整體重構(gòu)系數(shù)以及字典分別表示成每個場景種類的子重構(gòu)系數(shù)和子字典;(5)根據(jù)子重構(gòu)系數(shù)和子字典計算測試樣本兩種特征對于每個類別的重構(gòu)殘差;(6)設(shè)置權(quán)重參數(shù)組合兩種特征的重構(gòu)殘差,通過殘差的最小值來判斷測試樣本的標(biāo)簽。
具體運算步驟如下所示:



得到核空間的協(xié)同系數(shù)后,每個種類的重構(gòu)殘差如式(14):


將最優(yōu)正則化參數(shù)λ1、λ2帶入式(14),最后設(shè)置一個權(quán)重參數(shù)μ通過式(16)計算融合后重構(gòu)殘差的最小值來判斷測試圖像的標(biāo)簽:

本文的特征是BOVW模型特征和MCTDDN特征的融合,根據(jù)兩者融合之后重構(gòu)殘差的最小值來判斷給定測試圖像的標(biāo)簽。樣本的全局結(jié)構(gòu)信息和局部關(guān)鍵點信息分別在不同的協(xié)同表示模型上進(jìn)行學(xué)習(xí),將兩者最優(yōu)分類狀態(tài)的參數(shù)傳遞到混合模型中,通過重新計算兩者融合之后的重構(gòu)殘差最后判斷測試圖像的標(biāo)簽,充分發(fā)揮了各個特征的優(yōu)勢,兩者互補(bǔ),與以往方法簡單的并集或者串集特征融合方式相比,本文方法一定程度上降低了內(nèi)存空間的使用。
為了驗證本文提出算法的有效性,對兩個標(biāo)準(zhǔn)測試數(shù)據(jù)集的數(shù)據(jù)進(jìn)行測試。
第一個OT數(shù)據(jù)集[21]由Oliva和Torralba建立,包含8類:海岸(360幅)、森林(328幅)、高速公路(260幅)、市區(qū)住宅(308幅)、高山(274幅)、野外(410幅)、街道(292幅)、高層建筑(356幅)共2 688張圖像,每張圖像的大小為256×256像素。圖6給出了每類場景的圖像示例。

Fig.6 Samples of OT dataset圖6 OT數(shù)據(jù)集的圖像示例
第二個為LS數(shù)據(jù)集[22],包含15類:臥室(216幅)、郊區(qū)住宅(241幅)、廚房(210幅)、客廳(289幅)、海岸(360幅)、森林(328幅)、高速公路(260幅)、市區(qū)住宅(308幅)、高山(274幅)、野外(410幅)、街道(292幅)、高層建筑(356幅)、辦公室(215幅)、工廠(311幅)、店鋪(315幅)共4 485張圖像,每張圖像平均大小為300×250像素。在OT數(shù)據(jù)集的基礎(chǔ)上增加了7類場景,主要為室內(nèi)場景,室內(nèi)與室外的結(jié)合增加了數(shù)據(jù)集的多樣性,更能驗證算法的有效性。圖7為增加的7類場景圖像示例。

Fig.7 Samples added in LS dataset圖7 LS數(shù)據(jù)集增加的圖像示例
本文實驗選取OT數(shù)據(jù)庫中每個種類的250張圖片,每類使用200張用于訓(xùn)練,50張用于測試,進(jìn)行5次交叉驗證。OT數(shù)據(jù)集的每張圖像都是同等像素大小,不需要做前期預(yù)處理操作,對于BOVW模型的特征提取,設(shè)置碼本尺寸為1 024,空間金字塔為3個層次;對于本文提出的多尺度統(tǒng)計變換特征,設(shè)置5個尺度,8個方向的濾波器,然后分別在濾波返回值和原始像素圖像上分別進(jìn)行CTDDN特征的提取。對于分類器的設(shè)計,BOVW模型特征和多尺度統(tǒng)計變換特征都是用高斯核進(jìn)行特征映射,通過實驗驗證,兩者的高斯核參數(shù)σ分別設(shè)置為1.0和0.8,兩者協(xié)同表示的正則化參數(shù)分別設(shè)置為10-5和10-3時得到較優(yōu)的準(zhǔn)確率。
表1為本文算法實驗結(jié)果的混淆矩陣,矩陣第i行第j列的值代表第i類場景被分為第j類場景的比例,整體識別率達(dá)到90.8%,高樓的識別率最高達(dá)到98%,野外的識別率相對較低,野外和海岸的分界線有些模糊,可能是背景輪廓和顏色相似所致。圖8給出了野外和海岸的圖像示例,左側(cè)的野外圖形在本實驗中被識別為海岸。

Table1 Confusion matrix of precision on OT dataset表1 OT數(shù)據(jù)集的準(zhǔn)確率混淆矩陣 %
本文是BOVW模型特征和MCTDDN特征的融合,表1的實驗結(jié)果是當(dāng)融合權(quán)重值μ為0.8時,獲得的最高的準(zhǔn)確率,對于不同μ取值的準(zhǔn)確率對比如圖9所示。當(dāng)μ=0時代表的是MCTDDN特征的識別率,當(dāng)μ=1時代表的是BOVW模型的識別率,兩者結(jié)合互補(bǔ)時,當(dāng)BOVW模型特征比重大于MCTDDN特征時,取得較好的分類效果。

Fig.8 Examples of scenes identified as coasts in wild圖8 野外被識別為海岸的場景示例

Fig.9 Results comparison of differentμon OT dataset圖9 OT數(shù)據(jù)集中不同μ值的實驗對比
在相同的實驗環(huán)境下,對比七種算法結(jié)果,如表2所示。從實驗結(jié)果可知,BOVW模型優(yōu)于本文提出的多尺度統(tǒng)計變換特征MCTDDN,但MCTDDN優(yōu)于MS-CLBP(multiscale completed local binary pat-terns),本文將BOVW模型特征與MCTDDN特征融合后正確率相比其他三種融合算法都有所提高,可見本文提出的算法在提高OT數(shù)據(jù)集場景識別率有一定的實用價值與有效性。

Table2 Precision comparison of different algorithms on OT dataset表2 OT數(shù)據(jù)集上不同算法準(zhǔn)確率對比 %
遠(yuǎn)距離點差值統(tǒng)計變換特征的提取需設(shè)置滑動窗口,本文設(shè)置了3×3、5×5、7×7三種尺寸,表3為不同尺寸的滑動窗口下改進(jìn)的MCTDDN特征以及融合特征的實驗結(jié)果。結(jié)果表明,對于OT數(shù)據(jù)集,5×5的滑動窗口下取得最優(yōu)的整體分類效果;3×3的滑動窗口過小,像素間距離過近,差異性不大,導(dǎo)致提取的特征不具備有力的區(qū)分性;7×7的滑動窗口過大,具有差異性的像素位于窗口內(nèi)部,同樣導(dǎo)致提取的特征沒有足夠的區(qū)分性。

Table3 Precision comparison of different sizes of sliding window on OT dataset表3 OT數(shù)據(jù)集上不同滑動窗口準(zhǔn)確率對比 %
實驗選取數(shù)據(jù)庫中每個種類的200張圖片,每類使用150張用于訓(xùn)練,50張用于測試,進(jìn)行4次交叉驗證,LS數(shù)據(jù)集的每個碼本尺寸為1 024,空間金字塔為3個層次;對于多尺度統(tǒng)計變換特征,設(shè)置5個尺度,8個方向的濾波器,然后分別在濾波返回值和原始像素圖像上分別進(jìn)行CTDDN特征的提取。對于分類器的設(shè)計,BOVW模型特征和多尺度統(tǒng)計變換特征用高斯核進(jìn)行特征映射,通過大量實驗驗證,當(dāng)兩者的高斯核參數(shù)σ分別設(shè)置為1.0和0.7,兩者協(xié)同表示的正則化參數(shù)分別設(shè)置為10-5和10-2時,數(shù)據(jù)集取得最優(yōu)的分類效果。
表4為本文算法的實驗結(jié)果,整體識別率為85.3%。郊區(qū)的識別率最高為99.5%,臥室的識別率只有69.0%,很多的臥室場景被識別為客廳,主要是客廳和臥室很多背景物體相同,以及床的拍攝不完整,導(dǎo)致其輪廓與沙發(fā)類似。圖10給出了臥室和客廳的圖像示例,左側(cè)的臥室圖像在本實驗中被識別為客廳。
在LS數(shù)據(jù)集中,對于BOVW模型特征和MCTDDN融合,表4的實驗結(jié)果是當(dāng)權(quán)重值μ為0.84時獲得最高的識別率,當(dāng)μ取0時為單一的MCTDDN特征的準(zhǔn)確率,當(dāng)μ取1時為單一的BOVW模型特征的準(zhǔn)確率。對于不同μ取值的實驗結(jié)果走勢如圖11所示。

Table4 Confusion matrix of precision on LS dataset表4 LS數(shù)據(jù)集的準(zhǔn)確率混淆矩陣 %

Fig.10 Examples of scenes identified as living room in the bedroom圖10 臥室被識別為客廳的場景示例

Fig.11 Results comparison of differentμon LS dataset圖11 LS數(shù)據(jù)集中μ不同值的實驗對比
在相同的實驗環(huán)境下,在LS數(shù)據(jù)集中對比七種算法結(jié)果,如表5所示,從實驗結(jié)果可知,本文提出的多尺度統(tǒng)計變換特征MCTDDN優(yōu)于MS-CLBP,平均準(zhǔn)確率提高了4.5%,本文BOVW模型特征與MCTDDN特征的融合特征的正確率相比其他三種融合算法都有所提高,平均準(zhǔn)確率提高了1%至4%,可見本文提出的算法在提高LS數(shù)據(jù)集場景識別率有一定的實用價值。
對于LS數(shù)據(jù)集,本文遠(yuǎn)距離點差值統(tǒng)計變換特征的提取同樣設(shè)置了3×3、5×5、7×7三種滑動窗口的尺寸,表6為不同尺寸的滑動窗口下場景分類實驗結(jié)果對比。結(jié)果表明,本文單一的MCTDDN特征以及融合特征都在3×3的滑動窗口下取得最優(yōu)的場景分類效果。5×5和7×7的滑動窗口對于LS數(shù)據(jù)集的樣本過大,窗口內(nèi)部包含了具有差異性大的像素,導(dǎo)致遠(yuǎn)距離點像素與窗口內(nèi)像素差值計算提取的特征沒有足夠的區(qū)分性。

Table5 Precision comparison of different algorithms on LS dataset表5 LS數(shù)據(jù)集上不同算法準(zhǔn)確率對比 %

Table6 Precision comparison of different sizes of sliding window on LS dataset表6 LS數(shù)據(jù)集上不同滑動窗口準(zhǔn)確率對比 %
為驗證融合特征優(yōu)于單個特征的分類結(jié)果,本文另外選擇了經(jīng)典的全局視覺特征GIST[23]和分層梯度方向直方圖(pyramid histogram of oriented gradients,PHOG)[24]特征。根據(jù)表7中單獨使用一種特征以及特征融合之后的實驗結(jié)果,以及原論文中的實驗結(jié)果表明特征融合的分類效果明顯優(yōu)于單個特征,利用兩種特征優(yōu)勢的互補(bǔ),能獲得更好的分類效果。

Table7 Precision comparison of two algorithms on two datasets表7 兩個數(shù)據(jù)集上兩種特征準(zhǔn)確率對比 %
針對單一特征無法給場景識別提供充足信息這一情況,以及基于空間金字塔的詞袋模型提供的空間分類信息具有局限性,會丟失部分細(xì)節(jié)信息,本文提出了一種多尺度遠(yuǎn)距離點差值統(tǒng)計變換特征,將其與BOVW模型特征通過核協(xié)同表示的方法進(jìn)行特征融合,添加了遠(yuǎn)距離像素點的對比度信息,充分考慮了全局特征和尺度信息。兩種特征的互補(bǔ),能得到更好的場景特征,從而獲得更高的場景圖像識別率。兩個經(jīng)典實驗數(shù)據(jù)集的實驗對比顯示:本文提出的兩種特征結(jié)合后的識別率明顯高于其他單一特征的識別率。
在接下來的研究工作中,將嘗試通過將高中低三個不同層次的特征結(jié)合來獲取更佳的場景特征,并探索在不降低準(zhǔn)確率的前提下降低算法空間復(fù)雜度和時間復(fù)雜度的方法。