張 永,楊 浩
(蘭州理工大學 計算機與通信學院,蘭州 730050)
(*通信作者電子郵箱kdyh123@163.com)
基于優化視覺詞袋模型的圖像分類方法
張 永,楊 浩*
(蘭州理工大學 計算機與通信學院,蘭州 730050)
(*通信作者電子郵箱kdyh123@163.com)
針對視覺詞袋(BOV)模型中過大的視覺詞典會導致圖像分類時間代價過大的問題,提出一種加權最大相關最小相似(W-MR-MS)視覺詞典優化準則。首先,提取圖像的尺度不變特征轉換(SIFT)特征,并用K-Means算法對特征聚類生成原始視覺詞典;然后,分別計算視覺單詞與圖像類別間的相關性,以及各視覺單詞間的語義相似性,引入一個加權系數權衡兩者對圖像分類的重要程度;最后,基于權衡結果,刪除視覺詞典中與圖像類別相關性弱、與視覺單詞間語義相似性大的視覺單詞,從而達到優化視覺詞典的目的。實驗結果表明,在視覺詞典規模相同的情況下,所提方法的圖像分類精度比傳統基于K-Means算法的圖像分類精度提高了5.30%;當圖像分類精度相同的情況下,所提方法的時間代價比傳統K-Means算法下的時間代價降低了32.18%,因此,所提方法具有較高的分類效率,適用于圖像分類。
圖像分類;視覺詞袋模型;特征提取;視覺詞典
近幾年來,人工智能領域呈現出飛速發展的勢頭,圖像分類技術[1-4]也得到了人們的普遍關注。早期的詞袋模型被用在文本分類中,通過統計文本詞典中與順序無關的單詞的頻率就可以對文本進行精確的分類。然而文本分類中的文本詞典是可以被確定的,而基于詞袋模型下的圖像分類[5-7]中的視覺詞典則需要通過對圖像進行特征的提取,并對特征進行相應處理才能獲得,不同的特征提取方法和特征處理方式會產生差異較大的視覺詞典,因此,如何得到適當的視覺詞典是現今研究的熱點。
傳統視覺詞袋(Bag-Of-Visual words, BOV)模型下的圖像分類性能低下,因此大量對BOV模型的優化算法[8-9]被引入到圖像分類中。Kim等[10]利用信息熵的方法去除掉那些圖像類別與視覺單詞間信息熵較小的視覺單詞,減小了視覺詞典的規模;Epshtein等[11]用平均互信息的方法來計算視覺單詞與圖像類別間的相關性,并去除掉那些與圖像類別相關性較弱的視覺單詞,從而降低視覺詞典的規模;Lu等[12]應用譜聚類的思想對詞袋模型中的視覺詞典進行降維,提高了圖像分類的效率。然而以上研究對視覺詞典的優化方法只考慮了視覺詞典與圖像類別之間的相關性,并沒有考慮單視覺詞之間的冗余關系。在基于BOV模型的圖像分類中,視覺詞典中的視覺單詞具有大小和空間分布信息,規模較大的視覺詞典中含有那些大小與空間分布信息相似的視覺單詞,稱這種關系為視覺單詞間的語義相似性,而大量這種語義相似性視覺單詞的出現,導致了視覺單詞間的冗余性,因此去除掉那些與其他視覺單詞相似性較大的視覺單詞可以有效降低視覺詞典的規模,提高圖像分類的性能。
在優化視覺詞典的過程中,不僅要考慮視覺詞典與圖像類別之間的相關性,還要考慮視覺詞典中視覺單詞之間的冗余關系,因此,本文提出了一種基于加權最大相關最小相似(Weighted-Maximal Relevance-Minimal Semantic similarity, W-MR-MS)準則的圖像分類方法。首先分別計算視覺單詞與圖像類別間的相關性、視覺單詞與視覺單詞間的語義相似性;然后引入一個加權系數對兩者進行加權計算,保留那些加權結果較大的視覺單詞組成本文圖像分類中最終的視覺詞典。該方法不僅去除掉了那些與圖像類別無關的噪聲單詞與冗余性較大的視覺單詞,而且減小了視覺詞典的規模。最后在兩類常見數據集上的實驗結果也驗證了本文方法的有效性。
BOV模型下視覺詞典的規模對圖像的分類性能具有較大影響,而基于BOV模型對圖像的表示就是將圖像特征一一量化到視覺詞典上,即用視覺單詞頻率直方圖來表示一幅圖像,視覺單詞頻率直方圖在這里被稱為視覺詞匯直方圖。圖1為BOV下的圖像表示示意圖,由圖1可知,視覺詞匯直方圖的好壞可以決定圖像分類的精度,而且視覺詞匯直方圖的維度大小直接影響了圖像分類中的時間復雜度,因此,適當的視覺詞典規模能夠提升圖像分類的性能。

圖1 BOV模型下對圖像的表示Fig. 1 Image representation of BOV model
2.1 視覺單詞與圖像類別間的相關性
本文采用信息論中平均互信息方法[13]來計算視覺單詞與圖像類別間的相似性。首先定義初始視覺詞典為D=[d1,d2,…,dN],D為N×K維矩陣,K=128為尺度不變特征轉換(Scale Invariant Feature Transform, SIFT)描述子[14]的維數,N為視覺詞典的規模。如式(1)所示:AvI(dm,c)表示視覺單詞dm與圖像類別之間相關性的大小,其值越大表明該視覺單詞對分類越重要,所以該單詞在分類過程中是該被保留的;反之,那些與圖像類別相關性較小的視覺單詞應該被去除掉。其中:c∈(1,2,…,C)為圖像的類別,C為圖像類別總數;dm=0表示在分類過程中該視覺單詞沒有出現在對該類別分類的視覺詞典中,dm=1表示該視覺單詞出現在對該類別分類的視覺詞典中。
(1)
(2)
假設SIFT特征點pi={ri,ui,si,θi},其中:ri為128維特征描述子,ui為特征空間位置坐標,si為特征的尺度大小,θi為特征的主方向。為了計算視覺單詞之間的語義相似性,首先定義該特征點的空間語義區域為SCRpi,而且本文認為該區域包含了pi的空間語義信息,其半徑為rc×si,其中rc為語義尺度系數,用來控制空間語義區域的大小,可設置為大于1的一個常數。然后定義空間語義區域中的特征點pj對pi的影響權重dij如式(3)所示:
(3)
其中:hij的計算如式(4)所示,‖·‖2為向量的2-范數。
hij=‖ui-uj‖2/(rc×si)
(4)
在BOV模型中,每個特征點都對應著一個視覺單詞,定義pj對應的視覺單詞為dk。對于空間語義區域中的所有對應于視覺單詞dk的特征點定義一個集合,該集合為Hk={pj|pj→dk,1≤j≤K},其中,pj→dk指SIFT點pj對應的視覺單詞為dk,K為對應于視覺單詞dk的特征點數量。視覺單詞dk在空間語義區域中對特征點pi的影響權重如式(5)所示:
(5)
再計算視覺詞典中所有視覺單詞對特征點的影響權重,得到pi的空間語義信息對應的直方圖如式(6)所示:
通過課題研究,教師對微課從陌生到熟悉,從制作到運用,在傳統的教學中運用嶄新的微課元素,提高了“Photoshop平面設計”課堂教學效益。課題組成員結合研究,勤于總結,不斷反思,撰寫了許多有質量的課題論文,微課作品也多次獲得省市一二等獎。課題組成員王子昱老師微課作品《藍屏摳像技術》在2016年蘇州市教學大賽微課項目中獲得一等獎,同時獲得江蘇省二等獎。陳李飛老師的微課獲得江蘇聯合職業技術學院微課制作比賽二等獎。陳李飛老師開設市區級公開課《信息圖表簡歷制作》,將微課等信息化教學手段靈活運用課堂,呈現了一堂生動活潑的信息化課堂,受到聽課領導和老師的好評[1]。
SC(pi)=[cd1(pi),cd2(pi),…,cdn(pi),…,cdN(pi)]
(6)
接下來,對于SIFT特征點pi所對應的視覺單詞dm,定義所有對應為視覺單詞dm的特征點集合為Rm={pi|pi→dm,1≤i≤L},將Rm中每個SIFT點的空間語義信息看作是視覺單詞dm的空間語義信息的一種表現,則可定義視覺單詞dm的空間語義信息為所有Rm中SIFT點的空間語義信息的均值,如式(7)所示:
(7)
其中:|Rm|為集合Rm的規模;SC(dm)為綜合利用了所有量化到dm上的SIFT特征點的空間語義信息,能夠較好地表征視覺單詞dm的空間語義特性。
視覺單詞的空間語義信息是視覺單詞空間分布信息的重要體現。對于兩個視覺單詞dm與dn,通過式(8)來計算其語義相似性:
sim(dm,dn)=cos(SC(dm),SC(dn))=
SC(dm)/‖SC(dm)‖2·SC(dn)/‖SC(dn)‖2
(8)
通過以上思路,可以計算出視覺單詞在視覺詞典中的語義相似性大小,式(9)為視覺單詞dm在視覺詞典中的語義相似性的計算公式:
(9)
其中:N為視覺詞典規模的大小,I′(dm)為視覺單詞dm的語義相似性大小。
通過分別對視覺詞典中所有視覺單詞的語義相似性進行計算,可以去除掉那些語義相似性較大的視覺單詞。
2.3 W-MR-MS準則
結合上述內容,本節給出W-MR-MS準則的具體內容如下:結合2.1節與2.2節中選擇視覺單詞的方法,首先分別計算視覺單詞與圖像類別之間的相關性和視覺單詞間的語義相似性;然后引入一個加權參數α對視覺單詞與圖像類別之間的相關性和視覺單詞間的語義相似性進行權衡,如式(10)所示;最后去除掉使加權結果I(dm)值最小的那些視覺單詞,其中,dm為視覺單詞,1≤m≤N。
I(dm)=(1-α)×AvI(dm,c)-α×I′(dm)
(10)
其中0≤α≤1,α的值越小,表示視覺單詞與圖像類別間的相關性對優化視覺詞典起到了主導作用;反之,視覺單詞間的語義相似性對優化視覺詞典起到主導作用。
圖2為本文圖像分類的系統框圖,它首先提取圖像的局部SIFT特征點,并對該局部特征采用K-Means聚類算法生成視覺詞典;然后利用W-MR-MS準則對視覺詞典進行優化,具體優化步驟如算法1所示;視覺詞典優化后,基于該優化后的視覺詞典對訓練圖像進行視覺詞匯直方圖的構建;最后采用詞袋模型表示對每個圖像類別訓練出分類模型,對每幅未分類的測試圖像,采用該模型可以得到其分類結果。

圖2 基于W-MR-MS準則圖像分類的系統框圖Fig. 2 System diagram of image classification based on W-MR-MS criterion
算法1 視覺詞典優化算法。
1)通過K-Means算法對局部特征聚類生成視覺詞典D,其大小為K,本文中K=1 200。
2)用視覺詞典D對訓練圖像進行表示與分類,得到分類精度為P。
3)用式(10)選出T個使I(dm)值最小的視覺單詞,并從視覺詞典中去掉這T個視覺單詞,得到一個大小為K-T的視覺詞典D,如果K-T大于閾值H,繼續步驟2);否則,停止循環。本文中T=10,H=400。
模型訓練過程中,首先通過特征提取與特征聚類可以得到一個冗余性與規模較大的視覺詞典;然后利用W-MR-MS準則優化視覺詞典,可以達到去冗余與降低詞典規模的效果;最后基于優化視覺詞典對每幅訓練圖像建立視覺詞匯直方圖,并將其作為分類器的輸入。
模型測試過程中,對提取到的局部特征直接采用W-MR-MS準則優化后的視覺詞典建立視覺詞匯直方圖,將其作為模型的輸入,并得到分類結果。
4.1 實驗設置
本文在Caltech- 101和COREL圖像數據集上進行實驗。在Caltech- 101數據集中,選取其中的12類圖像作實驗,分別為Airplanes、Face、Watch、Motorbikes、Car、Backpack、Ketch、Bonsai、Butterfly、Crab、Revolver和Sunflower,每個類別圖像數目從47到800不等;COREL數據集共有10類圖像,分別為African、Beach、Buildings、Buses、Dinosaurs、Elephants、Flowers、Food、Horses和Mountains,每一個類別含有100幅圖像,共有1 000幅圖像。實驗中選取圖像庫中的一半圖像作為訓練圖像,另一半作為測試圖像進行實驗。為了便于實驗,將數據集圖像大小調整到300×300像素;然后選擇一對多方式下的多類支持向量機(Support Vector Machine, SVM)[15]分類器對數據集進行訓練,提取SIFT特征的圖像塊大小為16×16像素,步長為8像素;接頭使用K-Means算法對圖像聚類生成視覺詞典,K=1 200;最后在每個數據集上獨立進行10次隨機實驗,并將平均分類準確率與分類時間代價作為最后判斷標準。
4.2 實驗結果
4.2.1 參數α對圖像分類性能的影響
由于參數α對優化視覺詞典具有較大影響,所以本節將討論參數α對圖像分類的影響。實驗中α將在集合M={0,0.05,0.1,…,1}上取值,圖3即為不同參數α下圖像的平均分類精度。其中:在10類Caltech- 101數據集上,優化視覺詞典規模取為910;在COREL數據集上,優化視覺詞典規模取為850。由圖3可知,當α=0.6時圖像的分類精度最高,所以在COREL與Caltech- 101數據集上視覺單詞間的語義相似性在優化視覺詞典中占了主導地位。這是由于以上兩種數據集中的類別數較少,所以影響了圖像類別與視覺單詞間的相關性對優化視覺詞典的作用,而此時原始視覺詞典中具有較多語義相似性較大的視覺單詞,因此,W-MR-MS準則在優化視覺單詞時,視覺單詞間的語義相似性對優化視覺詞典具有更大的作用。

圖3 參數α對圖像分類性能的影響Fig. 3 Influence of α on image classification
4.2.2 視覺詞典規模對圖像分類性能的影響
本節將分析優化視覺詞典規模對圖像分類性能的影響。首先設置原始視覺詞典的規模為1 200,α=0.6;然后基于W-MR-MS準則對該規模下的視覺詞典進行優化。圖4為在Caltech- 101與COREL數據集上視覺詞典的規模與圖像平均分類精度之間的關系示意圖。由圖4可以看出,在Caltech- 101數據集上,當視覺詞典的規模被優化到910之后,圖像平均分類精度會出現明顯下降;而在COREL數據集上,當視覺詞典的規模優化到850之后,圖像分平均分類精度會出現明顯下降。這是因為當視覺詞典規模被縮減到一定程度時,那些對分類有用的視覺單詞也會被W-MR-MS準則去除掉,這樣會導致訓練時對圖像的表示不足,進而圖像分類精度出現明顯下降。所以當原始視覺詞典規模取為1 200時,在Caltech- 101與COREL數據集上可優化視覺詞典規模分別為910與850,而兩者大小不同,主要是由于本文所取Caltech- 101數據集上的圖像類別數比COREL數據集上要多,并且Caltech- 101數據集圖像結構比較復雜。

圖4 優化視覺詞典的規模對圖像分類性能的影響Fig. 4 Influence of scale of visual dictionary on image classification
4.2.3 本文方法與K-Means算法的比較
本節將比較本文方法與K-Means算法下的圖像分類性能,結果如表1所示。其中,K-Means算法下視覺詞典的大小直接由K值決定;而本文方法是在K-Means算法基礎上,K=1 200時,用W-MR-MS準則對視覺詞典進行了優化降維,最后的詞典規模為優化后的大小。在Caltech- 101與COREL數據集上,本文方法的視覺詞典規模分別為910與850,α的值在兩類數據集上均為0.6。

表1 兩種算法在不同數據集上分類性能比較Tab. 1 Image classification performance comparison of two algorithms on different datasets
由表1可以看出,在Caltech- 101數據集上,本文方法與K-Means算法在K=1 200時的平均分類精度基本相同,但是本文方法的分類時間代價降低了32.18%;而與K-Means算法在K=910時的平均分類精度相比,本文方法的平均分類精度提高了5.30%,但是時間代價本文略高,這是由于本文優化時需要優化時間代價。在COREL數據集上的分類性能比較結果與Caltech- 101數據集的情況相似,這里不作過多的分析。
綜合以上分析可知,本文方法提高了圖像分類的性能。圖5為本文方法在10類COREL數據集上的分類混淆矩陣,由圖5可知本文方法在某些圖像類別上達到了較高的分類精度,所以本文方法具有較高的有效性。

圖5 本文方法在COREL數據集上的混淆矩陣Fig. 5 Confusion matrix of the proposed method on COREL dataset
為了降低傳統BOV模型下圖像分類的時間復雜度,本文提出了W-MR-MS準則來優化BOV模型中的視覺詞典。通過去除掉那些與圖像類別無關、具有冗余的視覺單詞,從而在不影響圖像分類精度的前提下,降低了視覺詞典的規模,提高了分類效率。在Caltech- 101和COREL圖像數據集上的實驗表明,本文方法比傳統K-Means算法具有更好的分類性能。在以后的研究中可以在此優化視覺詞典的基礎上,對BOV模型作進一步改進,比如加入圖像局部特征的空間分布信息、對圖像預處理等,從而實現更有效的圖像分類。
References)
[1] SIVIC J, ZISSERMAN A. Video Google: a text retrieval approach to object matching in videos [C]// ICCV 2003: Proceedings of the 2003 Ninth IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2003: 1470-1477.
[2] 王朔琛,汪西莉,馬君亮.基于均值漂移的半監督支持向量機圖像分類[J].計算機應用,2014,34(8):2399-2403.(WANG S C, WANG X L, MA J L. Semi-supervised support vector machine for image classification based on mean shift [J]. Journal of Computer Applications, 2014, 34(8): 2399-2403.)
[3] 邵忻.基于跨領域主動學習的圖像分類方法[J].計算機應用,2014,34(4):1169-1171.(SHAO X. Cross-domain active learning algorithm for image classification [J]. Journal of Computer Applications, 2014, 34(4): 1169-1171.)
[4] TIMOFTE R, GOOL L V. Adaptive and weighted collaborative representations for image classification [J]. Pattern Recognition Letters, 2014, 43(1): 127-135.
[5] ALQASRAWI Y, NEAGU D, COWLING P I. Fusing integrated visual vocabularies-based bag of visual words and weighted colour moments on spatial pyramid layout for natural scene image classification [J]. Signal Image & Video Processing, 2013, 7(4): 759-775.
[6] LU Y, XIE F, LIU T, et al. No reference quality assessment for multiply-distorted images based on an improved bag-of-words model [J]. IEEE Signal Processing Letters, 2015, 22(10): 1811-1815.
[7] QU Y, WU S, LIU H, et al. Evaluation of local features and classifiers in BOW model for image classification [J]. Multimedia Tools and Applications, 2014, 70(2): 605-624.
[8] YANG X, ZHANG T, XU C. A new discriminative coding method for image classification [J]. Multimedia Systems, 2015, 21(2): 133-145.
[9] GAO S, TSANG W H, MA Y. Learning category-specific dictionary and shared dictionary for fine-grained image categorization [J]. IEEE Transactions on Image Processing, 2014, 23(2): 623-634.
[10] KIM S, KWEON I S, LEE C W. Visual categorization robust to large intra-class variations using entropy-guided codebook [C]// ICRA 2007: Proceedings of the 2007 IEEE International Conference on Robotics & Automation. Piscataway, NJ: IEEE, 2007: 3793-3798.
[11] EPSHTEIN B, ULLMAN S. Feature hierarchies for object classification [C]// ICCV 2005: Proceedings of the 2005 Tenth IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2005: 220-227.
[12] LU Z, WANG L, WEN J R. Image classification by visual bag-of-words refinement and reduction [J]. Neurocomputing, 2016, 173: 373-384.
[13] KELBERT M, SUHOV Y. Information Theory and Coding by Example [M]. Oxford: Cambridge University Press, 2013: 18-86.
[14] LOWE D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision, 2004, 60(60): 91-110.
[15] TUIA D, VOLPI M, DALLA MURA M, et al. Automatic feature learning for spatio-spectral image classification with sparse SVM [J]. IEEE Transactions on Geoscience & Remote Sensing, 2014, 52(10): 6062-6074.
ZHANGYong, born in 1963, professor. His research interests include intelligent information processing, data mining.
YANGHao, born in 1991, M. S. candidate. His research interests include image classification, machine learning.
Imageclassificationmethodbasedonoptimizedbag-of-visualwordsmodel
ZHANG Yong, YANG Hao*
(SchoolofComputerandCommunication,LanzhouUniversityofTechnology,LanzhouGansu730050,China)
Concerning the problem that too large visual dictionary may increase the time cost of image classification in the Bag-Of-Visual words (BOV) model, a Weighted-Maximal Relevance-Minimal Semantic similarity (W-MR-MS) criterion was proposed to optimize visual dictionary. Firstly, the Scale Invariant Feature Transform (SIFT) features of images were extracted, and theK-Means algorithm was used to generate an original visual dictionary. Secondly, the correlation between visual words and image categories and semantic similarity among visual words were calculated, and a weighted parameter was introduced to measure the importance of the correlation and the semantic similarity in image classification. Finally, based on the weighing result, the visual word which correlation with image categories was weak and semantic similarity among visual words was high was removed, which achieved the purpose of optimizing the visual dictionary. The experimental results show that the classification precision of the proposed method is 5.30% higher than that of the traditionalK-Means algorithm under the same visual dictionary scale; the time cost of the proposed method is reduced by 32.18% compared with the traditionalK-Means algorithm under the same classification precision. Therefore, the proposed method has high classification efficiency and it is suitable for image classification.
image classification; Bag-Of-Visual words (BOV) model; feature extraction; visual dictionary
TP181
A
2016- 12- 13;
2017- 03- 11。
張永(1963—),男,甘肅蘭州人,教授,主要研究方向:智能信息處理、數據挖掘; 楊浩(1991—),男,甘肅隴南人,碩士研究生,主要研究方向:圖像分類、機器學習。
1001- 9081(2017)08- 2244- 04
10.11772/j.issn.1001- 9081.2017.08.2244