姜 雪,邵寶民,王 振,李秋玲
(1.山東理工大學 計算機科學與技術學院,山東 淄博 255049;2.淄博職業學院 信息工程系,山東 淄博 255314)
基于內容的圖像檢索CBIR(Content Based Image Retrieval)[1]發展到今天已經比較成熟,但隨著人工智能的不斷發展,CBIR仍然是圖像領域研究的熱點。CBIR是利用圖像的顏色、紋理、形狀等視覺特征進行的圖像檢索。檢索中,建立數據庫圖像和查詢圖像的特征空間,在特征空間內進行圖像間的相似性匹配,從而檢索出與查詢圖像相類似的圖像[2]。
基于圖像內容信息提取的基本方法常用的有全局特征和局部特征[3]。全局特征是指圖像的整體屬性,具有良好的不變性、計算簡單、表示直觀等特點,但這種描述不適用于圖像混疊或有遮擋的情況;局部特征則是從圖像局部區域中抽取的特征,描述了圖像的個性化信息,如邊緣、角點、線等區域的特征,具有在圖像中蘊含數量豐富、特征間相關度小、遮擋情況下不會因為部分特征的消失而影響其他特征的檢測和匹配等特點。如早期IBM的QBIC[4]、MIT的Photobook[5]等是基于全局特征的圖像檢索方法,Visual SEEK[6]、Blobworld[7]系統等是基于區域的圖像檢索。近期張麗[8]提出的基于顏色和紋理特征的圖像檢索技術,提取了圖像全局的顏色和紋理特征,取得了較好的檢索效果。丁軍娣等[9]提出的基于角點特征的圖像檢索新方法,提取了角點的紋理和形狀特征,也進行了有效的圖像檢索。周東堯等[10]提出的基于全局特征和尺度不變特征轉換特征融合的醫學圖像檢索,把全局特征和SIFT特征融合起來進行圖像檢索,依然較好地優化了檢索效果。本文提出融合全局特征和角點特征的圖像檢索方法,從整幅圖像中提取HSV直方圖特征和LBP特征,再提取圖像角點的Hu矩形狀特征和基于GLCM的紋理特征,將這兩類特征融合起來并選用相對曼哈頓距離進行相似性度量,以此完成圖像檢索。
圖像檢索有兩個關鍵技術:一是要提取恰當的圖像特征;二是要采取有效的特征度量算法。本文的圖像檢索流程如圖1所示,首先提取數據庫圖像的全局特征和角點特征,并將二者融合建立數據庫圖像的特征數據集;然后提取查詢圖像的全局特征和角點特征,并融合生成查詢圖像的特征向量;再設置度量方式和返回數目;最終通過相似性計算輸出查詢結果。

圖1 圖像檢索流程Fig.1 Image retrieval process
顏色是圖像信息表達最直觀的特征,對圖像本身的尺寸、方向、視角的依賴性較小,具有較高的魯棒性,是圖像檢索中應用最為廣泛的視覺特征[11]。鑒于HSV(色調、飽和度、亮度)模型更符合描述和解釋顏色的方式,本文提取了圖像HSV模型的HSV顏色直方圖特征[12]。將每個H、S、V分量分別均勻量化為8、2、2個顏色區間,計算顏色落在每個顏色區間內的像素數量,并進行歸一化得到圖像的HSV顏色直方圖特征。一般彩色圖像都是RGB模型,圖像從RGB模型到HSV模型的轉換公式為

(1)
式中,
(2)
(3)
(4)
例如圖2為一幅蝴蝶的圖像,其提取的HSV顏色直方圖特征向量為
hsvCH=0.03430.12100.10280.01300.0248 0.0060 …… 00

圖2 原圖Fig.2 Original image
局部二值模式(Local Binary Pattern,LBP),是一種有效的圖像局部紋理特征的描述,是灰度范圍內的紋理度量[13]。由于LBP方法原理相對簡單,計算復雜度低,同時又具有旋轉不變性和灰度不變性等顯著優點,因而該方法被廣泛地應用于圖像匹配、行人和汽車目標的檢測與跟蹤等多個領域[14]。
為了更好地反映圖像的局部信息,提高圖像紋理特征的準確性,本文將圖像的LBP特征譜(由旋轉不變的LBP算子得到)均等地劃分成四個區域,分別計算其統計直方圖,得到圖像的LBP特征。圖3為圖2所示蝴蝶圖像的LBP圖譜。

圖3 LBP圖譜Fig.3 LBP map
該蝴蝶圖像提取的LBP特征向量為
lbp=0.05240.069600.047900.009800.0781……0.0579
取某個像素的一個鄰域窗口,當這個窗口在各個方向上滑動時,比較滑動前后窗口中的像素灰度變化程度,如果都有著較大灰度變化,則認為該窗口中存在角點[15]。
Harris角點檢測,使用自相關矩陣M表達式度量角點響應為
R=detM-κ(traceM)2
(5)
式中:detM=λ1λ2;traceM=λ1+λ2;κ是常量,一般取值為0.04~0.06,本文取κ=0.04。
圖像中某個像素點的響應值R如果比其鄰域像素點的都大,則該像素點為圖像的一個Harris角點,如此便可以找到圖像的所有Harris角點。圖4為3幅蝴蝶圖像的Harris角點檢測結果。

圖4 Harris角點檢測結果Fig.4 Harris corner detection results
由于每幅圖像檢測到的Harris角點數目是不同的,選擇角點太少會缺少圖像信息的重要描述,而選擇角點太多又會失去圖像信息的個性化描述,這兩種情況都不利于圖像信息的精確和可區分性描述,本文選取了圖像的Harris響應值R較大的前20個角點作為待處理點。
對于圖像中檢測到的Harris角點,需要提取其鄰域的形狀特征和紋理特征。
2.4.1 角點的形狀特征提取
數字圖像的幾何矩和幾何中心矩可用于描述區域的形狀,經過一系列代數恒等變換,提出了7個不變矩(φ1,φ2,φ3,φ4,φ5,φ6,φ7)[16]即Hu矩,它們對于平移、旋轉、尺度變化都具有不變性。
本文計算每個角點3×3鄰域的7個Hu不變矩,再將其對應相加,得到的7維Hu矩作為該圖像的角點形狀特征[9]。于是圖像的角點形狀特征可以表示為一個7維向量:
式中:N表示角點個數;φij(j=1,2,…,7)表示第i個角點的第j個不變矩。
2.4.2 角點的紋理特征提取
圖像紋理是由紋理基元按某種確定性的規律或者某種統計規律排列組成的,反映了圖像亮度的空間變化情況。本文采用統計紋理分析法對圖像灰度共生矩陣(Gray Level Co-occurrence Matrix,GLCM)的特征進行提取[17]。
由于灰度共生矩陣的數據量較大,一般不直接用于區分紋理的特征,而是采用基于它構建的統計量作為紋理特征。本文基于灰度共生矩陣紋理特征的計算步驟如下:
1)生成每幅圖像的4個灰度共生矩陣,分別取距離為d=1,角度分別為θ=0°,45°,90°,135°。
2)計算灰度共生矩陣的能量(Asm)、熵(Ent)、對比度(Con)和相關性(Corr)4個參數[18]。
(6)

(7)
(8)
(9)
式中:μi、μj和σi、σj表示如下:
(10)
(11)
(12)
(13)
GLCM大小為k×k,i表示矩陣的行元素,j示矩陣的列元素,P(i,j) 表示矩陣的元素值。
本文計算每個角點5×5鄰域的4維灰度共生矩陣紋理特征,再將其對應相加,得到的4維紋理特征作為該圖像的角點紋理特征。于是圖像的角點紋理特征可以表示為一個4維向量:
其中N表示角點個數,i表示第i個角點。
本文選用曼哈頓距離進行相似性度量[19]。將從圖像中提取的全局HSV顏色直方圖特征和LBP特征,以及基于角點的Hu矩形狀特征和GLCM紋理特征,線性融合成圖像的特征向量,采用相對曼哈頓距離進行相似性度量,其計算公式為
(14)
式中:D(x,y)為兩幅圖像的相似度;xi和yi分別是兩幅圖像的特征向量的分量;n是特征向量分量的個數。
本文的仿真實驗環境為Intel(R) Core(TM) i5-4460 CPU @ 3.20GHz,8.00GB RAM,Windows7操作系統,MATLAB R2016a軟件。
實驗采用的數據集為Caltech256數據集和Corel1000數據集,前者有256個語義類共30 607張圖像,本文從中選擇了backpack、bear、binoculars、bonsai、butterfly 5個語義類,每類100幅共500幅圖像;后者有Africa、beach、building、bus、dinosaur、elephant、flower、horse、mountain、food等10個語義類,每類100幅共1 000幅圖像。
采用查準率(precision)P來衡量圖像檢索的精度,查準率的計算公式為
(15)
式中:t表示檢索到的相關圖像個數;m表示檢索到的圖像數。
以Caltech256數據集butterfly語義類中的一幅圖像作為查詢圖像,圖5所示為基于全局的HSV顏色直方圖特征和LBP特征的圖像檢索結果。從結果來看,有5幅bear語義類的圖像也被檢索出來了,說明此全局特征基本上抓住了圖像信息,但是在圖像具體細節的區分上準確度還不夠。

圖5 基于全局的HSV顏色直方圖特征和LBP特征的檢索結果Fig.5 Retrieval results based on global HSV color histogram and LBP features
基于角點的Hu矩特征和GLCM特征的圖像檢索結果如圖6所示,此時backpack、bear、binoculars、bonsai語義類的圖像都被檢索到了,檢索精度相對較低,可見僅僅采用基于角點的特征亦不能全面和準確地描述圖像信息。

圖6 基于角點的Hu矩特征和GLCM特征的檢索結果Fig.6 Retrieval results of Hu moment feature and GLCM feature based on corner
基于全局的HSV顏色直方圖特征、LBP特征和基于角點的Hu矩特征、GLCM特征的圖像檢索結果如圖7所示,從檢索精度和相似性排名來看提高了很多。

圖7 基于全局的HSV顏色直方圖、LBP特征和角點的Hu矩、GLCM特征的檢索結果Fig.7 Retrieval results based on global HSV color histogram, LBP feature and corner Hu moment, GLCM feature
從Caltech256數據集選擇的5個圖像類別中,每類隨機抽取5幅共25幅圖像作為查詢圖像,檢索結果返回20個圖像,計算三種情況下每類圖像的平均查準率,實驗數據見表1。
表1 平均查準率比較
Tab.1 Comparison of average precision rate

類別HSV-LBPHarris-Hu-GLCMHSV-LBP-Harrisbackpack0.5500.2300.520bear0.4100.3500.440binoculars0.5500.2600.570bonsai0.5600.4800.640butterfly0.6600.3500.680average0.5460.3340.570
從表1可以看出,本文將基于全局的HSV顏色直方圖特征和LBP特征與基于角點的Hu矩特征和GLCM特征融合起來作為檢索特征,比單獨采用二者之一作為檢索特征的效果要好。雖然僅采用基于角點的特征作為檢索特征時,其檢索精度并不高,而且當特征融合時對于最終檢索的平均查準率貢獻不大,但優化了相似度排名。因此,本文的檢索方法以全局的基于HSV顏色直方圖特征和LBP特征為主要的檢索特征,而以基于角點的Hu矩特征和GLCM特征作為輔助的檢索特征,從而對檢索結果進行了優化。
從Corel1000數據集的每個類中,隨機挑選20幅圖像作為查詢圖像,檢索結果返回20個圖像,計算每類20幅查詢圖像的平均查準率。作為對比,文獻[8]采用了基于全局的顏色和紋理特征進行圖像檢索的方法,文獻[9]采用了基于角點特征的圖像檢索方法,實驗結果見表2。
表2 平均查準率比較
Tab.2 Comparison of average precision rate

類別本文算法文獻[8]算法文獻[9]算法平均查準率最高查準率最低查準率平均查準率平均查準率Africa0.8101.0000.1500.6030.200beach0.4000.7000.0500.3750.300building0.7430.9500.3500.3880.400bus0.9301.0000.7000.7000.600dinosaur0.9981.0000.9500.9850.500elephant0.5900.9500.1000.4880.200flower0.9401.0000.2000.9350.725horse0.8801.0000.4000.6530.375mountain0.4530.8000.1000.2900.170food0.8081.0000.4000.4250.100average0.7550.9400.3400.5840.357
由表2可以看出,本文的圖像檢索方法查準率更高,檢索效果更好。
本文將圖像的全局特征和角點特征融合起來進行圖像檢索,使圖像信息的描述更加全面、更具有區分性,通過實驗結果來看,該算法的檢索效果較好。但同時也注意到在Caltech256數據集的bear類及Corel1000數據集的beach和mountain類圖像的檢索精度相對較低,主要是因為這些圖像前景和背景的顏色、大小及方向的變化較大,從而導致提取的特征不能對該類圖像進行區分性更好地描述。如何提取更精確的圖像特征,如何將特征進行更有效地融合,將作為今后研究工作的重點。