陳 熙,申 柯,李運蘭
(1. 貴州師范大學大數(shù)據(jù)與計算機科學學院,貴州 貴陽 550025; 2. 長沙學院計算機工程與應用數(shù)學學院,湖南 長沙 410022)
圖像特征提取在計算機視覺和模式識別領域扮演著重要的角色,它在視頻監(jiān)控,圖像檢索,運動檢測,遠程遙感,生物醫(yī)學圖像分析和人臉識別等方面發(fā)揮著重要作用?;诮y(tǒng)計的圖像特征提取是非常重要的圖像特征提取方法,到目前為止,已經(jīng)有很多統(tǒng)計圖像特征提取方法。R. Chellappa等人提出了二維馬爾可夫隨機場模型的圖像紋理分類特征提取方法,所提方法利用馬爾可夫隨機場模型參數(shù)的最小二乘估計作為特征[1]。Jorjandi S等人提出非對稱正態(tài)拉普拉斯混合模型進行圖像統(tǒng)計特征建模[2]。
通過對小波變換系數(shù)分布特征構建不同的統(tǒng)計模型也是圖像特征描述的一類主流方法。Vasconcelos詳細討論了特征空間中各成分獨立性的影響,得出獨立性對檢索精度有負面影響的結論,因此采用統(tǒng)計模型來建模不同尺度和方向下的小波變換系數(shù)的相關性是一種被證明有效的紋理描述方法[3],從而有一些研究人員開展這方面的工作。文獻[4]采用金字塔離散小波變換(DWT)對圖像進行分解,并用廣義高斯分布(GGD)對細節(jié)子帶系數(shù)進行建模。圖像之間的相似度匹配采用廣義高斯概率密度之間的K-L散度進行計算??紤]到一個高斯模型難于對紋理分布進行準確建模,Hind Oulhaj等人提出了高斯混合模型來刻畫復小波變換子帶系數(shù)的統(tǒng)計特征,其中用最大似然估計方法估計高斯混合模型的參數(shù)[5]。Kim和TJ-Kang提出了一種基于小波包幀分解的圖像紋理特征提取方法,并對每一自帶系數(shù)采用高斯混合模型建模,而概率密度函數(shù)之間的距離采用K-L散度函數(shù)來計算[6]。Tzagkarakis等人提出利用對稱α穩(wěn)定分布對小波細節(jié)子帶系數(shù)進行建模[7],由于一般分布情況下KL散度不存在閉式解,他們采用特征函數(shù)代替概率密度函數(shù)(PDF)來計算相似性。針對圖像紋理分布的傾斜性和非對稱性,Matza和Y-Bistritz提出了混合傾斜高斯函數(shù)來獲得紋理圖像的更好的特征向量,其中EM算法被用來估計混合傾斜高斯分布的參數(shù)[8]。Yijin Peng等人針對合成孔徑雷達(SAR)圖像的統(tǒng)計特性,提出了一種基于馬爾可夫鏈蒙特卡羅(MCMC)的偽模擬退火(PSA)估計方法,有效地估計了混合α穩(wěn)定分布的模型參數(shù)[9]。同樣的,當紋理分布具有傾斜性和非對稱性特點時,傾斜α穩(wěn)定分布[10]用來建模紋理是一種更合理的辦法. 對于具有厚拖尾分布特征的紋理,SRH Shojaei等人提出混合傾斜α穩(wěn)定分布來進行建模[11]。Li C 等人在2019年指出,不同尺度和方向下的Gabor小波子帶系數(shù)存在強相關性,然后他們采用copula來建模這種相關性并用于人臉識別,取得了很好的效果[12]。
從上面一系列的研究文獻中發(fā)現(xiàn),對小波變換子帶系數(shù)進行統(tǒng)計建模是圖像識別與檢索的一條有效途徑,但是盡我所知,紋理統(tǒng)計建模時,對圖像進行小波變換一般都是采用雙樹復小波,小波包和Gabor小波等,很少看見采用Log-Gabor小波[13]對圖像進行變換,然后對不同尺度和方向下的Log-Gabor小波子帶系數(shù)進行建模。Field等人指出,使用在對數(shù)頻率尺度上傳遞函數(shù)為高斯函數(shù)的濾波器可以對圖像進行更有效的編碼,即Log-Gabor函數(shù)能更真實的反應自然圖像的頻率響應[14]。針對Field等人在文獻[14]中給出的這一結論,改進了Li C等人的算法[12],把文獻[12]中的Gabor變換改為Log-Gabor變換。因為Log-Gabor濾波函數(shù)比Gabor濾波函數(shù)的頻譜更符合自然圖像的頻譜特征,故在頻域來說,Log-Gabor變換后的變換系數(shù)更具有自然圖像的頻譜特征。在所提Log-Gabor系數(shù)高斯建模方法中,首先對圖像進行Log-Gabor變換,然后不同方向和尺度下的Log-Gabor變換系數(shù)采用廣義高斯模型進行建模,而所建模型的參數(shù)采用期望最大[15]進行估計,模型之間的距離采用K-L散度函數(shù)來定義。
Koviesi在頻域中通過采用極性可分離的二維高斯函數(shù)構造了二維Log-Gabor濾波器,其由徑向分量和角度分量相乘得到[16],所設計的二維Log-Gabor濾波器的頻域形式定義為

(1)
u1=ucosθ+vsinθ,v1=-usinθ+vcosθ
其中θ表示濾波器的方向,u0表示濾波器的中心頻率,k調節(jié)濾波器在u1方向的帶寬,σv調節(jié)濾波器在v1方向上的帶寬。對于多尺度多方向Log-Gabor濾波器而言,需要調整的參數(shù)為u0,k和σv。Log-Gabor濾波器無直流分量,因此所以采用Log-Gabor濾波器提取的特征不受光照的影響[17]。另外,Log-Gabor函數(shù)的傳遞函數(shù)在高頻端有一個延長的尾巴,適合對頻譜具有厚拖尾的圖像進行編碼。圖1展示了二維Log-Gabor函數(shù)在某一尺度和方向下頻域形式的徑向分量,角度分量和幅度。圖2顯示了一幅人臉圖像在某一尺度下不同方向的濾波結果的模,在后面的實驗中,都是采用Log-Gabor濾波結果的模做實驗。

圖1 二維Log-gabor的頻域形式

圖2 一幅人臉圖像在二維Log-Gabor濾波后的模
正如Vasconcelos等人指出不同尺度和方向下的小波變換系數(shù)如果獨立的話,則會對檢索精度有負面影響[3],所以接下來通過實驗檢驗圖像經(jīng)過Log-Gabor小波變換后不同尺度不同方向下變換系數(shù)的相關性。
采用繪制Chi-plot圖來觀察一對隨機變量之間的相關性[18]。設二維隨機變量(X,Y)的n個抽樣為:(x1,y1),…,(xn,yn),同時假設I(A)是事件A的隸屬函數(shù)。對于每個樣本點(xi,yi),定義如下式子
根據(jù)上面式子,計算
Mi=(Hi-FiGi)/{Fi(1-Fi)Gi(1-Gi)}1/2
(2)
和

(3)
然后在平面上繪制所有的點(Mi,Ni)(i=1,2,…,n),則所繪制的圖形就是Chi-plot散點圖。這里Mi是隨機變量X和Y的一個非參數(shù)相關性度量,取值處于[-1,1]之間,如果Y是X的嚴格單調增函數(shù),則Mi=1,若Y是X的嚴格單減函數(shù),則Mi=-1。Ni表示樣本(xi,yi)到樣本集中心位置的距離,其取值也處于[-1,1]之間。如果變量X和Y為獨立的連續(xù)隨機變量,則Ni的取值服從[-1,1]上均勻分布;而當隨機變量X和Y相關時,Ni的取值會出現(xiàn)一定的聚集性,表現(xiàn)為散點圖會出現(xiàn)聚集性。
記gm,n為一幅圖像經(jīng)過尺度為m和方向為n的Log-Gabor濾波后的模,它是和圖像大小相同的一個矩陣。當考察gm,n和gm′,n′的相關性時,其實就是把gm,n中各元素當成一個隨機變量v的樣本,把gm′,n′中各元素當成一個隨機變量v′的樣本,考察隨機變量v和v′之間的相關性。圖3給出了不同尺度和方向下Log-Gabor各子帶系數(shù)的相關性的Chi-plot圖。

圖3 一幅人臉圖像在二維Log-Gabor濾波后各子帶系數(shù)相關性的Chi-plot圖
很多研究論文表明,廣義高斯概率分布比較適合對小波變換系數(shù)進行建模[4,19,20]。廣義高斯密度(generalized Gaussian density,GGD)函數(shù)定義為
(4)


(5)

前面介紹了Log-Gabor小波和廣義高斯概率模型,在此基礎上,進一步介紹設計的基于Log-Gabor和廣義高斯概率模型的圖像特征提取及匹配方案。此方案可以歸納為如下5個步驟:
1) 假設圖像X被均勻分成不重疊8×8子塊,這些子塊分別表示為X(i)(i=0,1,2,…,63).
2) 假設Log-Gabor有5個尺度k1,k2,…,k5和4個方向θ1,θ2,θ3,θ4。設圖像子塊的Log-Gabor小波系數(shù)為:L(i)(km,θh)=(m=1,2,…,5;h=1,2,…,4;i=0,1,…,63),這里m表示尺度,h表示方向,i表示子塊。
3) 對每個子帶系數(shù)L(i)(km,θh)采用廣義高斯概率模型進行建模。將子帶系數(shù)矩陣L(i)(km,θh)里面的元素當成一個隨機變量的樣本,此隨機變量的概率密度函數(shù)為廣義高斯概率密度函數(shù),采用期望最大[15]方法估計此廣義高斯概率密度函數(shù)的參數(shù),假設子帶系數(shù)L(i)(km,θh)經(jīng)參數(shù)估計后獲得的概率密度函數(shù)為p(i,km,θh)(α,β)。

(6)
5) 考慮到Kullback-Leiler距離的非對稱性,即
將式(6)修改為如下形式

(7)
為了驗證所提基于Log-Gabor和廣義高斯概率模型的圖像紋理特征提取及匹配算法的有效性,在二個紋理圖像庫:USPTex數(shù)據(jù)庫[21]、Brodatz數(shù)據(jù)庫[22]和FERET人臉圖像數(shù)據(jù)庫[23]的一個子集上進行了相關測試。此三個數(shù)據(jù)庫中圖片都是自然圖片,而非人造圖片,其頻譜分布具有厚拖尾的特征。所提算法與廣義高斯模型[4]、基于Copula模型的Gabor小波變換[12]、Log-Gabor直方圖[24],正交Log-Gabor方法[25]和Gabor濾波器[28]進行了識別率比較分析。為了直接體現(xiàn)各算法的紋理特征提取能力,采用了比較簡單的最近鄰分類方法。
USPTex紋理圖像數(shù)據(jù)庫中圖片為自然紋理圖像,包括生活中各種常見物品,如種子,蔬菜,稻谷,織物,道路,和土壤等。USPTex紋理數(shù)據(jù)庫共有191類彩色紋理圖片,每類12張,總計2292張紋理圖像。在下面關于USPTex數(shù)據(jù)庫的試驗中,選取了100類紋理,每類選取9張圖片,每張樣本圖像都轉化成灰度圖像,大小調整為128×128像素。圖4(a)是該數(shù)據(jù)庫中1種紋理12張圖片。Brodatz紋理圖像數(shù)據(jù)庫也是一個為研究人員常常采用的自然紋理圖像庫,采用了其中100類紋理,每類9張圖片,每張樣本圖像都轉化成灰度圖像,其大小調整為128×128像素。圖4(b)是1種Brodatz紋理的9張圖片。FERET人臉數(shù)據(jù)庫由美國軍方FERET項目創(chuàng)建,此圖片庫包含大量人臉圖像,每張圖片中只含有一張人臉。人臉變化覆蓋表情、光照、姿態(tài)和年齡。數(shù)據(jù)庫包含1萬多張人臉圖片,是人臉識別領域應用最廣泛的人臉數(shù)據(jù)庫之一。從中選擇了100個人的圖片,每個人7張圖片,共700張圖片做實驗,其中每張圖片調整為80×80像素的灰度圖片。圖4(c)是此數(shù)據(jù)庫中一個人的7張圖片。

圖4 預處理后樣本圖像
累加匹配特性曲線常常用來展示生物特征識別系統(tǒng)性能。在計算CMC曲線時,先需要構建一個“Gallery”圖庫集和一個“Probe”圖庫集??梢栽谒玫哪硞€實驗圖片庫中每類圖片抽一張出來構建此圖片庫的“Gallery”圖庫集,而此圖片庫中剩余的圖片構成“Probe”圖庫集。比如實驗中FERET圖片庫包含100個人的700張圖片,那么每個人挑一張圖片構成包含100張圖片的“Gallery”圖庫集,而剩下的600張圖片構成“Probe”圖庫集。CMC曲線的繪制方法在李子青博士撰寫的一本人臉識別專著中有較詳細的介紹[26],文獻[27]中也采用了CMC曲線來衡量識別系統(tǒng)的性能。
圖5(a)中,文中所提算法秩1識別率雖然比Copula plus Gabor算法[12]稍低,但是其曲線明顯在Copula plus Gabor算法上方,整體性能最好。Copula plus Gabor、廣義高斯模型[4]和正交Log-Gabor算法[25]性能接近,而Log-Gabor直方圖算法[24]在這幾種算法中只比Gabor算法性能稍好。在圖5(b)中,所提算法秩1識別率達到56.4%,是所有算法中最好的,而整個曲線也是明顯位于其它曲線上方。正交Log-Gabor算法性能比其它幾種算法都弱。在圖5(c)中,整體而言,六種算法性能差別都不太大,特別是文中所提算法,Copula plus Gabor[12]和廣義高斯模型[4]三種算法性能從CMC曲線上看很接近。Log-Gabor直方圖算法的性能比正交Log-Gabor算法性能稍差,而Log-Gabor直方圖算法的性能比Gabor算法性能稍好。比較以上三個數(shù)據(jù)庫,可以看出,所提算法比其它二種統(tǒng)計方法,即廣義高斯模型[4]和Copula plus Gabor[12],性能還是要好。正交Log-Gabor由二個方向相互垂直的Log-Gabor濾波器構成,其性能比Log-Gabor直方圖算法性能稍好。

圖5 各圖像數(shù)據(jù)庫的累加匹配特性曲線
一般來說,圖像往往具有光照,角度和遮擋等變化,同一個人或物體,因為光照,角度和遮擋等變化,可能導致類內(nèi)差別大于類間差別,所以在構建訓練樣本圖像庫時,挑選的照片需要覆蓋圖像的各種變化,從而使得訓練圖片盡可能體現(xiàn)圖像在不同環(huán)境下的特點。在測試正確識別率與訓練樣本集大小的關系時,隨機從USPTex紋理庫、Brodatz紋理庫和FERET人臉庫中分別選擇1、2、3、4和5張圖片構成它們各自的訓練庫,各圖像庫中所剩下的為相應的測試圖像集,例如從FERET圖庫中每個人隨機選擇2張圖片,共200張圖片,計算每張圖片的廣義高斯概率密度函數(shù),然后計算剩下的400張圖片的廣義高斯概率密度函數(shù),用這400張圖片的概率密度函數(shù)去比對訓練用200張圖片的概率密度函數(shù),從而得到正確識別率。試驗重復5次,各次的平均識別率分別列在表1,表2和表3中。表1、表2和表3中顯示了隨著訓練樣本的增加各算法識別率情況。整體而言,隨著訓練樣本增加,各算法的識別性能還是明顯增加了。在表1中,看到,幾種算法識別率都不很高,這是因為這個數(shù)據(jù)庫是自然紋理圖片,同一類圖片類內(nèi)差別很大,而且這里用到的是灰度圖片,沒有色彩信息,所以識別率不高,在表2中也是有這種情況。表1中數(shù)據(jù)顯示所提算法在五種算法中基本上是最好的,然后Copula plus Gabor[12]次之,Log-Gabor直方圖[24]算法是最弱的。表2中數(shù)據(jù)是幾種算法在Brodatz紋理庫數(shù)據(jù)庫上測試而來,在該數(shù)據(jù)庫上,所提算法也顯示了其優(yōu)勢。表3中數(shù)據(jù)是在FERET人臉圖像庫數(shù)據(jù)庫上測試而來,該數(shù)據(jù)庫是一個在人臉識別方面應用非常廣的數(shù)據(jù)庫,在該數(shù)據(jù)庫中,當訓練樣本比較少的時候,所提算法并沒優(yōu)勢,但當增加訓練樣本時,所提算法的識別率比其它幾種算法要好。實際中,為了讓訓練樣本具有代表性,一般是每一類圖像都多取幾個典型訓練樣本,所以在實際中,所提算法還是具有優(yōu)勢。

表1 USPTex紋理數(shù)據(jù)庫上的平均識別(%)

表2 Brodatz紋理庫上的平均識別率 (%)

表3 ERET人臉庫上的平均識別率
圖像分布建模是圖像統(tǒng)計特征提取的一種方法,而圖像在變換域的分布建模比在像素域建模一般更加有效。由于自然圖像的頻譜具有非高斯性,故Log-Gabor變換比Gabor變換更能保持自然圖像原始頻譜特征。本文提出了基于Log-Gabor的廣義高斯模型圖像建模的算法。所提算法包括將圖像進行不同方向和尺度下的Log-Gabor變換,對Log-Gabor的子帶變換系數(shù)采用廣義高斯模型進行建模,得到代表圖像特征的概率密度函數(shù)和采用K-L距離函數(shù)計算概率密度函數(shù)之間的距離這樣幾個關鍵步驟。從相關實驗中可以得出幾個結論:1)圖像Log-Gabor不同尺度和方向下的子帶系數(shù)具有強相關性;2)Log-Gabor函數(shù)比Gabor函數(shù)更適合進行自然圖像統(tǒng)計建模;3)三個數(shù)據(jù)庫上的CMC曲線和識別率證實了所提算法比幾種相關的算法具有更好的識別性能。