蔣宏駿+++紀則軒+++孫權森
摘 要: 稀疏表示和字典學習在圖像去噪、圖像重建和模式識別等應用上取得了良好的效果,其利用稀疏系數和重構誤差來作為模式分類的判別準則。稀疏表示紋理分割方法是將圖像分割問題轉換為像素點的分類問題。但通常稀疏表示分類方法是基于圖像塊特征,難以準確表征圖像紋理信息。為了解決上述問題,提出基于Gabor特征的稀疏表示紋理分割方法。因為Gabor特征對圖像紋理信息的魯棒性,算法首先從每類紋理中選擇一些像素點作為訓練樣本,計算其不同尺度和方向下的Gabor特征,將其作為初始化字典,通過判別性的字典學習算法(D?KSVD)更新字典,該字典學習算法在KSVD基礎上使得字典更具有類別判別能力,最后以待分割圖像的每個像素點作為測試樣本,計算其Gabor特征。利用OMP算法得到測試樣本在字典下的稀疏系數,根據稀疏系數得到類標簽,進而對像素點進行分類,完成分割。通過在Brodatz紋理庫上的實驗結果表明,該方法有效提高了稀疏表示算法對紋理圖像分割的正確率。
關鍵詞: 稀疏表示; 字典學習; D?KSVD; Gabor
中圖分類號: TN919?34 文獻標識碼: A 文章編號: 1004?373X(2015)10?0073?05
圖像分割是由圖像處理進到圖像分析的關鍵步驟,也是一種基本的計算機視覺技術。紋理作為物體表面的固有特征之一,是人們區分不同物體的重要因素,紋理可以提供圖像區域的平滑、稀疏、規則等特性。例如醫學圖像中包含大量的紋理信息,不同部位、相同部位不同病灶的圖像紋理存在一定差異。又如遙感圖像中不同地貌呈現的紋理差異也很明顯。
稀疏表示問題源于Bruno A.Olshausen和David J.Field在《NATURE》上提出的自然圖像的稀疏編碼理論[1]。其理論表明自然圖像的稀疏編碼,類似于哺乳動物初級視覺的簡單細胞的工作原理。近年來,稀疏表示在模式識別中也得到了很好的應用。例如稀疏表示分類算法[2](SRC)方法,它直接將訓練樣本作為字典,通過判斷測試樣本的相應特征與訓練字典中的各類系數重建結果的誤差來完成識別。SRC方法在人臉識別領域獲得了很好的應用。在SRC方法的基礎上,國內外一些學者通過增加不同類別子字典的約束條件,使其更好地進行模式識別。文獻[3]和文獻[4]通過增加不同類子字典的不相關約束條件使每類的子字典盡可能相互獨立。文獻[5]提出的FDDL方法在字典學習中加入Fisher判別準則,來提高字典的判別能力。文獻[6]提出的D?KSVD方法通過增加訓練樣本預標簽,與監督學習相結合,使得字典學習具有類別判別能力。上述方法在人臉識別等模式識別應用上取得了很好的識別性能,但其研究重心都是基于圖像塊的灰度特征。在人臉識別中,圖像塊特征可以較好地表示人臉的全局信息,但其在紋理分割應用難以準確表示紋理的局部信息。
針對上述問題,本文提出一種基于Gabor特征的稀疏表示分割方法。該方法通過對訓練樣本增加預標簽,將稀疏表示過程與有監督學習過程相結合,使得字典學習具有類別判別能力。同時考慮到Gabor特征較好地模擬了人類視覺系統的視覺感受,是一種強大的紋理特征提取方法,其很好地表示圖像的紋理信息。所以將Gabor特征引入稀疏表示分類方法中,以提高算法的識別率和魯棒性。本文對Brodatz紋理圖像進行分割實驗,將圖像塊像素的灰度級聯為特征做對照實驗。實驗結果表明基于Gabor特征的稀疏表示分割方法進一步提高了分割效果。
1 相關工作與背景
1.1 稀疏表示
1996年Bruno A.Olshausen和David J.Field在《NATURE》上首次提出了自然圖像的稀疏編碼[2],其很好地解釋了哺乳動物初級視覺的簡單細胞工作原理。稀疏表示是指,對于一個給定信號或圖像Y,其在一組過完備基D上有一個稀疏的表示。它的形式如下:
[Y=Dα, D∈Rm×n, m?n] (1)
稀疏表示問題就是要求解向量x,使x的非零項盡可能少。問題定義如下:
[minα0 s.t. Dα=Y] (2)
該問題是0范數最優化問題。1997年Gorodnitsky和Rao證明了在[σ(D)≥2α0]條件下,式(2)有惟一解[7],[σ(D)]為最小的線性相關的列向量所含的向量個數,但上述問題仍是個NP問題。2006年Candes和Tao證明了當滿足條件RIP,0范數最優化問題與1范數問題的解一致:
[minα1 s.t. Dα=Y] (3)
而1范數優化問題是凸優化問題,故有惟一解。當引入重建誤差[ε],式(2)可以寫成:
[minY-Dα22+λα1 s.t.α 1.2 稀疏表示分類 稀疏表示分類方法是基于測試樣本可以表示為訓練樣本的加權線性組合這一先驗。假設有c個類別,字典為D=[D1,D2,…,DC],其中Di 為第i類子字典,其由第i類訓練樣本組成。 通過1范數對測試樣本y進行稀疏表示: [α=argminxy-Dα22+λα1] (5) 計算第i類的重構誤差: [riy=y-Dδiα2] (6) [δiα]僅保留稀疏向量[α]中第i類的系數。最后通過公式(7)進行分類。 [identityy=argminiriy] (7) 1.3 字典學習 通過字典學習,可以使得字典對信號或圖像具有更強的表示能力,減少重構誤差。通常對于一個信號或圖像,需要通過字典學習算法來獲得其完備字典。常用的字典學習算法有MOD[8]、K?SVD[9]、online[10]算法。 K?SVD算法是求解如下最優化問題: [minD,αY-Dα2F s.t.?i,xi0≤T] (8)
K?SVD算法步驟如下:
輸入:數據樣本[Y=y1,y2,…,yN∈Rd×N]
列規范化的初始字典[D=d1,d2,…,dk∈Rd×k]
Step1:稀疏編碼,利用OMP算法求解以下優化問題:
[minαy-Dα22+λα1 s.t.α Step2:字典更新,對于字典中的每一個原子[dk]和相應的稀疏表示系數[αk],求解以下優化問題: [argmindk,αkEk-dkαk2] 式中[Ek=Y-i≠kdiαi]為誤差矩陣。通過SVD求解這個一階近似問題,使得[UΔVT=SVDEk],更新[dk]成U的第1列,更新[αk],成V的第1行乘以[Δ1,1],即: [dk′=U:,1,αk′=Δ1,1V1,:] Step3:返回Step2,直到收斂。 1.4 判別字典學習 文獻[7]提出的D?KSVD方法,并將該方法應用于人臉識別問題。但是K?SVD算法在字典學習過程中只考慮了重建誤差和稀疏度,如果僅根據其重建誤差和稀疏度來進行分類,效果并不理想。D?KSVD在K?SVD算法基礎上加入了線性分類器[H=Wα+b],根據經驗風險最小化理論,該分類器應該滿足: [W,b=argminW,b=H-Wα-b2+βW2] (9) 式中H中的每1列,hi=[0,0,…,1,…,0,0],只有一個項的系數為1,其位置表示分類結果。 將判別項加入K?SVD算法中,構成以下最優化問題: [D,W,α=argminD,W,αY-Dα2+γH-Wα2+βW2 s.t.α0≤T] (10) 式中:Y是輸入信號;H是其對應的標簽;D是字典;W是分類器;[α]是稀疏系數;[γ]和[β]是權重系數。參考K?SVD的字典學習算法,式(10)可以寫成如下形式: [D,W,α=argminD,W,α Yγ*H- Dγ*W*α2+βW2s.t. α0≤T] (11) 由于在K?SVD算法中,字典[ Dγ*W]是規范化的,所以可以省略正則項[W2],從而最優化問題可以簡化為: [D,W,α=argminD,W,α Yγ*H- Dγ*W*αs.t. α0≤T] (12) 在D?KSVD算法中,字典D和相應的分類器W需要聯合歸一化,歸一化字典[D′]和相應的分類器[W′]計算方式如下: [D′=d1′,d2′,...,dk′=d1d12,d2d22,...,dkdk2W′=w1′,w2′,…,wk′=w1w12,w2w22,…,wkwk2] (13) 2 基于Gabor特征的稀疏表示紋理分割 稀疏表示的分割算法把圖像分割問題轉換成對圖像像素點分類的問題,其關鍵就是提取合適的特征和構建稀疏表示的分類方法。 D?KSVD算法以大小[n×n]的圖像塊作為處理單元,圖像塊所有灰度值作為特征向量。在圖像重建和圖像去噪中,該特征能有效地表示圖像本身,有利于圖像的表示。但該圖像的灰度特征并沒有很強的判別信息,這就導致了在使用圖像塊的灰度特征進行紋理分割時效果并不理想。而Gabor特征是一種重要的紋理特征提取方法。所以將Gabor特征引入D?KSVD算法進行研究。 基于Gabor特征的D?KSVD算法分可以為兩個部分,第一部分是從每類紋理圖像選擇一些像素點作為訓練樣本,計算這些像素點的Gabor特征以及樣本的類別標簽信息,通過D?KSVD算法訓練得到Gabor字典G和分類器W。對字典G和分類器W進行歸一化,得到[G′]和[W′];第二部分以待分割圖像的每個像素點作為測試樣本,計算其Gabor特征。利用OMP算法得到測試樣本在字典[G′]下的稀疏系數[α],根據[H=W′α]得到測試樣本的類別標簽。根據類標簽對像素點進行分類,最后完成分割。 2.1 Gabor特征提取 2?D Gabor小波變換是一種重要的基于頻譜的紋理特征提取方法。Gabor小波變換實現了對紋理圖像不同方向和尺度下的特征提取[2]。 假設[fx,y]表示為[M×N]的圖像,則該圖像的2維離散Gabor小波變換可以定義為: [I(x,y)=fx,y?hx,y] (14) 式中[Ix,y]是其濾波輸出。 [hx,y]是2維Gabor函數,其是一個被復正弦函數調制的高斯函數,可表示為: [hx,y=gx,yexpj2πUx+Vy] (15) 式中:(U,V)表示特定的空間頻率;g(x,y)為高斯函數,可表示為: [gx,y=12πλσ2exp-xλ2+y22σ2] (16) 式中:[σ]是空間放縮系數,控制濾波器脈沖響應的寬度;[λ]確定了濾波器的長寬比,確定濾波器的朝向。 p個方向和q個尺度的Gabor小波變換分別與圖像進行卷積,得到p×q個Gabor圖像。Gabor圖像中,點(m,n)所對應的值可以反應該位置的能量信息, 但是采用能量信息容易造成分類誤差。所以本文采用以(m,n)為中心,大小w×w塊的均值和標準差作為紋理特征。尺度為p方向為q的均值和標準差表示如下: [μp,qm,n=xyIp,qm,nw×wσp,qm,n=xyIp,qm,n-μp,qm,nw×w2] (17) 在稀疏表示框架下,假設用T表示像素點(m,n)的Gabor特征向量,則T可以表示為: [T=μ0,0,σ0,0,…,μP-1,Q-1,σP-1,Q-1] (18) Gabor特征向量T的構造流程如圖1所示。
2.2 稀疏表示分割
本文將訓練樣本提取的Gabor特征作為初始化字典。Gabor特征字典G=[G1,G2,…,GC],Gi表示第i類訓練樣本的Gabor子字典,分割的算法步驟如下所示:
輸入:待分割圖像I。
(1) 分別對每類紋理隨機提取m個像素點作為訓練樣本X,以圖像中每個像素點為測試樣本。訓練樣本的類別標簽為H。
圖1 提取Gabor特征的流程圖
(2) 計算每塊的p個尺度,q個方向的Gabor特征。
(3) 用KSVD算法對訓練樣本X作字典學習,得到字典G和稀疏系數α。
(4) 根據類別標簽Ls和系數α、初始化:
[W=αTα+β*E-1*α*H]
(5) 構造[ Xγ*H]和[ Gγ*W]進行D-KSVD字典學習;
(6) 對字典和權值矩陣歸一化得到[G′]和[W′],利用OMP算法得到測試樣本在字典[G′]的稀疏表示系數[α′];
(7) 根據求得的[α′]計算[l=W′*α′],得到測試樣本的類別標簽。
3 實驗結果與分析
為了證明將Gabor特征引入D?KSVD分類框架方法的有效性,本文對50幅雙紋理和三紋理圖像進行分割實驗。其中圖像尺寸為300×300像素,紋理圖像由Brodatz紋理圖像隨機混合而成。Brodatz紋理庫包含17類紋理,29張紋理圖像,其中12類紋理包含2種光照下的圖像。隨機選取紋理進行合成。程序運行環境Matlab 2012b, 硬件配置是Intel(R) Core(TM) i5?3230M CPU@2.6 GHz和4 GB內存。實驗選擇4個尺度、4個方向分別對Brodatz圖像進行Gabor變換。每類紋理的訓練樣本數為100。實驗首先對雙紋理圖像進行分割,圖2為其中兩組實驗的分割結果。圖2(a)為Brodatz紋理圖像。圖2(b)為本文方法的分割結果,圖2(c)為基于Gabor特征的SRC算法,圖2(d)為SRC算法,圖2(e)~(g)分別是圖像塊大小為3×3,5×5,7×7時的D?KSVD算法。可以看出,不管是SRC方法還是D?KSVD方法,傳統的基于圖像塊特征稀疏表示方法的分割正確率很低,存在明顯的錯分。引入Gabor特征,極大改善了紋理圖像的分割效果。而GD?KSVD與GSRC相比,進一步提高了分割正確率。說明了通過D?KSVD字典學習,字典的判別能力得到了增強。
圖2 雙紋理圖像分割結果比較
此外,還對三紋理圖像進行了分割,見圖3。從兩組分割結果可以看出,本文方法與GSRC算法相比,邊緣分割效果更好。
圖3 三紋理圖像分割結果比較
圖3(a)為原始圖像,(b)為本文方法,(c)為GSRC算法,(d)為SRC算法,(e)為圖像塊大小為3×3的D?KSVD算法,(f)為圖像塊大小為5×5的D?KSVD算法,(g)為圖像塊大小為7×7的D?KSVD算法。
圖4(a)、圖4(b)分別為50組雙紋理圖像和三紋理圖像實驗分割正確率的結果對比。表3列出了各算法分割正確率的均值及標準差。從中不難看出,基于Gabor特征的稀疏表示紋理分割方法對雙紋理圖像的平均正確率高達98.49%,三紋理圖像的平均正確率為96.65%。比單純采用圖像塊特征的D?KSVD方法提高了近20%,而從實驗標準差看出,與GSRC算法相比,本文方法穩定性和魯棒性更好。
圖4 雙紋理和三紋理圖像分割實驗
表1 分割正確率比較
4 結 語
稀疏表示和字典學習是近些年來圖像領域內研究的熱點。多數應用以圖像塊作為分類的特征。本文提出一種基于Gabor特征的稀疏表示分割方法。在判別字典學習的基礎上,引入圖像的Gabor特征,在降低字典規模的同時,保證算法的識別率和魯棒性。本文對雙Brodatz紋理和三Brodatz紋理圖像的進行分割實驗,并與圖像塊為特征的D?KSVD方法作對照實驗。實驗結果表明基于Gabor特征的稀疏表示分割效果明顯提高。實驗結果中以Gabor特征進行紋理分割的邊緣存在一定的錯分。同時隨著類別數的增加,紋理邊緣區域的錯分概率增加。在不增加字典規模的同時,如何提高字典各類子字典之間的奇異性以及改善算法對紋理邊緣的判別能力,將基于Gabor特征的稀疏表示分割方法推廣到更多紋理的情況,將是未來工作的重點。
參考文獻
[1] OLSHAUSEN B A, FIELD D J. Emergence of simple?cell receptive field properties by learning aspase code for natural images [J]. Nature, 1996, 381: 607?609.
[2] WRIGHT J, YANG A Y, GANESH A, et al, Robust face recognition via sparse representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210?227.
[3] RAMIREZ I, Sprechmann P, SAPIRO G. Classification and clustering via dictionary learning with structured incoherence and shared features [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA: IEEE, 2010: 3501?3508.
[4] MAIRAL J, BACH F, PONCE J, at al. Discriminative learned dictionaries for local image analysis [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, Alaska, USA: IEEE, 2008: 1?8.
[5] YANG M, ZHANG L, FENG X C. Fisher discrimination dictionary learning for sparse representation [C]// Proceedings of IEEE International Conference on Computer Vision. Barcelona, Spain: ICCV, 2011: 6?13.
[6] ZHANG Qiang, LI Bao?xin. Discriminative K?SVD for dictionary learning in face recognition [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA: IEEE, 2010: 2691?2698.
[7] IRINA F G, BHASKAR D R. Sparse signal reconstruction from limited data using focus: a re?weighted minimum norm algorithm [J]. IEEE Transactions on Signal Processing, 1997, 45(3): 600?616.
[8] ENGAN K, AASE S O, HUSOY J H. Multi?frame compression: theory and design [J]. EURASIP Signal Processing, 2000, 80(10): 2121?2140.
[9] AHARON M, ELAD M, BRUCKSTEIN A. KSVD: An algorithm for designing overcomplete dictionaries for sparse representation [J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311?4322.
[10] MAIRAL J, BACH F, PONCE J, at al. Online dictionary learning for sparse coding [C]// Proceedings of the 26th International Conference on Machine Learning. Montreal, QC, Canada: ICML, 2009: 689?696.
[11] 胡正平,徐波,白洋.Gabor特征集結合判別式字典學習的稀疏表示圖像識別[J].中國圖象圖形學報,2013,18(2):189?194.
[12] 宋長新,馬克,秦川,等.結合稀疏編碼和空間約束的紅外圖像聚類分割研究[J].物理學報,2013,62(4):1?10.
[13] 徐建,常志國,趙小強.以圖像分類為目標的字典學習算法[J].現代電子技術,2013,36(2):22?25.endprint