田亞娜,童 瑩,曹雪虹
(1.南京郵電大學 通信與信息工程學院,江蘇 南京 210003;2.南京工程學院 通信工程學院,江蘇 南京 211167)
隨著信息技術的發展,高維數據的問題普遍存在,尤其是在許多模式識別和數據挖掘運用中,比如人臉圖像識別和生物基因數據分析等。在高維數據的分析和學習中,數據降維有著非常重要的作用。數據降維不僅使得數據便于存儲和計算,而且能夠去除數據冗余信息,找到高維數據的低維表示以利于分析。目前,已有許多種數據降維方法成功運用到模式識別、圖像處理等領域。
在現有的數據降維方法中,主成分分析(PCA)[1]和線性判別分析(LDA)[2]都是在圖像數據滿足高斯分布的假設條件下,計算圖像的全局歐式結構來進行降維分析,沒有分析局部結構特征。在實際運用中,很多人臉數據并不滿足高斯分布,而且高維數據的局部結構特征對表示圖像和圖像分類判別是非常重要的。后來,流形學習成了研究熱點,通過學習高維空間中樣本的局部鄰域結構,從高維空間中找到低維流形以實現維數約簡。最有代表性的流形學習算法有拉普拉斯特征映射(LE)[3]、局部線性映射(LLE)[4]和局部保持投影(LPP)[5]等。LE是用一個無向加權圖來描述一個流形圖,在保持圖的局部鄰接關系的情況下,從高維空間降到低維表示空間;LLE是尋找每個樣本的局部近鄰點并計算樣本的重建權值矩陣,通過保留嵌入在高維原始數據中的低維局部線性結構關系進行降維;LPP是構建高維空間中各樣本的遠近親疏關系圖,在降維投影時保持這種關系圖不變來分析數據的局部結構特征。盡管這些算法的實現方法不一樣,但它們的實現原理都可以統一到圖形嵌入框架[6]。也就是說,它們的區別在于圖結構的構造不同和邊權重的計算不同。圖結構的不同構造方法是不同降維算法的重點。LPP鄰接圖通過映射使得高維空間中鄰域范圍內的點在低維空間中盡可能近,同時使得其他不在鄰域內的點通過映射在低維空間中盡可能遠。而這些算法都非常依賴于參數的選擇,需要人工選擇鄰域大小參數和邊權重參數。
近年來,基于稀疏表示的方法在人臉識別中得到廣泛應用。Wright等[7]提出將稀疏表示用在圖像分類中,并且得到了很好的分類結果。文獻[8-9]中認為稀疏表示能夠很好地表征數據的局部結構關系。基于稀疏表示的概念,喬立山運用稀疏表示系數構建一種新的圖結構,提出稀疏保留投影(SPP)算法[10]。算法實現過程中,稀疏表示系數是通過最小化L1范數求得,因此這種鄰接圖又叫L1圖,L1圖的構建過程繼承了稀疏重構的優點,同時解決了人工參數選擇的問題。文獻[11-13]也相繼提出基于稀疏表示方法構建L1圖進行人臉識別。文獻[14]在最小化L1正則化目標函數中引入了類別信息再結合稀疏重構誤差來分析投影矩陣。文獻[15]提出了一種判別稀疏鄰域保持嵌入算法,通過結合SPP和最大邊緣準則進行投影,提高了人臉識別率。
在稀疏保留投影算法獲得重構關系時,既沒有利用不同類樣本的類別信息,也沒有充分考慮同類樣本間的相似問題。文中提出一種新的有監督的判別稀疏保留投影方法(DSPP)。首先利用樣本系數與類內樣本的平均系數之差來重新定義類內離散度,在獲得稀疏重構關系時,對每個訓練樣本僅利用和樣本同類別的其余樣本來線性表示,同時添加類內散度約束項以減小每個類的表示系數的變化。這樣得到的稀疏表示系數具有更好的判別能力,能夠保留不同類樣本之間具有判別性的結構信息,然后再通過最小化重構誤差準則,保留投影獲取有效的人臉特征信息來提高分類識別能力。
在人臉識別過程中,對原圖像直接分類判別能夠得到一定的識別率,可是受光照、表情、姿態等的變化會對人臉圖像的識別造成不利影響。為克服這些因素的影響,提取有效的表征人臉信息的特征也是至關重要的。梯度方向直方圖(histograms of oriented gradients,HOG)算子[16-17]是通過局部梯度大小和邊緣信息將圖像局部特征化,是一種局部信息描述算子。HOG特征具有很好的魯棒性,能夠很好地表征人臉的特征。文中在HOG算子提取圖像特征的基礎上,用DSPP方法降維處理再進行分類判別,并通過實驗對其進行驗證。
HOG算子[17]通過計算圖像局部區域的梯度,并統計分布在不同方向的梯度幅值,得到梯度方向直方圖來構成HOG特征。圖像的局部外觀和形狀通過局部梯度和邊緣信息得到很好的表征和描述。HOG特征具有對方向、尺度、光照的不敏感性,對圖像區域的小變化保持不變性。HOG算子提取圖像特征的過程如下:
(1)遍歷圖像的所有像素點,并計算各個像素點的梯度幅值和梯度方向,捕獲圖像邊緣信息,弱化光照的干擾。
(2)將圖像均勻劃分為2×2像素的單元(cell)并對每個單元的梯度方向進行統計。將[0,π]分為9個區間,平均每20°為一個區間(bin),這樣每個單元獲得一個9維的梯度方向直方圖。
(3)把相鄰的2×2個不重疊的cell組合成一個網格(block),將每個block塊內的4個cell的直方圖拼接,經過L2-norm標準化處理,得到一個block塊的梯度直方圖。
(4)將一張圖像劃分的所有block塊的梯度直方圖進行拼接,統計得到整個圖像的HOG特征。
對于大小為32×32的一幅圖像,可劃分為64(8×8)個block塊,得到的HOG特征維數為2 304(8×8×4×9)。HOG算子有良好的局部特性,對于光照等變化的影響具有魯棒性,是提取圖像特征的有效算子。
不同于LLE[4]、LPP[5]等流形學習方法,SPP[10]是利用稀疏表示的原理構建樣本之間的重構關系圖,再通過最小化重構誤差準則進行最優化投影,使得高維空間中樣本之間的重構關系在低維空間中保持不變。
受稀疏表示的啟發,每個圖像樣本可以由其余樣本稀疏表示,樣本之間的關系可以通過稀疏系數來表示。許多研究[18-19]表明,通過求解L1范數最小化可以得到最優稀疏表示系數。圖結構有效地表征數據之間的相互關系,用得到的稀疏系數構建的鄰接圖叫做L1圖,用L1圖結構來表示樣本圖像之間的關系。假設有n個訓練樣本,樣本集記為X=[x1,x2,…,xn],X∈Rm×n,通過求L1范數最小化問題構建鄰接圖ζ={X,W}來表示樣本之間的相互關系。對任一訓練樣本xi:
(1)
其中,Xi=[x1,…,xi-1,xi+1,…,xn]∈Rm×(n-1)表示除xi以外的其余訓練樣本構成的矩陣;wi=[wi1,…,wij,…,win]T∈Rn-1表示系數向量;wij表示訓練樣本xj對重構xi的稀疏表示系數值,系數值越大表示對應樣本和重構樣本越相似。再依次求得每個訓練樣本的稀疏表示系數向量,得到W=[w1,…,wi,…,wn],也就構建完成L1鄰接圖。
由得到的L1鄰接圖,根據最小化重構誤差準則,通過最優化目標函數得到一個線性投影,使得樣本之間的重構關系在降維前后保持不變,其目標函數是:
(2)

X(W+WT-WTW)XTp=λXXTp
(3)
將訓練樣本和測試樣本分別在投影矩陣上進行投影降維,然后再進行分類識別。SPP算法利用L1范數最小化問題分析樣本之間的稀疏重構關系,既沒有人工參數選擇,也具有很好的魯棒性和適應性,在人臉識別中得到明確的驗證和運用。
稀疏保留投影算法在構建圖結構時用其余所有的訓練樣本線性表示某一個樣本,保留高維空間中數據的稀疏重構關系,沒有利用不同樣本的類別信息,也沒有充分考慮同類樣本之間的相似性。為了提高SPP算法的分類識別性,文中提出了一種判別稀疏保留投影算法(DSPP)。該算法利用樣本的標簽信息同時添加類內散度約束項,獲得樣本的稀疏重構關系,通過構建新的具有判別性的鄰接圖結構來保留樣本之間的相互關系,再由最小化重構誤差得到最優線性投影,從而提取更有效的人臉信息進行分類識別。

(4)
其中,xi為任意一個訓練樣本;X為由除xi以外并且和xi有相同類別的訓練樣本組成的矩陣;si為X訓練樣本集對樣本xi的線性表示系數;λ為大于零的參數。
有研究[20]表明,L1范數的稀疏約束在基于稀疏表示的人臉識別中沒有起到至關重要的作用,這里用F范數替代L1范數對系數進行正則化約束。Γ是與xi有相同類別的所有樣本的平均表示系數,最小化目的是使相同類別的樣本的表示系數接近它們的平均值,以減小每類的系數向量的變化,使每類類內散度最小化。
式(4)變形化簡得到:
(5)
式(5)對si求偏導,并令偏導式右邊等于0,整理可得到最優si:
si=XTX+(λ+1)-1(XTxi+Γ)
(6)
由計算得到si=[si1,…,sij,…,sini],j∈X,構建新的樣本之間的鄰接圖關系ζ={X,W},其中W=[w1,…,wi,…,wn]∈Rn×n,wi=[wi1,…,wij,…,win]T,wij定義為:
(7)
上述鄰接關系圖的構建過程中,不僅利用不同類樣本的類別信息,而且充分考慮了同類樣本集的相似性,通過計算稀疏表示系數很好地表示了樣本之間的關系。
圖結構矩陣W表示了高維空間中各樣本之間的內在關系,為了在低維空間中最大限度地保留這種關系,類似SPP算法,通過最小化重構誤差函數得到最優投影:
(8)
其中,P為投影矩陣;wi為樣本xi的稀疏重構系數;約束項是為了防止退化解。
通過數學公式推導,可轉化得到如下最優化問題:
s.t.PTXXTP=I
(9)
令Wβ=W+WT-WTW,為計算嚴謹,轉換最小化問題為求解一個最大化問題。
(10)
求解最優解P即轉化為求解廣義特征值問題,XWβXTp=λXXTp,選取前d個最大特征值對應的特征向量構成投影矩陣,記為WDSPP=[p1,p2,…,pd]。將訓練樣本X在WDSPP上進行投影,得到一個d×n維矩陣,同樣也將測試樣本在WDSPP上進行投影,得到具有判別性的人臉信息后再進行分類識別。

為了驗證算法的有效性,與其他算法(PCA[1]、LDA[2]、LPP[5]、LSDA[21]、SPP[10])進行比較。DSPP算法中,參數λ設置為0.05。文中采用Extended Yale B人臉庫[22]和LFW人臉庫[23]進行實驗。所有實驗采用稀疏表示分類方法進行分類識別,通過用訓練樣本集對測試樣本進行稀疏表示,求出稀疏系數向量,根據系數向量對測試樣本在每個類上進行重構,分別計算測試樣本和每類的重構樣本之間的殘差,將測試樣本判別為殘差最小的類。
Extended Yale B庫包含38類人在光照條件變化的情況下獲得的人臉照片,圖像大小為192×168,每類人有大約64張,共2 414張正面對齊圖像。選取有64張圖像的人臉作為實驗數據,共31類,共1 984張圖像,并且每張圖像大小裁剪調整為32×32大小,并進行歸一化處理。圖1為Extended Yale B人臉庫中某類人的一些樣本圖像。

圖1 Extended Yale B庫的樣本圖像
實驗包括兩部分,分別是對人臉原圖像的分類識別和基于原圖像HOG特征的分類識別。在每類人的圖像中隨機選取10個樣本進行訓練,其余樣本用于測試,重復進行10次,最后計算得到平均值和標準偏差。表1是對Extended Yale B庫的人臉原圖像在不同方法下的平均識別率和標準偏差;表2是在Extended Yale B庫人臉圖像HOG特征的基礎上再利用不同方法降維的平均識別率和標準偏差。

表1 Extended Yale B庫原圖像的實驗結果

表2 Extended Yale B庫圖像HOG特征的實驗結果
從表1可以看出,文中提出的DSPP算法的識別率相比其他算法有很大提升,提高到89.10%,主要原因是DSPP算法實現過程中同時考慮了不同類的類別信息和相同類的離散度信息,在降維過程中更充分地保持了數據的內在結構和便于分類的結構信息,從而更好地提高了識別率。結合表1和表2可以看出,相比原圖像的分類判別,基于人臉圖像HOG特征的分類判別結果有明顯提高,主要原因是HOG算子是具有魯棒性的局部特征描述子,HOG特征很好地表征了圖像的局部特征,提取了有效的人臉特征信息,從而取得了較高的識別率。
LFW庫包含5 749類人的13 233張人臉圖像,圖片大小為250×250,其中1 680類人有兩張以上的圖片,剩余的4 069類人只有一張圖片。實驗中,選取有20張以上(包括20張)圖像的人臉作為實驗數據,共62類,共3 023張圖像。基于圖論的視覺顯著性算法對圖像檢測人臉區域,并調整圖像大小為128×128,再進行歸一化處理。圖2為LFW人臉庫中某類人的一些樣本圖像。

圖2 LFW庫的樣本圖像
實驗包括兩部分,分別是對人臉原圖像的分類識別和基于原圖像HOG特征的分類識別。實驗過程中,對每類人的圖片分別隨機選取10個樣本進行訓練,其余樣本用于測試,即有620個訓練樣本,2 403個測試樣本,重復進行10次,最后以計算得到的平均值和標準偏差作為最后的識別結果進行分析。結果如表3和表4所示。

表3 LFW庫的原圖像的實驗結果

表4 LFW庫的圖像HOG特征的實驗結果
從表3可以看出,對LFW人臉庫原圖像分類判別,DSPP算法取得57.06%的識別率,比PCA、LDA、LPP、LSDA、SPP的識別結果分別提高22.74%、7.13%、8.31%、11.55%、18.82%,識別效果提高明顯。
從表4可以看出,在LFW庫人臉圖像HOG特征的基礎上,DSPP算法的識別率達到77.93%,比對人臉原圖像識別結果提高20.87%,充分驗證了該算法的可行性和有效性。
提出一種新的判別性稀疏保留投影算法,在構建數據間的稀疏重構關系時,同時考慮樣本不同類的類別信息和相同類的類內散度信息,保持了數據具有判別性的內在結構信息,提高了人臉圖像的識別率。鑒于HOG算子能夠描述圖像的局部特征,克服了圖像對光照、姿態等變化的影響,具有很強的魯棒性。所以該算法能夠提取得到更有效的人臉特征信息,使得人臉識別效率有了進一步的提高。
[1] ABDI H,WILLIAMS L J.Principal component analysis[J].Wiley Interdisciplinary Reviews:Computational Statistics,2010,2(4):433-459.
[2] IZENMAN A J. Linear discriminant analysis[M]//Modern multivariate statistical techniques.New York:Springer,2013:237-280.
[3] BELKIN M,NIYOGI P.Laplacian eigenmaps for dimensionality reduction and data representation[J].Neural Computation,2003,15(6):1373-1396.
[4] ROWEIS S T,SAUL L K.Nonlinear dimensionality reduction by locally linear embedding[J].Science,2000,290(5500):2323-2326.
[5] HE X,YAN S,HU Y,et al.Face recognition using Laplacianfaces[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(3):328-340.
[6] YAN S,XU D,ZHANG B,et al.Graph embedding and extensions:a general framework for dimensionality reduction[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(1):40-51.
[7] WRIGHT J,YANG A Y,GANESH A,et al.Robust face recognition via sparse representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(2):210-227.
[8] WRIGHT J,MA Y,MAIRAL J,et al.Sparse representation for computer vision and pattern recognition[J].Proceedings of the IEEE,2010,98(6):1031-1044.
[9] ELHAMIFAR E,VIDAL R.Sparse subspace clustering:algorithm,theory,and applications[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(11):2765-2781.
[10] QIAO L,CHEN S,TAN X.Sparsity preserving projections with applications to face recognition[J].Pattern Recognition,2010,43(1):331-341.
[11] YANG J,CHU D,ZHANG L,et al.Sparse representation classifier steered discriminative projection with applications to face recognition[J].IEEE Transactions on Neural Networks and Learning Systems,2013,24(7):1023-1035.
[12] 杜 春,孫即祥,周石琳,等.基于稀疏表示和非參數判別分析的降維算法[J].國防科技大學學報,2013,35(2):143-147.
[13] GAO Q,HUANG Y,ZHANG H,et al.Discriminative sparsity preserving projections for image recognition[J].Pattern Recognition,2015,48(8):2543-2553.
[14] ZANG F,ZHANG J.Discriminative learning by sparse representation for classification[J].Neurocomputing,2011,74(12):2176-2183.
[15] GUI J,SUN Z,JIA W,et al.Discriminant sparse neighborhood preserving embedding for face recognition[J].Pattern Recognition,2012,45(8):2884-2893.
[16] DALAL N,TRIGGS B.Histograms of oriented gradients for human detection[C]//IEEE computer society conference on computer vision and pattern recognition.[s.l.]:IEEE,2005:886-893.
[18] CHENG B,YANG J,YAN S,et al.Learning with l1-graph for image analysis[J].IEEE Transactions on Image Processing,2010,19(4):858-866.
[19] YANG Y,WANG Z,YANG J,et al.Data clustering by Laplacian regularized L1-graph[C]//Twenty-eighth AAAI conference on artificial intelligence.[s.l.]:[s.n.],2014:3148-3149.
[20] ZHANG L,YANG M,FENG X.Sparse representation or collaborative representation:which helps face recognition?[C]//2011 International conference on computer vision.[s.l.]:IEEE,2011:471-478.
[21] GAO Q,LIU J,CUI K,et al.Stable locality sensitive discriminant analysis for image recognition[J].Neural Networks,2014,54:49-56.
[22] LEE K C,HO J,KRIEGMAN D J.Acquiring linear subspaces for face recognition under variable lighting[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(5):684-698.
[23] HUANG G B,RAMESH M,BERG T,et al.Labeled faces in the wild:a database for studying face recognition in unconstrained environments[R].Amherst:University of Massachusetts,2007.