黃 蓓
(東南大學信息科學與工程學院,南京210096)
由于人臉屬于三維非剛性體對象,因此其圖像易受到多種因素的影響,如人臉的相似性、姿態的多樣性和光照影響等.傳統子空間分析方法[1-8]以所有樣本的最優重構為目的,主要衡量不同樣本間存在的分類誤差,但只能發現全局的歐式結構.當數據呈現高度非線性時,只能描述統計意義下的數據分布.為此,Seung等[9]從神經生理學角度研究了流形學習問題,提出了感知和視覺記憶以流形的形式存在,并從認知學的角度指出圖像數據是高維空間中的流形.等距映射(isometric map)[10]和局部線性嵌入(locally linear embedding)[11]2 種流形學習算法實現了從高維數據中恢復低維流形結構.而局部保持投影算法(locality preserving projections)[12]將線性映射引入到拉普拉斯特征映射中,實現了線性化投影.此外,提高人臉識別精度還可以通過分類訓練的方式實現[13].
LDE算法[14]不僅利用樣本數據間近鄰關系來保持局部性,還引入了類別標記信息,其目的是保持其類內緊湊性的同時,增加類間可分性.但該算法同樣面臨高維小樣本問題和致密矩陣的分解問題,需要消耗很大的時間和空間,而譜回歸算法能夠很好地解決這些問題,因此,本文以LDE算法為基礎,提出了相應的修正算法.
LDE算法的目標函數為

式中,X表示圖的高維空間觀察數據集;D和DP為對角矩陣;W和WP為權重矩陣,且
定理1設y是Ly=λBy的特征值λ對應的特征向量,若y=XTa,則a是XLXTa=λXBXTa的廣義特征值λ對應的特征向量.
為了使得y=XTa有解,使用正則化最小二乘法對a添加L2范數懲罰項求取近似解:

式(2)的最優解為:a*=(XTX+μI)-1XTy.其中 μ為控制收縮的參數,選擇合適的μ值能減小偏差,達到最佳效果.
當μ>0時,a*不能滿足線性方程y=XTa,且a不是XLXTa=λXBXTa的特征向量.
定理2若y=XTa是Ly=λBy的特征向量,且y在X的行向量張成的空間,當μ趨于0時,投影向量a是XLXTa=λXBXTa的特征向量.
推論1若y是(D-W)y=λ(DP-WP)y的特征向量,且 y=XTa,則 a是 X(D-W)XTa=λX(DP-WP)XTa對應的特征向量.
證明

式中,y即為高維數據X的低維嵌入.為了得到投影向量a,對方程y=XTa進行分析,并最終采用嶺回歸方法求解,可得

當μ>0時,式(3)正則解不能滿足線性方程y=XTa.
推論2若y=XTa是(D-W)y=λ(DPWP)y的特征向量,且y在X的行向量張成的空間,當μ趨于0時,投影向量a是X(D-W)XTa=λX(DP-WP)XTa的特征向量.
證明假設rank(X)=r,對X進行奇異值分解,即

式中,Λ =diag(σ1,σ2,…,σr),U∈Rn×r,V∈Rm×r,UTU=VTV=I.y 存在于 X 的行向量張成的空間中,則y也存在于V的列向量張成的空間中.因此,y可以被V的列向量的線性組合所代替.另外,因為V是線性獨立的,因此這種組合方式是唯一的.假設組合系數是,則

為了進一步證明,引入偽逆的概念,X的偽逆可表述為X+=VΛ-1UT或若XTX是奇異矩陣,可知(XTX)-1不存在,則式(3)的最小二乘解為

聯合式(4),可得

所以,a為X(D-W)XTa=λX(DP-WP)XTa的特征向量.
傳統的流形學習求解方法是先得到投影向量a,再通過投影向量獲得測試數據集X.但該方法是先計算訓練樣本的特征向量y,然后再通過回歸方法計算投影向量a,最后得到測試數據集X.基于上述分析,SR-LDE算法不需要進行n×n維的致密矩陣的特征分解,其特征分解的矩陣為m×m維.在人臉圖像中,人臉特征的維數n通常遠遠大于人臉樣本數m,即m?n,從而有效地降低了算法的復雜性.
SR-LDE算法雖然解決了高維小樣本應用中矩陣奇異的問題,避免了致密矩陣的分解,但該算法通過求解廣義特征值而得到的投影矩陣是非正交的,不利于特征的提取,不能夠準確估計高維樣本集的內在維數,從而削弱了對測試樣本的泛化能力,影響了算法的識別率.為此,本文將求得的低維投影向量進行Gram-Schmidt正交化計算,則不但能夠實現正交化約束,且計算簡單,易于實現.
假設 y={y1,y2,…,yd}是降維后特征值 λ={λ1,λ2,…,λd}對應的特征向量,且 λ1<λ2<…<λd,d為降維后低維子空間的維數,則SR-LDE算法中求得的投影矩陣為 A=[a1,a2,…,ad].
令b1=a1,設k-1個正交基向量分別為b1,b2,b3,…,bk-1,則第 k 個向量可根據下式計算:

盡管B是正交矩陣,但不是單位正交化的標準正交基.因此,要添加約束使其滿足BBT=I,則H是主對角元的模均為1的上三角矩陣.
因為原投影矩陣的函數為

SR-OLDE的正交變換矩陣 B=AH,計算JSR-LDE(B)可得

由上述推導過程可看出,經過施密特正交化操作后,不會改變算法中優化問題的解.B=[b1,b2,…,bd]即為所求的標準正交投影矩陣.
為了驗證本文提出的SR-OLDE算法在人臉識別系統中能夠取得良好的效果,采用ORL人臉庫進行實驗.實驗環境為Pentium Dual-Core CPU E5400,主頻2.70 GHz,2 GB 內存.設 μ =0.01.下面通過比較 SR-OLDE算法和 PCA,LDA,LPP,LDE,SR-LDE算法的實驗效果,來展現SR-OLDE的性能.
ORL人臉庫由劍橋大學AT&T實驗室創建,包括40個人,每人10幅,共400幅面部圖像,其中有些人臉圖像是在不同時期拍攝的.ORL人臉庫中每個人的不同圖像均具有不同的表情和面部細節,如笑或不笑,戴或不戴眼鏡,眼睛睜開或閉著.所有圖像均是大致正面圖像(部分側轉旋轉角度不超過20°),人臉尺度變化不超過10%,每幅圖像的分辨率為92×112像素.在本實驗中,所有圖像的大小均被歸一化至64×64像素.
實驗時,隨機選取每個人的 G(G=2,3,4,5)幅圖像作為訓練集,其余10-G個樣本作為測試集,為了消除隨機因素的影響,對每個選定的G,其隨機選擇過程都重復10次,且每次實驗相互獨立,實驗的最終結果是這10次實驗所取的平均值.針對不同訓練樣本數,各種算法的最優實驗結果如表1所示.由于在不同訓練樣本數和測試樣本數時算法識別率和維數之間的關系是類似的,因此本文選擇G2/P8(G2/P8表示訓練樣本數為2,測試樣本數為8)繪制維數和識別率之間的關系圖,如圖1所示.

表1 不同訓練樣本時的各算法人臉識別率 %

圖1 不同算法的識別率與維數間的關系
由以上實驗結果分析可知,無論是傳統的子空間降維算法,還是流形學習算法,隨著測試樣本數量的增加,各種算法的識別率都提高了,而流形學習算法較傳統降維方法取得了更好的識別效果.本文SR-OLDE算法的實驗效果最好,因為它使用譜回歸算法求解,在解決小樣本問題的同時避免了致密矩陣的分解,另外,又采用Gram-Schmidt正交方法實現了投影矩陣的正交化,從而提高了識別率.
傳統的圖嵌入算法在處理大規模高維數據集時,通常由于計算復雜度較高,不宜直接應用,而譜回歸算法的提出可以避免致密矩陣的分解,有效地解決了大規模高維數據集的廣義特征值問題,從而縮短了計算時間.ORL人臉庫不同訓練樣本數所需的訓練時間如表2所示.其中,SR-OLDE算法訓練所需時間比SR-LDE所需時間長,這是因為進行正交化計算需要一定的計算時間.

表2 不同訓練樣本數所需訓練時間 s
在人臉識別過程中,由于流形學習算法比傳統的子空間降維算法具有更好的識別效果,因此本文選擇LDE算法作為研究對象.為改善LDE算法的高維小樣本泛化能力弱和致密矩陣分解計算量大等問題,首先通過引入譜回歸算法,提出了 SRLDE算法.然后,考慮到投影向量若非正交,則不利于特征提取和準確估計高維數據集的內在維數,從而削弱了測試樣本的泛化能力,影響識別率,因此,將Gram-Schmidt正交化方法引入到SR-LDE算法中,提出了SR-OLDE算法.最后,將改進的算法在ORL人臉庫中進行測試.實驗結果證明,SROLDE算法在識別率和計算速度方面都取得了比較好的效果.
References)
[1]Wiskott L,Fellous J,Kruger N,et al.Face recognition by elastic bunch graph matching[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):775-779.
[2]Kumar P P,Vadakkepat P,Loh A P.Graph matching based hand posture recognition using neuro-biologically inspired features[C]//11th International Conference on Control Automation Robotics and Vision.Singapore,2010:1151-1156.
[3]Kshirsagar V P,Baviskar M R,Gaikwad M E.Face recognition using Eigenfaces[C]//3rd International Conference on Computer Research and Development.Shanghai,China,2011:302-306.
[4]Huang S M,Yang J F.Subface hidden Markov models coupled with a universal occlusion model for partially occluded face recognition[J].IET Biometrics,2012,1(3):149-159.
[5]Du S,Shehata M,Badawy W.A novel algorithm for illumination invariant DCT-based face recognition[C]//25th IEEE Canadian Conference on Electrical and Computer Engineering.Montreal,QC,Canada,2012:1-4.
[6]Maria D M,Michele N,Daniel R,et al.Robust face recognition for uncontrolled pose and illumination changes[J].IEEE Transactions on Systems,Man,and Cybernetics:Systems,2013,43(1):149-163.
[7]He Y,Jin B,Yang S.Improving BP neural network for the recognition of face direction[C]//International Symposium on Computer Science and Society.Kota Kinabalu,Malaysia,2011:79-82.
[8]Jing X Y,Sun J,Yao Y F,et al.Supervised and unsupervised face recognition method based on 3CCA[C]//International Conference on Automatic Control and Artificial Intelligence.Xiamen,China,2012:2009-2012.
[9]Seung H S,Lee D D.The manifold ways of perception[J].Science,2000,290(5500):2268-2269.
[10]Tenenbaum J B,de Silva V,Langford J C.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290(5500):2319-2323.
[11]Roweis S T,Saul L K.Nonlinear dimensionality reduction by locally linear embedding[J].Science,2000,290(5500):2323-2326.
[12]He X F,Yan S C,Hu Y X,et al.Face recognition using Laplacianfaces[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(3):328-340.
[13]Brenda F K,Mark J B,Joshua C K,et al.Face recognition performance:role of demographic information[J].IEEE Transactions on Information Forensics and Security,2012,7(6):1789-1801.
[14]Chen H T,Chang H W,Liu T L.Local discriminant embedding and its variants[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Diego,CA,USA,2005:846-853.