田 澤 楊 明 李愛師
(南京師范大學計算機科學與技術學院 南京 210023) (zetian_edu@126.com)
人臉識別存在光照、表情、姿態、小樣本等挑戰性問題,同時,人臉識別的高維問題也增加了人臉識別的難度,通常使用經典的降維方法主要有LDA[1],LPP[2]和PCA[3],降維得到的子空間能夠提高人臉識別的準確率.但是這些方法對人臉識別存在的光照、表情等問題不具有良好的魯棒性.稀疏表示可以較好地解決這些問題.
稀疏表示[4]已經成為信號處理領域的強大工具.應用包括壓縮感知[5]、稀疏信號恢復[6]、圖像分割[7]以及信號分類.在這些應用領域中,信號通常可以由固定的字典來表示.基于這一理論,稀疏表示分類器被提出并應用于人臉識別.然而,固定的字典對于分類任務并沒有足夠的鑒別力,這就促進基于稀疏約束的字典學習研究.
字典學習可以分為無監督字典學習和有監督字典學習.KSVD[8]算法為無監督字典學習的典型代表,通過奇異值分解對字典原子進行更新.文獻[9]提出DKSVD算法,將線性分類器加入KSVD字典學習模型,促使KSVD算法具有分類能力.文獻[10]將鑒別性稀疏編碼誤差項加入DKSVD算法促使稀疏編碼的判別能力進一步加強.文獻[11]將Fisher判別準則嵌入到字典和稀疏編碼中,這促使稀疏編碼和字典都具有判別能力,但其僅考慮樣本中特有的信息,沒有考慮樣本間的共享信息.針對這一問題,文獻[12]提出利用低秩約束字典來獲得樣本間的共享信息,這增強了字典和稀疏編碼的判別能力.
此外,大部分有監督字典學習[9-12]都是先對數據進行降維再進行字典學習,這些方法不能從原數據集中獲得更為重要的特征,從而降低字典的學習能力.針對這一問題,稀疏嵌入框架[13]被提出,通過同時降維和字典學習的策略來增強字典和稀疏編碼的判別能力.文獻[14]通過約束投影矩陣正交來獲得緊湊的特征,但其投影矩陣的求解是不恰當的且收斂性不能被保證,因此降低了字典的學習能力.針對此問題,SEDL[15]通過Cayley[16]變換來保護投影矩陣的正交性,從而獲得重要和緊湊的特征.
針對上述所提字典學習的不足,本文提出一種稀疏約束下快速低秩共享的字典學習(FLRSDLSC)方法,并將其用于人臉圖像分類.本文的主要貢獻有3個方面:
1) 字典學習框架由特定類的字典和共享的子字典所組成.對于特定類的字典,嵌入Fisher判別準則;對于共享的子字典,嵌入低秩約束.因此,該方法能從樣本中獲得共享和特定類的特征,以此增強字典和稀疏編碼的判別能力.
2) 通過Cayley變換保護投影矩陣的正交性來獲得緊湊的特征.
3) 采用降維和字典學習同時進行的方法,增強字典對降維后樣本的表示能力.
Chen等人于2017年提出一種同時降維和字典學習的方法(SEDL)應用于人臉識別.其目標函數如下:

(1)
s.t.PTP=I,
其中,f(P,Y,D,X)為變量P,Y,D,X的函數,
(2)

(3)

(4)
Y=(Y1,…,Yc,…,YC)∈d×N表示大小為N的訓練數據集,Yc∈表示第c類訓練樣本,其中N=n1+…+nc+…+nC.降維的目標是學習投影矩陣P∈p×d(p Natarajan于2006年提出用稀疏近似解[17]去求解矩陣最小化問題,其目標函數如下: (5) 其中H∈s×dt是決策變量,L是線性映射,L將H從s維映射到p維.然而式(5)的求解是NP難問題.當式(5)的解就是核范數(即所有奇異值之和)的解.人們轉而求解如下凸優化問題: (6) 式(6)通過奇異值閾值[18]算法近似求解. (FLRSDLSC) 針對SEDL方法的不足,本文提出一種稀疏約束下快速低秩共享的字典學習方法.該方法學習特定類字典和共享子字典,以此增強字典和稀疏編碼的判別能力,同時采用字典學習和降維同時進行的方式.其模型定義如下: (7) s.t.PTP=I, 其中, (8) (9) Fig. 1 The relationship between variables in term (8)圖1 式(8)變量間的關系 λ1,λ2,η,λ3為正則化參數;X0列的均值向量為m0,X0的均值矩陣為M0=(m0,…,m0);D0∈為共享子字典,為總字典,為核范數正則化促使子字典D0具有低秩結構.X0代表Y在共享字典D0下的編碼系數,代表Y在總字典下的編碼系數. Fig. 2 The relationship between variables in term (9)圖2 式(9)變量間的關系 (10) 其中 (11) fP(D)=f(P,D)代表P固定D的函數,用式(11)求導后的結果和FISTA[19]算法對式(10)進行求解,式(11)求導如下: (12) 式(12)的第1分量推導如下: (13) (14) (15) 證明. 見附錄A. 式(12)的第2分量,使用引理3,推導如下: (16) (17) 式(14)和式(17)組合求解式(12). (18) 證明. 見附錄B. 式(18)運用ODL[20]算法進行求解. (19) 證明. 見附錄C. 基于引理3,式(19)簡化如下: (20) 式(20)使用ADMM[21]模型和奇異值閾值算法.ADMM過程如下:首先選擇一個正數ρ,初始化Z=U=D0,然后迭代求解如下子問題直到收斂: (21) 其中 (22) (23) Z=Kn ρ(Dc+U), (24) U=U+D0-Z, (25) 其中K為軟閾值運算符.式(21)的優化問題運用ODL算法進行求解. 2.2.3 更新降維矩陣P (26) 式(26)使用Cayley變換求解P,其求解簡化為 (27) (28) 通過對上述變量的更新,輸出P,D,D0,X,X0. (29) (30) 其中,w為平衡參數,mc為xc的列平均向量. 輸入:訓練集Y,參數λ1,λ2,λ3,η和最大迭代次數T; 7) 重復步驟2到步驟6,直到達到收斂條件或者滿足最大迭代次數; 我們的算法快速主要體現在更新稀疏編碼X和結構化(特定類)字典D上,本節比較了原始和高效的FDDL字典學習方法的復雜度.每個算法的復雜度被估計為一次迭代所需乘法的數量.假設:1)每類樣本數量是特定類字典數量的2倍,特定類字典數量與共享類字典數量是相同的.令nc=n,kc=k0=k;2)每類字典的個數、訓練樣本的數量都遠小于樣本維數,即k 在本節分析中使用以下事實:1)如果A1∈m1×n1,B1∈n1×p1,則矩陣乘法A1B1具有復雜度O(m1n1p1);2)如果A1∈n×n是非奇異的,則矩陣求逆的復雜度為O(n3);3)矩陣的奇異值分解A1∈p×q,p>q,其復雜度Ο(pq2). 1) 更新X(O-FDDL-X) 參考文獻[12],原始的稀疏編碼更新被分為C個子問題O-FDDL-X的復雜度: C2k(dn+qCkn+Cdk). (31) 2) 更新X(E-FDDL-X) 由引理1可知, (32) (33) (34) 3) 更新D(O-FDDL-D) 參考文獻[12],原始的字典更新被分為C個子問題,O-FDDL-D的復雜度: Cdk(qkn+C2n). (35) 4) 更新D(E-FDDL-D) 參考文獻[12],E-FDDL-D的復雜度: Cdk(Cqk+Cn)+C3k2n. (36) 表1,2分別展示原始的FDDL算法和高效的FDDL算法的復雜度分析與不同字典學習方法的總體復雜度分析. Table 1 Complexity Analysis for the Proposed Efficient Table 2 Complexity Analysis for Different Dictionary 選擇一系列參數集合:類別數為100、數據降維后的維度為50、數據維度為500、迭代次數為50、特定類與共享類字典數為10、每類訓練樣本為20,也就是C=100,n=20,d=500,q=50,k=10.假設q2=50.從表1,2可以得出高效FDDL算法相比原始FDDL算法實現低復雜度. 本文在4個公開的數據集上進行實驗:AR[22],Extended Yale B[23],CMU PIE[24],FERET[25]人臉數據集.對比的方法主要有SRC[4],LCKSVD[10],FDDL[11],LRSDL[12],SEDL[15],FLRSDLSC*.為了解釋聯合降維和字典學習的能力,固定降維矩陣的FLRSDLSC*的方式被提出.在所有實驗中,主成分分析的方法應用于數據的降維或者初始化SEDL,FLRSDLSC*的降維矩陣.在AR,the Extended Yale B,CMU PIE,FERET和AR性別數據集下,FLRSDLSC模型的訓練參數設置如下:λ1,η統一設置為0.001與0.003;λ2分別設置為0.2,0.2,0.2,0.001,0.2;λ4分別設置為0.5,0.3,0.4,0.3,0.5.其分類參數設置如下:w分別設置為1.2,0.1,1,1,0.1;λ1分別設置為0.001,0.3,0.001,0.01,0.01;λ2分別設置為0.1,10,1,1,1. 由實驗參數的設置可以看出,式(7)的第1項與第4項對FLRSDLSC的貢獻幾乎同等重要,說明獲得結構化(特定類)字典和防止病態降維的重要性;式(7)的第2,3,5項對FLRSDLSC的貢獻相對較小. AR數據庫由126個個體的4 000多幅圖像組成,這些圖像在照明、表情和配件方面各不相同.如文獻[15]中所述,使用包含100個個體中的1 400張圖像,其中50名男性,50名女性,其人臉圖像只存在表情和光照問題.圖3展示AR數據集中第1個人的樣本圖像.每一個個體隨機選擇7張圖片用于訓練,剩下的7張圖片用于測試.重復實驗10次以計算識別率的平均值和相應的標準偏差.所有實驗人臉圖像大小調整為60×43.在AR數據集上的對比實驗中,特征的維度通過PCA降至300. Fig. 3 Sample images of the first subject on AR dataset圖3 AR數據集第1個人的樣本圖像 表3展示不同的方法的識別率.在SRC,LCKSVD,FDDL和LRSDL字典學習方法中,LRSDL達到最佳性能為97.34%,比FLRSDLSC方法低0.5%左右.基于特征和字典聯合學習的SEDL方法獲得了第3高的識別率為94.21%,比LRSDL方法低3.1%左右,可以得出樣本間共享信息的重要性,比FLRSDLSC方法低3.7%,這是因為未考慮樣本中共享信息.實驗驗證我們的方法在光照、表情變化下人臉識別具有魯棒性. 圖4展示了不同維度的識別率.PCA+FDDL,PCA+LRSDL,JDDRDL,SEDL作為基準線進行比較.FLRSDLSC方法與其他方法相比在不同維度下都實現了最佳性能,并且在低維特征的人臉識別上仍然能獲得高分類性能,說明在表情和光照下的人臉圖像上具有良好的魯棒性.SEDL和FLRSDLSC方法在特征維數為450~600時識別率緩慢增加,到600維時開始降低,這說明增加維數對字典學習方法可能無效. Table 3 Recognition Rate on AR Dataset表3 在AR數據集下的識別率 Fig. 4 Recognition rate under different dimensions of features on AR dataset圖4 AR數據集下不同特征維度的識別率 表4展示用不同數量的樣本(4~7)進行訓練獲得的識別率.FLRSDLSC方法與3種經典方法(FDDL,JDDRDL,SEDL)進行比較,在不同數量的訓練樣本下都實現了最好的性能.當樣本為4時, Table 4 Recognition Rate with Different Numbers ofTraining Samples on AR Dataset FLRSDLSC方法在識別率上比SEDL高出15%左右,并且實現96.1%的準確率,說明對小樣本的人臉識別也是有效的.當樣本為5~7時,識別率增長地緩慢,但仍然要比其他方法要高至少3%. 圖5繪制了FLRSDLSC的收斂圖.如圖5所示,迭代次數從1增加到100,目標函數值從18.9下降到18.62且函數值在每次迭代中都下降并最終收斂. Fig. 5 The convergence of FLRSDLSC on AR dataset圖5 在AR數據集下FLRSDLSC的收斂性 Extended Yale B數據庫包含38個個體在各種光照條件下的2 414張圖像.圖6展示第1個個體在各種照明條件下的樣本圖像.對于每個個體,隨機選擇20張圖像進行訓練,其余用于測試.實驗重復10次,所有人臉圖像大小都調整為54×48.在Extended Yale B數據庫的對比實驗中,特征的維度通過PCA降至500. Fig. 6 Sample images of the first subject from Extended Yale B dataset圖6 Extended Yale B數據集中第1個人的樣本圖像 表5展示了不同算法下的識別率.在SRC,LCKSVD,FDDL和LRSDL字典學習方法中,LRSDL達到最佳性能為95.23%,但比基于聯合學習的SEDL模型低了1.3%左右.FLRSDLSC*的識別率高于SEDL大約0.2%,說明樣本間共享信息對字典學習的重要性.FLRSDLSC方法比FLRSDLSC*高出0.3%左右,這是因為降維時能獲得更為緊湊的特征. 圖7展現了不同維度下the Extended Yale B數據的識別率,對比方法有PCA+FDDL,PCA+LRSDL,JDDRDL,SEDL.在200~400維時,FLRSDLSC方法比其他算法有顯著的提升,再次說明其算法在低維特征人臉識別的有效性.當特征維度為700時,識別率達到最高,說明提高特征維數對字典學習起到了促進作用.與AR數據集不同的是SEDL在不同維度下的識別率比LRSDL高,展示在該數據集下SEDL通過降維和字典學習同時進行的方法能獲得更重要的特征,從而加強字典的判別能力. Table 5 Recognition Rate on Extended Yale B Dataset表5 在Extended Yale B數據集下的識別率 Fig. 7 Recognition rate under different dimensions of features on Extended Yale B dataset圖7 Extended Yale B數據集下不同特征維度的識別率 表6展示用不同數量的樣本進行訓練獲得的識別率,FLRSDLSC方法實現了最好的實驗效果,對比方法有PCA+FDDL,JDDRDL,SEDL.當訓練樣本為5時,JDDRDL獲得第2高的性能,但比FLRSDLSC方法少8%,說明了FLRSDLSC方法對于光照、小樣本問題的人臉識別具有魯棒性.在不同數量的訓練樣本下,FLRSDLSC都實現了最高的性能.當訓練樣本為20時,FLRSDLSC只比SEDL高出0.6%,展示了從樣本間提取共享信息的重要性. Table6RecognitionRatewithDifferentNumberofTrainingSamplesonExtendedYaleBDataset 表6ExtendedYaleB數據集下不同數量的訓練樣本的識別率 NumberREC±STD∕%FDDLJDDRDLSEDLFLRSDLSC568.6±2.070.4±1.970.3±1.778.4±1.41083.5±1.885.1±1.586.2±1.290.9±1.02094.4±0.695.7±0.696.6±0.697.2±0.4 CMU PIE數據集包含68個個體的41 368張圖像,圖像中含有不同的姿態、光照、表情等問題.如文獻[15]所述,取CMU PIE數據集的子集(C05,C07,C09,C27,C29)并且每個個體有170張圖片.圖8展示第1個個體不同姿態下的樣本圖像.每個個體隨機挑選20張圖片進行訓練,剩下的圖片作為測試樣本.重復實驗10次計算識別率的平均值和相應的標準偏差.所有人臉圖像大小調整成60×45.在CMU PIE數據庫的對比實驗中,特征的維度通過PCA降至500. Fig. 8 Sample images of the first subject from CMU PIE dataset圖8 CMU PIE數據集第1個人的人臉圖像 表7顯示我們的方法實現了最佳性能,識別率為94.21%,比SEDL高出約0.8%,說明樣本間的共享信息增強了在姿態、光照、表情問題下的人臉識別.LRSDL與SEDL的性能基本相同,意味著樣本間的共享信息與降維和字典學習同時進行的方式都能對鑒別性字典的學習起到促進作用. 圖9展示了不同維度下CMU PIE數據集的識別率,對比方法有PCA+FDDL,PCA+LRSDL,JDDRDL,SEDL.我們的方法在200,250維下的識別率要小于PCA+LRSDL的實驗結果,但在其他維度上都要好于其他算法,展示了姿態問題對降維和字典同時進行學習的影響.PCA+LRSDL的性能整體上要好于SEDL和JDDRDL,說明LRSDL模型中樣本間的共享信息對于解決人臉識別的姿態問題有著重要作用. Table 7 Recognition Rate on CMU PIE Dataset表7 CMU PIE數據集下的識別率 Fig. 9 Recognition rate under different dimensions of features on the CMU PIE dataset圖9 CMU PIE數據集下不同特征維度的識別率 Fig. 10 Sample images from FERET dataset圖10 FERET數據集樣本圖像 FERET數據庫由14 051張具有不同姿態、光照和表情的圖像組成.如文獻[15]所述,使用200個個體中帶有“ba”,“bj”和“bk”的圖像,即使用600張圖像進行實驗.圖10展示了FERET 數據集的部分樣本,每個個體使用“ba”和“bj”的圖像作為訓練集,剩下的一張圖片作為測試集.所有圖像大小調整成70×60.在FERET數據庫的對比實驗中,特征的維度通過PCA降至400. 表8展示了在FERET數據集下的識別率.SEDL實現第二高性能比FLRSDLSC*高出0.5%,它保護了投影矩陣的正交性,獲得了更緊湊的特征.FLRSDLSC實現了最高的識別率,展示了該方法在光照、表情下人臉識別的魯棒性. Table 8 Recognition Rate with Different Number ofTraining Samples on FERET Dataset 圖11展示了不同維度下FERET數據集的識別率,對比方法有PCA+FDDL,PCA+LRSDL,JDDRDL,SEDL.與AR,Extended Yale B數據集相似,FLRSDLSC在光照、表情下的人臉識別都要高于其他方法且在200維時高于其他方法5%,說明該方法適合解決光照、表情下的小樣本問題. Fig.11 Recognition rate under different dimensions of features on FERET dataset圖11 FERET數據集下不同特征維度的識別率 AR數據集通常用于性別分類的研究.如文獻[15]所述,使用1 400張圖像進行實驗,其中50名男性和50名女性.我們選擇隨機選擇25名男性和25名女性的圖像進行訓練,其余圖像進行測試,實驗重復10次.所有圖像大小調整為60×43.在AR性別數據集下的對比實驗中,特征的維度通過PCA降至300. 表9展示FLRSDLSC在AR性別數據集下取得最高的識別率并且高于SEDL方法,說明了該方法對光照、表情問題下的人臉識別具有魯棒性. Table 9 Recognition Rate with Different Numbers ofTraining Samples on AR Gender Dataset 本文提出了一種稀疏約束下快速低秩共享的字典學習(FLRSDLSC)方法.在字典學習階段,嵌入Fisher判別準則來獲得結構化字典,同時嵌入低秩約束獲得低秩共享字典;在特征學習階段,利用Cayley變換保護投影矩陣的正交性來獲得緊湊的特征信息.最后,特征和字典進行聯合學習促使字典獲得更為重要的特征信息,以此增強字典和稀疏編碼的判別能力.實驗結果表明該方法在表情變化下的人臉識別具有很強的魯棒性,并對光照起到了抑制作用,尤其適合解決光照、表情變化下的小樣本問題. TianZe, born in 1994. Master candidate. His main research interests include machine learning, pattern recognition and computer vision. YangMing, born in 1964. PhD, professor. Member of CCF. His main research interests include machine learning, pattern recognition, image processing and computer vision. LiAishi, born in 1994. Master candidate. His main research interests include machine learning and computer vision(liamgsal@gmail.com). 附錄 附錄A證明引理1. 先求f(Y,D,X)和g(X)的梯度. 的梯度,其函數重寫如下: 其中, 然后我們獲得 當目標函數定義如下: 我們推導出: 因此我們獲得: Mc-M我們重寫為如下2個式子: (A11) 然后推導如下: 現在我們證明 (A12) 然后我們推導出: (A13) 證畢. 附錄B. 證明引理2. (B1) 其中, (B2) (B3) 令: (B4) 根據Wj的定義,我們觀察到“左乘”矩陣Wj迫使矩陣在除了第j個塊行之外的任何地方都為零.同樣,“右乘”矩陣將只保留其j塊列.從而得到如下結果: (B6) (B7) 其中, 證畢. 附錄C. 證明引理3. 當P,Y,D,X固定,我們有 我們得到: 證畢.
1.2 矩陣秩最小化理論


2 稀疏約束下快速低秩共享的字典學習
2.1 FLRSDLSC模型構建






2.2 FLRSDLSC模型求解




























2.3 FLRSDLSC模型的分類




2.4 FLRSDLSC算法


3 復雜度分析
3.1 Fisher判別準則下的字典學習(FDDL)






3.2 復雜度計算
4 實驗與結果
4.1 AR人臉數據集





4.2 Extended Yale B數據集




4.3 CMU PIE數據集



4.4 FERET數據集



4.5 AR性別數據集

5 總 結




















