(寧波大學信息科學與工程學院,浙江 寧波 315211)
采用雙字典協作稀疏表示的光照及表情頑健人臉識別
龔飛,金煒,朱珂晴,符冉迪,曹燕
(寧波大學信息科學與工程學院,浙江 寧波 315211)
提出一種采用小波變換 (WT)及雙字典協作稀疏表示分類 (CSRC)的人臉識別方法——WT-CSRC。WT-CSRC首先利用PCA(主成分分析)將小波分解后的人臉高頻細節子圖融合成高頻細節圖像;然后用PCA分別對人臉低頻圖像和高頻細節圖像進行特征提取,構造低頻和高頻特征空間,并用訓練樣本在兩種特征空間上的投影集構造低頻字典和高頻字典;最后將測試樣本在兩種字典上進行稀疏表示,并引入互相關系數以增強人臉識別的可靠性,實現了人臉的協作分類。實驗結果表明,提出的方法提高了人臉識別率,對光照變化及表情變化具有較強的頑健性,并且具有較高的時間效率。
人臉識別;雙字典;協作稀疏表示;互相關系數
人臉識別技術因其在系統安全驗證、身份管理、信用驗證、智能家居等方面的巨大應用前景,成為一個當前模式識別和人工智能領域越來越熱門的研究方向[1],特別是隨著移動應用的發展,面向移動終端的人臉識別技術更是成為移動身份認證的重要手段。然而,現有的人臉識別技術大都僅在光照均勻、表情及姿態變化小、無遮擋等理想場景下才能取得較好的效果,而在實際應用中,終端可隨意移動,難以保證理想的成像條件,因此,非理想條件下的頑健人臉識別方法成為移動身份識別亟待解決的問題,特別是光照及表情頑健的人臉識別研究,仍然是當前人臉識別研究中的挑戰和熱點之一。
一般而言,人臉識別包括人臉特征的提取及相似度計算兩個環節;傳統全局特征提取算法如主成分分析[2](principal component analysis,PCA)、線性判別分析[3](linear discriminantanalysis,LDA)等在復雜人臉樣本上的識別率較低,對光照、表情變化等因素的頑健性較差。Wright等人[4]近年提出了一種基于稀疏表示分類(sparse representation-based classification,SRC)的人臉識別方法,該方法模仿人類的視覺壓縮感知特性,利用訓練樣本來線性表示測試樣本,最后通過最小殘差來實現人臉識別。稀疏理論為解決許多棘手的人臉識別難題提供了新思路,將稀疏表示分類應用于人臉識別成為近年來的研究熱點。Yang等人[5]將利用Gabor特征訓練字典,提出一種基于Gabor字典的稀疏表示分類(SRC)人臉識別方法——GSRC,該方法提高了人臉識別率,且具有一定的頑健性,但Gabor變換需要對人臉進行多尺度和多方向的分解,其計算過程復雜、識別時間較長;張勇等人[6]將LDA方法引入SRC,實現了一種基于線性判別和稀疏表示分類(LDA-SRC)的人臉識別方法,但由于LDA類內散度矩陣的奇異性問題,使得LDA-SRC在許多人臉識別問題上無法順利進行,并且該方法沒有考慮光照、表情、遮擋等因素的影響;Tang等人[7]提出了一種加權組(weighted group,WG)稀疏表示分類(SRC)的人臉識別方法 (WGSRC),該方法對混合l1,2范數進行加權處理,通過正則化重建誤差對樣本進行識別,WGSRC對人臉的姿態變化具有較好的頑健性,但是其權值是根據經驗設置的,并且其在光照變化較大的人臉庫上的識別率較低。
為解決以往人臉識別方法在光照變化、表情變化等情況下識別率下降的問題,本文提出一種結合小波變換(wavelet transform,WT)及雙字典協作稀疏表示分類(collaboration of double-dictionary’s sparse representation-based classification,CSRC)的人臉識別方法——WT-CSRC,WT-CSRC利用PCA方法融合人臉圖像小波分解后的高頻信息子圖,并提取人臉圖像的小波域特征,構造低頻和高頻特征空間,將訓練樣本在兩種特征空間下的投影集分別構造低頻字典和高頻字典,最后將人臉測試樣本在兩種字典上進行稀疏表示,并引入互相關系數進一步增強人臉識別的可靠性,實現了人臉的協作分類。實驗結果表明,本文方法不僅提高了識別率,而且對光照變化及表情變化等具有較強的頑健性。
小波分析因其具有多分辨率和多尺度分解的特點,為信號的時頻分析提供了一種高效的方法。對人臉圖像進行一層小波分解,可得到1幅低頻人臉圖像和3幅高頻人臉細節圖像。分解后的低頻圖像包含了原始人臉圖像的全局信息,集中了原圖像的主要能量,和原圖像最相似;而水平、垂直、對角這3個細節圖像代表人臉圖像面部的細節信息。其中,水平細節圖像包含了人臉輪廓中的眉毛、眼睛、嘴巴、胡須等水平細節信息,垂直細節圖像包含了人臉輪廓、耳朵、鼻子等垂直細節信息,而對角細節圖像不僅包含了部分水平細節信息和垂直細節信息,還受噪聲、光照、表情等因素影響。
主成分分析[2]是一種常用的特征提取和降維方法。用這種方法得到的主成分能夠反映原始變量的絕大部分信息。其操作原理如下:假設為含有m類的訓練樣本集,第 i類含有 n個樣本,i=1,2,…,m,j=1,2,…,n,這里是由大小為 M×N的人臉圖像矩陣按列堆疊成的向量,于是,訓練圖像的平均臉向量為:


C為對稱方陣,存在m×n個相互正交的屬于特征值λs的特征向量αs,即有Cαs=λsαs,s=1,2,…,m×n。將求出的λs按降序排列,λ1≥λ2≥…λs…≥λm×n, 并將對應的特征臉向量αs構成正交空間 Ωpca:

其中,Ωpca也稱為特征臉空間,p為特征臉向量的個數。
本文提出的人臉識別方法分別將人臉圖像小波分解的低頻圖像和高頻細節圖像作為兩個獨立的集合進行特征提取,最后再實現人臉的稀疏表示分類。在構造高頻細節人臉圖像集時,首先利用PCA方法對3幅高頻細節圖像進行融合。PCA融合算法可以保留原圖像的主要信息,利用PCA方法進行圖像融合,首先獲取原始圖像的協方差矩陣,然后計算協方差矩陣的特征值和特征向量,根據特征值的大小確定融合圖像算法中的加權系數,得到最終的融合圖像[8]。在融合3幅高頻子圖時,先對水平細節圖像和垂直細節圖像進行融合,再將得到的融合圖像與對角細節圖像進行融合,最終得到融合后的人臉高頻圖像。接下來再用PCA方法分別對人臉低頻圖像和融合后的高頻圖像進行特征提取,提取的特征臉如圖1所示,從圖1(a)和圖1(c)可以看出,低頻特征臉較為平滑,偏向于人臉全局特征的表達,可清晰地表達出不同明亮程度下的光照特征,與原始人臉圖像相比,低頻特征臉上的光照特征更易于分析和辨別;從高頻融合人臉圖像中提取出的特征臉表面比較粗糙,偏向于面部細節的表達,如圖1(b)和圖1(d)所示,人臉器官的細節特征在高頻空間上表現更加突出,通常情況下,人臉面部表情的變化體現在人臉面部器官細節的變化上,這些高頻細節特征有助于不同表情變化下的人臉識別。

圖1 兩種頻帶下的特征人臉及其特征表達
低頻特征臉所包含的信息雖然在面部細節上表達不明顯,但其包含了人臉信息的主要能量,展現出了人臉的主要輪廓,且對不同光照特征的表達也較為清晰;高頻人臉雖然在面部細節上的表達能力較為突出,但其并不能體現出人臉的特定輪廓。本文將人臉圖像在兩種頻域空間上的不同特征結合起來進行分析,使兩種不同頻域下的特征互相彌補,充分發揮出二者在不同光照和表情條件下人臉識別中的作用。
近年來,稀疏表示理論在信號、圖像處理領域得到廣泛應用[9]。稀疏表示的目的就是在合適的參考基底(字典)下,將觀測信號表示成盡可能少數原子的線性組合。在稀疏表示的分類識別應用中,通過求得測試樣本在訓練字典上的稀疏表示系數,就可根據表示系數的稀疏性與稀疏集中度衡量其類別屬性。
3.1 傳統稀疏表示人臉識別
在傳統稀疏表示人臉識別中[4],設X=[X1,X2,…,Xm]為含有m類目標的訓練樣本矩陣,第i類含有n個樣本,i=1,2,…,m,j=1,2,…是 Xi中的第j個訓練樣本。這里將X看作過完備字典為字典中的原子。對于第i類測試樣本y,可以用子字典Xi線性表示為:, 其中,αi,j為稀疏編碼系數。如果用整個字典X中的原子來線性表示y,則只有和子字典Xi相關的稀疏編碼系數不為0時成立,于是上述稀疏表示原理可表示為:

其中,E為稀疏約束常量,α=[0,…,0,αi,1,…,αi,ni,0,…,0]T是測試樣本y在字典X上的稀疏表示系數向量,理想情況下,α 中只有 αi,1,…,αi,ni不為0。這是一個NP難問題,在某些情況下,可等價于求解l1范數的凸問題[4]:

其中,ε為誤差常量,引入δi(α)來提取子字典Xi上的稀疏表示系數于是,測試樣本y可以用Xi重建如下:


3.2 雙字典協作稀疏表示人臉識別
本文提出了一種利用人臉圖像低頻字典和高頻字典進行協作稀疏表示分類的人臉識別方法。由第2節的介紹可知,人臉訓練樣本經過一層小波分解后,用PCA方法對分解得到的低頻圖像進行特征提取,構造低頻特征空間ΩL;然后用 PCA方法分別對融合后的高頻圖像進行特征提取,構造高頻特征空間ΩH;接下來分別將訓練樣本集在ΩL和ΩH上進行投影,得到樣本在兩種特征空間映射下的投影特征,分別為低頻特征XL和高頻特征XH,令DL=XL為低頻字典,DH=XH為高頻字典。對于測試樣本y,對其進行一層小波分解后的低頻部分為yL,3幅高頻細節圖像融合后的高頻部分為yH,利用第3.1節中的稀疏表示原理,在低頻字典和高頻字典上分別對 yL和 yH進行稀疏表示,最終將二者重建如下:



其中,cov(·)表示求兩個變量的協方差,D(·)表示求變量的方差。通過式(12)和式(13)求出測試樣本與兩個類別之間的相關系數后,將兩個相關系數絕對值的較大者所歸屬的類別確定為測試樣本y所屬的類別,即:

本文的雙字典協作稀疏表示分類人臉識別方法,其主要思想可描述為:利用低頻字典和高頻字典進行稀疏表示分類,二者互相監督,當二者的分類結果相同時,雙字典的作用在于增強分類結果的可靠性;一旦低頻字典和高頻字典的分類結果不相同,表明分類出現了沖突,互相監督起到了作用,引入相關系數來確定最終的分類結果,這種情況下,雙字典協作分類縮小了分類范圍,將最有可能的分類結果圈定在兩個類別之間,從而盡可能地減小了分類誤差。因此,在整個分類過程中,雙字典的組成成分不同, 二者互相監督、 互相糾正, 提高了WT-CSRC的分類準確性與可靠性,增強了人臉識別算法的頑健性。
下面將通過數值實驗來驗證本文所提出的人臉識別方法的有效性,實驗基于Yale B、JAFFE和AR 3個標準人臉庫,在3.30 GHz、4 GB內存、64 bit Windows 7的計算機系統下進行,實現工具為MATLAB(R2010b),實驗中的小波分解采用 db2小波基。本文選擇 PCA[2]、LDA[3]、SVM、SRC[4]、LDA-SRC[6]以及GSRC[5]6種代表性的人臉識別方法與提出的WT-CSRC進行對比。
4.1 光照頑健人臉識別實驗
Yale B人臉庫[11]中包含了10類人的640張不同光照變化下的人臉圖像,每張人臉圖像分辨率為192 dpi×168 dpi,根據光照角度與攝像光軸的角度,可將人臉圖像分為5個子集:子集1(θ<12°)、子集2(20°<θ<25°)、子集3(35°<θ<50°)、子集4(60°<θ<77°)、子集5(θ>78°),部分人臉圖像如圖2所示。

圖2 Yale B人臉庫上不同光照條件下的人臉樣本
由于θ的差異,進入成像系統的反射光線強度不同,從而使得不同θ下的人臉圖像表現出不同的感光特性,這與不同光照強度下的人臉具有同樣的特點。本文用Yale B人臉庫進行光照頑健性的測試。子集1~子集 5分別含有7、12、12、14、19張人臉圖像。實驗時將子集4中的14張人臉圖像用于訓練,剩下的子集用于不同光照條件下的測試實驗,識別率結果見表1。

表1 Yale B人臉庫上7種方法在不同光照子集下的識別率
從表1可以看出,WT-CSRC有較好的光照頑健性能,在幾種不同光照條件下的人臉子集上都保持了較高的識別率,尤其在光照強度變化最大的子集5上,識別率仍保持在90.00%以上,平均識別率達到97.07%。幾種對比方法中,基于特征臉的PCA方法的識別率最低,其次是LDA、SVM方法在某些子集上的識別率較高,但在光照變化最大的子集5上,其識別率較低,LDA-SRC和GSRC方法在子集5上的識別率還有待提高。對于識別的時間效率,在考慮圖像預處理所需時間的基礎上,對幾種算法的運行時間也做了分析和比較。
對于訓練時間,SRC直接利用訓練集對樣本進行稀疏表示分類,其訓練時間可忽略不計;PCA、LDA計算相對簡便,其訓練時間較短,約為2.00 s;GSRC方法由于需要訓練Gabor字典,其訓練時間最長,約為15.50 s;而本文算法的識別時間與LDA-SRC和SVM相近,約為3.00 s。
對于測試時間,實驗記錄了各個算法的平均測試時間(平均識別每個樣本的時間),GSRC的平均測試時間最長,約為21.50 ms,PCA、LDA以及SVM由于計算相對簡單,其平均測試時間最短, 本文算法的測試時間略短于LDA-SRC,約為15.4 ms。
上述實驗結果表明,本文算法不僅具有較強的光照頑健性,還具有較高的時間效率。
4.2 表情頑健人臉識別實驗
本文在 JAFFE人臉庫[12]上驗證幾種人臉識別方法的表情頑健性,該人臉庫包含了10類人的219張不同表情下的人臉圖像,本文選擇其中的210張人臉進行實驗,每人包含了21張6種不同表情(開心、難過、驚訝、生氣、害怕、沮喪)和中性表情的人臉圖像,每種表情有3張人臉圖像。部分人臉樣本如圖3所示。
實驗時,將每個人的3張中性表情人臉樣本用于訓練,用剩下6種表情的人臉樣本進行測試,最終的測試結果見表2。
從表2可以看出,本文方法對各種表情的識別率都較高,其平均識別率最高,達到96.67%。其他幾種方法只是對JAFFE人臉庫上的少數表情有較高的識別率。從識別時間效率上來看,GSRC需要的訓練時間和平均測試時間都較長,而本文提出的WT-CSRC方法僅比PCA和LDA的訓練時間略長,其平均測試時間也較短,約為10.50 ms。上述分析表明,本文算法的表情頑健性較好,時間效率也較高。
4.3 光照及表情頑健人臉識別實驗

圖3 JAFFE人臉庫上不同表情的人臉樣本

表2 JAFFE人臉庫上6種方法在不同表情下的識別率
為進一步驗證WT-CSRC對光照及表情有較強的頑健性,本文在AR人臉庫上對幾種方法的光照及表情頑健性同時進行驗證。AR人臉庫[4]上包含了126(男70、女56)個人在不同光照、表情下的 4 000多張人臉正面圖像,這些人臉圖像在兩個不同的時期(相隔兩周)采集得到,實驗中,共用到了100(男50、女50)個人的人臉圖像,每人用到了14張人臉圖像,如圖4所示。其中,前7張是從第一個時期采集的,用于訓練;剩下 7張是從第二個時期采集的,用于測試。每張圖像分辨率為165 dpi×120 dpi,共用到1 400張人臉圖像。

圖4 AR人臉庫部分人臉樣本
圖5給出了幾種方法在 AR人臉庫上的識別率曲線,可以看出,除在較低特征維數情況下WT-CSRC方法的識別率不是最高以外,在其他情況下,WT-CSRC方法的識別率都是最高的。GSRC從Gabor域變換的角度提取人臉在頻域的特征進行字典學習,也能取得不錯的識別效果;LDA-SRC在特征維數為150時,也能取得較高的識別率;傳統基于特征臉的PCA方法識別率最低,其光照和表情頑健性最差。WT-CSRC用低頻字典和高頻字典進行協作稀疏表示分類,充分利用了人臉圖像頻域的特征,從而取得了更好的識別效果。從算法運行時間上來看,GSRC在特征提取和字典學習時計算量較大,其運行時間最長,本文方法的訓練時間和測試時間均較短,僅略高于PCA和LDA,雖然PCA和LDA的運行時間較短,但其識別率較低。上述實驗分析表明,WT-CSRC在保持較強的光照及表情頑健性的同時,還具有較高的時間效率。

圖5 AR人臉庫上的識別率曲線
在實際的人臉識別應用中,姿態和遮擋也是必須要解決的問題,采用可擴展Yale B和AR人臉庫分別進行姿態和遮擋的人臉識別實驗[4],并與所選的6種方法進行比較。結果表明,WT-CSRC在識別率和時間效率上,仍然具有一定的優勢。這表明本文提出的算法,由于充分利用了人臉圖像的低頻、高頻信息,不僅對光照和表情人臉識別具有頑健性,而且在解決姿態和遮擋問題上,也具有一定的推廣價值。
本文提出一種結合圖像小波變換及雙字典協作稀疏表示的人臉識別方法,該方法利用小波變換對人臉圖像進行分解,并將分解后的3種高頻細節子圖用PCA方法融合成單一的高頻細節人臉圖像,從而分別對低頻人臉圖像和高頻細節人臉圖像進行特征提取,并分別構造低頻特征空間ΩL和ΩH高頻特征空間,然后將訓練樣本在 ΩL和ΩH上的投影特征構造兩種字典,即低頻字典DL和高頻字典DH,最后通過兩種字典的協作稀疏表示,并引入相關系數,增強了分類結果的可靠性,縮小了分類范圍并減小了分類誤差。在Yale B、JAFFE和AR人臉庫上的實驗表明,本文提出的方法在光照及表情變化下的人臉識別具有較高的識別率,其光照和表情頑健性較好,并且識別的時間效率也較高。接下來將著重研究如何提取出人臉圖像更加有效的特征,并降低算法的復雜度,以增強本文方法的實際應用能力。
[1] 蘇楠,吳冰,徐偉,等.人臉識別綜合技術的發展[J].信息安全研究,2016,2(1):33-39. SUN,WUB,XUW,etal.Thecomprehensivetechnology development of face recognition[J].Journal of Information Security Research, 2016,2(1):33-39.
[2]TURK M,PENTLAND A.Eigenfaces for recognition[J].Journal of Cognitive Neuroscience,1991,13(1):71-86.
[3]BELHUMEUR P,HESPANHA J,KRIEGMAN D.Egienfaces vs fisherfaces:recognition using class specific linear projection[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 1997,19(7):711-720.
[4]WRIGHT J,YANG A Y,GANESH A,etal.Robust face recognition via sparse representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(2):210-227.
[5]YANG M,ZHANG L.Gabor feature based sparse representation for face recognition with gabor occlusion dictionary[C]//European Conference on Computer Vision(ECCV’2010),September 5-11, 2010,Crete,Greece.Berlin:Springer-Verlag,2010:448-461.
[6] 張勇,黨蘭學.線性判別分析特征提取稀疏表示人臉識別方法 [J].鄭州大學學報(工學版),2015,36(2):94-98. ZHANGY,DANGL X.Sparse representation-based face recognition method by LDA feature extration[J].Journalof Zhengzhou University: Engineering Science,2015,36(2):94-98.
[7]TANG X,FENG G,CAI J.Weighted group sparse representation for undersamp led face recognition [J].Neurocomputing,2014, 145(18):402-415.
[8]潘瑜,孫權森,夏德深.基于PCA分解的圖像融合框架[J].計算機工程,2011,37(13):210-212. PAN Y,SUN Q S,XIA D S.Image fusion framework based on PCA Decomposition[J].Computer Engineering,2011,37(13):210-212.
[9]金煒,王文龍,符冉迪,等.聯合塊匹配與稀疏表示的衛星云圖修復[J].光學精密工程,2014,22(7):1886-1895. JIN W,WANG W L,FU R D,etal.Satellite cloud image inpainting based on patch matching and sparse representation[J].Optics and Precision Engineering,2014,22(7):1886-1895.
[10]CHEN N,XU Z,XIA M.Correlation coefficients of hesitant fuzzy sets and their app lications to clustering analysis[J].Applied Mathematical Modelling,2013,37(4):2197-2211.
[11]GEORGHIADES A,KRIEGMAN D,BELHUMEUR P.From few to many:illumination cone models for face recognition undervariable lighting and pose[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(6):643-660.
[12]LYONS M,AKAMATSU S,KAMACHI M,et al.Coding facial expressions with Gabor wavelets[C]//Third IEEE International Conference on Automatic Face and Gesture Recognition, April 14-16,1998,Nara,Japan.New Jersey:IEEE Press,1998: 200-205.
Illum ination and expression robust face recognition using collaboration of double-dictionary’s sparse representation-based classification
GONG Fei,JIN Wei,ZHU Keqing,FU Randi,CAO Yan
Faculty of Electrical Engineering and Computer Science,Ningbo University,Ningbo 315211,China
A face recognition method named WT-CSRC was proposed by using wavelet transform(WT)and a collaboration of double-dictionary’s sparse representation-based classification (CSRC).Firstly,the proposed method used principal component analysis(PCA)to achieve the fusion of three high-frequency detail sub-images which were generated by WT,and a integrated high-frequency detail image could be obtained;then,features extracted from the low-frequency images and high-frequency detail images by PCA were used to construct the low-frequency feature space and high-frequency detail space;and low-frequency dictionary and high-frequency dictionary could be constructed by samples’projection on two kinds of feature space.Finally,face images could be classified by a collaborative classification via sparse representation in two dictionaries,and the reliability of the recognition could be enhanced by using the cross correlation coefficient.Experimental results show that,the proposed method has high recognition rate with strong illumination and expression robustness with acceptable time efficiency.
face recognition,double-dictionary,collaborative sparse representation,cross correlation coefficient
TP391
:A
10.11959/j.issn.1000-0801.2017057

龔飛(1989-),男,寧波大學信息科學與工程學院碩士生,主要研究方向為模式識別、壓縮感知和圖像處理。

金煒(1969-),男,博士,寧波大學信息科學與工程學院副教授、碩士生導師,主要從事壓縮感知、模式識別和數字圖像處理等研究工作。

朱珂晴(1989-),女,寧波大學信息科學與工程學院碩士生,主要研究方向為模式識別和圖像處理。

符冉迪(1971-),男,寧波大學信息科學與工程學院副教授、碩士生導師,主要從事數字圖像處理、模式識別等研究工作。

曹燕(1993-),女,寧波大學信息科學與工程學碩士生,主要研究方向為數字圖像處理、模式識別。
2017-01-10;
:2017-02-23
國家自然科學基金資助項目(No.61471212);浙江省自然科學基金資助項目(No.LY16F010001);寧波市自然科學基金資助項目(No.2016A610091)
Foundation Item s:The National Natural Science Foundation of China(No.61471212),The Natural Science Foundation of Zhejiang Province of China(No.LY16F010001),The Natural Science Foundation of Ningbo of China(No.2016A610091)