劉超穎 楊 健 李 俊
(南京理工大學計算機科學與工程學院 江蘇 南京 210094)
?
基于深度自編碼網絡的異質人臉識別
劉超穎楊健李俊
(南京理工大學計算機科學與工程學院江蘇 南京 210094)
針對異質人臉識別中對不同模態數據間關系建模的問題,提出一種基于深度自編碼網絡的異質人臉特征提取和識別方法。首先用一個深度降噪自編碼網絡從兩類異質人臉圖像中提取人臉的高階特征,并通過類別監督信號產生的目標函數來對網絡進行微調,最后利用最近鄰分類器對已提取特征分類,完成異質圖像間的匹配。在CUHK、AR、CASIA HFB、SVHN與MNIST數據集上的實驗結果表明,與目前基于子空間學習的異質人臉識別方法相比,該方法取得了更高的識別率,并且在基于異質圖像的數字識別上表現出一定優勢。
異質人臉識別深度自編碼網絡深層學習
人臉識別研究中,大部分所用的待識別人臉圖像和數據庫中的人臉圖像都是同一模態的圖像。然而在實際應用中待處理圖像可能來自多種模態,例如近紅外模態、可見光模態、素描模態等,這類不同模態人臉圖像之間的識別問題屬于異質人臉識別。2002年Tang等人[1]首先提出異質人臉識別問題,盡管最初異質人臉識別定義廣泛,但目前最熱門的兩個研究是素描人臉識別[2]和近紅外與可見光人臉識別[3],本文也將就這兩個問題展開討論?;谒孛璁嬒竦娜四樧R別是個人身份認證中的一項關鍵技術,在安全保衛、犯罪嫌疑人搜捕等法律執行方面具有較大的實用價值。另一方面,雖然近紅外人臉識別克服了可見光人臉識別中的光照問題,然而許多應用仍要求采用可見光圖像對人員進行登記注冊,原有近紅外人臉識別在這種情況下是不可行的。為了實現可見光與近紅外人臉的交叉注冊與認證,提出了近紅外與可見光人臉識別問題。
由于異質圖像成像機理不同,不同模態圖像間往往表現出巨大差異,因此采用以往單個模型的方法對異質圖像比較是不可行的。一個直觀的想法是減少不同模態圖像外觀上的差異,以提高人臉識別性能。Tang等[4]提出了一種方法,由素描合成偽照片,然后在照片模式下進行識別。Liu等人[5]針對該問題提出了一種非線性的方法,該方法基于流形學習中的局部線性嵌入LLE(Local Linear Embedding)將照片合成素描,然后利用非線性判別分析識別素描圖像。文獻[6]也提出了一種將可見光人臉圖像轉化為近紅外人臉圖像的方法。上述基于合成的方法主要是將異質圖像轉換到同一模態,再利用傳統的人臉識別方法進行識別。Lin等[7]提出了使用CDFE(common discriminant feature extraction)的方法,將兩類異質人臉圖像投影到一個含有鑒別特征的公共子空間。CDFE方法能取得較高的識別率,但訓練過程相對耗時,更適用于小樣本數的情況。Yi等人[3]提出一種方法,分別在近紅外和可見光人臉圖像空間建立PCA[8]或LDA[9]子空間模型,通過典型相關分析CCA(canonical correlation analysis)的方法學習子空間的線性變換以對不同模態圖像間的關系建模。Lei等[10]從圖形嵌入和光譜回歸的角度提出了耦合光譜回歸CSR(Coupled Spectral Regression)的方法,CSR方法較以往方法具有更好的泛化能力。
從學習的角度來說,上述淺層模型一方面在計算機視覺中只能從豐富的數據中提取一些簡單的特征,不能提取復雜結構的特征[11];另一方面在人工智能的任務中用大量的參數來表示一個功能,進而增加計算復雜度[12]。近年來在國際著名學者G. E. Hinton教授推動下,深層學習成為一種強有力的穩健分類方法,并且在語音識別[13,14]和圖像識別[15-17]等應用領域獲得了巨大的成功。針對異質人臉識別問題的特殊性、結合深層學習具有強大的數據特征學習能力的特點,本文提出了一種基于深度自編碼網絡的異質人臉識別方法。針對兩類不同模態的數據,采用兩個并行的深度自編碼網絡對異質圖像進行監督訓練,得到接近于類別信息的特征表,將網絡的最終輸出作為分類器的特征輸入,完成異質人臉匹配。如圖1所示,與原有方法相比,本文采用深層模型代替原有淺層學習模型,并且加入類別監督信號,將異質圖像投影到類別子空間,這類特征表示更具有分類能力。本方法有如下優點:(1)從深層學習的角度解決異質人臉識別中的特征表示問題,在訓練集與測試集類別重復情況下表現了監督訓練的優勢;(2)對旋轉圖像、真實環境圖像都有較好的處理能力;(3)模型直觀,可擴展到處理多模態異質圖像的識別問題。

圖1 兩類異質人臉識別問題示例
由于成像方式不同,同一個人的近紅外和可見光人臉圖像在表觀上存在著顯著差異。但是從認知的角度講,它們仍然可以被識別成為同一個人。這就意味著:1)近紅外和可見光圖像存在某種形式的關聯;2)存在可識別的不變特征。本模型是基于以降噪自動編碼器為結構單元的深度自編碼網絡,首先介紹降噪自動編碼器與深度自編碼網絡。
1.1降噪自動編碼器
自動編碼器[18]就是一種盡可能復現輸入信號的神經網絡,它假設自身的輸入與輸出是相同的,通過訓練調整網絡參數,得到每一層的訓練權重,則隱含層就是原始輸入信號的近似表達,從而實現了無監督的特征提取。降噪自動編碼器[19]是自動編碼器的一個變形,它對原始輸入加入噪聲得到一個受污染的輸入,降噪自動編碼器必須學習去除這種噪聲而還原真正的沒有被噪聲污染過的輸入,這就迫使編碼器去學習輸入信號的更加魯棒的表達,這也是它的泛化能力比傳統編碼器強的原因。

(1)

(2)
其中θ′={W′,b′},W′是d′×d的權重矩陣,W′可等于WT,此時稱網絡具有對稱權重,b′是偏移向量。

(3)

1.2深度自編碼器網絡
深度自編碼網絡[20]是由多個自動編碼器或其變形模型堆疊而成的神經網絡,前一層自動編碼器的隱含層輸出作為后一層自動編碼器的輸入,本文采用上述降噪自動編碼器作為深度自編碼網絡的結構單元。
類似于深度置信網絡[11],深度自編碼網絡采用逐層貪婪算法初始化網絡:首先采用無監督學習算法對低層的降噪自動編碼器進行訓練,生成第一層深度自編碼網絡的初始參數值;然后將第一層的輸出作為下一層的輸入,同樣采用無監督學習算法對該層參數進行初始化。在對多層進行初始化后,通常在頂層添加一個分類器,用監督學習算法對整個神經網絡進行微調。這里要指出的是,為了學習到更加魯棒的特征,逐層訓練時每一層降噪自動編碼器的輸入都需要加入噪聲。
由此,深度神經網絡的精髓就是模擬人的視覺系統對信息的分級處理過程,這是一個不斷迭代、不斷抽象的過程。高層的特征是低層特征的組合,特征表示也更抽象,更能表現語義或者意圖。而抽象層面越高,存在的可能猜測就越少,就越利于分類。
1.3實現細節
異質人臉識別的核心在于如何對不同模態數據的關系建模,同時保留其中具有鑒別能力的特征。顯然,類別信息是最具鑒別能力的特征之一?;诖讼敕?,本文以類別信號監督訓練兩個深度自編碼網絡,對兩類異質圖像間的關系建模。
以近紅外與可見光人臉識別為例,模型結構如圖2所示。深度自編碼網絡的輸入層神經元個數為圖像數據維度,輸出層神經元個數為目標類別個數,根據實驗效果調整網絡層數以及每個隱含層神經元個數。在訓練階段,采用深度自編碼網絡1對近紅外模態圖像進行訓練,深度自編碼網絡2對可見光模態圖像進行訓練,網絡的監督信號為類別信息。在測試階段,兩類異質圖像經過深度自編碼網絡投影到公共的類別子空間,采用最近鄰分類器完成異質人臉匹配。

圖2 模型示例
深度自編碼網絡可看作對異質圖像的特征提取過程,由于加入了類別監督,學習到的特征更具有分類能力。對輸出層特征采用最近鄰分類器即可完成異質人臉圖像的匹配。需要指出的是,由于深層學習是從樣本自身去學習特征,模型對樣本數量有一定要求,并且本方法是基于監督學習,因此它要求測試集的人都包含在訓練集中。
為了驗證上述模型的效果,本文在四個數據集上完成了三組實驗,分別針對素描與照片人臉識別、近紅外與可見光人臉識別以及手寫數字與街景數字識別,同時將本方法與現有異質人臉方法PCA+CCA[3]、LDA+CCA[3]、CDFE[7]、CSR[10]、DSR[21]進行了比較。在匹配階段,本文采用余弦距離衡量樣本點間的相似度,其中余弦距離表示為:
(4)
2.1素描與照片人臉識別
針對素描與照片人臉識別問題,本文在CUFS數據集[2]中的CUHK數據集與AR數據集上進行了實驗。CUHK數據集取自188名香港中文學生,每人對應一張照片圖像和一張素描圖像,共有376張人臉圖像。AR數據集包含123人,每人對應一張照片圖像和一張素描圖像,共有246張人臉圖像。其中,照片為彩色圖像、素描為灰度圖像,圖像維度均為200×250。
如1.3節所述,原始CUHK和AR數據集中樣例過少,訓練集與測試集的設置方案不符合本模型適用情況。為此本文對數據做如下處理:調整圖像大小,對每張圖像在-15度到+15度的范圍內進行旋轉,提取圖像中間20×20圖像塊作為實驗使用數據。經過上述處理,每人對應20張素描圖像與20張照片圖像,每人10張素描與10張照片作為訓練集,剩余圖像作為測試集,多次實驗以得到平均識別率。測試時以素描圖像作為匹配圖像,在一組照片圖像中找到與之匹配的照片。

表2 CUHK和AR數據集上性能對比%
從表2可以看出,相比于PCA+CCA、LDA+CCA、CDFE、CSR和DSR,本文方法在素描與照片人臉識別上性能有了一定的提高。分析原因是由于訓練集中已包含待驗證人員的先驗信息,通過引入監督信號,深度自編碼網絡能夠學習到素描圖像與照片圖像的高階特征,使得素描與照片人臉識別達到更佳的效果。
2.2近紅外與可見光人臉識別
針對近紅外與可見光人臉識別問題,本文在CASIA HFB數據集上[22]進行了實驗。CASIA HFB數據集由來自202個人的3002張近紅外圖像和2095張可見光圖像組成。這202人中,有2人未提供可將光照片,本文選擇剩余200人近紅外與可見光圖像驗證模型。在剩余200個人的2980張近紅外圖像和2095張可見光圖像中,2305張近紅外圖像與1678張可見光圖像作為訓練集,余下675張近紅外圖像與417張可將光圖像構成測試集,多次實驗以得到平均識別率。其中,人臉圖像均經過對齊、剪切處理,圖像維度為128×128,本文將圖像按比例縮減為32×32,并轉換成1024維列向量作為模型輸入。測試時,在一組可見光圖像中,找到與近紅外圖像匹配的圖像。

表3 CASIA HFB數據集上性能對比
從表3可以看出,本方法在CASIA HFB數據集上識別效果較PCA+CCA、LDA+CCA、CDFE、DSR更好,但略低于CSR。圖3給出了測試集中五組匹配失敗示例,可以看出存在表情(閉眼、微笑)、眼鏡等干擾因素。本模型匹配效果依賴于兩個深度自編碼網絡的學習能力,在處理近紅外人臉圖像時,單獨的深度自編碼網絡不足以克服上述干擾因素,因此直接影響了近紅外與可見光人臉識別的效果。

圖3 CASIA HFB測試集匹配失敗示例
第一行為近紅外圖像,第二行為對應的可將光圖像,第三行為按本方法匹配失敗得到的可見光圖像。
2.3手寫數字與街景數字識別

圖4 街景數字(左)與手寫數字(右)
手寫數字與街景數字同屬于異質圖像,如圖4所示,并且這兩類圖像表示更加真實豐富。為了驗證本方法解決真實環境下異質圖像識別問題的能力,本文結合MNIST數據集[23]與SVHN數據集[24],進行了如下實驗。
MNIST數據集是一個公共的手寫字體數據庫,它由類別號為0-9的60 000張訓練圖像與10 000張測試圖像組成。SVHN數據集由谷歌公司針對街景地圖應用采集而成,它包含大量更加真實、復雜的街景門牌號圖片。本文采用SVHN第二種格式數據進行實驗,它由類別號為0-9的73 257張訓練圖像與26 032張測試圖像構成,其中圖像被分割成以單個字符為中心的32×32數據。針對手寫數字與街景數字識別問題,本文選擇MNIST中60 000張訓練圖像與SVHN中73 257張訓練圖像作為訓練集,MNIST中10 000張測試圖像與SVHN中26 032張測試圖像為測試集,測試時,在一組手寫數字圖像中,找到與街景數字圖像匹配的圖像。如表4所示。

表4 MNIST-SVHN數據集上性能對比
由于SVHN數據集是將門牌號以單個數字切割成圖像的,很多圖像存在背景干擾與相鄰數字干擾,很大程度影響了街景數字的學習效果,因此手寫數字與街景數字識別效果沒有上述兩類識別問題正確率高。此外,PCA+CCA、LDA+CCA、CDFE、CSR和DSR方法必須基于對齊、規整的圖像,這類方法處理手寫數字與街景數字識別效果很差,在處理真實環境下異質圖像識別問題時,本模型表現出了一定優勢。
深度自編碼網絡具有強大的表達能力,它能夠學習到輸入數據更加有利于分類的高階特征。異質人臉識別的核心是學得到一種特征表示,使同類樣本距離更小、不同類樣本距離更大?;谏鲜鏊枷?,本文提出一種基于深度自編碼網絡的異質人臉識別方法,利用兩個并行的深度自編碼網絡對異質圖像間的關系建模,在現有數據集上都取得了較好的識別效果。本模型為利用深層學習解決異質人臉識別問題奠定了了基礎,同時也側面驗證了本方法處理真實環境下異質圖像識別的優勢。但是也有一些問題將在今后的工作中繼續探討,例如,本文的異質人臉識別情況只適合于內部人員交叉注冊認證的情況,如何不依賴于類別信息學習異質圖像間的關系是今后研究的重點。
[1] Tang X, Wang X. Face photo recognition using sketch [C]//2002 International Conference on Image Processing, Rochester, NY, USA, 2002. Rochester: IEEE, 2002,1:257-260.
[2] Wang X, Tang X. Face photo-sketch synthesis and recognition [J]. IEEE Transactions on Pattern Analysis and Machine intelligence, 2009, 31(11):1955-1967.
[3] Yi D, Liu R, Chu R, et al. Face matching between near infrared and visible light images[C]//2nd International Conference on Biometrics (ICB2007), Seoul, Korea, 2007. Seoul: Springer, 2007:523-530.
[4] Tang X, Wang X. Face sketch synthesis and recognition[C]//9th IEEE International Conference on Computer Vision (ICCV 2003), Nice, France, 2003. Nice: IEEE, 2003, 1:687-694.
[5] Liu Q, Tang X, Jin H, et al. A nonlinear approach for face sketch synthesis and recognition[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2005), San Diego, CA, USA, 2005. San Diego: IEEE, 2005, 1:1005-1010.
[6] Wang R, Yang J, Yi D, et al. An analysis-by-synthesis method for heterogeneous face biometrics[C]//The 3rd IAPR/IEEE International Conference on Biometrics (ICB 2009), Alghero, Italy, 2009. Alghero: Springer, 2009:319-326.
[7] Lin D, Tang X. Inter-modality face recognition[C]//9th European Conference on Computer Vision (ECCV 2006), Graz, Austria, 2006. Graz: Springer, 2006:13-26.
[8] Turk M, Pentland A. Face recognition using eigenfaces[C]//1991 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 1991), Maui, HI, 1991. Hawaii: IEEE, 1991:586-591.
[9] Belhumeur P, Hespanha J, Kriegman D. Eigenfaces vs.f isherfaces: recognition using class specific linear projection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(7):711-720.
[10] Lei Z, Li S. Coupled spectral regression for matching heterogeneous faces[C]// 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2009), Miami, Florida, USA, 2009. Miami: IEEE, 2009:1123-1128.
[11] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313:504-507.
[12] Bengio Y. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning, 2009, 2(1):1-127.
[13] Lee H, Pham P, Largman Y, et al. Unsupervised feature learning for audio classification using convolutional deep belief networks[C]//Advances in Neural Information Processing Systems 22 (NIPS 2009), Vancouver, British Columbia, Canada, 2009. Vancouver: MIT Press, 2009:1096-1104.
[14] Hamel P, Eck D. Learning features from music audio with deep belief networks[C]//11th International Society for Music Information Retrieval Conference (ISMIR 2010), Utrecht, Netherlands, 2010. Utrecht: International Society for Music Information Retrieval, 2010:339-344.
[15] Taylor G, Hinton G, Roweis S. Modeling human motion using binary latent variables[C]//Advances in Neural Information Processing Systems 19(NIPS 2006), Vancouver, British Columbia, Canada, 2006. Cambridge: MIT Press, 2007:1345-1352.
[16] Nair V, Hinton G. 3D object recognition with deep belief nets[C]//Advances in Neural Information Processing Systems 22 (NIPS 2009), Vancouver, British Columbia, Canada, 2009. Vancouver: MIT Press, 2009:1339-1347.
[17] Li J, Chang H, Yang J. Sparse Deep Stacking Network for Image Classification[C]//29th AAAI Conference on Artificial Intelligence (AAAI 2015), Austin, Texas, USA, 2015. Austin: AAAI Press, 2015:1-7.
[18] Bengio Y, Lamblin P, Popovici D, et al. Greedy layer-wise training of deep networks[C]//Twenty-First Annual Conference on Neural Information Processing Systems(NIPS 2007), Vancouver, British Columbia, Canada, 2007. Cambridge: MIT Press, 2007:153-160.
[19] Vincent P, Larochelle H, Bengio Y, et al. Extracting and Composing Robust Features with Denosing Autoencoders[C]//25th International Conference on Machine Learning (ICML 2008), Helsinki, Finland, 2008. Helsinki: ACM, 2008:1096-1103.
[20] Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research, 2010, 11(3):3371-3408.
[21] Huang X, Lei Z, Fan M, et al. A regularized discriminative spectral regression method for heterogeneous face matching[J]. IEEE Transaction on Image Processing, 2013, 22(1):353-362.
[22] Li S, Lei Z, Ao M. The HFB face database for heterogeneous face biometrics research[C]//6th IEEE Workshop on Object Tracking and Classification Beyond and in the Visible Spectrum (OTCBVS, in conjunction with CVPR 2009), Miami, Florida, 2009. Miami: IEEE, 2009:1-8.
[23] Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of The IEEE, 1998, 86(11):2278-2323.
[24] Netzer Y, Wang T, Coates A, et al. Reading Digits in Natural Images with Unsupervised Feature Learning[C]//NIPS 2011 workshop on deep learning and unsupervised feature learning, Granada, Spain, 2011. Granada: MIT Press, 2011(2):5.
HETEROGENEOUS FACE RECOGNITION BASED ON DEEP AUTO-ENCODER NETWORKS
Liu ChaoyingYang JianLi Jun
(SchoolofComputerScienceandEngineering,NanjingUniversityofScienceandTechnology,Nanjing210094,Jiangsu,China)
Considering the problem of modelling the relation between different modalities data in heterogeneous face recognition, we proposed a heterogeneous face feature extraction and recognition method, which is based on deep auto-encoder networks. The method first extracts the high-order feature from two kinds of heterogeneous face image respectively using one deep denoising auto-encoder networks. Then, it fine-tunes the network through the objective function generated by category monitoring signals. Finally, it uses nearest neighbour classifier to classify the extracted features so as to complete the matching of heterogeneous face images. Results of experiments conducted on datasets of CUHK, AR, CASIA HFB, SVHN and MNIST showed that, compared with existing subspace learning-based heterogeneous face recognition methods, the proposed one reaches higher recognition rate, and exhibits certain advantage in heterogeneous image-based digital recognition.
Heterogeneous face recognitionDeep auto-encoder networkDeep learning
2015-08-17。國家杰出青年科學基金項目(611253 05)。劉超穎,碩士生,主研領域:異質人臉識別,深度學習。楊健,教授。李俊,博士。
TP391.4
A
10.3969/j.issn.1000-386x.2016.10.039