


摘 要: 針對人臉識別中由于姿態(tài)、光照等變化而影響識別性能的問題,提出了字典學(xué)習(xí)優(yōu)化結(jié)合HMAX模型的人臉識別方法。首先,使用樣本圖像和從樣本獲得的仿射包模型聯(lián)合表示一幅圖像;然后,利用HMAX模型提取C2特征,并利用字典學(xué)習(xí)優(yōu)化特征矩陣;最后,將視覺注意模型與原始模型的C2特征進行組合,并利用支持向量機完成分類。在Caltech和AR人臉數(shù)據(jù)庫上的實驗結(jié)果表明,相比其他幾種較新的人臉識別方法,提出的方法取得了更好的識別性能,對人臉表情和光照變化具有魯棒性。
關(guān)鍵詞: 人臉識別; HMAX模型; 魯棒性; 支持向量機(SVM); 字典學(xué)習(xí)優(yōu)化
中圖分類號: TN911.73?34; TP391.4 文獻標(biāo)識碼: A 文章編號: 1004?373X(2016)15?0053?05
Abstract: Since the variation of attitude and illumination in face recognition may affect on the recognition performance, a face recognition method combining dictionary learning optimization with HMAX model is proposed. In the method, the combination of sample image and affine package model got from the sample image is used to express an image; after that the HMAX model is used to extract the C2 features, and the eigenmatrix is optimized with dictionary learning; and then the C2 features of visual attention model and original model are combined, and classified with support vector machine (SVM). The results of experiment relied on Caltech and AR face database show that, in comparison with other advanced face recognition methods, the proposed method has better recognition performance, and has the robustness for the variation of facial expressions and illumination.
Keywords: face recognition; HMAX model; robustness; support vector machine; dictionary learning optimization
0 引 言
人類視覺系統(tǒng)可識別人臉,盡管光照、大小、位置、表情和視角有變化[1]。最近幾年,人臉識別及其在生物特征識別、模式識別和計算機視覺上的應(yīng)用成為研究的熱點[2]。基于人臉識別發(fā)展的需求,最近關(guān)于人類視覺系統(tǒng)和視覺注意的大腦機制引起了很多關(guān)注[3]。
視覺系統(tǒng)劃分為兩個主要處理流[4]:背側(cè)流(從主視覺皮層到頂葉皮層),其用于控制眼睛運動和視覺注意;腹側(cè)流(從主視覺皮層朝顳葉,包括V1,V2,V4,后顳(PIT)和前顳(AIT)),其處理目標(biāo)和人臉的細節(jié)。背側(cè)和腹側(cè)流并不完全獨立,且在更高區(qū)域,例如前額葉皮層(PFC)和V4,通過相互影響連接交互[5]。
腹側(cè)流皮層的部分比喻已經(jīng)用于典型計算機視覺中的許多計算模型中,但是,大部分模型僅模仿腹側(cè)流,而不考慮視覺注意和腹側(cè)流區(qū)域之間的連接。因此,改進必須集成視覺注意模型和分層腹側(cè)流模型[6]。這些模型中,基于特征組合的物體識別框架(HMAX)[7]是一種強大的計算模型,其建模視覺皮層中人類腹側(cè)視覺流的目標(biāo)識別機制。文獻[8]中提出了具有學(xué)習(xí)能力的HMAX模型,增強了模型的性能。腹側(cè)流HMAX模型的C2特征用于人臉識別和手寫識別。近幾年,開發(fā)出了各種腹側(cè)流HMAX模型以增強該模型的效率,所有這些模型中,已有許多特征選擇方法[9?11]。文獻[9]提出了稀疏局部特征模型(SLF),是HMAX模型的擴展版本,該模型相比HMAX模型具有更好的性能,更加依賴視覺皮層。文獻[10]提出了視覺注意的基本計算模型,是大部分新模型的基礎(chǔ)模型,文獻[11]提出了基于HMAX模型和頻譜剩余方法的混合C2特征,增強了目標(biāo)識別系統(tǒng)中HMAX模型的性能。上述方法在一定程度上改善了識別性能,然而,當(dāng)姿態(tài)、光照、表情變化較大時,識別率卻嚴重下降,且很難同時對姿態(tài)、光照、表情等具有魯棒性[12]。
基于上述分析,本文提出了字典學(xué)習(xí)優(yōu)化結(jié)合HMAX模型的人臉識別方法,創(chuàng)新點為:將HMAX模型提取的特征與原始C2特征進行組合,以通過視覺注意模型訪問人臉圖像顯著點的關(guān)鍵位置,從這些區(qū)域提取有效C2特征進行魯棒性人臉識別;提出的方法利用字典學(xué)習(xí)優(yōu)化,可對HMAX模型提取的特征進行最優(yōu)化,保留更多的有用信息。
1 人臉表示
使用樣本圖像和從樣本獲得的仿射包模型聯(lián)合表示一幅圖像,因為同時包括樣本和結(jié)構(gòu)信息,所以該聯(lián)合表示更具魯棒性。令[Xc=[x1,x2,…,xnc]]表示第[c]個圖像集,其中,[xi]是第[i]幅圖像的特征向量,類的仿射包估計為:
2 人臉學(xué)習(xí)
2.1 利用HMAX模型提取特征
C1特征模擬皮層的V1V2區(qū)域中的復(fù)雜細胞,具有相同特征類型(方向)作為S1,這些特征集中附近的S1特征(具有相同方向),以實現(xiàn)較大局部區(qū)域上位置和尺度不變,其結(jié)果也可子采樣S1,以減少特征數(shù)。C1特征的值是(方向)落在最大濾波器內(nèi)的最大S1特征的值[8]。S1特征模擬視覺區(qū)域V4和后路推斷時間(PIT)皮層,包含調(diào)整目標(biāo)?部分的類RBF單元并計算輸入C1塊和存儲的原型之間的距離函數(shù)。S2特征從隨機位置具有各種[n×n]([n×n]=4[×]4,8[×]8,12[×]12和16[×]16)大小和四個方向的[K(P=1,2,…,K)]個塊的訓(xùn)練集學(xué)習(xí)(因此,大小為[n×n]的塊[P]包含[n×n][×]4個元素)。然后,S2特征扮演高斯RBF單元,計算輸入模式[X]和存儲的原型[P]之間的相似度分數(shù)(即歐氏距離):[f(X)=exp-X-P2(2σ2),]選擇的[σ]與塊大小成比例。C2特征模擬顳皮層(IT)并在整個視野執(zhí)行最大運算,提供刺激的中間編碼。因此,對于每幅人臉圖像,計算C2的特征向量并用于人臉識別。這些特征具有魯棒性,C2特征的長度等于從圖像中提取的隨機塊數(shù),平滑且具有尺度不變性。
2.2 非約束字典學(xué)習(xí)優(yōu)化
得到最優(yōu)[X∈RK×N]后,利用單獨的優(yōu)化程序?qū)D]的每個原子項進行優(yōu)化,令[dj∈Rm]為[D]的第[j]原子項,定義[xj?∈R1×N]的行向量為[X]的第[j]行,將[X]和所有原子項固定,改寫式(6),構(gòu)建優(yōu)化問題:
3 分 類
為了建模人臉識別系統(tǒng),將HMAX提取的特征與原始模型C2特征合并,以增強用于人臉識別的C2特征,并使用支持向量機(SVM) [14]分類,完成人臉識別。本文提出的人臉識別方法框架,如圖1所示。
提出的人臉識別方法的過程如下:
(1) 從數(shù)據(jù)庫讀取人臉圖像并預(yù)處理;
(2) 對于每幅人臉圖像,用式(8)整合顏色顯著點、強度顯著點和方向顯著點,并選擇[N]個注意點;
(3) 從每幅人臉圖像創(chuàng)建S1和C1特征;
(4) 利用字典學(xué)習(xí)優(yōu)化,獲取最優(yōu)特征矩陣;
4 實驗評估
所有實驗均在64位Matlab 2012實驗環(huán)境下完成,計算機系統(tǒng)的配置為:英特爾酷睿2雙核處理器,2.66 GHz主頻和4 GB RAM。
4.1 人臉數(shù)據(jù)集
Caltech人臉數(shù)據(jù)集[15]包含450張人臉圖像具有不同光照和表情的27個對象。實驗使用18個人每人20幅圖像(Caltech人臉數(shù)據(jù)集的360張人臉圖像),隨機選擇每個人5張(90張人臉圖像)作為訓(xùn)練樣本,剩下的用于測試(270張人臉圖像)。預(yù)處理方法中,圖像裁剪為228×228的尺寸,然后全部調(diào)整為140×140尺寸的圖像。圖2所示為Caltech人臉庫中某人的20種不同光照和表情下的人臉圖像示例。
4.2 參數(shù)變化分析
首先對參數(shù)[γ]和[λ]對識別率的影響進行分析,維度設(shè)為220,原子項數(shù)設(shè)為7,[λ]分別取1,0.1,0.01,0.001,[γ]分別取1,2,3,4,5,結(jié)果如圖4所示。
從圖4可以看出,在[γ]和[λ]變化幅度很大的情況下,提出的方法可以一直保持較高的識別率,表明提出的方法識別率受參數(shù)變化影響很小,即提出的方法對人臉表情和光照變化具有魯棒性。
4.3 識別結(jié)果比較
4.3.1 識別率比較
將提出的方法與文獻[7],文獻[10],文獻[11]方法進行比較,原子項設(shè)為7,記錄不同維度下各個方法的識別率,如圖5所示。
從圖6可以看出,隨著原子項總數(shù)的變化,提出的方法可以保持最高的識別率,表明提出的方法建立的字典既具有代表性,又具有局部保持性。
4.3.2 執(zhí)行時間比較
為了評估本文方法的效率,對其執(zhí)行時間進行評估。以全部樣本都用于訓(xùn)練時的執(zhí)行時間為基準,在執(zhí)行時間、速度提升倍數(shù)方面將提出的方法與其他幾種方法進行對比,執(zhí)行時間為字典學(xué)習(xí)和訓(xùn)練數(shù)據(jù)投影的時間之和,如表1所示。
5 結(jié) 論
本文提出了字典學(xué)習(xí)優(yōu)化結(jié)合HMAX模型的人臉識別方法,利用字典學(xué)習(xí)優(yōu)化,可對HMAX模型提取的特征進行最優(yōu)化,可保留更多的有用信息。將HMAX模型提取的特征與原始C2特征進行組合,通過視覺注意模型訪問人臉圖像顯著點的關(guān)鍵位置,從這些區(qū)域提取有效C2特征進行魯棒性人臉識別。參數(shù)分析表明本文方法對光照和表情變化具有魯棒性,不同原子項和不同維度下的識別結(jié)果表明,本文方法的識別率高于其他幾種較新的人臉識別方法。此外,本文方法的執(zhí)行時間也明顯低于其他的方法,相比基準執(zhí)行速度,最高可提升6.2倍。
未來會將本文方法應(yīng)用于復(fù)雜和多樣背景下的人臉識別。此外,本文方法只使用SVM分類器,未來會利用其他的分類器,如人工神經(jīng)網(wǎng)絡(luò)、模糊分類等,通過實驗進一步改善識別性能。
參考文獻
[1] 胡正平,李靜.基于低秩子空間恢復(fù)的聯(lián)合稀疏表示人臉識別算法[J].電子學(xué)報,2013,31(5):987?991.
[2] YANG A Y, ZHOU Z, BALASUBRAMANIAN A G, et al. Fast ?1?minimization algorithms for robust face recognition [J]. IEEE transactions on image processing, 2013, 22(8): 3234?3246.
[3] 戴金波,肖霄,趙宏偉.基于低分辨率局部二值模式的人臉識別[J].吉林大學(xué)學(xué)報(工學(xué)版),2013,32(2):435?438.
[4] SAVVIDES M. Sparse feature extraction for pose?tolerant face recognition [J]. IEEE transactions on pattern analysis machine intelligence, 2014, 36(10): 2061?2073.
[5] 王守佳.基于圖像的人體檢測跟蹤和人臉識別的研究[D].長春:吉林大學(xué),2013.
[6] FARIVAR R. Dorsal?ventral integration in object recognition [J]. Brain research reviews, 2009, 61(2): 144?153.
[7] PARK S, MAASHRI A A, YANG X, et al. Saliency?driven dynamic configuration of HMAX for energy?efficient multi?object recognition [C]// Proceedings of 2013 IEEE Computer Society Annual Symposium on VLSI. US: IEEE, 2013: 139?144.
[8] SERRE T, WOLF L, BILESCHI S, et al. Robust object recognition with cortex?like mechanisms [J]. IEEE transactions on pattern analysis machine intelligence, 2007, 29(3): 411?426.
[9] MUTCH J, LOWE D G. Object class recognition and localization using sparse features with limited receptive fields [J]. International journal of computer vision, 2008, 80(1): 45?57.
[10] GAO R, SHAFAIT F, UCHIDA S, et al. A hierarchical visual saliency model for character detection in natural scenes [C]// Proceedings of 2013 5th International Workshop. Washington, DC: Springer International Publishing, 2013: 18?29.
[11] DENG Y, DUAN H. Hybrid C2 features and spectral residual approach to object recognition [J]. Optik?international journal for light and electron optics, 2013, 124(18): 3590?3595.
[12] 馬小虎,譚延琪.基于鑒別稀疏保持嵌入的人臉識別算法[J]. 自動化學(xué)報,2014,32(1):73?82.
[13] 詹曙,張啟祥,蔣建國,等.基于Gabor特征核協(xié)作表達的三維人臉識別[J].光子學(xué)報,2013,32(12):1448?1453.
[14] XING Y, YANG Q S, GUO C G. Face recognition based on Gabor enhanced marginal fisher model and error correction SVM [C]// Proceedings of 2011 8th International Symposium on Neural Networks. Guilin, China: Springer Berlin Heidelberg, 2011: 296?304.
[15] GOEL P, AGARWAL S. An illumination invariant robust and fast face detection, feature extraction based face recognition system [C]// Proceedings of 2012 3rd International Conference on Computer and Communication Technology. Allahabad: IEEE, 2012: 110?115.