曾青松(廣州番禺職業(yè)技術(shù)學(xué)院信息工程學(xué)院,廣州 511483)
基于群正則化相似性度量的人臉識(shí)別方法
曾青松
(廣州番禺職業(yè)技術(shù)學(xué)院信息工程學(xué)院,廣州511483)
安全監(jiān)控應(yīng)用中,受光照、陰影和運(yùn)動(dòng)模糊等影響,通過(guò)人臉檢測(cè)算子檢測(cè)到的圖像可能包含不完整的人像信息,嚴(yán)重影響到識(shí)別的精度。提出一種人臉選擇算法,從給定的候選人像集合中選擇一個(gè)高質(zhì)量人像的子集,然后應(yīng)用基于集合的人像識(shí)別算法進(jìn)行識(shí)別,有效地提高識(shí)別的精度。在公開(kāi)的人臉識(shí)別數(shù)據(jù)庫(kù)Honda/UCSD和ChokePoint的實(shí)驗(yàn)結(jié)果顯示,使用子集選擇的算法能明顯提高現(xiàn)有基于集合的人像識(shí)別算法的精度。
人臉識(shí)別;局部二值模式;集合匹配;子集選擇
廣東省自然科學(xué)基金(No.2015A030313807)
傳統(tǒng)的人臉識(shí)別方法主要基于少量高質(zhì)量的正面人臉圖像,隨著技術(shù)的發(fā)展,我們可以方便地獲取大量的人臉樣本。最近研究人員逐漸從基于單一圖像方法向多圖像的研究轉(zhuǎn)變,已經(jīng)取得初步的研究成果。在非限制條件下,如監(jiān)控環(huán)境、光照、姿態(tài)、表情等變化嚴(yán)重,這些變化導(dǎo)致不同實(shí)例的特征差異可能比不同身份的個(gè)體之間的特征差異更大,嚴(yán)重影響到識(shí)別結(jié)果?;诙鄨D像的方法,可以利通多張圖像提供的特征信息來(lái)消除因?yàn)槟骋惶囟ㄒ蛩刈兓鴮?dǎo)致的差異。多圖像的方法能夠提供比傳統(tǒng)單一圖像的方法更多的鑒別信息,因此基于集合的方法可以有效地提升人臉識(shí)別的精確度。
高質(zhì)量的人臉圖像更有助于識(shí)別人的身份,尤其是正面的人臉圖像,但是在監(jiān)控環(huán)境中,攝像機(jī)獲取到視頻中人臉圖像不一定是連續(xù)的,并且質(zhì)量一般都不是非常理想,因此需要從這些視頻幀中挑選適合識(shí)別的圖像以提高識(shí)別的精度。
在基于圖像集合的人臉識(shí)別系統(tǒng)中,為解決光照、姿態(tài)、陰影等變化導(dǎo)致的識(shí)別率下降,通??梢园涯切┎畹膱D像作為異常的圖像排除在外[1],或者對(duì)圖像進(jìn)行質(zhì)量評(píng)估,考慮對(duì)比度、尺度、信噪比等,把這些因子綜合融合成一個(gè)質(zhì)量分?jǐn)?shù),根據(jù)這個(gè)評(píng)分,選擇一個(gè)子集[2]。但是,如何量化一張圖像的對(duì)比度、尺度、信噪比等因子對(duì)圖像質(zhì)量的影響,很難有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。
本文提出了一種圖像子集選擇方法,該方法利用一個(gè)預(yù)先選擇、特征良好的參考集合對(duì)查詢(xún)集合中的每一張圖像進(jìn)行質(zhì)量評(píng)估,得到基于查詢(xún)命中概率的積分用于度量查詢(xún)集合中圖像的質(zhì)量。通過(guò)計(jì)算查詢(xún)集合中的每一張圖片與參考集合的距離得到查詢(xún)集合中每一張圖像的查詢(xún)命中概率。通過(guò)該概率來(lái)度量查詢(xún)集合中每一張圖像的質(zhì)量。在得到圖像子集之后,進(jìn)一步提出一種對(duì)現(xiàn)有集合匹配方法正則化的技術(shù),通過(guò)正則化操作,最小化因?yàn)楣庹?、姿態(tài)、表情等變化導(dǎo)致的人臉特征的不穩(wěn)定性。
一般來(lái)說(shuō),一個(gè)基于集合的人臉匹配系統(tǒng)包含人臉檢測(cè)與跟蹤、特征提取和分類(lèi)器設(shè)計(jì)幾個(gè)模塊組成。首先,當(dāng)被匹配人臉從視頻圖像中提取之后,通過(guò)幾何變換與查詢(xún)集中的人臉對(duì)齊,然后,通過(guò)重采樣人臉圖像被投影到一個(gè)子空間中,在這個(gè)子空間中與查詢(xún)集中的所有圖像進(jìn)行比較,最后根據(jù)與最近鄰的距離來(lái)判斷是否匹配。
檢測(cè)到人臉之后,我們應(yīng)用特征提取算子獲取人臉圖像的特征值;然后獲得圖像的統(tǒng)計(jì)信息,利用這些統(tǒng)計(jì)信息,對(duì)獲取到的圖像集進(jìn)行篩選,去除噪聲圖像的影響;最后定義一種基于參考集模型的相似性度量算法,采用最近鄰算法進(jìn)行分類(lèi)。
1.1特征選擇
在身份驗(yàn)證系統(tǒng)中,LBP(Local Binary Pattern,LBP)[3]特征是表達(dá)和分析人臉表情非常有用的工具。基于局部差分變化的方向模式編碼(Local Derivative Pattern,LDP)[4]擴(kuò)展了LBP,第n階LDP編碼了第n-1階的局部方向變化,它比只使用1階局部模式的LBP能抓住更多的細(xì)節(jié)。本文測(cè)試了基于密度網(wǎng)格模型的MBLBP(Multi-Block Local Binary Pattern,MBLBP)[5]和MBLDP(Multi-Block Local Derivative Pattern,MBLDP)[4]兩種特征。
1.2圖像子集選擇
對(duì)在各種物理?xiàng)l件(例如,變化的姿態(tài)、光照等)下得到的圖像集合,可以用低維的特征子集來(lái)逼近。人臉匹配的關(guān)鍵技術(shù)可以理解為尋找能夠匹配查詢(xún)圖像的最佳低維模型。樣本與模型直方圖的不相似性可以看做一次檢驗(yàn)的擬合優(yōu)度[6],這可以通過(guò)非參數(shù)統(tǒng)計(jì)檢驗(yàn)來(lái)度量。本文使用直方圖模型來(lái)描述人臉圖像特征,并使用Chi-square距離[7]來(lái)度量樣本與群之間的相似性。點(diǎn)x到參考集合Z中的某個(gè)樣本z之間的距離d(x,z,Z)定義為:

其中Z^=kNN(z,Z)表示樣本z在集合Z中的k近鄰子集。公式(1)定義的距離度量刻畫(huà)了兩個(gè)及兩個(gè)以上樣本以及兩個(gè)分類(lèi)變量的關(guān)聯(lián)性,刻畫(huà)了多分類(lèi)變量數(shù)據(jù)的擬合情況。如果僅僅采用最近鄰導(dǎo)致結(jié)果集中的幀的數(shù)量小于預(yù)定義的大小,我們繼續(xù)考慮第2近鄰,…,第k近鄰,…,直到圖像集合的大小達(dá)到預(yù)先設(shè)定的值[8]。
對(duì)于一般的人臉識(shí)別系統(tǒng)來(lái)說(shuō),高質(zhì)量的正面人臉圖像有助于提高系統(tǒng)的識(shí)別率。給定一張從攝像機(jī)中截取的畫(huà)面,通過(guò)人臉檢測(cè)算子檢測(cè)到的人臉圖像x,如何評(píng)估它有多像一張正臉,或者說(shuō)這張人臉圖像的質(zhì)量如何?本文提出一個(gè)子集選擇模型[9],這個(gè)模型利用一個(gè)預(yù)先選擇的稱(chēng)為背景約束集的參考集合[8],該集合包含多種條件下獲取的經(jīng)過(guò)選擇的具有正臉特征的人臉圖像構(gòu)成。通過(guò)計(jì)算這個(gè)參考集合中的每一張圖片與測(cè)試圖片集合之間的距離,來(lái)計(jì)算查詢(xún)集合被背景圖像查詢(xún)擊中的次數(shù)來(lái)度量該查詢(xún)集合中圖像的質(zhì)量。
給定測(cè)試集合X=[x1,x2,…,xm]和參考集合Z=[z1,z2,…,zn]。如果xi落在zj的X-集合k近鄰中,即xi∈knn(X,zj),我們稱(chēng)元素xi被背景zj查詢(xún)命中。為得到最具有正臉特征的M張最好的圖像,提出一種簡(jiǎn)單但是魯棒有效的方法:首先計(jì)算參考集合中每一張圖像在查詢(xún)集合中的K近鄰集合(查詢(xún)命中),然后將所有的被背景查詢(xún)命中的元素集中并計(jì)數(shù)統(tǒng)計(jì),這樣得到一個(gè)被參考集合查詢(xún)擊中的次數(shù)統(tǒng)計(jì),按照這個(gè)數(shù)據(jù)從大到小排序,得到一個(gè)候選子集。因?yàn)椴皇敲恳粡垐D像都會(huì)被參考集合查詢(xún)命中,因此一般來(lái)說(shuō)該集合不會(huì)包含全部的圖像。最后,選取排在最前的M張圖像就是作為最終的子集。
決定兩張圖像x和y是表示同一個(gè)人還是兩個(gè)不同的人,簡(jiǎn)單的,我們可以計(jì)算這兩張圖像之間的L1距離d(x,y)=‖x-y‖1,然后與一個(gè)經(jīng)驗(yàn)閾值比較來(lái)作出決策。然而固定的閾值不能適應(yīng)于每一個(gè)人,為進(jìn)一步的提高魯棒性,我們可以對(duì)這個(gè)距離進(jìn)行正則化操作。群正則化[10]和群選擇[11]最初用于說(shuō)話人身份驗(yàn)證被提出來(lái)。最近,這個(gè)方法被用于人臉驗(yàn)證[12],它使用查詢(xún)圖像和圖像集之間的匹配積分來(lái)自適應(yīng)調(diào)節(jié)最終的得分,提高多變化的圖像應(yīng)用中的魯棒性。

公式中的z是參考人臉集合A的圖像,這個(gè)集合通過(guò)人工選定的方法構(gòu)建一個(gè)全部都是人臉的圖像構(gòu)成,在使用過(guò)程中不斷的更新。這里假設(shè)參考集合A不會(huì)包含測(cè)試人的人臉圖像實(shí)例[13]。原始的正則化積分沒(méi)有充分利用標(biāo)簽信息,因此它可以用于那些收集無(wú)標(biāo)簽數(shù)據(jù)比較容易而收集有標(biāo)簽信息非常困難的應(yīng)用場(chǎng)景。然而,當(dāng)我們可以利用有標(biāo)簽的信息時(shí)候,卻不能從這些標(biāo)簽信息中受益。
考慮使用這些有標(biāo)簽的信息[14],將集合A劃分為多個(gè)子集,Ai?A,i=1,2,…,n,j。每一個(gè)子集中的樣本具有相同的標(biāo)簽信息,這個(gè)標(biāo)簽信息可以是按照身份、光照、姿態(tài)變化等來(lái)劃分的。然后積分被重復(fù)計(jì)算多次,每一次只使用一個(gè)子集。定義的兩個(gè)圖像集合之間的距離為:

其中,距離set_dist(X,Y)可以是任何一個(gè)基于集合的距離函數(shù),如子空間之間的距離(Mutual Subspace Methods,MSM)[15],仿射子空間方法 (Affine Hull based Image Set Distance,AHISD)[16]。set_dist(X,Ai)與setdist (Y,Ai)估計(jì)在平均意義上兩個(gè)集合X,Y與參考集合Ai有多遠(yuǎn)。如果外界條件的變化導(dǎo)致兩個(gè)集合之間的距離增加,那么它們到參考集合的距離也會(huì)跟著增加,目標(biāo)函數(shù)試圖找到受外界環(huán)境影響最小的參考集合Ai。
本節(jié)我們討論在 HondaUCSD視頻數(shù)據(jù)庫(kù)和ChokePoint視頻數(shù)據(jù)庫(kù)上進(jìn)行基于集合的人臉識(shí)別實(shí)驗(yàn),實(shí)驗(yàn)環(huán)境:Intel Xeon E7-4807雙1.87GHz CPU(2× 6核)、64GB內(nèi)存、Windows Server 2008、64位MATLAB 2013a。
3.1數(shù)據(jù)集
Honda/UCSD數(shù)據(jù)集是用于做人臉識(shí)別和跟蹤的基準(zhǔn)數(shù)據(jù)集,共包含19個(gè)人共59段視頻[17]。每個(gè)視頻包含人的不同姿態(tài)、表情變化,所有視頻均在室內(nèi)錄制,視頻的清晰度和光照條件都比較好,每個(gè)視頻包含300-500幀,并且被分割成多個(gè)視頻片段。本文使用P. Viola[18]靜態(tài)人臉檢測(cè)方法,逐幀檢測(cè)出人臉區(qū)域,每幀只包含一個(gè)人,從圖2給出了檢測(cè)結(jié)果可以看出檢測(cè)的人臉圖像的頭接近正面人像。
ChokePoint數(shù)據(jù)集主要為研究基于視頻的人臉匹配識(shí)別任務(wù)開(kāi)發(fā)的數(shù)據(jù)庫(kù)[9]。該數(shù)據(jù)集包含入口1錄制的25個(gè)人的視頻和入口2錄制的29個(gè)人的視頻,錄制的時(shí)候進(jìn)入入口和離開(kāi)入口的動(dòng)作分別錄制。每一個(gè)入口錄制的時(shí)候有3臺(tái)攝像機(jī)在不同的角度同時(shí)錄制,每個(gè)動(dòng)作重復(fù)4次得到4個(gè)不同的視頻序列。

圖1 Honda/UCSD數(shù)據(jù)庫(kù)人臉示意圖
3.2比較的方法和設(shè)置
實(shí)驗(yàn)中所有的視頻分成3組 (G0,G1與 G2),其中G0用于構(gòu)建參考集合,G1與G2分別用于訓(xùn)練和測(cè)試,實(shí)驗(yàn)使用最近鄰分類(lèi)器,并報(bào)告10次實(shí)驗(yàn)的平均結(jié)果。使用Voila&Jones[18]人臉檢測(cè)算子檢測(cè)視頻中的人臉圖像,然后所有圖像轉(zhuǎn)換為灰度圖并被歸一到像素大小。
在Honda/UCSD數(shù)據(jù)集上,選擇16個(gè)人的視頻用于構(gòu)建訓(xùn)練集合(G1)和測(cè)試集合(G2),并使用剩余的18個(gè)人的視頻構(gòu)建參考集合(G0),這個(gè)集合在計(jì)算相似度積分的時(shí)候同時(shí)也當(dāng)作參考集合。在ChokePoint數(shù)據(jù)庫(kù)上,所有的視頻被劃分為2組,分別用于訓(xùn)練和測(cè)試(G1和G2),并使用Honda/UCSD數(shù)據(jù)庫(kù)上構(gòu)建的參考集合G0,這個(gè)實(shí)驗(yàn)中我們只選擇了入口1的進(jìn)入和離開(kāi)的視頻作為測(cè)試。
互子空間方法 (Mutual Subspace Method,MSM)[15]中,首先使用PCA保留95%的數(shù)據(jù)能量得到子空間的基,并使用最大的相關(guān)作為相似性。對(duì)于Multi-Block Local Binary Pattern和 Multi-Block Local Derivative Pattern,尺度參數(shù)設(shè)置為2,補(bǔ)丁的大小設(shè)置為16;計(jì)算LBP時(shí),映射表大小選擇59個(gè)入口。在仿射子空間方法[16],我們使用其線性版本,參數(shù)C設(shè)置為0.98。
3.3實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)測(cè)試了人臉識(shí)別問(wèn)題在ChokePoint和Honda/ UCSD數(shù)據(jù)庫(kù)上的分類(lèi)識(shí)別率和標(biāo)準(zhǔn)差。由于Honda/ UCSD數(shù)據(jù)庫(kù)大部分對(duì)象只有2段視頻因此只報(bào)告了識(shí)別率。根據(jù)本文提出的子集選擇算法,對(duì)每一段視頻選擇10張質(zhì)量最好的圖像作為最終的子集進(jìn)行識(shí)別,同時(shí)與采用從原始視頻序列中隨機(jī)選擇10張圖像進(jìn)行比較。
實(shí)驗(yàn)對(duì)比結(jié)果在表1列出。橫向看表1,我們發(fā)現(xiàn),采用本章提出的子集選擇算法選擇子集比采用隨機(jī)算法選擇子集識(shí)別率要高10-20%,這也說(shuō)明了本文提出的子集選擇算法能夠獲得更具鑒別能力的圖像子集。同時(shí)發(fā)現(xiàn),采用子集選擇算法得到的子集的識(shí)別實(shí)驗(yàn)的標(biāo)準(zhǔn)差小于隨機(jī)實(shí)驗(yàn),這也說(shuō)明了本文提出的選擇算法是穩(wěn)定的。

表1 人臉識(shí)別正確率(標(biāo)準(zhǔn)差)
本文設(shè)計(jì)了一個(gè)子集選擇算法并應(yīng)用于人臉識(shí)別問(wèn)題,提高人臉識(shí)別的精度。這個(gè)算法基于一個(gè)大的參考集合,目前該算法工作良好,能夠自動(dòng)從圖像集合中選擇一組高質(zhì)量的圖像子集,在公開(kāi)的數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明,該方法可以用于自動(dòng)構(gòu)建大規(guī)模的人臉數(shù)據(jù)庫(kù),或者監(jiān)控環(huán)境下的人臉識(shí)別。目前的研究,我們通過(guò)手工選擇的方法構(gòu)建初始的參考集合,接下來(lái),將從如何增量方式構(gòu)建參考集合,從一個(gè)初始集合中如何動(dòng)態(tài)的更新參考集合,提高參考集合的鑒別能力,并在構(gòu)建大規(guī)模人臉數(shù)據(jù)庫(kù)的應(yīng)用角度做進(jìn)一步的研究。
[1]Shan C.Face Recognition and Retrieval in Video[J].Video Search and Mining,Springer,2010∶235-260.doi∶10.1007/978-3-642-
12900-19.
[2]Nasrollahi K,Moeslund T B.Face Quality Assessment System in Video Sequences[J].Biometrics and Identity Management,Springer,2008∶10-18.doi∶10.1007/978-3-540-89991-42.
[3]Ojala T,Pietik?inen M,Harwood D.A Comparative Study of Texture Measures with Cassification Based on Featured Distributions[J]. Pattern Recognition,1996,29(1)∶51-59.doi∶10.1016/0031-3203(95)00067-4.
[4]Zhang B,Gao Y,Zhao S,et al.Local Derivative Pattern Versus Local Binary Pattern∶Face Recognition with High-Order Local Pattern Descriptor[J].IEEE Transactions on Image Processing,IEEE,2010,19(2)∶533-544.
[5]Liao S,Zhu X,Lei Z,et al.Learning Multi-scale Block Local Binary Patterns for Face Recognition[G].Advances in Biometrics,International Conference.Seoul,Korea∶Springer,2007,4642∶828-837.
[6]Guo Z,Zhang L,Zhang D,et al.Hierarchical Multiscale LBP for Face and Palmprint Recognition[C].Proceedings of the International Conference on Image Processing.Hong Kong,China∶IEEE,2010∶4521-4524.doi∶10.1109/ICIP.2010.5653119.
[7]Jin R,Wang S,Zhou Z.Learning a Distance Metric from Multi-Instance Multi-Label Data[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.2009∶896–902.doi∶10.1109/CVPRW.2009.5206684.
[8]Wolf L,Hassner T,Maoz I.Face Recognition in Unconstrained Videos with Matched Background Similarity[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs,CO,USA∶IEEE,2011∶529-534.doi∶10.1109/CVPR. 2011.5995566.
[9]Wong Y,Chen S,Mau S,et al.Patch-Based Probabilistic Image Quality Assessment for Face Selection and Improved Video-Based face Recognition[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshop.Colorado Springs,CO,USA∶IEEE,2011∶74-81.
[10]Finan R A,Sapeluk A T,Damper R I.Impostor Cohort Selection for Score Normalisation in Speaker Verification[J].Pattern Recognition Letters,1997,18(9)∶881-888.
[11]Zigel Y,Cohen A.On Cohort Selection for Speaker Verification[C].Eighth European Conference on Speech Communication andTechnology.Geneva,Switzerland∶ISCA,2003∶2977-2980.
[12]Sanderson C,Lovell B C.Multi-Region Probabilistic Histograms for Robust and Scalable Identity Inference[C].Advances in Biomet rics,Third International Conference,ICB 2009.Alghero,Italy∶Springer,2009.
[13]Wu Z,Ke Q,Sun J,et al.Scalable Face Image Retrieval with Identity-Based Quantization and Multi-Reference Re-ranking[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA∶IEEE,2010∶3469–3476.doi∶10.1109/CVPR.2010.5539976.
[14]Taigman Y,Wolf L,Hassner T.Multiple One-Shots for Utilizing Class Label Information[C].Proceedings of the British Machine Vision Conference.London,UK∶British Machine Vision Association,2009∶1-12.
[15]Yamaguchi O,F(xiàn)ukui K,Maeda K.Face Recognition Using Temporal Image Sequence[C].3rd International Conference on Face& Gesture Recognition.Nara,Japan∶IEEE Computer Society,1998∶318-323.
[16]Cevikalp H,Triggs B,Triggs W.Face Recognition Based on Image Sets[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA∶IEEE Computer Society,2010,365(2)∶2567-2573.doi∶10.1109/CVPR. 2010.5539965.
[17]Lee K-C,Ho J,Yang M-H,et al.Visual Tracking and Recognition Using Probabilistic Appearance Manifolds[J].Computer Vision and Image Understanding,Elsevier,2005,99(3)∶303-331.
[18]Viola P,Jones M J.Robust Real-Time Face Detection[J].International Journal of Computer Vision,Springer,2004,57(2)∶137-154.
Face Recognition;Local Binary Pattern;Image Set Matching;Subset Selection
Face Recognition Based on Cohort Normalization Similarity
ZENG Qing-song
(School of Information and Technology,Guangzhou Panyu Polytechnic,Guangzhou 511483)
In surveillance applications,face images captured with different illumination,shadowing,and motion blur over the sequence,the snapshot may contain non-face or incomplete face component.Addresses the problem of face recognition with an image set-based approach. The proposed method is more robust.It doesn't need an alignment of the face.It automatically selects high-quality images for face recognition during testing and training.Experimental results on the shared video database Honda/UCSD and ChokePoint show that the proposed framework method has been promising potential for use in the image set-based automatic face recognition applications.
1007-1423(2016)20-0054-05
10.3969/j.issn.1007-1423.2016.20.011
曾青松(1976-),男,湖南邵東人,副教授,博士,研究方向?yàn)槟J阶R(shí)別與數(shù)據(jù)挖掘
2016-04-27
2016-07-10