張 丹
(中國西南電子技術研究所,成都 610036)
一種融合流形學習的視頻人臉性別識別改進算法
張 丹
(中國西南電子技術研究所,成都 610036)
如何有效利用視頻中人臉之間的時空連續(xù)性信息來克服人臉分辨率低、圖像尺度變化大和姿態(tài)、光照變化以及遮擋等問題是視頻人臉識別的關鍵所在。提出了一種基于流形學習的視頻人臉性別識別算法。該算法不僅可以通過聚類融合學習來挖掘視頻內在的連續(xù)性信息,同時能發(fā)現人臉數據中內在非線性結構信息而獲得低維本質的流形結構。在UCSD/Honda和自采集數據庫上與靜態(tài)的算法比較結果表明,所提算法能夠獲得更好的識別率。
視頻人臉性別識別;流形學習;聚類融合;保局投影;支持向量機
人臉性別識別一直是模式識別和機器學習領域一個長期研究的熱點問題,當前已經取得了巨大的發(fā)展。在特征提取方面,比較成熟算法有主成分分析法(Principal Component Analysis,PCA[1-2])、線性分類判別(Linear Classification Discriminant,LDA)[2]和保局投影算法(Locality Preserving Projections,LPP)[3]。對于像人臉數據這樣的高維非線性數據,如何將高維數據有效地表示在低維空間中,并由此發(fā)現其內在流形結構是高維信息處理研究的關鍵問題[4]。LPP算法是拉普拉斯特征映射(Laplacian Eigenmaps,LE)的線性逼近,在劇烈降維方面有很好的效果,可以發(fā)現人臉數據的本質低維流形結構。在分類匹配方面,比較成熟的有最近鄰分類器、支持向量機(Support Vector Machine,SVM)[5]和Adaboost[6]分類器。SVM致力于小樣本高效分類,Adaboost則側重實時應用。
由于諸如視頻聊天的盛行和攝像頭的普遍使用,使得視頻成為最主要的媒體介質,因而在近幾年來基于視頻的人臉識別[7-8]中得到了廣泛的關注。視頻序列不同于靜態(tài)圖片,是由很多時空連續(xù)的圖片有機地組合而成的,具有其獨特性。如果以靜態(tài)方法來處理這些視頻序列圖片,必然會忽略隱藏在視頻中的時空連續(xù)性信息,而這些信息往往對于提高視頻人臉識別效果會有很大影響。作為視頻人臉識別的延伸,性別的分類也受到廣泛的關注,在很多領域都需要實現其自動化。當前已存在很多基于視頻的人臉性別識別算法,如文獻[9-10]都試圖將一段視頻作為一個整體來進行識別。
本文在流形學習的基礎上提出了一種視頻人臉性別識別算法(Video-based Face Gender Recognition,VG-LPP)。該算法首先對一段視頻幀采用聚類方式(Clustering)來構建數據模型以挖掘出視頻人臉中的時空連續(xù)性信息,再利用保局投影算法通過近鄰圖來發(fā)現低維流形人臉子空間以得到人臉數據的本質低維流形結構,最后用支持向量機進行分類匹配。
這一部分將介紹保局投影和支持向量機的原理,前者用于人臉數據特征提取,后者用于人臉匹配分類。
保局投影是拉普拉斯特征映射的線性逼近,可以用譜圖理論來闡述。
給定如下數據點{x1,x2,…,xm},(m∈xi∈Rn),接著我們用一個權圖 G=(V,E)來模擬人臉空間的局部幾何結構,圖中的邊表示其兩端的點式滿足相鄰條件。為了使映射后的點距離足夠近,假設這個映射為y={y1,y2,…,ym},找到這個最佳映射的合理辦法是使公式(1)所示損失函數值為最小:

如果將這個映射限定為線性映射yi=α·xi(α為變換矩陣),那么公式(1)就可以轉換為

式中,L=D-S為拉普拉斯矩陣,D是對角權矩陣。Dii=∑jwij,同時限定條件:

公式(3)最小值問題用拉格朗日乘數法求解轉化為

支持向量機是基于結構風險最小化的一種方法,有別于傳統(tǒng)機器學習的經驗風險最小化,因其推廣能力較差。支持向量機在解決小樣本、非線性及高維模式識別問題中表現出許多獨特的優(yōu)勢,并能夠推廣應用到函數擬合等其他機器學習問題中。
下面以兩類分類為例,假設已知數據集D={(x1,y1),…,(xl,yl)},yi∈{-1,1}可以被一個超平面w·x-b=0分開。如果這個向量集合被超平面沒有錯誤地分開,并且離超平面最近的向量與超平面之間的距離是最大的,則認為這個向量集合被這個最優(yōu)超平面或最大間隔超平面分開。對于一個新數據x,它的類別由公式(5)計算所得:

支持向量機的目標是最大化間隔,損失函數如公式(6)所示:

式中,oi=w·xi-b,V(z,o)是一個損失函數,定義如公式(7)所示:

如果在視頻人臉性別識別中采用傳統(tǒng)靜態(tài)圖片的方法,如每段視頻截取 N幅圖片構成視頻數據庫,則組成了一個無序圖片組成的圖片數據庫,檢索對比時,也分別與每幅圖片進行比較。這種方法忽略了視頻的完整性信息,因此視頻本身的時空連續(xù)性信息就沒有很好地利用。
對于傳統(tǒng)的圖片檢索系統(tǒng)應用于視頻人臉性別識別時的不足,研究人員現已在挖掘視頻特有信息上做了很多工作。他們都將一段視頻視為一個整體進行處理,如對視頻聚類矢量化,通過比較矩陣相似度來判別和動態(tài)及概率模型等。
VG-LPP算法首先對視頻數據構建數據模型來挖掘視頻人臉中的時空連續(xù)性信息,再利用保局投影算法通過近鄰圖來構建低維流形人臉子空間,從而發(fā)現人臉數據的本質低維流形結構。下面是VG-LPP算法的詳細步驟。
Step 1:視頻數據建模
這一步中使用k-均值聚類算法使得同一段視頻的人臉聚類,獲得一個特征向量。對于一段視頻,提取各個圖片幀的向量數據{v1,v2,…,vn},n為視頻幀數,接著使用k-均值聚類算法,對一段視頻聚類分析,求得k個類別{s1,s2,…,sk}各類的均值為{μ1,μ2,…,μk}。根據各個類別的數目,對其賦予不同的權值{γ1,γ2,…,γk},這樣就可以是類別多的占據這段視頻的主導。最后求得這段視頻的特征向量

因此,整個視頻庫就可以獲得序列{x1,x2,…,xm},m是視頻總數。
使用k-均值聚類是因為每一段視頻中都存在正面、側面等不同屬性的人臉,而往往正面人臉居多,側面人臉居少。k均值聚類之后使得正面和側面等人臉各自聚集,然后再根據數量賦權值,如此正面人臉數據將會在這段視頻的特征向量中起決定作用。
Step 2:人臉特征提取
(1)創(chuàng)建鄰接圖
建立一個具有M個頂點的權圖G。如果訓練集已經標有類別信息的數據,xi和xj屬于一個類別,那么就用一條邊將這兩個點連接起來,否則就用k近鄰關系去尋找近鄰,再用邊連接起來。
(2)確定權重
這里用一種簡單的方法來定義權值矩陣S,如果 xi和xj相連,則 sij=1,否則 sij=0。
(3)完成特征映射
假設公式(4)有d個特征值,按特征值 λ1>λ2>…>λd排列,對應的特征向量為 α={α1,α2,…,αd},因此低維線性嵌入可以表示為

式中,yi就是獲得的低維嵌入,其維數遠小于xi。
Step 3:分類匹配
這一步使用支持向量機理論來對人臉子空間的數據進行分類和預測。首先支持向量機通過訓練數據獲得一個分類器,其次對測試數據進行測試,完成識別功能。
這部分將通過在自采集數據庫上的對比試驗來證明本文提出的視頻性別識別算法的有效性,實驗主要與靜態(tài)算法(LPP、LPP-SVM)進行對比。LPP將視頻幀以靜態(tài)圖片的形式進行處理,通過LPP進行特征提取,然后用最近鄰分類器識別匹配;LPPSVM將視頻幀以靜態(tài)圖片的形式進行處理,通過LPP進行特征提取,然后用支持向量機進行分類識別。而本文的算法首先將同一視頻的人臉進行聚類處理,獲得視頻特征,然后用LPP進行特征提取獲得低維數據,最后用支持向量機進行分類匹配。實驗在UCSD/Honda和自采集視頻人臉數據庫上進行。
UCSD/Honda視頻人臉數據庫只有5位女性,為了實驗的可靠性,我們從自采集數據庫中加入3位女性數據,男性數據由UCSD/Honda隨機取5位以及自采集的3位組成,如圖1和圖2所示。因此整個實驗數據庫有16個人,男女各半,每人有16段視頻,每段視頻5幅圖片,實驗中,每人隨機取8段作為訓練集,8段作為測試集,如此隨機取5次構成5組實驗結果,視頻算法就以8×16個視頻數據作為訓練輸入,靜態(tài)算法就以5×8×16個圖片數據作為訓練輸入。實驗結果如圖3所示。

圖1 UCSD/Honda人臉樣本Fig.1 UCSD/Honda face samples

圖2 自采集人臉樣本Fig.2 User-Collected face samples

圖3 測試集樣本存在于訓練集中的實驗結果Fig.3 Experiment result when test samples exist in database
實驗結果表明,基于視頻的算法比兩個靜態(tài)算法大約要高出9個百分點,說明了通過對視頻人臉數據合理的數據建模,將一段視頻作為一個整體進行聚類融合,能更好地保留視頻信息中時空連續(xù)性語義特征,提高識別準確率。另外,由圖3可發(fā)現,支持向量機做分類器較最近鄰分類器有更高的識別準確率。
實驗中所用的兩個數據庫都有正臉和側臉,以及不同角度的光照環(huán)境,同時存在面部表情刻意變化,如此可以更好地模擬真實視頻的各種環(huán)境。然而實驗中訓練集和測試集存在相同的人,在實際應用中待識別的人未必被收錄在數據庫中,因此為了更好地契合現實應用,取極端情況,即測試集數據完全不存在于訓練集中。
實驗隨機選取男女各6人為訓練庫,剩下2人為測試集,如此視頻方法訓練集有16×12個視頻數據,16×4個測試視頻,靜態(tài)方法就有16×12×5幅圖片的訓練集,16×4×5幅測試集圖片。由于訓練庫隨機選5組,因此實驗結果有5組對比數據,如圖4所示。

圖4 訓練集中不存在測試集樣本的實驗結果Fig.4 Experiment result when there exists no test sample in database
實驗結果顯示,相較于上面實驗,識別準確率有所下降,這是由于訓練集中不存在測試集樣本,導致可獲取信息降低,但基于視頻的方法仍然要比靜態(tài)的方法高出5個百分點,因為本算法將來自一段視頻的數據看成一個整體,而不是以單獨圖片來處理,可以更好地保存視頻內的時空連續(xù)性信息,獲得更好的準確率;而LPP是以靜態(tài)方式來處理視頻數據,這樣就破壞了視頻語義信息,因此,通過合理的數據建模可以更好地實現基于視頻的人臉性別識別,能更好地契合當前的發(fā)展應用。
對于視頻人臉性別識別,本文提出了一種融合流形學習的算法,該算法不僅可以發(fā)現視頻人臉序列的時空連續(xù)性語義信息并進行聚類融合,還能挖掘視頻人臉數據的本質低維流形結構。與已發(fā)表過的相關研究工作相比較,作者更側重于尋找一種合理的數據建模方法,盡量保留視頻整體的語義屬性。實驗表明該算法較一般的靜態(tài)算法能夠有效地提高視頻人臉的識別準確率。
這里仍然存在一些問題留待將來繼續(xù)努力。比如,k-近鄰法中的k值如何確定尚未解決;如何更好地構建視頻人臉數據模型;這些都將是下一個階段要繼續(xù)研究的問題。
[1]Turk M,Pentland A.Face recognition using eigenfaces[C]//Proceedings of 1991 IEEE Conference on Computer Vision and Pattern Recognition.Los Alamitos,CA:IEEE,1991:586-591.
[2]Belhumeur P N,Hespanha J P,Kriegman D J.Eigenfacesvs Fisherfaces:recognition using class specific linear projection[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,1997,19(7):711-720.
[3]He Xiaofei,Niyogi P.Locality Preserving Projections[C]//Proceedings of International Conference on Advances in Neural Information Processing Systems.MA:Cambridge,MIT,2004:153-160.
[4]尚曉清,宋宜美.一種基于擴散映射的非線性降維算法[J].西安電子科技大學學報,2010,37(1):30-135.
SHANG Xiao-qing,SONG Yi-mei.Nonlinear dimensionality reduction of manifolds by diffusion maps[J].Journal of Xidian University,2010,37(1):30-135.(in Chinese)
[5]Moghaddam B,Yang M H.Learning gender with support faces[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(5):707-711.
[6]Baluja Shumeet,Rowley Henry A.Boosting sex identification performance[J].International Journal of Computer Vision,2007,71(1):111-119.
[7]嚴嚴,章毓晉.基于視頻的人臉識別研究進展[J].計算機學報,2009,32(5):878-884.
YAN Yan,ZHANG Yu-jin.State-of-the-Art on Video-Based Face Recognition[J].Chinese Journal of Computers,2009,32(5):878-884.(in Chinese)
[8]Wang Huafeng,Wang Yunhong,Cao Yuan.Video-based face recognition:A survey[J].World Academy of Science,Engineering and Technology,2009,60:293-302.
[9]Hadid Abdenour,Pietik?inen Matti.Manifold learning for gender classification from face sequences[C]//Proceedings of the 3rd IAPR/IEEE International Conference on Biometrics.Alghero,Italy:IEEE,2009:82-91.
[10]Demirkus Meltem,Toews Matthew,Clark James J,et al.Gender classification from unconstrained video sequences[C]//Proceedings of 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE,2010:55-62.
ZHANG Dan was born in Shanghai,in 1984.She received the B.S.degrees and the M.S.degree in2006 and 2010,respectively.She is now an assistant engineer.
Email:8767306@qq.com
An Improved Manifold-based Face Gender Recognition Algorithm for Video
ZHANGDan
(Southwest China Institute of Electronic Technology,Chengdu 610036,China)
How to fully utilize both spatial and temporal information in video to overcome the difficulties existing in the video-based face recognition,such as low resolution of face images in video,large variations of face scale,radical changes of illumination and pose as well as occasionally occlusion of different parts of faces,has become the research focus.In this paper,a novel manifold-based face gender recognition algorithm for video(VG-LPP)using clustering is proposed,which can discover more special semantic information hidden in video face sequence,simultaneously well utilize the intrinsic nonlinear structure information to extract discriminative manifold features.Comparison of VG-LPP with other algorithms on UCSD/Honda and the author′s own video databases shows that the proposed approach can perform better for video-based face gender recognition.
video-based face gender recognition;manifold;clustering;locality preserving projection;support vector machine
TN919;TP391.41
A
10.3969/j.issn.1001-893x.2012.06.041
1001-893X(2012)06-1031-04
2012-02-28;
2011-04-17
張 丹(1984—),女,上海人,2006年獲工學學位和經濟學學位,2010年獲軟件工程碩士學位,現為助理工程師。