方三勇,周大可,曹元鵬,楊 欣
(南京航空航天大學自動化學院,南京 210006)
基于姿態估計的正面人臉圖像合成
方三勇,周大可,曹元鵬,楊 欣
(南京航空航天大學自動化學院,南京 210006)
為對不同姿態下的人臉圖像進行處理,提出一種基于姿態估計的正面人臉圖像合成方法。利用統計建模的思想重構缺失的人臉形狀和紋理。運用平均三維模型估計測試圖像的姿態參數,結合壓縮感知理論構建形變模型。應用稀疏形變模型理論分別重構測試人臉的三維形狀和紋理,根據測試圖像與重構模型生成正面人臉圖像。實驗結果表明,該方法能夠由一幅姿態人臉圖像合成出精確、自然的正臉圖像,并具有較高的識別率。
正面人臉圖像合成;平均三維模型;姿態估計;壓縮感知;形變模型
人臉圖像處理技術作為計算機視覺和計算機圖形學重要的研究方向之一,近年來成為研究的熱點。但人臉圖像在處理過程中普遍受到姿態、光照的限制,這給計算機理解圖像帶來困難。文獻[1]中指出,同一個人在不同姿態、不同光照下人臉圖像之間的差異,往往大于在相同姿態、相同光照下不同人的人臉圖像之間的差異。為了使計算機準確地理解圖像,從一張任意姿態、任意光照的人臉圖像合成正常光照、正面人臉圖像是解決該類問題的一個重要思路,其中以正面人臉圖像合成尤為典型[2]。
正面人臉圖像合成的一般思路[3]是將人臉圖像中可視區域重新繪制到正面人臉區域,同時對不可見區域進行合成,再繪制到相應的正面人臉區域,其研究的方法主要包括三維的方法和二維的方法。其中三維方法的思路是通過構建三維人臉模型,對測試人臉圖像進行模型參數的匹配,進而獲得完整的三維人臉數據,獲得正面人臉圖像。最典型的方法是文獻[4]提出的3DMM(3D Morphable Model),該方法只需單幅人臉圖像就可以合成完備的三維人臉數據信息。3DMM方法雖然能夠達到很好的實驗效果,但因其匹配過程十分耗時,所以后續學者對3DMM進行改進。文獻[5]采用2D+3D主動表觀
模型的方法[5],可以獲得較好的3D人臉形狀,但是正面的紋理信息無法像3DMM那樣求出。除此之外,采用二維的方法合成正面人臉圖像也取得了較好的研究成果。文獻[6]指出,同一人在不同視角下的人臉可以構成一個平滑的流形,且在不同視角下合成系數在視角間是保持不變的。文獻[7-8]先采用CPCA-SVM技術,對測試人臉圖像進行人臉姿態判定,然后根據判定的姿態信息選用對應的訓練樣本集進行正面人臉合成。但該方法涉及大量的特征點標定工作,且所能合成的人臉姿態也非常有限。文獻[9]采用局部線性回歸的方法,將人臉劃分為不同的矩形區域,通過局部人臉區域的線性逼近全局的非線性,合成的圖像與真實圖像較為相似,但其合成的正臉圖像只包含人臉中心區域。文獻[10]提出通過正側面人臉圖像訓練樣本求解其對應的旋轉矩陣,進行逆向恢復的方法求解正臉圖像,但該方法只能對旋轉角度在30°以內的圖像進行恢復。
本文提出一種基于姿態估計的正面人臉圖像合成方法。該方法通過建立平均三維人臉模型進行姿態估計,以避免3DMM方法中復雜的迭代計算;采用壓縮感知理論對原型樣本進行篩選,以提高形變模型的精度;將原始紋理與重建紋理相結合構建綜合紋理,以保留人臉圖像的細節信息。
因為人臉圖像是由三維信息投影得到的,所以采用三維模型對姿態進行估計更加準確。文獻[11]提出了基于三維重建的人臉姿態估計,該方法需要正面輸入人臉圖像進行三維重建,利用重建的三維人臉模型對其姿態圖像進行估計。筆者受該方法的啟發,利用三維人臉訓練樣本建立平均三維人臉模型,建立二維圖像與平均三維模型特征點間的對應關系,用最小二乘法對姿態角求解。利用建立特征點稠密對應的三維人臉庫,得到平均三維人臉模型,將模型繞坐標軸分別旋轉 α,β,γ的角度,假設旋轉后的模型與測試圖像姿態相同,模型上特征點由 P變為Pr:Pr(χ′,y′,z′)=R*P(χ,y,z),其中,正交旋轉矩陣R為:

根據旋轉公式對三維模型進行旋轉,投影后建立與輸入圖像的對應關系,如圖1所示。

圖1 3D與2D圖像之間特征點的匹配
通過3D到2D的投影關系,對三維坐標系進行平移以及尺度變換,將旋轉后三維模型上的特征點投影到二維平面上,建立與輸入圖像標定點的對應關系。選取模型上明顯的7個特征點,經過坐標平移和尺度變換后,記為Pi(χi,yi,zi)T,給定一張測試圖像對其進行特征點標定,得到特征點坐標為Ii(χ′i,y′i)T,由于人臉圖像上深度信息的缺失,通過模型到二維的投影與測試圖像特征點的對應關系,得到如下超定方程:

其中,i=1,2…,7,方程寫為矩陣的表達形式:A=(P1,P2,P3,P4,P5,P6,P7)T,B=(I1,I2,I3,I4,I5,I6,I7)T,采用最小二乘法進行求解,求得一組向量 δ=(R11,R12,R13;R21,R22,R23)=(ATA)-1ATB,進而求得旋轉的姿態角度 α,β,γ。
3.1 形變模型及稀疏形變模型
形變模型的方法主要包括形變模型的建立和測試圖像與模型匹配2個部分。其中,涉及3維人臉數據歸一化[12]處理、組合模型的建立和測試圖像與模型匹配等主要步驟。規范化后包含m個頂點的三維人臉形狀和紋理向量表示為:

其中,(χik,yik,zik)和(rik,gik,bik)分別是第k點的三維坐標和像素值。設包含n個3維人臉數據構成的原型樣本集矩陣為:

那么給定任意一張新的三維人臉,可以通過原型樣本表示為:

量的目的。設矩陣 P=(P1,P2,…,Pn′),Q=(q1,q2,…,qn′)是前n′個最大特征值對應的特征向量(主成分)構成的特征向量矩陣,式(3)和式(4)可改寫為:


將人臉重建的問題轉化為求解目標函數最小化的數學問題,采用牛頓迭代法進行求解的計算量很大。文獻[13]中提出了稀疏形變的方法,通過選取少數的特征點進行匹配大大地簡化了計算。對模型上選取的 k個特征點并進行旋轉和投影變換,即:其中s—h,對ph進行SVD分解,ph=UΛVT,采用貝葉斯最大后驗概率求得最優解得到:


根據求得的形狀組合系數,得到合成的正面人臉形狀:

采用類似的求解方法求得形變模型中紋理的組合系數β得到合成紋理:

3.2 基于壓縮感知的樣本篩選及形變模型
通過對原型樣本進行篩選,可以構建更加精準的模型。對于足夠大的原型樣本數據S,將其分為與測試圖像比較相似的樣本子集S1和原型樣本S中余下的子集S2。分別記為:

且k=n。
測試圖像表達為:

其中,向量C=[c1,c2,…,ck,0,…,0]T∈Rn,可知測試圖像可以由原型樣本集稀疏表示。若能求得該稀疏解,就可對原型樣本集進行篩選,為此,需要求解如下優化問題:

可以采用壓縮感知理論求解該優化問題,根據式(8)中的選點和變換操作,式(13)的優化問題等價于:

采用正交匹配追蹤算法[14]進行求解。對于求得的稀疏解C,系數越大說明測試圖像與原型樣本的相似性越大,反之越小。所以,按C的絕對值由大到小排列,選取前面m′個分量所對應的樣本作為新的原型樣本。則經過篩選之后新的原型樣本集為S1=(s1,s2,…,s′m)∈R3m×m′,則任一新的人臉可表示為:

其中,P=(si-s—,si+1-s—,…,sm′-s—)∈R3m×m′。為減少計算量,參照稀疏形變模型的方法的求解思路,選取少數特征點進行匹配,由式(15)和式(8),直接得到,其中偽逆矩陣為了避免特征點過擬合造成嚴重的形變,對求得的解加入擾動因子為:

3.3 形狀和紋理建模
對測試人臉圖像進行簡單的裁剪、對齊、統一坐標系等預處理作,并對測試進行眼睛、鼻子、嘴部附近特征點的標定并根據上述形變模型理論對人臉形狀進行合成。為了得到相同維數的人臉像素信息,必須建立圖像間像素的對應關系。本文對人臉進行三角剖分,將人臉Delaunay(德勞內)三角化,經三角剖分后,所有的人臉具有相同的拓撲結構,如圖2所示。

圖2 人臉的三角剖分結果
在每個三角片內人臉的像素點數目是不同的,因此,將三角面片形變到平均人臉上,就實現了整個人臉到平均人臉的對應。由三角面片T′形變到T的過程如圖3所示。

圖3 三角面片之間的映射關系
其中,P′1~P′3是樣本人臉中一個三角面片的3個頂點,在該三角面片內的每一頂點P′都可以用該三角面片的3個頂點來進行表達,如式(17)所示:

假設樣本三角面片頂點的坐標為:
則:


求得s,t后,對齊到平均人臉三角面內點為:

這樣即可建立人臉圖像間像素的對應關系,利用形變模型理論合成正面人臉形狀和正面人臉紋理,便可合成正面人臉圖像。
3.4 綜合紋理生成
形變模型方法是基于統計學原理,有效保留了人臉共性特征,但不能夠保留測試的某些細節特征,所以提出利用測試紋理與合成紋理相結合,生成綜合紋理的方法。結合的方式如下:如果在正臉圖像中可見,而在測試圖像中不可見的紋理,則采用重建的紋理;如果在正臉圖像和測試圖像中均可見的部分,主要采用測試圖像的紋理。生成的綜合紋理可以通過式(20)進行求解:
gi(χ,y)=wi(χ,y)ti(χ,y)+(1-wi(χ,y))t0(χ,y)(20)其中,ti(χ,y),t0(χ,y)分別代表在點(χ,y)處合成的像素值與測試圖像的像素值;wi代表合成紋理中點(χ,y)的權重;這樣合成的正面人臉圖像既保留了人臉共性的信息,又能使某些局部的信息得到有效的顯示。將三角剖分后的測試拉伸到合成人臉形狀對應的三角面上,假設測試上某一面積為Ari的三角形拉伸到對應面積為Ai的正面三角形上,計算面積Ari與Ai間比值的大小以確定wi(χ,y):

在三角形里點的綜合的灰度值便可以根據上述確定的權重得到。三角形從側面拉伸到正面時形變越大則采用合成紋理信息越多,反之采用原來的紋理信息越多。最后,將得到的綜合人臉紋理映射到正面人臉形狀上,得到最終的正面人臉圖像。
4.1 實驗結果
本文實驗以北京工業大學BJUT-3D Face Database[15](包含500張三維人臉的形狀和紋理數據,男女各250人)中部分數據作為訓練樣本。測試樣本為該庫其余樣本旋轉投影下的人臉及部分CAS-PEAL[16]二維姿態人臉圖像。實驗分為2個部分:第1部分對測試進行姿態估計;第2部分是對估計出姿態角的進行正面人臉圖像合成。測試樣本分為庫內樣本和庫外樣本。對三維人臉數據進行歸一化處理后,得到規范化的三維人臉數據。從中篩選100張包含紋理信息的三維人臉作為訓練樣本,其中男女各50張,建立平均三維人臉模型。對測試圖像進行預處理之后標定40個特征點,如圖4所示。采用其中的內外眼角點、鼻尖點,和嘴角點與三位平均模型中對應的特征點進行姿態估計。在得到姿態角后,用這40個標定點合成正面人臉形狀。為了獲得對應的紋理信息,根據合成的形狀再標定12個輪廓點,進行正面人臉紋理的合成。

圖4 特征點標定
采用BJUT-3D Face Database中測試樣本投影和CAS-PEAL庫里的進行姿態估計和正面合成的聯合實驗,結果如圖5~圖8所示,圖5和圖8的具體數據如表1和表2所示,在表中,圖像編號代表從左至右的圖像順序。

圖5 3D測試樣本投影圖像姿態估計結果

圖6 3D測試樣本投影圖像的正臉合成結果

圖7 2D測試樣本姿態估計結果

圖8 CAS-PEAL測試樣本的正臉合成結果

表1 3D測試樣本姿態估計的真實值/估計值

表2 2D測試樣本姿態估計的真實值/估計值
圖5和圖7是對測試樣本進行姿態角估計的結果。圖6和圖8測試分別為采用BJUT-3D Face Database里任意一張三維人臉的投影圖,以及CASPEAL人臉庫里任意一張姿態圖像進行合成的結果。
4.2 算法評價
為對算法進一步進行定量分析,本文將FRB[4],ROF[8],LLR[9]合成方法與本文方法進行比較。人臉識別率雖然是反映正面人臉圖像合成算法性能的一個有利指標,但其受到實驗設置及識別方法等因素的影響,所以,本文還綜合了合成圖像的視角范圍及合成圖像質量等指標進行綜合分析。其中人臉的識別實驗是在CAS-PEAL人臉庫上進行,選取其中POSE子集中30個人的6種不同姿態進行正臉合成,通過提取合成人臉圖像的LBP特征進行識別驗證。圖像質量是基于對不同合成方法所得到的正面人臉圖像主觀評價得到的,具體實施是將不同方法合成的正面人臉圖像混合在一起后,讓25個人對合成的圖像按照相似性及自然性從0.1,0.2,…,1這10個分數值進行打分。對算法性能定量評價的結果如表3所示。

表3 3種正面人臉圖像合成方法性能評估
本文提出一種高精度的正面人臉圖像合成方法。該方法利用三維人臉庫的信息,構建不同姿態下的二維人臉樣本圖像,避免了二維姿態樣本不易獲得且需對樣本進行標點的問題;采用壓縮感知理論對原型樣本篩選,構建更精確的形變模型;將原始紋理與重建紋理相結合構建綜合紋理,有效保留了人臉圖像的細節信息。但本文方法還存在以下不足:當輸入圖像旋轉的角度過大(超過45°)時,合成的效果將會變差;沒有充分考慮光照變化對合成效果的影響。因此,解決大姿態角度的旋轉和光照問題,是下一步研究工作的重點。
[1] Zhao W,Chellappa R,Rosenfeld A,et al.Face Recognition:A Literature Survey[J].ACM Computing Survey,2003,35(4):399-458.
[2] 趙 林,高新波,田春娜.正面人臉圖像合成方法綜述[J].中國圖象圖形學報,2013,18(1):1-10.
[3] Vetter T.Synthesis of Novel Views from a Simple Face Image[J].International Journal of Computer Vision,1998,28(2):103-116.
[4] Blanz V,Grother P,Philips P J,et al.Face Recognition Based on Frontal Views Generated from Non-frontal Image[C]//Proceed-ings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Los Alamitos,USA:IEEE Press,2005:454-461.[5] Xiao Jing,Baker S.Real-time Combined 2D+3D Active Appearance Models[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE Press,2004:535-542.
[6] Huang Xinyu,Gao Jizhou,Cheung S S,et al.Manifold Estimation in View-based Feature Space for Face Synthesis Across Poses[C]//Proceedings of the 9th Asian Conference on Computer Vision.Heidelberg,Germ any:Springer-Verlag,2010:37-47.
[7] Li Yingchun.Face Pose Estimation and Synthesis by 2D Morphable Model[C]//Proceedings of International Conference on Computational Intelligence and Security. Heidelberg,Germany:Springer-Verlag,2007:1001-1008.
[8] 杜 成,蘇光大,林行剛,等.多姿態人臉圖像合成[J].光電子·激光,2005,15(12):1498-1501.
[9] Chai Xiujuan.Locally Linear Regression for Poseinvariant Face Recogni-tion[J].IEEE Transactions on Image Processing,2007,16(7):1716-1725.
[10] Li Xi,Takahashi T,Deguchi D,et al.Virtual View Generation Using Clustering Based Local View Transition Model[C]//Proceedings of the 11th International Conference on Computer Vision.Heidelberg,Germ any:Springer-Verlag,2013:260-271.
[11] 熊黎麗,王國胤.基于三維重建的人臉姿態估計[J].重慶郵電大學學報:自然科學版,2010,22(3):375-380.
[12] 胡陽明,周大可,鹿 樂.基于改進ASM的三維人臉自動對齊算法[J].計算機工程,2013,39(3):250-253.
[13] Blanz V.Reconstructing the Complete 3D Shape of Faces from Partial Information[J].Informations Technikund Technische Informatik,2002,44(6):295-302.
[14] Donoho D L.Fast Solution of l1-norm Minimization Problems When the Solution May Be Sparse[J].IEEE Transactions on Information Theory,2008,54(11):4789-4812.
[15] 尹寶才.BJUT-3D三維人臉數據庫及其處理技術[J].計算機研究與發展,2009,46(6):1009-1018.
[16] 張曉華,山世光,曹 波,等.CAS-PEAL大規模中國人臉圖像數據庫及其基本評測介紹[J].計算機輔助設計與圖形學學報,2005,17(1):9-17.
編輯 金胡考
Frontal Face Image Synthesis Based on Pose Estimation
FANG Sanyong,ZHOU Dake,CAO Yuanpeng,YANG Xin
(College of Automation Engineering,Nanjing University of Aeronautics and Astronautics,Nanjing 210006,China)
In order to process the face image in different poses,this paper proposes a frontal face image synthesis method based on pose estimation.The method is based on the idea of statistical modeling to reconstruct the missing face shape and texture.Firstly,3D average model is applied to estimate the pose parameters of the test face image.Compressed sensing theory is used to filter prototype samples and then a more accurate model of deformation is built up.Secondly,the test face image is separately expressed by texture vector and shape vector.The deformation model theory is used to reconstruct front texture and shape.Finally,synthesis texture is produced according to the original texture and reconstructed texture.Experimental result shows that this method can be used to synthesize natural frontal face image from non-frontal face image with effectiveness and higher recognition rate.
frontal face image synthesis;average 3D model;pose estimation;compressed sensing;deformable modelDO I:10.3969/j.issn.1000-3428.2015.10.045
方三勇,周大可,曹元鵬,等.基于姿態估計的正面人臉圖像合成[J].計算機工程,2015,41(10):240-244,249.
英文引用格式:Fang Sanyong,Zhou Dake,Cao Yuanpeng,et al.Frontal Face Image Synthesis Based on Pose Estimation[J].Computer Engineering,2015,41(10):240-244,249.
1000-3428(2015)10-0240-05
A
TP18
國家自然科學基金資助項目(61172135);南京航空航天大學研究生創新基地(實驗室)開放基金資助項目(kfjj20130210)。
方三勇(1989-),男,碩士研究生,主研方向:圖像處理,模式識別;周大可,副教授、博士;曹元鵬,碩士研究生;楊 欣,副教授、博士。
2014-11-03
2014-11-28E-mail:fangsnyong@163.com