摘 要:描述了一個(gè)能夠快速精確地對三維人臉姿態(tài)進(jìn)行自動估計(jì)的系統(tǒng),提出了利用人臉的反射對稱特性自動估計(jì)三維人臉姿態(tài)的方法,通過擴(kuò)展高斯圖像及最小包圍球來得到三維人臉對稱平面,利用搜索得到的鼻尖頂點(diǎn)對人臉進(jìn)行估計(jì),然后對估計(jì)在規(guī)定范圍內(nèi)進(jìn)行修正,最終得到精確的估計(jì)結(jié)果。以三維掃描儀掃描的真實(shí)人臉數(shù)據(jù)作為輸入對系統(tǒng)進(jìn)行了驗(yàn)證,實(shí)驗(yàn)表明該方法不但具有很好的精確性和魯棒性,而且能夠很好地應(yīng)用到實(shí)際應(yīng)用中。
關(guān)鍵詞:三維人臉;姿態(tài)估計(jì);反射對稱;擴(kuò)展高斯圖像
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2008)07-2187-03
Estimating 3D facial pose with symmetry
LUO Hengxi, CHEN Leiting, HE Mingyun
(School of Computer Science Engineering, University of Electronic Science Technology of China, Chengdu 610054,China)
Abstract:This paper described a system that could be used to estimate 3D facial pose rapidly and accurately, and proposed a robust pose estimation method for 3D face models,which was based on facial reflective symmetry. With extended Gaussian image and smallest enclosing ball theories, the method detected the symmetry plane of 3D face at first, and searched the tip of nose, then estimated the pose approximately. In order to obtain more accurate result, the method corrected the approximate estimation in a given confine. The experiments using real face data obtained by 3D scanner, demonstrated the effectiveness as well as robustness.
Key words:3D face; pose estimation; reflective symmetry; extended Gaussian Image
三維人臉動畫、檢測以及識別等方面的研究一直是計(jì)算機(jī)視覺和模式識別領(lǐng)域最活躍的研究熱點(diǎn)。對于上面這些應(yīng)用,很關(guān)鍵的一個(gè)步驟就是要保證三維模型特征描述具有針對平移、旋轉(zhuǎn)、尺度大小及方位變換的不變性和魯棒性。目前,實(shí)現(xiàn)特征描述不變性的方法主要有三種:
a)使用主成分分析(principal component analysis, PCA)等方法對三維模型坐標(biāo)進(jìn)行標(biāo)準(zhǔn)化,計(jì)算其坐標(biāo)框架,但是PCA對形狀的擾動非常敏感,以至于得不到理想的效果[1]。
b)將所有待比較的三維模型兩兩之間進(jìn)行坐標(biāo)對齊,這種方法由于極為費(fèi)時(shí)而很少被采用。
c)定義并提取本身具有不變特征的特征描述。例如,Suzuki等人提出的形狀特征只對繞坐標(biāo)軸90°范圍內(nèi)的旋轉(zhuǎn)變換保持不變性[2];Kazhdan等人提出的反射對稱特征描述只具有平移和尺度不變性[3]。然而,這些特征描述所具有的不變性往往是不全面的。而且,大多數(shù)這類特征的計(jì)算有時(shí)也需要在一個(gè)歸一化的坐標(biāo)系內(nèi)完成。因此,對三維人臉模型的坐標(biāo)進(jìn)行標(biāo)準(zhǔn)化是非常有必要的。
模型坐標(biāo)的標(biāo)準(zhǔn)化又稱姿態(tài)估計(jì)。在三維空間中,三維模型可以具有任意方位和角度,因此,為了保證特征描述對于平移、旋轉(zhuǎn)等變換的不變性,在進(jìn)行后續(xù)操作之前,必須先將三維模型變換至一個(gè)標(biāo)準(zhǔn)坐標(biāo)系的范圍內(nèi)。但是,在大多數(shù)情況下,人們都是手動完成這一步驟,這樣不僅費(fèi)時(shí)而且不精確。
1 系統(tǒng)概述
圖1為整個(gè)系統(tǒng)的處理流程框圖。首先,讀取三維人臉模型數(shù)據(jù),構(gòu)造擴(kuò)展高斯圖像;然后利用擴(kuò)展高斯圖像求出三維人臉模型的對稱平面法向量;計(jì)算模型的最小包圍球,以球心作為模型的中心,得到對稱平面方程;利用得到的對稱平面對三維人臉模型的姿態(tài)進(jìn)行初步估計(jì);最后,對模型與對稱平面交集點(diǎn)進(jìn)行判定,得到歐拉距離最大點(diǎn),再以該點(diǎn)為中心在給定鄰域內(nèi)搜索給定坐標(biāo)軸向最大值,從而得到鼻尖點(diǎn),利用鼻尖點(diǎn)到對稱平面的距離進(jìn)行修正,獲得更為精確的姿態(tài)估計(jì)。
2 求解三維人臉的對稱平面
在 n維歐式空間 En中對稱可以用三個(gè)轉(zhuǎn)換來定義,反射、旋轉(zhuǎn)和平移。假設(shè) S是 En的一個(gè)子集,給定一個(gè)變換T,如果 T(S)=S,那么 S關(guān)于T對稱。反射對稱存在一個(gè)反射平面,由反射平面所分割的左右兩個(gè)空間存在鏡像關(guān)系。旋轉(zhuǎn)對稱存在一個(gè)對稱軸和一個(gè)對稱級(order of symmetry) f(f≥2)。如果一個(gè)物體有對稱級 f,那么當(dāng)它繞對稱軸旋轉(zhuǎn) (m×360/f)°(1≤m≤f)后,它將與原位置重合。
對于人臉,總是可以近似地認(rèn)為左右兩半臉呈反射對稱關(guān)系。因而通過求解人臉的對稱平面,初步估計(jì)人臉的姿態(tài)。Podolak等人[1]描述了一種復(fù)雜但更為通用的算法求解三維物體反射對稱,然而對于人臉這種具有明顯反射對稱特征的物體,則需要一種更加簡化、快速且精確的方法,以便能夠在非常短的時(shí)間內(nèi)給出最優(yōu)解。本文采用Sun等人在其論文中所闡述的理論[4],利用擴(kuò)展高斯圖像[5]獲得三維模型對稱平面的法向量,在此基礎(chǔ)上將模型的最小包圍球的球心作為模型的中心,得到對稱平面方程。
2.1 對稱平面法向量
通常,求一個(gè)物體的對稱有兩種方法:a)利用物體的幾何信息來構(gòu)造一個(gè)中間表示,然后利用此中間表示來求對稱。此方法適合具有細(xì)節(jié)信息豐富的物體,如人臉。b)通過提取物體的結(jié)構(gòu)信息來求對稱。此方法將物體簡化抽象后,利用圖論、拓?fù)鋵W(xué)等理論來得到對稱信息。此方法適合具有明顯結(jié)構(gòu)特征的物體。
高斯擴(kuò)展圖像是一種中間表示,它具備下列性質(zhì)[5]:
a)如果一個(gè)物體是對稱的,那么它所對應(yīng)的EGI也是對稱的,且對稱平面的法向量相同;
b)當(dāng)轉(zhuǎn)動物體時(shí),它所對應(yīng)的EGI也以相同方式轉(zhuǎn)動;
c)EGI的對稱平面必定通過高斯球的球心。因此,可以基于EGI來計(jì)算三維人臉模型的對稱平面。
EGI是一種形狀表示,通過一個(gè)定義在單位球(稱為高斯球,Gauss sphere)上的函數(shù)來描述[4]:
v=K()
(1)
其中: 為單位球上一點(diǎn)的單位法向量; v為在 方向上的值。
一旦構(gòu)造好三維人臉模型的EGI,對稱平面的法向量就可以直接從EGI求得而不再需要原模型數(shù)據(jù)。
2.1.1 構(gòu)造EGI
實(shí)際上,可以將EGI看成是一個(gè)有向柱狀圖(orientation histogram):對于高斯球上的點(diǎn) pi有值Mi,{{p
在計(jì)算機(jī)中,通常的做法是將球體分割為單元(cell)來表示高斯球上的信息。筆者通過下列步驟構(gòu)造高斯球:
a)將20面體的每個(gè)三角面片通過連接三邊中點(diǎn)細(xì)分為四個(gè)更小的三角面片;
b)歸一化這些新得到的三角頂點(diǎn),使其位于一個(gè)單位球上;
c)重復(fù)以上步驟,直到獲得滿意的解析度為止。
為了在計(jì)算速度與精度之間取得平衡,筆者通過五次迭代來得到一個(gè)適中的解析度,如圖2(b)所示。將式(1)離散化,用每個(gè)單元的中心代表整個(gè)單元上的點(diǎn):
其中: i為第 i個(gè)單元的單位法向量; sk為網(wǎng)格模型上第 k個(gè)三角面片的面積;映射 K滿足:
其中:#8226;表示兩個(gè)向量的點(diǎn)積; k為網(wǎng)格模型上第 k個(gè)三角面片的單位法向量。
2.1.2 求對稱平面的法向量
由于三維模型與EGI的對稱平面的法向量是相同的,只需要根據(jù)模型的EGI來求對稱平面的法向量。為了尋找與最優(yōu)對稱相關(guān)的向量,一種解決方案就是計(jì)算EGI上每個(gè)面片的方向,但是如果面片數(shù)量非常大,將無法通過計(jì)算機(jī)來求解。為了減少求解過程中的搜索空間,筆者主要基于Minovic等人給出的理論[6]:一個(gè)物體的任何對稱平面必與一個(gè)主軸正交。這樣,就只需將搜索范圍限定在主軸方向。
為了得到EGI的主軸,首先需要計(jì)算EGI的協(xié)方差矩陣 C [7]。該矩陣從EGI的二階中心矩得到:
在離散情況下,二階中心矩由下式得到:
其中: (x,y,z)是EGI的質(zhì)心,由一階矩得到:
在離散情況下,一階矩的計(jì)算式如下:
其次,利用式(4)構(gòu)造EGI的慣性矩陣 J:
其中:tr(#8226;)表示一個(gè)矩陣的跡; I(xiàn)是一個(gè)3×3單位矩陣。
最后,求解 J的特征向量,所得即是EGI的主軸。
為了在EGI上搜索最優(yōu)對稱,筆者引入了平面反射對稱度的定義:以該平面進(jìn)行反射對稱后,有向柱狀圖與自身的相關(guān)性。一個(gè)平面的反射對稱度通過遍歷有向柱狀圖上的面片,將其值與以平面鏡像后的面片值相乘得到。只有三個(gè)主軸方向,以及以它們?yōu)橹行囊?guī)定鄰域內(nèi)的方向作為候選對稱平面法向量。最后,通過求這些平面的對稱度,得到最大對稱度的平面即是最優(yōu)對稱平面。
2.2 對稱平面方程
在三維歐氏空間中,一個(gè)平面可用下面平面方程描述:
其中:是平面的單位法向量;d是常數(shù)。
上文中已經(jīng)利用EGI求出 ,如果已知平面上一點(diǎn) p就可以解出這個(gè)平面方程。對于一般人臉來說,總是可以利用一個(gè)球體來近似,而球體的反射對稱平面必定經(jīng)過球心,因此可以通過將模型的最小包圍球球心作為其對稱平面上的點(diǎn)p。
通過采用Grtner提出的算法[8],筆者獲得了一個(gè)理想最小包圍球,通過將包圍球球心坐標(biāo)代入式(9),得到有一定偏差的對稱平面,如圖3所示。
3 姿態(tài)估計(jì)
模型的姿態(tài)估計(jì)又稱為模型坐標(biāo)的標(biāo)準(zhǔn)化。對一個(gè)模型進(jìn)行姿態(tài)估計(jì),首先應(yīng)該給出一個(gè)參考基準(zhǔn),然后以此作為參考給出估計(jì)結(jié)果。通常,姿態(tài)估計(jì)的結(jié)果可以通過兩種形式給出:a)模型相對參考基準(zhǔn)的信息;b)通過變換,將模型直接變換到基準(zhǔn)。
由于本文描述的系統(tǒng)會作為一個(gè)動畫創(chuàng)作平臺的預(yù)處理子系統(tǒng),本文采用了第二種形式給出結(jié)果,以便作為下一階段的輸入。對于參考基準(zhǔn),筆者在右手坐標(biāo)系上規(guī)定:a)模型的中心與坐標(biāo)原點(diǎn)重合;
b)模型的對稱平面與 YOZ坐標(biāo)平面重合;
c)三維人臉的鼻尖朝向 Z軸正方向。
對于基準(zhǔn)1和2,首先將模型的中心(即包圍球的中心)移到坐標(biāo)原點(diǎn) O,此時(shí) O必定位于對稱平面上;然后,通過計(jì)算對稱平面與 YOZ平面的夾角 θ,來決定一個(gè)旋轉(zhuǎn)操作。
θ=arccos(1#8226;2)
(10)
其中:1為對稱平面的單位法向量, 2為 YOZ平面的單位法向量。
對于基準(zhǔn)3,關(guān)鍵是尋找人臉鼻尖位置。通過滿足基準(zhǔn)1、2后,可以得到對稱剖面上的輪廓曲線 C,令P1和 P2分別為曲線 C的始端和末端, L是P1與P2之間的線段,如圖4所示。通過下式來定義鼻尖:
其中: dist(#8226;,#8226;)是曲線 C到線段 L的歐拉距離。
利用式(11)得到的近似鼻尖點(diǎn),完成了初步的姿態(tài)估計(jì)。可以通過下面公式得到繞 X軸旋轉(zhuǎn)的角度:
(12)
其中: ON是從坐標(biāo)原點(diǎn)指向鼻尖向量,是 Z軸的單位向量。
4 修正
由于輸入的三維人臉模型通常會包含噪聲數(shù)據(jù),上一章中得到的估計(jì)結(jié)果會存在偏差。為了讓姿態(tài)估計(jì)的結(jié)果更加精確,采用在上一步姿態(tài)估計(jì)的基礎(chǔ)上,給定以 N點(diǎn)為中心,半徑為 r的搜索區(qū)域,在此區(qū)域內(nèi)搜索一個(gè) z值最大的點(diǎn)N′,則該頂點(diǎn)作為新的鼻尖點(diǎn),重新調(diào)整姿態(tài),獲得一個(gè)更為精確的估計(jì)。圖5展示了 r=20,搜索步長 Δ=0.5時(shí),得到的N′,圖中灰色標(biāo)注了整個(gè)搜索區(qū)域。
5 實(shí)驗(yàn)結(jié)果與討論
為了驗(yàn)證上述理論的正確性,筆者用Polhemus的FastSCAN掃描儀掃描得到的任意姿態(tài)真實(shí)人臉作為實(shí)驗(yàn)輸入,同時(shí)為了降低計(jì)算時(shí)間,對模型進(jìn)行了簡化,使其面片數(shù)大致保持在7 000 個(gè)左右。本文在如下配置的PC上用C++實(shí)現(xiàn):操作系統(tǒng)是Windows XP Professional(SP2),CPU是Intel Pentium4 3.06 GHz,系統(tǒng)內(nèi)存為1 GB,GPU是nVidia的GeForce 7600GT,顯存為256 MB,顯卡總線為PCIExpress x16。圖(a)顯示了系統(tǒng)的輸入模型;(b)顯示了系統(tǒng)的輸出結(jié)果。
在實(shí)驗(yàn)過程中發(fā)現(xiàn),構(gòu)造EGI時(shí),高斯球的解析度對輸出結(jié)果有較大的影響,為了平衡效率和精度,經(jīng)過反復(fù)實(shí)驗(yàn),得出通過五次迭代所得到的高斯球能很好地滿足要求的結(jié)論。表1展示了對10個(gè)掃描人臉測試所得到的平均數(shù)據(jù)。
平均面片數(shù)求解對稱平面耗時(shí)/s計(jì)算最小包圍球耗時(shí)/ms姿態(tài)估計(jì)及修正耗時(shí)/ms平均修正次數(shù)
7 1826.24746.67234.1532.1
實(shí)驗(yàn)結(jié)果表明,當(dāng)輸入模型含有一定噪聲時(shí),輸出結(jié)果仍然能夠滿足要求。但是,當(dāng)模型含有太多的噪聲,以至于左右半臉差別太大時(shí),就需要擴(kuò)大修正的搜索領(lǐng)域或者進(jìn)行多次修正,來提高輸出精度。
6 結(jié)束語
本文提出并實(shí)現(xiàn)了一種利用人臉具有的反射對稱特性來實(shí)現(xiàn)三維人臉模型姿態(tài)自動估計(jì)的方法,采用真實(shí)掃描數(shù)據(jù)作為輸入,驗(yàn)證了方法的正確性和魯棒性。從實(shí)驗(yàn)數(shù)據(jù)中可以看出,求解對稱平面是最耗時(shí)的一步,雖然利用EGI作為中間表示比直接對原模型進(jìn)行操作已經(jīng)大大降低了復(fù)雜度,但是仍然需要對EGI的構(gòu)造以及對稱平面法向量的求解作進(jìn)一步的優(yōu)化,同時(shí)考慮如何避免修正或者減少修正次數(shù)。
參考文獻(xiàn):
[1] PODOLAK J, SHILANE P, GOLOVINSKIY A, et al. A planarreflective symmetry transform for 3D shapes[J]. ACM Trans on Graphics, 2006, 25:549-559.
[2]SUZUKI M, KATO T, OTSU N. A similarity retrieval of 3D polygonal models using rotation invariant shape descriptors[C]// Proc of IEEE International Conference on Systems, Man, and Cybernetics. Nashville,Tennessee:[s.n.], 2000: 2946-2952.
[3]KAZHDAN M, CHAZELLE B, BOBKIN D, et al. A reflective symmetry description[C]// Proc of European Conference on Computer Vision. Copenhagen, Denmark:[s.n.], 2002: 642-656.
[4]SUN C, SHERRAH J. 3D symmetry detection using the extended Gaussian image[J]. IEEE Trans PAMI, 1997, 19(2): 164-165.
[5]HORN B. Extended Gaussian image[J]. Proc of IEEE, 1984, 72(12): 1671-1686.
[6]MINOVIC P, ISHIKAWA S, KATO K. Three dimensional symmetry identification, part I: theory[R]. [S.l.]: Kyushu Institute of Technology,1992.
[7]YANG L, ALBREGTSEN F, TAXT T. Fast computation of threedimensional geometric moments using a discrete divergence theorem and a generalization to higher dimensions[J]. CGVIP: Graphical Models and Image Processing, 1997, 59(2): 97-108.
[8]GRTNER B. Fast and robust smallest enclosing balls[C]//Proc of the 7th Annual European Symposium on Algorithms (ESA), Lecture Notes in Computer Science 1643. New York: SpringerVerlag, 1999: 325-338.
注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。”