杜星悅+董洪偉+楊振
摘要:標定三維人臉模型特征點對人臉識別、人臉建模等都具有重要作用。針對人臉特征點標定需要手工干預、標定特征點個數少或不準確、標定時間長等問題,提出了一種基于投影與深度學習網絡的人臉三維模型特征點標定法。基于正交投影,生成人臉三維模型二維深度圖與二維特征點位置,采用以卷積神經網絡為主的深度學習網絡模型訓練測試,將深度圖上特征點映射到三維人臉模型,實現眉毛、眼睛、鼻尖、嘴巴等重要區域的特征點定位。實驗表明,該方法可自動標定三維人臉模型特征點,快速、準確預測足夠數量特征點位置。
關鍵詞:三維人臉;特征點定位;投影;卷積神經網絡
DOIDOI:10.11907/rjdk.171924
中圖分類號:TP301
文獻標識碼:A 文章編號:1672-7800(2017)012-0012-03
Abstract:Calibration of the three-dimensional face model feature points has an important role on face recognition, face modeling, and so.Some problems still exist,like that Face feature points need to be manually calibrated, the number of calibration points is small or inaccurate, the calibration time is long, and so on. A feature point calibration method of face 3D model based on projection and depth learning network is proposed. Firstly, based on the orthogonal projection, the two-dimensional depth map and two-dimensional feature point position of the human face 3D model are generated.Then we use the depth learning network model, mainly based on the convolution neural network, to train and test, and map the feature points on the depth map to the 3D human model .Finally,we achieve facial key points on eyebrows, eyes, the nose tip and the mouth. Experiments show that this method can automatically calibrate enough 3D face model feature points, fastly and accurately.
Key Words:three dimensional; face feature point positioning; projection; convolution neural network
0 引言
二維人臉識別技術發展迅速,但沒有很好解決光照、表情等問題。光照條件、姿態變化等因素都對二維人臉精確檢測與識別有較大影響。近年,三維人臉識別技術受到了越來越多關注。相對于二維人臉識別技術,三維人臉識別技術較容易做到姿態與光照的不變性[1-2]。隨著技術發展,三維模型獲取日趨簡化,促進了三維人臉識別[3-4]、三維表情識別[5-6]、三維人臉分割[7-8]等三維人臉方面的研究。
國內外關于三維人臉特征點定位的一些研究包括:①基于曲率進行特征點定位,曲率是三維研究中重要基本屬性之一,且有歐氏變換不變性,Chang等[9]綜合利用平均曲率及高斯曲率定位眼眶、鼻尖、鼻梁等人臉特殊區域。基于曲率的三維特征點定位算法缺點是對于數據噪聲較為敏感,除了內眼點以及鼻尖點外,其余特征點定位效果達不到要求;②王蜜宮等[10]基于局部形狀圖的方法,半徑大小選擇很關鍵,但大小確定較困難,選擇不當直接影響結果精度,且只能對個別幾個特征點進行預測;③利用較成熟二維圖像數據人臉特征點定位技術,輔助定位三維人臉數據特征點,但此類算法要求三維數據存在二維輔助圖像,無法僅用于三維信息人臉數據。
結合上述研究以及解決方法不足之處,本文提出基于正交投影獲得三維數據對應二維深度圖與深度學習網絡進行三維人臉特征點的定位方法。
1 正交投影
正交投影理論介紹如圖1所示,在右手坐標系中,觀察空間中正交投影矩形觀察體,原點代表相機位置,f代表遠裁剪面到相機面距離,n代表近裁剪面到相機面距離,p是該空間中某一個點,p′是點p投影之后得到的點。
2 深度學習卷積神經網絡
深度學習卷積神經網絡算法,采取局部連接與權值共享方式,網絡結構除了輸入與輸出層,還包括中間卷積層、抽樣層、全連接層。當網絡輸入層是多維圖像時,卷積神經網絡避免了傳統復雜的特征提取與數據重建過程,優點更為明顯。其在二維圖像處理上有眾多優勢,如網絡能自行抽取顏色、形狀、紋理等圖像特征,具有良好魯棒性、運算效率等。輸入若干由d維人臉構成圖像x∈Rd,p維目標輸出變量Tg(x)∈Rp,深度學習卷積神經網絡學習出一個從圖像到目標值的映射函數:F:x→T。映射F是復雜的非線性函數,各層網絡作用可看作最小化以下目標函數:
3 算法
3.1 流程
本文方法流程主要分為訓練及測試。
(1)訓練。①標定三維模型特征點位置;②對三維模型進行正交投影;③獲得深度圖像(包括三維特征點所對應二維坐標位置);④深度網絡訓練:以卷積神經網絡為主要結構(樣本是深度圖的值,標簽是特征點二維坐標)進行訓練。
(2)預測。①輸入三維模型進行正交投影獲得深度圖像(不包括特征點位置);②使用已訓練好的深度網絡對深度圖像進行特征點二維坐標預測;③輸出二維坐標一一反投影到三維坐標,在三維模型上得到特征點位置。
其中,本文檢測人臉特征點位置目前標記為左眼中心、左眼內側、左眼外側、右眼中心、右眼內側、右眼外側、左眉外側、左眉內側、右眉外側、右眉內側、鼻尖、嘴巴上側、嘴巴下側、嘴巴左側、嘴巴右側共計15個特征點,如圖4所示。可自由增加訓練樣本特征點個數,以預測更多特征點。
3.2 正交投影與透視投影對比
本文之所以采用正交投影,存在合理性。平面投影一般分為正交投影及透視投影。透視投影是視錐觀察體,基本原理如圖5所示。透視投影會據物體離視點遠近縮放物體,深度值會發生一定扭曲。扭曲深度值作為實驗數據無法反映真實深度,所以選擇正交投影而非透視投影。
3.3 深度網絡架構
本文深度網絡架構主要由卷積神經網絡構成,先是輸入層,經過3層以卷積層、池化層為主網絡結構,然后是2層全連接層,最后是計算損失層。各層網絡主要參數如下:第一層卷積層:kernel size=5,stride=1;下接ReLU層;第一層池化層:kernel size=2,stride=2。第二層卷積層:kernel size=5,stride=1;下接ReLU層;第二層池化層:kernel size=2,stride=2。第三層卷積層:kernel size=3,stride=1;下接ReLU層。然后下接2個全連接層,參數num_output分別為500、30。
本文深度網絡架構主要由卷積神經網絡構成,與傳統機器學習方法(如SVM、隨機森林等)相比,深度學習對圖像有強大特征提取能力,取得特征更加豐富,取得效果會有一定程度提升。另外,由于本文數據量很大,若使用傳統機器學習方法,訓練會非常耗時,而深度學習網絡依賴更加成熟GPU加速技術,在縮短訓練時間上有很大優勢。
4 實驗
4.1 實驗數據
實驗數據庫采用bfm數據庫,庫中每個三維人臉包括53 490個點及106 400個三角面。訓練200個三維人臉人臉,每個人臉繞著xyz軸在一定范圍旋轉加上平移得到50個不同姿勢下深度圖像,增加訓練樣本大小。再在庫中選取200個三維人臉進行后期測試。
4.2 實驗結果
硬件條件為顯卡gtx960,本文運用GPU加速并行架構。GPU近年來發展迅速,可以極大提升計算速度。在投影階段GPU加速示意圖如圖6所示。正交投影200個三維人臉時間,計算時間單CPU模式下約2h,GPU模式下約15min,提高10倍左右。
訓練卷積神經網絡,迭代50 000次,在GPU模式下訓練時間為25min左右,效率比CPU模式下快很多。
4.3 結果分析
使用GPU并行技術,大幅縮短訓練時間,是本文方法優勢之一。另外,從測試實驗結果中選取3個三維人臉,特征點結果預測結果如圖7、圖8、圖9所示。實驗表明,運用本文方法來預測人臉,三維人臉特征點定位結果準確。
5 結語
本文方法利用基于三維人臉模型正交投影生成合理深度值的二維深度圖像,結合卷積神經網絡強大的圖像特征提取及擬合能力,解決了三維人臉特征點需人工手動定位以及標定三維特征點耗時長等問題。由實驗結果可見,本文方法訓練及測試時間短,三維特征點定位準確,并且可增加三維人臉預測特征點數目。本文實驗預測了15個關鍵特征點,可通過擴充訓練庫人臉關鍵特征點數目,預測大于15個三維人臉特征點。
參考文獻:
[1] 呂士文,達飛鵬,鄧星.基于區域改進LBP的三維人臉識別[J].東南大學學報:自然科學版,2015(4):64-68.
[2] 王健,高媛,秦品樂,等.基于改進的LBP算法的三維人臉識別[J].計算機工程與設計,2016(12):234-238.
[3] 鄧星,達飛鵬,楊喬生.基于自適應人臉切割的三維人臉識別算法[J].東南大學學報:自然科學版,2016(2):34-38.
[4] 劉述木,楊建,陳躍.保角特征結合改進差分進化算法的三維人臉識別[J].計算機應用研究,2016(6):304-308.
[5] 李江,冉君軍,張克非.一種基于降噪自編碼器的人臉表情識別方法[J].計算機應用研究,2016(12):329-332.
[6] 黃建,李文書,高玉娟.人臉表情識別研究進展[J].計算機科學,2016(S2):132-135.
[7] XUN GONG, GUOYIN WANG.Automatic 3D face segmentation based on facial feature extraction[C].IEEE International Conference on Industrial Technology,2006:1154-1159.
[8] 賈暉,耿國華,周明全,等.基于區域離散曲率的三維網格分水嶺分割[J].計算機工程與應用, 2015,51(11):182-186.
[9] CHANG K I,BOWYER W,FLYNN P J.Multiple nose region matching for 3D face recognitlon under varying facial expression[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(10):1695-1700.
[10] 王密宮,陳鍛生,林超.基于局部形狀圖的三維人臉特征點自動定位[J].計算機應用,2010 (5):121-124.
(責任編輯:何 麗)