999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

三維人臉識別研究進展

2023-12-11 07:11:04趙國強
計算機工程與應用 2023年23期
關鍵詞:人臉識別特征方法

劉 力,龔 勇,趙國強,2

1.中國電子科技南湖研究院,浙江 嘉興 314002

2.浙江大學 信息與電子工程學院,杭州 310027

近年來,隨著人工智能技術的快速發展,人臉識別技術已經廣泛應用于社會安防、智能家居、金融支付、教育、醫療、交通等領域。人臉識別技術無須用戶過多參與,對用戶不造成任何損害,通常采用非接觸式的數據采集方式,識別設備小巧便攜,被稱為21世紀最有前途的身份驗證方法。Minaee等[1]對包括人臉在內的120多項生物特征識別的前景工作進行了全面調查,闡述了人臉識別技術的重要性。目前大多數人臉識別方法建立在二維數據的基礎上,即對單一的二維彩色圖像進行識別,技術相對成熟,但容易受到年齡、膚色、紋理及復雜環境因素的干擾和影響,識別精度和應用范圍受限,Kortli 等[2]對二維人臉識別技術的傳統算法與最新研究進行了全面的總結。Wang等[3]、Dalvi等[4]對人臉識別的發展歷史、技術流程及應用進行了詳細介紹。Du等[5]主要考慮基于深度學習的二維人臉識別,部分方法涉及三維人臉對齊和檢測技術。

相對二維人臉數據,三維人臉數據包含更加豐富的身份信息,基于三維數據開發的人臉識別技術可以克服或減輕環境因素的影響,能夠抵御各種形式的攻擊,因此三維人臉識別方法得到越來越多的重視。Zhou 等[6]基于姿態變化、表情變化和存在遮擋三種不同情況,對相關三維人臉識別技術的發展歷史和研究方法進行了總結,Guo 等[7]在此基礎上進一步討論了視頻和異構數據的識別問題。Sharma 等[8]深入分析了基于深度學習的三維人臉重建技術,但討論的應用領域有所局限。Zhang 等[9]總結了三維面部和頭部技術,包括數據捕獲技術和儀器、數據集、建模流程以及產品應用場景,但主要集中在傳統方法方面,對于機器學習、深度學習等關鍵方法涉及很少。Topsakal等[10]總結了數量最多的三維面部地標檢測算法,但缺乏三維面部識別環節的調研。Cava[11]從監控視頻和面部照片圖像中分析了3D人臉重建算法的研究進展,Wang 等[12]從去噪、超分辨率、去模糊、偽影去除等方向詳細討論了三維人臉重建技術,但二者都缺乏對其他類型三維人臉數據的研究調研。Jing等[13]回顧了過去十年中開發的三維人臉識別技術,涵蓋了三維人臉識別的傳統方法和深度學習方法,Kittler等[14]詳細介紹了三維人臉建模和結合二維信息的三維人臉匹配方面技術,但都沒有涵蓋最新的研究進展。近三年來,三維人臉識別的研究進展迅速,應用場景不斷擴大,在識別精度和運行速度上取得了巨大的提升,是解決人臉識別瓶頸的關鍵技術。

因此,本文全面地闡述了三維人臉識別技術的最新研究進展,根據人臉數據的不同格式,將三維人臉識別方法分為從單目彩色RGB圖像進行三維人臉重構的識別方法、基于點云數據的人臉識別方法、基于RGB-D數據的人臉識別方法,以及基于多模態數據的人臉識別方法,總結各類方法原理和流程,對各類三維人臉識別的最新研究方法進行總結和對比,闡述、分析了不同類型的三維人臉數據集,分析現有方法存在的問題,預測技術發展趨勢。

1 三維人臉識別研究進展

由于采集方式不同,三維人臉數據具有多種類型,主要分為彩色圖-深度圖(RGB-depth,RGB-D)、點云和網格,如圖1所示[15]。在點云數據中,每個點對應一個三維坐標(x,y,z),若增加紋理、形狀等屬性,則點云數據可以擴展為(x,y,z,p,q,…) 。深度圖以二維格式保存,與拍攝的二維彩色圖像大小相同,但每個位置保存的是深度值,與RGB 圖像結合即可獲得人臉的紋理和深度信息。網格數據通過點構成線,再由線構成多邊形,最后由多邊形構成面,并通過陰影、紋理等信息表達網格表面。各類數據可以互相進行轉化,在網格數據上進行點采樣可以獲得點云數據,采用插值法或逼近法等網格生成算法可以將點云轉換為網格;深度圖經過坐標變換可以計算點云數據,有規則且必要的點云數據可以反算出深度圖。

圖1 不同類型的人臉數據Fig.1 Different types of face data

本章根據人臉數據的不同格式,將三維人臉識別方法分為從單目彩色RGB圖像進行三維人臉重構的識別方法、基于點云數據的人臉識別方法、基于RGB-D數據的人臉識別方法,以及基于多模態數據的人臉識別方法,圖2總結了各類方法原理的區別與聯系。

圖2 各類方法的區別與聯系Fig.2 Differences and connections between various methods

各類方法的識別流程大致相同,如圖3 所示,首先對原始數據進行人臉檢測與對齊、數據增強等預處理,再建立合適的模型從數據中提取面部特征或參數,最后得到識別結果。

圖3 三維人臉識別流程Fig.3 Process for 3D face recognition

表1 梳理了近期各類三維人臉識別方法的研究概況[16-93]。

表1 三維人臉識別方法總結Table 1 Summary of 3D face recognition methods

1.1 基于單目RGB圖像的三維人臉識別

從單目圖像進行人臉識別是計算機視覺的基本任務之一。在過去的二十年中,研究界一直聚焦從RGB圖像提取關鍵點[93-94]、輪廓信息[95]和分割信息[96]等,根據手工提取的特征直接進行識別。近年來,研究人員開始利用單目RGB 圖像重構三維人臉,并在三維空間中進行人臉識別,識別流程主要包括預處理、建模和預測環節,預處理階段通常包括面部裁剪、面部對齊等,但預處理階段不是必需的,Sharma 和Kumar[97-99]沒有使用面部對齊。

本節介紹了基于單目RGB圖像重構三維人臉并進行識別的方法。

1.1.1 基于人臉三維屬性參數估計的方法

人臉屬性包括表情、姿勢等內部參數和照明、視角等外部參數,如圖4所示。該類方法是對人臉的三維屬性參數進行估計,再根據參數進行三維人臉識別。

圖4 人臉三維屬性參數Fig.4 3D facial attribute parameters

部分研究只考慮內部屬性參數或只考慮外部屬性參數對人臉建模效果的影響,針對性強,對特定場景的識別效果好,但魯棒性較差。同時對內外屬性參數建模的方法復雜度提升,但識別效果相對較好。

(1)單類參數估計方法

Gafni 等[16]只考慮內部參數對建模的影響,將場景表示網絡與低維多階段模型相結合,對表情和姿勢參數進行顯式建模,使用嵌入在規范空間中的多層感知器建立動態輻射場,再使用體積渲染方法從混合表示中生成三維人臉。該方法能夠快速地對頭發、眼鏡、帽子等任意的幾何體和拓撲關系建模,對不同表情、不同場景的應用具有較強的魯棒性,但缺乏對眼部的建模。Han等[17]只考慮外部光照條件的影響,根據鏡面反射和漫反射的細微差異,提出了非朗伯表面的單目三維偏振成像方法,根據提取的梯度場確定表面法線,進而完成三維人臉重構,該方法對于自然照明下的人臉重構具有一定效果,可以達到微米級分辨率。Mallikarjun等[18]僅對外部視角參數建模,在幾何畸變的不變空間中生成一組基本面,對輸入光的方向、視角和面幾何參數進行建模。該方法考慮了亞表面散射、鏡面反射、自陰影和其他高階效應等物理效應,在人臉建模過程中取得了較好的效果。然而該方法無法估計眼部的反射率,且鏡面反射和陰影等邊界較為模糊、建模效果不佳。

(2)內、外部參數同時建模方法

Bai 等[19]提出了一種可裝配的三維人臉重建方法,對個性化的人臉關鍵點和每個圖像的表情、姿勢、照明等參數聯合建模。該方法超越靜態重建,能夠應用于視頻重定位、目標重定位等場景。Dib 等[20]利用卷積神經網絡估計表情、姿態、光強、漫反射率等參數,可微光線跟蹤器利用這些參數生成光線跟蹤圖像,對人臉進行基本重建。采用兩個額外的解碼器估計反射率先驗參數,提高了一般化場景中人臉重建的質量和魯棒性。該方法不能適應光照和表情變化,無法對膚色建模,且漫反射率可能受到極端陰影的影響。Wu等[21]認為人臉數據的不對稱性是由形狀變形、不對稱反射和不對稱照明等因素引起的,因此設計自動編碼器將輸入圖像分解為深度、漫反射、視角和照明度因子,估計輸入圖像中每個像素對稱的概率。該方法無須任何監督和事先的形狀模型,適用范圍較廣,能夠應用于視頻場景,在不同幀之間產生一致、平滑的重建,準確恢復面部運動的細節,但無法克服遮擋等情況。Zhang 等[22]發現圖形渲染器近似真實成像,神經渲染方法能生產高精度外觀,提出物理引導的離散隱式渲染(physically-guided disentangled implicit rendering,PhyDIR)框架進行高保真三維人臉建模,采用三維渲染和光柵化模塊控制渲染器,求解光線、面部形狀和視角參數,該方法能夠恢復紋理細節,但模型的推理速度慢,適合應用于對細節和精度要求高的場景。Wen等[23]基于自監督學習,提出了條件估計框架,通過學習參數的統計依賴性,求解形狀、反射率、視角和光強等三維參數,結合圖像重構三維人臉。該方法無須假定條件獨立,首次考慮了參數的統計性,但對形狀的估計效果不佳。Jiang 等[24]提出球面人臉模型(sphere face model,SFM),將RGB圖像分解為人臉表面的尺寸參數、形狀參數、表情參數,和反射率參數、照明參數、姿態參數、相機參數等渲染參數,從而控制人臉表面的形成,該方法的一致性和保真度較高,但眼部重建質量低。

1.1.2 基于三維可形變模型的方法

該類方法從數據庫中訓練通用的三維人臉模型——三維可形變模型(3D morphable models,3DMM)[25],所有要生成的人臉都處于密集的對應點對中,這可以通過人臉注冊過程來實現。通過密集對應生成形態面。這項技術的重點是將面部顏色和形狀與光照、亮度、對比度等其他因素分離開來[26]。任意人臉可以由其他多幅人臉正交基加權表達,建模過程如圖5 所示,根據重建結果進行三維人臉識別。該類方法原理簡單,求解速度快,重建結果完整,拓撲結構已知;但是在求解病態問題過程中,容易陷入效果不佳的局部解,難以重建細節特征,背景干擾、存在遮擋等情況對建模效果影響較大。

圖5 3DMM流程Fig.5 Process of 3DMM

大多數情況下,該類方法使用的是線性3DMM 模型,也有一些基于非線性3DMM模型的研究[27]。根據學習范式的不同,將該類方法細分為有監督學習、無監督學習、自監督學習和弱監督學習方法。

(1)有監督學習方法

該類方法通過計算重建人臉與三維真實人臉之間的誤差進行訓練,可以獲得較好的重建效果,如圖6所示。

圖6 3DMM有監督學習Fig.6 3DMM supervised learning

Jin等[28]提出了一種從單目圖像重建三維人臉的粗-中-細框架。粗糙階段估計3DMM 模型的形狀、姿勢參數,中間階段檢測輸入圖像中的密集關鍵點,對粗糙形狀進行拉普拉斯變形;精細階段估計照明、反射率和陰影分量的初始值,耦合反射率優化的紋理損失和細節損失。該方法能在多個尺度上實現優化,提高了估計的準確性和魯棒性,但耗時較長,不滿足實時應用的需要。Wu等[29]基于3DMM和三維面部關鍵點的協同關系建立模型,基于MobileNet-V2網絡估計3DMM系數并構建面部網格。該方法對3DMM系數應用自約束一致性建立協同過程,能夠合成逼真的細節,提高了人臉重建性能,但提出的兩個模塊為模型每次迭代增加了5%的耗時。Yang 等[30]基于關鍵點對齊、像素一致性擬合基礎模型,再采用神經網絡從紋理圖中獲得靜態特征、從變形圖中獲得動態特征,獲得多張位移圖,以不同權重組合得到三維人臉,以此進行識別,該方法具有較高的保真度。

(2)無監督學習方法

該類方法通常通過分析單張圖像中的明暗信息來判斷物體表面的法線方向,從而恢復表面形狀,如圖7所示。首先輸入一張在真實世界中拍攝的RGB 人臉圖像,在朗博假設下,將圖像分解為形狀,反射和光照三類信息。

圖7 3DMM無監督學習Fig.7 3DMM unsupervised learning

Tiwari 等[31]提出了減少依賴性的快速無監督三維人臉重建(reduced dependency fast unsupervised 3D face reconstruction,RED-FUSE)框架,通過人臉圖像估計3DMM 系數,重建三維面部網格,再投影至二維平面,根據二維圖像的一致性重建人臉形狀和紋理。該方法運行速度快,克服了對真實標注的依賴,但是缺乏對多個視圖的建模。Zhang等[32]提出了三維人臉模型的聚合個性化(learning to aggregate and personalize,LAP)框架,基于面部結構的一致性,對基本的面部幾何和紋理進行重構,再添加個性化的屬性和細節,完成三維人臉模型的構建。該方法不依賴先驗信息和監督學習,對面部形狀和紋理的建模效果較好,但該模型較為復雜,運行時間較長,分辨率較低。Genova[33]設計的無監督訓練模型也采用了編碼器-解碼器架構,使用三重損失:批量分布損失、環回損失和多視圖損失。該方法改進了眉毛紋理、鼻子形狀等特征的相似性,更能抵抗身份、表情、膚色和光照等復雜變量的影響。

(3)自監督學習方法

三維人臉重建中真實的數據集獲取成本非常高,研究者往往基于少量數據或者仿真數據進行研究,所訓練出來的模型泛化能力會受到限制,自監督的方法則是一個解決該問題的重要思路。這一類方法不依賴于真實的成對數據集,它將二維圖像重建到三維,再投影回二維圖,以系數損失作為約束進行訓練,如圖8所示。

圖8 3DMM自監督學習Fig.8 3DMM self-supervised learning

Tiwari 等[34]提出的自監督魯棒制導(self-supervised robustifying guidance,ROGUE)框架,包括魯棒管道和制導管道,制導管道將三維網格投影到二維空間,根據其與輸入圖像的一致性獲得參數;魯棒管道從輸入圖像與遮擋、噪聲圖像的一致性學習幾何參數和紋理參數。該方法以自監督的方式學習三維人臉,對圖像中的遮擋和噪聲具有較強的魯棒性,但對訓練集的依賴嚴重,且不可缺少的預處理環節大大增加了訓練模型的時間。Shang等[35]基于自監督學習,提出了多視圖幾何一致網絡(multi-view geometry consistency network,MGCNet),該架構建立了一種多視圖幾何約束,基于3DMM 先驗人臉模型,對不同視圖中的幾何體建立一致性規范。該架構為人臉姿態和深度估計提供了可靠的約束,在表情、姿態和照明條件發生巨大變化時較為魯棒,該方法精度較高,但模型運行速度慢,能夠應用在沒有標記的場景,有應用于視頻識別的潛力。

(4)弱監督學習方法

該類方法利用弱監督信息進行訓練,如面部關鍵點、皮膚掩碼等,如圖9所示。

圖9 3DMM弱監督學習Fig.9 3DMM weakly supervised learning

Deng 等[36]利用圖像低層信息和感知層信息進行弱監督學習,使用R-Net 回歸3DMM 參數,基于重建圖像和原始圖像的圖像級損失和感知層損失訓練模型,該方法能夠以較快的速度建模,具有對遮擋和大姿態魯棒性強的特點,但紋理和形狀的擬合不夠穩健,方差大。Tran等[37]認為線性基限制了3DMM的表達能力,設計了包含一個編碼器和兩個解碼器的模型,能夠從大量自然人臉圖像中學習非線性3DMM模型。該方法建立了端到端的模型,重建誤差更小,面部紋理重建效果好,但該模型具有超過500M的參數,模型運行時間長。

1.1.3 基于生成對抗網絡的方法

生成對抗網絡(generative adversarial network,GAN)具有強大的數據合成能力,在基于單目圖像重建的過程中得到越來越多的應用。該類方法的基本思路是設計合適的GAN,基于單目圖像生成三維人臉形狀、紋理,并根據重建結果進行三維人臉識別,流程如圖10所示。

圖10 基于GAN的三維重建識別流程Fig.10 3D reconstruction and recognition process based on GAN

Jin等[38]提出偽RGB-D人臉識別框架D+GAN,生成器由殘差模塊、自注意力模塊、卷積模塊組成,利用條件圖像及對應標簽生成假圖像;判別器不僅判定輸入樣本是否真實,并對每個樣本進行多類別分類,識別深度圖的生成質量,實現了具有人臉屬性的多條件圖像到深度圖的轉換,提高了人臉識別的準確性。該模型參數量巨大,且訓練過程中難以收斂,無法應用于實時解決方案。Chiu等[39]提出了分段感知深度估計網絡DepthNet,由一個生成器和三個判別器組成,能夠從RGB 圖像中生成深度圖。生成器基于UNet架構設計了帶有快捷連接模塊的面部編碼器、面部解碼器和輔助解碼器,面部編碼器編碼圖像的輸入信息,輔助解碼器生成輸入圖像對應的深度圖和語義分割掩碼,面部解碼器重建人臉模型。該網絡能夠實現準確的人臉區域定位,但模型相對復雜,參數量大,訓練時間長,實時性差。Tewari等[40]設計了三維生成對抗網絡(3D generative adversarial network,3D-GAN),利用生成模型分別從幾何和外觀空間中獨立采樣,對人臉的幾何參數和外觀參數建模。使用多層感知機編碼三維坐標,回歸三維體積的密度和紋理,使用體積積分從虛擬相機中渲染輸出體積、生成人臉。該方法有助于改善三維場景和相機視角之間的消隱效果,但重建效果不及真實圖像和2D GAN 網絡。Xu等[41]開發了由生成對抗網絡和視覺顯著網絡組成的框架relight GAN,如圖11 所示,判別器進行多尺度識別,框架中設置照明激發注意力機制,提升了人臉識別性能。該方法既不需要照明分類信息和三維信息,也不需要嚴格的面部對齊,解決了面部照明感知和處理的問題,有效提高人臉重建的效果,該方法應用于野外圖像時性能下降。

圖11 Relight GAN架構Fig.11 Relight GAN frame

1.2 基于點云數據的三維人臉識別

最初的研究通常將點云格式的三維人臉數據轉換為體素表示,不僅數據更加龐大,而且識別過程更加繁瑣。近年的研究主要分為兩類,將點云數據轉化為低維度特征和利用深度神經網絡直接處理點云數據。將三維數據轉換為低維度特征時,需要克服幾何信息損失、計算成本增加等問題。建立深度學習模型時需要克服點云數據的無序性和剛性變換不變性。本節介紹了最新的基于點云數據的三維人臉識別方法。

1.2.1 將點云數據轉化為低維度特征

該類方法是從點云數據中提取人臉紋理、法線、曲率等低維度特征,進行三維人臉識別。

機器學習方法易于實現,計算量低,能夠快速完成三維人臉識別。Wang 等[42]針對不同點云之間的法線、曲率和配準相似性,提出了三維人臉相似性評分算法,解決了光線不穩定和黑暗環境中的面部識別問題,不需要復雜的訓練,計算速度很快。Nassih等[43]基于黎曼幾何最短距離、隨機森林算法和快速匹配算法,提出了GD-FM+RF算法,計算特定點對之間的幾何距離,使用主成分分析算法提取特征,輸入到隨機森林中進行分類,該方法完全基于機器學習算法,算法參數量小,運行速度快,但識別精度弱于深度學習方法。Zhang 等[44]將點云數據表示為七個點,包括三維坐標、面部數量和曲率,使用改進的PointNet++網絡提取具有不同感受野的局部、全局特征,人臉識別效果有所提升,對表情和姿勢變化較為魯棒,采用的三重損失能夠有效提升時間效率。

此外,借助神經網絡識別低維度特征能夠有效提升三維人臉識別的效果。Atik 等[45]從點云中提取幾何特征,使用網格函數生成深度圖,使用六個相鄰點計算法向角圖,利用Claxton表面函數計算平均曲率圖,將新的特征圖進行組合輸入到ResNet 網絡中進行人臉識別,取得較好的識別效果,但該模型基于ResNet 101 網絡建模效果最好,參數量超過85×106,訓練速度很慢,也無法克服遮擋情況。Moschoglou等[46]提出3DFaceGAN模型對三維面部表面分布建模,生成器和鑒別器采用重構損失和對抗性損失,如圖12所示,該模型能夠保留三維面部形狀的高頻細節,并且能夠用來進行多標簽分類;但GANs很難訓練,在GV100 NVIDIA GPU上的進行訓練仍需耗時5天,不能應用于實時的三維人臉解決方案。

圖12 3DFaceGAN網絡Fig.12 3DFaceGAN network

1.2.2 基于點云深度神經網絡的方法

該類方法設計端到端的神經網絡,直接輸入點云數據,并獲得識別結果。最基本的三維人臉識別點云網絡是將用于識別物體點云的PointNet 網絡與常規卷積網絡結合,提取相鄰數據點間的鄰近信息,如圖13 所示,即可獲得幾何、紋理等特征,耦合全局信息。

圖13 3D點及其鄰域Fig.13 3D point and neighborhoods

Bhople 等[47]將PointNet 網絡與卷積網絡結合,提出了PointNet-CNN 網絡,直接將點云作為輸入進行特征提取,使用孿生神經網絡進行相似性學習與分類。這一方法降低了數據轉換的成本,但模型缺乏可解釋性。與之相似,Wang 等[48]基于PointNet 提出三維人臉驗證孿生網絡,增加倒角距離度量,能夠有效應對姿態變化和遮擋的干擾,在GTX 1080ti 上測試的推理幀率達到225 f/s,但模型存在信息冗余。Bhople 等[49]提出卷積點云網絡(convolutional PointNet,CPN),將三維面部數據映射到歐氏空間,根據嵌入空間中錨定三維樣本、正三維樣本和負三維樣本間的差異來區分三維人臉。該網絡通過學習三維人臉之間的相似性和不相似性,有效提高人臉識別的精度,但計算復雜度高,運算速度慢。

直接將PointNet 網絡與卷積網絡結合的方法能夠使用較為成熟的物體識別研究算法,原理簡單,但缺乏對五官等關鍵點、面部形變等細節的關注,人臉識別精度有限。對此,許多研究加強了對人臉關鍵點和幾何、紋理等信息的提取。Zou等[50]建立基于注意力機制的卷積神經網絡,識別人臉的關鍵點、提取面部特征,避免了表情和照明干擾,但網絡復雜度較高,參數量超過25×106。Bahri 等[51]將點云配準任務視為表面到表面的轉換問題,提出編碼器-解碼器架構shape-my-face(SMF),利用帶有快捷連接模塊的圖形卷積解碼器,從點云中提取潛在的幾何信息,學習人臉的非線性變形模型,在較少參數的前提下實現了較高的人臉識別精度,但缺乏對高頻細節和面部紋理的重建。Cai等[52]提出改進的編碼器-解碼器網絡(improved encoder-decoder network,MoEDN),對形變概率、形變區域大小、形變強度等參數建模,在大姿態情況下仍具有出色的性能,能夠解決訓練集過少和過擬合問題,模型相對復雜,體量較大,在GTX1660ti上測試耗時14.31 ms。

許多研究利用逐點卷積耦合不同通道在相同空間位置上的特征信息,即采用共享的1×1卷積對每個點獨立建模,最后使用最大池化等對稱聚合函數耦合全局特征,如圖14所示。

圖14 逐點卷積流程Fig.14 Process of pointwise convolution

Chang等[53]提出了FinerPCN網絡,該網絡分為編解碼器和逐點卷積部分,分別用于生成粗略形狀和細化局部結構,該模型有效利用了局部信息,在保持全局形狀的同時減輕低輸入質量對識別精度的影響,但需要確保足夠多的輸入點,且該方法無法解決姿態變化、遮擋等影響,缺乏廣泛應用性,且參數量很大,超過87×106。Gao 等[54]提出點云特征提取網絡ResPoint,其架構如圖15所示,通過人臉幾何關鍵點定位鼻尖點,并以該點為中心切割出面部區域,再使用ResPoint網絡提取特征并進行分類。該模型對于稀疏點云有很好的識別結果,提高了多表情、多姿態情況下人臉識別的魯棒性,但網絡運行速度慢,無法滿足實時性的要求。

圖15 ResPoint網絡Fig.15 ResPoint network

除點云卷積網絡外,Yu 等[55]首次采用GAN 網絡提高三維人臉識別準確率,提出了基于元學習的對抗性訓練(meta-learning-based adversarial training,MLAT)框架,元訓練階段使用生成的點云訓練深度三維人臉識別模型,元測試階段識別三維面部點云,該架構有效提高了三維人臉識別模型的魯棒性和準確性,但模型計算復雜,運算量大。

1.3 基于RGB-D數據的三維人臉識別

近年來,隨著RGB-D 相機的普及,基于RGB-D 數據進行三維人臉識別的算法受到重視。本節介紹了最新的基于RGB-D數據的三維人臉識別方法。

1.3.1 基于3DMM模型的方法

該類方法利用3DMM 模型獲得通用人臉模板,與RGB-D 數據耦合后進行識別。Luo 等[56]使用隨機森林算法估計初始面部模型及其姿態,基于FaceWareHouse三維人臉數據庫建立了通用雙線性人臉模型,將其擬合到RGB-D圖像中,對雙線性人臉模型的姿態、身份和表情參數聯合優化、輸出識別結果。該方法在人臉旋轉較大、表情各異時較為魯棒,但缺乏對面部細節的重建,模型運行時間久,處理一幀需要35 ms。Zhu 等[57]提出了細粒度重建網絡(fine-grained reconstruction network,FGNet),利用3DMM 模型獲得三維人臉的剛性變換和初始形狀,將RGB-D 圖像和人臉紋理作為最近點匹配算法的強約束條件,將深度圖與模板人臉耦合。將RGB圖投影、歸一化為特定編碼、進行細粒度重建,估計形狀修正參數,提高了預測精度。Li等[58]基于級聯的深度神經網絡,對每個頂點進行幾何細化,用局部幾何細節豐富3DMM 人臉,提出的語義一致性約束確保了生成的三維人臉和深度圖像之間的結構對應。該模型在2080ti GPU上運行的推理時間為25 ms,且該方法無法描述面部細節。Zhong等[59]基于CycleGAN模型構建去噪網絡,基于3DMM面部形狀提出了特定的耦合損失,針對特征圖、深度圖和表面的形狀一致性提出了三層約束,最后使用55維身份參數建立分類器,該方法能夠適應有噪聲的深度圖,較為魯棒。

1.3.2 基于特征提取的方法

該類方法直接從RGB-D 圖像中提取二維、三維特征。Dutta 等[60]沿著4 個坐標方向提取4 個基本面部區域,將RGB-D 圖像分解為4 個基本分量,結合數據級融合方法,生成36個額外的混合分量,從中提取、融合、選擇特征,有效去除冗余特征值,提高了人臉識別性能,該方法與經典粒子群算法相比,需要更少的內存和運行時間。Boumedine 等[61]對RGB-D 圖計算法線并將其分離為Nx,Ny,Nz這3 個方向的映射,僅在Y分量上應用SURF 檢測器,并使用來自Ny圖的相同檢測關鍵點坐標構建3個分量圖上的特征描述符,對每個法線分量構建字典、使用K最近鄰分類器,將每個分量的最終分數進行融合從而找到最佳匹配點,其模型如圖16 所示。Sui 等[62]提出了帶掩碼的特征融合網絡(feature fusion network with masks,FFNet-M),計算權重分布在4個顯著區域中的掩碼,分別從深度圖、RGB圖中提取深度信息和法線特征,使用帶有批歸一化和掩碼的VGG16 網絡從紋理圖像中提取特征,將特征連接后輸入到分類器中進行識別。該方法使用了F3DNet-M與VGG網絡,參數量大,訓練成本高。

圖16 基于法線匹配的模型Fig.16 Model based on normal maps

1.3.3 基于神經網絡的方法

該類方法直接利用深度神經網絡模型挖掘RGB-D數據中的面部特征,進行識別。Wang 等[63]提出了細粒度的三維人臉識別模型FaceVerse,從大規模RGB-D 圖像集中生成能夠預測性別、年齡等屬性的基礎三維人臉模型,進一步構建條件StyleGAN模型,生成多尺度偽紋理圖,判別器輸出真假紋理圖的相似性和映射關系,該模型增強了面部的幾何和紋理細節,具有高保真度和強泛化能力,但該模型基于東亞人的數據訓練,對其他地區泛化性能下降,且無法擬合胡須、皺紋等面部細節。Dutta 等[64]提出稀疏主成分分析網絡(sparse principal component analysis network,SpP-CANet),利用卷積層學習多級濾波器,再進行稀疏主成分分析和二進制編碼,在池化過程中計算逐塊直方圖,最后采用最近鄰分類器進行識別,模型較為簡單,運行速度較快。Lin等[65]提出一個兩階段框架,第一階段利用像素變換網絡從低質量深度圖中生成高質量深度圖,第二階段使用卷積層和殘差模塊構建了多質量融合網絡,提取、融合不同質量的特征,提高了人臉識別的性能,但該網絡存在計算冗余,步驟繁瑣。

為了提升神經網絡的性能,許多深度神經網絡模型中添加了注意力機制,其中最常見的就是空間注意力機制。Uppal[66]使用LSTM 網絡生成空間注意力權重來處理特征圖,使用卷積神經網絡從深度圖中生成注意力圖,引導深度神經網絡提取視覺特征。該模型體量較小,參數量僅為4×106,但該方法沒有考慮其他特征屬性,缺乏多尺度學習。Chiu等[39]提出掩碼引導的RGB-D人臉識別模型(mask-guided RGB-D face recognition network),基于SENet 模型設計了RGB 識別分支、深度圖識別分支和帶有空間注意力模塊的輔助分割掩碼分支,RGB 識別分支和深度圖識別分支分別提取相應RGB 圖和深度圖中的面部特征,輔助分割掩碼分支從分割掩碼中提取不同級別的特征圖,再應用空間注意力模塊提取特征。該模型對姿態的變化更加魯棒,但模型相對復雜,實時性差。在該模型基礎上,Chiu 等[67]進一步采用特征解糾纏方案將特征表示分解為身份相關和風格相關的分量,以緩解增強深度圖和真實數據之間的類間差距。Jiang等[68]基于空間和通道注意力方法,提出端到端的多模態融合框架,基于ResNet 網絡建立三個分支提取RGB圖、深度圖及其融合模態的特征,將特征融合后輸入到共享層中,進一步提取深層特征,輸入到空間注意力矢量化模塊中進行識別。該方法建立3 個網絡分支,能夠在intellifusion RGB-D 數據集上取得了良好的結果,但也因此提高了模型的訓練成本,不能很好地推廣。與之相似,Zhu 等[69]采用空間和通道注意力機制耦合全局和通道信息,利用雙流特征提取模塊分別提取RGB圖和深度圖中的特征,并分別進行識別,與融合特征的識別結果加權獲得最終的識別結果。該方法在姿勢、遮擋等情況下較為穩健,能夠適應低質量的RGB-D數據。

除了空間注意力機制,也提出了一些新的注意力方法。Neto 等[70]提出流式注意力網絡(streamed attention network,SAN),能夠對不同分辨率的人臉數據進行識別,從深度圖中提取淺層表面描述算子,利用改進的三維局部二進制模式算法編碼深度差異信息,生成四通道的特征圖像進行識別。該方法減少了高分辨率和低分辨率數據之間的差異,更好地利用了淺層特征提供的豐富信息,具有高度魯棒性,但網絡復雜,步驟繁瑣,計算量大。Uppal 等[71]基于注意力感知方法融合RGB 圖和深度圖,該方法使用預訓練卷積神經網絡提取特征,輸入到兩層注意力機制進行融合,第一層將LSTM網絡作為條件編碼器,學習RGB和深度圖中特征關系;第二層關注卷積特征圖的空間特征,提取最顯著的特征,并進行人臉識別。該模型較為復雜,且分類器采用了四層全連接層,參數量巨大。

與上述提取全局面部特征不同的是,Zhang 等[72]更加關注人臉的局部特征,提出邊緣引導卷積神經網絡,包括邊緣預測子網絡和深度重建子網絡,邊緣預測子網絡從輸入的低分辨率深度圖預測邊緣特征,并提供最佳邊緣引導圖,深度重建子網絡用級聯特征重建超分辨率深度圖,恢復尖銳邊緣和精細結構。該方法對面部姿勢的變換能夠保持魯棒,能夠恢復高頻邊緣細節。Lee等[73]提出了三階段聯合學習架構,RGB人臉解析網絡和深度人臉解析網絡分別將RGB圖、深度圖的每個像素分類為不同的面部和語義組件,GAN將RGB圖轉換到深度圖。該方法能夠克服深度數據標注不足的問題。Ghosh等[74]基于重構的深度神經網絡框架學習RGB圖和深度數據的共享表示,堆疊映射模型學習從RGB圖到深度圖的映射,聯合分層特征學習模型將不同層的特征進行組合表示,并在每個層上學習自動編碼器,最后加權融合特征并進行分類。該框架在測試時不需要深度圖像,適用于深度圖像質量較差的場景,但模型復雜,需要多步訓練。

Zhao等[75]同時關注全局信息和局部信息,設計了輕量級多尺度融合網絡(lightweight multiscale fusion network,LMFNet),能夠提取分層多尺度特征,增強面部局部信息的表達,能夠有效適應姿態、遮擋等情況,但對噪聲的魯棒性不夠。

基于transformer 的三維人臉識別研究取得了良好的效果。Zheng 等[76]提出互補多模態融合變換器(complementary multi-modal fusion transformer,CMMF-Trans),基于變換模塊建立RGB圖與深度圖的局部長距離相關性,提取RGB圖和六通道深度圖中的低層特征,輸入多層局部增強切割模塊和多個互作用自注意力模塊中。該方法將局部性和長期依賴性結合,對極端條件下的人臉識別更為魯棒。Li 等[77]提出多模態面部表情視覺轉換器(multimodal 2D+3D facial expression vision transformer,MFEViT),如圖17 所示。該架構包含3 條支路,每個支路分別用深度圖替換RGB圖像的單通道,投影后輸入遷移編碼器進行識別。該模型是一種輕量級變換器網絡,參數量約為23×106,具有較強的魯棒性。

圖17 MFEViT架構Fig.17 MFEViT frame

1.3.4 投影到三維空間的方法

該類方法將RGB-D 圖投影到三維空間,生成點云數據后再進行識別。Xiao等[78]將RGB圖像與深度圖對齊,從彩色圖像中提取面部區域和關鍵點,映射到深度圖像區域,轉換為點云來獲得粗略的三維人臉模型,進一步優化后用于人臉識別,該方法對數據質量要求較高,該方法需要花費較長的時間用于面部關鍵點檢測,平均每幀耗時0.63 s。Petkova 等[79]提出的模型如圖18所示,在RGB 圖和深度圖中提取面部邊界框并檢測框內的面部關鍵點,將關鍵點反向投影到三維空間中,獲得三維人臉關鍵點的空間坐標,最后使用細粒度最近鄰分類器對點云進行精細對齊匹配。Jiang 等[80]使用MTCN 模型在RGB 圖中檢測面部和五官,從深度圖中提取對應的面部區域,再通過投影、雙線性插值生成點云,取各維度最值組成六通道圖像作為訓練數據。該方法能夠將性別、年齡、種族等屬性納入神經網絡的訓練中,有效提高人臉識別的準確性和魯棒性,但不能適應需要區分深度數據細微差異的場景。

圖18 Petkova等提出的框架Fig.18 Frame proposed by Petkova et al.

1.4 基于多模態數據融合的三維人臉識別

多模態數據的融合方式主要可以分為三類,即將數據進行轉換并融合,將從不同模態數據中提取的特征進行融合,以及對不同模態數據分別建立識別模型、并對識別結果加權融合,在建模過程中的發生位置如圖19所示。本節介紹了基于多模態數據的三維人臉識別研究進展。

圖19 多模態數據融合Fig.19 Multimodal data fusion

1.4.1 數據融合

該類方法將不同模態的數據融合,再進行特征提取和人臉識別,其流程如圖20所示。

圖20 數據融合流程Fig.20 Process of data fusion

Singh等[81]將輸入的三維面部點云投影到深度圖和RGB 圖中,再在RGB 圖像和深度圖上分別進行圖像混合,生成3DMM參數,在固定視圖中將顏色特征圖和深度特征圖反向投影到點云。該方法在一定程度上可以抵御3D 人臉變形攻擊的攻擊,但該方法對數據質量要求很高,無法推廣到野外數據中。Gu 等[82]提出基于注意力機制的多通道數據融合網絡(attention-based multichannel data fusion network,AMDFN)處理二維和三維數據,將三維人臉數據映射成8幅二維人臉屬性圖像并進行通道融合,提取分層特征,再利用分層注意力模塊對不同層的特征分配注意力權重,對不同層特征之間的依賴性建模。該模型主干網絡的參數超過30×106,較為復雜。Devi等[83]提出同步估計面部子空間和關鍵點的框架同步區域學習和顯著點估計方法,利用關鍵點映射策略在人臉上定位二維關鍵點,利用自動編碼器同時學習二維子空間和三維關鍵點,由面部關鍵點對模型進行拉普拉斯變形,得到重建的人臉模型,該方法計算成本較低,但無法推廣到多視角數據。Jiang等[24]采用兩階段框架分別訓練三維人臉表面,第一階段優化三維人臉的基矩陣、尺度參數和形狀參數,第二階段利用大規模RGB數據集進行無監督訓練,對三維人臉重建模型進行微調。該方法對眼部區域的擬合效果差,制約了模型的性能。

1.4.2 特征融合

該類方法從二維和三維數據中分別提取特征,再將提取到的特征進行融合,最后對融合的特征進行人臉識別,其流程如圖21所示。

圖21 特征融合流程Fig.21 Process of feature fusion

為了處理RGB 圖像和點云數據,Xiao 等[84]提出Beauty3DFaceNet 網絡,采用K近鄰搜索算法對不同密度的點云樣本分組,采用ResNet 模塊提取RGB 圖中的紋理特征,設計融合模塊耦合二維、三維特征,匹配得到三維人臉的關鍵點。該模型較為輕量化,能從潛在空間中找到特征超平面,提高人臉識別質量,但該方法欠缺可解釋性。Teng 等[85]提出多模態訓練、單模態測試框架(multimodal training unimodal test,MTUT),基于ResNet 網絡設計二維特征的編解碼器,利用改進的PointNet網絡處理點云數據,設計多模態嵌入發散損失函數對異質特征進行對齊耦合,可以自適應地避免冗余數據模態的干擾。

Niu等[86]設計了一種基于深度圖像和曲率特征融合的人臉特征提取方法,將重建的三維人臉數據通過正交投影得到人臉深度圖像,然后使用其平均曲率圖來增強深度圖像數據,利用改進的殘差神經網絡,將掃描的人臉與數據庫中的人臉進行對比識別。該方法可以在無照明的情況下進行識別,但深度圖像質量低時效果很差。

對于RGB 圖像、點云及深度圖數據,Guo 等[87]提出的自監督架構利用3 個分支編碼器分別從數據提取顏色信息、幾何特征和關鍵點,再利用形狀解碼器進行數據融合處理,構建出高質量的人臉模型,但對遮擋人臉重建不夠魯棒,無法恢復精細的面部細節,且模型復雜,運行時間長。Yang等[88]基于GAN建立空間強度增強和表情識別聯合模型,將紋理特征和幾何信息進行深度耦合,提升了識別精度。Sui等[89]提出了帶掩碼的自適應融合網絡(adaptive fusion network with masks,AFNet-M),如圖22 所示,利用網格匹配算法從三維數據中生成對齊的紋理和深度圖像,由掩碼注意力機制提取特征,在卷積層進行自適應的特征融合。該模型能夠增強二維和三維空間局部特征,有效提高人臉識別能力,該方法參數量小、內存成本低,但對多模態數據的預處理過程較為繁瑣。

圖22 AFNet網絡Fig.22 AFNet network

1.4.3 模型融合

該類方法針對不同類型的數據,分別建立合適的模型,按照既定策略計算模型的得分,然后對得分進行加權融合,得到最終的識別結果,其流程如圖23所示。

圖23 模型融合流程Fig.23 Process of model fusion

Talab 等[90]基于局部描述算子設計人臉識別系統。該系統使用金字塔形狀描述算子對三維數據進行分析。利用包含上下文結構信息的直方圖匹配二維和三維數據,并在決策層進行數據融合,輸入到基于稀疏表示的分類器中。該方法具有縮放、平移和旋轉不變性,有效增強了模型的人臉識別性能。Liu等[91]使用深度神經網絡獲得RGB 圖像的相似性得分,使用迭代最近點方法計算三維人臉模型的匹配度得分,對兩個得分加權融合得到最終的識別結果。Tharewal 等[92]分別采用主成分分析法和獨立成分分析法對三維人臉、三維人耳進行識別,并將得分進行融合得到最終的識別結果。該方法有效補充了人臉的三維信息,增強了識別效果。

2 人臉數據庫

基于單目RGB圖像的三維人臉識別在二維人臉數據庫上進行,基于RGB-D數據、點云數據的三維人臉識別則需要三維人臉數據庫。本章對常用的二維、三維人臉數據庫進行介紹,詳細闡述數據獲取方式、數據類型等信息,分析重要方法在典型數據集上的表現。表2總結了常用的人臉數據庫,對比了各數據庫的數據類型、受試者數量及數據量、是否存在表情變化和遮擋等。

表2 常用人臉數據庫Table 2 Common face database

2.1 二維人臉數據庫

(1)無關鍵點標注

CASIA-WebFace[100]是從IMDb 網站上爬取圖像并進行標注獲得,包含10 575個人的494 414張人臉圖像,包含不同角度、光照、國家、種族等信息,但該數據集圖片表情單一,每個人的圖片也較少。Celebrities in frontalprofle in the wild(CFP)[101]收集了500 位名人共7 000張圖像,每人包含10 張正面圖像和4 張側面圖像,具有不同的隨機表情,但數據集較小。public figures face database(Pubg)[102]利用互聯網搜索引擎獲取200名公眾人物的真實圖像,在姿態、光照、表情、場景、成像條件等方面存在較大差異,具有年齡、性別、種族、發色等65個視覺特征屬性。CAS-PEAL[103]具有99 594張彩色圖像,由1 040名中國人組成,其中包括595名男性和445名女性,涵蓋了姿態、表情、配飾、光照、背景、距離和時間等特征的變化,有灰度圖和彩色圖兩個版本。WebFace260M[104]是目前最大規模的二維人臉數據集,從MS1M數據集中選取部分圖像,結合IMDB數據庫中選擇的圖像,組成了包含4百萬受試者的2.6億個人臉圖像。通過自訓練算法對該數據集進行自動提純,獲得WebFace42M[104]數據集,包含206萬受試者的4 200萬張圖像,是目前最大的公開人臉識別訓練集。labeled faces in the wild(LFW)[105]和Wider face[106]影響條件多,識別難度較大,LFW 包含5 749名知名人士的13 233張圖像,其中1 680人具有2張及以上人臉圖片,受多姿態、光照、表情、年齡、遮擋等因素影響;wider face由32 203張彩色圖像構成,包括393 703張不同分辨率的人臉,在尺度、遮擋、姿態、光照、表情方面存在很大的變化范圍,對每張人臉標注包含前額、下巴和臉頰的面部邊界框,面部被遮擋時估計遮擋比例。

(2)有關鍵點標注

IARPA Janus benchmark A(IJB-A)[107]收集了500個受試者的5 712 張圖像,手工標注面部檢測邊界框和雙眼中心、鼻子底部3 個關鍵點,包含豐富的膚色、性別、面部姿勢、遮擋(眼睛、嘴巴、鼻子、前額)和室內外環境信息。Celeb faces attributes dataset(CelebA)[108]具有超過20萬名人臉圖像,涵蓋了大量姿態變化、背景雜亂的不同人臉,每個圖像標注兩個嘴角、雙眼中心和鼻子5 個關鍵點,具有發色、眼睛形狀、配飾等40 個屬性。annotated faces-in-the-wild(AFW)[109]使用Flickr 網站圖像建立人臉數據庫,共包含205張人臉圖像,其中有473個標記的人臉,每一個人臉具有方形邊界框,標注了6個關鍵點和3 個姿勢角度,如圖24(a)所示[110]。annotated facial landmarks in the wild(AFLW)[83]是一個包括多姿態、多視角的大規模人臉數據庫,提供了從Flickr網站收集的大量圖像,包含不同的姿勢、表情、種族、年齡、性別、環境等屬性,在21 997 張真實的彩色圖像中,共有25 993張人臉,每張人臉矩形框和橢圓框的臉部位置框,標注21 個關鍵點,如圖24(b)所示[110],共380×103個關鍵點。labeled face parts in the wild(LFPW)[111]由網站下載的圖像組成,包含1 132張訓練人臉和300張測試人臉圖像,大部分為正面人臉圖像,每張人臉標注29個關鍵點,如圖24(c)所示[110]。Helen facial feature dataset(Helen)[112]收集含有不同的姿勢、照明條件、表情、遮擋和身份信息的面部圖像,分為訓練集和測試集,測試集包含了330張人臉圖片,訓練集包括2 000張人臉圖片,每張人臉圖片標注了68個關鍵點,如圖24(d)所示[110]。

圖24 不同數量的關鍵點Fig.24 Different number of key points

2.2 三維人臉數據庫

(1)單一類型3D人臉數據庫

Fine-grained 3D face(FG3D)[57]將3DMM模型擬合到FRGC、BP4D和CASIA-3D數據集的RGB-D圖中,補全空間信息和網格信息,生成包含212 579個樣本的大型三維人臉數據集。Northwestern Polytechnical University 3D(NPU3D)[113]包含300名中國人面部信息,每個人有35組不同的掃描數據,具有多種姿勢、面部表情、配飾和遮擋。GavabDB[114]包括45名男性和16名女性的549組三維網格人臉數據,每個受試者分別采集9幅不同姿態、角度、表情的數據。SHREC11[115]從6 個不同角度掃描130個面具獲得,沒有表情變化,包含的信息較少。

(2)多模態3D人臉數據庫

高質量的三維掃描數據能夠提供豐富的面部信息。三維網格是常見的三維掃描數據,為了獲得紋理信息,數據庫中包含了二維彩色圖像。Florence[116]從結構化光掃描系統獲取53名受試者面部數據,包括高分辨率三維網格數據和不同分辨率、不同條件、不同縮放級別的二維視頻序列。University of York 3D face database(UoY)[117]采用雙目立體系統收集350名受試者超過5 000組彩色圖像和三維網格數據,每人具有8 種面部表情和姿態變化。BJUT-3D[118]包含1 200名中國人的三維面部數據,所有人臉數據均為中性表情,沒有配飾和遮擋。

Bosphorus[119]和LS3DFace[120]數據庫收集了三維人臉點云數據。Bosphorus 通過結構光設備采集105 名受試者的4 666組人臉點云數據,每個人臉最多有35種表情以及不同的姿態,590組面部數據被眼鏡、帽子、圍巾和手等各種物體遮擋。LS3DFace從10個公共數據集中爬取數據,創建了包含1 853 個受試者共31 860 組點云數據,包含了表情、姿勢、遮擋、缺失數據、傳感器類型,也有少量同卵雙胞胎數據。

基于高質量三維掃描數據的人臉識別方法由于受設備成本和采集方式等因素影響,在現實場景中無法大規模應用。基于低成本RGB-D相機的人臉識別方法能夠在更多場合下使用。University of Milano Bicocca 3D face database(UMBDB)[15]包含143名受試者的1 473對RGB-D數據,其中,二維圖像具有眼角、嘴角、鼻尖7個關鍵點。IIIT-D數據集[121]利用Kinect采集106名成人的圖像和深度圖,每人有11到254張RGB-D圖像,具有多種表情變化。3D twins expression challenge(3DTEC)[122]包含107 對面孔相似、表情不同的雙胞胎的面部信息,該數據集非常具有挑戰性。Texas-3D[123]包含1 149對使用立體相機采集的118名成人受試者的高分辨率、姿勢歸一化、預處理和完全對齊的彩色和深度圖像,具有豐富的性別、種族、面部表情以及25 個面部關鍵點。face recognition grand challenge(FRGC-v2.0)[124]數據庫中,二維訓練集由222名受試者的12 776幅圖像組成,三維訓練集由943名受試者的三維數據組成,三維驗證集包含466名受試者的4 007組三維數據。Lock3DFace[125]中的三維樣本具有很高的噪聲,并且包含表情、姿勢、遮擋、光照、時間流逝等多種變化,適合在復雜情況下進行人臉識別算法評估。FIDENTIS 3D face database(F3D-FD)[126]收集了2 476 名受試者的三維面部掃描數據,其中包含1 322名女性,成年1 305人,且大多小于26歲,沒有配飾和遮擋,保持中性表情,從3個角度進行收集。KinectFaceDB[127]提出了第一個基于Kinect 傳感器的公開人臉數據庫,該數據庫由不同的數據模式和9種面部變化組成,包括52 名受試者的936 組RGB-D、點云數據和104個記錄面部姿態變化的視頻序列。

4DFAB[128]和FaceScape Dataset[30]收集了視頻人臉數據。4DFAB是一個大型動態高分辨率3D人臉數據庫,包含60名男性、120名女性,采集了180萬個三維網格人臉,具有年齡、種族、文化背景等多個屬性。FaceScape Dataset包含938名受試者的18 760個三維人臉,每個人臉都有20個特定的表情。

對于三維人臉識別任務,通常采用識別精度進行模型評估,即計算正確識別的人臉在全部人臉中的比例,表3 按時間順序總結了重要方法在典型數據集上的識別精度。

對于從單目RGB圖像中進行人臉重建并識別的方法,識別精度與重建質量息息相關。均方根誤差(rootmean-squared error,RMSE)常用于評估重建質量,計算公式為:

其中,a、b代表兩組數據,M、N代表數據尺寸,RMSE的值越小說明重建效果越好,識別性能相應更好。此外,結構相似性(structural similarity index measure,SSIM)[129]也常被用來評估兩組數據的相似程度,值越大表明相似性越高,說明重建效果越好,其計算公式如下:

其中,μa、μb代表對應數據的局部均值,σa、σb代表標準差,σab代表兩組數據的協方差,α、β、γ為正值權重,C1、C2、C3為常數,避免分母為0。表4 按照時間順序總結了重要方法在典型數據集上的重建性能。

3 結語

本章基于人臉數據的不同類型,對比分析各類人臉識別方法的優缺點,討論了三維人臉識別過程中面臨的主要挑戰,以及未來的研究方向。

基于單目圖像重建三維人臉模型的方法,可以在三維空間進行識別,相較直接識別二維人臉圖像的方法效果更好,但將人臉圖像從二維空間提升到三維空間時,面臨著信息孔洞、三維注釋信息不足等困難,識別的準確性嚴重依賴算法恢復的深度數據精度,且建模過程通常比較耗時。此外,傳統的人臉重建與三維人臉識別過程相互獨立,導致人臉姿態多樣性識別能力較弱,具有局限性。基于點云數據的三維人臉識別模型通常體量較小,識別速度較快,但受設備成本和采集方式等因素影響,在現實場景中無法大規模應用,如何克服點云數據的無序性和剛性變換不變性仍是較大的挑戰。RGB-D相機可以以較低的成本直接、快速地獲取RGB-D數據,因此基于RGB-D數據的三維人臉識別技術能夠應用于更多的場合,但是如何克服RGB-D 數據的低質量問題仍值得進一步研究。多模態人臉數據包含更加豐富的信息,能夠有效提升人臉識別的準確率和魯棒性。如何融合多模態數據、處理異質特征是利用多模態數據進行人臉識別的關鍵問題。

三維人臉識別目前面臨的主要挑戰有:

(1)三維人臉數據庫不足的問題。三維人臉掃描儀價格昂貴,收集耗時長,且需要受試者長期保持固定姿勢或表情,限制了數據集的大規模推廣。目前公開的三維人臉識別數據庫較少,規模較小,在表情、姿態、遮擋等方面也存在一定的局限性,不能滿足深度學習模型的訓練需要。此外,三維人臉數據庫由于采集數據的設備、收集數據的方法、獲取數據的質量、處理數據的步驟、儲存數據的格式等不盡相同,因此各個數據庫之間的通用性較低。如何在無約束條件下以較低的成本和較快的速度創造大規模三維人臉數據集、研究三維數據增強方法是進一步探索的方向。

(2)人臉屬性的影響。不同的表情情緒、膚色膚質、面部朝向、化妝、照明及遮擋情況對三維人臉識別精度有很大的影響,決定了三維人臉識別模型的遷移性。現有的大多數方法聚焦人臉剛性區域,采用不同的內外屬性進行渲染,造成一定的信息損失。因此,如何提高三維人臉識別模型的速度、魯棒性、泛化性是需要進一步研究的問題。

(3)跨年齡識別問題。對于同一個識別目標,其少年、中年、老年各個階段的人臉存在顯著差異,這使得跨年齡人臉識別成為一大難點。目前主要解決方案是使用生成模型生成目標年齡段的人臉圖像輔助跨年齡人臉識別,但該方法較為復雜,計算成本高,識別精度不高。因此,如何使識別模型能夠適應跨年齡人臉識別,是需要進一步研究的問題。

(4)人臉活體檢測功能。在實際應用中,活體檢測是必不可少的一個環節。如何提高三維人臉識別模型的活體檢測能力,抵御照片、視頻、面具、三維蒙版等欺詐攻擊是一個重要的研究方向。活體檢測與人臉識別技術之間的關系,也值得進一步地探究。

(5)多模態融合問題。有研究表明[130],數據融合可以充分利用不同模態信息,因此識別效果優于特征融合與決策融合。但目前的多模態研究集中在決策融合,因此需要進一步探索數據融合方法。此外,利用多模態數據中提取的多維特征進行識別時,必須計算出其中最具代表性的特征,使得類內距離最小、類間距離最大,因此,在特征匹配與融合過程中,需要進一步研究特征空間的壓縮方法,提高特征提取的性能與效率。

(6)細節重建與識別問題。在嘴唇、口腔內部、眼瞼、頭發造型和完整頭部的重建與識別等方面缺乏研究,制約著三維人臉識別性能。因此,如何增強五官與頭部細節的差異化重建與識別,是需要進一步研究的問題。

猜你喜歡
人臉識別特征方法
人臉識別 等
作文中學版(2022年1期)2022-04-14 08:00:34
揭開人臉識別的神秘面紗
學生天地(2020年31期)2020-06-01 02:32:06
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
基于類獨立核稀疏表示的魯棒人臉識別
計算機工程(2015年8期)2015-07-03 12:19:07
捕魚
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 91久久偷偷做嫩草影院免费看| 欧美不卡二区| 亚洲国产亚洲综合在线尤物| 国产成人福利在线视老湿机| 亚洲VA中文字幕| 一本色道久久88综合日韩精品| 亚洲第一区精品日韩在线播放| 无码网站免费观看| 欧美黄网站免费观看| 成年看免费观看视频拍拍| 亚洲精品天堂自在久久77| 亚洲黄色成人| 国产一级α片| 人妖无码第一页| 久久青青草原亚洲av无码| 久久婷婷国产综合尤物精品| 手机精品福利在线观看| 毛片基地视频| 国产精品林美惠子在线播放| 99资源在线| 日韩精品欧美国产在线| 一级香蕉人体视频| 欧美日韩一区二区三| 国产丝袜第一页| 国产91视频观看| 无码AV高清毛片中国一级毛片| 99精品欧美一区| 成人福利在线视频免费观看| 欧美全免费aaaaaa特黄在线| 久久精品国产国语对白| 成年A级毛片| 日本日韩欧美| 亚洲国产精品不卡在线| 色亚洲成人| a毛片免费看| 国产在线视频欧美亚综合| 成人福利在线视频| 久草中文网| 国产本道久久一区二区三区| 亚洲无码高清一区| 国产精品hd在线播放| 免费看一级毛片波多结衣| 国产91蝌蚪窝| 亚洲av色吊丝无码| 久久精品中文字幕免费| 免费一级全黄少妇性色生活片| 亚洲欧美成人网| 国产精品极品美女自在线网站| 欧美精品成人一区二区在线观看| 色天堂无毒不卡| 国产产在线精品亚洲aavv| 午夜免费小视频| 久久青草热| 亚洲国模精品一区| 国产综合无码一区二区色蜜蜜| 亚洲欧洲综合| 久久动漫精品| 久久国产高清视频| 久久一级电影| 人妻无码中文字幕第一区| 久久精品国产国语对白| 成人久久精品一区二区三区| 精品亚洲欧美中文字幕在线看 | 99re66精品视频在线观看 | 亚洲综合久久成人AV| 久久久久久久久亚洲精品| 97se亚洲| 中文字幕乱码中文乱码51精品| 日韩在线欧美在线| 欧美黄色a| 无码日韩精品91超碰| 一本一本大道香蕉久在线播放| 55夜色66夜色国产精品视频| 欧美国产日韩在线| 久久久无码人妻精品无码| 97在线国产视频| 中文字幕永久在线看| 国产视频大全| 亚洲av中文无码乱人伦在线r| 欧美笫一页| 91小视频在线观看| a毛片免费在线观看|