王兆偉 吳翔 卓瑪曲珍
(西藏大學信息科學技術學院,西藏拉薩 850000)
近年來,在深度學習和大數據技術的快速發展下,人臉識別技術也得到了迅速的發展。經過不斷改進和優化,如今可控環境下的人臉識別準確率已能滿足很多應用的需求。盡管如此,目前常用的基于普通可見光圖像的人臉識別技術仍然面臨抵抗照片、視頻等偽造人臉攻擊能力較弱、在光照不理想(如弱光照、側強光)時所成的RGB圖像質量差、識別對象不配合、識別姿態不理想等挑戰。
此外,隨著RGB-D圖像分類的發展,RGB-D深度相機也開始普及,RGB-D人臉識別逐漸成為人臉識別的一個重要方法。RGB-D數據是介于2D數據和3D數據中間的,其不僅擁有2D數據完整的紋理信息,還包含3D模型的空間三維信息。[1]相比于2D、3D人臉識別,RGB-D人臉識別包含了深度數據,深度圖是利用紅外線獲取的,理論上圖像的獲取不受光照變化的影響[2],而且深度信息在防偽方面具有內在優勢,能夠有效檢測不滿足人臉幾何特點的偽造人臉。所以,利用深度圖的RGB-D人臉識別可以很好的解決因光照條件不足引起的識別失敗問題,具有更好的識別準確率。這也是我們利用深度數據來做人臉識別的一個很重要的原因。[2]如今,融合了深度信息的RGB-D人臉識別已經逐漸成為人臉識別領域的一個研究熱點。

圖1 RGB-D防偽人臉識別系統結構Fig.1 RGB-D anti-counterfeiting face recognition system structure
本文提出的RGB-D防偽人臉識別系統可基于RGBD人臉識別技術進行安全、可靠、靈活、有效地人臉識別身份認證。系統主要由注冊模塊和識別模塊兩部分構成,其中注冊模塊將采集到的人臉RGB-D數據經處理后提取特征保存于云端的數據庫中,供身份認證時使用。而識別模塊則將身份認證現場采集到的人臉RGB-D數據的特征與數據庫中保存的特征進行比對,以確定被識別者的身份。兩個模塊在采集到人臉RGB-D數據后均首先對人臉的真偽進行判別,如果是偽造人臉,則直接終止注冊或認證。系統整體框架如圖1所示。
本系統利用Intel RealSense F200攝像頭采集視頻幀,它的主要工作是采集人臉的樣本,從視頻中將人臉圖像檢測并保存下來,從而為人臉識別提供素材資料。這是系統設計的第一步,人臉樣本的質量對系統的性能有非常重要的影響,故這也是整個RGB-D防偽人臉識別系統最重要的一個步驟。
1.1.1 數據采集設備簡介
Intel RealSense F200,是一款具有深度圖像采集能力、支持室內外近距離使用的攝像頭,它的硬件組成包括:1個IR camera、1個HD1080p camera、1個IR Laser projector。
它共有三個傳感攝像頭,左側的為紅外捕捉攝像頭、中間的為RGB彩色攝像頭、右邊的為紅外投影儀。其中,紅外捕捉攝像頭和紅外投影儀的結合可以實現在黑暗及光照不足環境下獲取穩定的外界深度信息,且識別準確率高、穩健性好。相對于微軟Kinect的全身骨骼跟蹤,Intel RealSense更注重近距離的臉部、手部的識別與追蹤[3],更適用于多場景下RGB-D人臉識別。
1.1.2 RGB-D數據集
為了進行RGB-D 目標識別與場景分類研究,一些科研機構提供目標識別與場景分類的RGB-D測試數據集。[4]目前常見的RGB-D數據集主要包括:SUN RGB-D、RGB-D object Dataset、EURECOM、Curtinface、和IIIT-D等數據集。其中,有關人臉識別的RGB-D數據集較少;已有的RGB-D數據集通常為歐美面孔數據,缺乏亞洲面孔數據;往往存在深度圖精度較低,邊緣缺失、表面有漏洞等現象。
為了緩解這些問題并結合所處地區的地方特色,讓RGB-D人臉識別技術得到更好的應用,我們利用RealSense F200在學生宿舍、工作室等地方進行了小規模的RGB-D信息采集,嚴格控制了環境變量的影響,建立了我們RGB-D數據集。它是由200名不同的人組成,拍攝了正面、側面、仰面等多角度的圖片,每個人的樣本數量不一,最少6個樣本,共計2500個樣本。圖2為同一個人不同條件下的RGB-D數據示例。第一排是 RGB圖像,第二排是對應的深度圖像。
本系統采用基于RGB圖像的人臉檢測和特征點定位算法對人臉RGB圖像進行對齊,以使人臉位于圖像中的特定位置,并縮放到指定大小。對于深度信息,首先在三維空間中對人臉姿態進行矯正,將人臉轉換到正面姿態,然后再生成DAE圖表示人臉的幾何信息。DAE圖(深度圖)包含三個通道,其中D表示深度信息,A和E表示根據三維表面的法向量計算得到的方位角和仰角信息。
通過采集大量真實人臉的深度圖{ D:|i=1,2,…,N},對真實人臉深度圖進行空間建模,將得到真實人臉的深度空間模型{},其中為真實人臉的平均深度圖,Djs為真實人臉空間的基向量,表示深度空間模型在真實人臉空間的表達系數。本系統假設真實人臉在上述空間中的表達系數符合高斯分布G,并根據訓練樣本估算出該分布的參數。當進行防偽操作時,首先將采集到的人臉深度圖在上述空間中進行表達,按下式計算其表達誤差:

圖2 RGB-D數據集Fig.2 RGB-D data set

圖3 系統人臉識別身份認證技術路線Fig.3 System face recognition and identity authentication technical route

與此同時,計算其表達系數滿足前述高斯分布的概率p。如果表達誤差小于指定的閾值,且概率值高于指定的閾值,則待識別人臉為真實人臉,通過防偽檢測;否則,防偽檢測失敗,終止注冊或認證。
本系統采用深度卷積神經網絡(DCNN)通過監督學習方法分別提取人臉RGB圖和深度圖的特征用于識別其身份。
對于一般的大規模圖像分類問題,DCNN可用于構建層次型分類器(hierarchical classifier),而在精細分類識別(fine-grained recognition)中,亦可用于提取圖像的判別特征以供其它分類器進行學習。
訓練過程中,首先利用大量的人臉RGB圖像訓練提取RGB特征的DCNN,再利用人臉深度圖像對訓練好的DCNN進行微調訓練,可以得到提取深度特征的DCNN。
本系統采取以下兩種方法進行RGB圖像和深度圖像的特征融合(如圖3),從而實現人臉識別:
(1)特征融合:利用DCNN分別提取出使用者的RGB特征和深度特征,并通過全連接層將二者進行融合,進而實現特征融合。其中,融合參數通過訓練樣本學習得到。
(2)相似度融合:首先將采集到的待識別人臉的RGB特征和深度特征分別與RGB-D人臉數據庫中已注冊人員的人臉特征進行比對,得到基于RGB特征的相似度和基于深度特征的相似度,再將所得相似度進行融合得到綜合相似度,融合參數也通過訓練樣本學習得到。
(1)利用深度傳感器采集的人臉幾何信息提升人臉識別的安全性和易用性。本文系統通過對人臉幾何信息的統計建模實現對偽造人臉的檢測,可提升人臉識別系統的防偽能力。
(2)整合利用可見光圖像和深度圖,提升人臉識別的可靠性和識別準確率。本文系統通過深度學習融合人臉RGB圖像和深度圖像在人臉識別中的互補性,提升人臉識別系統在非理想條件(如弱光環境、非正面姿態)下的識別準確率。本文系統提出的方案為識別對象不配合、環境不可控情況下的人臉防偽識別提供了新思路。
(3)使用云服務器進行數據處理,購買Intel RealSense攝像頭模組進行數據采集,降低硬件采購設備成本。相對于傳統人臉識別系統硬件設備成本,本系統使用云服務器和Intel RealSense攝像頭模組,可降低人臉識別系統的應用、部署成本,提高人臉識別系統的易用性和響應速度。
本文提出的RGB-D防偽人臉識別系統,使用Real Sense F200傳感器捕獲人員信息,通過進行防偽檢測,提取RGB圖與Depth圖的圖像特征,與數據庫中已存人員信息進行特征比對、相似度融合,從而實現具備防偽能力的人臉識別技術,有效地緩解基于普通可見光圖像的人臉識別技術所面臨的挑戰,具有一定實用價值。目前,人臉識別依舊是一個充滿挑戰性的開放課題,本文提出的RGB-D人臉識別方法仍在著不可忽略的問題,如沒有構建龐大的RGB-D數據集,訓練出來的模型可能會在一些環境下存在識別誤差,這也是未來RGB-D人臉識別大規模應用需要考慮的一個問題。