黃興晗,杜小甫,劉沂杰
(廈門大學嘉庚學院信息科學與技術學院,福建漳州,363105)
人臉識別技術是指利用計算機技術對人臉圖像進行分析,進而實現身份識別與驗證的身份檢測技術。現今人臉識別技術有兩種主要的研究方向:以人工設計的特征檢測為主的非深度學習方法,以及近年來發展成熟的基于深度學習卷積神經網絡的人臉識別方法。
基于幾何特征的方法是傳統方法,在該方法中認為人臉由各部分器官組成,而各部分器官又有許多相應的特征點,因此能夠通過所有特征點的幾何特征的集合來進行判斷與分析。
Yang等人指出人臉是一個復雜的圖案,在場景中自動發現人臉是一個困難但重要的問題。然后提出了一種復雜背景下人臉定位的新方法。該方法采用基于知識的分層方法,由三個層次組成:較高的兩層是基于不同分辨率的馬賽克圖像;最低一層上提出了一種改進的邊緣檢測方法。最后該方法能夠在復雜的黑白圖像中定位大范圍的未知人臉。后來盧春雨等人改進了這種方法,基于區域特征思想提出一種新的人臉識別快速方法,比Yang的方法快很多,適用性也更強。
章品正等人,針對復雜背景中人臉檢測的受影響問題,提出了一種新方法。該方法首先通過預處理,將光照變化帶來的影響降低。然后通過多種劃分分辨率,對人臉圖案設置不同檢測規則,經過多種不同分辨率的檢測對比,以提高檢測準確度。然后對檢測結果進行進一步驗算,使用最小同值分割吸收核區,這種方法具有非常優秀的抗干擾能力。最終對復雜背景中,具有較高噪聲的人臉輸入進行識別,結果證明具有較好的準確率和抗干擾效果。
所謂基于特征臉的方法,首先給出了特征臉的定義。特征臉指的是利用一組規范化的人臉圖像來構造數學模型,將人臉圖像公有的像素空間特征進行總結,得到的一組標準數據。然后再識別未知圖像時,將未知圖像的像素信息投射到前面的模型中,得到相似度的數值。數值高于某個閾值時,認為輸入的是人臉圖像,否則認為輸入的不是。根據最后的比較過程中所使用的的方法不同,可以將前人工作劃分為幾種不同算法。特征臉是一種典型的主成分分析方法。
Shatnawi等人為了解決嵌入式系統中對人臉識別的實時性要求,提出了對人臉識別的準確度和所需計算量進行衡量,找到最優的平衡。具體研究了3中不同的距離測量方法。即:歐幾里德距離,街區城市距離,和國際象棋距離。試驗結果表明,可以找出最優的特征臉的數目,可以提供在可接受的執行時間內的最高識別率。此外,特征臉的最佳數目很大程度上取決于所選擇的距離度量。Rosnelly等人針對筆記本電腦攝像頭的人臉識別算法進行了研究,該方法是基于特征臉技術的。通過攝像頭獲取320 x 240和100 x 100兩種分辨率的人臉圖像,進行特征比對,進行身份識別。然后通過表情捕捉,左右傾斜等動作要求,來進行生物信息識別,判斷輸入的是活體生物信息而不是靜態圖像。Hu等人提出了一種全新的人臉識別方法,將人臉圖像的增強雙樹復小波變換(ADT-CWT)表示與正則化鄰域投影判別分析(RNPDA)方法相結合。ADT-CWT首先通過空間頻率、空間局域性和方向選擇性來獲取人臉特征,以應對光照和面部表情的變化。然后采用RNPDA進一步降低了ADT-CWT特征的求導維數,通過簡單的回歸框架直接得到一組最優特征向量,從而克服了NPDA樣本量小的問題。在FERET數據庫、擴展YALEB數據庫和CMU PIE數據庫上進行了大量實驗,比較了該方法與一些流行的降維方法的識別性能。實驗結果驗證了該方法的有效性。
此外,基于統計理論的方法也是早期研究中常見的一種人臉識別方法。
Moghaddam等人提出了一種無監督的視覺學習技術,它基于高維空間的密度估計,利用特征空間分解。為訓練數據建模,導出了兩種類型的密度估計:多變量高斯模型(用于單峰分布)和混合高斯模型(用于多峰分布)。然后利用這些概率密度建立一個最大似然估計框架,用于視覺搜索和目標檢測,用于自動目標識別和編碼。這種學習技術可以應用于人臉和非剛性物體(如手)的概率視覺建模、檢測、識別和編碼,效果良好。
卷積神經網絡(Convolutional Neural Networkm,CNN),是一種深度神經網絡,能夠直接使用圖像的像素值作為輸入,將神經網絡中的圖像空間,分為多塊進行復雜計算,通過各種參數的計算、共享等數據挖掘方式,將局部性的特征進行完全的自主學習。最后得到一個完整的圖像識別模型,后續就可使用此模型對其他圖像進行識別,并且能夠給出相應的相似率進行參考。在人臉識別領域,基于深度學習的識別算法比較多。
通過多個不同的卷積核,將一張圖片上多個不同的特征分別進行提取,最后再將多個特征相結合,形成更高層級的特征。層級越高,特征越易描述,越具體。將傳統方法與深度學習方法相結合。
馬駿的研究指出由于單一的神經網絡通道進行人臉表情識別會造成特征信息丟失,設計了一種特征融合的算法。首先將直方圖均衡化處理后的面部表情圖片通過卷積神經網絡提取全局特征,將原圖通過局部二值模式處理后,送入另一個卷積神經網絡模型中,進行圖片局部特征的提取,然后把前兩步驟中得到的全局特征和局部特征進行加權平均,最后通過softmax進行分類。這種方法在FER+數據集上測試得到了較好的識別結果,驗證了模型的有效性。He等人針對異構人臉識別進行了深入研究,提出一種名為Wasserstein CNN的卷積神經網絡,對紅外圖像和普通可見光視頻圖像相結合,對異構人臉圖像進行識別,取得很好的效果。在三個具有挑戰性的NIR-VIS人臉識別數據庫上的廣泛實驗表明,Wasserstein CNN與目前其他最先進的方法相比,也具有顯著的優勢。
在傳統的卷積神經網絡中加入一些深度可分離卷積。通過逐通道卷積與逐點卷積等方法,降低參數量與運算成本。能夠提取不同深度的特征信息,提高網絡結構的魯棒性與準確性(一般用于輕量級網絡)。周麗指出在現實生活中,面部表情識別常被使用在社交、公共安全、人機交互和計算機視覺中。在實驗中常使用眾包表情數據集Fer2013來訓練網絡,但該數據集噪聲較多,模型準確率達到65%后很難再提升。于是,文章改為使用重新整理后的表情數據集Fer+。Fer+數據集不僅標注出了無效人臉數據,并且重新整理了表情標簽,為每個表情類別都標記了分類概率,利于實現人臉的復合表情識別。該論文使用簡化Xception模型,在原模型基礎上修改了網絡模型寬度,并且只使用了4個具有殘差連接的深度可分離卷積層,最終在Fer+數據集上得到了80%左右的測試準確率。
Parkhi等人針對超大規模訓練數據集在卷積神經網絡中的應用問題進行研究,使用了一個超過260萬張圖片的超大規模數據及,通過自動化方法循環自動組裝,實現了深度網絡訓練的遍歷和人臉識別的復雜度的控制,在數據準確性和算法時間之間取得了良好的平衡。最后在標準LFW和YTF人臉數據集上驗證,實驗效果良好。
本文總結了當前人臉識別技術的分類,重點對基于特征檢測的傳統方法進,和對基于卷曲神經網絡的深度學習方法進行了分類對比。對較為先進的方法進行闡述,對各種方法中的優缺點進行分析,幫助我們后期進行深入的人臉識別研究。