李玲俐
(廣東司法警官職業學院 廣州 510520)
生物特征識別是利用計算機技術,通過采集人的生物特征樣本進行人的身份識別。心理學家20世紀50年代開始研究人臉識別,60年代后,慢慢發展成一種重要的生物特征識別技術。區別于指紋、虹膜等其他生物識別,人臉識別技術具有直觀、非接觸性、方便采集、交互性強、可擴展性的優點[1],成為大數據時代背景下的生物特征識別中一個非常熱門的研究領域,被廣泛應用于門禁考勤、訪問控制、欺詐檢測、公安刑偵、智能支付等領域。
人臉技術雖然取得了一些研究成果,但由于人臉的不同姿態、表情以及光線、遮擋、角度、分辨率等因素,識別率和準確性會降低,影響了人臉識別的研究效果。目前,傳統的人臉識別技術已經不能解決各類復雜因素下的人臉識別問題,實際應用面臨諸多挑戰。隨著深度學習的發展和廣泛應用,人臉識別研究有了很大的突破,其自身適應性、精確性和智能度得到很大提升。本文從傳統人臉識別方法面臨的技術問題出發,闡述深度學習理論及其在人臉識別中的應用,并對未來的發展進行展望。
傳統的人臉識別方法主要有以下幾種。
1)基于幾何特征[2]的方法。最簡單的人臉識別方法,將人臉的眼睛、鼻子、嘴巴等重點部位和這些部位的形狀、位置進行比較來判別。該方法主要依賴特征提取的準確度,但由于形狀、位置等特點不能精確體現出人臉圖像中的非線性因素,該方法的識別度和可靠性較低。
2)基于代數特征[3]的方法。通過主成分分析(Principal Component Analysis,PCA)[4]、線性判別分析(Linear Discriminant Analysis,LDA)[5]等方法獲取特征,對圖片的灰度特征作代數變化處理,或者通過分解人臉圖像構成的矩陣來實現。采用降維策略,線性結構時具有強大的功效,但面對非線性結構時,識別效果降低。
3)基于模型的方法。將人臉圖像與數據庫中所有的模板記錄進行對比,選取最相似的模板作為待處理圖像的分類。但數據庫中圖片數量是有限的,而且對背景、表情、光線、角度等條件很敏銳。這種理想狀態的方法不適用于現實場景。
4)基于局部保值映射(Locality Preserving Projection,LPP)的方法。為克服非線性方法中存在的缺點,浙江大學何曉飛教授提出了LPP。降低空間維度的同時,能準確得到圖像的局部特征結構,但不能提取圖像的原有特征結構[6]。
5)基于神經網絡[7]的方法。包括卷積神經網絡、支持向量機等,采用降維方式,從原圖中自動學習特征,但面對巨大的網絡參數時,訓練時間加長導致效率降低,或者產生過度擬合,使得測試準確性下降。因此,不適合現實應用。
6)基于稀疏表示[8~9]的方法。人臉識別中采用稀疏信號表示來處理問題,使得特征選擇變得簡單。但是,如何正確地計算稀疏表示是關鍵,而且該方法不能進行主動學習,必須要人工設置[6]。
由于非線性因素的影響,加上人臉識別自身的復雜性,訓練大規模的人臉數據集、算法和計算性能等的制約,傳統人臉識別方法存在的這些缺陷,極大降低了人臉識別的精度,間接導致很多研究者放棄使用這些方法。
深度學習也稱為深度神經網絡,其概念來自多倫多大學的Geoffrey Hinton等于2006年在《Science》上發表的一篇文章[10],通過神經網絡模擬人腦的學習過程,采用無監督預訓練方法,借鑒人腦的多層抽象思維對文本、語音、圖像等數據或實際對象完成抽象表述,將特征提取器和分類器整合到一個學習架構中[11],進行特征提取時要避免過多的人為干預。
深度學習是機器學習中對數據進行自動學習的一種方法,“深度”表現在能對特征進行多次變換,深度的出現和快速發展,使得人們在很多研究和應用中能夠從樣本中無監督地學習到更能體現數據的本來特征[12]。輸入原始數據到模型中,再對模型進行學習,得到適合分類的、具有表達性和推廣性的特征表示[12]。常用的深度學習模型為多層神經網絡,能逐層地對復雜數據進行特征提取,其功能非常強大。
深度學習網絡的高層語義特征表現很突出,遇到缺少標記數據或大數據集等不易解決的問題時,能自動調整非監督數據來提高性能。深度學習算法已被大量應用在模式識別、圖像分類、計算機視覺、人臉識別等領域并獲取了極好的效果。
深度學習炙手可熱主要包括三個原因:1)創新的算法;2)高計算機處理能力;3)能夠訓練大規模的數據集。
深度學習通過模擬人類大腦神經系統來處理消息,能較好地解決人臉識別中存在的復雜問題。在深度學習模型下,對大數據分析借助圖形處理器構成的運算系統實現,能夠直接從原圖中學習具有判斷性的人臉特征。在海量人臉數據時代,基于深度學習的人臉識別無論在速度還是準確性方面都已經取得了最好的效果[1],對深度學習的理論研究和人臉識別的實際應用具有極其重要的意義。
目前已有多種深度學習模型,最重要的兩種方法是深度信念網絡(Deep Belief Networks,DBN)和卷積神經網絡(Convolutional Neural Network,CNN),下面主要介紹這兩種模型在人臉識別上的研究與應用。
DBN是第一個被提出的深度學習模型,它由基本結構單元——受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)組成。RBM是深度學習中一塊非常重要的奠基石,能夠很好地擬合數據,通常用作非線性分類器。RBM在降維、分類、建模和特征學習等領域應用廣泛。
相比傳統神經網絡,深度學習的一個重要優勢是,很大程度上解決了低層神經網絡的訓練速度和精度問題。多層模型進行全局學習前,DBN會將神經網絡分解為多個RBM的層疊,再對其進行逐層訓練[13]。DBN為了準確描述特征結構,能自下而上學習各層的抽象特征,與代數特征方法不同,其特征提取不用人工來選擇,完全采用自動學習來完成。文獻[13]解決了深度學習在人臉識別姿態和分辨率上存在的問題。使用DBN在姿態映射和姿態分類處理中的應用,實驗結果表明,基于DBN的姿態映射可以學習到側面人臉圖像到正面人臉圖像的一個全局映射;基于DBN的姿態分類可以達到良好的性能。
DBN的一個缺陷是直接采用人臉圖像的像素作為學習的輸入,往往忽略了人像的局部特征,在姿態、光線、噪聲等因素的影響下,輸出的特征表達可能會對結果不利[14]。為了解決這個問題,文獻[15]通過提取Gabor特征當作DBN的輸入來進行人臉識別,識別率高達92.7%。文獻[16]也提出一種基于Gabor小波與DBN相結合的人臉識別方法,有效提取人像的抽象特征,且很好地降低了姿態、光線等對識別率的影響,實現了對人像的準確識別。
CNN源自多層前向網絡,通過多次卷積、激函數、池化等運算過程自動學習特征,是第一個真正訓練成功的多層網絡結構,數據越復雜,網絡結構也越深。CNN類似于生物神經網絡,其結構具有局部權值共享網絡的特殊性,能降低網絡模型的復雜度,減少權值的數量[16]。CNN具有特征提取、局部感知區域、結構層次化、共享卷積核、對高維數據處理無壓力等特點,而且,CNN訓練時所需參數數量比其他神經網絡要少,增強了CNN的實用性。
CNN不用對復雜圖像進行預處理,直接將圖像的像素作為網絡的輸入,降低了傳統人臉識別方法中提取特征和分類過程中重建數據的復雜度,多維圖像作為輸入時其表現更為明顯,使得CNN在圖像識別等分類學科領域獲得廣泛的應用。
采用CNN模型,文獻[17]在LFW數據庫上的人臉識別準確率高達97.45%,只比文獻[18]中的人類視覺識別率97.5%略低。通過改進,學習非線性特征變換減小類內變化,并使得不同身份的人像間距保持不變,其在LFW數據庫上的識別率提高到99.15%[19],超越了目前研究者們在LFW數據庫以及所有領先的人臉識別算法的識別率[1]。
本文對基于深度學習理論的人臉識別技術進行了綜述,傳統人臉識別技術存在一些問題,將基于深度學習的技術引入到人臉識別中,詳細討論了當前應用最多的兩種模型DBN和CNN。從國內外研究現狀來看,基于DBN和CNN的人臉識別技術已被廣泛運用,并取得良好的效果。但是,二者也存在相同的問題,很難徹底解決小樣本情況下識別率普遍偏低的問題,所以,DBN和CNN更適合大數據集。
相對其他機器學習的人臉識別方法,深度學習的優勢在于自動提取特征且能力非常強大,能處理各類復雜的數據,能構造各種精確的模型等。深度學習也存在一些缺點,例如:計算復雜度高,訓練時間比較長;模型參數過多,進行優化時需要不斷迭代;不確定是否能得到全局最優解等。當然,深度學習和人臉識別技術都在不斷發展和繼續研究中,基于深度學習的人臉識別算法的準確率也不斷被提升。未來,安防人臉檢測和識別、公共場所實時監控等領域對人臉識別的精確性要求更高,后續的研究將是在復雜度更高,包括人臉在光照、姿態、表情、遮擋及脈沖類噪聲干擾等情況下改進算法、提高人臉圖像的識別率,進一步提高人臉識別效率;為適應大數據時代的發展,進一步豐富數據庫資源,這項工作將具有很大的挑戰性;基于深度學習理論的人臉識別還要跟其他方法相結合,更好更快推動人工智能的發展。