湖南省長沙市長郡中學 夏志強
人臉識別綜述
湖南省長沙市長郡中學 夏志強
人臉識別技術是圖像工程領域的重點研究對象,并具有巨大的應用價值,如刑事偵破,智能支付等領域。本文將對人臉識別技術做一個綜述,首先介紹人臉識別技術的背景,接下來闡述概念和主要識別技術,最后根據當前技術現狀進行分析展望并其發展趨勢。
人臉識別;特征提取;機器學習
人臉識別是圖像理解和分析最重要的應用之一,也是人們在開發自身生物特征過程中的又一次偉大的嘗試。所謂人臉識別,就是利用計算機分析人臉視頻或者圖像,并從中提取出有效的個人識別信息,最終判別出來人臉對象的身份。其應用已經融入到了生活中的方方面面,諸如視覺監控,自動身份驗證,銀行安全,門禁安全等領域。
隨著人們對圖像識別領域的研究,一些學者逐漸意識到人臉識別的巨大應用前景并投身于該領域的研究,人臉識別的發展歷程大致可分為三個階段:
(1)第一階段
20世紀60年代末至20世紀70年代初,人臉識別研究才處于起步階段。在這方面,最早的科研人員是Bledsoe,他以人臉特征點的比率、間距等參數為特征,建立出來一個半自動的人臉識別系統。
(2)第二階段
90年代初,隨著計算機軟硬件性能和信息技術的不斷地提高,基于整體的識別方法已成為研究重點。例如特征臉方法和彈性圖匹配方法。而到了20世紀90年代中期,人臉識別的研究方法分別向整體識別和部件分析相結合的方向發展。如彈性匹配的方法、灰度和形狀分離的可變形模型方法等。
(3)第三階段
在90年代末,人臉識別技術開始被應用于商業市場,成為了世界范圍內研究的熱點。由于技術不夠成熟,因此缺點也很明顯。在市場需求不斷變化的今天,雖然我國人臉識別方法的性能有了一定的提高,但與人們的要求還是有一些差距,仍將不斷發展。
人臉識別,是基于人的臉部特征信息而對個人身份識別的一種識別技術。用攝像機采集含有人臉的圖像或視頻流,并自動在圖像中檢測和跟蹤人臉的具體位置,進而對檢測到的人臉進行處理,通常也叫做面部識別、人像識別。下面將對人臉識別的方法做一個歸納總結。
基于知識的人臉檢測,主要是通過人們的先驗知識來對待測物體建立若干規則,從而將人臉檢測問題轉化成假設-驗證問題。
模板匹配的方法大致分為:臉輪廓特征匹配,器官特征匹配和顏色、紋理特征匹配。
臉輪廓特征匹配:Crow等提出了根據人臉的橢圓形特征進行檢測[1],定位得到人臉的位置。接下來通過變形模板(deformable template)將人臉分為3部分:頭頂輪廓、右側輪廓和左側輪廓。通過先對邊緣提取曲線特征,然后再利用函數的形式去估計人臉檢測的結果。1996年DR.Govindaraju等人為了優化該方法而設計了4段輪廓分類法,后來其他學者又通過Hough變換來提高精準度[2]。
器官特征匹配:人臉都具有相似的分步特征,主要是對稱性。人臉的特征按照固定的規則排列在人臉上,可以通過這些信息,進行人臉檢測。Yang和Huang等人提出了鑲嵌圖的方法[2],即馬賽克圖的方法進行人臉檢測。經典的鑲嵌圖法是要創建一張三層的人臉檢測系統,第一層針對4*4的馬賽克圖尋找可能候選區域,第二層針對8*8的馬賽克圖像尋找可能候選區域,并對第一層的候選區域做進一步檢測,提出假設。第三層按照同樣的方法來對人臉的器官做進一步驗證,并確定具體的位置。
顏色、紋理特征匹配:人臉的膚色也是較為顯著的特征之一。而且顏色的特征不因人臉的表情動作,角度等因素的影響而產生較大的變化。人類的膚色相對集中,大都分布在較窄的頻帶上,這樣就更加方便統計分析。可以通過建立膚色表的方法,對人的膚色建模來進行人臉檢測。由于人臉在圖像中都是以像素的形式呈現出來的,通過將像素聚類來的到人臉的大致范圍。這種算法實現簡單,但是受光照影響比較大。
針對人臉識別算法的研究已經很多年,除了有基于模板的方法,還有基于統計學的方法。目前基于統計學算法可分為幾類:基于幾何特征的人臉識別、基于子空間分析的人臉識別和基于神經網絡的人臉識別等。根據特征的方法識別人臉的過程,首先要根據特征來訓練出一個學習機(Model),然后在識別的過程中利用待測圖片的特征和學習機進行匹配,來得到測試結果。具體執行過程如圖1所示。

圖1 執行過程圖
2.2.1 幾何特征法
這類識別方法是首先將人臉用一個幾何特征矢量來表示,進而采用模式識別中的層次聚類的思想設計對應的分類器對人臉進行識別。這種基于幾何特征的識別技術中,識別主要目的就是特征矢量之間的匹配,主要采用基于歐氏距離的判決。最早的基于幾何特征的人臉識別方法是側影識別,主要是在人臉側面輪廓線上提取特征點上入手。一般將人臉側影簡化為輪廓曲線,從中抽取基準點,用這些點之間的幾何特征來進行人臉識別。由于現在的證件照片多為正面人臉,所以對側面人臉識別的研究己不多見。正面人臉識別中,最關鍵的一步是合適的歸一化,使識別過程不依賴圖像中人臉位置的旋轉和尺度變化。
2.2.2 子空間法
子空間方法的基本思路是降維,即將高維的人臉圖像特征通過空間變換(線性或非線性)壓縮到一個低維的子空間進行識別。
該方法的主要是思路是:最初的子空間可以被看作使一組基本向量(正交歸一),所以統計正交展開的方法得到了實際應用。并且,利用重構權向量作為識別用的特征向量,并提出基于“特征臉”的識別技術。從提取特征的角度分析,主要分為兩類:1.表達性特征提取方法;2.鑒別性特征提取方法。在基于線性子空間的人臉識別中,實際上是把人臉圖像中存在的表情、姿態及光照等復雜的變化進行了線性簡化,但不可能得到人臉充分的描述。
2.2.3 神經網絡法
人工神經網絡是動力學模型,能模仿生物神經網絡行為特征的分布式并行信息處理算法結構。利用神經網絡技術處理人臉識別問題,主要是通過每個神經元對應圖像中的一個像素[1]。
最早將人工神經網絡用于人臉識別的是Kohonen,創建了一個系統:當輸入圖像含有大量噪聲的時候,也能正確的識別出人臉。因為圖像的維數比較高,所以直接使用圖像向量進行訓練變得特別困難。因此,對于輸入圖像一般不進行直接訓練學習,而是對原圖像先作降維處理。對此,Coterl和Fleming等人提出了一個解決方案[2],引入了一個自聯想模型,采用兩層神經網絡結構處理:第1層神經網絡用來降維,主要是池化層;第2層再分類。但遺憾的是,實驗表明這種類型的神經網絡識別效果并不比“特征臉[3]”方法出色。為了發揮神經網絡的非線性學習能力,將大量神經網絡都被應用于人臉識別領域研究。比如,采用卷積神經網絡(CNN)[4]的方法進行人臉識別,因為CNN集成了相鄰像素之間的相關性信息,所以對圖像進行旋轉、平移和局部變形的操作具有不變性,可以得到比較好的識別效果。但是,人工神經網絡也會遇到諸多問題,如當輸入的訓練樣本集較大時,會出現過擬合現象,當輸入樣本維數過高會導致算法收斂緩慢而出現過學習的問題。此外神經網絡在訓練最優參數時,必須要有多樣本輸入,因此對單樣本人臉識別問題是無能為力的。
在人臉識別中,應該包括人臉各個器官聯系特征信息及各個器官的數值特征。隱馬爾可夫模型(HMM)提供方法解決這些問題,按照這種模型,觀測到的特征被看成是另一組不可觀測“狀態”產生的一系列實現[5]。將不同人用不同的HMM參數來表征,對于同一個人表情和姿態變化產生的多個觀測序列,可以利用同一個HMM模型來表示。
隱馬爾科夫過程是雙重的隨機過程:—個可觀測過程稱為“觀測序列”;另一個潛在的過程稱為“狀態”過程。基于HMM方法的人臉識別系統能夠允許人臉有表情變化和大幅度的頭部轉動過程,具有較高的識別率。但提取特征和訓練模型參數時卻需要較大的運算量,因此很少應用。
當前,主要針對二維圖像或二維視頻序列進行人臉識別[6]。雖然利用二維圖像識別技術在其他領域已經有很多的應用,并取得了很好的成果,但是由于人臉是塑變體的原因,僅利用圖像識別技術識別人臉存在困難。另外,基于圖像的人臉識別技術還受到背景、環境光線、視角等條件影響,識別精度很難提高。
為克服基于二維圖像的人臉識別技術的不足,部分學者已經開展對三維人臉識別技術進行研究。DR.Bronstein等人提出了3D人臉識別方法(支持面部表情有關的變形),主要是把3D人臉數據轉換成“特征形式”,使它成為模型的形狀變化的不變量。
在人臉圖像處理過程中,必須將高維測量空間中的信息轉換為低維特征空間中的特征向量,這也是近幾年來人臉識別技術發展的另一特點之一。與其他身份識別中所需信息相比,人臉信息(如人臉圖像)更能以最自然、最直接的方式獲取,特別是在非接觸環境和不驚動被檢測人的情況下,因此計算機人臉識別技術已成為最活躍的研究領域之一。隨著真三維獲取技術的發展,人臉識別技術有望取得突破性的進展并得到廣泛的應用。
目前人臉識別技術的發展還有很大空間,現有的技術不足以解決識別問題。未來的發展方向可能是多種識別方法的綜合,優化組合、運用人臉整體與局部,匹配方法相結合等。一個完善自動人臉識別系統是人臉檢測技術與人臉識別技術的完美結合。目前,還不能實現100%的人臉識別,但是社會各方面巨大的需求,人臉檢測與識別技術仍將不斷發展,新方法、新思路將會不斷涌現,必將推動人臉檢測與識別技術進一步產業化。
[1]肖冰,等.人臉識別綜述[J].計算機學報,2016,8(8).
[2]梁路宏,艾海舟.人臉檢測研究綜述[J].計算機學報,2002(5):449-458.
[3]艾海舟,梁路宏.基于多模板匹配的單人臉檢測[J].軟件學報,2001,12(12).
[4]何海峰,等.灰度圖像中基于像素分布特征的人臉定位計算機工程,2011.2,28(6).
[5]王宏漫,等.支持向量機在人臉識別中的應用[J].計算機工程與應用,2013,11:100-102.
[6]Hellappa R,et al.Human and Machine Recognition of Faces:A Survey[J].Proceedings of the IEEE,2015,83(5):705-740.