劉文培,李鳳蓮,張雪英,田玉楚,2
1.太原理工大學 信息工程學院,山西 晉中 030600
2.昆士蘭科技大學 電機工程及計算機科學學院,澳大利亞 昆士蘭
人臉識別技術作為生物識別技術的一種,以其特有的穩定性、方便性、唯一性等特點被愈來愈多地應用于各種身份識別領域。人臉識別技術是基于人的臉部特征進行身份識別的,因此特征提取方法性能優劣直接決定識別效果。目前,常用的特征提取方法大體可以分為兩種:一種是基于全局特征的特征提取方法,能有效地表達人臉的輪廓特征,如主成分分析(Principal Component Analysis,PCA)[1]、線性判別分析(Linear Discriminant Analysis,LDA)[2]、特征臉[3]等方法;另一種是基于局部特征的特征提取方法,反映的是人臉的細節特征,如局部二值模式(Local Binary Pattern,LBP)[4]、Gabor[5]、方向梯度直方圖(Histograms of Oriented Gradients,HOG)[6]等方法。
由于全局特征較局部特征更容易受光照、姿態和表情等因素的影響,一般不單獨研究,僅針對局部特征進行研究,會存在對整體信息表征能力不夠的缺陷,從而影響識別效果。近年來,研究發現將全局和局部特征相結合,能有效利用二者的優點,提高人臉特征的表征能力[7],因此越來越多的研究人員開始關注結合全局和局部特征的方法,并提出了很多新穎的算法。文獻[8]將人臉的兩種局部特征——HOG和LBP進行融合,利用分層的思想,實現局部和整體特征融合的特征提取方法,但該方法特征維數高至5萬,計算復雜;文獻[9]將HOG和奇異值分解(Singular Value Decomposition,SVD)結合,提出了一種基于HOG-SVD的人臉識別方法,分別提取人臉圖像的整體HOG-SVD特征和各子塊的HOG-SVD特征,組合形成最終分類特征,但該方法容易造成大量分類特征信息丟失的問題;文獻[10]通過研究全局特征PCA、2DPCA與局部特征LBP、Gabor,將全局特征與局部特征采用決策級融合,實驗結果表明識別率優于單一特征的識別率,但是該融合方法也保留了PCA方法的缺點,算法的可擴展性受到一定影響;文獻[11]通過圖像金字塔、HOG特征譜構建人臉圖像的HOG金字塔來實現整個人臉的特征表達,該方法利用圖像金字塔的多尺度表達實現了全局與局部特征的結合,但是特征維數上萬,計算復雜度高且運算時間長。
針對上述問題,考慮到HOG特征對光照、尺度及方向有很強的適應性,能夠很好地提取圖像的局部特征的特點;小波包分解(Wavelet Packet Decomposition,WPD)[12]在去除冗余、縮小圖像尺寸、降維方面的優勢;圖像金字塔可對人臉圖像進行多尺度表達的特性,本文將HOG特征、WPD、圖像金字塔相結合,提出一種基于WPDHOG金字塔的人臉特征提取方法。該方法首先將圖像進行WPD,選取低頻子圖像,進而對該子圖像構建圖像金字塔,然后對金字塔中的每層圖像提取HOG特征,將各層HOG特征順序級聯得到WPD-HOG金字塔特征。為驗證所提出的WPD-HOG金字塔特征提取方法的有效性,將提取的WPD-HOG金字塔特征通過支持向量機(Support Vector Machine,SVM)[13]分類器進行人臉識別,在ORL人臉庫上的實驗結果表明,本文方法優于對比方法,提取到的人臉特征信息完備,計算復雜度低,具有較高的識別率和對噪聲的魯棒性。
HOG特征最早被Dalal等人提出并應用于行人檢測[14],因HOG特征能夠對圖像的幾何和光學變化保持很好的不變性而被廣泛應用到人臉識別領域。HOG特征是一種在計算機視覺和圖像處理中用來進行物體檢測的特征描述子。該方法最重要的思想是,在一幅圖像中,局部目標的表象和形狀能夠被梯度或邊緣的方向密度分布很好地描述。本文HOG特征的提取過程如下:
(1)Gamma校正
Gamma校正的主要目的是把圖像整體亮度提高,以改善圖像灰度較暗的情況。
(2)計算圖像每個像素位置的梯度
采用中心對稱梯度算子[-1,0,1],按下列公式求圖像中像素點(x,y)的橫向和縱向梯度,分別設為Gx(x,y)和Gy(x,y)。

式中,H(x,y)為像素點(x,y)的像素值。
(3)計算圖像每個像素位置的梯度幅值和方向
按下列公式求圖像中像素點(x,y)的梯度幅值和方向,分別設為G(x,y)和θ(x,y)。

(4)局部方向梯度直方圖
將圖像分成小的細胞單元(cell),在每個cell中獨立做梯度方向統計,形成局部方向梯度直方圖。直方圖以梯度方向為橫軸,將0°~180°的梯度方向劃分為k個均勻的區間(bin),每個方向角度范圍都會對應一個直方柱。每個cell內相同梯度方向的頻數按照梯度幅值加權,本文運用了高斯核函數來調整cell內梯度大小的權重,用像素鄰域的加權均值來代替該點的像素值,距離越近的點權重越大,距離越遠的點權重越小。高斯核函數的計算公式如下所示:

其中,xc為核函數中心;x為xc像素鄰域中的其他像素點;δ為核函數的寬度參數,控制了函數的徑向作用范圍。
(5)block內歸一化局部直方圖
為了提高精確度,把這些局部直方圖在圖像的更大區間(block)中進行歸一化,歸一化函數采用L2范數。
(6)HOG特征的形成
將圖片中所有block進行HOG特征的收集,并將各個block的直方圖首尾相連形成最終的特征向量。
小波包是在小波多分辨率分析的基礎上建立起來的。小波包分解可根據被分析信號的特征,自適應地選擇相應頻帶,使之與信號頻譜相匹配,以提高被分析信號的時頻分辨率,是一種比小波分解更為精細的分解方法[15]。
對圖1所示的原圖(用W 表示)進行一級WPD,得到圖2的子圖像,包含近似細節部分、水平細節部分、垂直細節部分和對角細節部分,分別用A、H、V、D來表示,對W進行一級WPD的分解過程用四叉樹結構圖表示,如圖3所示。其中,A為低頻子圖像,它反映了人臉的輪廓信息,包含人臉的大部分特征,與原圖最為相似;H、V、D為高頻子圖像,包含了人臉的各種紋理細節信息,但是容易受到噪聲、表情和光照的影響。WPD不僅在去噪方面可以取得不錯的效果,而且分解后得到的子圖像大小也縮減為原圖像的1/4,大大降低了后續對圖片進行特征提取的計算復雜度。

圖1 原圖像

圖2 子圖像

圖3 小波包第一層分解的四叉樹結構圖
圖像金字塔是以多分辨率來解釋圖像的一種有效但概念簡單的結構。一幅圖像的金字塔是一系列以金字塔形排列的分辨率逐步降低的圖像集合。圖4所示為三層的圖像金字塔,金字塔的底層是待處理圖像的高分辨率表示,而頂層是低分辨率的近似,圖中虛線將各層圖片相對應的四個頂點分別相連,相交于一點,此相交點并無實質意義,不含任何圖像信息,只是使三層圖像外觀看上去更像金字塔的形狀,故稱為圖像金字塔。當向金字塔的上層移動時,尺寸和分辨率隨之降低。

圖4 圖像金字塔
對于一幅N×M的圖像,在行和列兩個方向上對其進行1∶2的亞采樣,可構成原圖像的一幅(N/2)×(M/2)的縮略圖。將亞采樣重復進行,隨著層數的增加,每一層的圖像是下面一層圖像的寬和高的一半,就得到構成金字塔的各層圖像[16]。亞采樣金字塔包括了最底層原始圖像的高分辨率的信息,第二層經過亞采樣處理的較低分辨率信息,以及第三層低分辨率的信息,這三部分信息不僅反映出人臉圖像的很多概貌信息,也描述了人臉圖像的細節特征。這些高分辨率、較低分辨率以及低分辨率的信息就構成了圖像的多尺度表達,多尺度表達為全局特征與局部特征的結合提供了一個很好的途徑。
對人臉圖像進行一級小波包分解得到低頻和高頻子圖像,本文將棄除高頻子圖像,選取低頻子圖像進行后續處理,既能去除魯棒性差的高頻信息,又能降低計算復雜度。HOG特征提取方法描述的是圖像的局部特征,而金字塔模型可以對圖像的全局形狀特征進行多尺度表達。因此,本文將WPD和HOG特征以及金字塔模型相結合,提出一種基于WPD-HOG金字塔的特征提取方法。該方法既可以提取圖像的全局特征和局部特征,實現圖像的多尺度表達,又可達到去除冗余和降低計算復雜度的效果。
本文提出的WPD-HOG金字塔特征提取步驟如圖5所示。例如,對一張尺寸為64×80的人臉圖片提取WPD-HOG金字塔特征,bin的個數 k取9,cell為4×4,每2×2個cell組成一個block,因為每個cell有9個特征,所以每個block內有4×9=36個特征,相鄰的block之間重疊一個cell的寬度,即步長為4像素。

圖5 WPD-HOG金字塔特征提取的流程圖
本文提出的WPD-HOG金字塔特征提取示例如下:首先對該圖像進行小波包分解后得到尺寸為32×40的四幅子圖像,棄除三幅高頻子圖像,然后對低頻子圖像進行二級金字塔分解,得到尺寸分別為32×40、16×20、8×10的三層金字塔圖像,接著對每層圖像進行HOG特征提取。對于尺寸為32×40的圖像,水平方向將有(32/4)-1=7個掃描窗口,垂直方向將有(40/4)-1=9個掃描窗口,即一幅圖像有7×9個block,一共得到36×7×9維的特征。同理,三層金字塔圖像得到維數分別為36×7×9、36×3×4、36×1×1的特征,最后將三層圖片的特征串聯得到維數為36×7×9+36×3×4+36×1×1=2 736的WPD-HOG金字塔特征。
傳統的HOG特征提取方法,遍歷整張人臉圖片提取局部特征信息,實現的是圖像的單尺度表達。此外,其中包含了很多不利于識別人臉的冗余信息,如果不對人臉信息進行篩選,大量的特征信息對識別率造成影響的同時,也大大增加了計算復雜度。例如,同樣對一張64×80的人臉圖片提取HOG特征,則總共有36×15×19=10 260維的特征。可見,僅僅單尺度地描述一張圖片的局部特征就需要上萬的特征維數,大大增加了計算復雜度,同時提取到的特征也不能完整地表達整個人臉的信息。
對比可知,本文提取的WPD-HOG金字塔特征維數遠遠低于傳統的HOG特征,計算量大大減少;而且本文提取的人臉特征相比較傳統的HOG特征,不僅包含局部特征,還包含全局特征,多尺度地表達了人臉信息,使得人臉信息更全面。
本文提出的WPD-HOG金字塔特征用于人臉識別的實現步驟如下:
(1)對人臉圖像進行預處理,將圖像尺寸統一縮小為64×80。
(2)采取db1小波基對人臉圖像進行小波包分解。
(3)對小波包分解得到的低頻子圖像A進行金字塔分解。金字塔層數的選取:低頻子圖像A尺寸為32×40,對其進行第三級分解即為A圖像尺寸的1/64,尺寸過小無實際意義,故本文選取二級分解,從而構成三層金字塔,包括A圖、1/4A圖、1/16A圖。
(4)對金字塔中的A圖、1/4A圖、1/16A圖這三層圖像分別提取HOG特征。提取HOG特征的參數選取:cell為4×4;當block過大時,對局部圖像的適應性變差;當block過小時,有價值的空間信息減少,本文令一個block內包含2×2個cell;相鄰的block和block之間重疊4個像素的長度,各個block之間有重疊,可以避免將一個連續的特征切割開,從而能更有效地表示HOG特征;方向角選取的是unsigned的0°~180°;bin的個數 k取9;高斯核函數參數
(5)將A圖、1/4A圖、1/16A圖提取到的特征首尾串聯,形成WPD-HOG金字塔特征。
(6)對所有人臉圖片樣本提取WPD-HOG金字塔特征,把提取到的特征分為訓練集和測試集。然后,將訓練集通過SVM訓練得到分類器模型,再將測試集通過分類器模型得到最終的人臉分類結果。
為了驗證本文提出的人臉特征識別方法的可行性,采用ORL人臉庫進行仿真實驗,仿真實驗環境為Intel?CoreTMi5-2520M CPU,6 GB內存,Win7操作系統,Matlab R2015b軟件。
ORL人臉庫包括40個不同年齡、不同性別和不同種族的對象。每人10幅圖像,共計400幅灰度圖像,圖像灰度級為256,圖像尺寸為92×112。ORL人臉庫包括表情、面部飾物、光照、姿態的差別,而且人臉尺寸也有20%以內的變化,部分樣本圖像如圖6所示。該庫是目前使用最廣泛的標準人臉數據庫。本文實驗選取ORL人臉庫中的每人6張圖片作為訓練集,其余4張圖片作為測試集,因此訓練集共含240個樣本,測試集共含160個樣本。
將本文方法分別與下述四種方法做對比實驗,進行人臉特征提取方法有效性實驗以及噪聲魯棒性實驗。
(1)HOG:對人臉圖像進行文獻[6]提出的傳統的HOG特征提取。

圖6 ORL人臉庫部分樣本圖
(2)HOG金字塔:將文獻[11]提出的HOG+圖像金字塔的人臉識別方法作為對比實驗,首先對圖像構建圖像金字塔,然后對金字塔中每層圖像提取HOG特征,將各層特征首尾串聯形成HOG金字塔。
(3)FWPD-HOG:為驗證所提出方法有效性,本文進一步提出了一種WPD與HOG特征相結合的FWPDHOG的人臉特征提取方法,作為對比實驗。該方法首先對人臉圖像進行小波包分解,得到四幅子圖像,然后按照式(6)對四幅子圖像進行加權融合,最后對融合(fusion)后得到的圖片Img進行HOG特征的提取,最終形成FWPD-HOG特征。
(4)FWPD-HOG金字塔:由于本文對圖像進行WPD后,棄除了高頻子圖像,為進一步對比驗證僅利用低頻子圖像就可以獲得較好的識別效果,本文同樣按照式(6)將低頻和高頻子圖像加權融合,對融合后的圖片Img構建圖像金字塔,然后對金字塔的每層圖像提取HOG特征,形成FWPD-HOG金字塔特征。

其中,HOG和FWPD-HOG是對圖像的單尺度表達;HOG金字塔、FWPD-HOG金字塔和本文提出的WPDHOG金字塔特征提取方法都采用一系列分辨率不同的表達來實現圖像的多尺度表達。多尺度表達使全局特征和局部特征相結合,比單尺度表達的特征更完備。
此處評價指標選用特征維數、特征提取時間、分類時間以及識別率,來驗證本文人臉特征提取方法的有效性以及噪聲魯棒性。識別率的計算公式如式(7)所示:

其中,r表示人臉識別的識別率;m表示人臉測試集中所有的樣本圖像個數,本實驗中m=160;n表示對測試集中圖像進行人臉特征提取后,進一步采用SVM分類器分類后,分類正確的樣本個數。
4.3.1 人臉特征提取方法有效性實驗
本文方法與其他四種人臉識別方法的實驗結果對比如表1所示。

表1 本文人臉特征提取方法與對比方法性能比較
從表1可以看出,本文方法得到的識別率是88.125%,較對比方法超出4%~11%。由此可知,本文方法的識別準確率要優于其他三種人臉識別方法,并與FWPDHOG金字塔的識別率持平。其識別率得到提高的理論機理如下:(1)單尺度的HOG和FWPD-HOG都只是提取圖像的局部特征,而本文方法構建的WPD-HOG金字塔特征,對圖片進行了多尺度的表達,將全局特征和局部特征相結合,具有較強的人臉圖像描述能力,能夠提取到更加豐富的特征信息;(2)與HOG金字塔方法相比,本文方法首先用WPD對圖片進行了預處理,去除了容易受噪聲、光照、表情影響的圖像信息,使得特征表達更為緊湊。此外,本文方法與FWPD-HOG金字塔方法識別率相同,說明FWPD-HOG金字塔保留的高頻細節信息對識別率并沒有起到提高的作用。因此,本文方法在特征表達和識別效果方面要優于對比方法。
進一步分析實驗結果可知:(1)本文方法的特征維數是2 736,遠遠少于HOG方法的10 260維以及HOG金字塔的12 960維;特征維數的減少,使得本文方法所用特征提取時間和分類時間僅僅是HOG方法的1/3,HOG金字塔方法的1/4。這是因為本文方法采用WPD,使得圖像大小縮小為原來的1/4,在特征提取時起到降維的作用,大大降低了計算復雜度。(2)由于本文方法使用圖像金字塔對圖像進行了多尺度表達,故特征維數要略大于單尺度的FWPD-HOG,以致特征提取時間和分類時間都相對增加,但相差不大。(3)與FWPD-HOG金字塔相比,特征維數相同,本文方法特征提取時間和分類時間略少一點,說明FWPD-HOG金字塔保留的高頻細節信息不僅對識別率沒有提高,在計算復雜度上也沒有改善。
綜合上述結果表明,與對比方法相比,驗證了本文方法的合理性與有效性。本文方法不僅保證了特征完備,提高了識別效果,而且特征維數大大減少,從而降低了計算復雜度,進一步節省了特征提取時間和分類時間。
4.3.2 噪聲魯棒性實驗
為驗證幾種人臉識別方法在噪聲方面的魯棒性,本實驗在ORL人臉圖像上分別加入強度d為0.1的椒鹽噪聲,以及均值為0、方差σ2為0.01和0.1的高斯白噪聲,然后再進行后續人臉識別。噪聲攻擊圖像如圖7所示。

圖7 噪聲攻擊圖像
針對四種人臉識別方法在椒鹽噪聲的攻擊下,分別進行實驗,實驗結果如表2所示。在高斯噪聲的攻擊下進行實驗,實驗結果如圖8所示。
從表2可以很直觀地看出,本文提出的面向人臉識別的WPD-HOG金字塔特征提取方法在椒鹽噪聲攻擊下識別率要高出其他四種方法2%~10%。根據圖8的實驗結果可知,當高斯噪聲方差σ2為0.01時,本文方法得到的識別率高出對比方法1%~13%;當方差σ2為0.1時,本文方法得到的識別率高出對比方法6%~44%。原因分析如下:(1)與HOG方法和HOG金字塔方法相比,本文方法采用了有去噪作用的WPD對人臉圖像進行處理,大大提高了特征的抗噪性能;(2)將FWPD-HOG方法與FWPD-HOG金字塔方法相比,后者的識別率要更高一些,說明圖像金字塔的多尺度表達特性增強了特征對噪聲的抗干擾能力;(3)相比較于FWPD-HOG金字塔方法,本文方法對圖像進行WPD后,棄除了易受噪聲影響的高頻子圖像,因此在噪聲攻擊情況下依然有較高的識別率。由此可知,本文方法的噪聲魯棒性要強于對比方法,且當噪聲的隨機性增大時,本文方法的抗噪效果更加顯著。

表2 椒鹽噪聲攻擊下本文方法與對比方法識別率比較

圖8 高斯噪聲攻擊下本文方法與對比方法的識別率比較
本文提出了一種結合WPD、圖像金字塔和HOG特征的WPD-HOG金字塔特征提取方法,以對人臉圖像進行有效表示。在ORL人臉庫上的實驗表明,本文人臉特征提取方法將局部特征和全局特征相結合,實現了圖像的多尺度表達,有效增強了圖像特征的表達能力,從而使識別率得到了有效提高,且降低了特征提取的計算復雜度。同時,所提出的特征提取方法,在不同噪聲攻擊環境下,較其他對比方法都具有較高的識別效果,體現了較強的噪聲魯棒性。近年來,隨著網絡的發展,網絡圖像數據量劇增,面對海量的人臉數據庫,如何高效地進行人臉特征提取及識別將是進一步的研究方向。