李 宇,丁文倩,金立左,潘 泓
(東南大學(xué)自動(dòng)化學(xué)院,江蘇 南京 210096)
人臉是一個(gè)豐富的信息來(lái)源,能提供諸如身份、年齡、性別和種族等信息。自動(dòng)面部性別識(shí)別有許多潛在的應(yīng)用情景,如生物識(shí)別認(rèn)證、視頻監(jiān)控、相冊(cè)管理、圖像檢索、計(jì)算機(jī)互動(dòng)等。比如在身份識(shí)別過(guò)程中,先行確定性別,可以減少一半的數(shù)據(jù)庫(kù)搜索時(shí)間。
極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)[1]主要用于計(jì)算單層前饋神經(jīng)網(wǎng)絡(luò)中隱藏層的個(gè)數(shù)。其中,在計(jì)算隱含層矩陣廣義逆的時(shí)候,因奇異值分解(singular value decomposition,SVD)的復(fù)雜度高,會(huì)影響到計(jì)算效率。FASTA-ELM[2]用近端梯度下降算法計(jì)算ELM的輸出權(quán)重,因而能在不使用SVD的情況下計(jì)算輸出權(quán)重的最小范數(shù),并且可以推廣到隱藏層矩陣較大的情況中。FASTA-ELM算法的最大優(yōu)勢(shì)在于,不需要對(duì)稀疏元素解空間進(jìn)行反復(fù)迭代搜索,通過(guò)自適應(yīng)步長(zhǎng)選擇省去了一些梯度計(jì)算步驟,使用后向下降步驟以保證算法收斂。
多尺度融合決策算法[3]通過(guò)提取不同圖像的分辨率,基于各個(gè)特征進(jìn)行分類,并對(duì)分類后的特征進(jìn)行融合,獲得所需要的結(jié)果。文中主要使用的特征有基于邊緣方向直方圖的形狀特征,基于LBP(local binary patterns,局部二進(jìn)制模式)的紋理特征。提取完特征后,接著使用支持向量機(jī)(support vector machine,SVM)對(duì)單尺度和多尺度下同樣的特征進(jìn)行決策融合。
面部性別識(shí)別是一個(gè)二元分類問(wèn)題。每個(gè)分類問(wèn)題都需要有效的特征表示,因?yàn)樗鼑?yán)重影響分類器的性能。特征描述中的關(guān)鍵問(wèn)題是計(jì)算成本、魯棒性和泛化能力。特征描述符對(duì)于未見(jiàn)的試驗(yàn)樣品應(yīng)當(dāng)具有低計(jì)算成本、高魯棒性并且性能良好這些特點(diǎn)。LBP 具有高計(jì)算效率、高鑒別能力的特點(diǎn),使用LBP進(jìn)行面部識(shí)別,最初是由Ahonen等[4]倡導(dǎo)的,隨后它被廣泛用于面部識(shí)別和面部性別識(shí)別,在一些由于拍照姿勢(shì)、光照等原因?qū)Τ上癞a(chǎn)生顯著影響的圖片中,Shan等[5]進(jìn)行了試驗(yàn),取得了很好的效果。LBP 在很多方面具有優(yōu)勢(shì),比如計(jì)算簡(jiǎn)單、強(qiáng)度變化時(shí)的不變性和代碼開(kāi)源。同時(shí),LBP 也有一些嚴(yán)重的缺點(diǎn),如對(duì)噪聲和非單調(diào)照明變化的敏感性,并且會(huì)將灰度級(jí)差(the gray-level difference,GLD) 的幅度信息完全丟失。本文通過(guò)將GLD量化為多個(gè)級(jí)別來(lái)概括LBP的概念,采用多量化局部二進(jìn)制模式 (multi-quantized local binary patterns,MQLBP)[6]對(duì)GLD的符號(hào)和幅度信息進(jìn)行編碼。
為了更加直觀地展示對(duì)比結(jié)果,本文主要在PAL(a lifespan database of adult facial stimuli)和FERET(the face recognition technology)數(shù)據(jù)集中進(jìn)行測(cè)試。在PAL數(shù)據(jù)集中,對(duì)FASTA-ELM 算法和多尺度二進(jìn)制模型進(jìn)行比較探索;在FERET數(shù)據(jù)庫(kù)中,對(duì)FASTA-ELM算法和多尺度融合決策算法進(jìn)行比較探索。
在ELM中計(jì)算輸出權(quán)值矩陣,常用的方法就是采用近似梯度下降算法,直接求解最小范數(shù)的最小二乘問(wèn)題,當(dāng)中需要使用到SVD。其中隱含層矩陣的求解應(yīng)視作一個(gè)優(yōu)化問(wèn)題,采用FBS(forward-backward splitting )梯度下降算法求解。首先在FASTA-ELM中,使用自適應(yīng)步長(zhǎng)選擇和非單調(diào)線性搜索以加快收斂速度。因此,在大規(guī)模病態(tài)矩陣中,與其搜索目標(biāo)所有可能的步驟,不如采用自適應(yīng)選擇步長(zhǎng),使得梯度下降問(wèn)題的維度變得非常小,從而加快算法收斂速度。然后再采用FASTA- ELM的后向下降步驟來(lái)檢查每個(gè)目標(biāo),以保證選擇的子梯度收斂。
給定一個(gè)訓(xùn)練樣本集{(xi,yi)|xi∈Rn,yi∈Rm,i=1,…,N},激勵(lì)函數(shù)為g(x),隱藏單元為N′個(gè)。
具體訓(xùn)練過(guò)程如下:
1)給定任意的輸入權(quán)值ωj和bj,j=1,2,…,N′;
2)計(jì)算隱含層輸出矩陣H;
3)計(jì)算輸出權(quán)值矩陣β,β=H+T,其中T為最終的輸出矩陣。
ELM中訓(xùn)練誤差的最小值如式(1)所示,輸出權(quán)重的范數(shù)如式(2)所示。
(1)
Minimize:β
(2)
式中:Minimize為最小值優(yōu)化函數(shù);βi為第i個(gè)輸出權(quán)值矩陣;x為輸入值;Ti為第i個(gè)隱含層的輸出矩陣。
以上是由黃廣斌教授于2006年提出的ELM算法的最初模型。經(jīng)過(guò)不斷發(fā)展,如今多采用式(3)定義的Standard-ELM(S-ELM):
(3)

FBS主要采用如下形式解決問(wèn)題:
Minimize:h(τ)=f(τ)+g(τ)
(4)
式中:τ∈R;h(τ)為目標(biāo)函數(shù);f(τ)為一個(gè)可微函數(shù);g(τ)為一個(gè)任意的凸函數(shù)。由于g不可微且任意取值,無(wú)法直接用梯度下降算法求得,因而g的最近鄰解決方式如式(5)所示。
(5)
式中:proxg(z,ρ)為所求的g函數(shù);argminτ為最小值函數(shù);z為初始猜測(cè)值;ρ為步長(zhǎng)。
對(duì)FBS算法分兩步進(jìn)行改進(jìn)。
第一步對(duì)f采用前向梯度下降:
τk+1=τk-ρkf′(τk)
(6)
式中:τk+1為第(k+1)次預(yù)測(cè)值;τk為第k次預(yù)測(cè)值;ρk為步長(zhǎng),是標(biāo)量,表示k次迭代過(guò)程中梯度下降速度。即沿著f的負(fù)向梯度方向?qū)Ζ觡進(jìn)行迭代,找到梯度下降最快的方向。
第二步采用后向梯度下降:

Minimize:h(τ)=f′(Aτ)+g(τ)
(7)
式中:A為參數(shù)矩陣。
在實(shí)際情況中,當(dāng)隱含層矩陣變大時(shí),會(huì)導(dǎo)致特征分解不穩(wěn)定,計(jì)算時(shí)間成本增加,因而人們開(kāi)始使用FASTA算法來(lái)計(jì)算ELM的輸出權(quán)重。本文對(duì)式(3)進(jìn)行如下改進(jìn):
g(τ)=β1
(8)
(9)
FASTA-ELM算法的最大優(yōu)勢(shì)在于,不需要對(duì)系數(shù)元素解空間進(jìn)行反復(fù)迭代搜索,而是通過(guò)自適應(yīng)步長(zhǎng)的選擇,省去一些梯度計(jì)算步驟,并使用后向下降步驟以保證算法收斂。FASTA-ELM算法流程如下。
輸入:數(shù)據(jù)N=xi,yi,迭代次數(shù)k,停止條件S,節(jié)點(diǎn)個(gè)數(shù)W。給定任意的輸入矩陣權(quán)重以及閾值(ω,b),加入激勵(lì)函數(shù)q(xi,ω,b),計(jì)算隱含層矩陣H:
不滿足條件S時(shí)循環(huán)執(zhí)行:
通過(guò)近端梯度下降求解公式(7)中的τ。
輸出:ELM的輸出權(quán)值矩陣。
多尺度融合決策算法使用多尺度融合進(jìn)行面部性別識(shí)別,首先提取不同分辨率圖像的特征,然后基于這些特征得到一個(gè)分類器以及融合的決策。圖1所示為該方法的決策流程,其中方形表示數(shù)據(jù),橢圓形表示操作步驟。圖中的分類器,每個(gè)僅能接收一種特征類型作為輸入,不同特征的不同決策組合將在實(shí)驗(yàn)環(huán)節(jié)中進(jìn)行討論。采用這種方法的主要原因就是不同性別之間存在的面部特征差異,基于這一假設(shè),后續(xù)實(shí)驗(yàn)將會(huì)驗(yàn)證。文中主要采用顏色、形狀與紋理特征作為3種描述符,由于顏色判斷不是必須的,因而文中采用的都是灰度圖像。

圖1 多尺度決策融合流程圖
本文采用與梯度方向直方圖類似的邊緣方向直方圖作為圖像特征,二者主要區(qū)別在于本文中的輸入圖像為灰度圖像,無(wú)法對(duì)直方圖進(jìn)行歸一化處理。通過(guò)算子[-1,0,1]T和[-1,0,1]可以得到水平方向和垂直方向邊緣,用v和h分別表示水平方向和垂直方向的邊緣像素,二者分別通過(guò)將邊緣檢測(cè)圖像與原始圖像卷積得到。邊緣方向θ用式(10)表示:
(10)
邊緣強(qiáng)度m用式(11)表示:
(11)
式(10)中的角度被分為每18°一個(gè)區(qū)間,即將360°分為20個(gè)區(qū)域,則每個(gè)像素都是對(duì)邊緣方向和邊緣強(qiáng)度的累加。因此,直方圖近似于邊緣取向的加權(quán)分布,其中權(quán)重對(duì)應(yīng)于邊緣的幅度。
本文使用LBP提取紋理特征。選取中心像素點(diǎn)C和近鄰像素點(diǎn)P,令近鄰像素點(diǎn)和點(diǎn)C的距離為R。用直方圖表示紋理特征:
TT=hh(I(0)-I(C),I(1)-I(C),…,I(P-1)-I(C))
(12)
式中:TT為點(diǎn)P的灰度差異值;hh為鄰近點(diǎn)P與中心點(diǎn)C之間的像素差;I(x)為鄰近點(diǎn)x的灰度值。因?yàn)榻o定的與中心像素強(qiáng)度的差異的平均強(qiáng)度值的變化是不變的,所以如果僅考慮先前算子中符號(hào)的差異,就可以得到灰度差異值:
TT=hh(s(I(0)-I(C)),…,s(I(P-1)-I(C)))
(13)
式中:s(·)為符號(hào)描述符,如果為負(fù)的則值為0,否則為1。可以通過(guò)將二進(jìn)制值乘以二項(xiàng)式系數(shù)來(lái)獲得LBP特征的唯一值。
(14)
式中:LBP(P,R)為L(zhǎng)BP特征值。
LBP可以生成2P種不同的值,即生成的特征向量的大小是2P。
在模式識(shí)別過(guò)程中有很多方法可以用于信息融合,主要的區(qū)別在于融合是發(fā)生在特征提取層還是決策層。在前一種情況下,不同來(lái)源的信息被融合到單個(gè)特征向量中,然后將該特征向量饋送到分類器中;在后一種情況下,在每個(gè)分類器作用后再進(jìn)行融合決策,每個(gè)分類器都可以用不同的特征或相同的特征進(jìn)行訓(xùn)練。總之,分類器應(yīng)該使其錯(cuò)誤發(fā)生在融合之前。在本文中,采用第二種方法進(jìn)行決策融合。本文融合了不同分類器的決策,這些分類器用于單個(gè)尺度捕獲的不同類型的特征或者在不同尺度捕獲的相同類型特征的訓(xùn)練。
對(duì)于決策過(guò)程,本文使用多數(shù)表決規(guī)則,其中di(i=1,…,m)表示m個(gè)分類器中每個(gè)分類器的決策,每個(gè)決策都是用整數(shù)表示,0表示女性,1表示男性。多數(shù)表決規(guī)則如式(15)所示。
(15)
式中:dmaj為最終的決策結(jié)果。

為徹底評(píng)估MQLBP和LTP(local ternary pattern)特征對(duì)于性別分類任務(wù)的適用性,并證明基于這些特征的分類性能優(yōu)于基于二值量化LBP特征的分類性能,筆者提出一種新的方法,通過(guò)量化將GLD分成多個(gè)級(jí)別。本文將得到的多量化局部二進(jìn)制模式用多個(gè)不同的實(shí)驗(yàn)進(jìn)行評(píng)估,以此證明增強(qiáng)了鑒別能力、噪聲耐受性和泛化能力。
坐標(biāo)(xc,yc)處中心像素的LBP編碼如式(16)所示,也如2.2中的式(14)所示:
(16)
式中:gc和gp分別為半徑R的圓形鄰域中的中心像素及其第p個(gè)鄰近像素的像素強(qiáng)度;參數(shù)P為相鄰像素的總數(shù)。函數(shù)f1(l)如式(17)所示:
(17)
為了降低LBP對(duì)噪聲的敏感度,采用如圖2(b)所示的三級(jí)量化方案,得到局部三元模式方法。使用附加的閾值參數(shù)和式(18)所示的函數(shù)將GLD量化為3個(gè)級(jí)別。
(18)

圖2 4種量化函數(shù)
為了減少特征維度,三態(tài)碼被分成兩部分以通過(guò)編碼的正量化和負(fù)量化級(jí)別來(lái)生成兩個(gè)二進(jìn)制模式[7]。
從式(16)可以看出LBP計(jì)算主要有三個(gè)步驟:
1)計(jì)算中心像素及其相鄰像素之間的GLD;
2)使用僅保留符號(hào)信息的二進(jìn)制量化函數(shù)對(duì)GLD進(jìn)行編碼;
3)由二進(jìn)制模式轉(zhuǎn)換為十進(jìn)制形式得到LBP編碼。
假設(shè)在8位灰度圖像中,第一步算得GLD范圍為(-255,255);第二步使用二進(jìn)制量化函數(shù)對(duì)GLD進(jìn)行編碼;第三步進(jìn)行LBP編碼,輸出0和1。換句話說(shuō),差分運(yùn)算器的輸出范圍被量化成兩個(gè)等級(jí),如圖2(a)所示,這樣的二值編碼函數(shù)使得計(jì)算更加簡(jiǎn)單。然而,LBP編碼丟失了差異幅度的信息,限制了辨別的能力。因此,筆者提出將LBP與對(duì)比信息相結(jié)合,提升性別分類的性能。使用局部方差(local variance)計(jì)算對(duì)比度信息的數(shù)學(xué)式如下:
(19)
式中:VARP.R(xc,yc)為局部方差值;μ為相鄰像素點(diǎn)和中心像素點(diǎn)的GLD均值。
由于方差測(cè)量能提供連續(xù)值輸出,本文采取量化特征空間的方式獲得直方圖描述符。然而,這種方法存在兩個(gè)主要問(wèn)題:1)需要附加訓(xùn)練階段,以確定直方圖面元的截止值;2)正確選取bins的數(shù)量,如果選擇較少數(shù)目的bins,會(huì)降低其辨別能力,而大量的bin卻會(huì)增加特征尺寸,可能導(dǎo)致直方圖不穩(wěn)定。
為了避免出現(xiàn)上述問(wèn)題,本文提出了一種廣義形式的LBP,以隱含地捕獲來(lái)自灰度級(jí)差的幅度和符號(hào)信息。LBP廣義形式的基本思想建立在量化GLD算子的輸出范圍上。然而,本文建議將輸出范圍量化為多個(gè)級(jí)別,而不是限制為二進(jìn)制量化,因此得到的模式將被稱為多量化局部二進(jìn)制模式(MQLBP)。使用如圖2(b)和(c)所示的閾值參數(shù)t對(duì)GLD進(jìn)行多級(jí)量化,需要注意的是MQLBP在概念上是不同于LTP的。如圖2(b)中所示,LTP將GLD量化為3個(gè)固定等級(jí),MQLBP擴(kuò)展了將GLD量化為所需級(jí)數(shù)的想法。此外,當(dāng)GLD被量化為中等水平(水平0)時(shí),LTP會(huì)忽略符號(hào)信息以限制其辨別能力。如圖2(c)和(d)所示,本文提出的方法通過(guò)對(duì)稱量化GLD相對(duì)于零克服了這個(gè)限制。對(duì)等級(jí)L(L>0),量化函數(shù)fL(x,t)如式(20)所示。
(20)
由式(20)可知,在最初LBP中使用1級(jí)量化,將整個(gè)輸出范圍分割成兩個(gè)不同的部分。在每個(gè)較高的量化級(jí),每個(gè)子部分被進(jìn)一步量化為兩個(gè)不同的分段,因此共產(chǎn)生2L個(gè)分度。其中對(duì)應(yīng)于第i個(gè)分度AN的MQLBP編碼計(jì)算如式(21)所示。

(21)

為了使用MQLBP描述每一個(gè)面部圖像,需計(jì)算空間增強(qiáng)直方圖,即將每個(gè)MQLBP圖像劃分成不重疊的矩形塊以計(jì)算它們,連接起來(lái)就可以構(gòu)建一個(gè)特征向量的局部直方圖,所有MQLBP圖像的這些特征向量進(jìn)一步級(jí)聯(lián)就可以構(gòu)建最終面部描述符。
顯然,特征維度與在計(jì)算MQLBP中使用的級(jí)別數(shù)量成正比。為了展示更多的MQLBP的辨別能力,同時(shí)保持較低的特征維度,本文在實(shí)驗(yàn)中僅考慮2層MQLBP。
為了對(duì)上述3種方法進(jìn)行對(duì)比,本文將算法應(yīng)用到具體的面部性別分類問(wèn)題中,選取FERET和PAL數(shù)據(jù)庫(kù),通過(guò)對(duì)其中的面部圖像進(jìn)行性別分類,來(lái)分析3種方法的優(yōu)缺點(diǎn)。
為了從面部提取特征,采用LBP特征提取算子,將面部分為8塊,bins的數(shù)量確定為59。因此,最終特征向量是8×8×59=3 776bins。
本文使用True Positive(TP)和True Negative(TN)來(lái)計(jì)算識(shí)別率Raterecognition,如式(23)所示:
(22)
式中:Raterecognition為樣本總數(shù)。
PAL數(shù)據(jù)集包含575個(gè)面部圖像(225名男性和350名女性),圖像的分辨率為640×480。為定位面部區(qū)域,采用Viola-Jones等[8]提出的面部檢測(cè)器,每個(gè)檢測(cè)到的臉部被歸一化為64×64大小的圖像。FERET數(shù)據(jù)庫(kù)是最具挑戰(zhàn)性的面部識(shí)別數(shù)據(jù)集之一,數(shù)據(jù)庫(kù)中的面部圖像用姿態(tài)(前沿、左側(cè)和右側(cè)輪廓)、光照條件來(lái)概括,本文使用900張圖,其中男性、女性面部圖像各占一半。
1)在PAL數(shù)據(jù)庫(kù)中進(jìn)行面部性別測(cè)試,結(jié)果見(jiàn)表1。

表1 PAL數(shù)據(jù)庫(kù)面部性別測(cè)試結(jié)果表
2)在FERET數(shù)據(jù)庫(kù)中進(jìn)行面部性別測(cè)試,結(jié)果見(jiàn)表2。

表2 FERET數(shù)據(jù)庫(kù)面部性別測(cè)試結(jié)果表
S-ELM通過(guò)正交投影、特征分解或迭代的方法,解決輸出權(quán)重的問(wèn)題,然而隱藏層中隱含節(jié)點(diǎn)數(shù)量增加時(shí),計(jì)算的時(shí)間、空間復(fù)雜度都顯著增加,特別是隱藏層矩陣條件變得不穩(wěn)定,會(huì)影響S-ELM的泛化能力。
將決策融合方法運(yùn)用到FERET數(shù)據(jù)庫(kù)中,可以改善識(shí)別結(jié)果。在實(shí)驗(yàn)過(guò)程中,能整合來(lái)自不同尺度的信息,即使僅來(lái)自單個(gè)特征的信息,也比在單個(gè)尺度融合來(lái)自不同特征的信息更重要。
實(shí)驗(yàn)結(jié)果表明,MQLBP具有更好的泛化能力和處理噪聲的能力、更優(yōu)的辨別能力。這3個(gè)優(yōu)點(diǎn)是以增加特征向量長(zhǎng)度為代價(jià)的,因而需要更多的計(jì)算時(shí)間。LBP對(duì)中心像素和相鄰像素之間的灰度級(jí)差采用二進(jìn)制量化,然而這種簡(jiǎn)單而有效的方法丟棄了灰度級(jí)差的幅度信息。為了解決這個(gè)問(wèn)題,本文通過(guò)擴(kuò)展矢量量化概念,使LBP不僅限于二進(jìn)制量化,即采用MQLBP方法對(duì)灰度級(jí)差的符號(hào)和幅度信息進(jìn)行編碼,提高了辨別能力。結(jié)果清楚地表明,MQLBP方法具有三重優(yōu)勢(shì),包括更高的性別分類精度、改進(jìn)的噪聲魯棒性和更好的泛化能力。
FASTA-ELM、多尺度融合決策和多量化局部二進(jìn)制模式,各有優(yōu)點(diǎn),各有側(cè)重,同時(shí)也有相互重合的地方,值得進(jìn)一步研究。