張 典,汪海濤,姜 瑛,陳 星
(昆明理工大學(xué) 信息工程與自動化學(xué)院,昆明 650500)
近年來,人臉識別在公共安全領(lǐng)域得到了廣泛的應(yīng)用.由于近紅外成像技術(shù)提供了一種有效且直接的解決方案來改善極端光照條件下的人臉識別性能,因此它被認(rèn)為是異質(zhì)人臉識別中最突出的替代傳感模式之一.此外,已證明近紅外成像對可見光照射變化不太敏感,因此適用于遠(yuǎn)距離甚至夜間的人臉識別.它已被廣泛用于面部識別或授權(quán)應(yīng)用,例如安全監(jiān)視和電子護(hù)照.然而,由于可見光傳感器的大規(guī)模部署,大多數(shù)面部圖像僅由可見光圖像組成,而探測圖像通常以近紅外模式進(jìn)行.因此,對近紅外和可見光人臉圖像之間的魯棒匹配的需求,也稱為近紅外與可見光異質(zhì)人臉識別問題,已經(jīng)引起了很大關(guān)注.
首先,由于近紅外光和可見光圖像是從不同的光譜域捕獲的,因此它們具有較大的外觀差異.因此,在可見光圖像數(shù)據(jù)上訓(xùn)練的深度卷積網(wǎng)絡(luò)不包含近紅外光圖像光譜信息,因此基于可見光圖像訓(xùn)練的深度網(wǎng)絡(luò)模型不能很好地處理近紅外光圖像.如何利用百萬級別的大規(guī)模可見光圖像人臉數(shù)據(jù)來增強(qiáng)近紅外光和可見光人臉圖像的跨域識別[1,2],這是一個值得深究的問題.其次,受益于網(wǎng)絡(luò)數(shù)據(jù),我們可以輕松收集數(shù)百萬張可見光臉部圖像.但是通常在互聯(lián)網(wǎng)上幾乎無法找到配對的近紅外光臉部圖像.大規(guī)模收集和配對近紅外光和可見光人臉圖像的數(shù)據(jù)仍然很昂貴.如何在近紅外與可見光的小型數(shù)據(jù)集上應(yīng)用深度學(xué)習(xí)仍然是一個核心問題.
本文提出了一種深度卷積網(wǎng)絡(luò)方法來學(xué)習(xí)不同光譜域中面部不變的特征,其中包含近紅外光和可見光人臉圖像的身份信息.我們的方法是使用單個網(wǎng)絡(luò)將近紅外光和可見光圖像映射到緊湊的歐幾里德空間,使得嵌入空間中的近紅外光和可見光圖像直接對應(yīng)于面部相似性,再通過跨光譜的擬合函數(shù),讓網(wǎng)絡(luò)更多的關(guān)注面部身份個體間的差異,從而減少跨域帶來的影響,使同一個面部身份的特征更加收斂,不同面部身份的特征保持距離.
卷積神經(jīng)網(wǎng)絡(luò)在圖像分類領(lǐng)域有著強(qiáng)大的優(yōu)勢,目前已有很多公司如曠視、商湯、海康威視等在人臉檢測和識別中使用卷積神經(jīng)網(wǎng)絡(luò).然而由于卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)和計算量大問題,使得主流的做法是在云平臺上部署高性能的計算服務(wù),再在前端采集數(shù)據(jù)后傳回云平臺進(jìn)行計算.雖然這個方法可行,但是由于需要網(wǎng)絡(luò)傳輸來實現(xiàn)異步處理,這給實際應(yīng)用帶了不穩(wěn)定因素.與此同時因為半導(dǎo)體的發(fā)展,現(xiàn)在的嵌入式設(shè)備和移動端設(shè)備也有了不錯的性能.在這樣的背景下研究輕量級深度卷積網(wǎng)絡(luò)的跨域人臉識別算法,使移動設(shè)備可以直接運行深度學(xué)習(xí)算法,有著很好的工業(yè)應(yīng)用價值和研究意義.
本文屬于研究基于輕量級深度卷積網(wǎng)絡(luò)的近紅外光和可見光圖像融合的人臉識別算法.
傳統(tǒng)的卷積網(wǎng)絡(luò)參數(shù)量計算量龐大,無法在嵌入式平臺部署,針對這個問題本文研發(fā)了一種輕量級網(wǎng)絡(luò)[3-6],通過修改卷積結(jié)構(gòu),使得在大幅度減少參數(shù)的同時,又能保持傳統(tǒng)卷積網(wǎng)絡(luò)的性能.
與可見光不同之處在于近紅外光圖像數(shù)據(jù)集稀少,如何在小樣本數(shù)據(jù)集上訓(xùn)練出一個紅外光與和可見光圖像都可以使用的人臉識別模型,使近紅外光人臉識別達(dá)到可見光人臉識別的效果,是本文的主要研究點.
在夜間監(jiān)視攝像頭的應(yīng)用中,多用近紅外光捕獲個體的探測圖像,并且必須從可見光譜圖像庫中識別出個體.雖然可見光人臉識別是一個廣泛研究的主題,但近紅外光圖像中的人臉識別仍然是一個相對未開發(fā)的領(lǐng)域.近紅外光圖像既擁有可見光圖像的魯棒性點又擁有比可見光圖像更好的灰度對比度信息,因此近紅外光圖像更適合做人臉識別.

圖1 輕量網(wǎng)絡(luò)訓(xùn)練與遷移學(xué)習(xí)流程圖Fig.1 Lightweight network training and transferlearning flow chart
鑒于卷積神經(jīng)網(wǎng)絡(luò)在可見光圖像人臉識別、物體分類等方面有很好的表現(xiàn),因此本文試圖通過構(gòu)建大量的三元組來擴(kuò)充我們的訓(xùn)練數(shù)據(jù).通過使用MS-Celeb-1M數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練輕量網(wǎng)絡(luò),為網(wǎng)絡(luò)提供先驗知識.再使用特定的可見光與近紅外光數(shù)據(jù)集微調(diào)網(wǎng)絡(luò)模型,以學(xué)習(xí)到深度不變的特征[14].如圖1所示.
當(dāng)前主流的卷積神經(jīng)網(wǎng)絡(luò)層數(shù)多,參數(shù)量大,其計算量也十分龐大,使得在網(wǎng)絡(luò)在嵌入式平臺上的部署比較困難.本文提出一種輕量型的lightfacenet卷積網(wǎng)絡(luò),通過將傳統(tǒng)卷積用深度可分卷積和1×1的逐點卷積代替.
傳統(tǒng)卷積使用h1*w1*di*dj,如圖2所示,應(yīng)用卷積來生成一個H*W*dj維的圖時,其計算的代價為h1·w2·di·dj·H·W.
深度可分卷積用來實現(xiàn)單層通道的濾波,1×1的逐點卷積用來實現(xiàn)通道間的線性組合,如圖所示,這樣兩種卷積的組合就可以幾乎完成傳統(tǒng)卷積的工作.但是其成本為h1·w2·di·H·W+di·dj·H·W.

圖3 深度可分卷積與1×1的逐點卷積結(jié)構(gòu)圖Fig.3 Depth-separable convolution and 1×1point-by-point convolutional structure map
(1)
如當(dāng)卷積核為h1=w1=3時,N為128時,其計算的成本會比傳統(tǒng)的卷積網(wǎng)絡(luò)小8到9倍,因此深度可分卷積和逐點卷積的組合在輸出維度較高的時可以有效的將計算量減少.
為了進(jìn)一步減少參數(shù)量,減少算法對硬件資源的需求,本文將逐點卷積更改為通道稀疏鏈接的方式,讓每一次卷積操作僅在對應(yīng)的通道組中,再通過通道混洗的方式讓不同的卷積組能夠?qū)W習(xí)到不同組的輸入數(shù)據(jù),使得卷積層的輸入和輸出全關(guān)聯(lián).這樣使網(wǎng)絡(luò)的計算量和模型的表達(dá)能力有了很好的平衡.
softmax(交叉熵?fù)p失函數(shù))是深度學(xué)習(xí)中使用最廣泛的損失函數(shù)之一,并且已經(jīng)被證明在人臉識別任務(wù)中對異常值的抑制是十分有效的.但是因為softmax函數(shù)是由邏輯回歸推廣到多分類的方法,在其計算的過程中只考慮多分類任務(wù)是否分類正確,這并不是像SVM(支持向量機(jī))那樣尋找一個最佳的分類決策面.在傳統(tǒng)的方法中,通常使用歐式距離來判斷身份相似度存在很大的局限性.通過softmax函數(shù)劃分的人物,會存在兩個不同身份的人,比同一身份的人的距離更近,從而達(dá)不到分類效果.
(2)
實驗表明在傳統(tǒng)的交叉熵?fù)p失函數(shù)存在很大的類內(nèi)距離,通過交叉熵?fù)p失函數(shù)增加類內(nèi)約束,可以使網(wǎng)絡(luò)有更好的分類效果.在本方案中對交叉熵?fù)p失函數(shù)進(jìn)行了修改,從原來對向量距離的計算轉(zhuǎn)變?yōu)橄蛄拷嵌扔嬎悖岢隽薃ddMargin softmax Loss損失函數(shù),由WTx=‖W‖·‖x‖·cosθ可以得出向量的相乘是包含角度信息的.將softmax函數(shù)中的權(quán)重限制為‖W‖=1,b設(shè)為0,使得網(wǎng)絡(luò)從對權(quán)重W的學(xué)習(xí)轉(zhuǎn)變?yōu)闄?quán)重與特征角度θ的學(xué)習(xí).之后再通過L2歸一化將‖x‖的特征為s,通過權(quán)重和特征的歸一化,使得網(wǎng)絡(luò)的預(yù)測只取決于權(quán)重與特征角度θ的學(xué)習(xí),所有的特征都會分布在半徑為s的超球面上.在交叉熵?fù)p失函數(shù)中增加一個超參數(shù),用做權(quán)重與特征角度θ的邊緣懲罰,從而做到增加類別間的的邊緣角度的同時,也使得類別內(nèi)部更加的緊湊,使得面部識別有更優(yōu)的性能.
(3)


圖4 三元組通過三重角度損失優(yōu)化圖Fig.4 Triad through triple angle loss optimization map
通過使用神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),使描點與正樣本的距離變小,描點與負(fù)樣本的距離變大.因此本文提出三重角度損失函數(shù),可以表示為如下公式:

(4)
Triple Angle Loss函數(shù)可以分為兩個部分,第一部分表示錨點與正樣本太遠(yuǎn)的懲罰,第二部分表示錨點與負(fù)樣本太近的懲罰,m為閾值,當(dāng)錨點與負(fù)樣本小于m時,會在loss函數(shù)優(yōu)化的時候逐漸拉大.通過這樣的損失函數(shù),可以在全連接層提取人臉特征后,將特征值輸入到三重角度損失層,就可以用SGD來擬合可見光與近紅外光的人臉圖像域的間隙.
經(jīng)過測試,通過單一類型錨點的三元組,會使得可見光圖像與近紅外光圖像的相對關(guān)系失衡,并不適用于跨域的數(shù)據(jù)學(xué)習(xí)[9].本文通過使用跨域的兩種類型的三元組,將近紅外人臉圖像做為錨點,再把與錨點是相同ID的可見光圖像做為正樣本,與錨點不同Id的可見光圖像做為負(fù)樣本.為了使可見光與近紅外光域的相對關(guān)系平衡,本文采用類似的方法,將可見光圖像做為錨點,而正樣本與負(fù)樣本用近紅外光圖像.在兩種類型跨域的三元組約束下,神經(jīng)網(wǎng)絡(luò)會更多的關(guān)注個體間的差異,從而減少跨域帶來的影響.因此在高維空間中,無論人臉圖像是來自與哪種光譜域,面部圖像都會與其身份相同的人臉I(yè)D更接近而遠(yuǎn)離身份不同的人臉I(yè)D.
為了訓(xùn)練圖像三元組,本文將訓(xùn)練好的可見光人臉識別網(wǎng)絡(luò)設(shè)置為三通道的網(wǎng)絡(luò)結(jié)構(gòu),三通道共享網(wǎng)絡(luò)中每一層結(jié)構(gòu)和參數(shù).本文使用全連接層輸出128維的特征,在最后的全連接層輸出層之后,將三個通道的輸出都輸入到三重?fù)p失層中.在三重?fù)p失函數(shù)的約束下,網(wǎng)絡(luò)可以學(xué)習(xí)區(qū)分不同的身份類別的權(quán)重[17,18],無論它們是屬于近紅外圖像還是可見光圖像.
本文實驗中主要使用vggface2和MS-Celeb-1M數(shù)據(jù)集[11,12]作為網(wǎng)絡(luò)的預(yù)訓(xùn)練集.vggface2包含3百多萬圖片,9131個類別,平均每個類別有360張圖片,這個數(shù)據(jù)集覆蓋大范圍的姿態(tài)、年齡和種族,用于訓(xùn)練身份識別不同姿態(tài)、年齡有很好的魯棒性.MS-Celeb-1M包含1千多萬張圖,10萬個類別,平均每個類別有100張圖片,這是目前類別數(shù)量最大的數(shù)據(jù)集.通過這兩個數(shù)據(jù)集,可以充分的發(fā)揮深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢.擬合到比較合適權(quán)重模型,也為后面的遷移學(xué)習(xí)提供了良好的基礎(chǔ).表1為目前常用可見光人臉數(shù)據(jù)集.
表1 可見光人臉數(shù)據(jù)集表
Table 1 Visible face data set table

數(shù)據(jù)集ID數(shù)量圖片數(shù)量可用性LFW574913233PublicCelebFace10177202599PrivateCASIA-Web-Face10575494414PublicVGG-face26222.6MPublicVGG-face291313.31MPublicMS-Celeb-1M10000010MPublic
本文實驗中主要使用vggface2和MS-Celeb-1M數(shù)據(jù)集作為網(wǎng)絡(luò)的預(yù)訓(xùn)練集.vggface2包含3百多萬圖片,9131個類別,平均每個類別有360張圖片,這個數(shù)據(jù)集覆蓋大范圍的姿態(tài)、年齡和種族,用于訓(xùn)練身份識別不同姿態(tài)、年齡有很好的魯棒性.MS-Celeb-1M包含1千多萬張圖,10萬個類別,平均每個類別有100張圖片,這是目前類別數(shù)量最大的數(shù)據(jù)集.通過這兩個數(shù)據(jù)集,可以充分的發(fā)揮深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢.擬合到比較合適權(quán)重模型,也為后面的遷移學(xué)習(xí)提供了良好的基礎(chǔ).
在遷移學(xué)習(xí)中,需要使用異質(zhì)人臉數(shù)據(jù)集,表2為現(xiàn)有的異質(zhì)人臉數(shù)據(jù)集,本文主要使用CASIA NIR-VIS 2.0 Face數(shù)據(jù)集[13],數(shù)據(jù)集主要包含近紅外圖像與可見光圖像的異質(zhì)數(shù)據(jù)集,其中包含725個類別,每個類別有1~22個可見光圖像和5~50個近紅外光圖像.圖像之間沒有一對一的相關(guān)性,其中包含了相同身份的人的各種變化,如光照、表情、距離、姿態(tài),是否戴眼鏡,這對異質(zhì)人臉識別帶來了挑戰(zhàn)[15].
數(shù)據(jù)集中每個身份的圖片有幾十到幾百張,圖片的品質(zhì)參差不齊包含了很多干擾項.如果不對數(shù)據(jù)集做預(yù)處理就直接將圖像輸入到網(wǎng)絡(luò)中訓(xùn)練,會導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)不充分,不能準(zhǔn)確的對人臉特征進(jìn)行辨別.再者因為圖像的人臉姿態(tài)各異,角度不同,如果不對圖片進(jìn)行姿態(tài)矯正,就會給網(wǎng)絡(luò)學(xué)習(xí)與收斂提高難度.因此對數(shù)據(jù)做歸一化處理是必要的.
表2 異質(zhì)人臉數(shù)據(jù)集表
Table2 Heterogeneous face data set table

數(shù)據(jù)集ID數(shù)量圖片數(shù)量可用性CASIA HFB dataset100992請求后可用CASIA NIR-VIS 2.072517580請求后可用Cross Spectral Dataset4304189請求后可用PolyU NIR face dataset33533500請求后可用
本文針對數(shù)據(jù)集中人臉姿態(tài)角度不同的問題,在數(shù)據(jù)預(yù)處理階段使用通過級聯(lián)人臉檢測網(wǎng)絡(luò)[16]獲取圖像中的人臉區(qū)域和面部關(guān)鍵點,再利用面部關(guān)鍵點和仿射變換對人臉區(qū)域進(jìn)行姿態(tài)矯正[10],之后截取出人臉區(qū)域圖像,并將圖像調(diào)整為112×112像素做為人臉識別的訓(xùn)練樣本.
本文主要研究基于輕量級深度卷積網(wǎng)絡(luò)的近紅外光和可見光圖像融合的人臉識別算法,在訓(xùn)練階段分別從網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)、數(shù)據(jù)集幾個方面做對比實驗.網(wǎng)絡(luò)主要是使用Resnet50[8]和本文lightfacenet輕量級神經(jīng)網(wǎng)絡(luò).在測試集上本文使用LFW、AgeDB、CASIA NIR-VIS 2.0 Face、PolyU NIR Face(PNF)等數(shù)據(jù)集做測試.
在實驗前,對實驗的訓(xùn)練樣本按9:1劃分,生成實驗的訓(xùn)練集和測試集采用隨機(jī)梯度下降法進(jìn)行訓(xùn)練,批處理大小設(shè)置為256,學(xué)習(xí)率為0.1,在12k次,14k次將學(xué)習(xí)率下降到原來的0.1倍.實驗結(jié)果對比如表3所示.
表3 輕量網(wǎng)絡(luò)預(yù)訓(xùn)練實驗數(shù)據(jù)表
Table 3 Lightweight network pre-training experimental data table

網(wǎng)絡(luò)結(jié)構(gòu)損失函數(shù)訓(xùn)練集模型尺寸LFW準(zhǔn)確度AgeDB準(zhǔn)確度Resnet 50Softmaxvggface2111m99.43%92.76%Resnet 50SoftmaxMs1m111m99.55%94.70%Resnet 50AddMarginSoftmaxvggface2111m99.44%92.86%Resnet 50AddMarginSoftmaxMs1m111m99.60%96.20%lightfacenetSoftmaxvggface23.9m98.80%88.58%lightfacenetSoftmaxMs1m3.9m98.95%89.80%lightfacenetAddMarginSoftmaxvggface23.9m99.20%90.05%lightfacenetAddMarginSoftmaxMs1m3.9m99.25%92.80%
從表3中可以看出ms1m相比vggface2數(shù)據(jù)集的訓(xùn)練結(jié)果更好,AddMarginSoftmax相比與soft max都有一定的提升,同時 lightfacenet網(wǎng)絡(luò)在訓(xùn)練中學(xué)習(xí)參數(shù)較緩慢,但是還是具有優(yōu)異的表現(xiàn)的,在人臉識別的準(zhǔn)確率上基本達(dá)到了Resnet50的效果,同時其模型尺寸只有3.9m,這對于后期在移動設(shè)備上移植算法打下了基礎(chǔ).
基于可見光訓(xùn)練的網(wǎng)絡(luò)做遷移學(xué)習(xí),本實驗會生成訓(xùn)練用的三元組,方法是隨機(jī)均勻地覆蓋更多的組合,錨點可以為近紅外圖像或可見光圖像.正樣本具有與錨點相同的id,副樣本具有與錨點不同的id,根據(jù)這種方式可以得到大約16萬組訓(xùn)練數(shù)據(jù).使用這些數(shù)據(jù),將訓(xùn)練好的可見光人臉識別網(wǎng)絡(luò)設(shè)置為三通道的網(wǎng)絡(luò)結(jié)構(gòu),通過三重?fù)p失函數(shù)訓(xùn)練網(wǎng)絡(luò),將batch size設(shè)置為128,進(jìn)去訓(xùn)練.表中包含了本文方案與其他幾種方法的性能比較,其中包含rank-1準(zhǔn)確度和誤識別率在0.1%時的驗證率(VR@FAR=0.1%).
表4 異質(zhì)人臉識別實驗數(shù)據(jù)表
Table 4 Heterogeneous face recognition experimental data table

網(wǎng)絡(luò)結(jié)構(gòu)rank-1VR@FAR=0.1%尺寸PCA+Sym+HCA[11]23.7%19.27%-Gabor+RBM+Remove 11PCs86.16%81.29%80×176NIR-VISreconstruction+UDP78.46%85.8%32×32TRIVET95.7%91%512IDR-12898.93%95.73%128VGG62.1%70.9%4096CenterLoss87.69%69.72%2×512resnet+loss99.25%98.97%128Lightfacenet+loss98.81%98.54%128
從表4中可以看出,三重?fù)p失函數(shù)與其他結(jié)構(gòu)相比,對于小規(guī)模的數(shù)據(jù)集學(xué)習(xí)有個不錯的效果.
本文從實用角度出發(fā),提出一種基于輕量級深度卷積網(wǎng)絡(luò)的近紅外光和可見光圖像融合的人臉識別算法.主要從網(wǎng)絡(luò)的輕量化設(shè)計,通過使用改進(jìn)的深度可分卷積和1×1的逐點卷積,以及組卷積的方式,使神經(jīng)網(wǎng)絡(luò)在輕量化的、計算量減少、速度加快的同時,又可以在準(zhǔn)確率上可以媲美傳統(tǒng)卷積網(wǎng)絡(luò).再者結(jié)合改進(jìn)的softmax函數(shù),使網(wǎng)絡(luò)在可見光的人臉識別中達(dá)到目前頂尖的水平.再者使用三元組數(shù)據(jù),通過三重角度損失函數(shù),讓網(wǎng)絡(luò)跨域?qū)W習(xí)到身份類別個體間的差異,從而減少甚至消除光譜跨域帶來的影響,以實現(xiàn)近紅外光和可見光圖像融合的人臉識別的效果.