許超
【摘 要】池化被廣泛應(yīng)用于深度卷積神經(jīng)網(wǎng)絡(luò),是一種非常有效的特征選擇和降維方法,可以避免深度模型的過(guò)擬合問(wèn)題。但常規(guī)的池化只局限于空間維度上相鄰的同類(lèi)特征之間,無(wú)法對(duì)臨近通道的不同類(lèi)特征降采樣。受到人腦中激活抑制現(xiàn)象的啟發(fā),提出了一種新穎的通道池化,來(lái)進(jìn)行通道間的特征選擇。對(duì)比實(shí)驗(yàn)結(jié)果表面,通道池化有助于提高深度人臉識(shí)別網(wǎng)絡(luò)的準(zhǔn)確率。
【關(guān)鍵詞】通道池化;深度學(xué)習(xí);人臉識(shí)別;卷積神經(jīng)網(wǎng)絡(luò)
中圖分類(lèi)號(hào): TP391.41;TP183 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 2095-2457(2018)04-0070-002
0 引言
隨著互聯(lián)網(wǎng)+和移動(dòng)支付的推廣普及,極大便利了人們的生活,人臉識(shí)別因其自然、便捷和安全,成為了寄以厚望的下一代身份認(rèn)證技術(shù)。算法原理、海量數(shù)據(jù)和硬件算力共同促成了深度學(xué)習(xí)的成功,基于深度卷積神經(jīng)網(wǎng)絡(luò)的算法[1]在非受限人臉標(biāo)準(zhǔn)測(cè)試集[2]上取得到超越人類(lèi)的成績(jī)。
深度卷積神經(jīng)網(wǎng)絡(luò)的三大特點(diǎn)是:局部感知、權(quán)值共享和池化。作為一種有效的特征選擇和降維方法,池化被廣泛應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò),可以有效降低模型的過(guò)擬合風(fēng)險(xiǎn),提高學(xué)習(xí)算法的魯棒性。然而,目前通用的池化只作用于高和寬兩個(gè)空間維度,在空間上相鄰的特征圖上降采樣,而生物大腦中神經(jīng)鏈接的激活抑制現(xiàn)象更加普適,因此不同通道之間的特征選擇同樣重要。
1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是一種受生物視覺(jué)神經(jīng)系統(tǒng)啟發(fā)的,由卷積層、激活層和池化層交錯(cuò)組合成的前饋神經(jīng)網(wǎng)絡(luò)。典型特點(diǎn)是局部感知、權(quán)值共享和池化,其特殊的結(jié)構(gòu)能建模空間相關(guān)性,稀疏連接能有效避免過(guò)擬合,因此可以學(xué)到性能出色的模型,被廣泛應(yīng)用于圖像和視頻智能分析任務(wù)[3]。
人臉識(shí)別已發(fā)展了五十多年,涌現(xiàn)出了許多識(shí)別算法,包括基于幾何特征的方法,基于子空間映射的方法,基于稀疏表達(dá)的方法,以及最新的基于深度卷積神經(jīng)網(wǎng)絡(luò)的方法。在深度學(xué)習(xí)之前,Eigenface[4]和Fisherface[5]等方法只能在受限條件(清晰靜態(tài)正臉)下表現(xiàn)不錯(cuò),在復(fù)雜的自然場(chǎng)景中,往往性能損失嚴(yán)重。在深度學(xué)習(xí)時(shí)代,人臉識(shí)別精度顯著提升,F(xiàn)aceID3[1]在非受限人臉標(biāo)準(zhǔn)測(cè)試集[2]上取得到超越人類(lèi)的成績(jī)。
2 通道池化
深度卷積神經(jīng)網(wǎng)絡(luò)以圖片作為直接輸入,在前向推理的過(guò)程中,圖片的信息被映射到高層語(yǔ)義空間。在低層的卷積層和池化層中,特征一直保持著寬、高和通道的三維結(jié)構(gòu),進(jìn)入全連接層以后,才被編碼成一維向量。卷積層中的卷積核是三維結(jié)構(gòu),加權(quán)綜合所有通道臨近空間的信息;池化層操作每個(gè)通道的二維網(wǎng)格,降低空間上的信息冗余,實(shí)現(xiàn)對(duì)特征尺寸進(jìn)行壓縮。
在深度卷積神經(jīng)網(wǎng)絡(luò)中,三維特征的每個(gè)通道代表了一種特征的幾何分布,不同位置的同種特征對(duì)最終決策的貢獻(xiàn)不同,相同位置的不同特征也同樣差距,有些通道的特征反而在不斷干擾著分類(lèi)器的準(zhǔn)確判斷。但常規(guī)的池化操作只局限于空間維度上相鄰的同類(lèi)特征之間,無(wú)法對(duì)臨近通道的不同類(lèi)特征降采樣,針對(duì)這種情況,提出一種新穎的通道池化的方法,進(jìn)行通道之間的特征選擇和降維。常規(guī)池化和通道池化的組合,可以有機(jī)組合出三維池化,提高了池化操作的通用性和靈活性。
3 網(wǎng)絡(luò)框架設(shè)計(jì)
隨著殘差網(wǎng)絡(luò)[6]的提出,非常深度的卷積神經(jīng)網(wǎng)絡(luò)被廣泛采用,在各種視覺(jué)任務(wù)上取得最好的性能,其精巧的短路連接,可以預(yù)防梯度消失和加快訓(xùn)練。因此,在人臉識(shí)別網(wǎng)絡(luò)框架設(shè)計(jì)時(shí),引入殘差網(wǎng)絡(luò)的設(shè)計(jì)思想,改進(jìn)并提出了31層的深度卷積神經(jīng)網(wǎng)絡(luò)和基準(zhǔn)對(duì)比網(wǎng)絡(luò)。
深度人臉識(shí)別網(wǎng)絡(luò)由5個(gè)卷積模塊和一個(gè)全連接層組成,共計(jì)31層,以192×224的三通道彩色人臉圖片作為輸入,將人臉編碼成512維的語(yǔ)義向量。每個(gè)卷積模塊包含兩個(gè)卷積層,兩個(gè)殘差單元和一個(gè)常規(guī)池化層,卷積層用于融合殘差特征,二維池化層對(duì)每個(gè)通道降采樣,使特征尺寸縮小一半,同時(shí)通道數(shù)放大一倍。設(shè)計(jì)的兩個(gè)殘差單元分別用于改進(jìn)網(wǎng)絡(luò)和基準(zhǔn)網(wǎng)絡(luò)的,基準(zhǔn)單元類(lèi)似于樸素的殘差單元,改進(jìn)單元在兩個(gè)卷積層間采用通道池化進(jìn)行降采樣。兩個(gè)網(wǎng)絡(luò)均采用帶參修正線(xiàn)性激活函數(shù)(PReLU)[7]作為激活函數(shù),以避免神經(jīng)網(wǎng)絡(luò)萎縮。
深度人臉模型的訓(xùn)練目標(biāo)函數(shù)由兩部分組成:通用的多分類(lèi)損失函數(shù)Softmax和類(lèi)內(nèi)約束函數(shù)Center-Loss[8]。Softmax損失使深度模型盡可能分類(lèi)正確,而中心損失函數(shù)使同一人的臉在高維語(yǔ)義空間中盡可能聚集分布,降低語(yǔ)義空間中不同人的臉?lè)植贾睾系目赡苄裕瑥亩s小類(lèi)內(nèi)距離、放大類(lèi)間距離,提高深度人臉識(shí)別模型的泛化能力。
4 實(shí)驗(yàn)結(jié)果分析
以開(kāi)源深度學(xué)習(xí)庫(kù)Caffe[9]作為實(shí)現(xiàn)平臺(tái),對(duì)改進(jìn)網(wǎng)絡(luò)和基準(zhǔn)網(wǎng)絡(luò)采用相同的訓(xùn)練參數(shù)配置,訓(xùn)練數(shù)據(jù)采的MS-Celeb[10]數(shù)據(jù)集。模型的初始學(xué)習(xí)率為0.001,每5輪學(xué)習(xí)率×0.1,共訓(xùn)練20輪。
為了充分驗(yàn)證通道池化的有效性,在萬(wàn)級(jí)的非受限人臉驗(yàn)證基準(zhǔn)測(cè)試集LFW[2]和百萬(wàn)級(jí)人臉檢索基準(zhǔn)測(cè)試集MegafaceV1[11]上評(píng)估改進(jìn)網(wǎng)絡(luò)和基準(zhǔn)網(wǎng)絡(luò)的識(shí)別性能。從測(cè)試和評(píng)估結(jié)果可以看出,改進(jìn)后的網(wǎng)絡(luò)相對(duì)于人臉?lè)诸?lèi)、人臉驗(yàn)證和人臉識(shí)別多個(gè)子任務(wù)都優(yōu)于基準(zhǔn)模型,證實(shí)了通道池化對(duì)于提高深度人臉模型識(shí)別準(zhǔn)確率和泛化能力的有效性。
表1 人臉識(shí)別模型性能評(píng)估
5 結(jié)論
常規(guī)的池化操作只局限于空間維度上相鄰的同類(lèi)特征之間,無(wú)法對(duì)臨近通道的不同類(lèi)特征降采樣。針對(duì)這種現(xiàn)象,提出了一種新穎的通道池化方法,使得池化操作更加通用和靈活。設(shè)置對(duì)比實(shí)驗(yàn),在LFW和Megaface基準(zhǔn)測(cè)試集上,驗(yàn)證了通道池化的有效性。通道池化的引入,可以提高深度人臉模型的準(zhǔn)確率和泛化能力,是一種有效的特征選擇和降維方法。
【參考文獻(xiàn)】
[1]Sun Y, Liang D, Wang X, et al. Deepid3: Face recognition with very deep neural networks[J].arXiv preprint arXiv:1502.00873, 2015.
[2]Labeled faces in the wild: A database for studying face recognition in unconstrained environments[R].Technical Report 07-49, University of Massachusetts, Amherst, 2007.
[3]毛勇華,桂小林,李前,賀興時(shí).深度學(xué)習(xí)應(yīng)用技術(shù)研究[J].計(jì)算機(jī)應(yīng)用研究,2016,33(11):3201-3205.
[4]Turk M, Pentland A. Eigenfaces for recognition[J]. Journal of cognitive neuroscience, 1991,3(1): 71-86.
[5]Belhumeur P N, Hespanha J P, Kriegman D J. Eigenfaces vs. fisherfaces: Recognition using class specific linear projection[J]. IEEE Transactions on pattern analysis and machine intelligence, 1997, 19(7): 711-720.
[6]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[7]He K, Zhang X, Ren S, et al. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1026-1034.
[8]Wen Y, Zhang K, Li Z, et al. A discriminative feature learning approach for deep face recognition[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 499-515.
[9]Jia Y, Shelhamer E, Donahue J, et al. Caffe: Convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM international conference on Multimedia. ACM, 2014: 675-678.
[10]Guo Y, Zhang L, Hu Y, et al. Ms-celeb-1m: A dataset and benchmark for large-scale face recognition[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 87-102.
[11]Kemelmacher-Shlizerman I, Seitz S M, Miller D, et al. The megaface benchmark: 1 million faces for recognition at scale[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4873-4882.