深度學(xué)習(xí)與人臉識(shí)別方法研究

2018-05-08 03:24:22姜慧

科技創(chuàng)新與應(yīng)用 2018年12期

姜慧

摘要：傳統(tǒng)的機(jī)器學(xué)習(xí)方法需要對(duì)每個(gè)領(lǐng)域都獲取大量的訓(xùn)練數(shù)據(jù)，這樣就會(huì)在研究中耗費(fèi)大量的人力物力。深度學(xué)習(xí)可以更好地通過增加數(shù)據(jù)集的規(guī)模來改善學(xué)習(xí)結(jié)果。深度學(xué)習(xí)更適合于未標(biāo)記數(shù)據(jù)，而這超出了自然語言處理的范疇，后者更多限于實(shí)體識(shí)別。基于深度學(xué)習(xí)的優(yōu)點(diǎn)，這篇文章利用深度學(xué)習(xí)方法來進(jìn)行人臉識(shí)別，提出了構(gòu)建深度學(xué)習(xí)網(wǎng)絡(luò)的方法，它能夠識(shí)別訓(xùn)練集中沒有身份的表情信息。

關(guān)鍵詞：人臉識(shí)別；深度學(xué)習(xí)；神經(jīng)網(wǎng)絡(luò)；特征識(shí)別；算法

中圖分類號(hào)：TP391.41 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：2095-2945（2018）12-0022-02

Abstract： Traditional machine learning method needs to obtain a large amount of training data for each field， so it will cost a lot of manpower and material resources in the research. Deep learning can better improve learning results by increasing the size of data sets. Deep learning is more suitable for unmarked data， which goes beyond natural language processing， and the latter is more limited to entity recognition. Based on the advantages of deep learning， this paper applies the deep learning method to face recognition， and proposes a method of constructing deep learning network， which can recognize information of facial expression without identity in the training set.

Keywords： face recognition； deep learning； neural network； feature recognition； algorithm

1 概述

深度學(xué)習(xí)是近十年以來在人工智能領(lǐng)域取得的最重要的突破之一。現(xiàn)在的深度學(xué)習(xí)模型屬于神經(jīng)網(wǎng)絡(luò)，在語音識(shí)別、自然語言處理、計(jì)算機(jī)視覺、圖像與視頻分析、多媒體等諸多領(lǐng)域取得了巨大的成功。這篇論文主要研究其在人臉識(shí)別方面的研究以及取得的成果。

人臉識(shí)別是深度學(xué)習(xí)在物體識(shí)別上的一個(gè)重要突破。我們研究的人臉識(shí)別是一種生物特征識(shí)別技術(shù)，這種技術(shù)通過人體自身的生物特征來區(qū)分不同的生物體。在近些年來，人臉識(shí)別技術(shù)已趨于成熟并在很多領(lǐng)域中有所應(yīng)用。其普遍性和可采集性高，獨(dú)特性、穩(wěn)定性以及防欺騙性一般，但是性能較低。同時(shí)，人臉識(shí)別技術(shù)還具有很高的精度。我們研究深度學(xué)習(xí)應(yīng)用于人臉識(shí)別中的研究進(jìn)展以及人臉識(shí)別的研究方法，結(jié)合幾種機(jī)器學(xué)習(xí)方法在人臉識(shí)別中的性能比較，進(jìn)一步探索研究深度學(xué)習(xí)在人臉識(shí)別方面的貢獻(xiàn)以及研究方法。

2 深度學(xué)習(xí)方法

深度學(xué)習(xí)常用的方法有三種：（1）自動(dòng)編碼機(jī)（AutoEn

coder），（2）稀疏編碼（Sparse Coding），（3）受限玻爾茲曼機(jī)（Restrict Boltzmann Machine，RBM）。下面重點(diǎn)介紹一下稀疏編碼方法。

如果我們放松輸出O必須與輸入I相等的條件，并且利用基的概念，列出式子：O=W1×B1+W2×B2+…Wn×Bn，該式中，基-Bi，系數(shù)-Wi，就得到這樣的優(yōu)化式：Min|I-O|。我們可以通過求解這個(gè)優(yōu)化式子來得到基-Bi，系數(shù)-Wi，這些Bi和Wi就是輸入的另外一種近似表達(dá)，即可被作為我們所說的特征，進(jìn)而，表達(dá)輸入I。這個(gè)過程是自學(xué)習(xí)過程。我們可以在上面式子中加上L1的Regularity限制，可以得到：

Min|I-O|+u*（|W1|+|W2|+……+|Wn|）。

該方法就被稱為Sparse Coding，是一種簡單的表示對(duì)象方法。我們利用這個(gè)方法來自動(dòng)學(xué)習(xí)隱藏在對(duì)象數(shù)據(jù)中的基函數(shù)。

3 算法之人臉識(shí)別

3.1 檢測定位方法

作為情緒識(shí)別的第一步，人臉的檢測定位方法，我們選用的是基于haar特征和Adaboost算法的檢測方法。可分以下幾步：（1）通過Haar-like特征對(duì)人臉描述并通過積分圖快速計(jì)算這一特征。（2）從許多Haar-like特征中選取重要特征，每個(gè)特征看做是一個(gè)弱分類器，我們按照一定的規(guī)則，把幾個(gè)弱分類器級(jí)聯(lián)，從而得到一個(gè)強(qiáng)分類器。（3）串聯(lián)得到的強(qiáng)分類器，便可得到級(jí)聯(lián)分類器。最終我們獲得的這一個(gè)級(jí)聯(lián)分類器就是人臉定位。將得到的強(qiáng)分類器進(jìn)行串聯(lián)來構(gòu)成級(jí)聯(lián)分類器是為了得到更高的檢測精度。

我們可以把這個(gè)級(jí)聯(lián)分類器看成一個(gè)決策樹，其中每一層的強(qiáng)分類器都是由Adaboost算法訓(xùn)練獲得的。如果上一層分類器輸出的結(jié)果正確，就會(huì)觸發(fā)第二層分類器，第二層再正確，觸發(fā)第三層，以此類推。如果輸出結(jié)果不正確被否定，那么這個(gè)否定的結(jié)果就會(huì)立即將當(dāng)前子窗口的檢測停止。這樣，就會(huì)使人臉區(qū)域的大部分能通過檢測而非人臉部分則不能通過檢測。

3.2 稀疏自編碼器訓(xùn)練多尺度卷積核

中間層神經(jīng)元通過稀疏自編碼器訓(xùn)練后實(shí)際上只會(huì)對(duì)局部的特定信息才有較強(qiáng)響應(yīng)，如果把某一個(gè)中間層神經(jīng)元的連接權(quán)值作為卷積核與輸入數(shù)據(jù)作卷積，得到卷積核在圖像其他部分的響應(yīng)就會(huì)組成一幅特征圖。對(duì)該特征圖進(jìn)行maxpooling操作，使其得到平移不變性。我們把所有的卷積核都進(jìn)行這一操作，能夠得到一組該圖像的特征。具體算法步驟如下：

（1）用稀疏自編碼器訓(xùn)練卷積核，其編碼形式為：

hi（x）= s（Wix+αi）（1）

其中，s（）是sigmoid函數(shù)，W是連接權(quán)值矩陣，i是某一尺度的編號(hào)。

（2）把得到的中間層神經(jīng)元的連接權(quán)值當(dāng)做卷積核來滑過整個(gè)圖像，進(jìn)行卷積運(yùn)算：

fi（x）=σ（conv（Wi，x）+αi）（2）

式中，conv（）代表做卷積，σ（）代表滑過整個(gè)圖像。

（3）我們把特征圖分成若干個(gè)區(qū)域qm ，再把特征圖進(jìn)行maxpooling操作。

Fmi（x）=max（fki（x））（3）

kaqmi

以兩個(gè)尺度的卷積特征，得到最終的特征如下：

F（x）=[F1（x），F(xiàn)2（x）]，其中，F(xiàn)i（x）=[F1i（x），F(xiàn)2i（x）……Fpi（x）]。

通過訓(xùn)練，得到卷積核以后，采用以上算法步驟將圖像進(jìn)行卷積運(yùn)算，就可得到相對(duì)應(yīng)的特征圖，再通過maxpooling將特征圖降維。把得到的向量看做是一個(gè)初級(jí)特征，它描述了圖像的本質(zhì)，不是一種抽象描述。為了得到更加抽象的描述，我們可以通過構(gòu)建深度神經(jīng)網(wǎng)絡(luò)來獲得。由于表情圖像的抽象性，我們先用無監(jiān)督的方法提取初級(jí)特征，再利用構(gòu)建深度學(xué)習(xí)網(wǎng)絡(luò)的方法來學(xué)習(xí)抽象的特征來更好地進(jìn)行分類。

3.3 并行網(wǎng)絡(luò)結(jié)構(gòu)與優(yōu)化算法

對(duì)于有標(biāo)簽數(shù)據(jù)，以及單類別表情圖像，先采用無監(jiān)督的方法，訓(xùn)練出7個(gè)3層SAE網(wǎng)絡(luò)，然后并聯(lián)這7個(gè)子網(wǎng)絡(luò)，將輸出以O(shè)ne-hot編碼，輸入的表情圖片對(duì)應(yīng)就屬于輸出值最大的子網(wǎng)絡(luò)。在進(jìn)入并聯(lián)網(wǎng)絡(luò)的時(shí)候，低級(jí)特征會(huì)進(jìn)入7個(gè)子網(wǎng)絡(luò)計(jì)算，每個(gè)4層SAE子網(wǎng)絡(luò)的最后一層只有一個(gè)神經(jīng)元作為輸出。神經(jīng)元的連接權(quán)值訓(xùn)練方法如下：

其中，滿足1{.}為{}中的條件時(shí)，函數(shù)值=1，否則，函數(shù)值=0。m是樣本數(shù)量，k為網(wǎng)絡(luò)數(shù)量，在這里，我們?nèi)=7。可以發(fā)現(xiàn)，損失函數(shù)對(duì)神經(jīng)網(wǎng)絡(luò)有所限制，從而使樣本類內(nèi)距離最小類間距離最大。我們單獨(dú)訓(xùn)練每個(gè)網(wǎng)絡(luò)。在表情識(shí)別中，訓(xùn)練的7個(gè)網(wǎng)絡(luò)分別對(duì)應(yīng)不同的7類表情。預(yù)訓(xùn)練采用SAE算法。選用合適的優(yōu)化算法很重要。

3.4 實(shí)驗(yàn)與結(jié)果

方法實(shí)現(xiàn)的具體步驟為：

（1）提取卷積核。訓(xùn)練樣本我們?nèi)-K庫，JAFFE庫中的未標(biāo)記類別的人臉圖像，在48*48大小的灰度圖像中歸一化。（2）隨機(jī)在每張人臉上選20～30個(gè)14*14和20～30個(gè)18*18的圖像塊。提取169個(gè)14*14和256個(gè)18*18的卷積核。（3）從卷積核的特征圖中獲取4*4個(gè)由maxpooling操作獲得的特征，一共能夠得到16*（169+256）=6800個(gè)。（4）將得到的特征作為樣本用并行網(wǎng)絡(luò)進(jìn)行訓(xùn)練，每個(gè)網(wǎng)絡(luò)分四層，第一層6600個(gè)神經(jīng)元，第二層700個(gè)，第三層60個(gè)，第四層1個(gè)。每一層用稀疏自編碼逐層預(yù)訓(xùn)練（最后一層參數(shù)除外）。（5）使用一樣的方法對(duì)樣本對(duì)應(yīng)的網(wǎng)絡(luò)構(gòu)建并行網(wǎng)絡(luò)，最后用BP算法微調(diào)整體的損失函數(shù)。

我們將不同方法下對(duì)人臉表情識(shí)別率進(jìn)行了對(duì)比：

觀察結(jié)果，本文采用的方法在JAFFE數(shù)據(jù)集上取得了好的效果。由于數(shù)據(jù)集本身簡單，表情詫異明顯，所以效果也較好。與其他方法相比，這一部分的方法提出的網(wǎng)絡(luò)結(jié)構(gòu)更適合，由于只需要提供出數(shù)據(jù)和數(shù)據(jù)標(biāo)簽，按步驟訓(xùn)練網(wǎng)絡(luò)就可以。而傳統(tǒng)的方法大多需要人工設(shè)計(jì)特征，這樣就很費(fèi)時(shí)費(fèi)力了。

參考文獻(xiàn)：

[1]徐峰，趙懷勛.人臉檢測方法研究[J].電腦知識(shí)與技術(shù)，2009（09）：2438-2439，2427.

[2]Liu P，Han S，Meng Z，et al.Facial expression recognition via a boosted deep belief network[C].Comp-uter Vision and Pattern Recognition（CVPR），2014.

[3]余凱，賈磊，陳雨強(qiáng)，等.深度學(xué)習(xí)的昨天，今天和明天[J].計(jì)算機(jī)研究與發(fā)展，2013.

[4]BRAVERMAN M. Poly-logarithmic independence fools bounded-depth Boolean circuits[J].Communications of the ACM，2011，54（4）：108-115.

[5]BENGIO Y，DELALLEAU O. On the expressive power of deep architectures[C].Algorithmic learning Theory，Berlin Heidelberg，2011：18-36.

[6]張行健，賈振堂，李祥.深度學(xué)習(xí)及其在動(dòng)作行為識(shí)別中的進(jìn)展[J].科技創(chuàng)新與應(yīng)用，2016（06）：66.