999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ROI-KNN卷積神經(jīng)網(wǎng)絡(luò)的面部表情識(shí)別

2016-08-22 09:54:59孫曉潘汀任福繼
自動(dòng)化學(xué)報(bào) 2016年6期
關(guān)鍵詞:深度情感模型

孫曉 潘汀 任福繼,2

?

基于ROI-KNN卷積神經(jīng)網(wǎng)絡(luò)的面部表情識(shí)別

孫曉1潘汀1任福繼1,2

深度神經(jīng)網(wǎng)絡(luò)已經(jīng)被證明在圖像、語(yǔ)音、文本領(lǐng)域具有挖掘數(shù)據(jù)深層潛在的分布式表達(dá)特征的能力.通過(guò)在多個(gè)面部情感數(shù)據(jù)集上訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)和深度稀疏校正神經(jīng)網(wǎng)絡(luò)兩種深度學(xué)習(xí)模型,對(duì)深度神經(jīng)網(wǎng)絡(luò)在面部情感分類領(lǐng)域的應(yīng)用作了對(duì)比評(píng)估.進(jìn)而,引入了面部結(jié)構(gòu)先驗(yàn)知識(shí),結(jié)合感興趣區(qū)域(Region of interest,ROI)和K最近鄰算法(K-nearest neighbors,KNN),提出一種快速、簡(jiǎn)易的針對(duì)面部表情分類的深度學(xué)習(xí)訓(xùn)練改進(jìn)方案—ROI-KNN,該訓(xùn)練方案降低了由于面部表情訓(xùn)練數(shù)據(jù)過(guò)少而導(dǎo)致深度神經(jīng)網(wǎng)絡(luò)模型泛化能力不佳的問(wèn)題,提高了深度學(xué)習(xí)在面部表情分類中的魯棒性,同時(shí),顯著地降低了測(cè)試錯(cuò)誤率.

卷積神經(jīng)網(wǎng)絡(luò),面部情感識(shí)別,模型泛化,先驗(yàn)知識(shí)

引用格式孫曉,潘汀,任福繼.基于ROI-KNN卷積神經(jīng)網(wǎng)絡(luò)的面部表情識(shí)別.自動(dòng)化學(xué)報(bào),2016,42(6):883-891

面部情感識(shí)別是情感計(jì)算中情感識(shí)別的重要研究?jī)?nèi)容之一.面部五官的不同移動(dòng)、變化程度及其組合,結(jié)合人腦中預(yù)存的先驗(yàn)知識(shí),構(gòu)成生物情感認(rèn)知系統(tǒng)中最敏捷、有效的識(shí)別部分,面部表情在情感交互中承載了大部分的信息.

對(duì)計(jì)算機(jī)而言,面部表情識(shí)別是一項(xiàng)艱巨的任務(wù).計(jì)算機(jī)想要完成面部表情識(shí)別任務(wù),需要大量的訓(xùn)練數(shù)據(jù)(標(biāo)注的面部表情數(shù)據(jù))來(lái)降低模型系統(tǒng)的不確定性.然而,目前尚未形成面部情感的自然大數(shù)據(jù)集(標(biāo)注的自然條件下的面部表情數(shù)據(jù)集),這就意味著,現(xiàn)有的面部表情識(shí)別模型系統(tǒng)中存在著大量不確定性.盡管在一個(gè)數(shù)據(jù)集的測(cè)試集上表現(xiàn)良好,但當(dāng)實(shí)際應(yīng)用時(shí),模型對(duì)隨機(jī)的新數(shù)據(jù)泛化能力就會(huì)變得很差,魯棒性很低.

面部情感識(shí)別系統(tǒng)通常包括三部分:面部數(shù)據(jù)采集(標(biāo)注)、特征提取、情感識(shí)別等.面部數(shù)據(jù)采集包含人臉檢測(cè)、人臉關(guān)鍵點(diǎn)標(biāo)記等兩大手段.在獲得數(shù)據(jù)之后,進(jìn)而對(duì)數(shù)據(jù)進(jìn)行特征提取.可以使用主成分分析(Principal component analysis,PCA)等簡(jiǎn)易的線性變換方法,也可以使用常見(jiàn)的人工特征方法,如尺度不變特征變換(Scale-invariant feature transform,SIFT)、Haar、局部二值模式(Local bi-nary pattern,LBP)等.最后,將提取到的特征數(shù)據(jù)輸入到判別分類器當(dāng)中,得到識(shí)別結(jié)果.

隨著深度神經(jīng)網(wǎng)絡(luò)的提出,圖像識(shí)別領(lǐng)域的“先提取特征,后模式識(shí)別”這一框架被打破. Krizhevsky等[1]在ILSVRC-2012圖像識(shí)別競(jìng)賽中,利用深度卷積神經(jīng)網(wǎng)絡(luò)的自適應(yīng)特征提取能力,使得模型的測(cè)試成績(jī)遠(yuǎn)遠(yuǎn)超過(guò)了SIFT等具有旋轉(zhuǎn)縮放不變性的人工特征.最近,在面部情感識(shí)別任務(wù)上,Lopes等[2]嘗試引入了卷積神經(jīng)網(wǎng)絡(luò)模型,將特征提取和判別分類兩個(gè)步驟統(tǒng)一結(jié)合,在Extended CohnKanade(CK+)[3]靜態(tài)情感數(shù)據(jù)集上取得了很好的測(cè)試結(jié)果.然而,目前大多數(shù)針對(duì)面部表情的深度學(xué)習(xí)模型是在標(biāo)準(zhǔn)數(shù)據(jù)集上訓(xùn)練并獲得較好的結(jié)果,在實(shí)際應(yīng)用中卻出現(xiàn)精度急劇下降,無(wú)法重現(xiàn)實(shí)驗(yàn)室模型的準(zhǔn)確率,這部分原因在于基于CK+等標(biāo)準(zhǔn)數(shù)據(jù)集上訓(xùn)練的模型有兩個(gè)比較明顯的缺陷:

1)其數(shù)據(jù)都是攝像機(jī)通過(guò)正規(guī)的角度采集,這與實(shí)際系統(tǒng)獲得的Wild數(shù)據(jù)有很大的差別,會(huì)導(dǎo)致模型的泛化能力很差.如圖1所示.在實(shí)驗(yàn)部分,通過(guò)設(shè)計(jì)相應(yīng)實(shí)驗(yàn)驗(yàn)證了這點(diǎn).

圖1 CK+與Wild數(shù)據(jù)集樣例Fig.1 Samples from CK+and Wild

2)CK+數(shù)據(jù)集有593幅面部表情圖像,包括憤怒、厭惡、恐懼、高興、悲傷、驚訝六種基本情緒,這意味著平均每種表情有不到100個(gè)訓(xùn)練樣本.

即便引入非表情峰值的圖像進(jìn)行擴(kuò)展,或采用Lopes等[2]的對(duì)單張圖片旋轉(zhuǎn)采樣生成30張的擴(kuò)展訓(xùn)練樣本方法,最后得到的大部分圖像攜帶的信息都有重復(fù)(接近于樣本簡(jiǎn)單復(fù)制),與同數(shù)量的不同樣本在信息量上還是有不少差距.而目前小型圖像數(shù)據(jù)集的原始數(shù)據(jù)量基準(zhǔn)都是60k(不包括采樣生成),如MNIST、Cifar10等數(shù)據(jù)集.相對(duì)這些數(shù)據(jù)集,在CK+上的訓(xùn)練更容易達(dá)到過(guò)擬合.

鑒于以上兩點(diǎn)問(wèn)題分析,目前基于CK+數(shù)據(jù)集訓(xùn)練并得到的高準(zhǔn)確率(95%)測(cè)試結(jié)果并不意味著當(dāng)前模型系統(tǒng)已經(jīng)勝任真實(shí)的面部情感識(shí)別任務(wù),或超越人類的識(shí)別結(jié)果.本文第1節(jié)將介紹深度神經(jīng)網(wǎng)絡(luò)在模型結(jié)構(gòu)上的一些新變化.第2節(jié)將介紹兩種基本的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以及針對(duì)小數(shù)據(jù)集的先驗(yàn)改良方法.第3節(jié)介紹混合CK+與從互聯(lián)網(wǎng)上收集Wild面部表情數(shù)據(jù)形成的新數(shù)據(jù)集,包含實(shí)驗(yàn)測(cè)試結(jié)果與分析.第4節(jié)是結(jié)論、歸納.本文中使用的基于Theano深度學(xué)習(xí)框架的相關(guān)代碼和訓(xùn)練參數(shù)可從Github1獲取.

1 相關(guān)工作

1.1神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)的出發(fā)點(diǎn)是 “參數(shù)”擬合 “函數(shù)”,Bishop[4]從貝葉斯概率體系角度證明了擬合學(xué)習(xí)算法的判別根據(jù):

式(1)表明了預(yù)測(cè)數(shù)據(jù)t,在訓(xùn)練數(shù)據(jù)t′、x,以及訓(xùn)練數(shù)據(jù)高斯方差β、參數(shù)高斯方差α的概率分布同樣是一個(gè)高斯分布.式(2)表明了該高斯分布的均值為一個(gè)等價(jià)核函數(shù)(即Smooth矩陣)與訓(xùn)練目標(biāo)的乘積.該核函數(shù)衡量著預(yù)測(cè)輸入x與訓(xùn)練輸入xn的距離.距離越近,數(shù)值越大,預(yù)測(cè)目標(biāo)t就越接近訓(xùn)練目標(biāo)tn,反之亦然.

Bengio[5]指出,參數(shù)模型如支持向量機(jī)(Support vector machine,SVM)、淺層神經(jīng)網(wǎng)絡(luò),非參數(shù)模型如K最近鄰算法(K-nearest neighbors,KNN),最基本的特性都是基于訓(xùn)練樣本與預(yù)測(cè)樣本輸入的空間距離而做出預(yù)測(cè)結(jié)果的,稱之為平滑先驗(yàn)(Smoothness-prior).這個(gè)先驗(yàn)在目標(biāo)函數(shù)隨輸入空間變化敏感時(shí),只能采集到局部特征(Local representation),會(huì)得到很差的泛化結(jié)果,而圖像數(shù)據(jù)的輸入空間恰好如此.因而,不可以直接在圖像任務(wù)中使用這些分類器,而需要先提取特征.從流形學(xué)習(xí)的觀點(diǎn)看,SIFT、Haar、LBP等人工特征或是PCA這類的簡(jiǎn)單線性變換特征將輸入空間的流形面從高維降至低維,如圖2,由于流形面是局部光滑的,從而使得具有平滑判別能力的分類器在流形面區(qū)域變換后,仍然可以很好地分類.

1.2深度卷積神經(jīng)網(wǎng)絡(luò)

LeCun等[6]在1990年提出的深度卷積神經(jīng)網(wǎng)絡(luò),如圖3.以Fukushima[7]的感知機(jī)結(jié)構(gòu)為基礎(chǔ),借助Rumelhart等[8]的反向傳播訓(xùn)練算法,首先在文字圖像識(shí)別領(lǐng)域取得巨大成功[9].

卷積神經(jīng)網(wǎng)絡(luò)與一般的全連接式神經(jīng)網(wǎng)絡(luò)相比較,除了在模型中注入Smooth這樣的先驗(yàn)知識(shí)之外,還注入一些針對(duì)圖像數(shù)據(jù)特點(diǎn)的先驗(yàn)知識(shí).

圖2 輸入空間的流形面Fig.2 Manifold side of input space

圖3 卷積神經(jīng)網(wǎng)絡(luò)的局部塊狀連接與基本結(jié)構(gòu)Fig.3 Local connection and structure of convolutional neural network(CNN)

1.2.1局部性

圖像中包含的隱含信息在輸入空間內(nèi)具有局部平滑性,因此卷積神經(jīng)網(wǎng)絡(luò)針對(duì)像素塊建立塊狀神經(jīng)元的局部連接(Locally-connection).傳統(tǒng)基于像素點(diǎn)的連接稱為全連接(Fully-connection)或稠密連接(Dense-connection).塊狀神經(jīng)元顯著減少了每層神經(jīng)元參數(shù)個(gè)數(shù),這使得誤差從輸出層開(kāi)始,以較小的廣度發(fā)散[5],同時(shí)可以增加神經(jīng)網(wǎng)絡(luò)深度,來(lái)保持結(jié)構(gòu)中深度和廣度之間的平衡.Szegedy等[10]利用此特性構(gòu)建出22層的GoogLeNet,贏得了ILSVRC-2014圖像識(shí)別競(jìng)賽冠軍.

1.2.2權(quán)值共享/局部感受野

當(dāng)二維神經(jīng)元塊維度小于二維數(shù)據(jù)塊(特征圖)時(shí),意味著神經(jīng)元塊參數(shù)會(huì)在數(shù)據(jù)塊的不同區(qū)域重復(fù)加權(quán)計(jì)算,這構(gòu)成權(quán)值共享,數(shù)學(xué)形式即二維離散卷積.權(quán)值共享的做法借鑒了視覺(jué)神經(jīng)感受野的概念,F(xiàn)ukushima[7]認(rèn)為局部感受野使得模型獲得圖像中的平移不變性,增強(qiáng)泛化能力.

1.2.3降采樣

降采樣Pooling層是一個(gè)非參數(shù)層,作用是將一定鄰域內(nèi)的像素塊壓縮成一個(gè)像素點(diǎn),使圖像縮放.它通常緊接著卷積層,根據(jù)縮放算法的不同,分為銳化(Max pooling)、平滑(Avg pooling).對(duì)輸入圖像數(shù)據(jù)塊的逐層縮放,讓各層獲得不同比例的局部感受野,使得模型獲得圖像中的縮放不變性,增強(qiáng)泛化能力.

1.3深度稀疏校正神經(jīng)網(wǎng)絡(luò)

Glorot等[11]提出深度稀疏校正神經(jīng)網(wǎng)絡(luò)(Deep sparse rectifier neural networks)從結(jié)構(gòu)上仍然屬于全連接神經(jīng)網(wǎng)絡(luò),唯一變化是將Sigmoid型(logistic/tanh)激活函數(shù)全部替換成了ReLU.

1.3.1深度結(jié)構(gòu)的有效性

Barron[12]證明了擁有一個(gè)隱層、N 個(gè)神經(jīng)元的全連接神經(jīng)網(wǎng)絡(luò)可以將任何函數(shù)擬合至1/N精度.這意味著,如果需要增加擬合精度,只要廣度,而無(wú)需考慮深度.而B(niǎo)engio[5]認(rèn)為如果一個(gè)函數(shù)可以由多個(gè)函數(shù)組合得到,在數(shù)據(jù)有限的情況下,使用過(guò)淺的深度會(huì)影響擬合的效果,引起訓(xùn)練周期過(guò)長(zhǎng)、泛化能力很差等問(wèn)題.Hubel等[13]在實(shí)驗(yàn)中發(fā)現(xiàn)貓的視覺(jué)皮層由多層抽象神經(jīng)結(jié)構(gòu)完成,V1層提取圖像邊緣特征,V2層開(kāi)始逐層組合出部分形狀,直至最后組合抽象出完整的視覺(jué)目標(biāo).這從生理學(xué)角度證明了圖像識(shí)別函數(shù)可以由多個(gè)函數(shù)組合而成,增加神經(jīng)網(wǎng)絡(luò)的深度要比廣度有效得多.

1.3.2ReLU激活函數(shù)

Dayan等[14]通過(guò)擬合數(shù)據(jù),發(fā)現(xiàn)生物神經(jīng)元輸入電信號(hào)與激活頻率之間的函數(shù)圖像具有相對(duì)的不對(duì)稱性與對(duì)稱性,如圖4所示,不對(duì)稱區(qū)域出現(xiàn)了一段很突兀的“0”,這與主流的Sigmoid函數(shù)有很大區(qū)別,而與ReLU函數(shù)比較相似.Attwell等[15]通過(guò)實(shí)驗(yàn)觀察到,腦神經(jīng)元在一定時(shí)刻,平均只有1%~4%被激活,這段“0”起到了很強(qiáng)的校正作用,讓大部分神經(jīng)元處于完全不激活狀態(tài),這是生物神經(jīng)網(wǎng)絡(luò)具有數(shù)以千億計(jì)的神經(jīng)元,而不會(huì)像模型神經(jīng)網(wǎng)絡(luò)一樣引發(fā)“維數(shù)災(zāi)難”的原因.ReLU激活函數(shù)定義為:

Softplus函數(shù)是它的平滑版本:

Softplus與ReLU都是非飽和函數(shù),它們輸出的上下界不被限制在[—1,1]之內(nèi),這大大緩解了深度結(jié)構(gòu)帶來(lái)的梯度發(fā)散(Gradient vanish)問(wèn)題,促進(jìn)梯度在反向傳播中路徑中的流動(dòng),在訓(xùn)練龐大神經(jīng)網(wǎng)絡(luò)時(shí),有數(shù)倍的提速效果[1].另外,校正“0”為模型注入了大量稀疏性,與L1 Regularization效果相同.目前已知,稀疏性有助于推動(dòng)線性不可分轉(zhuǎn)化為線性可分,縮小做逐層貪心預(yù)訓(xùn)練與不做之間在泛化效果上的差異[11].

圖4 不同激活函數(shù)的函數(shù)圖像(圖片源自Glorot[11])Fig.4 Graphs for different activation functions from Glorot[11]

1.4Dropout

Hinton等[16]提出的Dropout層在大量實(shí)驗(yàn)中已經(jīng)被證實(shí)可以有效改善任意神經(jīng)網(wǎng)絡(luò)的過(guò)擬合問(wèn)題.Dropout分為兩個(gè)階段:

1)訓(xùn)練階段:此時(shí)經(jīng)過(guò)該層的所有輸入點(diǎn)x,都會(huì)以一定概率p被置為0,即該神經(jīng)元被剔除.定義式:

這是一個(gè)隨機(jī)過(guò)程,意味著每次正向傳播,網(wǎng)絡(luò)的有效結(jié)構(gòu)都會(huì)產(chǎn)生變化.

2)測(cè)試階段:此時(shí)應(yīng)該激活所有神經(jīng)元,變成完整結(jié)構(gòu).激活全部神經(jīng)元等效于多個(gè)隨機(jī)神經(jīng)網(wǎng)絡(luò)的疊加求和,需要對(duì)輸入x做一個(gè)平均處理,不然會(huì)出現(xiàn)數(shù)值問(wèn)題.定義式:

Dropout能有效改善過(guò)擬合可以從兩個(gè)角度理解.首先,Dropout引入了隨機(jī)化的稀疏性,讓龐大的神經(jīng)網(wǎng)絡(luò)模型在同一時(shí)刻只工作一部分,這與Attwell等[15]在生物神經(jīng)方面的工作不謀而合.其次,由于每次網(wǎng)絡(luò)的結(jié)構(gòu)都在變化,參數(shù)會(huì)不停受到懲罰,被迫向一個(gè)穩(wěn)定的方向調(diào)整,而不是簡(jiǎn)單地做擬合.這與Darwin[17]提出的“自然競(jìng)爭(zhēng)選擇”概念切合,拉近了模型神經(jīng)網(wǎng)絡(luò)與生物神經(jīng)網(wǎng)絡(luò)的距離.

1.5初始化

1.5.1權(quán)值初始化傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)權(quán)值初始化為:

Xavier等[18]提出了更適合Sigmoid函數(shù)的方案:

其中,F(xiàn)in為輸入維度,F(xiàn)out為輸出維度.Bishop[4]指出,在N→ ∞ 時(shí),均勻分布會(huì)演變?yōu)楦咚狗植迹话愕兀我膺B續(xù)的隨機(jī)變量都可以假定符合高斯分布.而貝葉斯擬合模型引入的關(guān)于W 的共軛先驗(yàn)分布也是假定P(W)服從高斯分布.這意味著,使用均勻分布來(lái)初始化W 不是一個(gè)很好的方案.Krizhevsky等[1]、Hinton等[16]在ILSVRC-2012圖像識(shí)別競(jìng)賽的冠軍模型中,對(duì)W 的初始化使用了零均值、常數(shù)方差的高斯分布而不是傳統(tǒng)的均勻分布,從實(shí)驗(yàn)角度證明了高斯分布初始化的合理性.

1.5.2偏置初始化

Krizhevsky等[1]、Hinton等[16]將神經(jīng)網(wǎng)絡(luò)隱層(非輸出層)的偏置初始化為1而不是0,讓訓(xùn)練在初期階段得到很大加速.目前尚無(wú)數(shù)學(xué)解釋,只是經(jīng)驗(yàn)規(guī)則.

2 結(jié)構(gòu)、超參數(shù)與改良方法

2.1深度卷積神經(jīng)網(wǎng)絡(luò)

如圖5,針對(duì)輸入大小為32×32的灰度圖(彩色維度為1),構(gòu)建了3個(gè)卷積與Max pooling層、1個(gè)全連接層、1個(gè)Softmax層.根據(jù)各層神經(jīng)元個(gè)數(shù)的不同,又分為CNN-64、CNN-96、CNN-128.

CNN-64:[32,32,64,64]

CNN-96:[48,48,96,200]

CNN-128:[64,64,128,300]

圖5 深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)(?表示不確定超參數(shù),有多種優(yōu)選方案.)Fig.5 Structure of DNN(?represents uncertain parameters with many candidate solutions.)

為了減輕過(guò)擬合問(wèn)題,全連接層后連接著一個(gè)p=0.5的Dropout層,而不是使用L2 Regularization.

除Softmax層之外,其余各層激活函數(shù)均為ReLU,卷積層輸出激活后,再輸入到Max pooling 層.權(quán)值W 的初始化采用Krizhevsky等[1]的零均值、常數(shù)標(biāo)準(zhǔn)差(Standard deviation,STD)方案.各層STD分別為:

[0.0001,0.001,0.001,0.01,0.1]

偏置的初始化采用Krizhevsky等[1]的方案.

2.2深度稀疏校正神經(jīng)網(wǎng)絡(luò)

如圖6,針對(duì)輸入大小為32×32的灰度圖(彩色維度為1),構(gòu)建了3個(gè)全連接層、1個(gè)Softmax 層.

圖6 深度稀疏校正網(wǎng)絡(luò)的結(jié)構(gòu)Fig.6 Structure of deep sparse rectifier net

根據(jù)各層神經(jīng)元個(gè)數(shù)的不同,又分為DNN-1000,DNN-2000.

DNN-1000:[1000,1000,1000]

DNN-2000:[2000,2000,2000]

為了減輕過(guò)擬合問(wèn)題,三個(gè)全連接層后各連接著三個(gè)p=0.2的Dropout層.除Softmax層之外,其余各層激活函數(shù)均為ReLU.權(quán)值W的初始化各層STD分別為:[0.1,0.1,0.1,0.1].

在測(cè)試中發(fā)現(xiàn),隱層偏置全部設(shè)為1對(duì)于深度稀疏校正神經(jīng)網(wǎng)絡(luò)效果并不好,所以設(shè)為0.

2.3數(shù)據(jù)預(yù)處理、訓(xùn)練參數(shù)控制

本文的數(shù)據(jù)處理中只做了均值標(biāo)準(zhǔn)化,取訓(xùn)練數(shù)據(jù)32×32的各個(gè)維度計(jì)算1024個(gè)均值并序列化保存.訓(xùn)練、測(cè)試時(shí),減去均值.特別地,DNN在均值標(biāo)準(zhǔn)化后,對(duì)數(shù)值縮小128.0倍.

訓(xùn)練過(guò)程中使用交叉驗(yàn)證與早終止 (Early stopping).兩個(gè)模型學(xué)習(xí)率lr為常數(shù)0.01,動(dòng)量momentum為常數(shù)0.9.交叉驗(yàn)證中發(fā)現(xiàn)驗(yàn)證集錯(cuò)誤率不再下降或上升時(shí),即判定為學(xué)習(xí)率lr過(guò)大,停止并降低一個(gè)數(shù)量級(jí),再次訓(xùn)練,重復(fù)直至學(xué)習(xí)率在0.0001階段結(jié)束,經(jīng)歷3個(gè)數(shù)量級(jí)的訓(xùn)練.

2.4ROI-KNN

Xavier等[18-19]在利用深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練人臉特征時(shí),采取對(duì)單張圖片不同尺度區(qū)域切割的方法,來(lái)擴(kuò)大數(shù)據(jù)集.本文借鑒了此方法,并針對(duì)面部表情識(shí)別做了改進(jìn),根據(jù)人臉的面部結(jié)構(gòu),設(shè)置了9個(gè)不同的感興趣區(qū)域(Region of interest,ROI),如圖7,主動(dòng)引導(dǎo)神經(jīng)網(wǎng)絡(luò)關(guān)注與表情相關(guān)的面部區(qū)域.

圖7 9個(gè)ROI區(qū)域(切割、翻轉(zhuǎn)、遮蓋、中心聚焦)Fig.7 Nine ROI regions(cut,flip,cover,center focus)

設(shè)置ROI區(qū)域使用的都是圖像處理中的基本手段,包含切割、翻轉(zhuǎn)、遮蓋、中心聚焦.為了確保不同面部的ROI區(qū)域不會(huì)有太大偏差,需預(yù)先進(jìn)行人臉檢測(cè)提取人臉,使面部填充圖像的大部分區(qū)域,讓面部中軸線近似與圖像中軸線重合.

切割方案重點(diǎn)關(guān)注眼、鼻、嘴在不同表情中的區(qū)別,為了盡量讓處理手段簡(jiǎn)單,并沒(méi)有預(yù)先檢測(cè)面部關(guān)鍵點(diǎn)來(lái)切割.翻轉(zhuǎn)方案考慮了拍攝方式的不同.遮蓋方案是對(duì)切割方案的聯(lián)合.中心聚焦方案去除了一定噪聲(如頭發(fā)).

ROI方法讓訓(xùn)練數(shù)據(jù)擴(kuò)大至9倍,這種擴(kuò)大是否有效,取決于這些迥異ROI區(qū)域之間是否存在著某些聯(lián)系,有助于增強(qiáng)預(yù)測(cè)目標(biāo)的信度.這里的增強(qiáng)更強(qiáng)調(diào)ROI區(qū)域?qū)y(cè)試原始圖像的增強(qiáng)、不同ROI區(qū)域之間的增強(qiáng)(如左眼對(duì)上半臉),而不僅僅是相同ROI區(qū)域間的增強(qiáng)(如左眼對(duì)左眼).Bengio[5]指出了這兩者的區(qū)別:前者的成功源于模型挖掘出了分布式表達(dá)特征(Distributed representation),分布式表達(dá)特征讓模型對(duì)未觀測(cè)的數(shù)據(jù)有著很好的泛化和歸納.而后者的成功則受Smooth-prior作用下的局部表達(dá)特征(Local representation)影響較大,與訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)在輸入空間的距離有很大關(guān)系.在下一節(jié)的實(shí)驗(yàn)會(huì)證明ROI區(qū)域確實(shí)對(duì)判別原始圖像有一定增強(qiáng).

ROI數(shù)據(jù)倍增的效果是針對(duì)訓(xùn)練階段的,而在測(cè)試階段最直接的方法是對(duì)測(cè)試圖像直接判別.但因?yàn)檫@會(huì)浪費(fèi)模型中記憶的關(guān)于ROI區(qū)域的分布式表達(dá)特征.盡管這些特征在直接做判別時(shí)具有推動(dòng)作用,但未起到更大作用.

眾多機(jī)器學(xué)習(xí)模型中,KNN具有出色且簡(jiǎn)單的歸并能力,它通過(guò)建立貪心投票機(jī)制,讓多個(gè)判別目標(biāo)聯(lián)合,縮小最終的判別范圍,強(qiáng)化最終的判別信度.鑒于此,提出ROI-KNN方法,在測(cè)試時(shí),對(duì)9 個(gè)ROI區(qū)域的判別結(jié)果投票,取票數(shù)最多的判別結(jié)果作為最終結(jié)果,在線歸并原始結(jié)果.

ROI-KNN的最大缺陷是對(duì)原始模型訓(xùn)練的Distributed representation有很高的要求,因?yàn)檫@些ROI的輸入信息較完整圖片要小很多,直觀上來(lái)看,就是放大關(guān)注細(xì)節(jié).訓(xùn)練ROI與測(cè)試ROI之間細(xì)微的差別,被放大之后,模型中的Local representation會(huì)對(duì)判別產(chǎn)生很大干擾.在實(shí)驗(yàn)中最直接的體現(xiàn)就是ROI區(qū)域的測(cè)試錯(cuò)誤率要大于原始圖像錯(cuò)誤率,若基于這種情況下投票,那么最后的投票結(jié)果反而比不投票要差.下一節(jié)將設(shè)計(jì)相應(yīng)的實(shí)驗(yàn)驗(yàn)證.

2.5旋轉(zhuǎn)生成采樣

Lopes等[2]擴(kuò)大數(shù)據(jù)集的方法是將原始圖像輕微旋轉(zhuǎn)一定角度,生成大量變化的訓(xùn)練樣本.這種做法看起來(lái)似乎是沒(méi)有問(wèn)題的,因?yàn)樯疃染矸e神經(jīng)網(wǎng)絡(luò)本身具有挖掘圖像縮放不變性、平移不變性的能力,唯獨(dú)缺少旋轉(zhuǎn)不變性.

在這里必須考慮一個(gè)問(wèn)題:強(qiáng)行注入旋轉(zhuǎn)變換的樣本能否讓模型獲得旋轉(zhuǎn)不變性?本文對(duì)此的答案是否定的.卷積神經(jīng)網(wǎng)絡(luò)得到的平移、縮放不變性是模型不斷提煉、泛化的成果,而直接注入的旋轉(zhuǎn)樣本可能只會(huì)讓模型出現(xiàn)過(guò)擬合,因?yàn)槟P捅旧聿](méi)有提煉旋轉(zhuǎn)不變性的能力,而本文提出的ROI方法是基于平移、縮放不變性的,沒(méi)有這種潛在問(wèn)題.如果測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)較為接近,那么過(guò)擬合問(wèn)題就不會(huì)暴露,反之亦然.本文認(rèn)為L(zhǎng)opes等[2]注入旋轉(zhuǎn)樣本后的模型有過(guò)擬合的可能,因?yàn)樗麄兊臏y(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)很接近,注入旋轉(zhuǎn)樣本得到的改善很有可能是過(guò)擬合得到的.在下一節(jié)的實(shí)驗(yàn)中會(huì)使用旋轉(zhuǎn)樣本,對(duì)Wild數(shù)據(jù)進(jìn)行測(cè)試來(lái)驗(yàn)證.

3 實(shí)驗(yàn)

本節(jié)使用第2.1節(jié)和第2.2節(jié)中構(gòu)建的兩個(gè)深度神經(jīng)網(wǎng)絡(luò)模型做對(duì)比評(píng)估,評(píng)估環(huán)節(jié)的目標(biāo)包括:ROI輔助評(píng)估、旋轉(zhuǎn)生成樣本評(píng)估和ROI-KNN輔助評(píng)估.最后將評(píng)估深度學(xué)習(xí)模型與非深度學(xué)習(xí)模型.

3.1數(shù)據(jù)集

為了解決CK+數(shù)據(jù)集過(guò)于正規(guī)的問(wèn)題.從互聯(lián)網(wǎng)各大搜索引擎中收集了4類,每類500張Wild數(shù)據(jù),分別是高興、悲傷、驚訝、憤怒.此外,由于CK+數(shù)據(jù)集的原始類別標(biāo)簽不含有“中性”表情,從合肥工業(yè)大學(xué)教務(wù)管理系統(tǒng)中抽取了1200張學(xué)生面部照片,這些照片除了表情呈中性之外,與CK+一樣,都是很正規(guī)的攝像機(jī)取景,方便在測(cè)試集中與Wild數(shù)據(jù)作對(duì)比評(píng)估.訓(xùn)練集由CK+的高興、悲傷、驚訝、憤怒各700張混合互聯(lián)網(wǎng)下載的圖片各200張以及“中性”的900張構(gòu)成.共計(jì)5類,每類900張圖片.測(cè)試集由互聯(lián)網(wǎng)下載的圖片各300張混合“中性”的300張構(gòu)成.共計(jì)5類,每類300張圖片.

3.2ROI輔助評(píng)估

ROI輔助評(píng)估是本文關(guān)注的重點(diǎn),它反映著模型內(nèi)部Distributed representation的訓(xùn)練情況.使用的是第3.1節(jié)給出的5類共4500張面部訓(xùn)練數(shù)據(jù)、5類共1500張測(cè)試數(shù)據(jù).訓(xùn)練4500張數(shù)據(jù)經(jīng)過(guò)ROI處理后,為4500×9=40500張,測(cè)試數(shù)據(jù)不做變化.實(shí)驗(yàn)結(jié)果如表1,基準(zhǔn)為無(wú)ROI強(qiáng)化,“?”表示ROI強(qiáng)化.從整體實(shí)驗(yàn)結(jié)果來(lái)看,ROI的引入對(duì)兩套模型的各個(gè)規(guī)模都有4%~5%的精度提升,符合預(yù)期.深度卷積神經(jīng)網(wǎng)絡(luò)隨著規(guī)模的提升,效果也在提升,達(dá)到最好的整體錯(cuò)誤率25.8%.逐一對(duì)各個(gè)表情分析,可以發(fā)現(xiàn)一些問(wèn)題.首先,就是中性測(cè)試集相對(duì)于其他測(cè)試集,測(cè)試成績(jī)非常高.這是在第3.1節(jié)數(shù)據(jù)有意如此設(shè)置:測(cè)試集里,只有中性集沒(méi)有使用Wild數(shù)據(jù),而選擇了與訓(xùn)練集較為相似的正規(guī)數(shù)據(jù),這個(gè)成績(jī)符合預(yù)期,同時(shí)證明了Lopes等[2]基于CK+的高準(zhǔn)確率測(cè)試結(jié)果并不一定意味著模型擁有良好的泛化能力.其次,悲傷測(cè)試集表現(xiàn)最差,這與Lopes等[2]的結(jié)果一致,說(shuō)明面部悲傷情感比較難被準(zhǔn)確識(shí)別,而高興、驚訝、憤怒的測(cè)試結(jié)果則比較接近.

表1 ROI輔助評(píng)估的測(cè)試集錯(cuò)誤率(%)Table 1 Test set error rate of ROI auxiliary(%)

3.3旋轉(zhuǎn)生成樣本評(píng)估

在第2.5節(jié)推測(cè)旋轉(zhuǎn)采樣生成的樣本可能會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)模型產(chǎn)生過(guò)擬合,為了驗(yàn)證該假設(shè)的可能性,設(shè)計(jì)了兩份新的訓(xùn)練數(shù)據(jù):

1)數(shù)據(jù)集I.針對(duì)CK+與高考錄取照片兩類正規(guī)數(shù)據(jù),以圖像中心為原點(diǎn),進(jìn)行旋轉(zhuǎn)采樣.旋轉(zhuǎn)方法同文獻(xiàn)[2],令旋轉(zhuǎn)角α服從零均值高斯分布:α~N(0,3o)對(duì)源訓(xùn)練集5類,每類700張執(zhí)行高斯隨機(jī)數(shù)11次,加上第3.1節(jié)4500張訓(xùn)練圖像,共有5×700×11+4500=43000張,構(gòu)成新訓(xùn)練集,測(cè)試集不變化.

2)數(shù)據(jù)集II.將數(shù)據(jù)集I中的43000張采樣數(shù)據(jù),與第3.2節(jié)中的40500張數(shù)據(jù)混合,共計(jì)83500張訓(xùn)練數(shù)據(jù),構(gòu)成新訓(xùn)練集,測(cè)試集不變化.以第3.2節(jié)中的無(wú)ROI測(cè)試結(jié)果作為對(duì)比基準(zhǔn),實(shí)驗(yàn)結(jié)果如表2,“*”表示使用數(shù)據(jù)集I,“+”表示使用數(shù)據(jù)集II+ROI,“∧”表示使用數(shù)據(jù)集II結(jié)合ROI-KNN.

表2 旋轉(zhuǎn)生成樣本評(píng)估的測(cè)試集錯(cuò)誤率(%)Table 2 Test set error rate of rotating generated sample(%)

從整體實(shí)驗(yàn)結(jié)果來(lái)看,旋轉(zhuǎn)生成樣本的引入暴露了不少問(wèn)題.首先,對(duì)于數(shù)據(jù)集I,CNN-128、DNN-1000用43000張?jiān)寂c生成的混合大數(shù)據(jù),得出了比4500的小數(shù)據(jù)還差的結(jié)果,說(shuō)明38500張旋轉(zhuǎn)生成樣本不僅沒(méi)有促進(jìn)歸納和泛化,反而對(duì)Wild數(shù)據(jù)的直接判別產(chǎn)生了干擾,這與Lopes等[2]的結(jié)果截然相反,本文認(rèn)為是基于CK+的測(cè)試集掩蓋了過(guò)擬合問(wèn)題.其次,對(duì)于數(shù)據(jù)集II,ROI的引入幾乎抵消了旋轉(zhuǎn)樣本的影響,但是此時(shí)ROI-KNN的效果不佳,在DNN-1000中尤為明顯. 第3.4節(jié)中的實(shí)驗(yàn)結(jié)果表明,ROI-KNN對(duì)模型中的Distributed representation有很高的要求,ROIKNN的效果不佳,從另一個(gè)角度表明了引入旋轉(zhuǎn)生成樣本可能對(duì)Distributed representation產(chǎn)生了影響.基于以上兩個(gè)數(shù)據(jù)集的測(cè)試,可以判斷在面部情感分析任務(wù)上,引入旋轉(zhuǎn)生成樣本來(lái)擴(kuò)大數(shù)據(jù)集并不是一個(gè)可取的方案.它并不能讓具有縮放、平移不變性的深度卷積神經(jīng)網(wǎng)絡(luò)獲得旋轉(zhuǎn)不變性,反而因?yàn)樾D(zhuǎn)輸入空間的引入,對(duì)縮放、平移不變性的效果產(chǎn)生干擾,構(gòu)成由于模型挖掘數(shù)據(jù)能力不足,導(dǎo)致的不可避免型過(guò)擬合,這種過(guò)擬合不是由于參數(shù)空間過(guò)大引起的,沒(méi)有方法通過(guò)擴(kuò)大數(shù)據(jù)集避免.當(dāng)測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)有較大偏差和變化時(shí),便會(huì)顯現(xiàn)出來(lái),若模型訓(xùn)練按照這種方式訓(xùn)練,則是無(wú)法在實(shí)際中應(yīng)用的.

3.4ROI-KNN輔助評(píng)估

ROI-KNN輔助評(píng)估將考察KNN的貪心投票機(jī)制對(duì)結(jié)果的影響,按照第2.4節(jié)中的推測(cè),它對(duì)模型內(nèi)部的Distributed representation有很高的要求.實(shí)驗(yàn)結(jié)果如表3,基準(zhǔn)為ROI強(qiáng)化,“*”表示ROI-KNN強(qiáng)化.

表3 ROI-KNN輔助評(píng)估的測(cè)試集錯(cuò)誤率(%)Table 3 Test set error rate with ROI-KNN(%)

從整體實(shí)驗(yàn)結(jié)果來(lái)看,KNN的投票機(jī)制讓深度卷積神經(jīng)網(wǎng)絡(luò)各個(gè)規(guī)模又得到了4%~5%的精度提升,但在深度稀疏校正神經(jīng)網(wǎng)絡(luò)中,不僅沒(méi)有提升,反而讓整體結(jié)果略微變差.逐一對(duì)各個(gè)表情分析,在深度卷積神經(jīng)網(wǎng)絡(luò)中,除了悲傷集外,其他測(cè)試集均有一定提升.在深度稀疏校正神經(jīng)網(wǎng)絡(luò)中,中性、高興集有一定提升,悲傷集變差幅度最大,其他測(cè)試集幾乎無(wú)變化.

此實(shí)驗(yàn)結(jié)果表明了KNN投票機(jī)制對(duì)模型的泛化能力(或Distributed representation)有很高的要求,直接體現(xiàn)在泛化最差的悲傷集上,各個(gè)模型表現(xiàn)均不好.另一方面,卷積神經(jīng)網(wǎng)絡(luò)整體又比深度稀疏校正神經(jīng)網(wǎng)絡(luò)好得多,可能是得益于內(nèi)部針對(duì)圖像處理的先驗(yàn)知識(shí).

3.5與非深度學(xué)習(xí)模型的對(duì)比

為了比較所提出的ROI-KNN方法與SVM等非深度學(xué)習(xí)方法的性能,設(shè)計(jì)了另一組實(shí)驗(yàn),在公開(kāi)JAFFE數(shù)據(jù)集上,與SVM、PCA等非深度學(xué)習(xí)方法進(jìn)行了比較,其中本文的模型選取了CNN-128結(jié)合ROI-KNN.從表4中可以看出,相對(duì)SVM等淺層機(jī)器學(xué)習(xí)模型,本文提出的深度學(xué)習(xí)模型在傳統(tǒng)的數(shù)據(jù)集上有非常優(yōu)異的表現(xiàn).

表4 在JAFFE上的模型對(duì)比Table 4 Comparisons on JAFFE

4 結(jié)論

深度神經(jīng)網(wǎng)絡(luò)在面部情感分析任務(wù)上具有很大的探索空間.首先,在面部情感數(shù)據(jù)尚未形成大數(shù)據(jù)集的當(dāng)下,如何利用少量的原始數(shù)據(jù)有效地?cái)U(kuò)大數(shù)據(jù)集是一個(gè)難題.本文工作證明了在Wild數(shù)據(jù)測(cè)試環(huán)境下,基于ROI的數(shù)據(jù)集擴(kuò)大策略要比旋轉(zhuǎn)生成擴(kuò)大策略有效得多;其次,現(xiàn)有的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在面部表情識(shí)別任務(wù)上相對(duì)人臉識(shí)別等其他任務(wù)還有很大的上升空間,如:在面部表情識(shí)別中,深度卷積神經(jīng)網(wǎng)絡(luò)如何獲得旋轉(zhuǎn)不變性.如果模型結(jié)構(gòu)沒(méi)有泛化數(shù)據(jù)中某些特性的能力,同樣會(huì)造成過(guò)擬合,但不等同于因?yàn)閰?shù)空間過(guò)大而造成的過(guò)擬合.后者可以直接通過(guò)在參數(shù)上施加懲罰擬合敏感性的Regularization解決,如L2 Regularization或Dropout.而前者則需要一些先驗(yàn)知識(shí)來(lái)引導(dǎo)參數(shù)朝泛化方向搜索,如卷積神經(jīng)網(wǎng)絡(luò)的局部連接、平移縮放不變性,或是深度學(xué)習(xí)的中心思想“參數(shù)逐層貪心預(yù)訓(xùn)練初始化”,甚至是循環(huán)遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)中的時(shí)序信息. Distributed representation可能是連接生物神經(jīng)網(wǎng)絡(luò)與模型神經(jīng)網(wǎng)絡(luò)之間的橋梁,因?yàn)槿祟惖拇竽X可能沒(méi)有使用像SIFT這樣的特征,而更可能是一種感知整體與整體、部分與部分、整體與部分之間的聯(lián)系、歸納、泛化的特征.使用深度神經(jīng)網(wǎng)絡(luò),雖然可以不使用SIFT、Haar、LBP等人工特征,使用更接近自然特征,但在處理其內(nèi)部不可見(jiàn)、不可控、易受影響的Distributed representation上,則需要引入更多的先驗(yàn)知識(shí)與處理技巧.本文提出的ROI-KNN方法,以簡(jiǎn)易的方式,間接地利用并觀測(cè)了模型Distributed representation的情況,對(duì)于深度卷積神經(jīng)網(wǎng)絡(luò)這樣的模型,有很好的提升效果.此外,深度稀疏校正神經(jīng)網(wǎng)絡(luò)并非無(wú)用武之地,其計(jì)算速度和不俗的精度表現(xiàn),仍是硬件條件有限情況的首選.

致謝

本文的實(shí)驗(yàn)部分代碼實(shí)現(xiàn)是基于Theano[25]開(kāi)發(fā)的,在此對(duì)其所有的開(kāi)發(fā)和維護(hù)者表示感謝.

References

1 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.In:Advances in Neural Information Processing Systems 25.Lake Tahoe,Nevada,USA:Curran Associates,Inc.,2012.1097-1105

2 Lopes A T,de Aguiar E,Oliveira-Santos T.A facial expression recognition system using convolutional networks.In:Proceedings of the 28th SIBGRAPI Conference on Graphics,Patterns and Images.Salvador:IEEE,2015.273-280

3 Lucey P,Cohn J F,Kanade T,Saragih J,Ambadar Z,Matthews I.The extended Cohn-Kanade dataset(CK+):a complete dataset for action unit and emotion-specified expression.In:Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops(CVPRW).San Francisco,CA:IEEE,2010. 94-101

4 Bishop C M.Pattern Recognition and Machine Learning. New York:Springer,2007.

5 Bengio Y.Learning deep architectures for AI.Foundations and Trends in Machine Learning.Hanover,MA,USA:Now Publishers Inc.,2009.1-127

6 LeCun Y,Boser B,Denker J S,Howard R E,Hubbard W,Jackel L D,Henderson D.Handwritten digit recognition with a back-propagation network.In:Proceedings of Advances in Neural Information Processing Systems 2.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990.396-404

7 Fukushima K.Neocognitron:a self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position.Biological Cybernetics,1980,36(4):193-202

8 Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors.Nature,1986,323(6088):533-536

9 LeCun Y,Bottou L,Bengio Y,Haffner P.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278-2324

10 Szegedy C,Liu W,Jia Y Q,Sermanet P,Reed S,Anguelov D,Erhan D,Vanhoucke V,Rabinovich A.Going deeper with convolutions.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA:IEEE,2015.1-9

11 Glorot X,Bordes A,Bengio Y.Deep sparse rectifier neural networks.In:Proceedings of the 14th International Conference on Artificial Intelligence and Statistics(AISTATS). Fort Lauderdale,F(xiàn)L,USA,2011,15:315-323

12 Barron A R.Universal approximation bounds for superpositions of a sigmoidal function.IEEE Transactions on Information Theory,1993,39(3):930-945

13 Hubel D H,Wiesel T N,LeVay S.Visual-field representation in layer IV C of monkey striate cortex.In:Proceedings of the 4th Annual Meeting,Society for Neuroscience.St.Louis,US,1974.264

14 Dayan P,Abott L F.Theoretical Neuroscience.Cambridge:MIT Press,2001.

15 Attwell D,Laughlin S B.An energy budget for signaling in the grey matter of the brain.Journal of Cerebral Blood Flow and Metabolism,2001,21(10):1133-1145

16 Hinton G E,Srivastava N,Krizhevsky A,Sutskever I,Salakhutdinov R R.Improving neural networks by preventing co-adaptation of feature detectors.arXiv:1207.0580,2012.

17 Darwin C.On the Origin of Species.London:John Murray,Albemarle Street,1859.

18 Xavier G,Yoshua B.Understanding the difficulty of training deep feedforward neural networks.In:Proceedings of the 13th International Conference on Artificial Intelligence and Statistics(AISTATS 2010).Chia Laguna Resort,Sardinia,Italy,2010,9:249-256

19 Sun Y,Wang X,Tang X.Deep learning face representation from predicting 10000 classes.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Columbus,OH:IEEE,2014.1891-1898

20 Kumbhar M,Jadhav A,Patil M.Facial expression recognition based on image feature.International Journal of Computer and Communication Engineering,2012,1(2):117-119

21 Lekshmi V P,Sasikumar M.Analysis of facial expression using Gabor and SVM.International Journal of Recent Trends in Engineering,2009,1(2):47-50

22 Zhao L H,Zhuang G B,Xu X H.Facial expression recognition based on PCA and NMF.In:Proceedings of the 7th World Congress on Intelligent Control and Automation. Chongqing,China:IEEE,2008.6826-6829

23 Zhi R C,Ruan Q Q.Facial expression recognition based on two-dimensional discriminant locality preserving projections.Neurocomputing,2008,71(7-9):1730-1734

24 Lee C C,Huang S S,Shih C Y.Facial affect recognition using regularized discriminant analysis-based algorithms. EURASIP Journal on Advances in Signal Processing,2010,article ID 596842(doi:10.1155/2010/596842)

25 Bastien F,Lamblin P,Pascanu R,Bergstra J,Goodfellow I J,Bergeron A,Bouchard N,Warde-Farley D,Bengio Y. Theano:new features and speed improvements.In:Conference on Neural Information Processing Systems(NIPS)Workshop on Deep Learning and Unsuper Vised Feature Learning.Lake Tahoe,US,2012.

孫 曉合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院情感計(jì)算研究所副教授.主要研究方向?yàn)樽匀徽Z(yǔ)言處理與情感計(jì)算,機(jī)器學(xué)習(xí)與人機(jī)交互.本文通信作者.

E-mail:sunx@hfut.edu.cn

(SUN XiaoAssociate professor at the Institute of Affective Computing,Hefei University of Technology.His research interest covers natural language processing,affective computing,machine learning and human-machine interaction.Corresponding author of this paper.)

潘 汀合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院本科生.主要研究方向?yàn)樯疃葘W(xué)習(xí),貝葉斯學(xué)習(xí)理論及其在計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理方面的應(yīng)用.

E-mail:neopenx@mail.hfut.edu.cn

(PAN TingBachelor student at the School of Computer Science and Information,Hefei University of Technology. His research interest covers the theory of deep learning and Bayesian learning,and corresponding applications in computer vision and natural language processing.)

任福繼合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院情感計(jì)算研究所教授,德島大學(xué)教授.主要研究方向?yàn)槿斯ぶ悄埽楦杏?jì)算,自然語(yǔ)言處理,機(jī)器學(xué)習(xí)與人機(jī)交互.

E-mail:ren@is.tokushima-u.ac.jp

(REN Fu-JiProfessor at the Institute of Affective Computing,Hefei University of Technology and Tokushima University.His research interest coves artificial intelligent,affective computing,natural language processing,machine learning,and human-machine interaction.)

Facial Expression Recognition Using ROI-KNN Deep Convolutional Neural Networks

SUN Xiao1PAN Ting1REN Fu-Ji1,2

Deep neural networks have been proved to be able to mine distributed representation of data including image,speech and text.By building two models of deep convolutional neural networks and deep sparse rectifier neural networks on facial expression dataset,we make contrastive evaluations in facial expression recognition system with deep neural networks.Additionally,combining region of interest(ROI)and K-nearest neighbors(KNN),we propose a fast and simple improved method called“ROI-KNN”for facial expression classification,which relieves the poor generalization of deep neural networks due to lacking of data and decreases the testing error rate apparently and generally.The proposed method also improves the robustness of deep learning in facial expression classification.

Convolution neural networks,facial expression recognition,model generalization,prior knowledge

10.16383/j.aas.2016.c150638

Sun Xiao,Pan Ting,Ren Fu-Ji.Facial expression recognition using ROI-KNN deep convolutional neural networks.Acta Automatica Sinica,2016,42(6):883-891

2015-10-12錄用日期2016-04-01
Manuscript received October 12,2015;accepted April 1,2016
國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目 (61432004),安徽省自然科學(xué)基金 (1508085QF119),模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題(NLPR201407345),中國(guó)博士后科學(xué)基金(2015M580532),合肥工業(yè)大學(xué)2015年國(guó)家省級(jí)大學(xué)生創(chuàng)新訓(xùn)練計(jì)劃項(xiàng)目(2015cxcys109)資助
Supported by Key Program of National Natural Foundation Science of China(61432004),the Natural Science Foundation of Anhui Province(1508085QF119),Open Project Program of the National Laboratory of Pattern Recognition(NLPR201407345),China Postdoctoral Science Foundation(2015M580532),and National Training Program of Innovation and Entrepreneurship for HFUT Undergraduates(2015cxcys109)
本文責(zé)任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院 合肥230009中國(guó)2.德島大學(xué)智能信息工學(xué)部德島7708500日本
1.School of Computer and Information,Hefei University of Technology,Hefei 230009,China2.Department of Information Science and Intelligent Systems,F(xiàn)aculty of Engineering,Tokushima University,Tokushima 7708500,Japan

猜你喜歡
深度情感模型
一半模型
如何在情感中自我成長(zhǎng),保持獨(dú)立
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
深度觀察
深度觀察
如何在情感中自我成長(zhǎng),保持獨(dú)立
主站蜘蛛池模板: 九九热在线视频| 国产久草视频| 亚洲国产精品一区二区第一页免 | 天天爽免费视频| 国产男女免费完整版视频| 国产成人成人一区二区| 日韩精品一区二区三区中文无码| 久久99国产乱子伦精品免| 五月婷婷丁香综合| 久久香蕉国产线看观看精品蕉| 日韩色图区| 成人无码区免费视频网站蜜臀| 国产精品99久久久久久董美香| 国产中文在线亚洲精品官网| www.日韩三级| 国产一区三区二区中文在线| 日韩成人免费网站| 91精品久久久无码中文字幕vr| 久久性视频| 日韩毛片在线视频| 欧美成在线视频| 亚洲中文字幕23页在线| 亚洲欧美日韩天堂| 久久伊人操| 国产波多野结衣中文在线播放| 老熟妇喷水一区二区三区| 亚洲中文无码av永久伊人| 亚洲 欧美 中文 AⅤ在线视频| 欧美成人午夜视频| 欧洲欧美人成免费全部视频| 日韩天堂在线观看| 天天做天天爱夜夜爽毛片毛片| 色偷偷男人的天堂亚洲av| 午夜精品福利影院| 国产精品短篇二区| 国产乱人视频免费观看| 人人91人人澡人人妻人人爽| 一级毛片在线播放免费| 97精品国产高清久久久久蜜芽 | 欧美日韩一区二区在线免费观看| 亚洲美女久久| 老司机午夜精品网站在线观看 | 亚洲天堂日韩av电影| 在线观看国产黄色| 91成人试看福利体验区| 免费A级毛片无码无遮挡| 国产成人av大片在线播放| 午夜电影在线观看国产1区| 操操操综合网| 一本久道久久综合多人| 在线观看欧美精品二区| 国产综合色在线视频播放线视| 韩日免费小视频| 91免费在线看| 国产精品美人久久久久久AV| 久久精品视频亚洲| 欧洲成人在线观看| 久久香蕉国产线看观看精品蕉| 国产麻豆福利av在线播放| 精品福利视频网| 成人免费视频一区二区三区| 国产欧美精品一区aⅴ影院| 午夜无码一区二区三区| 亚洲成人黄色在线| 久久人搡人人玩人妻精品一| 久久精品只有这里有| 国产91成人| 欧美日韩一区二区在线免费观看| 农村乱人伦一区二区| 国产网站免费看| 亚洲国产天堂久久综合226114| 久久人搡人人玩人妻精品| 色偷偷av男人的天堂不卡| 精品国产福利在线| 无码国产伊人| 欧美在线综合视频| 视频一区视频二区中文精品| 亚洲美女一级毛片| 一区二区理伦视频| 狠狠做深爱婷婷综合一区| 精品国产www| 日韩 欧美 小说 综合网 另类|