999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度遷移學習的人臉識別方法研究

2017-07-06 10:29:02余化鵬
成都大學學報(自然科學版) 2017年2期
關鍵詞:人臉識別可視化深度

余化鵬, 張 朋, 朱 進

(成都大學 信息科學與工程學院, 四川 成都 610106)

?

基于深度遷移學習的人臉識別方法研究

余化鵬, 張 朋, 朱 進

(成都大學 信息科學與工程學院, 四川 成都 610106)

針對大數據集上學習的深度人臉模型在實踐中的相關問題,提出一種通過遷移一個預訓練的深度人臉模型到特定的任務來解決該問題的方案:將深度人臉模型學習的分層表示作為源模型,然后在一個小訓練集上學習高層表示以得到一個特定于任務的目標模型;在公共的小數據集及采集的真實人臉數據集上的實驗表明,所采用的遷移學習方法有效且高效;經驗性地探索了一個重要的開放問題——深度模型不同層特征的特點及其可遷移能力,認為越底層的特征越局部、越通用,而越高層的特征則越全局、越特定,具有更好的類內不變性和類間區分性;無監督的特征可視化與有監督的人臉識別實驗結果都能較好地支持上述觀點.

深度學習;人臉識別;遷移學習;不變性;區分性

0 引 言

目前,深度人臉模型[1-3],特別是在大的非限制場景人臉數據集(Labeled Faces in the Wild,LFW)上學習的卷積神經網絡(Convolutional Neural Network,CNN)在性能上已經達到前所未有的水平.但實踐中,一方面,訓練一個深度人臉模型需要大的數據集和強大的計算資源,這阻礙了深度人臉模型的廣泛應用;另一方面,對于一個特定的人臉識別任務,往往只有非常有限的訓練樣本,從而無法訓練一個有效的深度人臉模型.所以,將一個預訓練的深度人臉模型遷移到一個特定的任務是非常有價值的.對此,本研究通過2個步驟來解決該問題:首先,將深度人臉模型學習的分層表示作為源模型;其次,在一個小的訓練集上學習高層表示以得到一個特定于任務的目標模型.同時,本研究在公共的小數據集和從實際應用中采集的真實人臉數據上評估了所提出的人臉識別方法,并與一個輕量級的深度學習基線模型進行了對比.結果表明,本研究的深度遷移學習方法優勢十分明顯.同時,本研究也經驗性地探索了一個重要的開放問題——深度模型不同層特征的特點及其可遷移能力.

1 相關工作

通常,深度人臉模型采用一個在大的人臉數據集上訓練的神經網絡模型來解決傳統的人臉識別問題.由于能夠從人臉數據中自動發現復雜的結構且自動學習一個分層的表示[4],深度人臉模型已經在困難的非限制場景人臉數據集上取得了極大的進展.例如,Parkhi等[5]在一個大的數據集(260萬幅人臉圖像,超過2 600人)上訓練了一個CNN模型,其在LFW和YTF[6]數據集上的性能與最好的性能接近,也公開了這個好的訓練模型——VGG-FACE(支持Caffe,Torch,與MatConvNet).本研究擬采用此模型作為預訓練的源模型.另外,一個有趣的深度人臉模型是PCANET[7],這個模型采用2個主成分分析(Principal Component Analysis,PCA)層形成一個深度模型,已在許多典型的人臉數據集上取得了非常好的性能.盡管其性能仍不能與CNN在LFW等困難數據集上的性能相比,但是作為一個輕量級的深度人臉模型基線,PCANET容易在小數據集上訓練.

遷移學習(或歸納遷移)的目的是將以前學習的知識遷移到新的任務,近年來受到越來越多研究者的關注,并取得了一系列研究成果[8-10].本研究的工作屬于特征表示遷移,與文獻[9]屬于同一類方法.由于本研究在更為相似的任務(人臉識別)之間遷移,所以可以預期能夠取得更好的性能,從而更能滿足實際應用的需求.本研究與文獻[10]的不同之處在于,本研究認為越底層的特征不僅越通用而且越局部,而越高層的特征不僅越特定而且越全局,具有更好的類內不變性與類間區分性.

2 深度遷移學習方法

形式上,遷移學習可以定義為:給定一個源域DS與源任務TS,一個目標域DT與目標任務TT,遷移學習的目標是DS與TS的知識能夠幫助求解或提升TT.注意:DS≠DT或TS≠TT.域D定義為一個二元對{x,P(X)},其中x為特征空間,P(X)是X的邊緣分布,X={x1,x2,…,xn}∈x.任務T也是一個二元對{y,f(x)},其中y是標簽空間,y=f(x)是從訓練樣本{xi,yi}(xi∈X,yi∈y)學習到的目標函數.將源域中的訓練樣本數記為nS,目標域中的記為nT.

對于人臉識別任務,假定DS=DT,而TS≠TT(盡管緊密相關).具體來講,TS已經從一個大的人臉數據集中學習到,現在需要在一個特定于任務的小數據集上(nS?nT)學習TT.學習的目標是:通過TS的幫助學習一個有效的TT.

2.1 源模型

使用MatConvNet平臺下預訓練的VGG-FACE作為TS.如前所述,VGG-FACE是一個在2 622人的260萬幅人臉圖像上訓練的深度CNN模型.這個模型總共40層:1個輸入層(0層),1個Softmax輸出層(39層),3個全連接層(32,35,38層),剩下的層是交替的conv/relu/mpool/drop層.表1給出了VGG-FACE的網絡配置,這與文獻[5]給出的大同小異.

遷移學習一個深度CNN模型首先是拷貝TS的頭n層作為TT的頭n層,然后隨機初始化TT的剩下層并用目標數據訓練TT.為了清楚,稱TS的頭n層為源模型.典型地,對于源模型有2種選擇,即微調(fine-tune)或凍結(freeze).前者意味著訓練TT的過程會影響到源模型,而后者則不會.正如文獻[10]所指出的,選擇微調或凍結源模型依賴于目標數據集的大小和源模型的參數個數.對于本研究的人臉識別任務,TT只有一個小的特定于任務的人臉數據集.而截取VGG-FACE的全連接層(比如38層)以下的層所得到的源模型仍然是深的,其中包含大量參數.所以,為了避免過擬合,可以選擇凍結源模型.

深度CNN模型不同層特征的特點及其可遷移能力是重要的開放問題.Yosinski等[10]認為高層特征更特定而底層特征更通用.本研究贊同此觀點,但進一步認為高層特征也更全局而底層特征也更局部.這種局部到全局的轉換根植于CNN模型的局部感受野特點,即CNN模型最基本的操作——卷積.

表1 VGG-FACE的網絡配置(部分摘自文獻[5])

此高層特征的全局特點能夠解釋為什么其同時具有更好的類內不變性與更好的類間區分性.從本質上講,這也說明了為什么本研究更傾向于遷移高層的特征.本研究將通過特征的可視化來經驗性地證實此觀點.本研究的觀點也不同于文獻[8],文獻[8]僅僅強調遷移不變性,但實際上,僅僅遷移不變性既不可能辦得到也不足以解決實際問題.

2.2 學習一個目標模型

正如前面提到的,首先拷貝TS的頭n層作為源模型,然后用目標數據訓練TT得到一個最終的特定于任務的目標模型.注意在訓練TT的過程中凍結源模型.圖1給出了學習一個目標的整個過程.

圖1 學習目標模型的示意圖

由圖1可見,首先拷貝VGG-FACE的頭n層作為源模型,然后用這個源模型提取目標數據的特征.所提取的特征用于訓練目標模型的高層表示,最后凍結的源模型加上從目標數據中訓練的高層表示就構成了特定于任務的目標模型.

目標模型高層表示的設計具有足夠的彈性,所以可以簡單地重新學習一個分類器層,比如softmax或支持向量機(Support Vector Machine,SVM),也可以重新學習最終的分類器層下面的更多層.如何選擇主要取決于源任務與目標任務之間的相似程度以及目標數據集的大小.本研究假定源任務與目標任務足夠相似(都是人臉識別),還假定目標數據集很小(每個類只有1到10個左右的樣本).因此,選擇僅僅重新學習分類器層.而對于源任務與目標任務之間不太相似的情況或者有較多的目標數據,也有必要重新學習更多的特征層以提升目標模型的性能.

3 結果與討論

3.1 評估源模型

為了評估特征性能,本研究比較了7個不同的源模型,采用tSNE[11]進行3D特征可視化,通過這些可視化的結果可以直觀地看到特征的無監督自然聚類,聚類情況的好壞可幫助洞察特征的類內不變性與類間區分性.

本研究在3個小的目標數據集上進行了評估,分別是ATT[12]、IOE5與CDUStud.ATT是一個公共的小數據集,包含40人的400幅灰度人臉圖像,分辨率均為92×112.IOE5與CDUStud是從實際應用中采集的真實人臉數據.其中,IOE5包含總共33人的330幅灰度人臉圖像,分辨率均為100×100;CDUStud包含總共22人的220幅彩色人臉圖像,平均分辨率約為300×300.3個數據集里的每個人都有10個樣本.對于無監督的可視化,可輸入每個人所有10個樣本;對于有監督的人臉識別,可將10個樣本均分為2個集,分別用于訓練與測試.圖2給出了3個數據集的4個典型樣本,第1行到第3行依次代表的數據集是ATT、IOE5與CDUStud.ATT主要包括姿態及表情變化,IOE5增加了光照及是否戴眼鏡,而CDUStud進一步引入了更多的變化,比如顏色,CDUStud更接近于非限制的真實場景下的人臉.

為了得到不同層的特征,VGG-FACE需要3通道的224×224輸入圖像,所以對于灰度人臉圖像,本研究將3個通道設成一樣,將不同分辨率的圖像縮放為相同的224×224分辨率,并將不同源模型的輸出特征(對應于VGG-FACE的不同層)進行L2規范化以備使用.

圖2 3個數據集的部分樣本圖像

圖3、圖4與圖5給出了此3個目標數據集的3D可視化結果.對于每個數據集,本研究給出了以下層的結果:18,25,32(FC6),35(FC7),38(FC8).算法軟件tSNE的參數設置為:可視化維數為3,初始PCA維數為50,復雜度為30.由這些可視化結果可見,相對于更底層的特征(比如18層),更高層的特征(比如38層)具有更好的類內不變性(由相同顏色的球形成的自然聚類)與更好的類間區分性(自然聚類之間的距離).從流形學習觀點來看,更高層的特征具有更好的解糾纏能力,而更底層的特征彼此之間更加糾纏不清.分層特征對這一現象有合理的解釋:更底層的特征是局部的、通用的,因此類內不變性和類間區分性均較差;更高層的特征是全局的、特定的,因此具有較好的類內不變性和類間區分性.

圖3 ATT數據集的3D可視化結果

圖4 IOE5數據集的3D可視化結果

圖5 CDUStud數據集的3D可視化結果

特別地,圖3表明3個數據集里不同人的原始圖像數據高度糾纏在一起,這解釋了分層解糾纏過程的必要性.實際上,文獻[11]表明,對于MNIST原始圖像數據(固有維數大概為10),tSNE能夠粗略展示出10個不同數字的自然聚類.Nielsen[13]展示了只有單個隱層的簡單神經網絡更易在MNIST數據集上達到95%的分類精度.這個結果進一步驗證了MNIST有較低的固有維數,但是對于人臉數據,該實驗結果驗證了其具有高得多的固有維數,無法通過純粹無監督的線性或非線性映射來進行有效解糾纏,所以需要有監督的深度神經網絡.

對于有監督的人臉識別,目標數據集的人臉樣本首先輸入到源模型以得到特征,然后用這些特征訓練目標模型的SVM層.每個人的5個樣本訓練一個SVM層,然后用剩下的5個樣本測試目標模型(源模型加SVM層).注意,此過程并未進行人臉對齊操作以及應用任何樣本增擴.本研究選用了一個流行的SVM實現——LIBLINEAR[14],采用L2-正則化L2-代價線性SVM,懲罰項設置為10.表2給出了3個目標數據集上的有監督人臉識別測試結果.

表2 有監督人臉識別測試結果

如表2所示,對于每個目標數據集,本研究給出了不同源模型的錯誤率,同時給出了每個源模型輸出層的維數,并沒有對每個目標數據集測試所有7個源模型.實際上,本研究依次增加了源模型的層數直到0%的錯誤率,比如,在表2里,ATT與IOE5用32層的源模型即達到了0%的錯誤率,而CDUStud需要34層才達到0%的錯誤率.對于更復雜的數據集,可以確信需要更多層次的源模型.從表2還可知,錯誤率隨著源模型層數的增加而持續下降,這一結果再次確認了前面特征可視化的分析結論,即底層特征是局部的、通用的,因此類內不變性與類間區分性較差;而高層特征是全局的、特定的,因此類內不變性與類間區分性更好.

從表2還可以看出,更底層的特征具有更高的維數而更高層的特征具有更低的維數,這反映了深度學習的分層特征提取的另一個重要方面——降維,降維是局部到全局與通用到特定這個特征提取過程的自然結果.

3.2 與模型PCANET的比較

本研究從特征質量與人臉識別性能2方面對這2種模型進行比較.

模型PCANET采用2個相連的PCA層,容易用小的數據集進行訓練.本研究使用PCANET的原始MATLAB實現,將PCANET作為一個特征學習器和一個特征提取器,提取出的PCANET特征用于訓練一個SVM層,所以本研究的目標模型具有和PCANET一樣的分類器層,差別僅在于特征學習和特征提取過程.目標模型里,從40層的CNN模型遷移過來的源模型扮演著特征學習與特征提取的角色,而PCANET里2個相連的PCA層扮演這個角色.

采用類似前面同樣的3個數據集及同樣的SVM參數設置,PCANET的MATLAB實現同樣支持灰度與彩色圖像,并支持不同的圖像分辨率,所以只需將3個數據集的原始圖像簡單輸入到PCANET.PCANET的參數設置如下:分片大小5×5;第一層濾波器數量為25,第二層為8;直方圖分塊大小8×8,直方圖分塊覆蓋比為0.5.最終的輸出特征維數為13 440,這個值介于本研究源模型的18層與25層之間.圖6給出了3個數據集的PCANET特征的3D可視化結果.

圖6 PCANET特征的3D可視化結果

與圖3~圖5比較可知,PCANET特征總是比源模型的高層特征(如38層)更加糾纏不清.實際上,對于ATT,PCANET特征僅僅比25層及以下的特征稍好,但是比32層及以上差.對于IOE5,PCANET特征僅僅比18層好,而比25層及以上差.類似地,對于CDUStud,PCANET特征僅僅比25層及以下的特征稍好,但是比32層及以上差.這些結果解釋了“深度”的重要性.

表3給出了PCANET在3個有監督的人臉識別任務上的錯誤率.

表3 PCANET測試結果

與表2比較可知,性能上PCANET總是比具有更多層次(>32)的目標模型要差.對于ATT與IOE5,PCANET的性能處于目標模型的18層與25層之間.注意PCANET特征的維數(134 400)也處于18層(200 704)與25層(100 352)之間.對于CDUStud,PCANET表現稍微好一些,處于25層與32層之間.奇怪的是PCANET在IOE5上具有最高錯誤率(7.27%)而不是CDUStud.圖6的特征可視化結果也驗證了這一點:IOE5的PCANET特征相比ATT與CDUStud更加糾纏不清.如前所述,IOE5的PCANET特征僅僅比18層好但是比25層及以上差,而ATT與CDUStud的PCANET特征比25層還好些.PCANET在IOE5上具有最高錯誤率而不是在更困難的CDUStud數據集上,這個現象也許表明PCANET模型自身的不一致性.而本研究的目標模型具有一致的性能表現,即更困難的數據集需要更多的特征層.

4 結 論

本研究探討了深度CNN模型的遷移學習問題,特別關注了經典的分類應用——人臉識別,并經驗性地探索了遷移學習的不同源模型.在3個小數據集上的評估結果表明了本研究所采用方法的有效與高效:對于非常有限的訓練樣本,目標模型在所有3個數據集上取得了0%的錯誤率.由于已經在大的數據集上預訓練了源模型,小的目標數據集上的遷移學習就變得非常高效——只需在源模型上學習一層或少量更多的層.

同時,本研究還探索了源模型不同層特征的3D可視化.通過這些可視化結果得出,深度CNN模型的底層特征是局部、通用的,而高層特征是全局、特定的,因此高層特征具有更好的類內不變性與更好的類間區分性,更適合有監督的分類任務.實驗結果驗證了該觀點.進一步通過與深度基線模型——PCANET比較表明,本研究的目標模型的優勢表現在更低的分類錯誤率及更好的模型一致性上.

[1]Sun Y,Liang D,Wang X,et al.Deepid3:facerecognitionwithverydeepneuralnetworks[EB/OL].[2015-02-03].https://arxiv.org/abs/1502.00873.

[2]Schroff F,Kalenichenko D,Philbin J.FaceNet:aunifiedembeddingforfacerecognitionandclustering[C]//2015IEEEConferenceonComputerVisionandPatternRecognition(CVPR).Boston,MA,USA:IEEE Press,2015:815-823.

[3]Huang G B,Mattar M,Berg T,et al.LabeledfacesintheWild:adatabaseforstudyingfacerecognitioninunconstrainedenvironments[R].Amherst,MA,USA:University of Massachusetts,Amherst,2007:7-49.

[4]LeCun Y,Bengio Y,Hinton G.Deeplearning[J].Nature,2015,521:436-444.

[5]Parkhi O M,Vedaldi A,Zisserman A.Deepfacerecognition[C]//ProceedingsoftheBritishMachineVisionConference,2015.Swansea,UK:BMVC Press,2015.

[6]Wolf L,Hassner T,Maoz I.Facerecognitioninunconstrainedvideoswithmatchedbackgroundsimilarity[C]//2011IEEEconferenceonComputerVisionandPatternRecognition(CVPR).Colorado Springs,CO,USA:IEEE Press,2011.

[7]Chan Tsung-Han,Jia Kui,Gao Shenghua,et al.PCANet:AsimpledeepLearningbaselineforimageclassification?[J].IEEE Trans Image Proc,2015,24(12):5017-5032.

[8]Thrun S.Islearningthen-ththinganyeasierthanlearningthefirst?[C]//AdvancesinNeuralInformationProcessingSystems8,NIPS1995.Denver,CO,USA:MIT Press,1995:640-646.

[9]Shie C K,Chuang C H,Chou C N,et al.Transferrepresentationlearningformedicalimageanalysis[C]//EngineeringinMedicineandBiologySociety(EMBC),2015 37thAnnualInternationalConferenceoftheIEEE.Milan,Italy:IEEE Press,2015:711-714.

[10]Yosinski J,Clune J,Bengio Y,et al.Howtransferablearefeaturesindeepneuralnetworks?[C]//NIPS'14Proceedingsofthe27thInternationalConferenceonNeuralInformationPrecessingSystems.Montreal,Canada:MIT Press,2014:3320-3328.

[11]Van der Maaten L J P,Hinton G E.Visualizinghigh-dimensionaldatausingt-SNE[J].J Mach Learn Res,2008,9:2579-2605.

[12]Samaria F S,Harter A C.Parameterisationofastochasticmodelforhumanfacecdentification[C]//PrceedingsoftheSecondIEEEWorkshoponApplicationsofComputerVision,1994.Sarasota,FL,USA:IEEE Press,1994.

[13]Nielsen M.Neuralnetworksanddeeplearning[EB/Ol].[2017-01-01].http://neuralnetworksanddeeplearning.com/index.html.

[14]Fan R E,Chang K W,Hsieh C J,et al.LIBLINEAR:alibraryforlargelinearclassification[J].J Mach Learn Res,2008,9(9):1871-1874.

Study on Face Recognition Method Based on Deep Transfer Learning

YUHuapeng,ZHANGPeng,ZHUJin

(School of Information Science and Engineering, Chengdu University, Chengdu 610106, China)

Aiming at relevant problems of deep face model for learning based on big dataset in practice,we put forward a scheme to deal with these problems through transferring a pre-training deep face model to specific tasks on hand.We empirically transfer hierarchical representations of deep face model as a source model and then learn higher layer representations on a specific small training set to obtain a final task-specific target model.Experiments on face identification tasks with public small data set and practical real face data set verify the effectiveness and efficiency of our approach for transfer learning.We also empirically explore an important open problem—attributes and transferability of different layer features of deep model.We argue that lower layer features are both local and general,while higher layer ones are both global and specific which embraces both intra-class invariance and inter-class discrimination.The results of unsupervised feature visualization and supervised face identification strongly support our view.

deep learning;face recognition;transfer learning;invariance;discrimination

1004-5422(2017)02-0151-06

2017-03-16.

余化鵬(1973 — ), 男, 博士, 講師, 從事計算機視覺與機器學習研究.

TP391.41

A

猜你喜歡
人臉識別可視化深度
基于CiteSpace的足三里穴研究可視化分析
人臉識別 等
作文中學版(2022年1期)2022-04-14 08:00:34
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
深度理解一元一次方程
基于CGAL和OpenGL的海底地形三維可視化
揭開人臉識別的神秘面紗
學生天地(2020年31期)2020-06-01 02:32:06
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
深度觀察
深度觀察
深度觀察
主站蜘蛛池模板: 一级成人欧美一区在线观看 | 99精品免费在线| 手机在线国产精品| 亚洲va精品中文字幕| 无码高潮喷水在线观看| 中文字幕一区二区视频| 无码一区二区波多野结衣播放搜索| 天堂成人av| 91在线无码精品秘九色APP | 国产福利免费在线观看| 欧美日韩中文国产| 国产精品一区二区国产主播| 久久永久精品免费视频| 伊人91在线| 一级毛片免费不卡在线| 91亚洲免费视频| 国产 日韩 欧美 第二页| 福利在线一区| 亚洲精品黄| 国产精品三级av及在线观看| h视频在线播放| 亚洲性影院| 色噜噜综合网| 天堂在线www网亚洲| 91探花在线观看国产最新| 无码在线激情片| 国产在线八区| 四虎永久免费在线| 国产成在线观看免费视频| 国产在线视频自拍| 五月天在线网站| 久久香蕉国产线看观看精品蕉| 亚洲欧洲日韩综合色天使| 91年精品国产福利线观看久久 | 国产精品成人第一区| 麻豆精品久久久久久久99蜜桃| 亚洲欧洲国产成人综合不卡| 国产鲁鲁视频在线观看| 成人在线观看一区| 在线日本国产成人免费的| 亚洲综合片| 欧美高清三区| 久久精品国产国语对白| 亚洲欧美另类视频| 一级毛片在线播放免费观看| 强乱中文字幕在线播放不卡| 中文字幕 91| 无码国产偷倩在线播放老年人| 香蕉在线视频网站| 国产伦精品一区二区三区视频优播 | 超清人妻系列无码专区| 亚洲精品色AV无码看| 在线观看热码亚洲av每日更新| 国内精自视频品线一二区| 国产福利在线观看精品| 国产天天色| 性欧美精品xxxx| 特级做a爰片毛片免费69| 国产精品99r8在线观看| 国产制服丝袜无码视频| 国产精品无码久久久久AV| 亚洲精品无码不卡在线播放| 日韩精品亚洲人旧成在线| 久久91精品牛牛| 亚洲欧美人成人让影院| 亚洲综合婷婷激情| 国产人碰人摸人爱免费视频| 四虎永久在线精品国产免费| 国产精品美女网站| 国产精品久久久久久久久久98 | 久久综合亚洲鲁鲁九月天| 日韩大片免费观看视频播放| 九色国产在线| 97在线公开视频| 一级毛片在线免费视频| 欧美精品在线免费| 中文字幕调教一区二区视频| 首页亚洲国产丝袜长腿综合| 亚洲视频免费在线看| 国产在线视频导航| 成人亚洲视频| 国产精品美人久久久久久AV|