摘要:提出了一種旨在減少支持向量機的訓練量和提高特征有效性的表情識別算法。使用排序PCA+LDA得到最優表情向量;使用模糊核聚類進行有效數據集約簡,構建二叉決策樹訓練支持向量機。在JAFFE數據庫上的識別結果優于其它幾種算法,在保證識別率的同時縮短了訓練時間。
關鍵詞:特征選擇;支持向量機;核函數;表情識別
中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2008)36-2700-03
Expression Recognition Based on Twice Feature Selection and Support Vector Machines
LI Gui-lin1, ZHAO Hui1,2
(1.Institute of Information and Scientific Engineering, Xinjiang University,Urumqi 830046,China; 2.University of Science and Technology Beijing, Beijing 100083, China)
Abstract: To describe an expression recognition algrithm aims at reducing the training volume and enhancing the validity of features.It employed the sort PCA and LDA to get the optimal expression vector,and used FKC to reduce effective dataset again and build binary decision tree to train SVM.Experimental results in the JAFFE database indicate that the proposed algorithm generates higher accuracythan others and shorten the training time simultaneity.
Key words: feature selection; support vector machines; kernel fouction; expression recognition
1 引言
隨著圖象分析和模式識別技術的不斷成熟,面部表情識別日益成為人們研究的熱點。面部表情在人際交互中起著重要作用[1],其識別也是解決情感計算的關鍵[2],人工心理理論[3]也將其作為重要研究內容。它對“普適計算”的智能環境、情感機器人、多模人機接口、臨床心理學等有著極其重要的意義。
面部表情識別系統主要由三部分構成:面部獲取,特征抽取與表征,表情分類。其中,特征抽取與表征最為關鍵,它將原空間變換為一個維數更小的空間,并實現數據映射。提取精確有效特征,去除信息冗余以及采用新的特征進行表情識別是特征提取研究的重要方向。Donato[4]比較了識別面部AU的多種技巧,實驗表明ICA和Gabor小波有著良好的性能。Tian[5]的研究工作也證實了Gabor濾波在捕捉細膩信息上的優勢以及對光照的魯棒性。支持向量機(SVM)以其能夠有效避免傳統學習方法中的過學習、欠學習、“維數災難”以及陷入局部極小點等問題在人臉識別、數據庫學習、身份驗證、文本分類等領域獲得了成功運用。
本文根據上述Gabor小波和SVM的優勢,結合模糊核聚類(FKC),提出了一種二次特征選擇的面部表情識別方法。首先,對面部的18個特征點進行Gabor濾波。其次,使用Fisherface法對Gabor向量進行訓練,得到投影空間。再次,使用模糊核聚類(FKC)進行二次特征提取和構建二叉決策樹。最后,訓練支持向量機進行表情識別。使用了JAFFE數據庫,表現出了優良的性能。
2 特征選擇
本文在文獻[6]的基礎上獲得臉部的18個特征點,這些特征點能夠有效的描述六種基本表情,有明顯的解剖學意義或臉部結構意義,并能夠較為可靠的檢測。如圖1所示。
2.1 Gabor特征提取
Gabor濾波器在空間域和頻率域具有良好的分辨能力,不同參數的Gabor濾波器能夠捕捉圖像中對應的空間頻率、空間位置以及方向的局部特性信息。這些特性也使它對亮度和人臉姿態變化不敏感,因此常被用來做圖像分析。二維Gabor小波變換描述了圖像I(x)上給定一點x=(x,y)附近區域的灰度特征,定義如下:
■(1)
Gabor核函數的定義為:
■ (2)
式中:
■(3)
本文使用了5個頻率,8個方向的Gabor核函數,即v=0,1,…,4,μ=1,2,…,8。對圖像中的一個點進行Gabor濾波,得到40個Gabor系數。然后對獲得的15個特征點進行Gabor濾波,得到長度為720個Gabor系數的向量J。
2.2 Fisherface判別分析
為了克服直接使用LDA帶來的大矩陣和類內散布矩陣奇異問題,減少計算量和增強數據的可區分性,我們使用了排序PCA+LDA[7]的方法。首先對得到的Gabor系數向量用PCA方法進行降維,然后按照特征值的大小對特征向量從大到小的方向排序,保留最大的前C-1個特征向量,最后使用LDA對排序后的子空間進行計算,產生C-1維的判別子空間。經過變換后數據量大大減少,可以用來進行實時識別。
主要步驟如下:
1) 由公式(4)求解類內表情差值圖像和總體差值表情圖像
■ (4)
其中X為總體樣本空間,Xi為類內樣本空間,i=1…6,為六種基本情緒表情
2)由上述得到的表情數據矩陣采用PCA方法得到表情子空間撒WPCA,由公式(5)求得表情圖像、類內均值圖像、總體均值圖像的表情子空間
■ (5)
3)計算類內散布矩陣Si和總的類內散布矩陣SW,C=6為總的表情分類數
■ (6)
4)求解類間散布矩陣SB,權值Ni為該類表情的圖像數
■ (7)
5)求解類內散布矩陣SW和類間散布矩陣SB的廣義特征值∨和特征向量∧
SBV=∧SwV(8)
6)對特征值從大到小排序,由最大的前C-1個特征向量組合成最佳分類空間WFLD,得到最優表情投影子空間
■(9)
對于任意待識別的表情圖像在該空間的投影變換公式為:
■
3 分類器設計
支持向量機SVM(Support Vector Machines)是Vapnik[8]等人提出的建立在統計學習理論(SLT)的VC維理論和結構風險最小化原理基礎上的一種機器學習算法,在解決非線性、高維、局部極小點等問題方面有突出優勢。其基本思想就是尋找最優超平面將屬于兩個類別的樣本無誤的分開,且分類間隔最大。基本原理如圖2所示。
通過求解最優化問題:
■
其中ξi 為松弛變量(為解決一些樣本不能被超平面正確分類引入),i=1…N,yi∈{-1,+1},xi∈Rd,w∈Rd
得到最優分類函數:■
為了解決非線性可分問題,可以通過核函數將分類樣本映射到高維空間線性可分,Ф:Rd→F,由此得到的分類函數為:
■
現有的支持向量機多類分類方法,從構造上可以分為兩類:1)直接方法,對所有的樣本使用同一個二次規劃,在構造決策函數時同時考慮所有的類別;2)組合方法,通過組合多個二類分類支持向量機來構造多個分類器。其中基于決策樹的SVM在訓練速度、分類速度等方面有良好的表現。
3.1 模糊核聚類特征選擇
為了加快訓練速度,有效區分模糊類的交疊程度,我們使用了模糊核聚類進行了二次特征選擇和構建二叉決策樹。模糊核聚類[9]的基本思想即通過核方法把非線性數據映射到高維空間,擴大類間差異,在高維特征空間進行模糊聚類。轉化為求解最優化的問題:
■
我們由圖2可知,支持向量機的最優超平面是由少數支持向量決定的,且不通過聚類的中心,所以聚類中心的數據對分類并沒有大的影響,反而增加了訓練量。為此,我們在不影響分類效果的同時,使用聚類邊界的數據,大大減少了訓練量。
基本思想如下:
1)初始化X=0,i=1。X:為總體表情圖像集合,為各類表情集合
2)計算Xi的閾值Tj=,其中λj∈(0,1)為調節因子,Dj為樣本到聚類中心的最大距離。
通過計算樣本到聚類中心的距離,并調節λ使數據集得到約簡。
3.2 決策樹的建立
SVM決策樹的基本思想:采用某種方法將所有類別分成兩個子類,再將子類進一步分成兩個次級子類,如此循環,直到得到一個單獨的類別為止。它對于C類問題只需構造C-1個分類決策函數。為了有效的避免類間交疊,在野值較多的問題,我們使用模糊核聚類構造二叉決策樹。如圖3。
圖3中,1-6代表六類基本情緒表情,含義如圖4所示。
3.3 訓練支持向量機
經過模糊核聚類的二次特征選擇和構建決策樹,使得訓練量大大減小,并且由于核函數的應用有效的減小了類間重疊和在野值數目。本文采用SMO[8](Seuqential Minimal Optimization序慣最小優化)算法訓練,該算法使用了塊與分解技術,將工作集限定為2,每次迭代僅優化兩個點的最小子集,從而避免了多樣本情況下的數值解不穩定及耗時問題,同時也不需要大量的存儲空間。根據決策樹,只需訓練5個SVM就可以實現多類分類問題。
4 仿真試驗
本文使用了日本女人表情數據庫(Japanese female facial expression,JAFFE),該數據庫包含了10個日本女人的213幅表情圖像,每個人7種表情,同種表情圖像3-4幅。部分圖像如圖4所示:
圖4 部分圖像
圖片表情依次為①憤怒②悲傷③厭惡㈣恐懼⑤高興⑥驚奇
從表1我們可以看出,本文的排序PCA+LDA的方法,比單獨使用PCA和LDA的識別率要高,這是由于一方面克服了直接使用LDA帶來的大矩陣和類內散布矩陣奇異問題,減少了計算量和增強了數據的可區分性。另一方面,我們采用了Gabor小波,它具有良好的空頻分辨能力,且對光照和頭部姿態魯棒。在訓練支持向量機階段,由于采用了模糊核聚類進行了二次特征提取,加快了訓練速度。并且由其生成的決策樹,減小了類間重疊和在野值的數目,有效的提高的SVM分類器的識別率。
5 結束語
本文從使用盡量少的有效表情特征實現分類器的訓練出發,采用了排序PCA和LDA得到表情的特征子空間,再次使用FKCA進行了二次特征選擇。在和單獨使用PCA、LDA的比較中得到了較高的識別率而使用了較少的訓練時間。在訓練支持向量機時由FKC構造的二叉決策樹也表現出了良好的性能。但本文旨是在提高特征提取的有效性、可區分性上,僅僅是識別了JAFFE數據庫中的6種基本表情,識別動態表情、表情強度以及較為復雜的混合表情,是我們進一步努力的方向。
參考文獻:
[1] Mehrabian A.Communication without words[J].Psychology Today,1968,2(4):53-56.
[2] Picard R W. Affective computing[M]. England:MIT Press,1997.
[3] 王志良.人工心理學——關于更接近人腦工作模式的科學[J].北京科技大學學報,2000,22(5):478-48.
[4] Donato G, Bartlett M, Hager J, et al. Classifying facial actions[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,1999,21(10):974-989.
[5] Tian Y L, Kanade T, Cohn J. Evaluation of gabor-wavelet-based facial action unit recognition in image sequences of increasing complexity[C].In Proceedings of the 5th IEEE International Conference on Automatic Face and Gesture Recognition, 2002.
[6] 武宇文.基于臉部二維形狀與結構特征的表情識別研究[D].北京大學,2005.
[7] Dubuisson S, Devoine F, Masson M. A solution for facial expression representation and recognition[J].Signal Processing: Image Communication,2002,17(9): 657-673.
[8] Vapnik V. The Nature of Statistical Learning Theory[M].New York:Springer Verlag,1995.
[9] 伍忠東,高新波,謝維信.基于核方法的模糊聚類算法[J].西安電子科技大學學報,2004,31(4):533-537.
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。”