錢騭寰 陳懷民
(西北工業(yè)大學 陜西省西安市 710072)
人臉表情識別是目前人臉識別領域的一個熱點研究話題,其關鍵技術為表情特征提取,常用的有幾何特征提取方法、外貌特征提取方法。前者為一種宏觀的方法,其從總體上表示出人臉的結構變化。具體方法設計主動形狀模型、活動外觀模型、差分主動外觀模型。
1995年,Cootes 等人首先提出了主動形狀模型(Active Shape Models,ASM), 該方法是基于統計模型的特征匹配方法。緊接著Cootes 等人在 ASM 的基礎提出了活動外觀模型(Active Appearance Models, AAM)方法。 Cheon 等人提出了一種差分主動外觀模型 (AAM) 和流形學習相結合的人臉表情識別方法實現了表情的分類識別。
外貌特征的提取方法是一種微觀的方法,外貌特征是基于使用全部人臉圖像像素性質的特征,反映了人臉圖像底層的信息,尤其表現了局部細微變化的信息。主要涉及局部二值模式(LBP)、Gabor 小波變換等方法。Shan 等人用增強的 LBP 算法來進行特征提取,并結合SVM 分類器,實現了識別性能的提升。Liu 等人提出了一種結合Gabor 小波和核主成分分析(KPCA)進行人臉表情識別的方法,實驗結果證明該方法有著較好的性能。
對人臉特征進行提取之后,就需要開始對表情情緒進行識別,也即是將表情劃分為不同的情緒,常見的表情識別算法有隱馬爾科夫算法,人工神經網絡算法,支持向量機算法,k 鄰域算法等。
從當前的研究現狀分析可知,基于深度神經網絡的人臉表情識別技術成為發(fā)展的新趨勢,鑒于本文在上述兩個過程中采用了深度神經網絡予以實現,從而提高整體識別效果。
生成對抗性學習引入了一種相對較新的DL 框架,用于訓練生成性對抗性網絡(GAN)。流程如圖1。
GAN 由兩個網絡組成:生成模型和鑒別器模型。通過產生最小 - 最大對抗性博弈同時訓練兩種模型,其中判別模型試圖確定給定樣本是來自生成器還是來自真實數據。生成器從先前的分布p(z)映射sample z 并將其映射到數據空間。這被定義為:

雖然是一個相對較新的子領域,但GAN 已成為主流的合成圖像生成算法。因此,各種作品都集中在真實合成面部表情圖像的生成上。其中一些作品包括多姿態(tài)人臉識別或面部表情圖像完成。

圖1:生成對抗性網絡流程圖

圖2:GUIDE 運行后的最終界面
貪婪GLW)分層是提高深層神經網絡泛化重要方法,可通過將每個單獨的層視為淺層網絡來促進深度神經網絡的訓練。該有兩個層h1 和h2,在GLW 無監(jiān)督訓練中,每層被視為個體淺層網絡并且被單獨訓練為自動編碼器,自動編碼器由編碼器功能和解碼器功能組成,然后給定無監(jiān)督訓練函數L,其將訓練數據作為輸入并返回訓練的編碼器函數f(k),使用原始像素數據訓練深度神經網絡的第一層。將得到的f(k)加到經過訓練的編碼器函數中。對于每個剩余的圖層,傳遞原始像素數據到f,并使用得到的特征來學習f(k + 1),直到k=m,其中m 是神經網絡的層數。
情感識別中,采用Gabor filtеrs 來檢測邊緣并突出顯著特征。Gabor filtеrs 基本上是由高斯核函數調制的正弦曲線,其中正交方向由實部和虛部組成。Gabor filtеrs 的實際分量應用于具有尺寸的圖像,其中:

將Gabor filtеrs 與圖像卷積后的幅度響應由下式給出:

表1:SCAE 和CNN 拓撲

最近的研究表明,權重的隨機初始化可以導致局部最優(yōu)解,無法獲取全局最優(yōu)結果,對此設計SCAE 和CNN 拓撲網絡結構,其如表1 所示。
對抗性自動編碼器旨在產生足夠逼真的重建同時實現最小的信息損失。對此本文中提出一種新穎的生成對抗性堆疊卷積自動編碼器模型。該優(yōu)化通過求解如下公式獲取:

本文采用了兩個自動編碼器,第一個模型深度對抗疊層卷積自動編碼器旨在解決不變性問題,而第二個模型深度對抗疊層卷積自動編碼器則使用本章的姿態(tài)不變方法。前三個卷積層被ConvMLPlayers 替換,最后一個被替換為HalfConv 層。此外,兩種模型都使用Gradual-GLW 以貪婪的分層無監(jiān)督方式進行訓練。
為了提高可信度,訓練兩個模型:第一個模型SCAE1 在Multi-PIE 和Yale 數據集上進行了訓練,并在CK +和KDEF 語料庫上進行了評估;第二個模型SCAE2 在面部表情數據集的組合語料庫中進行訓練和評估。多PIE 數據集SCAE1 模型在Multi-PIE 數據集上進行訓練。
根據上述分析和相關技術支持得到了對應的GUI 設計結果其如圖2 所示。在此基礎上那個進行實驗分析。
SCAE 模型使用改進的GLW 算法進行訓練,得到最終的測試結果如圖3 所示。SCAE 模型能學習提高低亮度圖像(左圖像)的相對亮度,或降低相對高亮度圖像(右圖像)的亮度。與使用GLW 生成的重構相比,使用貪婪GLW 生成的重構保留了所有空間信息。本文提出的漸進式Gradual-GLW 訓練方法克服了經典GLW 訓練方法的局限性,顯著減少了訓練時間和重建誤差。因此,SCAE 模型也提高了它們的泛化能力,即使在看不見的數據上也能產生顯著的光照不變性重建。

表2:CNN1a 和CNN1b 的分類性能對比

圖3:算法性能對比:GLW 方法(中間圖像)訓練時,SCAE1 對未觀察數據(左圖像),經驗式GLW 方法(右圖像)。
表2 展示了CNN1a 和CNN1b 的分類性能對比。CNN1a 對ck+語料庫的訓練子集進行了微調,分類性能達到94.90%。CNN1b 在kdef 上進行了微調,在測試子集上實現了95.70%的最新分類率。
本文的主要目標是檢測與識別出人臉情緒,在這個目標下本文深入分析了人臉識別和人臉檢測的主流技術以及影響精確度的主要因素,提出一個創(chuàng)新的深層次人工神經網絡結構來進行面部表情圖像中情感的識別。此外,還探討了一種人臉檢測深層強化學習體系的發(fā)展,由于當前大部分的深度學習算法都單純考慮面部表情的識別,并沒有考慮光照和姿勢的因素,因此具有一定的局限性,本文提出的算法可以解決現實生活場景中常見的照明,面部姿勢和面部旋轉帶來的識別問題。最后通過實驗證明了本文算法的有效性。