南寧學院 廣西 南寧 530000
人臉表情識別是計算機視覺領域的一個研究熱點。當前深度學習方法的研究在提升表情識別性能上取得了重大進展。然而,訓練數據的缺乏以及大量表情無關因素(例如身份信息、光照、頭部姿態、面部遮擋等)的影響影響了深度模型的特征學習能力,容易出現過擬合現象,限制了模型的泛化性能。為了緩解過擬合問題,有些研究使用經過充分預訓練的人臉識別模型,然后在目標表情數據集上進行微調。預訓練的人臉識別網絡具有更強的特征提取能力,另外,人臉識別和表情識別兩個領域的相似性使得面部特征易于遷移,從而提升了表情識別性能。盡管如此,網絡內部仍然保留大量身份主導的信息,極可能削弱其表示不同表情變化的能力。實際上,識別效果既想保留人臉識別網絡強大的感知面部特征的能力,又希望網絡盡可能地學習表情特有的信息。
直方圖均衡化的主要目的是將原始圖像的灰度級均勻地映射到整個灰度級范圍內,得到一個灰度級分布均勻的圖像。主要包括兩個步驟:計算累計直方圖和對累計直方圖進行區間轉換。首先計算圖像有多少個灰度級,然后計算每個像素在圖像內出現的概率,得到歸一化統計直方圖,接下來計算所有灰度級的累計概率,然后用累計概率乘以當前范圍內的最大灰度級得到均衡化后的像素值[1]。
LBP是一種紋理描述算子,是在1996年由Ojala等研究人員提出的,由于LBP特征計算簡單的同時能取得較好的效果,且具有旋轉不變性和灰度不變性等優點。因此在圖像識別和圖像分類中得到了廣泛的應用,并取得了很好的效果。原始的LBP算子定義在3*3鄰域內,以鄰域中心為閾值,中心像素值依次與其8個鄰域像素值進行比較,若鄰域像素大于或者等于中心像素值時則編碼為1,小于中心像素值則編碼為0,最終會產生一個8位二進制數,這個二進制數值就是中心像素的LBP值,它反映了鄰域內紋理信息[2]。
考慮到人臉表情識別是一個依靠數據驅動的任務,訓練一個足夠深的網絡來捕捉與表情相關的細微形變需要大量的相關數據。因此,在數量和質量上均較為匱乏的數據庫是當今深度人臉表情識別系統面臨的主要挑戰。由于不同年齡段、不同種族和不同性別的人表達和解析面部表情的方式也不同,一個理想的表情數據集應該包含除了表情標簽之外,各種豐富且精確的其他面部屬性標簽,例如年齡、性別和種族。除此之外,雖然面部遮擋和多姿態問題在深度人臉識別領域得到了廣泛的研究,但其在深度人臉表情識別中受到的關注仍較少。主要原因是缺乏具有遮擋類型和頭部姿態標注的大型面部表情數據集。另外,對大量攜帶復雜自然場景變化的數據進行精確標注的難度很大。一個可靠的解決方式是在專家的指導下對數據進行多人的眾包標注[3]。
人臉識別和表情識別兩個任務存在很強的關聯性。持續學習希望在持續增長的任務中都能保持良好的性能,而本文研究僅希望提升后者即表情識別的性能。持續學習的方法通過限制對以往任務具有更強重要性的參數變化來保留其學習能力,這種重要性通過每個參數對總體損失值變化的貢獻來衡量。對于人臉識別任務來說,由于類別眾多,“重要”參數,即對損失值的變化貢獻更大的參數,傾向于與感知面部一般特征相關而不是某一具體類別。因此,通過限制重要參數的變化可以更加有效地利用網絡感知面部公共特征的能力,避免表情網絡的過擬合[4]。
在現實應用中人們有著多種情感表達方式,面部表情只是其中的一種模態。盡管基于可視人臉圖像的表情識別能夠取得不錯的效果,但與其他模態結合到一個高層框架中能夠提供互補信息,從而進一步增強模型的魯棒性。例如,可將音頻模態作為次重要的因素與圖像信息相融合來進行多模態的情感識別。此外,紅外圖像、三維人臉模型的深度信息、人體生理信息以及手勢姿態也可以作為面部表情的互補數據來輔助情感識別。在臉部遠程光電容積脈搏波(remote photo plethysmo graphy,rPPG)信號分析上的最新進展RhythmNet,也可能為表情分析帶來新的模態[5]。
本文分析了人臉識別與表情識別之間的區別與聯系,應用持續學習的思想進行表情識別,避免由于缺乏足夠的訓練數據導致的模型過擬合問題。主要通過參數重要性正則保留人臉識別模型強大的特征提取能力,同時通過重要性參數的變化能夠學習表情相關的信息,避免大量身份信息的保留對表情識別的不利影響。本文方法在RAF-DB數據集上達到了88.04%的測試精度,由于基本保留了提取面部特征的能力,模型對于真實世界環境下表情圖像多樣性的處理能力增強,性能提升更為明顯。但由于實驗室環境下收集的表情圖像基本為正面無遮擋的規范人臉,圖像質量更高,特征更加易于學習和識別,因此本文方法對于這類數據集的識別性能提升不明顯。