田青,毛軍翔,曹猛
(1.南京信息工程大學 計算機與軟件學院,江蘇 南京 210044;2.南京信息工程大學 數字取證教育部工程研究中心,江蘇 南京 210044;3.東南大學 計算機科學與工程學院,江蘇 南京 210096)
如今,計算機技術飛速發展,人臉年齡估計(age estimation,AE)作為機器學習、模式識別領域的經典研究課題,吸引了眾多學者的目光,并被廣泛應用于輔助身份識別[1]、智能服務推薦[2-4]等眾多應用場景。
鑒于人臉的連續變化,絕大多數現有工作借助不同的人臉先驗信息關系構建AE 模型。有序性為AE 工作中常用的先驗關系。文獻[5]提出一種LBP 特征的代價敏感版本CS-LBPL,將代價敏感學習融入LBP 特征,借助超平面序列排序器進行AE。文獻[6]考慮直接在特征上利用年齡屬性的有序信息,并提出一種用于保持人臉圖像局部流型結構與年齡間序列特征的特征提取方法,隨后借助超平面序列排序器獲取AE 結果。文獻[7]引入Lp范數計算類別中心,以便獲取更魯棒的有序投影。文獻[8]結合AlexNet 網絡提出一種輸出有序回歸損失預測年齡。文獻[9]認為OR-CNN[8]未能保護面部圖像之間的有序關系,由此提出ODFL 算法預訓練VGG-16 網絡,以提取面部圖像的有序結構關系。鑒于人臉老化過程包含連續漸變的特性,近鄰相似關系被考慮運用至AE。文獻[10]提出標記分布學習(label distribution learning,LDL)以刻畫年齡屬性的近鄰相似性。隨后,文獻[11-13]借助深度網絡學習圖像特征并結合LDL,獲得更優的AE 結果。另一方面,文獻[14]結合深度隨機森林采用LDL 刻畫年齡的近鄰相似語義信息。
盡管現有AE 工作估計性能表現較好,然而絕大部分工作僅著重考慮有序性、近鄰相似性等年齡屬性的固有特性,或者AE 任務與其余面部屬性估計任務的關聯,極少AE 工作考慮挖掘年齡屬性內部潛在的關系。為利用人類年齡屬性存在有序性、近鄰相似性等固有特性,同時挖掘年齡屬性內部潛在關系,文獻[15-16]嘗試將累積屬性編碼(cumulative attribute,CA)[17]結構作為AE先驗信息,挖掘CA 編碼內在關系,并取得了良好的AE 效果。這一現象驗證了CA 編碼之間存在潛在關系。
與此同時,文獻[18]指出,基于面部特征空間混合高斯建模的年齡估計效果優于單高斯建模。這一事實表明人臉特征空間應服從混合高斯分布,而混合高斯分布的多峰性表征了隨著人類年齡的增長,面部各區域容貌變化程度不一致的事實。因此,本文認為同一幅圖像所提取的各維度特征向量之間應該存在某種未被發掘的內在聯系,即人臉樣本特征之間存在潛在聯系。
不僅如此,樣本特征關系經過回歸函數映射至CA 編碼空間后,這些關系將線性傳遞至對應編碼之中,原始面部特征之間的關系經過線性變換傳遞至輸出空間。因此,在AE 問題當中,這種線性變換,即投影矩陣W,作為輸入輸出的橋梁亦蘊含某種潛在關系有待發掘。
為發掘上述3 種潛在關系,即輸入特征關系、輸出編碼關系以及輸入輸出關系,本文提出一種耦合(本文耦合不僅指在輸入與輸出的耦合,同時指在樣本空間或編碼空間內的自關系耦合。)關系自學習年齡估計模型CRSAE (coupled relationships self-learning age estimation)。具體而言,本文借助CA 編碼策略編碼年齡標簽以刻畫人臉固有的有序特性與近鄰相似特性。與此同時,為投影矩陣W構建矩陣變量高斯分布模型用以挖掘輸入特征關系與輸出編碼關系,并引入一個低秩結構矩陣用以捕獲輸入輸出關系。有別于現有的年齡屬性關系挖掘模型,本文提出的CRSAE模型不僅能夠利用這三類耦合關系,同時能夠自動挖掘這些潛在關系而無需手工定義。鑒于面部特征具有高度非線性的特性[19],本文在所提出的模型的基礎上引入深度架構進一步提升模型的泛化能力。
在AE 問題中,Chen 等[17]為保留年齡標簽的近鄰相似性、有序性等內在特性,對one-hot 編碼策略[20]進行改進,提出了CA 編碼策略,其編碼形式為

隨后,Tian 等[15]為挖掘CA 編碼內部的潛在關系,對標簽編碼矩陣引入差分操作,用來描述標簽編碼矩陣的0 階和1 階關系,其損失函數為

式中:λ1、λ2、λ3為非負超參數;Yk表示樣本標簽對應的CA 編碼矩陣第k維行向量。鑒于線性回歸函數可等價為,因此式中表示拓展后的樣本矩陣,表示拓展后的投影矩陣,目標函數第1 項代表經驗損失,第2 項用于控制模型復雜度,第3 項用于刻畫0 階CA 關系,第4 項用于刻畫1 階CA 關系。鑒于篇幅關系,具體模型請參考文獻[15]。
盡管上述CA 編碼關系挖掘方法取得了良好的效果,然而同樣由于差分操作的引入致使CA編碼的原始結構遭到破壞。為此,文獻[16]從投影矩陣W的列關系入手,構建如式(3)所示的目標函數,在保留CA 編碼原始結構關系的同時,自動發掘CA 編碼之間的潛在關系。為方便闡述,本文將此模型稱為AELR (age estimation through exploring label relationships)。

雖然文獻[15-17]的工作在AE 任務上取得了一定成功,但是其僅對CA 編碼關系做了單方面挖掘,并未挖掘更深層或多層面的年齡屬性潛在關系,從而使得AE 模型泛化性能較弱。為克服這一問題,本文提出一種耦合關系自學習的人臉年齡估計模型(CRSAE),分別從輸入特征關系、輸出編碼關系以及輸入輸出關系3 層面發掘年齡屬性的潛在關系。CRSAE 流程圖如圖1 所示。首先,對訓練數據集進行人臉特征提取,得到面部特征向量。隨后,結合CA 編碼策略,對樣本標簽進行CA 編碼,與此同時,引入的關系矩陣表示的編碼關系約束、特征關系約束和輸入輸出關系約束,進行多層面耦合潛在關系挖掘。最后,通過SVR 回歸器將CA 編碼映射到年齡標量空間。

圖1 耦合關系自學習的人臉年齡估計模型(CRSAE)流程Fig.1 Flowchart of coupled relationships self-learning age estimation
受Zhang 等[21]工作的啟發,本文將投影矩陣W∈Rd×K視作隨機矩陣,采用矩陣正態分布為其建模,以獲取其行結構與列結構關系,其概率密度函數為

式中:隨機矩陣變量W服從矩陣正態分布:Ψd×K(W|E,ΩF,ΩC)代表其概率密度函數。E∈Rd×K表示隨機矩陣變量W的期望;ΩF和ΩC分別為矩陣W的行協方差矩陣和列協方差矩陣。由矩陣W的定義可知,其行結構關系與列結構關系可視作對樣本輸入特征關系與輸出編碼關系的刻畫。因此,對這兩類具有內部耦合性的潛在關系挖掘,可借助對協方差矩陣 ΩF與 ΩC的參數估計實現。此時,樣本特征內部的潛在關系可以通過對 ΩF建模來體現,CA 編碼內部潛在關系可以通過對 ΩC建模來體現。與此同時,為便于計算,本文將期望矩陣E設為零矩陣。
為建模刻畫協方差矩陣 ΩF與 ΩC,本文結合回歸模型f(xi)=WTxi+b,先對隨機矩陣W進行最大后驗估計,隨后對參數b、ΩF、ΩC進行最大似然估計,得到如下所示的目標函數:

式中:tr(·)=1用于控制模型復雜度,ΩF,ΩC0 用于保證模型的凸性質。目標函數的第1 項為經驗損失,第2 項用于控制模型整體復雜度,第3 項為關系自動挖掘項用以自動挖掘樣本輸入特征關系與輸出編碼關系。
與此同時,樣本輸入特征與輸出編碼之間亦存在潛在的耦合關系。同類樣本之間存在類不變特征表示,同時人臉原始特征之間存在塊相關的特性,即樣本特征關系;經過回歸函數WTX+b映射至CA 編碼空間后,這些關系將線性傳遞至對應編碼之中。因而,作為輸入輸出中間橋梁的投影矩陣W蘊含某些潛在關系有待挖掘,本文稱為輸入輸出關系。為挖掘這種關系,受文獻[22-23]啟發,本文在目標函數(5)的基礎之上引入一個結構矩陣S,并對其施加低秩懲罰。因此,式(5)模型被重寫為

式中:λ1、λ2、λ3、λ4為超參數;S∈RK×K代表構造的結構矩陣,用于刻畫潛在的回歸結構。第3 項用于控制模型復雜度,第4 項用于去除冗余關系,以便提取更有效的關系結構。
鑒于引入低秩約束項rank(S)導致目標函數(6)變成NP-hard 問題[24],不利于求解。為此,本文采用核范數||S||?替換低秩函數[25],即最終CRSAE 模型如下:

值得注意的是,本文采用核范數自動去除原始特征空間傳遞至輸出標簽空間中的冗余關系。若直接對W施加低秩約束,一方面直接破壞了原本的回歸結構,使得輸出有效類數目小于K,顯然不合理;另一方面,由式(4)、(5)中導出,若直接加入,則扭曲了矩陣正態分布的建模假設。鑒于矩陣具有線性組合的特性,本文單獨引入結構矩陣S刻畫樣本輸入特征與輸出編碼關系,以避免上述問題。
為便于求解式(7),本文基于ALM 策略[26],提出一種交替優化算法。具體而言,首先引入一個輔助矩陣Z對其進行目標的等價轉換,轉換后的目標函數為

隨后,對式(8)進行拉格朗日增廣,得如下形式:

最后,采用類似交替優化算法,優化待求解標量。
求解。當固定其他四者時,式(9)可以寫成:

對式(11)采用梯度下降算法更新:

求解S。當固定其他四者時,式(9)可以寫成:

然后計算J關于S的梯度,并令 ?J/?S=0,便可得到S的閉合解:


求解 ΩC。當固定其他四者時,依據文獻[16],ΩC具有閉合解:

求解 ΩF。當固定其他四者時,ΩF具有相似的閉合解形式:

求解Z。當固定其他四者時,式(9)變成:

此時Z具有閉合解:

本文用Id/d初始化ΩF,IK/K初始化ΩC,IK初始化S,其中IR為R階單位矩陣,不斷重復上述步驟直到式(9)收斂,此時、ΩF、ΩC、S即為模型最終解。綜上所述,耦合關系自學習的人臉年齡估計模型求解算法如下。
算法CRSAE 優化算法

為進一步提升模型性能,將對提出的耦合關系自學習的人臉年齡估計模型(CRSAE)進行深度化拓展,得到Deep-CRSAE 模型。具體如圖2所示,本文采用VGG-16 深度卷積神經網絡作為基礎架構,調整其最后一層全連接層的大小以適應CA 編碼,同時將最后原本的SoftMax 函數及交叉熵損失移除,替換為CRSAE 目標函數。通過這樣的設置,顯式的特征關系自學習約束 ΩF可以經過反向傳播作用于每一層神經網絡,提高深度網絡的特征學習能力。同樣,顯式的編碼關系約束 ΩC和輸入輸出關系約束S也可作用于每一層,獲得性能更加優越的年齡回歸器。

圖2 CRSAE 深度化拓展示意Fig.2 Schematic diagram of Deep-CRSAE
為評估于第2 節中提出的潛在關系自學習的人臉年齡估計模型,本文在4個廣泛應用于年齡估計任務的數據集上進行了實驗:FG-NET[27]、Morph I[28]、Morph II[28]和Cross-Age Celebrity Data Set(CACD)[29]。
在特征提取階段,為估計提出模型在特征表示層面的泛化能力,本文為不同數據集采用不同的特征提取方法。在FG-NET 和Morph I 數據集上,提取AAM 特征[30],在Morph II 數據集上提取BIF 特征[31],而對CACD 數據集提取HoG 特征[32]。然后,對于提取的樣本特征,采用PCA 降維算法保留95%的信息。降維后,FG-NET 數據集特征維度為200 維,Morph I 數據集為49 維度,Morph II數據集為146 維度,而CACD 數據集為204 維。
超參數 λ1、λ2、λ3、λ4采用五折交叉驗證網格搜索選取的方式在[10?2,10?1,100,101,102]范圍內選取。為評估模型性能,本文采用平均絕對誤差(mean absolute error,MAE)進行測量,其定義如式(22)所示。其中fi和yi分別表示第i測試樣例的預測年齡值和真實年齡值。

為驗證提出模型的有效性與先進性,在線性模型對比實驗中,本文采用下列相關方法進行實驗對比:
1)LSR[17]:采用one-hot 編碼的最小平方回歸模型;
2)caLSR[17]:采用CA 編碼的最小平方回歸模型;
3)CAOSR[15]:挖掘CA 編碼0 階關系的模型;
4)CAADOR[15]:挖掘CA 編碼0 階與1 階關系的模型;
5)AELR[16]:挖掘CA 編碼關系的自學習模型;
6)CRSAE:本文提出的模型,采用CA 編碼,其目標函數如式(6)所示。
而在深度模型對比實驗中,本文采用以下方法進行對比:
1)OR-CNN[8]:基于有序回歸的深度架構;
2)D2C[33]:深度累積信號對比年齡估計模型;
3)ODFL+ODL+Cross-Entropy[9]:有序特征嵌入的深度年齡估計模型;
4)C3AE[34]:結合LDL 的緊湊深度年齡估計模型;
5)1CH[35]:基于有序學習的深度年齡估計模型;
6)Deep-CRSAE:本文提出模型的深度拓展形式,具體見第2.3 節。
在線性和深度情況下,將本文提出的潛在關系自學習模型與對比方案的預測性能進行比較并結果分析。
3.3.1 線性模型對比實驗
本部分主要展示和分析CRSAE 與其他5 種對比模型的實驗結果,其中加粗部分表示最優結果,下劃線部分表示次優結果。
由表1~4 展示的實驗結果,可以得到以下幾點結論:1)所有AE 模型的MAE 值均隨訓練樣本數量的增加而降低,說明了訓練樣本數量的增加有助于AE 模型捕獲更加精確的潛在關系;2)采用CA 編碼策略的LSR 模型,即caLSR 模型的MAE 值優于采用one-hot 編碼策略的LSR 模型。說明了相較于one-hot 編碼,CA 編碼更能有效利用面部年齡屬性的先驗信息,如有序性、近鄰相似性;3)發掘CA 編碼關系的AE 模型性能均優于caLSR 模型。該結果驗證了CA 編碼關系的客觀存在性,并且對此關系的挖掘能夠提升AE 預測性能;4) 在絕大多數情況下,AELR 模型優于CAOSR 模型及CAADOR 模型。說明了盡管CAOSR 模型和CAADOR 模型嘗試通過挖掘CA 編碼的0 階和1 階關系來刻畫CA 編碼潛在關系,但是由于差分操作破壞了原始編碼結構,導致整體模型魯棒性減弱,而AELR 模型通過自學習的方式,保留了CA 原始編碼結構,提高了AE 模型的魯棒性;5)本文提出的CRSAE 取得了所有情況下的最優值。這有力地說明了CRSAE在AE 任務上的有效性及先進性,同時輸入特征關系、輸出編碼關系以及輸入輸出關系的挖掘利用能夠提升模型的魯泛化能力。

表1 在FG-NET 數據集上的年齡估計結果對比(MAE±STD)Table1 Comparison of age estimation results on FG-NET dataset (MAE±STD)

表2 在Morph I 數據集上的年齡估計結果對比(MAE±STD)Table2 Comparison of age estimation results on Morph I dataset (MAE±STD)

表3 在Morph II 數據集上的年齡估計結果對比(MAE±STD)Table3 Comparison of age estimation results on Morph II dataset (MAE±STD)

表4 在CACD 數據集上的年齡估計結果對比(MAE±STD)Table4 Comparison of age estimation results on CACD dataset (MAE±STD)
3.3.2 深度模型對比實驗
本文采用預訓練好的VGG-16 作為基礎架構,并使用SGD 優化器。此外,設置權重衰減為0.000 5,動量為0.9,批次大小為64,初始學習率為0.001 且每30 輪epoch 縮減為原來的10%。根據上述設置,本文使用80%的Morph II 和CACD數據集進行訓練,剩余樣本進行測試。表5 匯總了MAE 對比結果。

表5 在Morph II 與CACD 數據集上基于深度架構的年齡估計對比結果(MAE)Table5 Comparison of age estimation results on Morph II and CACD dataset based on deep framework(MAE)
從表5 可以看出,相較于另外5 種深度學習方法,Deep-CRSAE 在AE 任務上取得了更低的MAE 值,從而也再一次說明了本文所提出的耦合關系挖掘策略在深度架構上依然有效,CRSAE 具有優越魯棒性和泛化性。
本文主要探索了人臉年齡估計問題中,輸入特征關系、輸出編碼關系以及輸入輸出關系對年齡估計的影響。首先,利用投影矩陣W的行列協方差矩陣 ΩF、ΩC對編碼關系和特征關系進行建模。隨后,引入一個結構矩陣S對輸入輸出關系進行發掘,從而構建了一種耦合關系自學習的人臉年齡估計模型(CRSAE)。然后,在原始關系挖掘策略上引入深度先驗信息,對原始模型進行深度化拓展(Deep-CRSAE)。最后,在FG-NET、Morph I、Morph II 和CACD 這4個年齡數據集上進行了實驗,驗證了所提出模型的有效性和魯棒性。