李金蔓,汪劍鳴,2,金光浩
(1.天津工業大學 電子與信息工程學院,天津 300387; 2.天津工業大學 計算機科學與技術學院,天津 300387)(*通信作者電子郵箱jinguanghao@tjpu.edu.cn)
深度學習和機器學習等技術的發展,可以使網絡自動學習并選取多種特征用于分類或識別,從而達到很高的精度。在人臉檢測領域,因為人臉包含著豐富而又復雜的信息,往往會提取多種面部特征信息進行融合并篩選,從而實現更高的檢測精度。在交友或面試等很多社交場合,人臉吸引力作為第一印象,發揮著很重要的作用。區別于簡單的人臉檢測,人臉吸引力的檢測不僅涉及到人臉的多種特征的融合,更包含個人的審美和大眾審美偏好等決策因素。目前人臉可用于吸引力分析的特征可分為兩大類:一類是臉型輪廓、幾何比例、膚色、對稱性等全局特征;一類是皮膚紋理、五官尺寸等局部特征[1]。Eisenthal等[2]提出基于人臉的37個距離特征和頭發顏色、面部平滑程度、人臉對稱性作為人臉吸引力程度的表征特征,這是在人臉吸引力預測領域的最初探索。Mao等[3]提出了一個17維的面部吸引力幾何特征表示,在分類問題上取得了不錯的結果。Zhang等[4]將幾個低級別的人臉特征和高級特征相結合,提出了一個基于數據驅動的面部美麗程度分析框架。依靠手動標注和典型的特征,面部吸引力程度研究已經取得了很好的效果。但是僅僅手工獲取的特征級的信息融合已經難以對人臉吸引力這一研究達到實際的應用需求精度。Gan等[5]則在不依賴人工特征選擇的情況下,通過卷積限制玻爾茲曼機(Convolutional Restricted Boltzmann Machine, CRBM)對面部吸引力特征進行自動學習。另外,Gan等[6]提出了一種基于自適應去卷積網絡(Adaptive Deconvolutional Network, ADN)的面部美麗程度預測模型,通過卷積網絡來實現圖片特征的層次化表達。上述的研究方法還僅限于單一層面上的特征融合,還沒有利用決策級融合的互補性,無法直接用于個性化的人臉吸引力檢測。通過決策級融合能夠充分利用多模態信息,更加精確地預測結果。Simonyan等[7]通過時空雙流網絡輸出兩個分數,通過決策級融合,對動作的識別精確度有顯著提高。何剛等[8]曾嘗試將特征級和決策級信息融合進行場景分類,并且取得了不錯的結果。
本文借鑒了多層次融合的思想,針對僅依靠特征級融合在個性化人臉吸引力預測中精度不高的問題,提出了一個基于特征級和決策級信息融合的個性化人臉吸引力預測框架。該方法能夠充分利用多模態信息,發揮信息融合在特征級和決策級的互補性優勢,不僅在特征級融合了具有代表性的人臉吸引力特征,同時在決策級上融合進大眾主流審美偏好信息進而進行個性化預測。實驗結果表明,所提方法相比于其他關于個性化人臉吸引力問題研究的算法,在個性化預測精確度上有顯著的提高。
人臉吸引力特征提取對于最終的分類預測結果至關重要,本文主要提取17維全局特征[9]、Gabor紋理特征[10]作為面部吸引力的全局和局部特征的典型代表。17維全局特征是通過獲得72個面部特征點,計算一些重要的面部特征點之間的距離,歸一化距離特征得到的。Gabor特征則是采用多方向多尺度的濾波器對人臉圖片提取紋理信息進行描述。由于獲得的特征維數過高,本文采用了用于降維的線性判別分析(Linear Discriminant Analysis, LDA)算法[11],其基本思想是將數據投影到較低維空間上,將這些獲得的特征作為深度網絡特征提取后的特征補充。
多層次信息融合分為數據級融合、特征級融合和決策級融合[12]。數據級融合作為一個正式的研究領域也稱為多傳感器融合,主要是通過多個來源的數據,可以比單一數據提供更有意義、準確且可靠的消息,在軍事安全和民用領域有諸多應用。特征級融合則是將來自于同一個對象的不同特征進行融合,根據融合策略不同而有不同的融合方法。決策級融合則是由不同的判別器都先得到一個結果,然后再進行融合決策。而本文則是利用了同一張圖片提取的多種代表性特征進行特征級融合后進行第一輪預測,再與大眾主流審美偏好信息評分進行決策級融合,最終實現個性化人臉吸引力預測。
本文提出的基于多層次信息融合的人臉吸引力預測框架如圖1所示。首先,對輸入圖像提取全局特征和局部特征;然后,進行特征級融合,同時通過卷積神經網絡(Convolutional Neural Network, CNN)的卷積層進行自動特征提取,再將所提取特征和第一次融合的特征進行特征級再融合,得到圖像最終的特征表達輸入到全連接層;最后由網絡最終輸出的決策分數和輸入圖像的大眾偏好評分進行決策級融合得到預測結果。

圖1 系統框圖Fig.1 System framework
大眾審美偏好信息代表了公眾視野中具有吸引力的面孔的共同特征。由于大數據相關研究的發展,可以通過各種社交網站輕松獲取公共評分數據。在本文中,已經公開的SCUT-FBP-500數據庫[13]已經帶有人臉吸引力標簽;另一個FaceScrub 數據集[14]是沒有吸引力的標簽。因此,本文設計了一個在線評分系統來收集FaceScrub子集的評分。
本文根據研究標準選擇了FaceScrub數據庫的圖像,這些圖像是女性的面孔,臉部沒有被遮擋,沒有強烈的光線變化,沒有強烈的表情變化。同時邀請了測試人員通過在線評分系統對子集進行評分,獲得每張照片的評分和分布。然后通過平均所有測試者的評分來計算每張圖片的標簽。標簽通過整體概率密度分布進行分析,評分分布接近高斯分布,評分在2.5附近有較高的分布。這意味著一般的面孔比非常漂亮或不引人注目的面孔更普遍,這也反映了現實世界的情況。事實上,在社交生活中,非常有吸引力的人臉數量是少數,普通的人臉最常見。
本文通過標準偏差分布來驗證標簽的有效性,如圖2所示,其中橫坐標為平均吸引力評分,1代表非常不漂亮,5代表非常漂亮。由圖2可以看出:當評分接近1和5時,偏差很小;在2.5和3.5之間的區間,偏差最大。這也表明人們的偏好對于非常有吸引力的、沒有吸引力的面孔是非常一致的,但是對于一般的面孔而言是非常主觀的。

圖2 標準偏差分布Fig. 2 Distribution of standard deviation
同時,數據庫通過設計實驗進行驗證。另外將測試者隨機分成兩組,計算兩組之間的平均Pearson相關系數(Pearson Correlation coefficient, PC)[15]。將此過程重復多次得到平均系數為0.89,結果如表1所示。表1結果表明數據庫標簽具有高度一致性。

表1 FaceScrub數據標簽一致性驗證Tab. 1 Consistency verification of FaceScrub data label
特征融合和信息融合已廣泛應用于人臉識別、運動識別、場景識別和分割等領域[16-18],目前也已應用于人臉吸引力程度分析。本文提出了一種融合全局和局部特征來表示人臉吸引力的方法。為了融合特征,選擇了典型相關分析(Canonical Correlation Analysis, CCA)[19]特征融合方法。典型相關分析是對兩個變量之間相關性的統計研究,也是一種降維技術。典型相關分析的實質是在兩組隨機變量中選擇幾個具有代表性的綜合指標(變量的線性組合)。兩個指標之間的相關性用于表示兩組變量之間的相關性。在兩組變量的相關分析中,它可以在簡化變量中發揮合理的作用。當典型相關系數足夠大時,另一組變量的線性組合可以根據回歸分析值中的一組變量值來預測。
CCA算法的具體步驟為:
1)尋找具有最高相關系數的典型變量的線性組合。這個組合不是唯一的,它可能涵蓋變量的所有特征。
2)繼續尋求每組變量的線性組合,并且這次需要兩組變量之間具有最大相關性的線性相關性,并且與1)中組合無關。
3)這兩種線性組合的關系與正交組合的關系相似。每組變量的線性組合產生一個新的變量。
X′=ωx1x1+…+ωxmxm=ωXTX
(1)
Y′=ωy1y1+…+ωymym=ωYTY
(2)
其中:X和Y被稱為典型變量,X′、Y′為X、Y投影到一維上的結果。然后將融合后的特征與CNN所提取的圖像特征進行特征級再融合。
本文通過支持向量機(Support Vector Machine, SVM)、隨機森林(Random Forest, RF)和多元線性回歸(Linear)這幾種傳統機器學習算法驗證了特征融合在面部吸引力預測中的有效性,同時對比了融合了典型特征的CNN和簡單CNN的性能。
本文提出了幾種個人和大眾審美偏好信息決策級融合的方法,用于個性化人臉美學評價研究,并對其性能進行了比較,通過大量的實驗驗證了所提方法的有效性和可靠性。通過CNN來自動提取圖像的層次化特征,并將其與特征級融合后的面部吸引力典型代表特征進行二次特征融合,然后通過網絡的全連接層輸出第一次的決策結果;基于所提出的決策級融合方法對第一次決策結果與大眾偏好信息進行決策級融合,最后輸出個性化預測結果。根據對現有方法的研究分析,本文提出了如下幾種決策級融合方法:
1)CNN+平均(AVErage, AVE) 融合。將CNN輸出的第一次決策結果與數據庫的大眾偏好評分進行決策級融合。AVE融合是取第一次的決策結果和大眾偏好評分的平均,也就是,第一次的決策結果和大眾偏好評分按照相同的權重參與評分決策。
2)CNN +線性自動賦權(Linear Automatic Empowerment, LAE)融合。由于不同個體受群眾影響程度的差異,模型應該是適應性的。由于個人審美與大眾審美偏好高度相關,因此該模型應具有普遍一致性。個人審美偏好評分和大眾審美偏好評分是線性的關系。基于最基本的線性模型來設計和改進本文的模型,建立了一個稱為LAE的自適應模型,使用殘差作為損失函數,目的是為了最小化解決模型參數的殘差。損失函數的具體形式如下:
(3)
其中:m是樣本數量;yi是真實值;f(xi)是預測值。本文使用了LAE來建立決策級融合模型:
R=αRC+βRP
(4)
α+β=1
(5)
其中:α,β是權重系數,0<α,β<1;R表示最終個性化預測分數;RC表示圖片的大眾評價分數;RP表示圖片的第一次決策輸出的分數。這里的權重因子根據每個不同的個體自動選擇。
3)CNN+支持向量回歸(Support Vector Regression, SVR)融合。通過SVR建立決策級融合模型,將CNN輸出的第一次決策結果和數據庫大眾偏好評分的標簽融合。SVR是通過構建高維空間中的線性決策函數來構造的,并通過核函數來實現,最終實現個性化面部吸引力評分預測。
4)CNN融合。本文嘗試直接在CNN結構中添加了融合層,網絡結構如圖3所示。融合層被用來將個人審美偏好信息和大眾審美偏好信息融合在一起,并最終通過全連接層來輸出預測評級。通過這種方式,可以實現端到端自動提取測量圖像的特征以進行個性化的人臉吸引預測,比現有的方法更有效率。

圖3 融合CNN網絡架構Fig. 3 Fusion CNN architecture
本文在兩個公開的人臉數據集上進行了評估:第一個是SCUT-FBP[13],其中包括500張具有吸引力評分的亞洲女性照片;第二個是FaceScrub[14],其中包含6 195位公眾人物的141 130張人臉照片。對于這兩個數據集,利用所提的融合框架進行實驗。
本文基于Pearson相關系數(PC)[15]、殘差(RESidual, RES)[20]和決定系數(Coefficient of Determination, R2)[21]評估不同算法的預測性能。
(6)
(7)
(8)
其中:m是樣本數量;yi是真實值;f(xi)是預測值。相關系數接近于1或-1,相關性較強;相關系數接近0,相關性較弱。通常,相關系數為0.8~1.0是強相關的。殘差包含有關模型基本假設的重要信息,如果回歸模型是正確的,可以使用殘差作為誤差的觀測值,它應該符合模型的假設并具有誤差的一些性質。決策系數反映了因變量的整體變化,可以用回歸關系來解釋。如果R2越接近1,則表示擬合程度越好。
本文使用的機器學習方法包括SVM回歸(SVR)、線性回歸(Linear)、隨機森林(RandomForest),比較了不同算法在預測面部吸引力評分方面的表現。通過用10%數據集作為測試的交叉驗證實驗獲得相關結果。同時,為了驗證特征融合比僅使用單個幾何特征更有效,使用CCA算法融合F17特征和Gabor濾波器獲得的局部特征。最后,再將融合了全局和局部特征的CNN與簡單CNN的性能進行對比。實驗結果如表2所示。

表2 基于SCUT-FBP數據庫特征融合結果對比Tab. 2 Comparison of feature fusion results based on database SCUT-FBP
從表2可以看出:最好的相關系數(PC)是通過CNN實現的;線性回歸在PC、RES和R2上也表現出良好的性能。此外,組合特征顯示比單特征具有更好的性能,這表明幾何特征和皮膚紋理特征對于面部美感的感知是重要的。在以后的研究中,考慮將不同信息的更多特征融合來比較它們的有效性。
本文利用CNN自動提取特征,再與面部典型特征進行特征級融合,并將其輸入決策級融合模型以預測最終評分。通過實驗對比了單一方法和決策級融合方法的性能,結果如表3所示。單一方法SCNN(Single CNN),網絡只輸入個人主觀評分。決策級融合方法包括CNN融合、SVR融合、AVE融合和LAE融合。
從表3中看出,由CNN+SVR融合得到的Pearson相關系數(PC)是最好的。此外,實驗驗證了共識性和主觀性信息融合取得了更好的結果。
在驗證了融合模型的有效性之后,再次在FaceScrub子集上進行測試實驗,比較了四種融合策略的性能,結果如表4所示。與SCUT-FBP不同,FaceScrub子集中的圖像都是西方女性的面孔,這也是模型預測的一個不確定因素。本文構建的子集標簽通過自洽性和一致性驗證,數據分布符合一般人臉吸引力程度分布規律。
從表4可以看出,由FaceScrub子集結果可以得到與SCUT-FBP數據庫相同的結論,由CNN+SVR融合得到的Pearson相關系數(PC)是最好的。在單一隨機實驗中,SVR 融合可以達到PC為0.99、RES為0.01。

表 3 不同方法在SCUT-FBP數據庫的結果對比Tab. 3 Result comparison of different methods on database SCUT-FBP

表 4 不同方法FaceScrub子集上的結果對比Tab. 4 Result comparison of different methods on subset FaceScrub
將本文所提出框架的實驗結果和現有關于個性化人臉吸引力研究和共識性人臉吸引力研究的相關成果[4,13,22-26]進行對比,結果如表5所示,表中最后兩行代表分別基于SCUT-FBP數據庫和FaceScrub子集的實驗結果。由表5可知,在個性化人臉吸引力研究問題中,本文所提出框架能夠實現更高的相關系數和更小的誤差,甚至優于共識性人臉吸引力算法所達到的最好指標。

表5 不同方法實驗結果對比Tab. 5 Comparison of experimental results of different methods
針對特征級融合對于個性化人臉吸引力預測這個問題預測相關性不夠的問題,本文提出了一個集合特征級融合和決策級融合的個性化人臉吸引力預測框架,有效地將關鍵性的大眾審美偏好融入模型中,提高了個性化相關性系數,從而達到了很高的個性化預測精度。在基于SCUT-FBP-500和FaceScrub兩個公開數據庫的實驗中,該框架相比其他關于個性化人臉吸引力問題研究的算法表現出突出優勢。將更典型的代表性特征納入框架并采用更有效的方法得到大眾審美及個性化預測信息,是下一步需要改進的方向。