王體 趙夢媛 黃艷燕



摘? 要: 隨著計算機視覺的蓬勃發展,人臉年齡合成相關方面工作吸引了一大批研究人員的注意。人臉中蘊藏著豐富的視覺信息,具有很大的可開發價值,在刑事偵查、出入境檢查等方面均可以應用。傳統的人臉老化方法在身份保持、計算開銷、數據集要求等方面存在不足,生成對抗網絡的快速發展使得人臉圖像生成方面取得了顯著的成果。本文首先概述了人臉年齡合成領域的相關發展背景,然后介紹了幾種經典的用GAN進行人臉年齡合成的方法,最后概括了主觀評價和客觀評價這兩種常用的年齡合成評價方法。希望可以對在該領域入門的人員有所幫助。
關鍵詞: 計算機視覺;人臉年齡合成;GAN
中圖分類號: TP3? ? 文獻標識碼: A? ? DOI:10.3969/j.issn.1003-6970.2020.10.044
本文著錄格式:王體,趙夢媛,黃艷燕. 基于生成對抗網絡的人臉年齡合成研究概述[J]. 軟件,2020,41(10):171174
【Abstract】: With vigorous development of computer vision, the work related to face age synthesis has attracted attention of a large number of researchers. Face contains rich visual information and has great exploitable value, which can be used in criminal investigations, entry and exit inspections, etc. Traditional face aging methods have deficiencies in identity maintenance, computational overhead, and data set requirements. Rapid development of the generative adversarial network has made remarkable achievements in face image generation. This article first outlines relevant development background in face age synthesis field, then introduces several classic methods of GAN for face synthesis, and finally summarizes subjective and objective evaluation of two commonly age synthesis evaluation methods, to help beginners in this field.
【Key words】: Computer vision; Face age synthesis; GAN
0? 引言
人臉年齡合成,包括人臉老化和人臉年輕化,是一項基于輸入的臉部圖像預測指定年齡階段臉部形態的任務。它具有實際應用價值和巨大的市場潛力,例如,為失蹤兒童提供各個年齡段的肖像;為刑事偵察提供支持;在游戲或電影中給觀眾提供瞬間老化的奇妙視覺體驗。盡管人臉年齡合成是一項富有挑戰性的研究,但是由于其具有廣泛的應用場景,越來越多的人從事這方面的研究。
目前,用于人臉年齡合成的方法大致上可以分成三種:基于物理模型的方法,基于原型的方法和基于深度學習的方法。
基于物理模型的方法針對不同特征(例如,肌 肉,皺紋,皮膚等)在參數上對不同年齡的人臉進行建模[1-4]。但是,它們需要復雜的建模,需要足夠的數據集來覆蓋較長時間年齡跨度,并且計算成本較大。基于原型的方法將訓練數據集按年齡劃分成組,然后為每個年齡組構建一個平均面孔作為其原型,并學習各組之間的轉換[5-8]。這種方法也存在問題,比如引起圖像重影、失去圖像的個性化等。基于原型的方法大多數不要求數據具有大年齡跨度的數據,并且可以學習兩個相鄰年齡組之間的老化模式。盡管如此,在小年齡跨度上,它們仍然需要配對的數據樣本。
近些年,基于深度學習的方法受到了社會各界的關注。生成對抗網絡[9]。(Generative Adversarial Network, GAN)是一種深度學習模型,并且由其衍生出的各種變體在人臉年齡合成方面成效顯著,在生成高質量人臉圖像方面展現出了巨大優勢。作為GAN的一種變體,條件生成對抗網絡(Conditional Generative Adversarial Networks, CGANs)在生成模型和判別模型中將人臉年齡作為條件變量,引導生成目標年齡的人臉圖像[10-11]。此外,Zhang等人提出的一種新穎的網絡架構——條件對抗自動編碼器(Conditional Adversarial Autoencoder, CAAE)[12],假設人臉位于高維流行上,使人臉年齡轉換更加靈活。但單純地將年齡作為條件進行訓練,很可能會使輸入的人臉圖像和輸出的人臉圖像看上去不像是同一個人,即人臉圖像的身份信息難以保持,為了解決這個問題,Wang等人提出了身份保留的條件生成對抗網絡(Identity-Preserved Conditional Generative Adversarial Networks, IPCGAN)[13],在人臉年齡合成領域引入身份信息損失,在保證原始人臉身份信息不丟失的情況下,實現了人臉老化效果。此外,PA-GANs[19]、Dual-GANs[26]也均在人臉年齡合成上取得了不錯的效果。隨著近些年來GAN的火熱發展,越來越多的其他GAN變體也逐漸加入到人臉年齡合成的隊伍中來。
本文主要針對人臉年齡合成研究進行展開論述,介紹了人臉年齡合成研究發展的相關背景,然后對幾個比較經典的用GAN進行人臉年齡合成的方法進行簡要論述,最后也強調了年齡合成評價的兩種方法。
1? 幾種基于GANs的人臉年齡合成方法
1.1? 條件對抗自動編碼器(Conditional Adversarial Autoencoder, CAAE)
CAAE是一種新穎的網絡架構,在生成逼真面部人臉圖像的同時實現了年齡的向前發展(老化)和向后發展(年輕化)[12]。不同于過往研究中基于組的學習方式,作者假設輸入人臉圖像位于高維流形M上,通過學習流形,實現在保留輸入人臉身份特征的同時,自由地生成不同年齡的人臉,使得人臉年齡的變化更加靈活和可操作。
CAAE一共有四個子網,編碼器E、生成器G、編碼器上的判別器和生成器上的判別器。通常直接在高維流形上進行操作較為復雜,CAAE則學習流形和較低維度空間之間的映射,使得更易于操作。
編碼器E的作用是將面部和映射到潛在向量。編碼器E將從和中分別提取出的身份特征和與年齡標簽和相關聯,得到在潛在空間中的兩個點和,因和與和在潛在空間沒有糾纏,故沿著時間軸,可以實現在保留身份的同時對年齡進行修改。生成器G的作用則是將這些點映射到流行M上以生成一系列面部圖像,實現較為平滑的人臉年齡向前發展和向后發展。
CAAE與對抗性自動編碼器[14](Adversarial Autoencoder, AAE)相似,不同的是,CAAE分別在編碼器E和生成器G上施加了判別器。編碼器E上的判別器確保了潛在空間的平滑過渡,生成器G上的判別器則有助于生成逼真的面部圖像。此外,CAAE也可以作為與面部年齡相關任務的通用框架。
1.2? 身份保留的條件生成對抗網絡(Identity-Preserved Conditional Generative Adversarial Networks, IPCGANs)
IPCGANs[13]是一種身份保留的條件生成對抗網絡,能夠生成具有相同身份和目標年齡的高質量人臉圖片,其主要由三大模塊組成:CGANs模塊、身份保留模塊、年齡分類器。文章在人臉年齡合成領域引入了身份信息損失,確保生成的老化人臉和輸入人臉保持相同的身份信息,此外,通過在IPCGANs的目標函數上引入年齡分類損失,達到合成的人臉與預期年齡保持一致的目的。
CGANs模塊選用條件的LSGANs[16]用于生成任務,保證生成高質量的圖片及訓練過程的穩定性。考慮到對抗性損失只會使生成器生成服從目標數據分布的樣本,無法保證生成的樣本保留原始身份信息,在身份保留模塊中,IPCGANs引入感知損失,達到保留生成圖片身份信息的目的,其表達式為。
其中,表示將真實人臉圖片x和目標年齡組標簽喂給生成器G后合成的假圖片,表示由預訓練好的神經網絡中特定特征層提取的特征。風格遷移的實驗表明[17-18],較低的特征層擅長保留內容,而較高的特征層則有助于保留與風格相關的事物,如顏色、紋理等。基于此,將人臉的內容作為身份信息,預訓練網絡中較低的特征層被采納為。身份損失的計算采用第二范數,主要是因為考慮到衰老過程中人臉在發色、胡須、皺紋、發際線等方面均有發生變化,若直接把x與的均方差作為身份損失則會導致生成的圖片與輸入圖片趨于一致而喪失老化的效果。網絡提取的特征對于保留身份信息至關重要,在同一個特征空間中,感知損失可以鼓勵所生成的圖像更接近輸入面部的特征。
年齡分類模塊則進一步確保生成的面部圖片能夠歸屬于目標年齡組。該模塊采用預訓練好的年齡分類器,用它來識別所生成面部所歸屬的年齡組。在IPCGANs的目標函數中引入年齡分類損失,其表達式為。
其中對應損失。通過反向傳播,促使生成器的參數發生變化以生成與目標年齡組一致的人臉。
此外,IPCGANs也是一種通用框架,也可以將其應用于多屬性轉移任務,例如將頭發從棕色變為灰色,從無胡須變為有胡須等。
1.3? 金字塔結構的生成對抗網絡(A Pyramid Architecture of GANs,PA-GANs)
PA-GANs[19]是一種新穎的基于GAN的年齡老化方法,結合面部驗證和年齡估計技術,以耦合的方式解決了衰老效果生成和身份信息保持的問題。文中強調整個面部合成的重用性,額頭、頭發部位的細節也會顯著影響感知的年齡。為了進一步增強老化細節,作者利用深層網絡的固有結構,并進一步設計了金字塔體系結構的判別器,以細粒度方式估計與年齡相關的高層線索。
在判別器D中,采用預訓練的[20]結構作為特征提取器,沿著金字塔的層次結構,逐漸捕獲從精確像素值到高級的特定年齡語義信息。金字塔的面部特征表示由D在多個尺度上聯合估計,以細粒度方式處理衰老效果的生成。此外,為了保證在老化過程中身份信息的穩定,作者采用預訓練的深度面部描述網絡來對身份信息進行編碼[21]。
1.4? 雙重條件的生成對抗網絡(Dual Conditional GANs, Dual-GANs)
Dual-GANs[23]機制能夠通過多組不同年齡的未被標記人臉圖像來訓練面部年齡合成模型,不需要難以尋找的年齡順序訓練數據,實現了在對面部年齡合成的同時保留了原始輸入人臉的身份特征。
Dual-GANs架構主要由原始條件GAN和雙重條件GAN兩部分組成,他們均有各自目標生成器、源生成器。原始條件GAN會根據年齡條件將人臉圖像轉換為其他年齡,而雙重條件GAN則學會了將任務反轉。原始條件GAN中首先根據年齡為的輸入人臉和目標年齡標簽生成目標人臉,為了保持身份信息,再用對原始人臉進行重構。處理流程可以表述為。
和的輸入輸出是同樣的類型,在雙重學習的啟發下[23],作者創新性地將原始條件GAN中、進行交換,得到了一個雙重的過程。類似地,首先對年齡為的人臉進行生成得到目標年齡為的人臉圖像,再通過對進行重構。流程表述如下。
2? 年齡合成評價方法
實現人臉合成的方法多而不同,因此分析實驗結果的方法也值得研究。兩種主要的年齡合成評價方法分別是基于主觀的評價和基于客觀的評價[21]。
2.1? 主觀評價
主觀評價是基于人的感受來實現對算法性能評估的一種評價方式。在該方法的指導下,Zhang等人[12]在關于合成的真實性、跨大年齡進度合成后特征的保真度、對姿勢和表情的容忍度等方面進行了評價。他們邀請志愿者隨機觀察856對年齡差距大于20歲的人臉配對組——原始圖片、生成圖片和大年齡跨度的真實圖片。志愿者對生成圖片與真實圖片做出“相似”、“不確定”或者“不相似”的判斷,研究人員統計結果后得出了CAAE可以有效地在保留原始人臉身份特征的條件下生成不同年齡段的人臉圖片的結論。
2.2? 客觀評價
客觀評價指的是通過相似性度量進行定量評估,判斷合成人臉的年齡是否準確、身份是否發生變化。例如Lanitis在中提出的年齡相似性(ages)和個體外貌相似性(ids)這兩種定量評價方法[24]。ages用來評估在合成能夠表征目標年齡組特征的老化或年輕化人臉圖像方面年齡估計算法的性能,ids則是用來評估表征個體身份信息方面算法的性能。
3? 結論
本文從人臉年齡合成相關工作的發展情況展開論述,對傳統的基于原型的方法和基于物理模型的方法的不足進行小結,并簡要描述了GAN在人臉年齡合成領域的全新發展。在人臉年齡合成方面主要面臨的問題是老化效果和身份信息保持,文章分別簡要介紹了四種應用在人臉年齡合成領域的經典GAN結構——CAAE、IPCGANs、PA-GANs和Dual-GANs,對其采用的人臉年齡合成的方法進行說明。最后,文章也對主觀評價、客觀評價這兩種常見的年齡合成評價方法進行了小結。隨著GAN的蓬勃發展,相信未來會有更多新穎的GAN結構在人臉年齡合成領域展開應用。
參考文獻
[1]Tazoe Y, Gohara H, Maejima A, et al. Facial aging simulator considering geometry and patch-tiled texture[M]. ACM SIGGRAPH 2012 Posters. 2012: 1-1.
[2]Suo J, Zhu S C, Shan S, et al. A compositional and dynamic model for face aging[J]. IEEE Transactions on Pattern Anal ysis and Machine Intelligence, 2009, 32(3): 385-401.
[3]Lanitis A, Taylor C J, Cootes T F. Toward automatic simulation of aging effects on face images[J]. IEEE Transactions on pattern Analysis and machine Intelligence, 2002, 24(4): 442- 455.
[4]Ramanathan N, Chellappa R. Modeling age progression in young faces[C]. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06). IEEE, 2006, 1: 387-394.
[5]Tiddeman B, Burt M, Perrett D. Prototyping and transforming facial textures for perception research[J]. IEEE computer graphics and applications, 2001, 21(5): 42-50.
[6]Kemelmacher-Shlizerman I, Suwajanakorn S, Seitz S M. Illumination-aware age progression[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 3334-3341.
[7]Shu X, Tang J, Lai H, et al. Personalized age progression with aging dictionary[C]. Proceedings of the IEEE international conference on computer vision. 2015: 3970-3978.
[8]Wang W, Cui Z, Yan Y, et al. Recurrent face aging[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2378-2386.
[9]Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]. Advances in neural information process ing systems. 2014: 2672-2680.
[10]Mirza M, Osindero S. Conditional generative adversarial nets [J]. arXiv preprint arXiv:1411.1784, 2014.
[11]Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1125-1134.
[12]Zhang Z, Song Y, Qi H. Age progression/regression by conditional adversarial autoencoder[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 5810-5818.
[13]Wang Z, Tang X, Luo W, et al. Face aging with identity- preserved conditional generative adversarial networks[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 7939-7947.
[14]Makhzani A, Shlens J, Jaitly N, et al. Adversarial autoencoders[J]. arXiv preprint arXiv:1511.05644, 2015.
[15]Mao X, Li Q, Xie H, et al. Least squares generative adversarial networks[C]. Proceedings of the IEEE International Conference on Computer Vision. 2017: 2794-2802.
[16]Johnson J, Alahi A, Fei-Fei L. Perceptual losses for real-time style transfer and super-resolution[C]. European conference on computer vision. Springer, Cham, 2016: 694-711.
[17]Gatys L A, Ecker A S, Bethge M. A neural algorithm of artistic style[J]. arXiv preprint arXiv:1508.06576, 2015.
[18]Yang H, Huang D, Wang Y, et al. Learning face age progression: A pyramid architecture of gans[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 31-39.
[19]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
[20]Parkhi O M, Vedaldi A, Zisserman A. Deep face recognition [J]. 2015.
[21]Fu Y, Guo G, Huang T S. Age synthesis and estimation via faces: A survey[J]. IEEE transactions on pattern analysis and machine intelligence, 2010, 32(11): 1955-1976.
[22]Song J, Zhang J, Gao L, et al. Dual Conditional GANs for Face Aging and Rejuvenation[C]. IJCAI. 2018: 899-905.
[23]He D, Xia Y, Qin T, et al. Dual learning for machine translation[C]. Advances in neural information processing systems. 2016: 820-828.
[24]Lanitis A. Comparative evaluation of automatic age-progression methodologies[J]. EURASIP Journal on Advances in Signal Processing, 2008, 2008: 101.