999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的人臉屬性識別方法綜述

2021-12-14 11:33:02賴心瑜王大寒朱順痣
計算機研究與發展 2021年12期
關鍵詞:區域方法

賴心瑜 陳 思 嚴 嚴 王大寒 朱順痣

1(廈門理工學院計算機與信息工程學院 福建廈門 361024) 2(福建省模式識別與圖像理解重點實驗室(廈門理工學院) 福建廈門 361024) 3(廈門大學信息學院 福建廈門 361005)

Fig.1 Classification framework of DFAR methods

近年來,隨著人工智能技術的發展,人臉屬性識別逐漸成為計算機視覺與模式識別領域的一個熱門研究方向.人臉屬性通常指描述人類可理解的面部圖像的抽象語義,比如表情、性別、年齡、種族、臉型等屬性.人臉屬性識別(或人臉屬性分類)是利用計算機來分析和判斷人臉圖像的各類屬性信息.人臉屬性識別搭建了人類可理解的視覺描述和各類計算機視覺任務所需的抽象語義之間的一個橋梁.近幾年,人臉屬性識別在視頻監控[1-2]、社交媒體[3]、人臉驗證[4-5]、人機交互[6]等場景中得到了廣泛的應用.

在目前眾多人臉屬性識別研究中,有些方法僅針對單一的人臉屬性進行識別[7-11],我們稱之為基于單標記學習的人臉屬性識別方法,即一個樣本只對應一個類別標記,如人臉表情識別[7-8]、年齡識別[9-10]、性別識別[11]等.而基于多標記學習的人臉屬性識別方法[12-15]詣在學習一個樣本到多個類別標記集合的映射.在基于多標記學習的人臉屬性識別中,用(xi,yi)表示一個樣本的輸入、輸出對,其中xi是第i個輸入樣本,yi是輸出的包含M個屬性類別的向量(yi1,yi2,…,yiM)T.yij代表第i個樣本的第j個屬性的類別(比如,對于二分類的情況,yij=1表示該屬性存在,yij=0表示該屬性不存在).因此,基于多標記學習的人臉屬性識別方法可以同時識別出一張人臉對應的多個屬性.

近年來,深度學習技術[16-18]在計算機視覺、自然語言識別、語言處理等任務上取得了卓越的進步.傳統的人臉屬性識別方法都是通過人工設計特征并提取,而相比于人工設計的特征,深度學習技術可以自動地從大量數據中學習到特征,從而彌補人工特征的不足.因此,受益于深度學習技術在特征提取方面強大的學習能力,深度學習技術也廣泛地被應用在人臉屬性識別方向.基于深度學習的人臉屬性識別(deep learning based facial attribute recognition, DFAR)方法[12-15]還可將特征提取和屬性分類結合在一起,實現端到端學習.相比于基于單標記學習的DFAR方法[8],基于多標記學習的DFAR方法[12-15]可以學習到更多的人臉屬性信息,從而對人臉的描述更加全面.因此,本文將對后者進行詳細綜述.

按照模型構建方式的不同,DFAR方法可分為基于部分的DFAR方法[19-34]和基于整體的DFAR方法[35-71].基于部分的DFAR方法在輸入的人臉圖像中首先根據屬性定位所在的面部區域,然后提取所在區域的特征進行識別.基于整體的DFAR方法直接考慮整張人臉圖像,對整張圖像進行特征提取再分類,不需要額外的屬性區域定位步驟.圖1給出了本文對DFAR方法的分類方式.此外,為了總結近幾年DFAR方法的進展,圖2給出了各時間點的代表性算法,后文將詳細介紹各算法.

Fig.2 Representative DFAR methods in recent years

雖然人臉屬性識別的研究熱度在不斷提升,但人臉屬性識別領域還缺乏專門進行分析的綜述性文章.與現有的僅針對單一的特定屬性進行識別的綜述[72-74]不同,本文主要關注能夠同時對表情、性別、年齡等多種人臉屬性進行識別的方法.再者,與現有的基于深度學習的人臉屬性分析綜述[75]不同,本文對基于部分的DFAR方法和基于整體的DFAR方法采用了不同的分類方式:1)由于部分區域的定位方式是影響基于部分的DFAR方法性能的關鍵因素,因此本文將對基于部分的DFAR方法按是否采用規則區域定位進行概述與分析;2)本文將對基于整體的DFAR方法分別從基于單任務學習、基于多任務學習的角度進行分類與對比,并對基于多任務學習的DFAR方法進一步根據是否采用屬性分組進行細分與討論,從而有助于學者對該研究方向有更全面的認識與理解.本文的詳細分類方式如圖1所示.

本文首先介紹人臉屬性識別的總體流程;其次,分別對基于部分的DFAR方法和基于整體的DFAR方法進行綜述與分析,并且闡述不同方法的主要原理、發展與改進、優缺點等;然后,介紹人臉屬性識別的數據集、評價指標,并分析和對比各類方法的實驗性能;最后,對人臉屬性識別方法進行總結與展望.

1 人臉屬性識別方法的流程

人臉屬性識別方法的一般流程大致包括4個基本步驟,如圖3所示,分別是人臉檢測、人臉對齊、特征提取以及屬性分類.首先輸入人臉圖像,其次對人臉圖像進行預處理操作,如人臉檢測和人臉對齊等,然后對人臉圖像中的屬性信息進行特征提取,再進行屬性分類,最后獲得識別結果.

Fig.3 General flow diagram of the facial attribute recognition method

1.1 人臉圖像預處理

人臉檢測與人臉對齊一般作為屬性識別的數據預處理操作.人臉檢測的目的是判斷所給的圖像中是否含有人臉,如果是則準確地定位到人臉的位置.例如,Li等人[76]提出一種級聯卷積神經網絡結構的快速人臉檢測方法.Zhang等人[77]提出基于多任務的3階段級聯卷積神經網絡的人臉檢測方法.

針對輸入的人臉圖像的尺寸大小不一、角度也不一的問題,人臉對齊主要是根據人臉關鍵點坐標調整人臉的角度使不同的人臉對齊(比如將臉部置于圖像中點,以及旋轉臉部至相同的水平線且縮放到統一的尺寸).典型算法如Cootes等人[78]提出的基于點分布模型的主觀形狀模型(active shape models, ASM)算法,其將物體的幾何形狀通過若干個關鍵點坐標串聯成一個向量表示,然后對人臉進行歸一化和對齊操作.之后,Cootes等人[79]對ASM算法進行改進,提出主動外觀模型(active appearance models, AAM)算法,在采用形狀約束的基礎上加入了整個面部區域的紋理特征.對于3D人臉對齊技術,典型算法如Zhu等人[80]提出的3D深度人臉對齊算法,利用基于回歸的級聯卷積神經網絡從大姿態變化的圖像中抽取有用的信息.此外,人臉檢測和人臉對齊這2個預處理步驟也可以合為1個步驟完成,如Sun等人[81]提出深度卷積神經網絡(deep convolutional neural network, DCNN)算法,首次將卷積神經網絡用于人臉關鍵點檢測及人臉對齊.也有一些人臉屬性識別方法提出省略人臉關鍵點檢測或人臉對齊的預處理步驟[28],或將預處理步驟合并到整個屬性識別框架中一同完成[14].

1.2 特征提取

傳統的人臉屬性識別方法[82-83]的特征提取思路是從人臉區域中使用人工設計的方式來提取人臉特征表示.例如,局部二進制模式算子[84](local binary patterns, LBP)提取局部紋理特征;梯度直方圖特征算子[85](histogram of oriented gradient, HOG)提取人臉外觀和形狀特征邊緣結構.但是由于傳統的人臉屬性識別方法的特征描述能力有限,因此很難適應復雜場景下的人臉屬性識別任務.隨著深度學習技術在圖像特征提取能力上取得了舉目共睹的成績,以卷積神經網絡為代表的深度學習技術很大程度上優于傳統的特征提取方法.因此,與傳統的特征提取方法[84-85]相比,基于深度學習的特征提取方法[13-15]能夠自動地從海量數據中學習到更有效的特征以輔助屬性分類.

1.3 屬性分類

屬性分類是將人臉屬性識別問題視為二值分類任務,即根據每個屬性的類別判斷該屬性存在或不存在.傳統的人臉屬性分類方法在使用人工設計特征后,將提取的圖像特征輸入到屬性分類器進行訓練和識別.在深度學習技術發展的早期階段,也是使用神經網絡提取特征后再輸入到傳統分類器(比如支持向量機等)中進行訓練與分類[19-20].而隨著深度學習技術的發展,新近人臉屬性分類方法[35-36]已經可以實現端到端地進行人臉屬性識別任務,其將特征提取與屬性分類2個步驟合在一起訓練,使得屬性識別任務變得更加簡單.比如Sharma等人[36]提出的Slim-CNN網絡可以實現從圖像輸入到識別結果輸出的端到端人臉屬性識別.

2 基于部分的DFAR方法

基于部分的DFAR方法首先定位某個屬性所在的面部區域位置,然后在該區域內特征提取,再進行進一步的屬性分類,其一般可以分為屬性定位、特征提取和屬性分類3個部分,如圖4所示.進一步地,基于部分的DFAR方法根據不同的定位方式又可以分為基于規則區域定位的識別方法[19-30]和基于不規則區域定位的識別方法[31-34].

Fig.4 Overview of part-based DFAR methods

2.1 基于規則區域定位的識別方法

目前,基于規則區域定位的DFAR方法首先采用規則的邊界框(一般為矩形框)定位出人臉區域,再進行屬性的分類識別,如圖5所示.

Fig.5 Representative DFAR methods based on regular area localization and based on irregular area localization

早期的方法通常使用卷積神經網(convolutional neural network, CNN)進行特征提取,然后使用支持向量機(support vector machine, SVM)進行分類.例如,Zhang等人[19]提出PANDA方法,其首先使用Poselets算法對圖像進行局部區域的定位,并將這些標準化為規則的區域合并到深度卷積神經網絡中提取特征,然后將提取的特征進行融合,最后使用SVM作為分類器進行屬性預測.Gkioxari等人[20]同樣是利用Poselets部件檢測器,用以檢測不同姿勢下捕捉的規則圖形的人體部件區域,對輸入的多尺度圖像提取特征得到多尺度部件概率圖,然后將部件及整個圖像用線性SVM分類器進行分類.Liu等人[21]提出的LNet+ANet方法構建了2個卷積網絡,其中LNet網絡用矩形框根據屬性過濾器的響應圖來定位出人臉的具體位置,ANet網絡用于提取人臉屬性信息,最后將ANet網絡所提取的特征輸入到SVM中進行屬性預測.該方法采用的是人臉屬性識別算法中最常見的交叉熵損失函數(cross-entropy loss).假設第i個樣本xi共有M個屬性標記,該樣本總的損失為所有屬性損失之和,具體表示為

(1-yij)log(1-P(yij|xi))],

(1)

其中:

(2)

式(2)表示樣本xi的第j個屬性存在的概率.f(xi)表示第i個樣本的第j個屬性的輸出值.

針對遮擋和臉部區域誤檢等問題,不少學者提出通過定位屬性最相關的臉部區域來提高屬性識別的魯棒性.例如Luo等人[22]提出用判別決策樹對面部區域的關系進行建模,對每個屬性學習一棵二元判別決策樹以發現判別區域,每個節點對應一個矩形區域,并且每個節點都包含一個用于定位面部區域的檢測器和一個用于屬性識別的分類器,再將學習到的決策樹轉換為和積樹(sum-product tree)以充分利用被劃分區域之間的相互依賴性,同時可以自動發現并排除錯誤的檢測區域,從而提高屬性識別的準確性.Kang等人[23]提出基于屬性感知關聯圖(attribute-aware correlation map)和門控(gated)卷積神經網絡的人臉屬性識別方法.該方法利用屬性感知相關圖,根據像素位置和屬性標簽之間的相關性進行屬性定位,并將這些相關圖調整至固定大小的矩形框后輸入到門控卷積神經網絡中,進而從相關圖中提取特征.Li等人[24]提出的深度多任務學習同時考慮屬性相關區域檢測和屬性識別這2個任務,其中第1個子網是用于特征提取的全卷積網絡,第2個子網是利用感興趣區域池化(ROI pooling)以得到屬性相關的矩形區域的網絡,最后將這2個任務的輸出連接成1個向量得出屬性識別結果.Ge等人[25]提出基于屬性間單向推理相關的人臉屬性識別方法,根據屬性標簽將人臉區域分割為多個矩形區域,并利用多個卷積層對該區域進行特征提取,從而計算出所有屬性的單向推理相關性來設計屬性識別的分類模型.Singh等人[26]提出對屬性進行定位與排序的端到端深度卷積網絡.該網絡將定位模塊和排序模塊相結合,通過基于弱監督學習的成對比較自動發現屬性的相關空間范圍,能夠更準確地定位屬性對應的規則矩形圖像塊.定位模塊是利用變換參數θ以定位出與該屬性對應的最相關區域,這里θ=[s,tx,ty],s表示圖像均衡縮放程度,tx和ty分別表示圖像水平和垂直平移距離.具體變換為

(3)

為了動態地選擇不同的面部區域進行人臉屬性識別,不少學者提出不需要進行人臉對齊預訓練的屬性識別方法.例如,Li等人[27]提出一種不需要進行人臉關鍵點檢測和人臉對齊的屬性識別方法.該方法由一個全局定位網絡和一個局部定位網絡組成,首先全局定位網絡獲取臉部的全局信息并且從局部定位網絡中捕捉到最具有鑒別力的屬性對應的矩形框位置,再將全局信息和最具判別力的區域融合表示,實現利用全局變換優化屬性識別的最終目標,最后通過自適應定位局部位置進行屬性識別.全局定位網絡是通過全局變換函數來學習圖像的位置,假設全局變換的參數集表示為Tg,則全局變換函數具體表示為

(4)

類似地,Ding等人[28]也提出了一種不需要進行人臉對齊的深度級聯網絡.與文獻[27]不同的是,該方法為每個屬性檢測定位一個矩形關注區域,并由分類網絡自動選擇面部區域信息對屬性進行最終的識別.再者,為了減少網絡參數以生成更簡潔的模型,該方法設計一個hint損失,將預先訓練得到的定位網絡作為教師網,而后面屬性識別部分作為學生網,以教師網的輸出作為監督信號去訓練學生網.具體hint損失函數為

(5)

其中,T和S分別表示教師網和學生網的網絡函數,k表示教師網的遷移監督層,l表示學生網的添加監督層.xi為輸入的第i個樣本,w為待學習學生網的權值.該方法再聯合學生網屬性識別的交叉熵損失LCE, 則樣本xi的最終損失函數為

LS=λ1Lhint+λ2LCE,

(6)

其中,λ1和λ2分別為2種損失的權值.

除了在一般場景下的人臉屬性識別方法外,還有其他在特定場景下的人臉屬性識別方法.例如在人機交互場景下,Yang等人[29]提出采用梯度加權激活映射來指導深度網絡對屬性識別中的重要區域進行定位,即用預訓練好的分類器DNN激活映射以定位出十個預訓練的矩形面部區域,并且結合一種交互式的分類方法,將分類器的注意力集中在用戶手動指定的面部區域進行識別.此外,在非實驗室場景下,葛宏孔等人[30]提出將人臉圖像分割為多個規則矩形的局部區域作為輸入,再采用遷移學習從多個不相鄰卷積層中提取特征以構建一個屬性識別網絡.

因此,基于規則區域定位的識別方法一般采用固定形狀的邊界框對人臉區域進行定位,這種規則區域的定位方式可以將圖像中所感興趣的目標盡可能地包含在內,并不斷地調整區域邊緣以得到更為準確的目標位置.而不同屬性的常用人臉規則區域也不相同,大致可以分為2類:1)可以定位到某個局部區域的屬性[22-23,29],如戴眼鏡(eyeglasses)、眼袋(bags_under_eyes)對應到眼部區域,張嘴(mouth_slightly_open)、大嘴唇(big_lips)、微笑(smiling)對應到嘴部區域,胡渣(5 o’clock shadow)、山羊胡子(goatee)對應到下巴區域,發際線后移(receding_hairline)、禿頭(bald)對應到頭部周圍區域等.2)無法直接利用局部區域進行定位的屬性[21,24-25,28,30],該類屬性需要框出整張人臉的全局區域或利用其他屬性進行輔助判斷,如性別男性(male)的判斷則通常需要關注整張人臉的特征,或通過關注涂口紅(wearing_lipstick)、胡子(mustache)等屬性來輔助判斷;年輕(young)的判斷也需要關注人臉的全局區域或關注禿頭(bald)、灰發(gray_hair)等屬性來輔助判斷;屬性濃妝(heavy_makeup)也需要關注人臉的全局區域或關注涂口紅(wearing_lipstick)、玫瑰色臉頰(rosy_cheeks)等屬性來輔助判斷.然而,基于規則區域定位的識別方法在人臉屬性所占據的人臉區域較小或在形狀上不規則時,將某一屬性對應區域利用規則邊界框(例如矩形框)進行定位可能會導致非屬性區域的引入,從而降低識別的性能.

2.2 基于不規則區域定位的識別方法

針對規則區域定位方法的弊端,學者們提出了若干基于不規則區域定位方法.該類方法一般采用語義分割[31]、生成對抗網絡(generative adversarial network, GAN)[32]、多網格連通區域定位[33]等技術對屬性進行不規則區域定位,如圖5(b)所示.

Kalayeh等人[31]提出利用語義分割來改進人臉屬性識別,利用語義分割技術將人臉分割為7個類,且根據不同的語義信息分割為不規則的區域,其結合深層語義信息建立人臉屬性分割網絡,并利用分割網絡所學到的定位信息將識別注意力關注在屬性對應的定位區域中.不同于直接從圖像上定位出屬性所在位置,He等人[32]利用生成對抗網絡(GAN)生成含有面部位置信息和紋理信息的人臉抽象圖像來間接地達到輔助定位的目的.與pix2pixHD[86]方法輸入分割圖像生成逼真的自然圖像相反,He等人[32]利用GAN生成抽象的人臉圖像,并將每個圖像用11個類進行注釋(如背景、面部皮膚、左眉、右眉、左眼、右眼、鼻子、上唇、內嘴、下唇和頭發).該方式可以消除原圖中無用的背景信息,同時保留面部位置信息和面部紋理信息,最后將GAN生成圖像的位置信息和紋理信息與原圖相結合進行最終的屬性識別.

Berg等人[33]提出采用多網格連通區域的技術來對圖像進行定位,其定位方式是先將圖像分割成若干個網格,用訓練好的SVM給每個網格一個權值并對權值閾值化,然后在所有網格中找到大于閾值的最大連通區域(即由若干個網格組成的不規則區域),進而用最大連通區域的特征來訓練分類器.此外,Zhong等人[34]首先使用一個定位網絡進行屬性區域定位,接著利用現有的人臉識別網絡架構進行訓練,再進行人臉屬性的識別.該文通過實驗驗證得出,不同深度的卷積層對屬性的識別性能是不同的,并且認為網絡的中層(mid-level)特征包含更多空間信息,其更適合于描述人臉屬性.

2.3 小 結

基于部分的DFAR方法可分為基于規則區域定位的識別方法和基于不規則區域定位的識別方法,并且這2類都認為某一特定屬性僅僅需要關注與之對應的面部區域,而其他面部區域無法提供有用的信息,甚至會干擾該屬性的識別,因此僅利用該屬性相關聯的區域進行識別來提高準確率.但其缺點是需要先進行屬性定位再識別,這對屬性定位技術的準確性有一定的要求.在復雜場景下人臉外觀劇烈變化時,對人臉屬性所關聯的面部區域的定位變得困難,一旦定位錯誤往往就會導致識別性能不佳.

3 基于整體的DFAR方法

基于整體的DFAR方法[35-71]則不是對屬性存在的面部區域先進行定位再特征提取,而是對輸入的整張人臉圖像進行特征提取.基于文獻[46],基于整體的DFAR方法可以根據不同的模型訓練方式分為基于單任務學習的方法、基于多任務學習的方法.如圖6(a)所示,每個屬性對應一個任務,并且每個任務對應一個獨立的訓練模型的方法稱之為基于單任務學習的屬性識別方法[35-41].該類方法的各個任務之間的模型空間是相互獨立的.相比較于單任務學習方法,基于多任務學習的屬性識別方法[56-71]則是將每個屬性或是將每個屬性分組分別看成一個任務,并且淺層網絡進行特征共享,而高層網絡獨立學習各個任務的特征,其更注重每個任務之間的聯系和差異,如圖6(b)所示.多任務學習方法的多個任務之間的模型空間是共享的,使得模型在訓練過程中,多個任務可以相互促進,從而提升模型性能.

Fig.6 Overview of holistic DFAR methods

3.1 基于單任務學習的識別方法

對基于單任務學習的人臉屬性識別方法的研究,學者通常有2個不同的出發點,分別是網絡結構的設計和圖像信息的理解.在網絡結構的設計方面,將傳統的卷積神經網絡進行改進,使其適用于人臉屬性識別任務是目前研究的常用思路.Zhong等人[35]認為卷積神經網絡的中層特征表示可以實現較好的人臉屬性識別,該方法也設計從人臉區域中學習更具有判別性的中層特征,使得識別性能更加準確.Sharma等人[36]將研究重點放在卷積神經網絡輕量級設計上.考慮到傳統的卷積神經網絡雖應用廣泛但存儲負擔和計算成本較大,該方法利用深度可分離卷積和點卷積設計輕量級的卷積神經網絡并應用在屬性識別上,從而提高計算效率并減少模型參數.Speth等人[37]則提出基于孿生網絡的多標記驗證框架來識別錯誤標記的樣本,其將驗證為錯誤標記的樣本標記為噪聲.除此之外,將新的卷積神經網絡應用到屬性識別中也是一個重要的研究方向.Nian等人[38]首次在人臉屬性識別領域提出利用圖卷積神經網絡來構建屬性之間的關系,同時提出解耦矩陣(decoupling matrix)將一般的面部特征通過元素乘積轉換為特定的屬性表示用以更好地區分特征.

在圖像信息的理解方面,學者們更注重通過圖像上下文信息[39]、數據增強[40]或者聚類[41]等方式來挖掘圖像本身的重要信息,進而輔助網絡訓練.例如,Wang等人[39]提出利用視頻和上下文信息來學習人臉屬性表示.該方法認為對于種族、頭發顏色等屬性與人們所在的地理位置有關,而對于穿戴的服飾如帽子、墨鏡等屬性則與天氣條件有關,于是利用位置和天氣的數據作為弱標記來構建豐富的面部屬性表示以幫助識別.Günther等人[40]通過對圖像進行縮放、旋轉、移動及模糊等操作進行數據增強,從而對人臉圖像信息進行進一步挖掘來提升無對齊的人臉屬性識別網絡模型的性能.此外,Abate等人[41]通過對深度特征進行聚類等方式來挖掘人臉圖像的潛在信息,其首先預訓練網絡模型,然后將網絡中提取到的深度特征進行聚類,經過聚類后,從每個簇中收集到更為緊湊的特征,這些特征在一定程度上可以避免因圖像拍攝場景不同而導致的識別錯誤,從而提高模型的判別能力.

3.2 基于多任務學習的識別方法

多任務學習方法在相關任務間共享表示信息,并挖掘不同任務之間隱藏的共用數據特征,其設計的模型對識別任務的泛化性能往往更好.如圖6(b)所示,基于多任務學習的DFAR方法可將每個單一屬性當做一個學習任務,也可將每個屬性組當作一個學習任務.本文將人臉屬性識別中把每個單一屬性當作一個學習任務,然后級聯學習所有任務的方法稱之為基于單屬性的多任務學習方法[12,14-15,42-53,56-61].另一方面,由于人臉屬性的個數較多,很多學者則根據屬性的相關性對屬性進行分組,每組屬性對應一個學習任務,然后級聯學習各個任務,我們將這種方法稱為基于屬性分組的多任務學習方法[13,62-71].因此,本節將進一步從基于單屬性的多任務學習方法、基于屬性分組的多任務學習方法這2個方面分別進行綜述.

3.2.1 基于單屬性的多任務學習方法

基于單屬性的多任務學習方法將每個單一的屬性當做一個學習任務,而這些學習任務之間都具有相關性,通過挖掘屬性之間的關系,即可以學習到更多的鑒別特征.為了提高基于單屬性的多任務學習方法的性能,目前不少學者通過側重考慮屬性間的相關性[42-46]、數據分布[12,15,48-49]、多層特征信息[50-51]、神經結構搜索[52-53]或其他輔助任務[14,56-61]等方面提出了相關研究方法.

近年來,若干基于多任務學習的DFAR方法通過學習屬性之間的相關性來提高識別的性能.如Rudd等人[42]最早在屬性識別中提出多任務學習框架,充分利用屬性的潛在關聯性,引入新型混合目標網絡,優化加權混合目標的平方誤差損失,將多個任務目標及損失進行自適應加權.設M為屬性個數,N為輸入圖像的個數,則域適應多任務(domain-adapted multi-task, DAM)損失函數為

(7)

在數據分布方面,為了解決數據集中出現的類別不平衡問題,Huang等人[48]提出一種多任務深度學習網絡來約束類內距離和類間距離,從而處理數據中的類不平衡問題.同時,為了學習更具有判別性的特征,該方法提出引入簇之間的軟k近鄰聚類度量(softk-nearest-cluster metric)的損失函數,在處理不平衡數據集的性能上優于采用標準的Softmax損失和Triplet損失的方法.Hand等人[12]提出了一種用于多標記平衡的選擇性學習方法,根據每個標記的期望分布自適應地平衡每批數據.通過這種方法將數據集中不平衡的數據加以修正,從而訓練出更為魯棒的預測模型.另一方面,為了更好地利用大量未標記數據來訓練網絡,Zhuang等人[15]提出的基于多標記深度遷移網絡的人臉屬性識別方法可以解決未標記屬性的學習問題.該方法首先訓練一個人臉檢測網絡(FNet),然后利用有標記屬性來訓練一個多標記學習網絡(MNet),最后訓練一個遷移網絡(TNet)對未標記屬性數據進行學習.此外,毛龍彪等人[49]提出基于生成式對抗網絡和自監督學習的人臉屬性識別方法,該方法通過自監督學習的方式為大量未標記數據構造監督信息來學習通用特征,最后用少量有標簽數據微調屬性識別網絡.

為了結合多層卷積神經網絡的特征信息,Duan等人[50]提出了多任務張量相關神經網絡.除了在淺層共享特征,該方法在深層分支特異性學習時也設計從其他分支網絡的同一層中提取特征,從而可以從其他分支的網絡中得到有用的信息增強自身的識別,同時也在最后1層卷積中添加1個張量相關分析算法將特征投射到高度相關的空間中,最后根據相關矩陣進行屬性識別.除此之外,Liu等人[51]提出嵌入式多任務學習的特征融合分析模型.該方法也是為了充分利用深度卷積神經網絡中各個卷積層的特征信息,將卷積網絡中前幾層的特征圖進行特征融合.

傳統基于多任務學習的DFAR方法[50-51]通常是根據特定任務的先驗知識或屬性間的相關性來人工設計一種網絡架構用于識別屬性,而隨著神經結構搜索(neural architecture search, NAS)技術的發展,目前學者已將NAS技術引入人臉屬性識別.例如,Huang等人[52]提出將貪心神經結構搜索(greedy neural architecture search, GNAS)方法與屬性識別任務相結合,該方法將自動地搜索適合于屬性學習的最優樹形結構,從而克服傳統人工設計網絡架構在面對各種復雜場景的實際應用中缺乏靈活性的問題.Saxen等人[53]提出用2種簡單而有效的輕量級的卷積神經網絡MobileNetV2[54]和Nasnet Mobile[55]對人臉屬性進行識別,其中MobileNetV2是一種用于移動設備的CNN架構;Nasnet是由神經結構搜索組成的CNN架構.該方法在精度和速度方面都表現良好,同時也能在移動設備上使用.

此外,還有部分研究[14,56-61]是利用輔助任務來促進目標任務的學習,通過挖掘輔助任務和目標任務之間的內在關聯性來提高目標任務的性能.若干代表性的輔助任務如表1所示.例如,Tan等人[47]提出基于空間轉換器網絡(spatial transformer network)的端到端多任務人臉屬性識別方法,在人臉屬性識別中引入空間轉換器網絡來學習變換參數,并用于對齊人臉圖像.該方法的輔助任務為人臉對齊任務,目標任務為人臉屬性識別.不同于在圖像上做數據增強的研究,Bhattarai等人[56]提出在標簽空間上做擴充,在多任務學習的基礎上提出增加一種利用分類標記的語義表示來生成連續標記的方法.該方法的輔助任務為利用word2vec生成新的人臉屬性分類標簽,即增強標簽(augmented labels),而目標任務為人臉屬性識別,同時學習這2個任務的參數以實現目標任務的最佳性能.類似地,還可以利用其他人臉分析任務,例如人臉關鍵點檢測、人臉識別等來輔助提高基于單屬性的人臉屬性識別的性能.例如,Zhuang等人[14]提出級聯人臉檢測、人臉關鍵點檢測來輔助人臉屬性識別,在統一框架下同時訓練3個相關的人臉分析任務,而在人臉屬性識別中通過輸入單屬性來進行多任務學習.He等人[57]提出級聯人臉檢測和人臉屬性識別的深度網絡,共享淺層特征可以緩解人臉大規模變化所帶來的影響.Wang等人[58]提出用于聯合人臉識別和人臉屬性識別的深度神經網絡,并利用人臉識別的身份信息為屬性識別增加一個約束(即同一個人的部分屬性是不會改變的,如臉型、性別等).因此,在識別相同身份的樣本屬性時利用多數投票機制來調整識別的結果.Taherkhani等人[59]提出基于人臉屬性識別的深度人臉識別網絡.該網絡利用特征融合的方法識別人臉屬性信息去提高人臉識別性能.為了更有效地得到網絡框架中的共享信息,Ehrlich等人[60]提出基于受限玻爾茲曼機(restricted Boltzmann machine,RBM)的學習模型,將利用圖像主成分分析PCA和人臉關鍵點檢測得到的2組數據輸入到受限玻爾茲曼機來識別屬性.Chang等人[61]提出將人臉屬性識別、人臉動作單元檢測、情感價值和響應度估計級聯到一個深度網絡中.并且在卷積的中間層共享3個不同人臉分析任務的通用特征以輔助識別人臉屬性任務.

Table 1 AuxiliaryTasks for Single Attribute Based Multi-task Learning Methods

3.2.2 基于屬性分組的多任務學習方法

基于多任務學習的DFAR方法大多設計為基于卷積神經網絡的分支結構,在淺層的卷積層共享特征,在深層的卷積層則開始分支對每個任務分別學習.基于屬性分組的多任務學習方法根據屬性之間的相關性對屬性進行分組,并將每個屬性組對應一個學習任務.若干代表性的屬性分組形式如表2所示.

許多學者主要根據屬性的空間位置相關性對屬性進行分組.例如,Hand等人[62]提出利用屬性之間隱式和顯式的關系對每個屬性采用多任務學習進行識別,并將屬性主要按空間位置相關性進行分組與訓練.Yip等人[63]提出基于分組的多任務卷積網絡的屬性識別方法,將屬性分為8個組,其中包括1個全局的屬性組和7個與屬性空間信息相關的局部屬性組.Aly等人[64]提出一種類似注意力機制的方法(即模糊掉感興趣區域之外的圖像)來提取特征.該方法也同樣考慮屬性的空間位置相關性,將屬性分為頭部、眼睛、鼻子、臉頰、嘴巴、肩部和全局共7個屬性組.Cao等人[65]基于相同身份的人臉具有相似的屬性信息提出一種考慮人臉身份來引導屬性識別的網絡 FR-ANet.該網絡根據屬性所在的空間位置分為6組,所有屬性共享淺層特征,而深層特征除了用于屬性組之間的學習之外,還考慮了人臉身份信息進行人臉身份識別.Wang等人[66]提出在多任務卷積神經網絡中引入IdentityNet網絡、AgeNet網絡和RaceNet網絡分別利用人臉身份、年齡和種族特征來構建面部特征信息,然后將融合的特征再進行多任務的屬性識別,同時將屬性按空間位置相關性劃分為9個組,每組對應一個任務,并設計一個在線批處理損失與交叉熵損失聯合優化網絡.He等人[67]提出基于加權損失懲罰和自適應閾值學習的多任務人臉屬性識別方法,將屬性按五官位置分為6組,在訓練階段設計1個加權損失來優化預測結果,使得預測結果盡可能接近真實結果,同時在測試階段用自適應閾值算法自適應地預測每個屬性.在考慮屬性的空間位置相關性的同時,Han等人[68]提出屬性之間由于不同的數據類型、規模以及語義信息還存在一定的異構性,因此通過同時考慮屬性的相關性和異構性,又可將屬性分為全局與局部、可排序與不可排序等屬性組來進行多任務學習.例如需要考慮整張人臉特征的男性、鵝蛋臉、濃妝等屬性為全局屬性,而只用考慮人臉部分區域特征的屬性,如胡子、厚嘴唇等則為局部屬性.另一方面,頭發長度、年齡這種可按數值排列的屬性為可排序屬性,而性別、雙下巴等不能按數值排列的屬性則為不可排序屬性.因為可排序性組(group ordered)具有可排序性,即可以按數值排列,所以其可以采用Euclidean損失:

Table 2 Related Information of Several Attribute Grouping Based Multi-task Learning Methods

(8)

此外,還可以根據屬性的外觀特征相關性對屬性進行分組,Gao等人[69]提出在多任務卷積神經網絡上通過分組和不同深度的分支來實現人臉屬性識別.考慮屬性的外觀特征將屬性分為顏色相關屬性組、穿戴打扮屬性組和表觀特征屬性組,并且每組利用不同深度的網絡實現以達到較好的識別性能.除了這些分組方法外,還有依據屬性的主客觀性進行分組的方法,例如,Mao等人[70]提出了基于深度多任務多標記的卷積神經網絡的人臉屬性識別DMM-CNN方法.該方法以人臉關鍵點檢測輔助屬性識別,為屬性識別提供了位置信息.其次還將屬性分為客觀屬性組和主觀屬性組進行識別,分別設計了2種不同的網絡結構來提取2組屬性的特征.損失函數的定義則是通過設計不同任務的均方誤差損失.人臉關鍵點檢測的損失函數定義為

(9)

(10)

(11)

不同于根據先驗知識人工地對屬性進行分組的方法,Fanhe等人[71]認為各屬性間的相關程度不同,因此可以采用聚類技術自動地對屬性進行分組,將某一屬性所有標記視為一個向量,計算屬性之間的相關系數矩陣C(M,M),具體表示為

C(M,M)=(ci,j),i,j=1,2,…,M,

(12)

(13)

其中,Ai表示第i個屬性所有標簽的1維矩陣,σ(Ai)表示其標準差,Cov(Ai,Aj)表示第i個屬性與第j個屬性之間的協方差,于是計算得到屬性之間的相關系數矩陣.根據相關系數矩陣再采用譜聚類的方式形成一個相關性強的屬性組和一個相關性弱的屬性組來進行多任務學習.

在基于屬性分組的多任務方法中,如何設計有效的多任務分支結構也是一個值得研究的問題,如最優節點的選擇,即從網絡的哪一層開始分支才能達到最佳的識別效果.此外,神經網絡的深層特征具有很強的語義信息,而分支結構的深層網絡之間卻相互獨立,沒有充分利用到深層網絡的高級語義信息.基于這些問題,Cao等人[13]提出的PS-MCNN方法是基于局部共享單元的多任務學習框架,其不采用分支結構,而是獨立設計一個由局部共享單元組成的共享網絡以學習其余屬性組之間的共享信息.設第i個樣本xi的第t個屬性組的損失函數定義為

(14)

其中,Kt表示第t個屬性組的屬性個數,yik表示第i個樣本的第k個屬性.由于共有4個屬性組,則所有N個樣本的損失函數定義為

(15)

此外,為了考慮身份信息還提出加入一個局部幾何約束損失:

(16)

其中,feati和feats分別表示第i個樣本和第s個樣本的屬性特征,wis表示損失權重,即

(17)

基于損失函數LLC,具有相同身份的樣本在屬性空間上會更靠近對方.因此PS-MCNN方法的聯合損失函數為

LOBJ=LA+λLLC,

(18)

其中,λ是LLC的權重參數.

3.3 小 結

基于整體的DFAR方法可分為基于單任務學習的識別方法和基于多任務學習的識別方法.基于整體的DFAR方法認為不同的屬性之間是相互聯系的,因此對于每個屬性在整個面部區域都應該得到同等考慮,并且不額外進行某屬性所在的面部區域位置的定位.基于整體的DFAR方法更考慮屬性與屬性之間的相關性,利用屬性之間的關系可以促進彼此的識別準確率.然而,該類方法的缺點是考慮過多的區域也會對屬性的識別造成干擾,因此如何設計屬性識別網絡來有效地利用不同屬性之間的關系是值得研究的問題.

4 數據集與性能對比

本節首先對人臉屬性識別主要的數據集及算法性能評價指標進行介紹;然后對近年來代表性的DFAR算法的實驗性能進行對比與分析.

4.1 數據集介紹

隨著基于深度學習的人臉屬性識別研究領域的不斷發展,越來越多的人臉屬性數據集被用于測試各種DFAR算法的性能.其中人臉屬性識別算法中最為常見且使用最為廣泛的數據集為CelebA[21]和LFWA[21]數據集.除此之外,還有LFW[87],PubFig[4],YouTube Faces[88]等.目前公開的主要10種人臉屬性數據集及其細節情況如表3所示.

在LFW(labeled faces in the wild)數據集[87]是由美國馬薩諸塞大學阿默斯特分校計算機視覺實驗室整理完成的數據庫,主要是從互聯網上搜集的圖像.LFW數據集一共有5 749個人,其中含有13 233張人臉圖像,每張圖像都有標識出對應的人的名字,當中有1 680個人包含2張以上的人臉圖像.每張圖像的像素為250×250.該數據集一開始由Kumar等人[87]收集了65個屬性,后擴展為73個.

Table 3 RelatedInformation of Ten Main Public Datasets for Facial Attribute Recognition

PubFig(public figures face)數據集[4]是哥倫比亞大學采集的公眾人物人臉數據集,主要從互聯網上收集.PubFig數據集是一個真實大型的人臉數據集,其中包含有200人的58 797張圖像,平均每個人的圖像較多.該數據集主要用于非限制場景下的人臉識別.與大多數現有人臉數據集不同,這些圖像是在完全不受控制的情況下拍攝的.因此該數據集的姿態、表情、照明等因素都有較大的變化.

YouTube Faces數據集[88]是從YouTube視頻網站上收集人臉圖像的,是一個用于研究視頻中無約束人臉識別問題的人臉視頻數據庫.YouTube faces數據集包含3 425個視頻,其中有1 595個不同的對象.每個主題平均有2.15個視頻,最短的剪輯時間為48幀,最長的剪輯是6 070幀,平均長度是181.3幀.數據集在視頻中每隔4幀的圖像上標注了40個屬性.

Berkeley Human Attributes數據集[89]是從PASCAL VOC數據集和H3D數據集的訓練集和驗證集中收集的.該數據集包含了8 033張人臉圖像,其中包含2 003張圖像的訓練集,2 010張圖像的驗證集和4 022張人臉圖像的測試集.該數據集還采用5個獨立的注釋器標記了9個屬性標記,其圖像是以人的全身為中心的圖像,含有大量的變化(如姿勢、遮擋等).

Attribute 25K數據集[19]的圖像出自Facebook,其中包含24 963名對象,并將其分為訓練集、測試集和驗證集.Attribute 25K數據集包含的圖像在遮擋、姿勢、照明等方面有很大的變化.且不是每個屬性都被標記在每個圖像中.

CelebA(celeb-faces attributes)數據集[21]是由香港中文大學湯曉鷗教授實驗室公布的大型人臉屬性數據集,其圖像由互聯網收集,是一個規模較大的人臉屬性數據庫.其中包括有10 177個名人身份202 599張面部圖像,每張圖像標注了5個關鍵點以及40個屬性.CelebA數據集中的圖像覆蓋了大的姿勢變化和雜亂背景等復雜場景,有超過800萬個屬性標記,是一個有大量屬性標注的數據集.同時可用作人臉屬性識別,人臉檢測和人臉關鍵點定位等人臉分析任務的訓練集和測試集.

LFWA數據集[21]是通過標記LFW數據集,由專業的標記公司注釋了40個主要面部屬性和5個關鍵點的拓展數據集.該數據集含有5 749個人,共有13 233張人臉圖像,總共超過50萬的屬性標記.

Chalearn FotW數據集[90]是通過從互聯網上收集可公開獲取的圖像創建的,包含2個數據集:一個用于訪問分類,另一個用于性別和微笑分類.訪問分類數據集包含5 651張圖像的訓練集,2 826張圖像的驗證集和4 086張人臉圖像的測試集.每張人臉圖像都有7個二進制屬性的注釋.性別和微笑數據集包含6 171張圖像的訓練集,3 086張圖像的驗證集和8 505張人臉圖像的測試集.

LFW+數據集[68]擴展了LFW數據集,用于研究無約束人臉圖像的屬性估計(比如年齡、性別和種族等),注釋了3個主要的面部屬性.因為LFW數據集里的孩子以及青少年數量(0~20歲年齡組)很少(在5 749個人中只有209個孩子以及青少年).所以使用谷歌圖像搜索服務,用“孩子”和“青少年”等關鍵詞,搜索大約5 000張圖像,再采用人臉檢測器和手動刪除了不符合的對象.LFW+數據集包含15 699張人臉圖像,約8 000名對象.

Fig.7 Data distribution of the CelebA dataset

UMD-AED(University of Maryland attribute evaluation dataset)數據集[12]是由馬里蘭大學提出,來自以40個屬性作為搜索項的圖像搜索UMD-AED 數據集由2 800個人臉圖像組成,其中共標記了40個屬性.UMD-AED數據集含有大量的變化(例如,年齡變化、光照變化、姿勢變化等),且每個屬性均有正負樣本各50個,但是不是每個屬性都被除了以上的公開數據集之外,還有一些早期數據集,標記在每張圖像中.

例如,由Martinez等人[91]在U.A.B的計算機視覺中心(CVC)創建的AR人臉數據集.該數據集僅包含6個屬性,126名對象的4 000多張彩色圖像.此外,還有哥倫比亞大學臉部跟蹤Facetracer數據集[92]包含10個屬性,總共15 000多張圖像.

目前,對于現有的人臉屬性數據集還存在不少問題,例如數據集中有很多圖像主要是正面的或者是擺好姿勢的名人所組成,由大量這樣的圖像所組成的數據集的泛化性能不高,即由其訓練得到的模型在識別另一個非名人或低質量的數據集時的性能表現不佳.其次,數據集里還存在部分類別不平衡問題,即某一類別的正樣本過多或某一類別的正樣本過少.圖7統計了最為常用的大規模人臉屬性數據集CelebA中的數據分布.從圖7中可見,不同屬性正負樣本分布嚴重不均,如有屬性年輕(young)的正樣本占總樣本的比例約為77.36%,而有屬性胡渣(5 o’clock shadow)的正樣本則很少,其占比約為11.11%,這會導致訓練得到的模型在測試時對屬性胡渣的識別性能不佳.此外,在現有的人臉屬性識別數據集中,還存在一些錯誤標記[37],例如一些有鵝蛋臉(oval_face)屬性的圖像被分類為沒有鵝蛋臉屬性標記的類別里.因此,除了考慮擴大數據集和改善網絡模型結構之外,也需要針對這些問題進行改進的人臉屬性識別方法.

4.2 評估指標

為了比較各個算法的性能,人臉屬性識別主要有3個性能指標,分別是準確率(accuracy,ACC)、錯誤率(error rate,ER)以及均值平均精度(mean average precision,mAP).其中準確率為

(19)

其中,真陽性(true positive,TP)表示該屬性真實值為1(即存在該屬性)且模型判斷預測值也為1的樣本數.真陰性(true negative,TN)表示該屬性真實值為0(即不存在該屬性)且模型判斷預測值也為0的樣本數.假陽性(false positive,FP)表示該屬性真實值為0且模型判斷預測值為1的樣本數,假陰性(false negative,FN)表示該屬性真實值為1且模型判斷預測值為0的樣本數.因此準確率表示的是模型預測樣本中所有被正確分類的樣本數與樣本總數的比值.此外,平均準確率ACCAvg是對所有屬性的ACC求平均值.錯誤率則恰恰相反,其表示的是該屬性下模型預測中分類錯誤的樣本數與樣本總數的比值,即

ER=1-ACC.

(20)

同理,平均錯誤率ERAvg是對所有屬性的ER求平均值.而均值平均精度為

(21)

其中,M表示屬性類別總數,APj為第j個屬性的平均精確度,其中精確率為

(22)

召回率為

(23)

由此可以計算出APj及mAP的值,因此mAP表示的是各屬性的平均精度之和與屬性總數的比值.

此外,針對正負樣本數量不平衡問題,可用平衡準確率指標(balanced accuracy metric,BAM)[31]來計算樣本的準確率:

(24)

4.3 性能對比

本節對新近具有代表性的DFAR方法的實驗性能進行對比與分析,主要評估了近幾年發表在國際權威期刊或者頂級會議上的比較有代表性的10余種DFAR方法,并討論了新近人臉屬性識別方法的特點.

表4和表5分別對基于部分的DFAR方法和基于整體的DFAR方法的發表情況、基礎網絡、損失函數、實驗性能進行總結與對比.從表4和表5可以看出,大多數DFAR方法使用的基礎網絡為VGGNet[93],ResNet50[94]和自定義的CNN網絡.在損失函數方面,DFAR方法最常使用的損失函數是交叉熵損失.由于網絡模型結構設計存在差異,故不同DFAR方法也側重使用不同的損失函數,如Euclidean損失[27, 68]、均方誤差損失[70],并均取得較好的識別性能.由于大多數方法是在CelebA和LFWA上進行驗證,因此表4和表5主要展示了在這2個數據集上的實驗結果.總體看來,基于部分的DFAR方法自2014到2020年以來,在CelebA數據集上準確率從87%上升到91.81%;在LFWA數據集上準確率從84%上升到86.13%.而基于整體的DFAR方法自2016年到2020年,在CelebA數據集上準確率從85.05%上升到93%;在LFWA數據集上準確率從73.03%上升到87.22%.

Table 4 Performance Comparisons of State-of-the-art Part-based DFAR Methods

Table 5 Performance Comparisons of State-of-the-art Holistic DFAR Methods

為了更直觀地對比基于部分與基于整體的DFAR方法的性能,表6分別展示了2016—2020年DFAR方法在CelebA數據集上每年識別率最高的5種算法及其準確率結果.表6的結果表明,相比較于基于部分的DFAR方法,近2年基于整體的DFAR方法的研究工作相對較多,并且取得了較好的性能,其主要原因可以從2個方面分析:1)因為基于部分的DFAR方法過于依賴定位信息,僅從定位網絡中所定位的位置中提取相關特征,一旦定位不準確則會導致后續屬性識別不準確[75];2)因為基于部分的DFAR方法舍棄了有用的信息,例如當屬性所對應的區域出現遮擋現象時,基于部分的DFAR方法由于只關注定位區域的特征則無法從遮擋區域中獲取有用的特征信息[22],而基于整體的DFAR方法由于考慮整張臉的特征以及屬性之間的相關性則可以從未被遮擋的區域推斷出遮擋區域的屬性特征.

Table 6 Comparisons of the DFAR Methods with Top Five Accuracy on CelebA in the Recent Years

表5中除了Slim-CNN[36]是基于單任務學習的DFAR方法,其余都是基于多任務學習的方法.由表5可見,基于整體的多任務學習的DFAR方法是準確率較高的模型.為此,圖8進一步對比了2016—2020年基于單屬性與基于屬性分組的多任務學習DFAR方法在CelebA數據集上的性能.

Fig.8 Comparisons of the highest accuracy of the DFAR methods based on single attribute and based on attribute grouping on CelebA from 2016 to 2020

Fig.9 Comparisons of the DFAR methods with top five accuracy on LFWA and CelebA in the recent five years

由于2016年未檢索到基于屬性分組的多任務學習的DFAR方法,2020年未檢索到基于單屬性的多任務學習的DFAR方法,因此,圖8分別列出從2016—2019年中每年識別率最高的基于單屬性的多任務學習DFAR方法以及從2017—2020年每年識別率最高的基于屬性分組的多任務學習DFAR方法的性能.如圖8所示,只有2017年的基于屬性分組的MTCNN+OBRL方法[66]的準確率低于2017—2019年識別率最高的基于單屬性的方法.而2018—2020年識別率最高的基于屬性分組的方法均比2016—2020年基于單屬性的方法的準確率高.2016—2020年,與識別率最高的基于單屬性的方法GNAS[52]相比,識別率最高的基于屬性分組的方法DMTL[68]的準確率高了1.37%.結果表明,基于屬性分組學習的多任務學習方法比其他方法更具有優勢.

此外,不同方法與不同數據集之間的契合度也存在著較大差異.圖9分別列出了在CelebA數據集和LFWA數據集上識別率最高的前5種算法名稱及準確率結果.對于CelebA數據集,DMTL[68]方法的識別準確率最高(達93%),而MTCN+NTCCA[50]方法只有92.97%.但對于LFWA數據集,則是MTCN+NTCCA[50]方法的識別準確率最高(87.96%),而DMTL[68]方法只有86%.由此可見,不同算法在不同數據集的表現存在差異,因此需要對不同數據集進行測試才能更好地評價算法的性能.值得注意的是,CelebA數據集與LFWA數據集中訓練樣本和測試樣本的個數比值是有著明顯不同的,具體比值分別為162 770/19 960(接近8∶1)和6 263/6 970(接近1∶1).由圖9可見,在訓練集與測試集的個數比值較大的CelebA數據集上,所有對比算法的準確率都相對較高,這表明模型訓練相對較好.這是因為模型在訓練階段中所學習到的知識更多,可以使用的輔助信息也更有效.

5 總結與展望

近年來,隨著深度學習技術的不斷發展,學者對DFAR方法的研究已取得了一定的進展.本文分別從是否采用規則區域定位、多任務學習的角度,對基于部分與基于整體的DFAR方法進行詳細的概述與對比.雖然目前DFAR方法的性能有所提高,但DFAR方法在復雜場景、數據分布不平衡、數據噪聲、少樣本等情況下仍面臨著許多挑戰和亟待解決的問題.因此,DFAR方法的未來研究方向可以從6個方面進行考慮:

1)復雜場景下的人臉屬性識別.目前的人臉屬性識別方法在面對光線良好的室內擺拍,且是近距離拍攝的高質量人臉圖像時,可以取得較好的識別性能.但是在面對復雜場景,如視野廣闊的室外場景、人數較多的商場、光照不佳以及部分遮擋等的場景下,現有的人臉屬性識別方法容易受到各種環境因素的影響,導致難以準確地識別出屬性類別.文獻[32]利用GAN生成抽象人臉圖像來消除原圖中無用的背景信息,其為解決復雜場景下的人臉屬性識別提供了一種思路.因此,如何處理好復雜場景下的人臉屬性識別任務也將是未來研究的主要方向之一.

2)數據分布不平衡下的人臉屬性識別.當前人臉屬性的數據集存在數據分布不平衡的問題,主要體現在2個方面:①針對單個數據集而言的不同屬性類別之間的不平衡,即某一類的樣本過多而某一類的樣本過少,這就會導致對少量樣本的類別識別性能不佳.②不同訓練數據集與測試數據集之間的偏差,即領域差異,這會使模型的泛化能力降低,從而導致雖然在訓練數據集中識別性能良好但在測試數據集中性能表現不佳.因此,可以從損失函數優化[67]、自適應閾值調整[49]、網絡結構設計[12]上進一步提高數據分布不平衡時的人臉屬性的識別率,這也將是未來的研究的方向之一.

3)數據噪聲下的人臉屬性識別.基于深度學習的研究方法是一種數據驅動的方法,往往需要通過大量的數據來學習得到一個分類或回歸模型,所以訓練得到的模型性能的好壞很大程度上依賴于訓練數據的數量和質量.而當前人臉屬性的數據集存在著部分數據標記錯誤的問題,例如有些非圓臉的圖像被標記為圓臉,有些沒有劉海的圖像被標記為有劉海.再者,數據集中采集的人臉圖像質量也參差不齊.因為拍攝人臉的距離不同、分辨率也不同,所以部分圖像含有噪聲.文獻[95-96]研究了如何去除噪聲數據來建立一個純凈的人臉數據集,還有若干人臉識別方面的研究工作[97-98]旨在學習噪聲魯棒的人臉表示,這些方法均為解決數據噪聲下的人臉屬性識別提供了思路.通過構建更高質量的標準數據庫或提出自動去除錯誤標記樣本的技術,也將更好地提高屬性識別方法的魯棒性.

4)少樣本下的人臉屬性識別.基于深度學習的人臉屬性識別技術往往需要通過學習大量有屬性標記的樣本才能訓練出一個優秀的模型,而標記大量的樣本十分耗時耗力.少樣本學習(few-shot learning)可以使得模型在學習了一定已知類別的數據后,對于新的類別只需要少量的樣本就能快速學習.而元學習(meta learning)[99]作為少樣本學習的主要技術之一,也被稱為學習如何學習,即利用以往的知識經驗來指導新任務的學習,使得機器具有學會學習的能力.目前還很少基于元學習或少樣本學習的人臉屬性識別方法,但這也是未來一個有潛力的研究方向.

5)設計輕量級的屬性識別網絡.DFAR方法需要在一個網絡模型中同時訓練識別眾多人臉屬性,其網絡模型較為復雜.此外,若在模型設計中考慮多任務學習,則中間共享的模型參數會更多,加上人臉數據集的數據量十分龐大,導致訓練起來比較耗費時間.文獻[36]利用深度可分離卷積和點卷積設計了輕量級卷積神經網絡并用于人臉屬性識別,但這方面的研究還為之較少.因此,設計更魯棒且高效的輕量級網絡模型對于人臉屬性識別的實際應用具有重要意義,也將是未來值得研究的方向.

6)結合基于部分與基于整體的DFAR方法.由于基于部分的DFAR方法更注重每個屬性所處的臉部位置,從而通過提取屬性所對應的局部特征來進行識別.而基于整體的DFAR方法則以整張人臉圖像作為輸入,主要更關注屬性之間的關系.Mahbub等人[100]提出既要注重每個屬性所處的臉部位置,又要考慮整張人臉的特征.該方法還假設每個屬性均由多個人臉區域預測,根據預訓練模型自動分配不同的人臉區域來選擇所對應識別的屬性,并在網絡最后融合多個區域的預測結果.但這種方法計算復雜,且容易受到初始模型準確率的影響.因此,如何將局部屬性特征與屬性之間的相互關系有機結合,均衡考慮這2類方法的優缺點,對于實現更優性能的屬性識別將是一個有潛力的發展方向.

猜你喜歡
區域方法
永久基本農田集中區域“禁廢”
今日農業(2021年9期)2021-11-26 07:41:24
分割區域
學習方法
關于四色猜想
分區域
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 日韩欧美在线观看| 中文一区二区视频| 操美女免费网站| 欧美日韩国产在线播放| 亚洲天堂伊人| 国产成人精品高清在线| 天堂岛国av无码免费无禁网站| 久夜色精品国产噜噜| 日韩在线观看网站| 国产精品尹人在线观看| 免费无遮挡AV| 色婷婷在线播放| 亚洲乱伦视频| 免费观看无遮挡www的小视频| 香蕉国产精品视频| 中文字幕欧美日韩| 毛片免费视频| 国产永久无码观看在线| 欧美日韩国产在线人| 99久久婷婷国产综合精| 婷五月综合| 亚洲三级a| 成人免费一区二区三区| 国产极品粉嫩小泬免费看| 国产另类视频| 久久精品中文无码资源站| 亚洲精品久综合蜜| 四虎成人精品在永久免费| 狠狠亚洲五月天| 婷婷色丁香综合激情| 日韩毛片免费视频| 色有码无码视频| 欧美国产精品不卡在线观看| 亚洲成a人片77777在线播放| 国产精品99久久久久久董美香| 国产精品美乳| 8090午夜无码专区| 天天色天天操综合网| 亚洲av无码人妻| 久久青青草原亚洲av无码| 欧美一区二区三区不卡免费| 国产免费一级精品视频| 天天综合天天综合| 久久久久免费看成人影片 | 欧美不卡视频一区发布| 一区二区影院| 狠狠躁天天躁夜夜躁婷婷| 青青草原国产av福利网站| 精品视频在线观看你懂的一区| 性色一区| 午夜a视频| 日韩精品成人网页视频在线 | 亚洲伊人久久精品影院| 国产福利观看| 亚洲女人在线| 日韩精品久久久久久久电影蜜臀| 91年精品国产福利线观看久久| 美女无遮挡免费视频网站| 国产精品久久久久婷婷五月| 国产精品偷伦在线观看| 伊人久久久久久久| 亚洲一区二区精品无码久久久| 久久视精品| 国产一级毛片在线| 综合五月天网| 亚洲中文字幕久久无码精品A| 伊人久综合| 72种姿势欧美久久久久大黄蕉| 久久久久国产精品嫩草影院| 爆乳熟妇一区二区三区| 亚洲成人播放| 中国成人在线视频| 精品福利网| 久操中文在线| 国产福利免费在线观看| 国产美女在线免费观看| 亚洲天堂2014| 欧美日韩国产成人在线观看| 六月婷婷激情综合| 婷婷成人综合| 99精品久久精品| 国产黄色免费看|