盧宗光,劉青山,孫玉寶
(南京信息工程大學 a.信息與控制學院,b.江蘇省大數(shù)據(jù)分析技術重點實驗室,南京 210044)
人臉檢索的目標是將數(shù)據(jù)庫中人臉圖像和輸入人臉圖像按照相似性進行搜索,并依據(jù)相似程度由高到低進行排序輸出。人臉圖像檢索方法主要包括人臉特征表示及針對所提特征的高效索引兩個步驟。當前大多數(shù)人臉檢索方法通過計算人臉幾何屬性(如兩眼之間的距離,兩眼與鼻尖之間的角度,兩嘴角與鼻尖構成三角形的面積等)或面部顯著特征點(如眼睛、鼻子、嘴巴等)處的局部特征之間的相似性[1-2]。BACH et al[3]先對人臉圖片進行標注,然后從標注點提取人工設計特征進行人臉相似性匹配,即實現(xiàn)了一種半自動化的人臉檢索系統(tǒng)。EICKELER et al[4]率先采用2DPHMM方法進行人臉檢索,并取得了不錯的結果。GUDIVADA et al[5]受人臉匹配啟發(fā),首次將人臉匹配過程中使用的特征應用于人臉檢索系統(tǒng)。WANG et al[6]提出了一種使用LBP[7](local binary pattern)的多任務學習架構來解決人臉驗證和人臉檢索問題。近年來,通過使用深度學習來學習人臉特征表示取得了一系列重大突破[8-13]。文獻[14]首次提出將兩張圖片的匹配程度映射到一個度量距離,并用距離的大小表示匹配程度的高低。
文獻[16-17]創(chuàng)新性地改變了卷積神經(jīng)網(wǎng)絡監(jiān)督學習時的驗證信號(softmax loss),使得深度學習特征包含了更豐富的身份信息。文獻[18]更進一步,在之前網(wǎng)絡的每一個卷積層之后添加一層全連接層并計算損失函數(shù),但此時網(wǎng)絡層數(shù)較淺,訓練樣本量較少,需要進行復雜的樣本擴充操作。文獻[9-10,19]展現(xiàn)了三元組損失(triplet loss)函數(shù)在人臉特征深度學習上的優(yōu)勢,通過深度嵌入(deep embedding),使錨點(anchor)和正樣本(positive)之間的距離最小,錨點和負樣本(negative)之間的距離最大直到兩者達到預設的閾值,由于訓練樣本為三元組,這對樣本的選取提出了很高的要求,選取過程操作復雜。
本文采用Inception-ResNet-v1網(wǎng)絡并借鑒了WEN et al[20]的Center loss對網(wǎng)絡損失函數(shù)進行修改,且損失函數(shù)計算較簡單,不需要對訓練樣本選擇做過多操作。首先,使用約四百萬訓練樣本對網(wǎng)絡進行訓練,得到了優(yōu)秀的人臉特征表示模型。然后,對百萬級人臉圖像檢索庫進行特征提取。最后,對所獲特征采用由粗到細的分層匹配進行相似性檢索得到檢索結果。
人臉檢測是一切人臉分析技術的基礎,準確、魯棒的人臉檢測器是人臉檢索的前提。本文采用MTCNN檢測器。
該檢測器人臉檢測主要分為以下3個步驟:
1) Proposal網(wǎng)絡(P-Net)對輸入圖像產(chǎn)生大量候選人臉框。
2) Refinement網(wǎng)絡(R-Net)對上一步產(chǎn)生的候選框進行細化,舍棄多余和不正確的人臉候選框。
3) 輸出網(wǎng)絡(O-Net)產(chǎn)生最終的人臉框和5個人臉關鍵點。
由于卷積神經(jīng)網(wǎng)絡在多項應用中有著優(yōu)異的表現(xiàn),其在計算機視覺領域里扮演著越來越重要的角色。本文采用的33層Inception-ResNet-V1網(wǎng)絡結構如圖1所示,其中包含了一個輸入原始圖片,輸出35×35×256(35×35為特征圖大小,256為卷積核數(shù)量,下同)的stem結構;5個輸入輸出為35×35×256的Inception-resnet-A(細節(jié)見圖2)結構;一個輸入為35×35×256輸出為17×17×896的Reduction-A結構;10個輸入輸出為17×17×896的Inception-resnet-B(細節(jié)見圖3);一個輸入為17×17×896輸出為8×8×1792的Reduction-B結構;5個輸入輸出為8×8×1792的Inception-resnet-C(細節(jié)見圖4);全連接層以及最終的損失函數(shù)層。該網(wǎng)絡結構結合了當前最優(yōu)秀的兩個深度卷積神經(jīng)網(wǎng)絡Inception[21]和深度殘差網(wǎng)[22]的優(yōu)點,在大數(shù)據(jù)量訓練集條件下有著十分優(yōu)異的表現(xiàn),本文訓練集包含了3 942 599張來自82 360位個體的人臉圖片,故選用了此網(wǎng)絡。

圖1 Inception-ResNet-V1網(wǎng)絡結構總覽Fig.1 The overall schema of Inception-ResNet-V1 network
圖2為圖1網(wǎng)絡結構總覽中連接輸入層和Inception-resnet-A層之間的stem網(wǎng)絡結構,它包含7層網(wǎng)絡。輸入層為299×299的RGB三通道圖片,分別經(jīng)過3次卷積、1次最大池化和3次卷積之后得到35×35×256的特征圖。圖中Conv為卷積層,MaxPool為最大池化層。括號內(nèi)第一個數(shù)字為卷積核數(shù)量;stride 2表示卷積或池化是步長為2沒有特殊表明的則步長為1;帶有字母‘V’的表示該層采用valid padding,此時該層輸出嚴格根據(jù)輸入特征圖大小、卷積核大小和步長來確定;沒有字母‘V’的層采用same padding,此時會自動根據(jù)輸入特征圖尺寸對特征圖進行填充使得輸出特征圖和輸入特征圖具有相同尺寸。

圖2 stem網(wǎng)絡結構Fig.2 The schema of stem network
圖1中的Inception-resnet-A,Inception-resnet-B,Inception-resnet-C結構是該網(wǎng)絡結構的主要卷積層,該結構結合了GoogLeNet和殘差網(wǎng)絡的優(yōu)點,既降低了深層神經(jīng)網(wǎng)絡的參數(shù)量又解決了深度神經(jīng)網(wǎng)絡梯度容易消失的問題。
該網(wǎng)絡起初是針對分類任務設計,其損失函數(shù)為Softmax loss, 如公式(1):
(1)
式中:xi∈Rd表示類別為第yi類的第i個深度特征,d為特征維度;Wj為最后全連接層權值矩陣W∈Rd×n的第j列,b∈Rd為偏置項;n為樣本類別數(shù)量,m為當前訓練批次內(nèi)樣本數(shù)量。該損失函數(shù)在多目標分類問題中有著優(yōu)異的表現(xiàn)。人臉特征表示對網(wǎng)絡泛化能力提出了更高的要求,故借鑒WEN et al[13]的Center loss,對網(wǎng)絡損失函數(shù)進行修改。Center loss函數(shù)如公式(2):
(2)
式中:cyi∈Rd表示類別為第yi類的深度特征的特征中心,該中心損失函數(shù)能夠有效降低人臉圖像的類內(nèi)差,cyi會隨著訓練的迭代進行更新。
因此,最終的損失函數(shù)為:

(3)
λ用于平衡兩種損失函數(shù)。
Softmax loss可以增大不同類別之間的類間差(inter-class),同時,Center loss降低了同類樣本之間的類內(nèi)差(intra-class).通過綜合,最終得到維度為128的人臉表示特征向量。
盡管已經(jīng)獲取到維度低、魯棒性強的人臉表示特征,但是在百萬級人臉數(shù)據(jù)庫中通過線性檢索仍耗時大約5 s,這在某些快速檢索場景下顯然是不能容忍的。為了加速檢索,我們對提取的人臉特征數(shù)據(jù)進行聚類分析,將數(shù)據(jù)進行拆分。在我們的實驗中,每類約10萬條數(shù)據(jù)時,可以犧牲最少的檢索準確率達到提升一個數(shù)量級的檢索速度。
實驗采用以下數(shù)據(jù)集:CASIA-WebFace(后稱CASIA)[23],MS-Celeb-1M(后稱MSCeleb)[24],LFW[27]以及FaceRetrieval-A,F(xiàn)aceRetrieval-B,F(xiàn)aceRetrieval-C.這6個數(shù)據(jù)集詳細信息見表1.

表1 實驗數(shù)據(jù)庫信息Table 1 Details of the datasets
CASIA是由中科院整理發(fā)布的大規(guī)模人臉數(shù)據(jù)集,MSCeleb是微軟公司發(fā)布的百萬級人臉數(shù)據(jù)庫,這兩個數(shù)據(jù)庫也是目前公開人臉數(shù)據(jù)庫里擁有圖片數(shù)量最多的,因此,本文采用這兩個數(shù)據(jù)集作為網(wǎng)絡訓練數(shù)據(jù)。LFW是目前較主流的人臉驗證測試評估數(shù)據(jù)集,該人臉驗證數(shù)據(jù)集分為多種驗證模式,本文對人臉特征性能評估皆是在非限制條件下外部標記訓練集模式下進行。FaceRetrieval-A,F(xiàn)aceRetrieval-B,F(xiàn)aceRetrieval-C 3個百萬級人臉數(shù)據(jù)庫用作人臉檢索測試庫。圖4展示了這6個人臉數(shù)據(jù)庫中的部分圖片,其中CASIA和MSCeleb中的人臉圖片均根據(jù)人臉位置進行了裁剪,并且CASIA中圖片尺寸均被縮放為,而MSCeleb沒有被統(tǒng)一縮放。
2.2.1 數(shù)據(jù)預處理
由于CASIA和MSCeleb數(shù)據(jù)庫中均存在一些錯誤樣本,為了提升訓練數(shù)據(jù)的純度,我們采用了文獻[28]中的人臉特征提取模型,對這兩個數(shù)據(jù)庫進行過濾,具體步驟如下:
1) 使用MTCNN進行人臉檢測并根據(jù)人臉位置和網(wǎng)絡輸入要求對圖片進行剪切縮放,刪去未檢到人臉圖片。
2) 使用文獻[25]中的網(wǎng)絡提取人臉特征。
3) 使用步驟2)中的人臉特征進行人臉識別。首先隨機從每一類人臉圖片中選擇一張作為探針;然后,對該類剩余人臉圖片一一執(zhí)行人臉驗證操作,刪除驗證結果不相同的圖片;最后,刪去總數(shù)少于5張圖片的人臉類別。

圖4 本文使用數(shù)據(jù)庫的部分示例圖片F(xiàn)ig.4 Some examples of the used datasets
經(jīng)過此過濾操作之后兩個數(shù)據(jù)庫信息如表2所示。
2.2.2 模型訓練及分析
實驗分別針對損失函數(shù)設計及λ選擇、數(shù)據(jù)集大小、人臉特征維度設計了4組對比試驗。均在LFW數(shù)據(jù)庫上進行外部訓練數(shù)據(jù)模式的人臉驗證評估。所有模型訓練使用相同硬件環(huán)境,主要配置為兩塊英特爾Xeon E5-2640 CPU, 兩塊英偉達Pascal GPU和128 GB內(nèi)存。

表3 網(wǎng)絡訓練固定參數(shù)Table 3 The fixed parameters of the training procedure
為了驗證Center loss對網(wǎng)絡提取人臉特征性能有提升作用,設計了一組對比試驗:分別使用Softmax loss 以及Softmax loss加Center loss深度網(wǎng)絡的監(jiān)督學習并在LFW測試庫上進行人臉驗證評估。訓練數(shù)據(jù)庫均為MSCeleb,輸出人臉特征維度設置為128維,分別取0和0.000 1,結果見表4.實驗結果表明,添加了Center loss的損失函數(shù)對特征性能提升有促進作用。
λ取值對模型效果影響的實驗中,分別使用CASIA和MSCeleb數(shù)據(jù)庫作為網(wǎng)絡訓練樣本,輸出人臉特征維度設為128維,分別取0.1,0.01,0.001,0.000 1.其它固定訓練參數(shù)見表3.分別對得到的模型在LFW測試庫上進行人臉驗證評估,結果如表4,通過加入Center loss一定程度上提高了驗證準確率。
表4同時反映了數(shù)據(jù)集大小對模型效果影響,訓練數(shù)據(jù)規(guī)模的提升大幅度提升了模型性能,這充分證明了大數(shù)據(jù)是驅(qū)動深度學習的一個重要條件。

表4 不同規(guī)模訓練數(shù)據(jù)集下不同值的驗證準確率Table 4 The verification accuracy of different λ under different scale training datasets %
MSCeleb數(shù)據(jù)庫是網(wǎng)絡訓練時的訓練集,在人臉特征維度對模型效果影響的實驗中,分別設置輸出人臉特征維度為96,128,256維。其它訓練參數(shù)見表3,此時λ=0.000 1.同樣的,分別用這3種維度的特征在LFW數(shù)據(jù)庫上進行了人臉驗證評估,結果如表5.我們發(fā)現(xiàn)特征維度為128維時既有很高的識別準確率,又降低了后續(xù)人臉檢索時的檢索復雜度。因此,我們設置網(wǎng)絡輸出特征維度為128維。

表5 不同特征維度的驗證準確率Table 5 The verification accuracy of different feature dimensions
通過對以上三組對比實驗結果,最終選擇訓練樣本為MSCeleb數(shù)據(jù)庫,λ=0.000 1且輸出特征為128維的模型作為人臉特征表示模型。
與當前最優(yōu)秀的人臉驗證方法做了對比,結果如表6.
在下一步的人臉檢索中,基于CASIA數(shù)據(jù)庫訓練λ=0.000 1且輸出特征為128維的模型將作為人臉檢索實驗的基準。
2.3.1 實驗設定及評估標準
人臉檢索實驗的數(shù)據(jù)庫分別為FaceRetrieval-A、FaceRetrieval-B、FaceRetrieval-C.

表6 與當前優(yōu)秀方法的準確率對比Table 6 Verification performance of different methods on LFW datasets %
對每一類抽取該類最后一張人臉圖片作為檢索目標。因此,三個數(shù)據(jù)庫檢索目標數(shù)量分別為29 368,29 374,25 215.另外,表1中這三個數(shù)據(jù)庫的圖片總數(shù)已經(jīng)是剔除檢索目標后的圖片數(shù)量。在下面的檢索實驗中,分別評估Top1,Top5,Top10檢索準確率(PTopk)。具體計算方式為:
(4)
式中:n表示檢索目標數(shù)量,C(Xi,Yi)表示第i個檢索目標的真實類別Xi與檢索結果類別Yi的比較結果。若Xi=Yi,則C(Xi,Yi)=1;若Xi≠Yi,則C(Xi,Yi)=0.在Top1模式下Yi為相似性最高的結果,而Top5和Top10分別為相似性位列前5和前10的檢索結果且這些結果里只要有一個與真實類別Xi相同則C(Xi,Yi)=1.
2.3.2 實驗結果及分析
對于3個人臉檢索測試集,分別采用了兩種檢索方法:線性檢索和分層檢索。線性檢索首先計算目標檢索圖片特征和檢索測試集中所有圖片特征之間的歐氏距離;接著對得到的距離由低到高進行排序;最后,根據(jù)排序結果獲取Top1,Top5,Top10檢索結果。
分層檢索是先對3個人臉測試集特征進行聚類分析,將每個測試集特征拆分為10個子集,并記錄下每個子集的特征中心。分層檢索的具體步驟如下:
1) 計算目標檢索圖片特征與10個子集特征中心的歐式距離并選擇最近的一個子集;
2) 計算目標檢索圖片特征與第一步得到的最近子集中所有圖片特征的歐式距離并進行排序;
3) 根據(jù)排序結果獲取Top1,Top5,Top10檢索結果。
表7,8,9分別是FaceRetrieval-A、FaceRetrieval-B、FaceRetrieval-C三個人臉檢索測試集上的人臉檢索結果,這里基于CASIA數(shù)據(jù)庫訓練的模型作為對比實驗基準。
在FaceRetrieval-A數(shù)據(jù)庫上,取得了較高的檢索準確率。其中在線性檢索方法下:基于MSCeleb訓練集模型的Top1,Top5,Top10檢索準確率較使用CASIA訓練集的檢索基準分別提高1.71%,0.76%和0.48%,達到92.78%,95.69%和96.79%.此時,單次檢索時間約為5.2 s.為了提高檢索速度,在分層檢索方法下,基于MSCeleb訓練集模型的Top1,Top5,Top10檢索準確率相比檢索準確率分別提升了2.54%,1.42%和1.11%,達到90.19%,93.21%和94.38%.此時,單次檢索時間約為0.6 s,較線性檢索速度提升了8.7倍。

表7 FaceRetrieval-A數(shù)據(jù)庫上的人臉檢索結果Table 7 Result of face retrieval on FaceRetrieval-A datasets
在FaceRetrieval-B數(shù)據(jù)庫上,檢索實驗同樣有著優(yōu)秀的表現(xiàn)。其中在線性檢索方法下,基于MSCeleb訓練集模型的Top1,Top5,Top10檢索準確率較使用CASIA訓練集的檢索基準分別提高1.19%,0.59%和 0.45%,達到92.54%,95.61%和96.74%.此時,單次檢索時間約為5.4 s.在分層檢索方法下,基于MSCeleb訓練集模型的Top1,Top5,Top10檢索準確率相比檢索準確率分別提升了2.02%,1.29%和1.03%,達到89.93%,93.19%和93.40%.此時,單次檢索時間約為0.6 s,較線性檢索速度提升了9倍。
與前兩個檢索測試集相比,F(xiàn)aceRetrieval-C數(shù)據(jù)庫數(shù)據(jù)量略小。檢索實驗依然有著不俗的表現(xiàn)。其中在線性檢索方法下,基于MSCeleb訓練集模型的Top1,Top5,Top10檢索準確率較使用CASIA訓練集的檢索基準分別提高1.49%,0.55%和0.31%,達到93.19%,95.81%和96.89%.此時,單次檢索時間約為4.3 s.為了提高檢索速度,在分層檢索方法下,基于MSCeleb訓練集模型的Top1,Top5,Top10檢索準確率相比檢索準分別提升了2.21%,1.23%和0.73%,達到90.37%,93.19%和94.27%.此時,單次檢索時間約為0.46 s,較線性檢索速度提升了9.3倍。

表8 FaceRetrieval-B數(shù)據(jù)庫上的人臉檢索結果Table 8 Result of face retrieval on FaceRetrieval-B datasets

表9 FaceRetrieval-C數(shù)據(jù)庫上的人臉檢索結果Table 9 Result of face retrieval on FaceRetrieval-C datasets
通過以上3個測試集的測試,清晰地體現(xiàn)出大數(shù)據(jù)對深度學習模型效果的提升。采用MSCeleb數(shù)據(jù)訓練的模型在每個測試條件下,結果都優(yōu)于使用CASIA數(shù)據(jù)訓練的模型,并且在分層檢索模式下使用CASIA數(shù)據(jù)訓練的模型準確率下降幅度更大。為了提升檢索速度,我們犧牲了大約2.5%的檢索精度換取了提升約9倍的檢索速度,使得百萬級數(shù)據(jù)庫單次檢索時間在0.5 s左右。在某些需要快速檢索的特定場景下,分層檢索有相當?shù)膬?yōu)勢。
以上所有檢索實驗均在一臺配置英特爾酷睿i7-4790 CPU和16 GB內(nèi)存的臺式機上操作。
筆者設計了針對三個百萬級人臉數(shù)據(jù)庫的檢索實驗,并就檢索精度和檢索速度分別采用了不同的檢索策略,即在高檢索精度場景中犧牲一定的檢索時間從而達到更精確的檢索成功率,在快速檢索場景中損失大約2.5%的檢索成功率進而提升了約9倍的檢索速度。所有實驗均取得優(yōu)秀的實驗結果。另外,針對人臉特征表示模型的的訓練,提出了不同的訓練方法,就損失函數(shù)設計、數(shù)據(jù)集選取和特征維度設置做了詳實的實驗分析,并選擇了最優(yōu)解決方案。
[1] CHAN C H,TAHIR M A,KITTLER J,et al.Multiscale local phase quantization for robust component-based face recognition using fusion of multiple descriptors[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(5):1146-1177.
[2] WU Z,KE Q,SUN J,et al.Scalable face image retrieval with identity-basedquantization and multireference reranking[J].IEEE Transactions on Pattern Analysis and MachineIntelligence,2011,33(10):1991-2001.
[3] BACH J R,PAUL S,JAIN R.A visual informationmanagement system for the interactive retrieval offaces[J].IEEE Transactions on Knowledge and Data Engineering,1993,5(4):619-628.
[4] EICKELER S.Face database retrieval using pseudo 2dhidden markov models[C]∥IEEE.International Conference on Automatic Face and Gesture Recognition.2002: 0065.
[5] GUDIVADA V N,RAGHAVAN V V.Modeling andretrieving images by content[J].Journal of InformationProcessing and Management,1997,33(4):427-452.
[6] WANG X,ZHANG C,ZHANG Z.Boosted multi-task learning for face veri_cation with applications to web image and video search[C]∥IEEE.Conference on Computer Vision and Pattern Recognition.2009:142-149.
[7] OJALA T,PIETIKINEN M.Multiresolution gray-scale and rotation invariant texture classication withlocal binary patterns[J].IEEETransactions on PatternAnalysis and Machine Intelligence,2002,24(7):971-987.
[8] PARKHI O M,VEDALDI A,ZISSERMAN A.Deep facerecognition[C]∥British Machine Vision Conference.2015.
[9] SCHROFF F,KALENICHENKO D,PHILBIN J.FaceNet:A unified embedding for face recognition and clustering[C]∥IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2015:815-823.
[10] SUN Y,WANG X,TANG X.Hybrid deep learning for face verification[J].IEEE Transactions on PatternAnalysis & Machine Intelligence,2013,38(10):1997-2009.
[11] SUN Y,WANG X,TANG X.Deep learningface representation by joint identification-verification[J].2014,27:1988-1996.
[12] TAIGMAN Y,YANG M,RANZATO M,et al.Deepface:Closing the gap to human-level performancein face veri_cation[C]∥Conference on Computer Visionand Pattern Recognition.2014:1701-1708.
[13] WEN Y,LI Z,QIAO Y.Latent factor guidedconvolutional neural networks for age-invariant facerecognition[C]∥IEEE Conference on Computer Visionand Pattern Recognition.2016:4893-4901.
[14] CHOPRA S,HADSELL R,LECUN Y.Learning asimilarity metric discriminatively,with application toface veri_cation[J].Computer Vision and Pattern Recognition,2005(1):539-546.
[15] PAPAGEORGIOU C P,OREN M,POGGIO T.A general framework for object detection[C]∥Computer vision sixth international conference.1998:555-562.
[16] SUN Y,WANG X,TANG X.Deep learning facerepresentation from predicting 10,000 classes[C]∥IEEE.Conference on Computer Vision and Pattern Recognition.USA:Columbus,2014:1891-1898.
[17] TAIGMAN Y,YANG M,RANZATO M,et al.Deepface:Closing the gap to human-level performancein face verification[C]∥Conference on Computer Visionand Pattern Recognition.2014:1701-1708.
[18] SUN Y,WANG X,TANG X.Deeply learnedface representations are sparse,selective,and robust[J].Computer Science,2014:2892-2900.
[19] LIU J,DENG Y,BAI T,et al.Targeting ultimate accuracy:face recognition via deepembedding[J/OL].[2015-07-23].http://arxiv.org/abs/1506.07310.
[20] WEN Y,ZHANG K,LI Z,et al.A discriminative feature learning approach for deep face recognition[C]∥European Conference on Computer Vision.Berlin:Springer International Publishing,2016:499-515.
[21] ZHANG K,ZHANG Z,LI Z,et al.Joint face detection and alignment using multi-task cascaded convolutional networks[J].IEEE Signal Processing Letters,2016,23:1499-1503.
[22] HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.
[23] YI D,LEI Z,LIAO S,et al.Learning face representation from scratch[J].Computer Science,2014.
[24] GUO Y,ZHANG L,HU Y,et al.Ms-celeb-1m:a dataset and benchmark for large-scale face recognition[C]∥European Conference on Computer Vision.Berlin:Springer International Publishing,2016: 87-102.
[25] LU Z,YANG J,LIU Q.Face image retrieval based on shape and texture feature fusion[C]∥Computational Visual Media Conference.2017.
[26] CHEN D,CAO X,WANG L,et al.Bayesian face revisited:A joint formulation[J].Computer Vision-ECCV 2012,2012:566-579.
[27] BERG T,BELHUMEUR P N.Poof:Part-based one-vs.-one features for fine-grained categorization,face verification,and attribute estimation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2013:955-962.
[28] BERG T,BELHUMEUR P N.Tom-vs-pete Classifiers and Identity-preserving Alignment for Face Verification[C]∥BMVC.2012,2:7.
[29] CAO X,WIPF D,WEN F,et al.A practical transfer learning algorithm for face verification[C]∥Proceedings of the IEEE International Conference on Computer Vision.2013:3208-3215.