基于度量學習的跨模態人臉檢索算法

2022-07-08 01:50:00沃焱梁籍云韓國強

華南理工大學學報(自然科學版) 2022年6期

沃焱梁籍云韓國強

(華南理工大學計算機科學與工程學院，廣東廣州 510006)

跨模態人臉檢索是一種根據人臉圖像或視頻查詢不同模態的相關人臉數據的檢索方式。在日常生活中，跨模態人臉檢索可以根據人臉圖像定位到相關的影視作品，并且推薦更多的相關信息；也可以根據嫌疑人圖像檢索相關的監控視頻獲得嫌疑人的運動軌跡，或者根據監控視頻在人臉圖像數據庫中對嫌疑人進行有效識別。

跨模態人臉檢索任務的難點在于人臉圖像和人臉視頻之間的模態差異較為復雜，不僅包含時空域差異，還包含視角差異和域差異，難以計算不同模態特征之間的相似性。如圖像和視頻中的人臉可能存在較大的視角差異，會涉及遮擋、非線性扭曲以及位置變化等復雜情況[1]，使得特征空間中的不同模態的特征分布差異大，進而影響跨模態檢索的正確性；同一人臉類別具有多種不同的表現方式，即證件照、藝術照、生活照甚至是肖像或漫畫等，不同的表現方式對應的圖像顏色、紋理和風格差異較大，本文將每種表現方式對應的人臉圖像看作一個域，人臉圖像和人臉視頻可能來源于完全不同的域，因此存在較大的域差異，很難準確地度量特征之間的相似性。

度量學習的基本思想是根據任務學習一種距離度量以度量樣本之間的相似性。相比于直接使用歐氏距離度量樣本相似性，度量學習可以結合數據自身特點，學習更有效的度量方式用于求解目標問題。基于度量學習的跨模態檢索方法是跨模態檢索的一種主要技術手段，一般使用深度神經網絡將不同模態的特征映射到一個共同空間中，通過最大化同類特征的相似性關系和最小化異類特征的相似性關系來學習映射網絡的參數。Qiao等[2]提出了一種端到端的深度異構哈希方法，使用協方差矩陣表示視頻特征，將圖像特征提取、視頻特征提取和異構哈希方法結合在一個框架中，采用三元組損失學習圖像特征和視頻特征的公共表達。Zhen等[3]提出了一種深度監督跨模態檢索算法，將兩種特征映射到共同空間中，使用類似極大似然函數的損失保持模態內和模態間的可分性，并且通過最小化圖像特征矩陣和文本特征矩陣的距離生成模態不變表示，學習了具有模態魯棒性和類別可分性的共同表達。Wang等[4]提出了一種圖像與視頻混合的哈希方法用于人臉視頻檢索，采用三元組損失保持視頻模態內的關系，并且通過對齊圖像中心和視頻特征來提升視頻單模態檢索和跨模態檢索的準確性。上述基于度量學習的跨模態檢索方法可以有效地減少模態差異，但其應用于跨模態人臉檢索任務主要存在兩個問題：首先，忽略了樣本對中包含的信息量不同，構建了大量冗余三元組，有些文獻使用困難三元組篩選[5]或半困難三元組篩選[6]的方法來提升訓練效率，然而這類方法只能利用當前批次的樣本對信息，因此只能進行局部的優化；其次，對于人臉圖像和人臉視頻，模態間差異不僅包含時域與空域的差異，也包含兩者的視角差異和域差異，已有方法在構建共同空間的過程中缺乏對視角差異和域差異的關注。

為了能生成在模態內和模態間都具有魯棒性、可辨別性的圖像和視頻共同表達，本文提出了一種兩階段的跨模態共同表達生成算法：在第一個階段，使用偏航角等變模塊提取魯棒的圖像特征，同時使用多層注意力機制提取可分的視頻特征；在第二個階段，使用交叉熵損失保持模態內相似性關系，結合半困難全局三元組和半困難局部三元組損失保持模態間相似性關系；然后，提出了一種域適應算法，該算法使用域校準和遷移學習微調圖像共同表達生成網絡的參數，以提升跨模態人臉檢索的準確性。最后，在PB、YTC和UMD人臉視頻數據集上驗證本文算法的有效性。

1 跨模態人臉檢索算法

為實現快速準確的跨模態人臉檢索，本文提出了一種基于度量學習的跨模態人臉檢索算法，該算法包括跨模態共同表達生成算法和域適應算法。首先，如圖1所示，跨模態共同表達生成算法通過特征提取網絡和共同表達映射網絡組成的跨模態共同表達生成網絡提取不同模態樣本的共同表達，該網絡的優化分為特征提取和共同表達映射兩個階段；其次，本文使用域適應算法對跨模態共同表達生成網絡進行微調。

圖1 跨模態共同表達生成算法框架Fig.1 Framework of cross-modal common representation generation algorithm

1.1 跨模態共同表達生成算法

1.1.1 特征提取

在特征提取階段需要將圖像樣本和視頻樣本分別從樣本空間XI和XV映射到特征空間YI和YV中，特征提取的目標是使不同模態的特征在各自的特征空間內具有類內魯棒性和類間可分性。

圖像特征提取的主要目標是在提取魯棒可分的圖像特征的基礎上保證特征空間YI對視角變化的魯棒性。視角變化主要包含偏航角、滾轉角和俯仰角的變化，其中對特征魯棒性影響最大的是偏航角變化。文獻[7]構造了偏航角等變殘差映射，用于減小不同偏航角人臉圖像的特征差異，將其用于不同的網絡結構中都取得了較好的結果；本文采用類似的方式根據不同偏航角對特征進行補償，以保證圖像特征對偏航角的魯棒性。

(1)

(2)

(3)

(4)

(5)

(6)

(7)

綜上所述，特征提取階段總的損失函數為

(8)

1.1.2 共同表達映射

(9)

模態間相似性保持的目標是使不同模態的特征在共同空間中保持同類特征相似、異類特征不相似的關系。學習模態間相似性關系的難點在于，常用的度量學習損失[1,3-4]無法關注全局的相似性關系，并且構建了大量冗余三元組。為了解決上述問題，在保持模態間的相似性關系時，本文通過半困難三元組篩選[6]來減少冗余三元組數量，同時構建全局三元組和局部三元組以保持模態間特征關系，提升損失函數的收斂速度以及共同表達在共同空間中位置的準確性。

半困難三元組篩選[6]選擇所有的正樣本對以及在大于正樣本對距離dth范圍內的負樣本對：

d(ri,rj)

(10)

式中，dth為正樣本對和負樣本對的相對距離閾值參數，d(ri,rj)為樣本ri和rj的特征距離。采用半困難三元組訓練網絡可使網絡更容易學習到樣本對中的信息，同時避免網絡陷入模式崩潰和局部最小。

(11)

綜上所述，共同表達映射階段總的損失函數為

Lm=LC1+LC2+α(Ll+Lg)

(12)

其中，α為模態內模態間損失函數的比例因子。

1.2 域適應算法

(13)

(14)

(15)

在域適應算法中，整體優化的損失函數為

(16)

2 實驗結果與分析

2.1 數據集與訓練過程

為驗證本文算法的有效性，選擇了Prison Break(PB)數據集[12]、YouTube Celebrities(YTC)數據集[13]和UMD人臉數據集[14]3個人臉視頻數據集進行試驗。本文的檢索流程與文獻[2]相同，YTC和UMD 人臉數據集的規模較大，本文采用70%的數據用于訓練，30%的數據用于測試，在檢索時使用測試集作為查詢集，使用訓練集作為檢索集；PB數據集采樣自劇集，規模較小，本文僅采用前3集的數據用于訓練，其余19集的數據用于測試，在檢索時使用訓練集作為查詢集，使用測試集作為檢索集。

跨模態共同表達生成網絡包括特征提取網絡和共同表達映射網絡，其中特征提取網絡包括CNN、偏航角殘差映射網絡和視頻注意力機制網絡。該網絡的訓練過程描述如下：在特征提取階段，使用式(8)作為損失函數訓練特征提取網絡，采用自適應矩估計(Adam)優化器訓練1個迭代周期;在共同表達映射階段，使用式(12)作為損失函數訓練共同表達映射網絡，微調前一階段預訓練的特征提取網絡。由于本文使用了三元組損失函數保持模態間相似性關系，訓練前期的損失函數曲面較為陡峭，直接使用隨機梯度下降(SGD)優化會導致梯度爆炸問題，因此本文結合Adam和SGD優化用于共同表達映射算法中的梯度更新，在訓練前期使用Adam優化器訓練10個迭代周期，在后期切換為SGD優化器訓練10個迭代周期，在保證損失函數快速收斂的同時保證了算法的泛化能力[15]。

實驗中使用的主要參數設置如下：三元組損失中正樣本和負樣本對的相對距離dth=1，式(12)和式(16)中的模態內模態間損失函數比例因子α=1，Adam優化器中β1和β2分別設置為0.9和0.99，SGD中的Momentum參數設為0.9，SGD優化器的L2正則化系數設置為0.002 5，特征提取網絡和共同表達映射網絡的Dropout正則化的概率分別為0.4和0.7。

本文采用平均精度(mAP)和P-R曲線(P為查準率，R為查全率)兩種評價指標來評估跨模態人臉檢索的性能，其中mAP代表算法的P-R曲線下方的面積。

2.2 對比實驗

本文實驗選擇6種跨模態檢索算法(HER[16]、CMDN[17]、ACMR[18]、DSCMR[3]、DHH[2]、HVIH[4])作為對比，其中HER、DHH、HVIH是解決人臉圖像和視頻跨模態檢索問題的算法，可以直接生成二值哈希；其余算法是解決圖像和文本跨模態檢索問題的算法，提取的特征為實值表達，為公平比較，本文使用平均池化將圖像幀特征融合為視頻特征，并采用主成分分析(PCA)算法[19]和迭代量化(ITQ)算法[20]對特征進行降維與量化，生成48位的二值哈希用于檢索。

表1展示了在PB、YTC和UMD數據集中使用圖像檢索視頻和使用視頻檢索圖像的mAP指標值，由表中可以看出，本文算法在不同數據集的跨模態檢索任務中都取得了較好的結果。

表1 PB、YTC和UMD數據集中跨模態檢索的mAPTable1 mAP of cross-modal retrieval in PB,YTC and UMD datasets

圖2展示了在PB數據集中圖像檢索圖像、視頻檢索視頻、圖像檢索視頻和視頻檢索圖像任務的P-R曲線。盡管PB數據集中的人臉圖像大多取景于戶外，光照條件和背景條件多變，但由于PB數據集是在劇集中采樣得到的，因此數據集中的圖像分辨率相對較為清晰且噪聲較少，風格較為統一。從圖2(a)可以看出，本文算法在圖像的單模態檢索中的結果明顯優于對比算法，證明了本文的偏航角等變模塊可以較好地利用人臉視角信息生成具有魯棒性的圖像特征。如圖2(b)所示，由于DHH、HER使用黎曼流形上的點表示視頻特征，并且流形空間中的距離度量比歐氏空間中的距離度量更加準確，而本文算法使用注意力機制提升了視頻特征的魯棒性，因此這3種算法在視頻的單模態檢索中都取得了較為準確的結果。由圖2(c)、圖2(d)可以看出，魯棒的視頻特征也間接提升了跨模態檢索的效果。同時，相比于其他跨模態算法，ACMR和DSCMR除了使用度量學習損失保持模態間的相似性關系外，還使得生成的共同表達具備模態不變的性質，也提升了跨模態檢索的準確率。本文算法和HVIH都利用了類中心思想來減少模態間差異，不同于HVIH直接使用圖像特征平均值作為類中心，本文算法使用的語義類中心更能反映全局模態間的關系，并且結合局部模態間的關系保持在跨模態檢索中取得了更好的結果。

圖2 PB數據集中單模態檢索和跨模態檢索的P-R曲線Fig.2 P-R curves of single modal and cross-modal retrieval in PB dataset

圖3展示了在YTC數據集中使用圖像檢索視頻和使用視頻檢索圖像的P-R曲線。相比于PB數據集，YTC數據集的光照條件、姿態、表情和圖像質量更加多變，模態內差異較大。HER方法在YTC數據集中的檢索準確率相比于在PB數據集中下降明顯，主要原因是YTC數據集規模較大，在構建共同空間之前，需要先將異構空間投影到再生希爾伯特空間中，但由于計算資源的限制，HER只能利用部分樣本對進行訓練。從表1和圖3可知，在多數情況下，本文算法的檢索性能優于所有對比算法，這是因為對比算法缺乏了對圖像特征空間和視頻特征空間的魯棒性約束以及對模態間信息的充分利用。

圖3 YTC數據集中跨模態檢索的P-R曲線Fig.3 P-R curves of cross-modal retrieval in YTC dataset

圖4展示了在UMD數據集中使用圖像檢索視頻和使用視頻檢索圖像的P-R曲線。相比于PB和YTC數據集，UMD數據集中的類別數量最多，同時人臉的姿態、圖像質量、背景仍然差異較大，因此所有算法在該數據集上的表現有所下降。DHH和HER將視頻看作黎曼流形空間中的點，但UMD數據集中每個類別用于訓練的樣本數量相對較少，因此無法滿足密集采樣的假設條件，本文算法通過魯棒的特征提取方法以及結合半困難全局三元組損失和半困難局部三元組損失的模態間關系保持保證了跨模態檢索的準確性。

圖4 UMD數據集中跨模態檢索的P-R曲線Fig.4 P-R curves of cross-modal retrieval in UMD dataset

2.3 消融實驗

為了驗證本文提出的偏航角等變模塊(M1)、視頻注意力機制模塊(M2)和半困難全局三元組損失(M3)的有效性，本文使用不添加上述模塊的方法作為基準方法，以驗證添加各個模塊之后的效果。基準方法直接使用共享權重的CNN提取的特征作為圖像特征，對視頻幀特征采用平均池化進行融合，使用交叉熵損失保持模態內相似性關系，同時僅使用局部三元組損失保持模態間的相似性關系。

本文使用YTC數據集提取48維的二值哈希進行消融實驗，結果如表2所示。從表中可以觀察到：①由于本文使用了交叉熵損失和度量學習損失來保持模態內模態間關系以及使用Adam和SGD切換的優化方法，基準方法在跨模態檢索任務中的mAP達到了0.586 9和0.644 8；②在添加偏航角等變模塊后，圖像檢索圖像的mAP值提升了3.60%，圖像檢索視頻和視頻檢索圖像的mAP值分別提升了4.33%和2.12%，說明偏航角等變模塊增強了圖像特征的單模態魯棒性，進一步提升了跨模態檢索的準確性；③添加視頻注意力機制模塊后，視頻檢索視頻的準確率提升了1.72%，視頻檢索圖像和圖像檢索視頻的mAP分別提升了3.68%和0.90%，說明基于注意力機制的視頻特征融合方法提升了視頻的單模態檢索準確性，進一步提升了模態間相似性關系的準確性；④使用全局三元組損失后，圖像和視頻的跨模態檢索準確率分別提升了7.50%和3.64%，說明了使用本文的跨模態語義中心保持全局相似性關系的有效性。

表2 消融實驗的mAP值Table 2 mAP values of ablation experiments

2.4 域適應算法的有效性驗證

為了驗證本文域適應算法的有效性，將前面用于訓練的YTC圖像數據集看作源域圖像數據集，使用文獻[2]中收集的YTC泛化數據集作為目標域圖像數據集，其中每個類別包含額外的100個圖像樣本用于泛化驗證。

本文使用式(16)作為損失函數微調跨模態共同表達生成網絡(使用源域圖像數據集訓練生成的網絡)的方法如下：在未使用域適應算法的情況下，直接對網絡進行微調；在使用域適應算法的情況下，先凍結類中心和視頻共同表達生成網絡的參數，再結合域校準和遷移學習微調網絡。使用0、5、10、25、50和80個樣本微調跨模態共同表達生成網絡，在未使用和使用域適應算法的情況下，使用目標域圖像檢索源域視頻任務的mAP如表3所示。

表3 使用與未使用域適應算法時跨模態檢索的mAP值Table 3 mAP values of cross-modal retrieval with and without the domain adaptation algorithm

如表3所示，在未使用目標域樣本進行微調的情況下，盡管使用L2正則化和Dropout來提升了模型的泛化性能，但使用目標域圖像進行跨模態檢索時準確率下降比較大；在僅使用5個樣本進行微調時，本文算法保持類中心和視頻共同表達生成網絡的參數不變，通過分布校準和遷移學習使目標域分布盡量接近源域分布，泛化性能有顯著提升；當更多的樣本參與實驗時，跨模態檢索的準確率持續上升，說明本文算法可以有效地利用增加的樣本信息來提升跨模態檢索的準確性。

3 結論

本文提出了一種基于度量學習的跨模態人臉檢索算法，通過改進偏航角等變模塊獲得了對偏航角變化具有魯棒性的人臉特征，使用時域注意力機制獲得了具有可分性的視頻特征；結合半困難全局三元組和半困難局部三元組損失提升了跨模態度量學習的一致性和準確性；使用域校準和遷移學習作為域適應算法以減少域差異，提升了使用目標域圖像進行跨模態人臉檢索的準確性。但本文提出的跨模態域適應算法主要適用于小樣本微調的場景下，缺乏對零樣本場景下域差異問題的解決方案，今后可以進一步提升在零樣本場景下共同表達的泛化性。