基于內容特征提取的短波紅外-可見光人臉識別

2021-03-23 15:45:24胡麟苗樓晨風

光學精密工程 2021年1期

胡麟苗，張湧，樓晨風

（1.中國科學院上海技術物理研究所，上海200083；2.中國科學院紅外探測與成像技術重點實驗室，上海200083；3.中國科學院大學，北京100049）

1 引言

人臉識別自被提出以來就是計算機視覺研究的重點，近年來，隨著深度學習的發展，基于可見光人臉圖像的識別準確率得到了很大提高。目前的可見光人臉識別算法在公開的可見光人臉數據集（如LFW，MegaFace）上可以達到高于99%的準確率，這得益于不斷發展的人臉識別算法、不斷提升的計算能力和可以廣泛獲取的可見光人臉圖像。但是，在實際應用中，可見光成像系統受環境干擾較為嚴重，在霧天、夜晚等環境成像質量較差，對人臉識別性能影響較大。為了解決可見光成像受干擾問題，在暗光條件下可以成像的短波紅外成像系統成為另一個重要的圖像來源。

短波紅外是肉眼不可見的紅外輻射波段之一，它屬于主動成像波段，需要光源對成像目標進行照明，依靠物體表面反射的短波紅外輻射進行成像，對霧、靄、煙塵等均有較好的穿透能力［1-2］。自然界中的大氣輝光、星光和月光等均可作為短波紅外的光源，其中大氣輝光為主要自然光源，具有照射均勻的優點。作為對比，近紅外成像系統主要的自然光源為月光，受月相、地月角度影響較大，容易產生方向性的陰影［3］。短波紅外成像系統和近紅外成像系統均可依靠主動式的人工光源進行成像，但短波紅外人工光源具有更好的不可見性［4］，配合短波紅外成像系統可以有效增強安防監控系統的隱蔽性。

短波紅外的波段特性使得其可用于夜間成像，但也正因為其與可見光不同的光譜特性，它所成的圖像與可見光圖像有較大的模態差異。目前的人臉識別系統中注冊圖像多為可見光圖像，在應用短波紅外成像系統獲取人臉圖像后，需要將短波紅外圖像與可見光注冊圖像進行匹配，兩者間的模態差異會對匹配造成干擾。由于短波圖像與可見光模態差異較大，用于可見光人臉識別的算法如InsightFace［5］直接應用于短波紅外-可見光人臉識別時表現不佳。已有的針對近紅外-可見光人臉識別的算法如［6-7］，采用可見光預訓練、近紅外精調網絡來生成對應近紅外、可見光人臉圖像的方式克服模態差異。由于近紅外-可見光間模態差異小于短波紅外光-可見光間的模態差異，圖像生成難度相對更小，可見光圖像上的預訓練可以彌補數據量不足的缺陷，得到較好的識別結果。

在短波紅外-可見光人臉識別研究中，Bihn等［3］提出直接應用在可見光數據集上預訓練的VGG-Face（Visual Geometry Group-Face）［8］作為特征提取器，采用網絡輸出的特征對短波紅外圖像進行識別。但短波紅外由于更小的數據量與更大的模態差異，在可見光圖像上訓練出的特征提取網絡并不能很好克服短波紅外-可見光間模態差異帶來的干擾，在短波紅外-可見光人臉識別任務中該方法準確度難以令人滿意。

要進行跨模態的短波紅外-可見光人臉識別，核心問題是消除模態差異的干擾。一個解決思路是找到一個短波紅外人臉圖像和可見光人臉圖像共同擁有且可以用于識別的特征。它必須是兩個圖像域圖像共有的特征，且與圖像包含的內容信息相關，與圖像所屬圖像域無關。在圖像翻譯研究中，研究者提出的“內容特征”這一概念可以用于解決這一問題。

圖像翻譯是指在保留輸入圖像內容的前提下，將輸入圖像翻譯為目標圖像域的圖像的過程。它是近年來深度學習尤其是生成對抗網絡在計算機視覺領域的重要應用之一，常被用于風格遷移［9］、圖像生成［10］、圖像超分辨［11-12］、圖像去噪［13］及場景變換［14］等多個方面。較早的圖像翻譯框架如Pix2Pix［15］，CycleGAN（Cycle Genera?tive Adversarial Network）［16］等采用生成對抗網絡對輸入圖像直接進行轉換。而之后的研究如MUNIT（Multimodal Unsupervised Image-to-Im?age Translation）［17］，DRIT（Diverse Image-to-Im?age Translation）［18］等提出了圖像的內容特征、風格特征分離的新思想。它們認為圖像的特征空間可以分為內容特征和風格特征兩部分。圖像的內容特征是指與圖像內容信息相關的部分，包含圖像中的具體物體及物體的整體結構等。風格信息是指圖像中與圖像域相關的部分，包含了圖像的紋理信息等?？梢詫D像翻譯過程分解為輸入圖像內容特征、風格特征的提取，目標圖像域風格特征的獲取以及基于輸入內容特征和目標域風格特征的圖像生成過程。部分研究者選擇將注意力機制引入圖像翻譯［19-20］，使網絡可以對圖像中的重要區域給予更多關注。

圖像翻譯方法中提出的“內容特征”符合跨模態人臉識別任務中用于消除模態差異的方法的要求。受此啟發，本文提出了基于內容特征提取的短波紅外-可見光人臉識別框架，將短波紅外-可見光人臉識別問題分解為跨圖像域內容特征提取和基于內容特征的識別兩個子問題。在短波紅外-可見光人臉數據集上對圖像翻譯網絡進行訓練，將圖像翻譯框架中的內容特征提取器從框架中分離，用于待識別圖像內容特征的提取；采用內容特征識別網絡將待識別圖像的內容特征與可見光注冊圖像的內容特征進行匹配，從而克服模態差異完成短波紅外-可見光人臉識別任務。

本文的主要貢獻為：（1）提出基于內容特征提取的短波紅外-可見光人臉識別方法，將圖像翻譯方法中的內容特征用于消除模態差異對短波紅外-可見光圖像識別的影響；（2）對圖像翻譯框架DRIT進行改進，提出域內內容一致性函數和跨域內容一致性函數，提升內容特征提取器對特征提取的準確性；（3）設計了基于內容特征的識別網絡，完成了短波紅外-可見光人臉圖像的識別，在短波紅外-可見光人臉圖像數據集上達到88.86%的準確率。

2 基于內容特征提取的人臉識別網絡

在跨圖像域的短波紅外-可見光人臉識別中，模態差異會對識別造成較大干擾，如圖1所示，圖中“F_X-X”指采用普通的特征提取網絡對圖像提取的識別特征。同一目標在不同圖像域中的圖像間的差異可能會大于不同目標間的差異，傳統的分類方式很難克服這一干擾。

圖1 短波紅外-可見光人臉識別中模態差異帶來的影響Fig.1 Visible-light face recognition and SWIR-VIS face recognition

為了解決短波紅外-可見光人臉識別任務中模態差異的干擾問題，受圖像翻譯中內容特征特性的啟發，本文將短波紅外-可見光人臉識別問題分解為兩個子問題：跨圖像域內容特征的提取和基于內容特征的識別。

2.1 整體結構

基于內容特征提取的人臉識別框架由內容特征提取器和基于內容特征的識別網絡兩個子模塊構成。如圖2所示，（c）中的內容特征提取器由（a）和（b）中的訓練得到。

內容特征提取器從訓練好的圖像翻譯框架中固化得到。引入了內容特征、風格特征分離思想的圖像翻譯框架DRIT設置了多種機制來實現對內容特征的提取。在研究中發現，由DRIT得到的內容特征提取器對內容特征提取的準確性仍無法滿足人臉識別任務的要求，因此我們對該網絡進行改進，提出了域內內容一致性損失函數和跨域內容一致性損失函數，提升網絡中內容特征提取器對內容特征提取的準確性。將改進的DRIT模型中的內容特征提取器作為最終用于識別網絡的內容特征提取器，提升了識別的準確率。

內容特征提取過程完成了從不同圖像域圖像中提取屬于同一空間的特征的目標，基于內容特征的識別類似于可見光人臉識別過程，由特征處理和分類兩部分構成。本文設計了用于內容特征識別的網絡，與內容特征提取器結合，構成了整體識別框架，完成了短波紅外-可見光人臉識別任務。

圖2 本文提出框架（a）圖像翻譯中的交換生成與重建；（b）圖像翻譯中的自身重建；（c）本文提出的短波紅外-可見光人臉識別框架Fig.2 Proposed framework（a）feature exchange and reconstruction in image translation；（b）self-reconstruction in image translation；（c）proposed recognition framework

2.2 內容特征提取器

2.2.1 DRIT模型

DRIT模型為Lee等提出的無監督圖像翻譯模型，它在循環一致性的基礎上引入了內容、風格特征分離思想。內容特征指圖像中較為低層的特征，例如圖像中的方向、邊緣等信息，而風格特征則是圖像中較為高層的信息，如圖像的顏色、紋理等信息。

DRIT模型由內容特征編碼器（ECA(*)，ECB(*)）、風格特征編碼器（ESA(*)，ESB(*)）、生成器（GA，GB）、內容特征判別器及圖像域判別器構成。內容特征編碼器和風格特征編碼器用于圖像內容、風格特征的提取，在網絡中，兩個圖像域的內容特征的最后幾層共享參數，以保證從兩個圖像域獲取的內容特征屬于同一空間。同時還設置了內容特征判別器，用于判別輸入的內容特征來自哪個圖像域，內容特征提取器的優化目標之一就是使得判別器無法區分輸入的內容特征來自哪個圖像域。

在訓練時，DRIT模型會將輸入圖像的內容特征與自身的風格特征組合進行生成（圖2（b）），在理想情況下，生成的圖像應與輸入圖像一致，以圖像域 A為例，應有：aself-reconstruct=同時，DRIT會將同時輸入的兩幅分別屬于不同圖像域的圖像的內容和風格特征重新組合，生成對應的翻譯圖像，并對兩個翻譯結果再次進行內容、風格的交換組合，得到跨域重建結果（圖2（a））：

此時跨域重建結果與原始輸入圖像之間也存在約束：ainput=aaross-reconstruct，binput=baross-reconstruct。基于這些約束關系，DRIT模型將輸入圖像與自身重建圖像、跨域重建圖像的L1距離作為損失函數，保證了翻譯結果與輸入圖像在內容上的相似性。

DRIT模型在貓狗變換等任務中取得了較好的結果，但在短波紅外-可見光人臉圖像數據集上，翻譯結果與參考圖像相似度較低。尤其在對識別影響較大的眼睛、鼻子等部位，輸出結果與真實圖像差距較大。本文采用預訓練好的Facenet模型對DRIT的輸出結果進行識別，識別準確率僅為22%。

本文對DRIT框架進行分析，認為造成這一問題的主要原因是DRIT模型提取的內容特征的準確性不足，與DRIT模型的結構相關。第一，該框架被設計用于無監督的圖像翻譯，更強調輸出結果風格的準確性，框架中的內容特征判別器僅判斷輸入的特征是否屬于同一特征空間，對內容特征與輸入圖像的相關性未做判斷。第二，框架中設置的基于循環一致性的重建損失函數僅從圖像層面判斷重建結果的準確性，未對內容特征進行約束。在圖像翻譯過程中，除了內容特征提取器，生成器也會對生成結果造成影響，僅依靠生成圖像與輸入圖像的相似性，很難對內容特征提取的準確性進行直接判斷。這些問題導致框架對同一內容的不同圖像域圖像提取的內容特征并不一致，干擾了翻譯的準確性，導致在識別框架中，內容特征提取器的跨模態優勢不明顯。

針對DRIT存在的問題，本文在原有框架的基礎上設計、引入了兩個新損失函數，以優化原模型存在的內容特征提取準確性不足的問題。它們均基于內容特征提取器獲得的內容特征進行計算，更好地對內容特征提取器進行優化。

2.2.2 基于目標一致性的跨域內容一致性損失函數

針對DRIT目標一致性差的問題，本文引入了跨域內容一致性損失函數。在2.2.1節描述的DRIT的訓練過程中，輸入圖像經過交換特征得到生成圖像u，v，u，v分別由輸入圖像binput，ainput的內容特征生成（公式（1）），對u，v進行內容特征提?。?/p>

對于期望情況，此時獲得的內容特征應與從輸入圖像提取的內容特征一致，即：計算輸入圖像與生成圖像的內容特征間的L2距離，并將之作為跨域內容一致性損失函數，以引導生成器從包含相同內容特征的不同域圖像中提取相同的內容特征，強化兩個圖像域中內容特征提取器的一致性：

2.2.3 基于循環一致性的域內內容特征一致性損失函數

DRIT模型在訓練中使用原輸入圖像的內容特征和屬性特征進行了自身重建，得到自身重建圖像aself-reconstruct，bself-reconstruct，同時還使用從生成圖像提取的內容特征與原屬性特征進行了循環重建，得到了循環重建圖像across-reconstruct，bcross-reconstruct。在這兩個重建過程中，重建圖像使用的內容特征也是來自于輸入圖像。那么，從重建圖像提取內容特征，也應與輸入圖像的內容特征一致：

輸入圖像binput以及對應的重建圖像與式（5）和式（6）類似。

兩類重建圖像均與輸入圖像屬于同一圖像域，內容特征提取由同一個內容特征提取器完成。本文使用對應域圖像的內容提取器從重建圖像與循環圖像獲取內容特征，并分別計算它們與輸入圖像內容特征的L2距離，作為域內內容特征一致性損失函數。該損失函數形式如式（7）所示：

通過設置域內內容特征一致性損失函數，我們強化了內容特征提取器對屬于同一圖像域且含有相同內容特征的圖像進行特征提取時內容特征的一致性，

改進的DRIT模型的損失函數為DRIT模型的損失函數與新增損失函數的和：

2.3 基于內容特征的跨域識別網絡

人臉識別通常包含圖像預處理、特征提取、特征分類幾部分。特征提取和分類多由深度神經網絡完成?？梢姽馊四樧R別網絡如Facenet、SphereFace和InsightFace等主要對損失函數進行優化，提出的損失函數如triplet loss（Facenet），ArcFace loss（InsightFace）等在可見光人臉識別任務中取得較好結果，其中ArcFace loss應用較廣、效果較好。

經過內容特征提取后，兩個圖像域的圖像被映射為屬于同一特征空間的內容特征，此時的識別任務與可見光人臉識別類似，可由特征處理網絡和分類部分完成。針對提取后的內容特征，本文設計了跨域識別網絡，用于對內容特征進行進一步提取以及分類。

2.3.1 特征處理網絡

人臉識別任務中，特征處理網絡多以殘差結構作為基本單元，通過多個單元的堆疊構成。文獻［5］中提出了改進的殘差單元，在可見光人臉識別任務中獲得較好結果。

卷積神經網絡中，常用的激活函數如ReLU等會給出一個稀疏的輸出，Wu等［21］提出了MFM（Max-Feature-Map）激活函數層，可以進行特征選擇并輸出更為緊實的特征。

在本文提出的方案中，內容特征通道數為256，本文設置的特征處理網絡去除了較淺的單元，由15個深度為256、3個深度為512的改進的殘差單元組成特征處理網絡，且采用MFM作為激活函數。

2.3.2 分類損失函數

雖然可見光識別算法中提出的損失函數在短波紅外-可見光人臉識別中直接應用時效果不佳，使用InsightFace網絡直接進行短波紅外-可見光人臉識別時準確率僅為64.97%，但在使用內容特征提取器將不同域圖像翻譯到同一特征空間后，ArcFace loss成為識別任務較好的選擇，因此本文提出的框架將ArcFace loss作為基于內容特征的識別網絡中的損失函數。

ArcFace loss是對分類任務中經典的Soft?max的改進。它在角度空間對分類損失進行優化，達到加大類間距離、減小類內距離的效果，在可見光人臉識別任務中取得了優秀的結果。Softmax分類器中Softmax層的輸入為最后一個全連接層的輸出WTX+b，W，X，b分別為權值向量、特征向量和偏置值。將偏置值置零，對網絡最后一層全連接層的特征與權重均進行L2歸一化，再計算兩者的點積，將點積值視為權重向量與特征向量的余弦值，使用反余弦函數解得權重向量與當前特征向量的角度值θ=arccos(WTX)，在當前角度上加預設的角度間隔（Angular margin）m，使用余弦函數得到增加了角度間隔的余弦值cos(θ+m)，將余弦值乘以放大尺度s后再進行Softmax計算，最終得到ArcFace損失函數：

3 實驗與分析

3.1 數據集

根據調研，目前還沒有公開可獲取的短波紅外-可見光人臉數據集，因此本文采集短波紅外與可見光人臉圖像并建立數據集?？梢姽馊四槇D像采集設備為尼康的D5600單反相機，短波紅外人臉圖像的采集設備為Xenics公司的Bob?cat320短波相機。Bobcat320為一款采用InGaAs傳感器的短波紅外相機，可以采集波長范圍為0.9～1.7μm的短波紅外輻射。采集中，兩臺相機均設置為視頻模式，單反相機采集分辨率為1 920×1 080的視頻數據，Bobcat320相機采集分辨率為320×256的視頻數據，采集過程中保證被采集對象頭部位于畫面中心位置。

數據集共包含207個目標，其中男性目標123，女性84。采集條件為半受控環境，在固定光照、距離下采集了目標不同角度、表情下的短波紅外與可見光圖像（如圖3所示）。對采集的圖像數據進行了眼部標注，并根據眼部位置進行了裁剪與對齊。

在實驗中，隨機選取不同性別各16個目標作為測試集，將剩余目標作為訓練集，每個目標隨機選取了7～10對圖像構成訓練集，實際訓練集包含1 500張短波圖像和1 500張可見光圖像，測試集則包含745張短波紅外圖像和745張可見光人臉圖像。

圖3 短波紅外-可見光數據集圖像示例.第一行為短波紅外圖像，第二行為對應的可見光人臉圖像Fig.3 Examples of self-built SWIR-VIS face image dataset，the first row shows SWIR face images and the second row shows the corresponding VIS face images

3.2 實驗設置

實驗平臺為搭載英特爾8700k處理器及單張英偉達RTX2080Ti顯卡的計算機，在自建短波紅外-可見光人臉數據集的訓練集上對模型進行訓練、調試參數，在測試集上對模型性能進行評估，保證訓練集與測試集數據沒有重合部分。

3.2.2 參數設置

本文提出的改進的DRIT模型在原DRIT模型的基礎上增加了新的損失函數，為了驗證所提改進的效果，以DRIT模型為基準，在實驗中原DRIT部分參數按文獻［18］設置，調節本文提出的兩個新損失函數的權重來驗證本文所提改進的有效性并獲取最優參數設置。之后，使用測試集圖像進行短波紅外-可見光的人臉圖像翻譯任務的驗證，與其他圖像翻譯框架的表現進行對比。在實驗中發現，在將跨域內容一致性損失函數的權重設置為5.5，域內內容一致性損失函數的權重設置為5時，訓練得到的內容特征提取器在識別任務中取得最好結果。

對于基于內容特征的跨域識別網絡，將公式（9）中的角度余裕m設置為0.5。受實驗硬件條件限制，將batch大小設置為32，對網絡進行訓練，學習率初始設置為0.000 1，在不同階段依次減小為0.000 05，0.000 01，0.000 001。

3.3 結果評估

對圖像翻譯模型DRIT，本文對其的改進主要是為了獲取更高質量的內容特征提取器，在識別中更為準確地提取內容特征。提升內容特征提取的準確性，圖像翻譯結果與真實圖像的相似性也應隨之提升。因此，采用主觀觀察與客觀識別的方式對改進的DRIT模型的翻譯結果進行評估。在測試集上，采用訓練好的改進的DRIT模型對短波紅外圖像進行圖像翻譯，觀察其與真實參考圖像的相似度。同時，采用在可見光圖像上預訓練好的Facenet［22］網絡對模型輸出的結果進行識別，以識別準確率來評估模型對內容特征提取的準確性。Facenet模型為Schroff等提出的基于深度神經網絡的人臉識別模型，在實驗中應用在LFW數據集上識別精度達到99.65%的預訓練模型作為識別模型，對本文所提改進的DRIT模型和對比框架的翻譯結果進行識別。

人臉識別任務通?？梢苑譃閮深悾海?）身份識別：已有參考圖像數據集，識別采集到的圖像中目標的身份；（2）身份驗證：給定一張參考圖像和一張待判斷圖像，判斷兩幅圖像中的目標是否為同一目標。本文所提框架的預期應用場景為暗光條件下的安防、監控場景，在該場景下，人臉識別需要面對的主要是第一類問題即識別問題，需要從已有可見光圖像數據集中找到與待判定短波紅外圖像相符的目標。對該類問題，通常采用Rank-1準確率作為判斷指標。Rank-1準確率即識別算法對輸入的待檢測圖像進行識別，將概率最高的1個結果作為識別結果時，算法識別正確的概率。在實驗中，算法均僅在訓練集進行訓練，在測試集上進行識別測試。

嚴肅黨內政治生活是加強黨的自身建設的基礎性工作，要把我們黨建設成為始終走在時代前列、人民衷心擁護、勇于自我革命、經得起各種風浪考驗、朝氣蓬勃的馬克思主義執政黨，就必須把嚴肅黨內政治生活這一基礎性工作做好。習近平同志站在保持黨的馬克思主義政黨性質、更好擔負歷史使命、全面加強自身建設和形成良好黨內政治生態的戰略高度，對嚴肅黨內政治生活的應有作用給予充分肯定。

3.4 對比算法

3.4.1 短波紅外-可見光人臉圖像翻譯

作為對比，以DRIT為基準參考模型測試圖像翻譯結果，同時選取較為常見的圖像翻譯框架CycleGAN［16］，MUNIT［17］，UGATIT（Unsuper?vised Generative Attentional Image-to-Image Translation）［20］作為圖像翻譯效果的對比算法。

CycleGAN：首創性地引入循環一致性思想，使得無成對圖像的圖像翻譯成為可能，且在相應數據集上取得了較好結果；

MUNIT：采用了內容與特征分離的思想進行圖像翻譯，與DRIT模型的區別主要在內容特征與風格特征結合的方式上以及循環一致性的實現方式；

UGATIT：在CycleGAN的基礎上增加了新的注意力機制與正則化方法，提升了圖像翻譯效果。

3.4.2 短波紅外-可見光人臉圖像識別

針對短波紅外-可見光人臉識別的相關研究較少，本文將針對該問題的在基于可見光預訓練的VGG-Face方法、可見光人臉識別方法Insight?Face以及針對近紅外-可見光人臉識別的DVG方法作為對比算法。

基于可見光預訓練的短波紅外-可見光人臉識別方法：Bihn等［3］提出，短波紅外人臉圖像與可見光人臉圖像雖然有模態差距，但通過深度卷積網絡可以從可見光圖像中學習人臉結構信息，用于短波紅外人臉圖像的識別。該方案采用VGG-Face網絡在可見光人臉圖像數據集上進行訓練，訓練完成后，使用網絡對短波圖像進行特征提取，采用全連接層“fc7”輸出的4 096維的特征向量作為識別特征，通過計算特征間距離判斷兩幅圖像是否屬于同一類別。

InsighFace：InsightFace為Deng等人提出的可見光人臉識別方法，提出了ArcFace和改進的殘差單元，在可見光識別任務中得到較好的識別準確率。

DVG：DVG方法是基于圖像翻譯的另一種方法。該方法首先采用成對的近紅外和可見光圖像對生成器進行訓練，之后采用訓練好的生成器生成大規模、成對的近紅外和可見光圖像，與真實的近紅外、可見光圖像共同用于識別網絡的訓練，采用最終訓練完成的網絡完成識別任務。

本文在短波紅外-可見光人臉圖像數據集的訓練集上對各對比算法進行訓練，在測試集上測試各方法的識別Rank-1準確率，與本文提出的方法進行對比。

3.5 實驗結果與分析

3.5.1 改進的DRIT模型內容特征提取

本文提出的對DRIT模型的改進的主要目的是使內容特征提取器可以更準確地提取內容特征。若內容特征提取的準確性增加，圖像翻譯框架翻譯結果也會得到提升，本文首先對改進的DRIT模型圖像翻譯的結果進行評估，間接評估內容特征提取的準確性。

在相同訓練集上對經典的無監督圖像翻譯框架CycleGAN，MUNIT模型、DRIT模型和UGATIT模型進行訓練，并在相同的測試集上進行圖像翻譯，對翻譯結果進行觀察，得到主觀性能判斷。采用Facenet模型對翻譯結果進行識別，將本文提出的改進的DRIT模型的結果與之進行對比。

圖4 不同框架圖像翻譯結果對比，從左到右依次為：短波圖像，MUNIT，CycleGAN，UGATIT，DRIT，改進的DRIT框架，參考圖像Fig.4 Comparison of the images translated by different frameworks，the columns from left to right are：SWIR，MUNIT，CycleGAN，UGATIT，DRIT，the proposed improved DRIT and refer?ence images

圖4 為圖像翻譯結果對比，可以看到，MU?NIT框架的結果僅大致輪廓與輸入、參考圖像相似，在細節上有很多模糊，對觀察干擾嚴重；Cy?cleGAN模型翻譯結果在大致結構上與參考圖像相似，部分圖像眼部周圍存在失真情況，且整體皮膚色調與參考圖像差異較大，對識別算法容易造成干擾；UGATIT模型結果上高頻波紋較少，圖像整體觀感與可見光圖像接近，但存在器官與輸入圖像不相符的情況，且在頭部有一定偏轉角度時，翻譯結果失真較為嚴重；DRIT模型畫面整體模糊，在輪廓、細節等方面均存在波紋現象；本文提出的改進的DRIT模型翻譯結果與參考圖像相似度較高，且在頭部有一定偏轉情況下依然有相對較好的表現（如圖4倒數第2行所示）。

當頭部偏轉角度較大（水平或俯仰偏轉大于20°）時，改進的DRIT模型存在翻譯失真較大的情況。該現象的產生主要是因為訓練數據以臉部正面圖像為主（約占總訓練集的91%），網絡難以學習偏轉較大時的映射信息。

對圖像翻譯框架輸出圖像的Facenet識別結果如表1所示，其中Real指使用預訓練的模型對本數據集測試集中可見光圖像進行識別的表現，其余結果均為Facenet網絡對圖像翻譯結果進行測試的結果。改進的DRIT模型（DRITadv）翻譯結果在Facenet算法下的準確率為27.6%，相對原DRIT模型提升5.4%，也優于對比的CycleGAN模型、MUNIT模型及UGATIT模型。

表1 圖像翻譯結果對比Tab.1 Results comparison of image translation

本文提出的改進的DRIT模型相對于原DRIT圖像翻譯質量有較大提升，翻譯結果的可識別性增強，說明本文所做的改進可以使得網絡更為準確地獲取圖像的內容特征，也提升了圖像翻譯的質量。

3.5.2 短波紅外-可見光人臉圖像識別

內容特征提取器與基于內容特征的識別網絡相結合，構成了本文提出的短波紅外-可見光人臉識別框架。在完成改進的DRIT模型的訓練后，固化其中的內容特征編碼器，將圖像內容特征輸入基于內容特征的識別網絡進行識別。

表2 短波紅外-可見光數據集識別結果Tab.2 Recognition results on SWIR-VIS dataset

在自建短波-可見光人臉數據集上，跨模態人臉識別實驗結果如表2所示。采用預訓練的VGG-Face進行特征提取識別的Rank-1準確率僅為22.42%，與可見光人臉識別算法對圖像翻譯結果進行識別的準確率相當。DVG框架中訓練得到的識別網絡在測試集上的識別準確率為66.04%。采用原DRIT模型內容特征編碼器提取內容特征的Rank-1準確率為75.97%，優于將圖像翻譯結果直接用于識別的方案，也優于Bihn等提出的基于VGG-Face的方法和DVG方案。在僅應用跨域內容一致性損失函數時（DRIT+L-cross），模型的Rank-1準確率提高了6.31%；在僅應用域內內容一致性損失函數時（DRIT+L-intra），模型的Rank-1準確率相較于改進前提升了8.86%；當采用本文改進得到的圖像內容特征提取器時（DRIT-adv），模型的Rank-1準確率達到88.86%。

本文提出的基于內容特征提取的方案有效地消除了模態差異對識別的干擾，構建的基于內容特征的識別網絡可以依據內容特征完成短波紅外-可見光人臉識別。而本文對DRIT模型做出的改進在單獨應用（DRIT+Lcross，DRIT+L-intra）與聯合應用（DRIT-adv）時均有效提升了內容特征提取器對圖像內容特征提取的準確性，提高了整體識別框架識別的準確率。

4 結論

本文提出了基于內容特征提取的短波紅外-可見光人臉圖像識別框架。將短波-可見光人臉識別問題分解為內容特征提取和基于內容特征的識別兩個子問題進行處理，以克服光譜特性差異帶來的圖像模態差異的干擾。提出將無監督圖像翻譯框架提取的內容特征用于減小圖像的跨模態差距并對跨模態圖像翻譯框架DRIT進行了改進，通過增加域內內容一致性損失函數和跨域內容一致性損失函數提升了內容特征提取的準確性。設計了基于內容特征的特征處理、識別網絡，根據內容特征設置網絡結構，與內容特征提取器共同構成了具有較高識別率的短波紅外-可見光人臉識別框架。在自建短波紅外-可見光人臉數據集上進行測試，達到88.86%的識別準確率。