基于Vision Transformer的虹膜—人臉多特征融合識別研究

2024-12-27 00:00:00馬滔陳睿張博

中國新技術新產品 2024年18期

摘要：為了提高生物特征識別系統(tǒng)的準確性和魯棒性，本文研究基于計算機視覺的虹膜—人臉多特征融合識別方法。本文對面部圖像中虹膜區(qū)域進行提取以及預處理，采用對比度增強和歸一化操作，加強了特征提取的一致性，提升了圖像質量。為了獲取豐富的深度特征，本文使用Vision Transformer模型對預處理后的虹膜和面部圖像進行特征提取。利用多頭注意力機制將虹膜和面部的多模態(tài)特征信息進行融合，再利用全連接層進行分類識別。試驗結果表明，該方法識別性能優(yōu)秀，識別準確性顯著提升。

關鍵詞：計算機視覺；Vision Transformer；多特征融合；虹膜識別；人臉識別

中圖分類號：TP 319" " " " " " 文獻標志碼：A

生物特征識別技術在現(xiàn)代信息安全和身份認證方面發(fā)揮了重要的作用，其廣泛應用于個人身份識別、訪問控制和電子支付等領域。傳統(tǒng)的人臉識別和虹膜識別技術各有其優(yōu)勢和不足，在單獨使用的過程中不能在復雜環(huán)境中保持高精度[1-2]。人臉識別應用廣泛，但是易受光照、姿態(tài)和表情變化影響。虹膜識別具有高唯一性和穩(wěn)定性，在準確性和防偽性方面表現(xiàn)優(yōu)異，但是其使用環(huán)境要求較高。

為了彌補單一生物特征識別方法的不足，本文提出虹膜與人臉的多特征融合識別方法，該方法可以提升系統(tǒng)的魯棒性和識別精度，已成為研究熱點[3-5]。本文提出了一種基于計算機視覺的虹膜—人臉多特征融合識別方法。對面部圖像和虹膜圖像進行預處理和特征提取，使用Vision Transformer模型來獲取深度特征表示，利用多頭注意力機制融合多模態(tài)特征信息，完成高效的分類識別。試驗結果表明，該方法表現(xiàn)優(yōu)異，識別系統(tǒng)的性能顯著提升。

1 圖像獲取與預處理

1.1 虹膜區(qū)域圖像獲取

本研究采用預訓練好的YOLO模型進行人眼檢測。YOLO模型具有高效的目標檢測能力，能夠在復雜背景和多種光照條件下準確定位人眼區(qū)域。使用YOLO模型輸出人眼邊界框，從原始圖像中裁剪人眼區(qū)域。在檢測的人眼區(qū)域內使用Daugman微積分算子精確定位虹膜的內外圓邊界。Daugman計算圖像中像素值變化最大的圓形邊界來確定虹膜的內外邊界，對虹膜區(qū)域進行有效分割。具體來說，Daugman求解積分—微分方程來確定最佳圓形邊界，采用這種方法不僅能夠準確分割虹膜區(qū)域，還能夠解決光照和噪聲引起的圖像失真問題?；赩ision Transformer的虹膜—人臉多特征融合識別結構如圖1所示。

1.2 預處理階段

在預處理階段，對虹膜區(qū)域圖像和面部區(qū)域圖像分別進行詳細的預處理操作，提高圖像質量，為后續(xù)特征提取和識別提供更好的數據基礎。對虹膜區(qū)域圖像的預處理主要包括灰度化、對比度增強和歸一化等步驟。灰度化將原始彩色圖像轉換為灰度圖像以減少計算復雜度，并專注于亮度信息的處理?；叶然幚韺⒚總€像素的紅、綠和藍（RGB）三色通道值按照一定比例（例如加權平均法）轉換為單一的灰度值，簡化了圖像的表示形式。經過灰度化處理后，圖像的數據維度從三維（RGB）降至二維（灰度），降低了處理復雜度?；叶葓D像保留原始圖像的亮度信息，對后續(xù)的圖像處理和分析來說非常重要。

經過灰度化處理后使用自適應直方圖均衡化（Contrast Limited Adaptive Histogram Equalization，CLAHE）的方法增強虹膜圖像的對比度，使虹膜紋理更加清晰可見，提高在不同光照條件下獲取的圖像質量。傳統(tǒng)的直方圖均衡化方法重新分配圖像的灰度值，使灰度值分布更加均勻，增強圖像的對比度。但是其有一個缺點，就是在光照不均勻的圖像中可能導致噪聲變大和過度增強。因此，本文采用CLAHE將輸入圖像劃分為多個不重疊的小塊（tiles），對每個小塊單獨進行直方圖均衡化處理，計算其直方圖并調整像素值。這樣可以在局部區(qū)域內增強對比度，不會影響其他區(qū)域。當均衡化后的小塊再拼接回整體圖像時，為避免區(qū)域邊界出現(xiàn)偽影，采用雙線性插值進行平滑處理。對每個像素進行插值計算，結合相鄰小塊的均衡化結果，使過渡更自然。這種方法有效增強了圖像對比度，同時避免過度增強帶來的噪聲放大問題。CLAHE能夠調整不同小塊的對比度增強程度，在光照不均勻的情況下也能提高圖像質量。

歸一化處理是圖像預處理中的關鍵步驟，將像素值縮放至標準范圍內（例如0～1），以減少光照變化和其他環(huán)境因素對圖像處理的影響，使后續(xù)特征提取算法能夠在統(tǒng)一的尺度中工作，提高處理的一致性和魯棒性。具體的歸一化過程包括以下2個步驟。1）遍歷圖像的所有像素，找到圖像的最小像素值（min）和最大像素值（max），這些值的作用是確定圖像中像素值的范圍。2）利用線性變換將原始像素值縮放至0～1，如公式（1）所示。

Inormalized=（I-min）/（max-min） " " " " "（1）

式中： Inormalized為歸一化后的像素值；I為原始像素值；min和max分別為圖像的最小和最大像素值。將所有像素值標準化，保證輸入特征提取算法的圖像數據在同一個尺度中，減少由不同圖像間亮度和對比度差異引起的特征提取偏差，提升算法的穩(wěn)定性。

面部區(qū)域圖像預處理也采取類似的處理步驟。首先，將面部圖像轉換為灰度圖像，保留亮度信息以減少處理復雜度。其次，使用CLAHE方法提高面部圖像的對比度，不僅突出了面部特征（例如眼睛、鼻子和嘴巴等）的細節(jié)，使其在不同光照條件下更容易檢測和識別，而且避免過度增強帶來的噪聲放大問題，特別適用于光照不均勻的圖像。歸一化處理將像素值調整至統(tǒng)一范圍，減少光照、陰影和反射等因素帶來的影響，提高圖像處理的一致性和魯棒性。

2 模型構成

在預處理階段后，模型主要包括特征提取、特征融合和分類識別3個關鍵部分。下面將詳細介紹這些部分的原理。

采用Vision Transformer（ViT）模型對預處理后的虹膜和面部圖像進行特征提取。Vision Transformer是一種基于Transformer架構的圖像處理模型，能夠有效捕捉圖像中的全局特征。其特征提取過程如下。

將輸入圖像（大小為H×W×C，C為輸入圖像的通道數）劃分為固定大小的非重疊小塊（patches），每個小塊展平為一個向量。假設每個小塊的大小為P×P（P為patches的邊長），輸入圖像可以劃分為N=H×W/P2個小塊，H和W分別為輸入圖像的高度和寬度。對每個小塊進行線性變換，將其映射至高維特征空間。如公式（2）所示。

z0=[x1E；x2E；…；xNE]+Epos " " " " " " " " "（2）

式中：x1為第i個小塊；E為可訓練的線性投影矩陣；Epos為位置編碼，其作用是保留位置信息。將線性嵌入后的特征向量輸入Transformer編碼器中進行多層處理。每層包括多頭自注意力機制和前饋神經網絡。注意力機制的計算過程如公式（3）所示。

（3）

式中：Q為查詢向量；K為鍵向量；V為值向量；Softmax為歸一化函數，其作用是將輸入的值轉換為概率分布；為縮放因子，其作用是調節(jié)點積結果的數值范圍。

為了充分利用虹膜和面部的多模態(tài)特征信息，采用多頭注意力機制進行特征融合。多頭注意力機制可以捕捉不同特征之間的相互關系，并將其綜合，形成更為全面的特征表示。將虹膜和面部圖像的特征向量進行連接，形成綜合特征向量Z。對Z應用多頭注意力機制，多頭注意力機制的計算過程如公式（4）所示。

MultiHead（Q，K，V）=Concat（head1，…，headi）W O" " " " " " " " " （4）

式中：MultiHead為多頭注意力機制；Concat為拼接操作；headi為注意力頭，其計算方式與單頭注意力相同；W O為一個線性變換矩陣，通常稱為輸出權重矩陣。

完成特征融合后，將融合后的特征輸入至全連接層進行分類識別。全連接層的作用是將高維特征映射至類別空間，并輸出每個類別的概率。融合特征向量 Zf輸入全連接層，進行線性變換和激活函數處理，如公式（5）所示。

y=Softmax（ZfW+b） " " " " " "（5）

式中：y為輸出向量，表示經過模型處理后的最終輸出；W為權重矩陣；b為偏置向量；Softmax函數的作用是將輸出映射至概率分布。

上述步驟構建了1個基于Vision Transformer的模型，該模型能夠有效提取和融合虹膜與面部的多模態(tài)特征信息，并利用全連接層進行分類識別。

3 試驗設置與分析

3.1 數據集

本文采用中科院發(fā)布的CASIA-Iris-Distance數據集，在感興趣的圖像區(qū)域內，該數據集同時包括雙眼虹膜和人臉。該數據集包括142個樣本類，共2 567張圖像。在試驗中將數據集劃分為訓練集和測試集，按8∶ 2的比例進行分割，即訓練集包括2 054張圖像，測試集包括513張圖像。為了增強模型的泛化能力，在訓練集中采取數據增強操作，包括隨機旋轉、水平翻轉、光照變化和噪聲添加等。隨機旋轉操作過程是隨機選擇角度對圖像進行旋轉，使模型能夠更好地適應不同角度的虹膜和面部特征。水平翻轉操作能夠增加數據的多樣性，防止模型依賴圖像的某些固定方向。光照變化是調整圖像的亮度和對比度，使模型在不同光照條件下具有更好的魯棒性。噪聲添加是在圖像中加入隨機噪聲，增強模型在處理低質量圖像過程中的表現(xiàn)能力。

3.2 試驗細節(jié)

本文采用批次大小為32、初始學習率為0.001的配置對模型進行訓練。訓練過程共進行100個輪次，優(yōu)化器采用Adam算法。采用8層Transformer編碼器，每層包括8個多頭注意力機制。多頭注意力機制可以捕捉輸入特征的不同維度和模式，增強模型對復雜特征的建模能力。為了防止過擬合，在研究中使用了早停技術。在驗證集中，模型性能連續(xù)10個輪次不提升，訓練過程將提前停止。這個策略能夠有效避免模型在過長時間的訓練過程中陷入過擬合。在訓練過程中，本文采用學習率衰減策略，在驗證集中，模型性能在一定輪次內不再提升，模型的學習率將按一定比例進行衰減，以保證模型能夠更好地收斂到最優(yōu)解。為了提高模型的魯棒性和泛化能力，在訓練過程中，本文引入L2正則化技術，在損失函數中加入權重的平方和，限制模型參數的大小，防止過擬合。

3.3 評價指標

在模型的性能評估指標方面，本文采用準確率（Accuracy）和F1得分（F1 Score）。準確率是最常用的分類性能指標之一，表示模型預測正確的樣本數占總樣本數的比例。F1 Score綜合了精確率（Precision）和召回率（Recall），精確率表示模型預測為正類的樣本中實際為正類的比例，召回率表示實際為正類的樣本中被正確預測為正類的比例。結合這2個指標進行分析，在數據集存在類別不平衡的情況下，F(xiàn)1 Score能夠更全面地評估模型在分類任務中的表現(xiàn)。F1 Score高表明模型不僅具有較高的精確率，還具有較高的召回率，保證分類結果的準確性和全面性。

3.4 結果分析

不同模型的Accuracy和F1 Score測試結果見表1?！昂缒ぁ北硎灸Ｐ蛢H使用虹膜特征進行識別；“人臉”表示模型僅使用人臉特征進行識別。由表1可知，單獨使用虹膜特征或人臉特征的模型在識別性能方面存在差異，但是均顯示各自特征在身份識別中的有效性。當僅使用一種生物特征時，模型的識別性能有限，不能充分利用多模態(tài)特征的優(yōu)勢。

“無多頭注意力”表示當融合虹膜和人臉特征時，模型未使用多頭注意力機制，僅進行簡單拼接。盡管這種方法已經顯著提高了模型的識別性能，Accuracy為94.24%，F(xiàn)1 Score為95.26%，但是缺乏對不同特征之間復雜交互關系的深度挖掘，特征融合的效果比較差。簡單拼接的方法無法充分捕捉虹膜和人臉特征之間的互補信息，導致模型未能充分利用多模態(tài)特征的優(yōu)勢。“完整模型”表示在融合虹膜和人臉特征的過程中使用了多頭注意力機制。多頭注意力機制捕捉不同特征之間的深層次交互關系，提升了模型的識別性能。使用多頭注意力機制的模型Accuracy為98.47%，F(xiàn)1 Score為98.58%，與其他模型配置相比明顯更強。這個結果表明，多頭注意力機制不僅能夠充分利用虹膜和人臉特征各自的優(yōu)勢，還能夠有效整合兩者之間的信息。在融合過程中，多頭注意力機制能夠觀察不同特征的細節(jié)和全局信息，提升模型在各種復雜場景中的識別能力和魯棒性。

綜上所述，試驗結果驗證了多模態(tài)生物特征融合的有效性。將虹膜和人臉特征進行結合，利用多頭注意力機制進行深度融合，模型在識別任務中表現(xiàn)最佳，準確性較高，魯棒性較強。在識別任務中，單獨使用虹膜特征或人臉特征的模型均具有一定有效性，但是性能受限于單一特征的信息量和穩(wěn)定性；簡單拼接虹膜和人臉特征的方法能夠顯著提升識別性能，但是不足以充分挖掘多模態(tài)特征之間的復雜關系；引入多頭注意力機制的完整模型在特征融合過程中能夠有效捕捉虹膜和人臉特征之間的深層次交互關系，顯著提升模型的Accuracy和F1 Score，性能更優(yōu)越。

4 結語

本文提出了一種虹膜—人臉多特征融合識別方法，使用Vision Transformer模型和多頭注意力機制對虹膜和人臉特征進行高效提取和融合。試驗結果表明，采用多模態(tài)特征融合和多頭注意力機制的完整模型在Accuracy和F1 Score方面均取得了最佳表現(xiàn)，與使用單一特征或不采用多頭注意力機制的模型相比，性能更優(yōu)越。本文為生物特征識別領域提供了新的思路和方法，為實際應用提供更可靠和高效的解決方案。未來將致力于進一步優(yōu)化模型結構，提高實時性能，探索更多的多模態(tài)融合方法，以應對更廣泛的應用場景。

參考文獻

[1]ALAY N，ALBAITY H H.Deep learning approach for multimodal"biometric recognition system based on fusion of iris， face， and finger vein traits [J]. Sensors，2020，20（19）：5523-5539.

[2]DINCA L M，HANCKE G.The fall of one， the rise of many：A survey on multi-biometric fusion methods[J].IEEE Access，2017，5（99）：6247-6289.

[3]王風華，韓九強，姚向華.一種基于虹膜和人臉的多生物特征融合方法[J].西安交通大學學報，2008，42（2）：133-137.

[4]肖珂，汪訓昌，何云華，等.基于深度學習的虹膜人臉多特征融合識別[J].計算機工程與設計，2020，41（4）：1070-1073.

[5]汪訓昌.基于人臉和虹膜融合的身份識別技術研究[D].北京：北方工業(yè)大學，2019.

基金項目：公安部科技計劃項目“涉毒重點人員數字化物聯(lián)監(jiān)測設備”（項目編號：2023YY21）。