李 杰,瞿 中
1.重慶文理學院 電子信息與電氣工程學院,重慶 402160
2.重慶郵電大學 計算機科學與技術學院,重慶 400065
隨著信息技術和移動互聯網的發展,越來越多的場景需要進行人的身份認證。傳統的基于鑰匙或密碼的認證方法已不能滿足人們對安全性和便捷性的需求。生物識別技術通過獲取人體獨特的生物特征來進行身份認證,比密碼或鑰匙更安全,它還避免了用戶忘記密碼或鑰匙的不便,使認證更加輕松。因此生物識別技術已廣泛應用于社會的各個領域并成為了目前研究的熱點之一。
常見的用于身份認證的生物特征有指紋、人臉、虹膜、指靜脈等[1]。指紋識別和人臉識別是目前使用最廣泛、技術最成熟的生物識別技術。但人的手指會因為磨損或沾染污漬而影響指紋識別的準確性。此外,指紋是皮膚表面的一種生物特征,比較容易偽造,因此安全性較低。與此同時,由于人的容顏變化、光線太強或太弱、攝像頭拍攝角度太偏等原因會導致人臉識別失敗。盡管虹膜識別的準確度很高,但該設備非常昂貴,而且它使用的是近紅外光,長期暴露在近紅外光下可能會導致眼睛不適[2]。與其他生物識別技術相比,手指靜脈特征位于人體內部,其特征點極其豐富且分布極不規則,而且需要在血液流動的情況下通過血紅蛋白對近紅外光的吸收成像才能進行身份識別。而現代醫學研究早已證明人的手指靜脈圖像具有唯一性,每個人每根手指靜脈圖像都不相同;而且人的手指靜脈紋路終身不變,是人體最穩定的生物特征之一。因此,手指靜脈識別技術具有高防偽性、活體識別和非接觸式的特點[3],已應用到門禁系統、銀行身份認證、安全監控等領域[4]。
2000年,日本醫學研究者Kono等人首次提出使用手指中的靜脈血管進行身份識別[5]。二十多年來,指靜脈識別的研究呈現出迅速繁榮的趨勢,取得了一批令人鼓舞的成果。手指靜脈識別流程如圖1 所示,主要包括圖像采集、圖像預處理、特征提取和匹配識別四個階段[6]。在深度學習技術廣泛應用之前,對手指靜脈識別的研究主要以傳統的圖像處理算法為主,并在識別流程的各個階段都涌現出許多經典的方法。在感興趣提取(region of interest,ROI)方面,掩膜法[7-8]和Sobel算子法[9-10]是最常用的方法。在圖像增強中,直方圖均衡化(histogram equalization,HE)[11-12]、自適應直方圖均衡化(adaptive histogram equalization,AHE)[13]、限制對比度自適應均衡化(contrast-limited adaptive histogram equalization,CLAHE)[14-15]、Gabor 濾波器[16-17]等方法均被廣泛研究。在特征提取階段,涌現出的經典算法有重復線性跟蹤(repeated line tracking,RLT)算法[18]、局部最大曲率(local maximum curvature,LMC)算法[19]、增強型最大曲率(enhanced maximum curvature,EMC)算法[20]、主曲率(principal curvature,PC)算法[21]、寬線檢測器(wide line detector,WLD)[22]、局部二值模式(local binary pattern,LBP)方法[23]和基于雙重降維方向梯度直方圖特征的方法[24]等,這些算法統稱為基于手工提取特征的方法。此外,許多其他特征已應用于手指靜脈識別的特征提取,包括主成分分析(principal component analysis,PCA)特征[25]、骨架方向編碼特征[26]、超像素特征[27]和軟生物特征[28]等。在匹配識別階段,歐氏距離(Euclidean distance)[29-30]、余弦距離(cosine distance)[31-32]、曼哈頓距離(Manhattan distance)[33]常用于計算靜脈紋路特征之間的相似度。對于用LBP 算法提取的二值特征,常用漢明距離(Hamming distance)計算相似度[34-35]。在模板匹配方法中,Miura等人[18]提出的“Miura-matching”是最經典的方法之一。

圖1 手指靜脈識別流程圖Fig.1 Flow chart of finger vein recognition
基于傳統圖像處理的方法使手指靜脈識別的性能到達較高水平,但是這些算法大都存在計算量大、效率低等問題。隨著深度學習的發展,基于卷積神經網絡(convolutional neural networks,CNN)的手指靜脈識別成為主要的研究方向。深度學習的前身為人工神經網絡(artificial neural network,ANN),ANN的歷史可以追溯到20 世紀40 年代[36],之后經過了三次發展高潮和兩次低谷,直到2012 年,由Hinton 和Alex Krizhevsky 設計的AlexNet 神經網絡在ILSVRC ImageNet競賽中取得冠軍,引起世界矚目[37]。從此以后,更多更深的優秀的神經網絡被提出。2014年,牛津大學VGG(visual geometry group)視覺幾何組提出了VGGNet[38]取得了ILSVRC ImageNet 競賽的第二名,此后許多研究均把VGGNet 當作骨干網絡。同年,Ian Goodfellow 團隊提出生成對抗網絡(generative adversarial network,GAN)[39],在圖像生成、自然語言處理(natural language processing,NLP)等領域大放異彩。2015 年,殘差網絡(residual network,ResNet)被微軟實驗室提出[40],通過使用跳躍連接,緩解了在深度神經網絡中增加深度帶來的梯度消失問題。同樣是2015 年,Ronneberger 等人[41]發表U-Net,其初衷是為了解決生物醫學圖像分割的問題,后來被廣泛應用在圖像語義分割的各個方向。2017年,MobileNet[42]、ShuffleNet[43]兩個網絡被提出,推動了輕量級網絡的研究。同年,Huang 等人[44]提出DenseNet,通過密集連接和特征重用的方法,使網絡的性能進一步提高。鑒于Transformer 在NLP 領域的出色性能,2020年,Google 團隊提出了ViT(vision transformer)[45],成為了Transformer在計算機視覺(computer vision,CV)領域應用的里程碑著作。
以上經典網絡及其變體已廣泛應用到CV領域[46],如圖像分類、圖像識別、圖像分割、圖像修復等。研究者們都已應用到手指靜脈識別領域,使識別性能進一步提高。基于深度學習的某些方法甚至改變了傳統的需要先圖像預處理,再特征提取,最后匹配識別這個流程,使其中的兩個或者三個階段通過神經網絡融合在一起完成,實現端到端的識別。本文后面章節將對基于深度學習的手指靜脈識別方法進行詳細介紹。
深度學習技術的發展離不開各種數據集的支撐,神經網絡通過學習數據集里的大量數據可以提高模型的泛化能力。在手指靜脈識別領域最常用的公開數據集有5個,分別是山東大學機器學習與數據挖掘實驗指靜脈數據集SDUMLA-HMT[47]、馬來西亞理工大學手指靜脈數據集FV-USM[48]、香港理工大學指靜脈數據集HKPU[49]、清華大學指靜脈與指背紋圖像庫THU-FVFDT[50]、韓國全北國立大學指靜脈數據集MMCBNU-6000[51]。此外還有荷蘭特文特大學指靜脈數據庫UTFVP[52]、瑞士達爾·摩爾感知人工智能感應研究所指靜脈數據集VERA[53]、薩爾茨堡大學計算機科學系的指靜脈圖像庫PLUSVein-FV3[54]、華南理工大學手指靜脈數據庫SCUT[55]等。表1為常用公開數據集的信息匯總,圖2為部分數據集的圖像展示。

圖2 常用公開指靜脈數據集的圖像展示Fig.2 Image display of some public finger vein datasets
(1)SDUMLA-HMT
該數據集中的手指靜脈圖像來自106個志愿者,每個人采集了6 個手指,分別是左手和右手的食指、中指和小拇指,每個手指采集了6 幅圖像,因此一共包含了3 816幅圖像。每幅圖像為320×240像素的灰度圖像。
(2)FV-USM
該數據集中的手指靜脈圖像來自123個志愿者,每個人采集了4個手指,分別是左手和右手的食指和中指。采集分為兩個階段,每個階段每個手指采集6幅圖像,因此一共采集了5 904幅圖像。每幅圖像為640×480 像素的灰度圖像。該數據集同時還提供了每幅圖像的ROI圖像。
(3)HKPU
該數據集中的手指靜脈圖像來自156個志愿者,每個人采集了2 個手指,分別是左手的食指和中指。其中105 人的采集分為兩個階段,剩余的51 人只采集了一個階段,每個階段每個手指采集6 幅圖像,因此一共采集了3 132幅圖像。每幅圖像為513×256像素的灰度圖像。
(4)THU-FVFDT
該數據集包含3 個子數據集,分別是THUFVFDT1、THU-FVFDT2 和THU-FVFDT3。THUFVFDT1中的手指靜脈圖像來自220個志愿者,每個人只采集了一個手指,分兩階段采集,每階段提供了一幅圖像,因此一共有440幅720×576像素的灰度圖像。THU-FVFDT2 一共有1 220 幅指靜脈圖像,前440 幅圖像來自THU-FVFDT1,剩余的圖像來自390個志愿者,分兩階段采集,每階段提供了一幅圖像。所有圖像為200×100像素的ROI圖像。THU-FVFDT3是THU-FVFDT2的擴充,將610個志愿者每個階段每個手指的圖像擴充為4幅,因此一共有4 880幅圖像。
(5)MMCBNU-6000
該數據集中的手指靜脈圖像來自20 個國家的100個志愿者,每個人采集了6個手指,分別是左手和右手的食指、中指和小拇指,每個手指采集了10幅圖像,因此一共包含了6 000幅圖像。每幅圖像為640×480像素的灰度圖像。
(6)UTFVP
該數據集中的手指靜脈圖像來自60 個志愿者,每個人采集了6 個手指,分別是左手和右手的食指、中指和小拇指,采集分兩階段進行,每階段每個手指采集了2 幅圖像,因此一共包含了1 440 幅圖像。每幅圖像為672×380像素的灰度圖像。
(7)SCUT
該數據集中一共包含100 個志愿者的10 800 幅圖像。每個人采集了6 個手指,每個手指采集了18幅圖像,其中6 幅圖像是在正常光照和姿勢下采集的,剩余的12 幅圖像是在特殊光照和旋轉姿勢下采集的。
(8)VERA
該數據集中的手指靜脈圖像來自110 個志愿者的220 個手指,每個手指采集2 幅圖像,共440 幅圖像,每幅圖像的像素為665×250。
(9)PLUSVein-FV3
該數據集中的手指靜脈圖像來自60 個志愿者,每個人采集了6 個手指,分別是左手和右手的食指、中指和小拇指,每個手指采集了5 幅圖像,因此一共包含了1 800 幅圖像。每幅原始圖像為1 280×1 024像素的灰度圖像,同時還存儲每幅圖像的ROI,其尺寸為736×192。
本文統計了近5 年基于深度學習方法的指靜脈識別研究的70 篇論文中使用到的各個數據集的次數,如圖3所示。

圖3 常用數據集在手指靜脈識別研究中的使用次數Fig.3 The number of times that common datasets are used in finger vein recognition studies
根據學習任務的不同,深度學習在手指靜脈識別中的應用主要分為5 類[56],分別是基于分類的方法、基于雙圖像匹配的方法、基于特征提取的方法、基于圖像生成的方法和基于圖像分割的方法。5 類方法的對比如表2所示。此外,深度學習方法在手指靜脈圖像質量評估、ROI提取、模板保護、呈現攻擊檢測等方面也有應用。

表2 手指靜脈識別常用的深度學習方法Table 2 Common deep learning methods for finger vein recognition
基于分類的手指靜脈識別方法又稱為基于識別的方法(identification-based),通常將神經網絡訓練成一個多分類器,對數據集中的手指進行分類。如果數據集中一共包含N根不同手指的靜脈圖像,則訓練時需要將圖像分成N個類別,即訓練成N分類器。測試時將輸入圖像送入網絡,根據輸出的概率值得出該圖像屬于哪一個類別。典型的卷積神經網絡結構如圖4 所示,輸入圖像大多是經過預處理之后的圖像,許多研究者將輸入圖像轉變為正方形圖像之后再送入網絡,如224×224尺寸的圖像[57]。也有研究者直接將長方形的ROI 圖像送入網絡[58]。多個卷積層之后往往會連接一個或者多個全連接層,也可以為沒有全連接層的全卷積結構[59]。全連接層的最后一層是經過Softmax 函數轉換之后的N個類別的概率分布。并將此概率分布與真實標簽采用損失函數進行Loss計算。

圖4 用于分類的卷積神經網絡示意圖Fig.4 Schematic diagram of CNN for classification
Das等人[58]采用5個卷積層和1個Softmax全連接層進行識別。原始圖像經過上下掩膜法[7]的ROI 提取、歸一化以及對比度限制的自適應直方圖均衡得到輸入圖像并送入神經網絡,在4個公共數據集上測試都能達到95%以上的正確率。Radzi 等人[60]采用4層卷積神經網絡結構進行手指靜脈識別,在81 名受試者組成的自有數據集上識別正確率達到99.38%。Kuzu等人[61]提出了一種基于卷積和循環神經網絡的識別框架,卷積神經網絡包含6個卷積層、2個全連接層和1 個輸出層。在自有數據集上測試的準確率達99.13%。Yeh 等人[62]采用ResNeXt-101 作為主干網絡,Cutout 方法用于數據增廣,在FV-USM 數據集上的識別準確率為98.1%。Huang等人[63]設計了一種基于ResNet-50的手指靜脈分類CNN模型,其中引入了基于U-Net的空間注意機制。采用偏置場校正算法對手指靜脈圖像進行處理,以降低低對比度和光照不平衡對輸入圖像的影響。Li等人[64]將Vision Transformer與膠囊網絡(capsule network)結合對手指靜脈圖像進行分類,首先將預處理圖像分割成小塊送入Vision Transformer 提取手指靜脈特征,然后將特征向量輸入到膠囊模塊中進行進一步訓練。該模型能夠基于全局注意力和局部注意力對手指靜脈圖像信息進行挖掘,并選擇性聚焦于重要的手指靜脈特征信息。
基于分類的方法的優勢在于圖像分類技術較為成熟,許多經典的網絡的分類效果都很出色。但是該方法只適合沒有新增類別的封閉場景,只能識別他們訓練過的身份,當出現新的手指時,需要增加類別并重新訓練才能識別新的身份,這在大多數實際應用場景中是不方便的。此外,手指靜脈圖像數據集的特點是類別很多,通常為幾百甚至上千,且每個類別的訓練樣本很少,一根手指通常僅有幾幅圖像,這就加劇了訓練難度,很容易造成過擬合。
基于雙圖像匹配的方法又稱為基于驗證的方法(verification-based),通常將一對手指靜脈圖像樣本作為神經網絡的輸入,以得出該兩幅圖像是否來自同一手指,從而確定是否屬于同一身份。該方法本質上是將網絡訓練為二分類器,兩幅圖像為同一身份為一類,不同身份為另一類。該方法在訓練時需要構造圖像對作為樣本,在實際應用時需要將輸入的圖像與數據庫中的圖像依次組成圖像對進行匹配識別。典型的卷積神經網絡結構如圖5所示,與基于分類的神經網絡的主要區別是輸入為兩幅圖像,輸出層是兩個類別的概率。輸入的兩幅圖像經過函數f進行合并后再送入神經網絡。函數f的合并方法可以為兩幅單通道灰度圖組合成一幅雙通道圖像[65-66],也可以是兩幅圖像的差分圖像[57,67],還可以是采用其他方法組成的合成圖像[68]。

圖5 用于雙圖像匹配的卷積神經網絡示意圖Fig.5 Schematic diagram of CNN for image pair matching
Hong等人[57]將兩幅待匹配圖像的ROI調整尺寸為224×224,然后進行差分運算,將差分圖像輸入預訓練的VGG-16網絡,在SDUMLA-HMT數據集上測試的等錯誤率為3.96%。Fang 等人[65]設計了一個雙流網絡,一個流的輸入是兩幅灰度圖像組成的雙通道圖像,另一個流的輸入是兩幅圖像的mini-ROI 組成的雙通道圖像,兩個流的輸出用Concat 層連接起來,并輸入支持向量機(support vector machine,SVM)分類器進行最終決策。Song等人[68]采用兩幅指靜脈圖像的合成圖像作為DenseNet 卷積網絡的輸入,合成方法為將輸入圖像和注冊圖像的ROI拉伸為224×224,并將這兩幅圖像作為合成圖像的第一通道和第二通道,然后將注冊圖像和輸入圖像調整為224×112,并將它們垂直拼接作為合成圖像的第三通道。在HKPU 和SDUMLA-HMT 數據集上的等錯誤率分別為0.33%和2.35%。
基于雙圖像匹配的方法的優點是可以直接基于訓練好的網絡進行端到端驗證,無需單獨的特征匹配過程,并且能夠處理身份不可見的開放集場景。雖然圖像對的構造過程極大地擴大了訓練集,但其中很大一部分可能是瑣碎的、沒有信息的對,它們對神經網絡更新的反饋很少,導致學習效率低,性能下降。
基于特征提取的方法是目前研究得最多的方法,該方法旨在學習一個特征提取網絡將手指靜脈圖像表示為一個一定長度的特征向量,通過匹配特征向量之間的距離來進行身份驗證。典型的卷積神經網絡結構示意圖與基于分類的示意圖類似,不同之處是全連接層的輸出層不需要用Softmax 函數轉換為N個類別的概率分布,而是直接為一定大小的特征向量。目前也有許多研究將特征提取與分類任務結合起來[56,69],典型的網絡結構如圖6所示,在損失計算時,需要將分類損失和特征度量損失進行融合。

圖6 特征提取與分類結合的網絡示意圖Fig.6 Schematic diagram combining feature extraction and classification
Huang 等人[69]針對指靜脈信息受局部特征支配的特點,提出了一種基于Transformer的模型FVT,該網絡采用級聯的4個FVT模塊提取手指靜脈特征,在9個公開的數據集上都取得了不錯的性能。Hou等人[70]將卷積自動編碼器與SVM 相結合,用于手指靜脈的驗證,采用中心損失函數訓練網絡的有效性。Ou 等人[56]采用預訓練的ResNet-18網絡提取指靜脈圖像的特征,輸出的特征向量的維數為512,并結合類內數據增廣和融合的損失函數在3個公開數據集及自制系統上得到了不錯的性能。Hu等人[71]基于VGGFace-Net提出了FV-Net,輸出的特征向量為2×2×256,然后采用錯位匹配策略進行特征匹配,在3 個數據集SDUMLAHMT、FV-USM 和MMCBNU-6000 上測試的等錯誤率分別為1.2%、0.76%和0.3%。Zhao 等人[72]提出了一個輕量級的CNN 網絡,全連接層輸出的特征向量長度為200,采集Softmax損失與中心損失相結合,在MMCBNU 和FV-USM 數據集上測試的EER 分別為0.503%和1.07%。Li等人[73]分別采用改進的ResNet-18和VGG-16 模型提取512 維度的靜脈特征,并用三元組損失(triplet loss)進行訓練,在3個公開數據集上進行交叉驗證,最佳結果的準確率達到98%。
基于特征提取方法的優點是能夠直接通過網絡將靜脈紋路圖像表示為一定長度的特征向量,能夠處理身份不可見的開放集場景,從相關研究可以看出,基于特征提取的方法的缺點主要是損失函數較為復雜,通常需要結合分類損失以提高收斂速度。要想提高基于特征提取方法的識別性能,損失函數的選擇和設計是重要的環節。本文第4 章將對損失函數進行介紹。
基于圖像生成方法的主要目的是根據現有的圖像樣本生成新的手指靜脈樣本進行數據增廣,從而擴展訓練集進行訓練以提高識別性能。GAN網絡是該方法采用的主要網絡結構,許多學者都對其進行了研究并提出很多改進方法。典型的網絡結構如圖7 所示[74],GAN 網絡主要由生成器和判別器組成,標簽信號和噪聲信號輸入生成器,生成器網絡生成“假”的手指靜脈圖像。“假”的手指靜脈圖像和真實圖像輸入判別器,判別器網絡學習區分真假圖像。“假”的手指靜脈圖像和真實圖像一起組成訓練數據,從而實現數據增廣的目的。訓練數據輸入識別或者驗證神經網絡,從而實現圖像分類或者特征匹配功能。

圖7 基于生成對抗網絡的結構圖Fig.7 Architecture of GAN-based network
Zhang 等人[59]提出了一種輕量級的全卷積生成對抗網絡架構,稱為FCGAN(fully convolutional generative adversarial network),另外還提出了一種用于指靜脈分類的網絡FCGAN-CNN,實驗表明通過FCGAN 進行數據增廣能夠改善CNN 用于指靜脈圖像分類的性能。Hou 等人[74]設計了一種新的生成對抗網絡,稱為三元組分類器GAN,用于指靜脈驗證。GAN與基于三元組損失的CNN分類器相結合,擴展了訓練數據,提高了CNN的判別能力。Wang等人[75]提出了一種由約束CNN 和CycleGAN 組成的層次生成對抗網絡用于數據增廣,通過濾波器剪枝和低秩逼近的方法對模型進行壓縮,從而使壓縮后的模型更適合于在嵌入式系統上部署。Yang等人[76]基于CycleGAN提出了FV-GAN 網絡,包含兩個生成器,分別是圖像生成器和紋路生成器,并設計合適的損失函數。該網絡解決了真實標簽不準確的問題。
盡管基于圖像生成方法的結果令人鼓舞,但基于GAN 的方法需要結合額外的分類和驗證網絡使用,模型較單一網絡復雜,且經常遇到收斂性較差和訓練不穩定性的困難[77]。如何在有限的訓練數據下,利用GAN生成高質量、多樣化的手指靜脈樣本,仍然是有待研究的問題。
基于圖像分割的方法采用U-Net 等神經網絡從手指靜脈圖像中分割出靜脈紋路圖案作為特征,然后采用該特征進行匹配識別。該方法與傳統的手指靜脈識別流程類似,典型的流程圖如圖8 所示,ROI圖像經過圖像分割網絡得到靜脈紋路圖像,然后將該紋路圖像送入識別或者驗證神經網絡,從而實現圖像分類或者特征匹配功能。圖像分割網絡通常為U-Net、SegNet、RefineNet 等經典的圖像分割網絡及其改進網絡,識別或者驗證神經網絡與前幾節提到的網絡類似。

圖8 基于圖像分割方法的示意圖Fig.8 Schematic diagram of image segmentation method
Jalilian等人[78]對比了三種網絡(U-Net、RefineNet、SegNet)的靜脈紋路分割性能,使用了自動生成標簽的方法并與手動標簽聯合訓練具有不同比例標簽的網絡,Miura match方法[18]用來匹配識別。Zeng等人[79]提出了一種改進的U-Net 的全卷積神經網絡與條件隨機場相結合的端到端靜脈紋路提取模型。該模型能根據靜脈的規模和形狀自適應調整感受野,捕捉復雜的靜脈結構特征。標簽圖像由傳統的紋路特征提取算法生成并按權值融合得到。Zeng等人[80]在最新研究中提出的靜脈紋路分割模型同樣以U-Net 為骨干網絡,并結合深度可分離卷積、Ghost模塊、幾何中值濾波剪枝等方法對模型進行壓縮,最后得到的模型的參數量僅為U-Net 的9%,并且具有不錯的性能。Song等人[81]提出了一種顯式和隱式特征融合網絡(explicit and implicit feature fusion network,EIFNet),用于手指靜脈的識別。采用掩碼生成模塊進行紋路分割,然后采用掩膜特征提取模塊對分割出的紋路圖像進行特征提取得到顯式特征,采用上下文特征提取模塊直接提取原始圖像的特征得到隱式特征。
深度神經網絡具有較強的紋路分割能力,但是由于圖像分割網絡的訓練需要大量標記數據,目前缺乏這樣的數據集。因為手指靜脈圖像本來就不夠清晰,人工標記的靜脈紋路并不一定準確,這是缺乏數據集的主要原因。目前研究所使用的分割標簽生成方法主要分為人工標注方法[82]、傳統紋路提取方法自動生成方法[79,83]、人工標注與自動生成相結合的方法[78]。
以上提到的五種手指靜脈識別中的深度學習方法,目前的研究主要以卷積神經網絡為主,在每個領域都有一些經典的網絡結構可以借鑒。在訓練方面,常用的公開的手指靜脈數據集由于每根手指圖像樣本偏少,在訓練分類網絡時存在容易過擬合的問題,因此需要在訓練時結合圖像增強技術以擴充樣本。而基于圖像分割的方法,訓練時需要帶標記的靜脈紋路圖像,目前還缺乏這樣的數據集。因此,目前主流的方法是直接將輸入的灰度圖像提取為一定長度的特征向量。
在生物識別領域,其系統通常分為識別系統和驗證系統,分別對應了封閉場景和開放場景的應用。在封閉場景中,系統中的身份個數已經確定,沒有新增個體,識別系統的作用就是判斷輸入的生物特征屬于系統中的哪個個體,因此識別系統被描述為一對多的匹配系統。基于分類的手指靜脈識別方法就應用于這樣的識別系統。驗證系統通常被描述為一對一匹配系統,因為該系統試圖將輸入的生物特征與已經存入系統的特定生物特征進行匹配,以得出輸入的特征是否存在于系統中,若是,進一步根據最佳匹配得出輸入特征的身份。該系統適用于有新增個體的開放系統,當需要新增個體時,只需提取新增個體的特征存入系統中即可。基于雙圖像匹配的手指靜脈識別方法就屬于這樣的驗證系統。
基于特征提取的手指靜脈識別方法將輸入圖像表示為一個一定長度的特征向量,通過匹配特征向量之間的距離來進行身份驗證,該方法主要應用于開放場景。而基于圖像生成的方法和基于圖像分割的方法,生成的圖像或者分割出的紋路圖像可以送入識別網絡或驗證網絡,因此分別適用于封閉場景和開放場景。
在手指靜脈識別系統中,深度學習方法在圖像質量評價、ROI 提取、模板保護(template protection)、呈現攻擊檢測(presentation attack detection,PAD)等方面也有應用。
(1)圖像質量評價
由于圖像采集裝置在采集手指靜脈圖像時,受光照強度、環境溫度、手指組織中的光散射、用戶自身行為等因素的影響,導致采集的圖像質量參差不齊。低質量的圖像將會導致系統性能下降。如果能在圖像采集階段就自動辨別出低質量圖像并提醒用戶重新采集,將大大提高系統的準確率。許多學者對基于深度學習的指靜脈圖像質量評價方法進行了研究[84-86]。Qin等人[84]采用深度神經網絡(deep neural network,DNN)對手指靜脈的圖像進行質量評價,將ROI 圖像分成不同的塊分別采用DNN 進行質量評價,然后將每個塊的質量分數聯合輸入到概率支持向量機中以得出整幅圖像的質量分數。通過該方法擴展了訓練數據量,提高了質量評估性能。Wang等人[85]采用競爭Gabor響應自適應直方圖進行識別,將識別正確的圖像作為高質量樣本圖像,識別錯誤的圖像作為低質量樣本圖像。針對高質量圖像和低質量圖像數量不平衡的問題,采用改進的SMOTE(synthetic minority over-sampling technique)方法擴充低質量圖像的數量,最后使用卷積神經網絡對這些圖像進行區分。
(2)ROI提取
在傳統的手指靜脈識別方法中,感興趣區域提取是重要的環節。對于采用深度學習方法的手指靜脈識別系統,如果將原始圖像進行ROI提取之后再輸入網絡模型進行分類或者特征提取,對系統性能的提升也會有幫助。因為ROI 提取算法可以對手指的位移進行校正,提高了CNN網絡穩定性;ROI提取會過濾掉大部分不相關的區域,保留原始靜脈模式,可以有效地改進訓練過程[2,59,87]。Ma等人[88]針對傳統卷積神經網絡信息丟失的問題,提出了一種基于膠囊神經網絡(capsule neural network)的手指靜脈感興趣區提取算法,在兩個公共數據集上取得了不錯的效果。Yang 等人[89]以VGG-16 網絡作為骨干網絡對ROI進行提取,用IOU(intersection over union)指標評價ROI提取的準確性,與傳統方法相比取得了更好的性能。
(3)模板保護
手指靜脈識別系統中存儲的靜脈特征模板屬于個人隱私,一旦泄露,將會存在安全風險。許多學者對模板保護方法進行了研究[90-93]。Ren等人[90]提出了一種帶模板保護的完全可撤銷的手指靜脈識別系統,采用RSA(Rivest-Shamir-Adleman)加密技術對手指靜脈圖像加密,使用CNN 對加密后的圖像進行處理,在保證識別性能的同時保障用戶靜脈模板的安全性。Liu等人[91]提出了一種基于深度學習和隨機投影的安全生物特征模板的手指靜脈識別算法FVRDLRP(finger vein recognition based on deep learning and random projections)。即使用戶的密碼被破解,FVR-DLRP也會保留核心生物特征信息,而原始生物特征信息仍然是安全的。Shahreza 等人[92]使用深度卷積自動編碼器從傳統手指靜脈識別方法生成的特征圖中學習降維空間中的深度特征,然后對這些深度特征應用生物哈希算法來生成受保護的模板,采用自編碼器損失和三元組損失結合的多項損失函數以提高在模板保護情況下的識別精度。
(4)呈現攻擊檢測
與其他生物識別方式不同,指靜脈識別技術通過使用手指皮膚下的血管紋路來確定個人身份,具有高安全性的特點。但是,用“偷”來的指靜脈圖像欺騙指靜脈識別系統仍然是可能的。為了保護指靜脈識別系統免受欺騙攻擊,對其欺騙檢測方法,即PAD 方案的研究仍然是非常有必要的[94-96]。Shaheed等人[94]提出了一種基于殘差連接和深度可分離的輕量級卷積神經網絡與線性支持向量機的呈現攻擊檢測方法,能有效地從假指靜脈圖像和真實指靜脈圖像中提取特征并加以區分。Yang等人[95]提出了一種輕量級指靜脈識別和反欺騙網絡FVRAS-Net(fingervein recognition and antispoofing network),該網絡利用多任務學習方法,將識別任務和反欺騙任務集成到一個統一的CNN 模型中,實現了高安全性和強實時性。
為了使模型更輕、性能更好、魯棒性更強,許多深度學習中的設計技巧被用于手指靜脈識別網絡的研究與開發中。
為了能使深度學習模型被部署到便攜式設備中,輕量化網絡的研究必不可少。目前常用的輕量化設計方法主要為輕量化網絡結構設計和模型壓縮兩類[97]。輕量化網絡結構設計的基本思想是采用較少的卷積層、全卷積結構替換參數量大的全連接層、深度可分離卷積(如圖9所示)、分組卷積以及神經網絡搜索(neural architecture search,NAS)等技術減少卷積運算量,降低模型訓練和推理時間。模型壓縮的方法通常在卷積層和全連接層采用張量分解、量化、剪枝等手段進行模型調整以減少參數的內存占用和計算成本。

圖9 深度可分離卷積流程圖Fig.9 Flow chart of depthwise separable convolution
在手指靜脈識別領域,多位學者采用了輕量化設計方法以提高識別速度,降低模型部署難度。Zeng 等人[80]將深度可分離卷積應用到基于U-Net 的輕量級網絡設計中。Shaheed等人[94]提出了一種基于殘差連接和深度可分離卷積神經網絡與線性支持向量機相結合的呈現攻擊檢測方法,解決了手指靜脈識別系統PAD領域缺乏輕量級高效特征描述符的問題。Shaheed等人[98]還提出了一種基于深度可分離的殘差連接CNN 的預訓練Xception 模型,該模型被認為是一種更有效、更簡單的提取魯棒特征的神經網絡。Ren等人[99]受MobileNeV3[100]的啟發,將深度可分離卷積、倒殘差結構和NAS[101]相結合,設計了一個輕量級的多模態特征融合網絡FPV-Net(fingerprint and finger vein recognition network)。文獻[59]、文獻[60]、文獻[61]、文獻[72]、文獻[84]、文獻[86]、文獻[91]、文獻[92]、文獻[102]等采用自己搭建的小型網絡實現模型的輕量化,這些模型通常只有3~6個卷積層,1~2個全連接層。文獻[66]、文獻[71]、文獻[79]等對經典網絡進行壓縮來實現輕量化,通過刪減卷積層或全連接層的數量、減少各層的通道數等方法減少模型的參數量及運算量。以上設計大多在實現模型輕量化的同時,能夠保證識別準確率和穩定性在較高水平,因為手指靜脈圖像尺寸較小,樣本數量少,直接采用大型的網絡模型反而容易出現過擬合的問題。
雖然公開的手指靜脈數據集不少,但是與ImageNet、CoCo等用于圖像分類、目標檢測的大型數據集相比,手指靜脈數據集中的圖像較少,包含的手指數量通常只有幾百個,而且每個手指的圖像往往不超過10幅,這加大了神經網絡的訓練難度,使模型容易出現過擬合,在做分類任務時表現尤為突出。為了解決訓練數據不充分的問題,數據增廣是非常有必要的。許多學者在其研究中都用到了各種數據增廣方法,這些方法主要分為傳統圖像處理方法和深度學習的方法。
傳統圖像處理方法主要是將圖像的形狀、亮度、清晰度等進行改變以獲得新的圖像從而擴充數據集。Ou等人[56]將類間增廣和類內增廣相結合對訓練集進行擴充。類間增廣采用圖像垂直翻轉來實現,類內增廣通過圖像的隨機裁剪和調整大小、旋轉、透視失真和顏色抖動來實現。Hou等人[103]采用翻轉、旋轉、移位、剪切和縮放等方法進行圖像增廣,并詳細說明了各種方法的具體參數設置。Yang等人[89]采用仿射變換、亮度變換、添加高斯噪聲和隨機裁剪進行數據增廣,每種操作的執行概率為0.5。圖10為常見的數據增廣示例。

圖10 指靜脈圖像數據增廣示例Fig.10 Example of finger vein image data augmentation
前面提到的傳統圖像處理方法主要基于單幅圖像進行變換,產生新圖像時可以利用的先驗知識很少,僅僅是圖像本身的信息。基于深度學習的方法可以通過訓練學習數據集中所有圖像的特征,從而將整個數據集作為先驗知識用于生成新的樣本圖像,這種數據增廣方法在理論上是一種更加優秀的方法。該方法最常用的是采用GAN模型生成新的手指靜脈圖像來擴充數據集,在本文的第2章基于圖像生成的方法介紹中已作詳細描述,在此不再贅述。
另一種數據增廣的方法是將圖像分割成多個小塊再送入神經網絡進行訓練,這樣不僅能擴充數據集,還能通過使用更小網絡模型實現系統的輕量化。Qin等人[84]和Zeng等人[86]將ROI圖像拆分成5塊再送入神經網絡進行質量評價,為了保持紋路的連貫性,拆分時使部分區域重疊。Yang 等人[76]將原始的ROI圖像拆分成90 個小塊送入紋路生成模型中訓練,極大地擴充了訓練集。
遷移學習是指利用數據、任務或模型之間的相似性,將舊領域學習過的模型,應用于新領域的一種學習過程。遷移學習可以使模型在初始時就具備較優的性能,后續只需微調就可以使模型性能得到提升。使用預訓練模型是遷移學習的主要方法,通過使用之前在大數據集上經過訓練的預訓練模型,可以直接獲得相應的結構和權重。在機器視覺領域,預訓練模型大都采用ImageNet 數據集作為訓練集,因為它包含上百萬幅圖像,有助于訓練普適模型。在手指靜脈識別的研究中,許多學者采用預訓練的經典網絡模型來提升系統性能。Hong等人[57]采用預訓練的VGG-16模型進行差分圖像匹配。Song等人[68]將DenseNet-161 模型的卷積層采用預訓練模型進行初始化,只對最后的全連接層進行微調。Hu 等人[71]采用預訓練模型對VGGFace-Net 的前6 個卷積層進行權重初始化,并嵌入到FV-Net模型中。Kuzu等人[104]將ImageNet上的預訓練模型應用于DenseNet-161和ResNext-101模型中進行性能比較。
2018年,基于壓縮和激勵(squeeze-and-excitation,SE)模塊的通道注意力機制被提出[105],通過給每個通道計算一個權重,讓不同通道對結果有不同的作用力,可以增強網絡提取圖像的能力。針對SE 模塊中采用全連接層參數量大的問題,高效通道注意力(efficient channel attention,ECA)模塊將全連接層改為一維卷積[106],每一次卷積過程只和部分通道進行運算,實現了適當的跨通道交互,可以在顯著降低模型復雜度的同時保持性能。在SE模塊的基礎上,卷積塊注意力模塊(convolutional block attention module,CBAM)實現了通道注意力和空間注意力的雙機制[107],進一步擴展了注意力機制的作用。注意力機制目前在圖像生成、圖像恢復、圖像分割、圖像分類等多種計算機視覺任務中都表現出了優異的性能。
在手指靜脈認證任務中,深度網絡生成的特征包含了跨通道和跨空間域的不同類型的信息,這些信息對于學習靜脈紋路的詳細信息有不同的貢獻。如果能夠增強網絡對高貢獻特征的敏感性,使其專注于學習更具鑒別性的特征,那么網絡提取的指靜脈特征就能更容易分辨。Huang等人[63]基于U-Net設計了一個像素級空間注意力模型。將U-Net 輸出圖像的每個像素當作權重與原圖像的對應像素值進行相乘,達到圖像增強的目的,使網絡更關注圖像的紋路區域,從而提取出魯棒的靜脈特征。Hou等人[103]為了提高CNN模型的性能,將ECA模型嵌入到ResNet模型中,提出了高效的ECA-ResNet 模型,進行指靜脈特征提取。Ren等人[90]將通道注意力SE 模塊作為子結構嵌入到基本網絡中,形成手指靜脈加密圖像的特征提取網絡。
為了能更加充分并精確地提取出靜脈圖案特征,多位學者對注意力機制進行了改進。Huang等人[108]提出了一種聯合注意力(joint attention,JA)模塊,該模塊在特征圖的空間和通道維度上進行動態調整和信息聚合,聚焦于細粒度細節,從而增強了靜脈圖案對提取識別特征的貢獻。Wang等人[109]針對手指靜脈的特點,設計了維度交互注意力機制(dimensional interactive attention mechanism,DIAM),它不僅可以加強圖像空間和通道上細節特征的提取,還可以加強空間與通道之間的關系。
DIAM的結構如圖11所示[109],它由3個平行分支組成,其中兩個分支負責捕獲通道C 與H、C 與W 的跨維交互,剩余分支用于構建空間注意力。最后,聚合所有3 個分支的輸出。一般的注意力機制是分別計算空間注意力機制和通道注意力機制,因此不考慮兩者之間的關系。而DIAM 的空間注意機制的維度相互作用,既增強了空間和通道的特征提取能力,又能捕捉不同維度之間的依賴關系。該注意力機制的缺點是增加了運算復雜度。

圖11 DIAM模塊結構圖Fig.11 Structure diagram of DIAM module
損失函數(loss function)是用來估量深度學習網絡模型的預測值與真實值不一致程度,是訓練階段非常重要的環節。根據任務的不同,基于深度學習的手指靜脈識別系統中,損失函數分為分類損失函數和度量學習損失函數[56]。分類損失利用額外的分類器將特征學習過程表述為分類問題,主要通過優化預測類別的概率達到學習的目的。度量學習損失的目的是學習一對特征向量的相似度,直接優化特征之間的距離。
在分類任務中,常用的損失函數有Softmax 損失、大裕度余弦損失(large margin cosine loss,LMCL)、附加角裕度損失(additive angular margin loss,AAML)、負對數似然損失函數(negative log likelihood loss,NLLLoss)等。常用的度量學習損失有對比損失(contrastive loss)、三元組損失(triplet loss)、中心損失(center loss)、反余弦中心損失(arccosine center loss)等。
(1)Softmax損失
Softmax損失是Softmax函數與交叉熵損失(crossentropy loss)組合而成的損失函數,是分類任務中最常用的損失函數。Softmax 函數的作用是把一個序列(通常是全連接層的輸出)轉換成概率分布,交叉熵函數根據概率分別計算得到loss,整個Softmax Loss的公式如式(1)所示:
式中,N表示樣本總數量,K表示類別數量,yi表示樣本xi的真實類別,表示最后一個全連接層中第j個類別的權重向量,即為最后一個全連接層的第j個類別的輸出(偏置為0)。
Softmax Loss深度網絡只鼓勵特征的可分性,通常只關注類間信息而忽略類內信息,這可能會導致誤分類。
(2)大裕度余弦損失
許多學者都基于Softmax Loss進行改進,改進的主要目的都是最大化類間差異和最小化類內差異,大裕度余弦損失就是其中的改進之一[110]。根據Softmax Loss的公式可以得到:
式中,θj是Wj和xj的角度,將||Wj||||xj||規范化為一個尺度s,并引入一個余弦裕度(cosine margin)m來進行度量的約束,讓當前樣本所屬的類別在減去一個m之后仍然屬于這個類別,得到最后的損失函數如式(3)所示:
(3)附加角裕度損失
附加角裕度損失[111]的計算如式(4)所示:
與大裕度余弦損失將裕度m添加到余弦值之后不同,附加角裕度損失在W和x之間添加了一個附加的角裕度懲罰m,再進行余弦計算,以同時增強類內緊致性和類間差異性,因為當θ的范圍為[0,π-m]時,cos(θ+m) (1)三元組損失 三元組損失主要是為了非同類極相似樣本的區分,最早用于人臉識別任務[112]。Triplet Loss 需要輸入一個三元組,分別是錨樣本(Anchor)、正樣本(Positive)和負樣本(Negative),錨樣本與正樣本屬于同一類,錨樣本與負樣本不是同一類。根據式(5)優化錨樣本與正樣本的距離小于錨樣本與負樣本的距離,實現樣本之間的相似性計算: 式中,a表示錨樣本,p表示正樣本,n表示負樣本,D表示兩樣本特征之間的距離,margin為設定的閾值。 (2)中心損失 中心損失最早也用于人臉識別任務[113],主要為了提高類內特征的緊湊性。其函數如式(6)所示: 式中,cyi表示第yi個類別的特征中心,xi表示全連接層之前的特征。實際使用的時候,m表示minibatch的大小。Loss越小,表示一個batch中的每個樣本特征離該樣本所有特征中心的距離的平方和越小,也就是類內距離越小。 (3)反余弦中心損失 中心損失主要是為了減小特征與相應中心之間的距離,因此在最小化類內距離方面是有效的改進。但是中心損失仍然使用歐氏距離,它只關注特定特征之間的絕對差異。這種差異體現在單個矢量的不同維度的數值上,這意味著歐氏距離對特定特征的絕對值很敏感。與歐氏距離一樣,余弦距離也常用于驗證領域的相似性度量。余弦距離側重于區分特征向量方向的差異,對特定特征的絕對值不敏感。余弦距離將特征向量作為一個整體來考慮,從而避免了個別特征的影響。Hou 等人[103]提出引入余弦距離代替歐氏距離來測量特征與中心之間的距離,從而得出反余弦中心損失函數,如式(7)所示: 式中,fi表示全連接層之前的特征向量,cyi表示第yi個類別的特征中心。 以上各種損失函數在生物識別領域都有廣泛的使用。在手指靜脈識別的研究中,文獻[58]、文獻[61]、文獻[63]、文獻[65]、文獻[66]等將Softmax 損失函數用于手指靜脈特征分類。Li 等人[73]將三元組損失函數用于優化其特征提取網絡。Kuzu 等人[114]對比了Softmax、LMCL、AAML三個損失函數對網絡的優化能力,得出AAML 具有最佳效果。Tran 等人[115]將附加角裕度損失函數用于網絡優化。Kang等人[116]采用中心損失函數進行特征匹配。 由于大多數度量學習損失函數單獨使用會使模型訓練過程表現很不穩定,收斂速度慢,需要根據結果不斷調節參數,經常將度量學習損失函數與分類損失函數結合在一起使用。Huang等人[69]將NLLLoss與中心損失相結合進行網絡訓練。Ou等人[56]將大裕度余弦損失函數與三元組損失函數進行融合取得了不錯的性能。Zhao 等人[72]將中心損失與Softmax 損失函數進行結合用于優化其輕量級特征提取網絡。Hou 等人[103]將Softmax 損失函數與反余弦中心損失函數結合訓練其高效通道注意力殘差網絡,并與10余種損失函數的訓練效果進行對比,證明了其損失函數的高效性。 手指靜脈識別系統常用的評價指標有準確率、等錯誤率、真正率、假正率、正確接受率等,還有ROC(receiver operator characteristic curve)曲線直觀顯示算法性能。 (1)識別準確率Accuracy 基于分類的指靜脈識別系統,常用的評價指標是識別準確率Accuracy(簡寫為Acc),即所有測試樣本中,能正確分類的百分比,如式(9)所示: 式中,Ntotal表示所有測試樣本的數量,Ncorrect表示能正確分類/識別的樣本數量。表3為2019年至今部分文獻的方法在公開數據集上的準確率。 (2)等錯誤率EER 等錯誤率(equal error rate,EER)是指靜脈驗證系統常用的評價指標,與EER相關的參數有錯誤接受率(false acceptance rate,FAR)和錯誤拒絕率(false rejection rate,FRR)。 FAR又稱誤識率,表示兩個不同類別的樣本(類間)匹配時,被錯誤地認為是相同樣本的百分比,如式(10)所示: 式中,Ninter表示所有類間匹配的次數,Nacceptance表示錯誤接受的次數。 FRR又稱拒真率,表示兩個相同類別的樣本(類內)匹配時,被錯誤地認為是不同樣本的百分比,如式(11)所示: 式中,Nintra表示所有類內匹配的次數,Nrejection表示錯誤拒絕的次數。 當兩幅手指靜脈圖像進行匹配識別時,會得到匹配分數Score,Score值越高,表示兩幅圖像越相似。通常會設定一個閾值TScore,當Score≥TScore時,認為兩幅圖像來自同一手指,否則認為來自不同手指。TScore設置得越大,FRR就越大,FAR就越小;同樣,TScore設置得越小,FAR就越大,FRR就越小。通過選擇TScore的值,使FRR與FAR相等或相差最小,這時的錯誤率稱為EER。表4列舉了2019年至今部分文獻的方法在公開數據集上實驗的等錯誤率。 FRR@FAR=0.1%[56]也是常用的評價指標,指當錯誤接受率FAR為0.1%時,FRR的值,該指標更加關注生物識別身份驗證系統的安全性。在實際測試時,FAR也可以取其他值,如1%或0.01%等。 (3)ROC曲線 ROC曲線是一種已經被廣泛接受的系統匹配算法測試指標。在手指靜脈識別領域常用的ROC曲線為FAR-FRR曲線,它是誤識率、拒真率和匹配分數閾值之間的一種關系,反映了識別算法在不同閾值上,FRR和FAR的平衡關系。圖12為ROC(FAR-FRR)曲線的示意圖,其中橫坐標是FAR,縱坐標是FRR,EER是FAR-FRR曲線中FAR=FRR的平衡點,EER的值越小,即曲線越靠近左下角,表示算法的性能越好。FRR越大,表示安全性高,但是通過性不好;FAR越大,表示通過性好,但是安全性就低。在多種方法性能對比時,通常將每種方法的ROC 曲線繪制在同一個坐標圖上,以便于直觀對比。 傳統的依靠手工提取特征的手指靜脈識別方法在面對圖像質量差、類間差異小和類內差異大的情況下,難以表現出優異的性能,使其發展遇到一定的瓶頸。深度學習技術的興起并應用到手指靜脈識別領域,極大地克服了這一瓶頸,將手指靜脈識別的性能提升到了新的高度,但是該領域面對的困難和挑戰依然存在。 (1)低質量的圖像仍然是制約識別性能的首要因素 受光照強度、手指厚度、環境溫度、采集姿勢的影響,手指靜脈采集裝置采集到的圖像有可能存在低質量的圖像。這些圖像有可能亮度過高或過低,導致部分靜脈圖案信息丟失,縱使復雜的圖像增強算法也難以達到理想效果。也有可能出現圖像錯位、水平旋轉或軸向旋轉,嚴重的錯位或者旋轉極大地增加了類內差異性,縱使優秀的網絡模型也無法學習出理想的辨別能力。因此,低質量的圖像仍然是制約識別性能的首要因數。要想提高系統性能,須從源頭上解決低質量圖像的問題。這就需要從圖像采集設備、圖像質量評價方法、生物特征建模等方面來解決圖像質量過低導致的性能下降的問題。 (2)有限的數據集阻礙了深度學習方法的全面應用 雖然目前公開的手指靜脈圖像數據集較多,但這些數據集中每根手指采集的圖像樣本太少,通常只有幾幅圖像,不利于基于分類方法的模型訓練。此外還缺乏用于手指靜脈圖像分割的數據集,而人工標記的紋路和自動生成的紋路都存在標注不準確的問題,這阻礙了基于圖像分割的手指靜脈識別方法的研究。為了增強身份認證的安全性和提高識別的準確率,將手指靜脈與指紋、掌紋、人臉、虹膜等其他生物特征進行融合以實現多模態識別是研究的方向,但是目前也存在缺乏公開的多模態數據集的問題。綜上所述,要想各種深度學習方法都能得到全面研究和應用,相應的公開數據集必不可少。 (3)高辨識度的特征依然需要更優秀的模型提取 隨著深度學習技術的發展,許多優秀的網絡模型已經被用于手指靜脈識別認證系統中。這些模型大都基于現有的公開數據集學習特征提取能力,在這些數據集上取得了較強的辨識能力,但是這些模型應用到真實場景中不一定會取得與仿真實驗相同的效果,這嚴重地限制了指靜脈識別的應用。因此,還需要設計出更優秀的模型能在各種場景下提取出高辨識度的特征。隨著手指靜脈識別技術的發展,三維指靜脈識別和融合指靜脈的多模態識別技術將會成為發展的趨勢。三維圖像和多模態信息比傳統的單幅指靜脈圖像擁有更多的特征,提取特征需要更多的參數和運算量,這也需要設計出高效的網絡模型,實現特征提取能力和運算速度的雙優。 (4)廣泛的應用還受到各種因素的制約 雖然手指靜脈識別算法的研究已經取得了豐碩的成果,但是與指紋識別和人臉識別相比,還談不上廣泛的應用。制約其應用的因素是多樣的,包括設備價格、采集舒適度、算法復雜度、識別精度等。如果想從采集設備的角度解決低質量圖像的問題,需要采用更優秀的近紅外攝像頭和光源,采用自動調光電路對光照強度進行調節,采用更好的處理器運行神經網絡模型等,這都會增加設備的成本。與人臉識別相比,手指靜脈識別并不算動態識別,需要將手指放入采集設備的卡槽中靜置一段時間才能完成注冊或識別,并且對手指的姿勢和放置位置有較高的要求,因此在采集舒適度方面有所欠缺。此外,許多性能優異的指靜脈識別算法和模型往往較復雜,不利于在便攜式的手指靜脈識別裝置中部署。在實際應用場景中的識別精度也備受質疑。 手指靜脈識別面臨的四大挑戰相互關聯、相互制約,這也映射出今后的發展和改進方向。 (1)三維手指靜脈圖像識別 將多個攝像頭拍攝的同一手指的多個二維靜脈圖像構造成三維圖像,然后利用所構造的三維手指靜脈圖像代替傳統的二維圖像進行識別,可以獲得更多的特征信息,包括所有的靜脈紋路信息和手指的幾何特征,而且在3D手指靜脈圖像中,無論手指姿勢如何變化,靜脈結構都是一致的,可以解決低質量圖像中的圖像錯位和旋轉問題。基于以上優勢,三維手指靜脈識別可能會成為未來的研究熱點。目前已有部分學者對其進行了研究并取得了部分成果。Zhao 等人[3]設計了一種低成本的基于多視角的指背靜脈成像設備用于數據采集,建立了一個新的多視角指背靜脈數據庫THU-MFV,然后提出了一種名為分層內容感知網絡的深度神經網絡來提取手指靜脈的分級特征。Kang等人[116]設計了一種能同時獲取一根手指所有靜脈圖案的三攝像頭采集方法,提出了基于深度可分離卷積的輕量級卷積神經網絡構建全視圖三維手指靜脈圖像的三維重建方法以及相應的三維手指靜脈特征提取與匹配策略。 雖然三維手指靜脈識別方法具有二維識別方法無法比擬的優勢,但是三維建模過程計算復雜,特征提取需要更大的網絡模型。同時,由于需要使用多個近紅外攝像機從不同角度進行圖像采集,采集設備成本較高。此外,目前還缺乏可供其他網絡模型訓練的三維手指靜脈的大型公共數據集。綜上所述,雖然三維手指靜脈識別可能會成為未來的研究熱點,但是在實際應用時仍然會面臨挑戰。 (2)多模態生物特征提取 隨著人們對安全性的要求越來越高,在采集手指靜脈圖像的同時采集其他生物特征,如指紋、人臉、掌紋、手指形狀等,將多種生物特征進行組合以達到多模態生物識別的目的,是未來的發展方向。Kim 等人[67]研究了能夠同時識別手指靜脈和手指形狀的多模態生物識別系統,提出了基于深度卷積神經網絡的多模態生物識別方法,在山東大學同源多模態特征數據庫和香港理工大學手指圖像數據庫上的實驗結果表明該方法在性能上優于傳統方法。Goh等人[93]提出了一種基于最大索引哈希、無對齊哈希和特征級融合的多模態生物特征認證框架,可以快速采用具有不同特征分布的所有流行生物識別模式用于特征級融合,實驗證明了在指靜脈、指紋、人臉和虹膜數據集上的有效性。Wang 等人[120]提出了一種基于手指靜脈和人臉特征層融合的生物特征識別方法。該方法利用自注意機制獲得兩種生物特征的權重,并結合ResNet殘差結構,將自注意權重特征與雙模態融合特征在通道上級聯。Ren 等人[99]設計了一種能同時采集手指靜脈和指紋的設備,制作了數據集NUPT-FPV,提出了一種基于卷積神經網絡作為基準的多模態融合方法。Cherrat等人[128]將卷積神經網絡與隨機森林(random forest,RF)分類器結合用于指靜脈、指紋和人臉識別三模態生物識別系統。 多模態生物識別系統的優勢在于,它融合了人體的多種特征,比大多數現有的單模態生物識別系統具有更高的安全性,并可以解決單一模態采集質量較低帶來的特征辨識度不高的問題。然而,由于獲取不同類型的生物特征需要不同的采集設備,而且不同生物特征的融合機制和方法尚未明確,多模態生物識別系統還需進一步研究。 (3)基于Transformer的網絡模型研究 Transformer是谷歌在2017年提出的一個里程碑式的模型[129],最先應用于自然語言處理領域。Transformer 基于自注意的Encoder-Decoder 結構,能并行方式處理數據,因為注意力機制允許模型考慮任意兩個單詞之間的相互關系,而不管它們在文本序列中的位置。鑒于Transformer在NLP任務中取得的巨大成功,許多學者將其引入到計算機視覺領域并加以改進,提出了許多優秀的模型,如ViT[45]、Swin Transformers[130]、Deformable DETR(detection transformer)[131]、DN-DETR(denoising DETR)[132]等,它們在圖像分類、目標檢測、圖像分割等任務中大放異彩。 雖然Transformer由于其良好的全局特性和特征融合能力,在計算機視覺上取得了多項最先進的性能,但是由于Transformer 模型較復雜、訓練時間長、效率較低等原因,目前在手指靜脈識別領域采用Transformer 的方法還很少。同時,要想訓練Transformer使其性能超過CNN,需要大型的數據集,而現有的手指靜脈數據集中的圖像樣本普遍偏少。與CNN相比,Transformer提取局部特征的能力偏弱,因此目前主流的解決方案為Transformer 與CNN 結合以提取靜脈特征[133]。例如,Li等人[64]將視覺轉換器架構與膠囊網絡相結合,提出了ViT-Cap模型。該模型能夠基于全局注意力和局部注意力對手指靜脈圖像信息進行挖掘,并選擇性聚焦于重要的手指靜脈特征信息。實驗證明了該模型在手指靜脈識別中的有效性和可靠性。此外,為了降低模型的復雜度,有學者只采用Transformer 的編碼器進行特征提取。Huang 等人[69]深入研究了ViT,針對手指靜脈信息受局部特征支配的特點,對Transformer 的編碼器進行改進,提出多層特征提取功能的新模型FVT(finger vein transformer),與純CNN 相比,該模型獲得了具有競爭力的結果。 隨著視覺Transformer 的深入研究,其缺點將會得到改進,基于Transformer 的手指靜脈識別方法也將成為研究的熱點。 (4)輕量級網絡設計 只要是涉及到人的身份認證的場景,都可以利用手指靜脈識別系統。在這些場景中,許多時候都需要采用移動設備或者輕小型設備以提高安裝和使用的便捷性。采用深度學習的方法雖然可以通過神經網絡使系統性能得到提升,但也使得網絡模型結構越來越復雜,對硬件設備的運算能力和存儲空間的依賴愈發嚴重,這極大地限制了手指靜脈識別方法的應用。因此,如何在保持模型較高精度的前提下對網絡進行優化,降低其內存需求和計算成本,已成為將指靜脈識別算法向移動端或者輕小型設備遷移時首當其沖的一大課題。 雖然目前許多關于手指靜脈識別的深度學習研究都提出了輕量級的網絡設計方法[72,80,86,119],這些方法在某種程度上確實達到了模型參數少、推理時間短的指標,但是難以保障在真實場景中的識別精度。目前提出的手指靜脈識別網絡的輕量級設計方法大多是通過減少卷積層或全連接層的層數,或者采用全卷積網絡、深度可分離卷積結構減小模型參數量等,設計方法較單一,更多更有效的輕量級設計方法,如知識蒸餾、神經網絡結構搜索技術、參數量化等方法有待應用到手指靜脈識別的研究中。隨著深度學習的發展,性能更優的復雜網絡模型是必然的趨勢,而基于這些模型的輕量級設計也會是一個永恒的話題。 近年來,盡管針對手指靜脈識別問題已經涌現出了大量優秀的基于深度學習的解決思路,這些方法在公開數據集上測試的精度普遍已達到98%以上,等錯誤率大都在1%以內。但是大部分研究仍局限于實驗室理論研究階段,距離正式的產業化落地應用仍有很長的路要探索。技術終究要為解決實際應用問題服務,手指靜脈識別和認證技術將通過不斷優化與發展,更廣泛地應用到人們的日常生活中。4.2 度量學習損失函數
5 評價指標與方法
6 面臨的挑戰及未來發展方向
6.1 面臨的挑戰
6.2 未來發展方向
7 結束語