王財勇 劉星雨 房美玲 趙光哲 何召鋒 孫哲南
自從1993 年英國劍橋大學Daugman 博士首次提出實用的高性能虹膜識別系統[1]以來,虹膜識別技術得到了廣泛關注和迅猛發展.虹膜作為身份標識具有諸多先天優勢,如唯一性、穩定性、非接觸性、防偽性等,因此長期以來虹膜識別被人們視為一種安全、可靠的生物特征識別技術[2-3],廣泛應用于國家公共安全、公共衛生、邊檢安防、司法、商業等重要場景中.特別是近些年來,隨著物聯網、互聯網、人工智能、元宇宙等技術的發展,一大批基于筆記本電腦、手機、VR/AR 設備等的終端產品豐富了虹膜識別的應用場景.然而隨著應用的不斷深入,人們發現虹膜識別技術并非百分之百安全,它的不同階段仍然可能遭受各種類型的攻擊干擾,造成識別系統存在安全漏洞和風險隱患.在不同的攻擊類型中,虹膜呈現攻擊(Presentation attacks,PAs)是最常見的,出現在早期的虹膜圖像獲取階段,它通過誘導傳感器捕獲假體虹膜樣本作為待識別的虹膜圖像,干擾識別系統的正常運行,導致系統做出錯誤的決策.截止目前,網絡媒體上關于虹膜呈現攻擊的報道屢見不鮮.例如,2017 年,歐洲最大黑客協會Chaos Computer Club 針對三星Galaxy S8 手機進行了一項測試,他們通過將透明隱形眼鏡覆蓋在打印虹膜圖像上(該隱形眼鏡用于模擬眼球的曲率),成功解鎖了手機;同年,百度安全實驗室(Baidu X-Lab)利用激光黑白打印機打印出來的高清虹膜照片也解鎖了一款具備虹膜識別功能的手機;2018 年,來自波蘭華沙工業大學的研究員們將尸體虹膜作為一種呈現攻擊類型,指出犯罪分子有可能利用尸體虹膜來繞過虹膜掃描儀以冒充逝者獲得訪問權.這些報道極大地引發了社會各界對虹膜識別技術安全性的擔憂.針對此類問題,虹膜呈現攻擊檢測(Iris presentation attack detection,IPAD)技術應運而生,它旨在判別輸入系統的虹膜圖像是來自正常采集的活體虹膜,還是來自某種假體虹膜,以排除假體虹膜對于系統的攻擊和阻礙[4-5].常見的虹膜呈現攻擊方式包含打印虹膜照片、重播放虹膜樣本、3D 虹膜假體(如義眼)和佩戴有紋理的隱形眼鏡等.圖1 展現了在虹膜識別過程中使用義眼進行虹膜呈現攻擊的場景.

圖1 使用義眼進行虹膜呈現攻擊圖示(插圖取自電影《辛普森一家》)Fig.1 An illustration of iris presentation attack using artificial eye (the figure is from 《The Simpsons》)
隨著獲取個體虹膜信息的渠道增多,以及制造假體虹膜的手段不斷升級,虹膜呈現攻擊給虹膜識別系統帶來的隱患與日俱增.從個人角度來看,該攻擊行為可能會導致用戶的隱私泄露,侵犯用戶的合法權益,給正常的生活帶來困擾;另一方面,從國家角度來看,亦會影響社會的穩定和諧.相較于其他生物特征識別技術,比如指紋識別和人臉識別,虹膜識別一般應用于安保級別較高的地方,如涉及財物、機密文件、特殊人群的銀行、政府、監獄等場所,故虹膜識別的安全性尤其重要.圖2 列舉了一些虹膜識別及虹膜呈現攻擊檢測的應用場景.因此,準確判別呈現給虹膜傳感器的樣本真假,保障虹膜識別技術的安全性是該技術發展中不可忽視的一環.

圖2 虹膜識別及虹膜呈現攻擊檢測的應用場景Fig.2 Application scenarios of iris recognition and iris presentation attack detection
鑒于虹膜呈現攻擊檢測的重要應用價值,國內外主要的虹膜識別廠商都對此進行了廣泛的研究和布局,并將開發的虹膜呈現攻擊檢測功能集成到各類虹膜識別產品中,如圖3 所示.表1 匯總了國內外主要的幾家虹膜識別廠商部署的虹膜呈現攻擊檢測技術,從中可以看到各種基于硬件和基于軟件的方法分別被提出,以支持檢測美瞳(紋理隱形眼鏡)、打印、義眼、屏顯、重放攻擊等各種攻擊類型.進一步地,國內外廠商如中科虹霸、松下電器、IrisGuard等在近些年都申請了與虹膜呈現攻擊檢測相關的國內外專利.我們通過企知道公司(https://www.qizhidao.com/)開發的專利數據庫檢索了含有虹膜活體檢測、偽造虹膜、美瞳檢測等關鍵詞的中國專利,統計了虹膜呈現攻擊檢測歷年的中國專利數量,如圖4所示.此外,我們還對專利所屬的公司名稱根據出現次數進行了詞云可視化,如圖5 所示.可以看到近些年虹膜呈現攻擊檢測相關的專利數量正在日益增加,國內外廠商均在中國布局了相關的專利,且值得注意的是,除一些專業的虹膜識別廠商外,一些互聯網公司如騰訊、京東、OPPO 等和工商銀行都在該領域有所涉獵,反映了虹膜識別廣闊的應用前景,更加凸顯了虹膜呈現攻擊檢測在工業上的重要性.

表1 國內外虹膜識別主要廠商部署虹膜呈現攻擊檢測技術概覽Table 1 Overview of IPAD technology deployed by major iris recognition manufacturers at home and abroad

圖3 具有虹膜呈現攻擊檢測功能的虹膜識別產品Fig.3 Iris recognition products with IPAD function

圖4 虹膜呈現攻擊檢測的中國專利數量Fig.4 The number of Chinese patents related to IPAD

圖5 申請虹膜呈現攻擊檢測中國專利的公司名稱詞云Fig.5 Word cloud of companies applying for Chinese patents related to IPAD
在學術上,虹膜呈現攻擊檢測也具有重要的研究意義.首先,它可以簡單地看作是一個單分類或二分類問題,因此從訓練樣本使用、虹膜特征表達、分類器選取等方面涉及到了計算機視覺、機器學習、模式識別等領域的共性科學問題;其次,虹膜呈現攻擊檢測算法本身應該對未知的領域有較好的泛化能力,因此這涉及到域適應、域泛化等問題;此外,虹膜呈現攻擊工具也在與時俱進,例如近些年出現的生成對抗網絡可以用于合成虹膜等,嚴重威脅了現有的檢測算法.因此,虹膜呈現攻擊檢測為這些科學領域提供了新的研究課題,有利于啟發新的理論創新,促進這些領域的成熟和發展,并吸引了一大批研究人員投入到相關問題的研究中去.國內外研究機構如中國科學院自動化研究所、吉林大學、圣母大學、密歇根州立大學、華沙工業大學、弗勞恩霍夫計算機圖形研究所等都有團隊從事虹膜呈現攻擊檢測的研究.生物特征識別領域重要國際期刊會議如IEEE Transactions on Biometrics,Behavior,and Identity Science;IEEE Transactions on Information Forensics and Security;IET Biometrics;IJCB (IEEE International Joint Conference on Biometrics);ICASSP (IEEE International Conference on Acoustics,Speech and Signal Processing)也陸續發表了相關論文[6-10].另外,一系列虹膜呈現攻擊檢測的比賽也在國際上公開舉辦[11-15].
針對日益豐富的虹膜呈現攻擊檢測方法,相關研究者陸續進行了綜述.美國圣母大學Bowyer 教授團隊首先通過兩個維度——虹膜被視為靜態還是動態對象和傳感器對虹膜是否有刺激,建立了一個分類框架來總結2018 年之前的不同研究成果[16];在此基礎上,他們在2020 年進行了延伸,主要介紹了從2018 年到2020 年提出的檢測方法,并將方法分類為基于傳統計算機視覺、基于深度學習以及將兩者結合的方法進行分析[17];Galbally 等[18]和Morales等[19]認為現有方法分為兩種,一種是基于硬件的,也稱為基于傳感器的方法,通過傳感器捕獲眼睛的生物特征和物理特征檢測攻擊;另一種是基于軟件的,也稱為基于特征的方法,根據獲得的樣本提取紋理信息進行決策.近幾年虹膜呈現攻擊檢測的文獻增多,其不僅僅關注檢測性能,且開始關注如可解釋性[20-22]、公平性[23]等問題.此外,Husseis 等[24]調研了多種生物特征的活體檢測方法,孫哲南等[5]報告了生物特征識別近些年的發展現狀.由于涵蓋的內容較多,他們對虹膜呈現攻擊檢測只進行了較短的大體介紹.
總的來說,本文一方面吸收了許多現有綜述的優秀成果,另一方面也做了多方面的改進與創新:1) 為方便讀者從零開始全面地了解虹膜呈現攻擊檢測問題,本文受Bowyer 教授團隊綜述[16-17]的啟發,更加全面完整地總結了術語、攻擊目的、攻擊類型、方法(特別是基于深度學習的方法)、數據集、比賽等;2) 本文吸納了多個綜述的分類方法,新增了自2020 年以來的工作(包括方法、比賽等),在此基礎上提出新的分類方法,并按照時間線總結了發展進程,從而更加完整、條理清晰地展示了虹膜呈現攻擊檢測問題的發展現狀;3) 本文新增了虹膜呈現攻擊檢測技術在工業界實際應用的歸納總結,包括國內外相關公司及其技術、產品和應用場景等;4) 本文新增了虹膜呈現攻擊檢測與虹膜識別的集成方法,從而有利于讀者站在整個應用系統的角度研究和發展實用的虹膜呈現攻擊檢測技術;5) 本文新增了評估協議,并重點剖析了開集虹膜呈現攻擊檢測的問題,指明了未來的發展方向;6) 與先前綜述主要關注檢測性能不同,本文還特別關注了虹膜呈現攻擊檢測的可解釋性、公平性、隱私性等問題;7) 本文新增了中文文獻的相關工作,完善了現有的技術體系;8) 本文在吸納多個綜述的未來展望基礎上,進一步地闡明了虹膜呈現攻擊檢測未來亟需解決的五大公開問題,并提出了可能的解決思路.
本文系統地綜述了虹膜呈現攻擊檢測相關研究進展,并對未來發展趨勢進行了展望.本文首先從虹膜識別的安全漏洞出發,說明了虹膜呈現攻擊檢測的必要性,闡述呈現攻擊的兩種目的及攻擊類型.其次根據是否使用額外硬件設備將主流算法分為基于硬件和基于軟件的方法兩大類進行梳理和總結,詳述了部分方法的原理.之后,對虹膜呈現攻擊檢測領域的開源方法、可申請的公開數據集以及現有比賽進行了整理.除上述以外,本文還重點分析了虹膜呈現攻擊檢測的可解釋性問題,這是當前人工智能關注的焦點.最后,對虹膜呈現攻擊檢測算法未來可能的發展方向進行了思考與討論.
虹膜識別是當前最流行的生物特征識別技術之一,同時也被人們視為最安全可靠的身份認證方法之一.虹膜是在嬰兒出生前發育并形成的,生成的紋理高度隨機,即便是同一個人左右眼的虹膜紋理都不盡相同,且由于角膜對虹膜的保護,除了需要進行危及虹膜的眼科手術外,已經發育好的虹膜不易受到改變與破壞,說明了虹膜的穩定性和唯一性.另外,虹膜是一個外部可見的內部器官[1-2,25-26],不必緊貼采集設備就能獲取滿足識別要求的虹膜圖像.在新冠肺炎疫情期間,相比人臉識別,虹膜識別不受口罩、護目鏡等遮擋的影響;相比指紋識別,也無需直接接觸采集設備,因此能夠保證身份認證過程的干凈衛生與高精度,體現了其獨特的優勢.
通過虹膜對一個人的身份進行認證,其識別流程如圖6 所示,主要包括虹膜圖像獲取、虹膜圖像預處理、特征提取、與數據庫進行比對、輸出決策結果等幾個環節,虹膜圖像預處理又包括虹膜檢測、分割、圖像歸一化等部分.

圖6 虹膜識別一般流程及關于呈現攻擊的脆弱性Fig.6 General pipeline of iris recognition and its vulnerability to presentation attacks

圖7 虹膜呈現攻擊檢測和虹膜識別的兩種集成方式Fig.7 Tow schemes for integrating iris presentation attack detection and iris recognition
盡管虹膜相對于其他生物特征公認防偽性較好,但是依然可能會受到不同類型的攻擊.常見的安全漏洞可能會出現在虹膜識別的每一步中[27],包括: 1) 圖像獲取,向傳感器呈現用于攻擊的真實虹膜或模擬真實虹膜的人工制品,即本文關注的呈現攻擊;2) 特征提取,對這一過程的攻擊主要是對抗圖像,通過對待認證虹膜圖像進行擾動,干擾基于深度網絡的虹膜特征提取,以逃避虹膜識別;3) 與數據庫進行比對,數據庫中虹膜模板的泄露也是虹膜識別系統的潛在安全漏洞,虹膜模板經過篡改、竊取或者逆向重建原始圖像,都會對識別系統造成極大的威脅.
虹膜呈現攻擊的主要目的是通過向虹膜識別系統的傳感器呈現假體虹膜樣本,企圖讓系統在身份認證的過程中做出錯誤的決策.根據攻擊者的動機,呈現攻擊的目的可以分為以下兩種:
1) 冒充他人身份(Impersonation)
攻擊者的手段是模擬他人身份.因此,攻擊者通常使用事先獲取的真實虹膜制作假體樣本來欺詐虹膜識別系統,其中假體樣本包含打印照片、重播放視頻、義眼、尸體虹膜等,這就要求攻擊者能夠訪問目標身份的虹膜圖像、注冊的虹膜模板等有效信息.攻擊者可以選擇特定的目標進行匹配,也可以匹配注冊的任何目標而不僅僅是某一特定身份.
這類攻擊的成功會導致注冊用戶的個人信息泄露,如若涉及社交平臺、銀行賬戶[28]等,則會威脅到注冊用戶的社交關系、財產安全,將會極大地降低虹膜識別系統的安全性以及用戶對虹膜識別系統的信任度.
2) 隱藏自身身份(Concealment)
攻擊者的目的是逃避身份識別.達到這樣的目的有兩種途徑,一種是需要攻擊者通過一些方法來掩蓋自身的虹膜紋理信息,比如佩戴有紋理的虹膜隱形眼鏡,避免與系統中的紋理信息匹配成功;另一種是在注冊用戶時使用與自身虹膜紋理無法匹配的假虹膜,如合成虹膜[29]或對自身虹膜進行人工的改變.對于一些簡單的虹膜識別系統,在注冊身份時使用傳感器倒置獲取的虹膜圖像或在識別時使用滴眼液,就能產生攻擊效果.
這類攻擊一般發生在一些刑偵、司法場景中,顯然這樣將會加劇人員排查的難度,給社會帶來不穩定因素.一旦發生這類情況,虹膜識別系統就不能作為確認身份的唯一手段,還需要結合人臉、步態等其他有效的生物特征進行身份識別.
應當注意的是某些虹膜呈現攻擊類型的目的并不是一成不變的,而是隨著應用場景的不同隨時可能發生改變.例如,就尸體虹膜而言,在人逝世后的若干小時內,虹膜的紋理仍然足夠完整,可以欺騙虹膜呈現攻擊檢測系統.因此,從理論上講,尸體虹膜可以作為冒名頂替者攻擊逝者的手段.然而,更現實的情況是有人可能使用尸體虹膜圖像來隱藏自己的身份.尸體虹膜樣本在死亡后的早期階段與活體虹膜非常相似,因此在實際環境中檢測這些樣本可能會很困難[17].
在實際的應用場景中,虹膜識別與虹膜呈現攻擊檢測不應當是割裂的兩部分,需要將二者結合起來共同工作,才能滿足一個生物特征識別系統所需的精準性、高效性和安全性[19].如圖 7 所示,將虹膜呈現攻擊檢測集成到虹膜識別系統中,主要有以下兩種方式:
1) 串行集成
串行集成是一種最普遍的集成方式.虹膜樣本首先通過虹膜傳感器獲取虹膜圖像,然后傳遞給虹膜呈現攻擊檢測模型進行真假判別.如果圖像被判別為攻擊樣本,將直接丟棄;否則,真實虹膜圖像被傳遞給虹膜識別模型,從而與數據庫的模板進行匹配,完成身份驗證.串行集成從部署模式上來看,很容易實現,特別適合那些沒有配置活體檢測功能的虹膜識別裝置.在這種情況下,已有的虹膜識別系統維持不變,而只需要在識別流程的前面增加一個虹膜呈現攻擊檢測功能即可,這樣在僅需少量維護工作的前提下極大地提升了現有虹膜識別系統的安全性.然而,也容易看到串行集成可能導致識別時間的延遲,因此保持虹膜呈現攻擊檢測模型較低的計算復雜度是非常重要的.
2) 并行集成
并行集成是一種改良的集成方式.為提高虹膜識別的效率,減少虹膜呈現攻擊檢測造成的延遲,將虹膜傳感器獲取的同一虹膜樣本圖像分別傳遞給虹膜呈現攻擊檢測模型和虹膜識別模型進行處理,其中檢測模型將產生虹膜圖像為真實類別的分數,而識別模型將產生虹膜圖像與模板匹配的分數.然后接下來有兩種處理策略: a) 決策融合,首先根據真實類別的分數進行真假虹膜判別,如果是真實虹膜,則根據匹配分數輸出虹膜識別結果,否則拒絕識別;b) 分數融合,選擇一個合適的指標將真實類別的分數與匹配分數進行結合,產生一個統一的指標得分,用來判別一對樣本是否是真實且身份相同的(Genuine bona fide pairs).在策略b)下,不匹配的虹膜對包含兩種攻擊類型:
i) 平凡冒充攻擊: 一對虹膜樣本是真實的,但是擁有不同的身份,即冒充者強行進行識別,以試圖匹配數據庫中存儲的某個身份.
ii) 冒充呈現攻擊: 被比對的虹膜樣本中至少有一個是呈現攻擊,而他們的身份可能是相同的,也可能是不同的.
由于并行集成需要依賴兩個獨立的虹膜呈現攻擊檢測和虹膜識別模塊,因此需要大量的內存完成并行計算,特別是對于目前基于深度學習的虹膜呈現攻擊檢測和識別算法,這一需求將更加顯著.巨大的內存要求嚴重限制了帶有活體檢測功能的虹膜識別系統在資源受限的邊緣設備或者移動設備上的應用部署.為應對這個挑戰,Dhar 等[30]提出一個統一的多任務學習框架同時進行虹膜呈現攻擊檢測和虹膜識別,通過單個模型極大地減少了計算復雜度和延遲,并通過決策融合的策略完成了最終的身份識別.進一步地,作者提出了兩種新穎的知識蒸餾技術即EyePAD 和EyePAD++來逐步地學習兩個任務,從而有效地緩解了因缺乏大規模的含有真假類別標注的虹膜識別數據集而導致難以進行模型優化的問題.實驗結果表明該方法能夠取得有競爭力的虹膜呈現攻擊檢測和虹膜識別性能,展現了巨大的應用潛力.
呈現攻擊檢測(Presentation attack detection,PAD) 這一術語在國際標準ISO/IEC 30107-1:2016[4]中被提出,它統一了先前被廣泛使用的多個術語,如防欺詐(Anti-spoofing)、活體檢測(Liveness detection)、偽造檢測(Fake detection)、欺詐檢測(Spoof detection) 等,并被中國國家標準GB/T 41815.1-2022[31]所采納.就本文所關注的虹膜生物特征,這里一般稱為虹膜呈現攻擊檢測(IPAD).
ISO/IEC 30107-3:2017 中規定了用于評估PAD性能的方法和指標,中國國家標準GB/T 37036.4-2021 亦有部分描述.如下評價指標用于表示基本的誤差度量:
1) 呈現攻擊誤判率(Attack presentation classification error rate,APCER): 在特定場景中,采用某類呈現攻擊手段進行呈現攻擊被誤判為真實虹膜呈現的比例;
2) 真實呈現誤判率(Bona fide presentation classification error rate,BPCER): 在特定場景中,真實虹膜呈現被誤判為呈現攻擊的比例;
3) 呈現攻擊無響應率(Attack presentation non-response rate,APNRR): 采用同類呈現攻擊手段進行呈現攻擊過程中,虹膜識別系統出現無應答響應的比例;
4) 真實呈現無響應率(Bona fide presentation non-response rate,BPNRR): 真實虹膜呈現過程中,虹膜識別系統出現無應答響應的比例.
除以上四種外,常見的評價指標還有以下幾種:
1) 正確分類率(Correct classification rate,CCR): 對真實呈現和攻擊呈現正確分類的樣本占所有呈現樣本的比例;
2) 半錯誤率(Half total error rate,HTER):總錯誤率的一半,是APCER 和BPCER 的平均值,有時也被稱為平均分類錯誤率(Average classification error rate,ACER);
3) 錯誤接受率 (False acceptance rate,FAR):在虹膜呈現攻擊檢測中,該指標表示為攻擊呈現被判斷為真實虹膜呈現的比率,即APCER;
4) 錯誤拒絕率 (False rejection rate,FRR):在虹膜呈現攻擊檢測中,真實虹膜呈現被判斷為攻擊呈現的比率,即BPCER.
按照攻擊目的的不同,攻擊者的成功率可以用以下度量表示:
1) 冒充攻擊者匹配率(Impostor attack presentation match rate,IAPMR): 冒充者呈現攻擊成功的比例,成功意味著冒充者呈現的特征與目標身份的參考生物特征是匹配的;
2) 隱藏攻擊者不匹配率(Conceal attack presentation non-match rate,CAPNMR): 隱藏者攻擊成功的比例,成功意味著隱藏者呈現的特征與目標身份的參考生物特征是不匹配的.
在虹膜呈現攻擊檢測中,真實/活體(Bona fide,live)虹膜是指具有生命體征的虹膜樣本.呈現攻擊可以是來自真實虹膜的攻擊,如尸體虹膜;也可以是模擬真實虹膜的具有不同復雜程度的人工制品,如打印的照片、重播放視頻、美瞳等.常見的攻擊類型如圖8 所示.

圖8 真實虹膜與常見虹膜呈現攻擊類型(綠色框內為真實樣本,紅色框內為假體樣本)Fig.8 Bona fide iris and common iris presentation attack types (green box contains bona fide samples,while red box contains fake samples)
呈現攻擊工具(Presentation attack instrument,PAI)是指用于呈現攻擊的生物特征(可能是非活體)或人造對象,按照屬性可以將呈現攻擊工具分為使用真實虹膜的攻擊和人工制品兩類.此外,合成虹膜作為一種特殊的攻擊方式,有別于常規的物理攻擊,因此也進行了單獨討論.圖9 總結了虹膜呈現攻擊類型按照PAI 進行分類的結果.

圖9 虹膜呈現攻擊類型分類(藍色框內為使用真實虹膜的攻擊,綠色框內為使用人工制品的攻擊,紫色框內表示合成虹膜攻擊)Fig.9 Taxonomy of iris presentation attack types (blue box indicates PAs using real iris,green box indicates PAs using artifacts,and purple box indicates PAs using synthetic iris)
2.2.1 使用真實虹膜的攻擊
目前具有這一屬性的呈現攻擊工具主要有尸體虹膜和病變虹膜兩種.
1) 尸體虹膜
這種類型經常出現在司法、刑偵、法醫學等背景下,而在現實日常生活中較為罕見,主要因為這種類型的攻擊工具不易獲取而難以執行.
Sansola[32]曾針對尸體虹膜進行過實驗,發現在人類死亡后的11 天內,尸體虹膜識別是可行的.繼該實驗后,Trokielewicz 等[33]發布了第一個尸體相關的虹膜圖像數據庫,Sauerwein 等[34]及Bolme等[35]提出并驗證了關于失活虹膜在低溫下進行虹膜識別的可行性.Trokielewicz 等[22]后來研究了針對尸體虹膜的呈現攻擊檢測方法.
2) 病變虹膜
病變可能會導致瞳孔變形并偏離其通常的圓形形狀,也會導致虹膜或眼球的其他部分(如葡萄膜、角膜、前房甚至視網膜) 發生變化.Trokielewicz等[36]發布了一個含有多種眼部病變類型的虹膜數據集,他們將整個數據集分成五組: 健康虹膜、病變但未受影響的清晰虹膜、瞳孔幾何變形、虹膜組織變形、虹膜組織阻塞,其中后三類均表現出虹膜和眼睛區域的明顯外在變化;然后他們研究了病變虹膜對虹膜識別的影響,結果發現病變虹膜的識別精度明顯下降.因此,Boyd 等[37]將病變虹膜歸納為一種虹膜呈現攻擊類型,直接對這種類型的虹膜拒絕識別.需要注意的是,本文中將病變但未受影響的清晰虹膜歸為真實虹膜類型.
2.2.2 人工制品
具有這一屬性的攻擊工具獲取途徑較多,因而在虹膜呈現攻擊中較為常見.呈現攻擊類型主要分為兩大類: 二維呈現攻擊類型與三維呈現攻擊類型.二維呈現攻擊類型又分為靜態圖像與動態圖像,三維呈現攻擊類型分為美瞳隱形眼鏡與義眼.具體介紹如下:
1) 靜態圖像
這種類型的呈現攻擊一直以來都得到研究人員的廣泛關注.它是指先將通過傳感器獲取的活體虹膜圖像打印在紙張上,如普通的復印紙、高光相紙、絨面相紙等,或顯示在電子屏幕上,然后再次呈現給虹膜傳感器以進行虹膜識別.隨著成像傳感器的日益成熟及虹膜識別的廣泛普及,用戶的虹膜圖像越來越容易獲得,而使用智能手機或墨水打印機顯示高清高質量的虹膜圖像也變得非常簡單,這就為此類的虹膜呈現攻擊提供了便捷的條件,危害較大,因此需要不斷提高這一攻擊類型的檢測準確性.圖10 展示了使用屏顯虹膜進行靜態虹膜呈現攻擊的場景.

圖10 虹膜識別與屏顯虹膜進行靜態虹膜呈現攻擊(插圖取自電影《壞蛋聯盟》)Fig.10 Iris recognition and static iris presentation attack using the iris displayed on the mobile phone(the figure is from 《The Bad Guys》)
2) 動態圖像
與先前基于靜態圖像的攻擊方式不同,這種方式是基于視頻的重放,因此很多時候也叫重放攻擊(Reply attack).攻擊者在數字顯示設備上播放目標用戶虹膜的視頻來假冒身份,該視頻可以是錄制的虹膜樣本視頻或是合成的虹膜樣本視頻.這類攻擊不僅可以模擬虹膜的紋理信息,還可以模擬眼睛的動態信息,例如眨眼、瞳孔變化等.與靜態圖像相比,檢測這類攻擊更為困難.
3) 美瞳隱形眼鏡
如今,佩戴隱形眼鏡的人逐漸增多,其中透明隱形眼鏡可以用于矯正近視等視力障礙,而美瞳隱形眼鏡通常是為了美觀.由于佩戴美瞳隱形眼鏡會遮蓋用戶自身天然的虹膜紋理,導致在虹膜識別中可能會出現無法認證佩戴者自身身份的情況.因此,這一攻擊類型吸引了研究人員的廣泛關注.就攻擊目的來看,攻擊者可以通過佩戴印有目標對象的虹膜紋理的隱形眼鏡,達到冒充他人身份的目的.另外,攻擊者也可以佩戴具有復雜紋理的隱形眼鏡進行用戶注冊或識別,躲避虹膜識別系統的自動身份認證.
4) 義眼
這種類型的攻擊工具制作起來較為復雜,因為它涉及到平面圖像和立體結構的合成,義眼的材質可以是高分子、玻璃等.自20 世紀初以來,醫學領域開始使用義眼治療眼疾,但制作過程需要較長的時間和準備,成本較高.目前,在實際應用中還沒有發現使用他人虹膜紋理的義眼進行攻擊的成功案例,因此,使用義眼被認為是一種潛在的呈現攻擊.
2.2.3 合成虹膜攻擊
起初合成生物特征圖像的目的是為了增大公共數據集的量級以進行大規模的算法評測,同時減少人工采集所造成的隱私限制.然而,隨著合成圖像的技術越來越強和虹膜識別的廣泛普及,合成虹膜也被用來進行呈現攻擊[8,38].由于合成的虹膜大概率不匹配任何現有的身份,因此這些技術主要用于隱藏身份的攻擊,然而仍有一些方法可以用來進行冒充攻擊.
早期的虹膜合成主要用于醫學領域或者娛樂行業.圖形學的研究人員Lefohn 等[39]首先提出了一種3D 渲染技術,允許普通用戶借助一個由半透明紋理分層組成的人類虹膜工具包來創建逼真的人眼,特別是虹膜.
Cui 等[40]使用主成分分析(Principal component analysis,PCA)和超分辨率進行虹膜合成,首次將合成虹膜引入到生物特征識別領域.該方法首先構造具有給定系數的粗虹膜圖像,然后,利用超分辨率對合成的虹膜圖像進行增強,通過對系數的控制,生成多個具有指定類別的虹膜圖像.隨后,受Wei 等[41]的啟發,Makthal 等[42]利用馬爾科夫隨機場(Markov random field,MRF)生成虹膜圖像,合成過程使用單個或多個源域來生成虹膜狀圖案,通過聚類過程將虹膜圖像(真實與合成)從非虹膜紋理模式中區分出來,驗證了合成虹膜的可行性.
然而上述方法普遍存在合成虹膜的視覺效果不真實且算法復雜度高的缺點.為解決這些問題,Wei 等[43]介紹了一種新的虹膜合成技術,使用該技術建立了虹膜合成數據庫CASIA-Iris-Syn[44],部分樣例如圖11 所示,其中虹膜圖11(b)~11(d)由原型虹膜圖11(a)分別經過旋轉、瞳孔收縮、離焦等變換所得.

圖11 來自CASIA-Iris-Syn[44]中012 子集的合成虹膜樣例,其中(b)為(a)的虹膜旋轉所得,(c)為(a)的瞳孔收縮所得,(d)為(a)的虹膜離焦變換所得Fig.11 Synthetic iris samples from the 012 subset of CASIA-Iris-Syn[44],where (b),(c) and (d) are obtained from the iris rotation,pupil constriction,and iris defocus transformation of (a),respectively
這種虹膜合成技術可以在短時間內生成一個大型且逼真的虹膜數據庫.它的基本原理是首先利用塊采樣的方法創建原型,然后從每個原型中派生出若干幅類內圖像.同一虹膜的圖像在外觀上的差異歸因于許多因素: 形變、離焦、旋轉等.為達到這些效果,使用高斯模型來表達瞳孔擴張與收縮的虹膜非線性形變,使用極坐標系下的平移變換來表達虹膜的旋轉形變.為增強合成圖像的真實性,該方法替換原有虹膜區域,將生成虹膜嵌入到真實的眼睛圖像中.
隨著近些年深度學習的發展,基于深度學習的虹膜合成技術被研究者提出用于虹膜呈現攻擊.Kohli 等[38]在深度卷積生成對抗網絡(Deep convolutional generative adversarial networks,DCGAN)的基礎上提出一種嵌入虹膜質量度量的擴展框架iDCGAN,用于生成外觀逼真的合成虹膜圖像,如圖12 所示,最終實驗驗證了這些合成的虹膜圖像可以對現有的商業虹膜識別系統進行呈現攻擊.Boutros 等[45]發展了一個兩階段的圖像生成網絡(D-ID-Net)用于合成高保真且身份保持的虹膜圖像,以便于進行大規模的虹膜識別訓練或者呈現攻擊.第一階段引入一個域網絡(D-Net),將含有虹膜、鞏膜和瞳孔等標簽的分割掩膜轉換為類似眼睛的圖像,但是不涉及身份信息.第二個階段引入一個特定身份網絡(ID-Net),將某一身份相關的信息注入到第一階段的輸出結果中,產生一個結構上對應于初始語義標簽和身份上對應于某指定身份的高保真虹膜圖像.這種基于語義分割標簽產生特定身份的虹膜合成方法很適合攻擊者從外觀上操縱竊取的虹膜圖像,以生成各種注視視角、不同程度眼睛閉合狀態、某種旋轉角度等條件下的保持個體身份的虹膜樣例.顯然,生成的虹膜圖像有可能進行冒充身份的呈現攻擊.針對現有虹膜呈現攻擊檢測算法在未知攻擊場景下泛化能力較弱的問題,Maureira 等[8]提出使用生成對抗網絡進行虹膜合成,以擴充檢測算法所需的訓練樣本數量.StyleGAN2 模型被驗證是表現最好的合成工具,能夠有效欺騙LivDet-Iris 2020[15]中最好的虹膜呈現攻擊檢測算法.

圖12 真實虹膜與iDCGAN 生成的虹膜[38]Fig.12 Bona fide iris and iris generated by iDCGAN[38]
除此之外,Galbally 等[46]提出了一種另類的虹膜呈現攻擊工具,即從虹膜模板中重建用于呈現攻擊的虹膜圖像.進一步地,如果通過標準的虹膜識別算法分割和編碼合成的虹膜圖像,將生成與原始模板非常相似的虹膜模板.因此,這種方法可以用于冒充身份的虹膜呈現攻擊.
為了評估虹膜呈現攻擊檢測算法的準確性和泛化性,在第2.1 節評價指標的基礎上,還需建立各種評估協議.我們根據現有相關文獻,總結了4 種有代表性的協議.
1) 同數據集同類型協議(Intra-dataset intratype protocol): 在大多數的虹膜呈現攻擊檢測研究中,該協議被廣泛使用以評估算法的準確性.具體來說,在該協議下,用來訓練和測試算法的訓練集和測試集來自同一個數據集,且包含相同的虹膜呈現攻擊類型.因此,檢測算法所面臨的訓練域和測試域在采集環境、用戶行為等方面具有相似的分布.
2) 跨數據集同類型協議(Cross-dataset intratype protocol): 該協議用來評估算法在跨數據集上的泛化能力.具體來說,在該協議下,算法模型在一個或者多個數據集上進行訓練,然后在不同的數據集上進行測試.訓練集和測試集含有相同的攻擊類型,但是具有不同的領域分布,例如存在照明變化、傳感器不同、圖像分辨率不一致、攻擊材質不同等現象.
3) 同數據集跨類型協議(Intra-dataset crosstype protocol): 該協議通常采用留一法(Leave-one-PAI-out)評估算法對于未知攻擊類型的泛化性.具體來說,在該協議下,某一種攻擊類型僅出現在測試階段,而訓練階段則采用其他的攻擊類型訓練模型.
4) 跨數據集跨類型協議(Cross-dataset crosstype protocol): 該協議是最具挑戰性、也是最符合現實應用場景的一種協議.它度量了算法在未知領域和未知攻擊類型上的泛化性.具體來說,在該協議下,訓練集和測試集所使用的數據集以及包含的攻擊類型均是不同的.
除了這4 種評估協議外,還有一些新的協議被提出,例如LivDet-Iris 2017 比賽[14]和LivDet-Iris 2020 比賽[15]所使用的評估協議,它們實際上部分結合了這4 種協議的內容.
圖13 描述了虹膜呈現攻擊檢測問題從提出到逐步解決的發展進程.在發展的過程中,新的檢測方法層出不窮,同時也不斷產生一些新的攻擊類型,因此二者呈現一種對抗博弈的狀態.此外,一些公開的虹膜呈現攻擊檢測比賽也不定期舉辦,促進了虹膜呈現攻擊檢測技術的發展.Daugman 博士是最早研究虹膜識別技術的領軍者,他在提出虹膜識別的經典算法之際,也最早研究了虹膜呈現攻擊檢測問題[1-2,47].特別地,針對一些典型的攻擊類型,如打印虹膜、屏顯虹膜、佩戴紋理隱形眼鏡等,Daugman 提出了幾種檢測策略[47]: 測量瞳孔直徑與虹膜直徑之比、追蹤眼瞼運動、檢測紅外照明下的角膜反射或活體組織的光譜特性、進行傅里葉變換檢查偽影.

圖13 虹膜呈現攻擊檢測的發展進程Fig.13 Development and progression of IPAD
在Daugman 的基礎上,后來的學者開始對虹膜呈現攻擊檢測問題進行全面而細致的研究.整個發展進程大體上可以分為3 個階段: 2015 年之前、2015 年至2019 年、2019 年之后.在2015 年之前,研究人員主要研究了基于硬件的檢測方法和基于傳統計算機視覺的檢測方法,前者通過采集人眼的生理和物理特性如瞳孔光照反應、眼動信號等用于防偽,而后者主要從圖像信號的角度出發,采用傳統的計算機視覺技術提取圖像的紋理特征、質量特征等手工特征判別真假虹膜.從2015 年開始,隨著深度學習技術在計算機視覺、模式識別等領域的廣泛應用,研究人員開始將深度學習引入到虹膜呈現攻擊檢測問題中,提出了許多行之有效的神經網絡檢測模型,如CLDnet[48]等,取得了比傳統計算機視覺方法更好的效果.先前的方法主要采用了閉集評估的協議,即訓練集和測試集包含相同或相似的采集環境和攻擊類型,盡管取得了近乎完美的檢測性能,但在泛化到未知的采集環境或者攻擊類型時,它們的準確性會顯著下降.因此自2019 年之后,無論是比賽還是新提出的檢測方法,均開始關注虹膜呈現攻擊檢測的泛化性問題,并提出了異常檢測、域自適應等方法.2023 年美國圣母大學Bowyer 教授團隊明確指明了開集的虹膜呈現攻擊檢測仍是一個遠未解決的公開問題[37].此外,在整個發展進程中,一些方法提出了多源特征融合的思想,如多模態特征融合、手工特征與深度特征融合等,進一步地提高了虹膜呈現攻擊檢測的可靠性.
圖14 展示了2000 年以來的虹膜呈現攻擊檢測論文數量,其中大部分論文描述了虹膜呈現攻擊檢測的方法.英文論文通過Web of Science 和EI Compendex 進行檢索,檢索條件是標題中含有如下關鍵詞的論文: iris presentation attack detection,iris liveness detection,iris pad,iris spoof detection,contact lens detection.中文論文通過中國知網進行檢索,檢索條件是標題中含有如下關鍵詞的論文: 虹膜呈現攻擊檢測、虹膜防偽檢測、虹膜活體檢測、隱形眼鏡檢測、美瞳檢測.從論文的檢索結果來看,可以得出兩點結論: 1) 國際上關于虹膜呈現攻擊檢測的研究較多,國外學者在這一領域長期占據主導地位,而國內對于虹膜呈現攻擊檢測的研究偏少;2) 自2018 年以來,虹膜呈現攻擊檢測的研究處于熱門狀態,大量的新方法被提出,并逐步開始解決虹膜呈現攻擊檢測的泛化性問題.

圖14 虹膜呈現攻擊檢測的論文數量(數據來源:Web of Science,EI Compendex,中國知網)Fig.14 Number of papers on IPAD (Data source:Web of Science,EI Compendex,CNKI)
針對虹膜呈現攻擊檢測方法,Czajka 等[16]提出了2 種分類方式,一種是根據2 個維度,即虹膜被視為靜態或動態對象以及傳感器對虹膜的刺激是主動還是被動,構建一個框架將現有的方法分為4 類,分別為: 靜態虹膜被動成像、靜態虹膜主動成像、動態虹膜被動成像、動態虹膜主動成像;另一種分類是根據檢測方法能否在現實生活中投入使用分為商用方法和理論方法.Boyd 等[17]根據虹膜呈現攻擊檢測方法是否使用網絡結構分為基于傳統計算機視覺的方法、基于深度學習的方法以及融合傳統計算機視覺與深度學習的方法.
受這些分類方式的啟發,本文對其進行了吸收與改進.總體來說,根據是否使用額外硬件設備(除標準的虹膜傳感器之外)將虹膜呈現攻擊檢測方法分為基于硬件與基于軟件的方法,其中基于硬件的方法又可以稱為基于傳感器的方法,它們通過使用特定的傳感器來測量眼睛的生理和物理特性以進行攻擊檢測,這些特性包括與反射相關的光學特性、眼睛中的黑色素或血管結構特征、眼動、眼組織密度等.在基于軟件的方法中,按照是否使用神經網絡進一步劃分為基于傳統計算機視覺的方法與基于深度學習的方法,以及多源特征融合的方法,具體分類如表2 所示.
基于硬件的虹膜呈現攻擊檢測方法包括多光譜成像、3D 成像、瞳孔光照反應、利用眼動信號等.
3.1.1 多光譜成像
利用特定的反射特性來進行虹膜呈現攻擊檢測是一類早期的方法.受Daugman 的啟發,一些廠商首先提出了通過開閉光源來檢查角膜反射的方法辨別真假虹膜,然而這個方法對于打印虹膜存在漏洞,很容易被破解.接著,Lee 等[49]提出了一種改進的方法,即在平行IR-LED 照明條件下,利用產生的普爾欽(Purkinje)反射成像的位置和距離特征判斷虹膜活性,可以實現圖片、美瞳、義眼等多種攻擊類型的檢測,不過需要精確控制光源和瞳孔之間的角度,對成像系統要求較高.
后面的方法開始考慮利用更魯棒的多光譜特性來檢測偽造虹膜.Lee 等[50]分別測量了在750 nm和850 nm 波段虹膜到鞏膜的反射率比,并且提取了在750 nm 波段的角膜鞏膜邊緣厚度作為第3 個特征,然后利用支持向量機(Support vector machine,SVM)對提取的3 個特征進行真假分類.結果表明該方法可以很好地檢測出打印虹膜、義眼和隱形眼鏡三類假體虹膜.He 等[51]提出一種基于眼睛光學特性的活體虹膜檢測方法,首先設計并使用了由專用成像和紅外照明模塊構成的虹膜識別相機,然后尋找虹膜紋理和光斑在不同波段和紅外照射位置下的變化,并計算虹膜不同部位的反射率,最后將2 種方法進行結合,根據融合結果作為判斷真假虹膜的標準.此外,Park 等[52]將波長750 nm和850 nm 的多光譜圖像融合后再根據匹配結果來鑒別偽造虹膜.
由于這些方法沒有考慮到周圍光照對虹膜反射特性的影響或事先假定注冊階段的虹膜樣本來自活體,因此檢測能力存在局限.陳瑞等[53-54]通過觀察發現,當成像光源的波長從480 nm 變換到860 nm時,活體人眼的鞏膜區域的結膜血管會從出現變成消失,而且虹膜紋理細節也會相應的發生變化,如圖15所示,但各種偽造虹膜則不會出現這種現象.因此利用活體人眼的多光譜特性,他們提出了一種融合鞏膜血管特征和虹膜特征的偽造虹膜檢測算法.首先分別采集860 nm 和480 nm 波長的虹膜圖像,然后從中提取結膜血管變化數(RNCV)和紋理熵比(ERIT)特征,最后訓練SVM 分類器,對兩個特征組成的向量進行分類,輸出檢測結果.實驗表明,這種方法可以有效排除打印圖像、人造眼、彩色隱形眼鏡等各類偽造樣本,且滿足實時應用要求.

圖15 不同波長下的多光譜虹膜圖像[53]Fig.15 The multi-spectral iris images at different wavelengths[53]
人眼是高度復雜的精密器官,其中眼球分為3 層: 纖維層、血管色素層和神經層(視網膜),這些層由具有不同光譜特性的有機組織構成,例如纖維層包括鞏膜和角膜,血管色素層包括虹膜等.利用多光譜成像進行虹膜呈現攻擊檢測的基本思想是使用人眼組織的光譜特性來辨別真假虹膜,其中在某些光照條件下,活體人眼將呈現不同于打印虹膜、義眼、隱形眼鏡等偽造虹膜的物理或者生理特性變化,從而為攻擊檢測提供了有利條件.
3.1.2 3D 成像
基于3D 成像的方法利用了眼睛的曲率和3D特性進行虹膜呈現攻擊檢測.Lee 等[55]在虹膜相機的左右兩側各安裝了2 個近紅外光源,以捕獲3D結構不明顯的普通虹膜圖像和具有清晰3D 虹膜結構的虹膜圖像,然后利用二維小波變換對采集到的兩幅圖像進行多分辨率分解,并通過Haar、Daubechies 兩類特征進行特征提取,最后對兩幅圖像的特征進行比較分析,使用SVM 分類器辨別虹膜真偽.如圖16 所示,虹膜清晰的3D 結構只能在活體人眼中存在,而打印虹膜和紋理隱形眼鏡沒有這樣的3D 結構,義眼也很難制作出像真人虹膜那樣精細的3D 結構,因此可以利用這樣的假體線索有效檢測出特定的虹膜呈現攻擊類型.
近年來,光場成像技術以其多視角、多維度、多焦點成像的特點逐步應用于生物特征識別領域.Raghavendra 等[56]首次提出了一種利用光場相機(Light field camera,LFC)的固有特性進行可見光場景下虹膜呈現攻擊檢測的方法.該方法通過對光場相機渲染的多幅具有不同對焦深度的圖像進行處理,測量圖像序列的對焦能量變化量來區分真假虹膜樣本,在可見光譜拍攝下的打印虹膜和屏顯虹膜兩類攻擊類型上取得了較好的檢測效果.
受上述方法的啟發,宋平等[57]引入了更先進的計算光場成像技術,通過軟硬件結合的方式,充分挖掘四維光場數據的信息.該方法使用自研的先進光場相機采集了距離更遠、環境更復雜的光場虹膜圖像,利用光場數字重對焦技術提取了眼周區域的立體結構特征和虹膜圖像的紋理特征,并在特征層融合后使用SVM 分類器進行真假虹膜樣本分類.實驗結果表明該方法可以準確有效地檢測打印虹膜和屏顯虹膜兩類攻擊類型.
最近,Luo 等[58]通過引入深度學習技術進一步地升級了宋平等[57]提出的方法,通過利用面向平面和面向序列的現有深度特征作用于光場相機渲染的焦棧圖像序列,挖掘光場相機捕獲的真實虹膜和攻擊虹膜在3D 幾何結構和2D 空間紋理上的差異性來進行真假判別.一組預訓練好的深度學習模型用來進行特征提取,SVM 分類器的參數在有限數量的樣本上進行優化.最終實驗結果表明,通過融合3D 結構特征和2D 紋理特征,取得了比單一特征更好的檢測性能,并超過了包括宋平等[57]方法在內的若干最先進方法.
除了以上成像模式外,Sharma 等[59]又研究了光學相干層析成像(Optical coherence tomography,OCT)的技術,并通過與近紅外(NIR)、可見光(VIS)成像下的圖像進行比較,衡量使用OCT技術進行虹膜呈現攻擊檢測的可行性.OCT 是一種具有非接觸、非侵入、成像速度快、探測靈敏度高等優點的微米分辨率成像模式.與近紅外和可見光成像捕捉虹膜的2D 虹膜紋理信息不同,OCT 成像可以捕獲眼睛和虹膜的內部結構和形態,產生了二維橫截面圖像(2-D cross-sectional image).圖17展示了在OCT、近紅外和可見光三種光譜下真實虹膜和呈現攻擊的樣例圖像.進一步地,使用3 種先進的卷積神經網絡VGG19、ResNet50 和DenseNet121 來實現3 種成像模式下的虹膜呈現攻擊檢測分類模型,并在由2 169 張真實虹膜圖像、177張義眼圖像和360 張紋理隱形眼鏡圖像組成的自制數據集上進行比較分析.結果表明使用OCT 成像進行虹膜呈現攻擊檢測是一種切實可行的解決方案.

圖17 使用(a) OCT,(b) 近紅外和(c) 可見光成像獲取的真實活體虹膜、義眼和紋理隱形眼鏡的樣例圖像,其中可見光圖像中的紅線表示OCT 掃描儀的遍歷掃描方向[59]Fig.17 Example images of bona fide iris,artificial eye and textured contact lens captured using (a) OCT,(b)NIR and (c) VIS imaging modalities,where the red line in the VIS image shows the traverse scanning direction of the OCT scanner[59]
3.1.3 瞳孔光照反應
檢查環境照明的變化對瞳孔大小的影響也是檢測虹膜呈現攻擊的有效方法之一,其背后的原理為瞳孔具有自動調節光通量的功能,當光照亮度增強時,瞳孔收縮減少光通量;當光照亮度減弱時,瞳孔擴張增加光通量,這種非自發的生理效應稱為瞳孔光反射(Pupillary light reflex),如圖18 所示.瞳孔的這種功能保證了在各種環境下有適量的光線進入眼睛,既能實現清晰成像,又不會有過量的光線灼傷視網膜.此外,常見的靜態圖像攻擊方式如打印虹膜、屏顯虹膜、義眼等,不會隨著光照變化而發生瞳孔的相應變化,因此可以據此進行檢測.

圖18 活體人眼在光照刺激下的瞳孔縮放效應示例Fig.18 Illustration of the pupil contraction/dilation of live eye due to visible light stimulus
然而上述方法可能無法有效檢測半透明的紋理隱形眼鏡攻擊,因為這類隱形眼鏡靠近瞳孔一側是透明的,而外側與虹膜紋理疊加,是不透明的.此時,瞳孔光反射效應仍然是可見的.為解決這個問題,Park[60]提出通過檢測靠近瞳孔側的虹膜局部特征的變化識別半透明紋理隱形眼鏡攻擊的方法.首先獲取在光照變化刺激下的一對含有瞳孔縮放效應的虹膜圖像,然后進行虹膜內外圓定位獲取有效的虹膜區域,并提取靠近瞳孔側的局部虹膜區域進行歸一化變換,產生矩形的虹膜圖像.接著,應用Daubechies 小波濾波器在一對矩形虹膜圖像上提取虹膜紋理特征.這時,對于活體人眼來說,兩次提取的虹膜特征是比較相似的,而對于半透明的紋理隱形眼鏡來說,由于發生了虹膜與紋理隱形眼鏡疊加,導致兩次提取的虹膜特征會發生明顯的變化.因此通過比較兩次特征提取的差異性,可以有效檢測出半透明的紋理隱形眼鏡這類攻擊.具體地,使用SVM 分類器對提取的特征進行分類,從而實現了真假虹膜的檢測.
Czajka[61]基于瞳孔光反射的效應提出了一種新的方法,通過控制30 s 內點光源的亮度變化,根據瞳孔的動態變化(Pupil dynamics)和與Kohn-Clynes 瞳孔收縮模型的擬合情況區分真假虹膜樣本.該方法精度較高,但數據采集時間較長且采集時人眼舒適度低.
總的來說,基于瞳孔光照反應的方法比較適合于檢測靜態虹膜呈現攻擊類型,而對于動態攻擊類型則不一定有效,例如在視頻重放攻擊上,可以通過帶光源探測功能的視頻播放設備播放事先錄好的瞳孔縮放變化的虹膜圖像視頻來欺騙檢測系統.當探測器感應到檢測設備的光源發亮時,播放預先錄好的小瞳孔虹膜圖像或圖像處理改變視頻瞳孔大小;當探測器感應到檢測設備光源關閉時,播放預先錄好的大瞳孔虹膜圖像或圖像處理改變視頻瞳孔大小等.因此,要注意此類方法在應用過程中的局限性.
3.1.4 眼動信號
眼動信號(Eye movement signal,EMS)一定程度上是控制視覺的大腦區域與眼球周圍肌肉組織相互作用的結果,其控制運動方式較為復雜.眼動能描述瞳孔的動態變化,能直觀地反映人的注視點和注視時間,常見指標包括平均注視時間、注視次數、注視順序、平均眼跳幅度、眼跳次數、掃描持續時間、掃描方向等[62].由于獲取眼動信號的眼動儀或者眼球跟蹤裝置普遍使用近紅外攝像頭,與虹膜識別的成像方式非常相似,并且眼動特征和虹膜特征均取自眼部區域,所以將二者進行集成使用是一種很自然的選擇.特別地,眼動作為一種復雜的動態信號,不易被攻擊,可以用來輔助虹膜呈現攻擊檢測.
Rigas 等[63]通過分析在眼動跟蹤過程中獲得的大量與注視相關的特征來檢測打印虹膜攻擊,并構建了一個由眼動記錄和相應虹膜圖像組成的數據集ETPAD v1 來實際評估所提出的方法.結果表明,該方法的正確分類率(CCR)達到95.7%,并且即使在信號捕獲頻率低至15 Hz 的情況下,通過眼動信號依然可以較好地檢測打印虹膜攻擊.在此基礎上,Rigas 等[64]提出了一個增強的特征集,以建模額外的攻擊畸變來源,在一個更大的打印虹膜攻擊數據集ETPAD v2 上呈現出更準確的檢測性能,其平均正確分類率(Average classification rate,ACR)為96.5%,最小等錯誤率為3.4%.
最近,Raju 等[65]將深度學習方法引入到基于眼動信號分析的虹膜打印攻擊檢測中.采用了眼部注視位置產生的速度信號作為輸入,通過自制的ResNet 網絡進行特征提取,最后輸出分類分數,從而判別該信號是來自真實樣本還是打印虹膜樣本.該方法的有效性在ETPAD v2 數據集上得到了驗證,并在兩種不同的攻擊場景中的平均正確分類率(ACR) 分別達到98.06% 和87.78%,超越了Rigas 等[64]方法的性能.進一步地,該方法只需要1.5 s的眼動數據即可做出決策.
總的來說,基于眼動信號的檢測方法與大多數基于圖像質量特征(如紋理、模糊等)的方法不同,后者往往會受到圖像采集過程中噪聲帶來的干擾,而前者是一個基于信號處理的框架,對真實虹膜和攻擊虹膜的結構差異性產生的畸變進行統計學建模,更為魯棒.此外,基于眼動信號的方法分析了自然的眼球運動,不要求任何復雜的光照模式或專門針對眼睛的刺激過程,實現成本較低.
3.1.5 總結
綜合上述多種方法的描述,可以發現: 基于硬件的虹膜呈現攻擊檢測方法能夠采集豐富的眼部生理和物理特性用于防偽,在某些類型的攻擊檢測上準確率很高,且具有很好的可解釋性.然而一般需要使用額外的成像設備,自主搭建采集系統,控制采集環境,甚至需要用戶的主動配合.因此這種方法操作復雜度高、采集效率低、成本不便宜,對用戶可能帶來較大干擾,無法便捷應用在如筆記本電腦、手機等移動設備或者邊緣設備上.
在深度學習技術興起之前,基于軟件的虹膜呈現攻擊檢測方法普遍采用傳統計算機視覺技術提取手工特征以區分真假虹膜.迄今為止,這類方法仍然被很多虹膜識別廠商所采納.典型的傳統計算機視覺分析方法包括基于圖像紋理的方法和基于圖像質量的方法.圖19 左邊展示了一些有代表性的基于傳統計算機視覺的方法.

圖19 近年來有代表性的基于軟件的虹膜呈現攻擊檢測方法Fig.19 Recent representative software-based iris presentation attack detection solutions
3.2.1 基于圖像紋理的方法
在虹膜識別中,有區分性的特征主要是虹膜紋理特征,而且紋理的畸變也是判別真假虹膜最常見的線索,因此基于圖像紋理的方法是傳統虹膜呈現攻擊檢測方法中的主流方法.這類方法通常使用二進制統計圖像特征(Binarized statistical image features,BSIF)[66]、局部二值模式(Local binary patterns,LBP)[67]、灰度共生矩陣(Gray-level cooccurrence matrix,GLCM)[68]、二值六角極值模式(Binary hexagonal extrema pattern,B HXEP)[69-70]等算子來描述局部紋理特征,并通過SVM、MLP(Multilayer perceptron)[71]網絡等作為二元分類器來區分真假虹膜.
在眾多的算子中,Haralick 等[68]在1973 年提出的灰度共生矩陣(GLCM)是最早用于紋理特征提取的方法之一,被廣泛應用于許多紋理分析應用中.如圖20 所示,左邊是灰度圖像,右邊是灰度共生矩陣(GLCM).它是一個大小為H×H的二維矩陣,其中H是灰度圖像中最大的灰度值.GLCM 有4 個計算方向: 水平(0°)、右對角線(4 5°)、豎直(9 0°)、左對角線(1 35°).圖中選擇的計算方向為水平方向,即GLCM (i,j) 表示在灰度圖像中滿足水平相鄰關系的像素值為i和j的一對元素出現的頻率.一幅圖像的灰度共生矩陣能反映出圖像灰度關于方向、相鄰間隔、變化幅度的綜合信息,它是分析圖像的局部模式和它們排列規則的基礎.在得到了灰度共生矩陣后,可以在其基礎上計算二次統計量來描述圖像的紋理信息.文獻[68]中定義了14 個用于紋理分析的GLCM 特征統計量.Ulaby 等[72]研究發現,在14 個紋理特征中,僅有角二階矩、對比度、相關性、熵這四個特征量是不相關的.由于這四個特征量既便于計算,又能給出較高的圖像分類精度,因此一般被用來提取圖像的紋理特征.

圖20 GLCM 計算過程示例Fig.20 Example of GLCM calculation process
在眾多的分類器中,SVM 是解決傳統模式識別問題最主流的方法之一.它是一種監督學習方法,最初是針對二分類問題開發的,通過尋找將正負樣本分開且間隔最大化的決策超平面來執行兩個類之間的模式分類,而位于間隔邊界上的正類和負類樣本稱為支持向量(Support vector).除了一般的線性可分問題外,通過引入核函數到SVM 中,也能解決非線性可分的問題.具體地,核函數將原始輸入空間映射到新的更高維特征空間,從而使得原本線性不可分的樣本在核空間可分,這時區分正負樣本的決策邊界變成了超曲面.通過這樣的方式極大地擴展了SVM 應用的范圍.常見的核函數包括多項式核函數、高斯核函數、Sigmoid 核函數等.
鑒于灰度共生矩陣(GLCM)和支持向量機(SVM)的眾多優點,研究人員陸續將二者進行結合應用到虹膜呈現攻擊檢測中,取得了良好的效果.
He 等[73]研究紋理隱形眼鏡的攻擊發現,靠近虹膜外邊界的隱形眼鏡區域提供了最有用的紋理信息,可以區別真假虹膜.為此,他們首先采用了改進的Canny 邊緣檢測算子和Hough 變換進行虹膜外邊界檢測,然后經驗地估算靠近虹膜外邊界的環形區域.為了避免受到睫毛和眼瞼的遮擋干擾,只提取了虹膜中的下半部分區域進行歸一化,如圖21所示.緊接著,在歸一化的虹膜圖像上提取了基于GLCM 的兩個特征統計量,即對比度和角二階矩,和整體圖像的像素值的均值和方差組成一個4 維的特征向量,并送入到SVM 中進行真假分類.實驗結果表明,該方法在精度和速度上都有令人鼓舞的表現,其中在一個由1 000 張活體虹膜圖像和100 張紋理隱形眼鏡虹膜圖像組成的自制數據集上取得了100%的正確分類率.

圖21 紋理隱形眼鏡圖像的虹膜預處理過程[73]Fig.21 Iris preprocessing process for images with textured contact lens[73]
在He 等[73]的基礎上,Li 等[74]進一步地提出了一個改進的虹膜呈現攻擊檢測方法.首先他們認為先前的基于GLCM 和SVM 的方法僅關注特征矩陣的統計特性,而忽略了紋理特征的細節,孤立了紋理細節之間的內在聯系,但是后者對于紋理隱形眼鏡攻擊的檢測是非常有價值的.為此,他們通過曼哈頓距離擴展了GLCM 特征的尺度,使得可以提取更多的虹膜細節紋理特征及其相關信息.改進的特征提取矩陣稱之為Modified-GLCM.然后使用MLP 網絡取代SVM 進行真假虹膜分類.最后在更具挑戰性的LivDet-Iris 2017 (Clarkson)虹膜數據集上,該方法明顯地超越了基于GLCM 和SVM的方法,且Modified-GLCM 相比GLCM 也更加有效.此外,相比LivDet-Iris 2017 的最好模型,該方法也獲得了更好的結果,其中活體樣本的拒絕率為2.22%,攻擊樣本的接受率為1.97%.
Wei 等[75]進一步地提出了3 種檢測紋理隱形眼鏡攻擊的方法: 測量虹膜外邊緣銳度(Iris edge sharpness,IES)、利用虹膜紋理基元(Iris texton)和計算灰度共生矩陣(GLCM).第1 種方法考慮到在虹膜的外邊緣處,紋理隱形眼鏡圖像的灰度變化比真實虹膜圖像的更加尖銳,因此定義了虹膜外邊緣銳度指標,作為檢測虹膜呈現攻擊的一個指標.在第2 種方法中,紋理基元是指圖像中組成各種紋理的基本微結構,一定數量的紋理基元可以根據統計圖像中反復出現的微結構而得到,然后再對所得的紋理基元進行直方圖統計,作為一幅圖像的紋理特征.一個單獨的紋理基元表達的是局部紋理特征,而紋理基元的統計直方圖則表達紋理圖像的全局性分布,是一種全局特征.這里提取了虹膜圖像的虹膜紋理基元全局特征進行真假分類.第3 種方法則在歸一化的虹膜圖像上提取了基于GLCM 的3 個特征統計量,即逆差矩、和平均、和熵,來區分真假虹膜.第一種方法不需要訓練,采用閾值法進行真假分類,后兩種方法均使用SVM 進行真假分類.在自制數據集上的實驗結果表明,3 種方法均能有效地檢測出紋理隱形眼鏡圖像,其中基于虹膜紋理基元的方法泛化性最好.
小波變換是一種用于決定卷積的特定窗口函數,提供了將圖像分解成不同尺度組成的一種數學框架.小波包變換是小波變換的推廣,它將現有的信號向下分解時,將信號轉化為低頻部分和高頻部分(細節部分),然后不僅對低頻部分進行進一步的分解,而且對包含大量細節信息(細小邊緣或紋理)的高頻部分也進行分解.因此,受小波包變換強大的信號分析能力的啟發,He 等[76]提出了一種基于小波包變換的虹膜呈現攻擊檢測方法.首先,利用小波包分解提取特征值,為判別攻擊虹膜圖像提供獨特信息;然后,基于提取的小波包特征,利用SVM進行真假虹膜分類.與Daugman[47]提出的利用快速傅里葉變換檢測頻域的高頻譜幅值的方法相比,該方法在清晰的打印虹膜數據集上取得了相同的檢測精度,而當打印圖像被攻擊者故意抖動產生模糊或者因傳感器產生離焦圖像時,該方法取得了更高的檢測精度,其正確分類率為98.18%,而Daugman 方法的正確分類率為80%,這表明了使用小波包分析進行假體特征分析更具優勢.
Adaboost[77]是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的弱分類器,然后把這些弱分類器集合起來,構成一個最終的強分類器.Adaboost 算法不僅能夠構建分類器,同時能夠選擇對于分類最有效的特征集合,因此相較于不具備特征選擇功能的SVM 分類器等,Adaboost 算法性能更優.考慮到這些優點,He 等[78]提出了一種基于局部二值模式(LBP)算子和CRBoost (Confidence rate boosting)學習算法的虹膜活體檢測方法.該算法首先根據虹膜紋理的徑向延展性和環向相關性將虹膜分割成多個子區域,然后使用多尺度的LBP 算子對各子區域進行紋理特征抽取,最后通過CRBoost學習算法并結合高斯核密度估計從候選特征池中挑選對活體檢測最有效的LBP 特征,并構建虹膜活體檢測分類器.在一組自采數據集的實驗表明,該方法在檢測精度和速度方面均優于He 等[73]提出的基于灰度共生矩陣和SVM 分類器的方法以及Wei 等[75]提出的基于虹膜紋理基元和SVM 分類器的方法.
Zhang 等[79]針對紋理隱形眼鏡虹膜攻擊提出了一種基于加權LBP 的檢測方法.該方法通過結合局部紋理特征和結構特征設計了一組更有效的特征.具體地,首先在圖像的每個像素處提取SIFT 算子.然后,使用SIFT 算子作為加權系數產生加權LBP映射.最后,從LBP 映射中提取統計特征,并使用SVM 對真假虹膜進行分類.在自采數據集上的實驗結果顯示,這種基于加權LBP 方法的正確分類率為99.14%,高于標準LBP 方法、He 等[78]提出的基于LBP 特征和CRBoost 算法的方法,其中后兩者的正確分類率分別為97.55%和98.36%.
先前的工作均考慮了近紅外光源下的虹膜攻擊,隨著可見光虹膜識別的發展,可見光源下的虹膜攻擊也有可能發生.為此,Alonso-Fernandez 等[80]首次研究了在可見光下使用RGB 彩色虹膜圖像進行攻擊與檢測的方法.攻擊采用了打印虹膜的方式,檢測則使用了基于灰度共生矩陣(GLCM)和SVM分類的方法,序列浮動特征選擇(Sequential floating forward selection,SFFS)算法用于從GLCM的多個特征統計量中選擇最佳特征集合.在Mob-BIOfake[81]數據集上的實驗結果表明,集成RGB三種顏色通道和整個眼周區域的特征信息對于檢測虹膜攻擊是最有利的.
McGrath 等[82]提出了一個開源的虹膜呈現攻擊檢測方法OSPAD-2D,用于判別真實虹膜與紋理隱形眼鏡.該方法無需虹膜分割,因此在原始虹膜圖像上使用多尺度BSIF 提取虹膜相關的特征,然后使用SVM、隨機森林和MLP 進行分類預測,最后挑選最強的分類器集合按照多數同意(Majority voting)的投票規則進行決策.
Czajka 等[83]提出了一種基于光度立體特征(Photometric stereo features)的虹膜呈現攻擊檢測方法OSPAD-3D,通過光度立體技術估計虹膜區域的三維特征來檢測紋理隱形眼鏡攻擊.該方法使用2 個不同方向的近紅外光源照亮眼睛區域,然后使用一個常規的商用虹膜傳感器捕獲一對虹膜圖像.經過觀察發現,真實的虹膜圖像對之間的虹膜紋理陰影相差很小,因此通過光度立體技術可以重建出一個大致的平面,然而,紋理隱形眼鏡圖像對之間產生了顯著不同的虹膜紋理陰影.受這些假體線索的啟發,OSPAD-3D 方法從一對圖像的非遮擋區域中利用光度立體技術估計出虹膜表面的法向量,并計算向量距離平均法向量的方差作為虹膜呈現攻擊檢測分數.顯然,真實虹膜趨向于更一致的法向量,因此分數較小,而紋理隱形眼鏡則會產生較大的分數.
盡管OSPAD-3D 方法在大多數未知的紋理隱形眼鏡攻擊上泛化性很好,但是當隱形眼鏡高度不透明時,產生的陰影就不那么明顯,因此導致方法失效.為了解決這個問題,Fang 等[84-85]提出了一種融合方法,命名為OSPAD-fusion.該方法融合了基于二維紋理特征的OSPAD-2D 方法[82]和基于三維光度立體特征的OSPAD-3D 方法[83],并通過級聯融合算法有效結合兩種方法的優點.在數據集NDCLD15[86]和新數據集NDIris3D 上的實驗顯示,該方法在各種開集測試場景下具有很強的魯棒性,且性能優于所有之前可得的開源方法.
Dronky 等[87]對基于BSIF 算子和SVM 分類器的虹膜呈現攻擊檢測算法進行了深入研究.四個含有打印虹膜、義眼、合成虹膜和紋理隱形眼鏡的公開虹膜假體數據集參與了評估,輸入圖像采用2種模式: 分割后的虹膜圖像和未分割的虹膜圖像.結果顯示,該基線算法在檢測未分割的虹膜圖像的紋理隱形眼鏡攻擊時是最具挑戰性的.因此,為了提升此場景的檢測性能,提出了一種使用殘差圖像增強BSIF 算子特征提取能力的方法.具體地,在采用BSIF 進行特征提取之前,分別使用3 個高通濾波器進行圖像增強.第1 個濾波器是先前用于圖像偽造檢測的一階對稱非線性濾波器,第2 個濾波器是隱寫分析領域中的一個二階過濾器,第3 個濾波器是Sobel 濾波器.實驗結果顯示,3 個濾波器在未分割的虹膜圖像數據集上均比先前基線方法提升了紋理隱形眼鏡攻擊的檢測性能.特別地,使用第2個濾波器的提升效果最顯著,從先前67%的正確分類率提高到了85.3333%,而最終使用分割后的圖像并結合第1 個濾波器可以取得最好的結果,其正確分類率達到了93.3333%.
總體來說,虹膜天然的紋理模式使得基于圖像紋理的方法成為虹膜呈現攻擊檢測中的優選方法.特別是在檢測紋理隱形眼鏡的攻擊上,很多方法挖掘局部區域的紋理假體線索,取得了較好的效果.此外,此類方法計算復雜度較低,容易實現.然而,由于傳統的紋理特征提取方法無需訓練,在參數選擇和特征表征上很難達到最優,因此可能僅適應于小范圍的數據集或者攻擊類型,而在檢測未知的個體、成像環境、傳感器、攻擊方式等因素的跨域攻擊方面,普遍存在泛化性不足的問題.
3.2.2 基于圖像質量的方法
一般來說,圖像質量評價(Image quality assessment,IQA)主要是指對圖像進行特性分析研究,然后評估出圖像優劣(圖像失真程度).在經典的虹膜識別流程中,虹膜圖像質量評價往往用來過濾在離焦模糊、運動模糊、光照變化、瞳孔縮放(彈性形變)、有效區域遮擋以及斜眼等方面質量較低的虹膜圖像,提高虹膜識別的適用性和準確率[88].Galbally 等[89-90]觀察到假體虹膜與真實虹膜之間的“質量差異”,將虹膜圖像質量評價引入到虹膜呈現攻擊檢測中,并且假定: 在攻擊嘗試中捕獲的假體虹膜圖像與在正常的識別環境中獲取的真實虹膜圖像具有不同的質量.這種基于圖像質量評價的方法也被用來檢測人臉、指紋等模態的呈現攻擊,因此具有較好的通用性.
真假虹膜樣本之間的預期質量差異可能包括:銳度、顏色和亮度水平、局部偽影、信息量(熵)、結構扭曲或自然外觀.例如,從打印紙張上捕獲的虹膜圖像更容易因顫抖而模糊或失焦.根據“質量差異”的假設,Galbally 等[89-90]探索了使用常規的圖像質量評價方法來檢測虹膜呈現攻擊的潛力.一般地,檢測問題被視為一個二分類問題,其中輸入虹膜圖像被分類為真實虹膜或呈現攻擊.這個過程的關鍵在于尋找一組有判別力的特征,允許建立一個適當的分類器,在給定提取的特征集的條件下預測圖像真實性的概率.
如圖22 所示,Galbally 等[89]首先提出了一種基于質量相關特征的虹膜活體檢測方法.僅需要一張輸入圖像進行處理,首先進行虹膜分割和定位,為此使用圓形霍夫變換檢測虹膜內外圓.然后,從原始圖像和分割后的虹膜區域中提取了22 個不同的質量指標,這些指標從四方面進行度量: 焦點(Focus)、運動模糊、遮擋、對比度或者瞳孔-虹膜半徑比率等.接著,使用序列浮動特征選擇(SFFS)算法從中選取最具判別力的質量指標,組成特征向量.最后,使用二次判別分析(Quadratic discriminant analysis,QDA)進行二分類.該方法在包含1 600張真假虹膜樣例的數據集上進行了實驗,其中假體類型為高質量的打印虹膜,結果顯示該方法達到了100%的正確分類率,由此可見該方法進行虹膜呈現攻擊檢測的潛力.
在此之后,Galbally 等[90]又對基于圖像質量評價的呈現攻擊檢測方法進行了更加全面的研究,將此方法從虹膜進一步擴展到了指紋和人臉.在新的方法中,25 種包括全參考(Full-reference,FR)和無參考(No-reference,NR)的圖像質量評價指標被選取用于二分類,如圖23 所示.這些指標根據4 個一般標準進行選取,以期最大化滿足呈現攻擊檢測的理想要求,分別是: 性能(Performance)、互補性(Complementarity)、復雜性(Complexity)和速度(Speed).其中性能方面考慮已在各個領域中廣泛使用的性能良好的指標;互補性考慮圖像的互補特性描述;復雜性強調選取低復雜性的簡潔特征;速度接近于復雜性,旨在特征提取時間應該盡可能短.當特征選擇好以后,一些簡單的分類器如線性判別分析(Linear discriminant analysis,LDA)或者二次判別分析(QDA)被用來對樣例進行真假分類.

圖23 25 種圖像質量評價指標的分類[90]Fig.23 Classification of the 25 image quality measures[90]
在全參考的圖像質量評價指標方法中,使用清晰未失真的理想圖像作為參考,并通過比較待測圖像和參考圖像來估算待測圖像的質量.然而,在呈現攻擊檢測問題中,參考圖像是未知的,檢測系統僅能獲取輸入的樣例圖像.為了克服這個限制,新方法采用了先前應用于圖像篡改檢測和隱寫分析領域的策略,即將輸入的灰度圖像I 使用低通高斯濾波器(σ=0.5,核大小為 3×3) 進行平滑處理,獲取新圖像 ?,然后,? 被當做是I 的理想情況進行全參考的圖像質量評價計算.進一步地,全參考圖像質量評價方法分別考慮了誤差敏感性度量(Error sensitivity measures)、結構相似性度量(Structural similarity measures) 和信息論度量(Information theoretic measures).無參考的圖像質量評價方法也稱為盲評價方法,它無需依賴參考圖像,通過一些預訓練的統計模型來估計待測圖像的質量.由于這種方法完全脫離了對理想參考圖像的依賴,因而應用較為廣泛.依賴于訓練模型的圖像和先驗知識,這類方法大體分為3 類: 基于特定失真的方法(Distortion-specific approaches),如JQI (JPEG quality index) 和HLFI (High-low frequency index);基于訓練的方法(Training-based approaches);自然場景統計方法(Natural scene statistic approaches).新方法在檢測虹膜呈現攻擊類型上考慮了紙張打印虹膜和合成虹膜兩類場景,其中前者使用一個由800 張假體虹膜圖像和800 張真實虹膜圖像組成的數據集ATVS-FIr DB 進行評測,后者使用一個組合數據集進行評測,即CASIA-IrisV1 構成真實虹膜子集,WVU-Synthetic Iris DB構成假體虹膜子集.實驗結果顯示,新方法在第1類場景中的正確分類率為97% 以上,在第2 類場景中的正確分類率接近98%,超過了基線方法,并顯示出了較高的檢測效率.
總體來說,基于圖像質量的方法簡潔、快速、非接觸、用戶友好、廉價,且能在多種模態上通用,因此適合部署于實際系統中.然而該類方法也有一些缺點,例如真實圖像中也可能存在模糊、遮擋等低質量的現象,有可能造成誤檢的問題;該類方法尚未在包含多攻擊類型、多樣本、多采集環境等的大規模數據集上進行評測,因此實際的泛化性能尚未得到證實;目前該類方法主要使用常規圖像質量評價標準,并未針對特定模態進行深度優化,特別是結合當下深度學習的圖像質量評價方法尚未進行研究.未來該類方法值得進行深入探索和發展.
近些年,隨著深度學習的日益流行,研究人員陸續提出了基于深度學習的虹膜呈現攻擊檢測方法,其中大部分方法采用卷積神經網絡(Convolutional neural network,CNN)[91]來設計檢測模型,并引入了生成對抗網絡、域自適應、注意力機制等形式提升傳統CNNs 的檢測性能.圖19 右邊展示了一些有代表性的基于深度學習的方法.
3.3.1 傳統CNNs
Silva 等[48]首次將深度學習引入到虹膜呈現攻擊檢測中.他們提出了一個由兩層卷積操作組成的淺層卷積神經網絡來提取虹膜圖像的深度表示,然后附加了一個全連接層和softmax 層進行三分類:紋理隱形眼鏡、透明隱形眼鏡和無隱形眼鏡,模型命名為CLDnet.該方法在兩個公開的隱形眼鏡虹膜數據集NDCLD13 和IIIT-D CLI 上進行了實驗.結果顯示: 該方法在NDCLD13 數據集上超越了基于傳統特征的最先進檢測方法,獲得了30%的性能增益,而在IIIT-D CLI 數據集上,獲得了與之相當的檢測性能.特別地,基于深度學習的方法無需進行虹膜定位和分割,但仍然顯示了非常理想的結果.
隨著虹膜呈現攻擊檢測類型的范圍增大、采集環境和設備多樣化、數據集量級上升,一些更深層的更具判別力的卷積神經網絡如VGG、DenseNet 等被引入到虹膜呈現攻擊檢測中,取得了更高的檢測性能.
Trokielewicz 等[22]考慮了使用尸體虹膜圖像進行呈現攻擊的場景,為此提出了一種基于深度卷積神經網絡(DCNN)的虹膜呈現攻擊檢測方法.該方法采用了VGG-16 模型作為分類網絡,通過ImageNet 預訓練進行模型初始化,然后在由尸體虹膜和活體虹膜組成的數據集上進行參數權重微調.實驗表明,所提出的方法能夠正確分類近99%的尸體和活體樣本.通過采用Grad-CAM 類激活映射技術[92],表明在尸體虹膜攻擊檢測中,最有效的假體線索存在于包含虹膜-鞏膜邊界的圖像區域,在某種程度上也包括瞳孔區域.
Yadav 等[93]在檢測移動端無約束環境下的紋理隱形眼鏡攻擊上提出了一種基于DenseNet 的卷積神經網絡結構DensePAD,如圖19 所示.整個網絡模型有22 層,由3 個稠密塊(Dense block) 組成.每個稠密塊由6 個稠密相連的卷積塊組成,其中每一卷積塊層接收所有前面的卷積塊層作為輸入,從而加強特征傳播,鼓勵特征重用,減少模型參數數量,并產生多樣化的特征.然后每個稠密塊后面連接著一個過渡塊(Transition block),由卷積層和池化層組成,以減少輸出的大小.經過多層的特征提取后,最終產生的特征映射通過全連接層和Sigmoid 層輸出了真假虹膜的分類分數.此外,該方法接受歸一化的虹膜圖像作為輸入進行分類預測.實驗結果表明,該方法在多個數據集上的檢測性能均超越了若干傳統方法和基于AlexNet 的方法[94].然而在檢測未知的隱形眼鏡品牌和顏色方面,實驗結果顯示該方法仍然有較大的提升空間,進一步地凸顯了從未知分布中檢測虹膜呈現攻擊的挑戰性.
相似地,Sharma 等[20]也提出了一個基于DenseNet 卷積神經網絡結構的虹膜呈現攻擊檢測模型D-NetPAD.該模型接受裁剪后的虹膜區域圖像作為輸入,然后通過4 個Dense Block 進行特征提取和分類,最后產生了一個PA 得分來決定輸入圖像是真實虹膜還是呈現攻擊.該模型在跨攻擊類型、跨傳感器和跨數據集方面顯示了較好的泛化性和魯棒性,同時通過t-SNE[95]繪圖、Grad-CAM[92]熱圖和頻率分析進一步地解釋了模型的性能.
在利用CNN 進行虹膜呈現攻擊檢測的過程中,一個經常遇到的問題是由于收集虹膜假體樣本的成本較高,過程繁瑣,因此很多虹膜PAD 的數據集規模較小,沒有包含足夠數量的樣本,導致很難有效訓練CNN 模型,抑或容易導致模型過擬合.為了有效緩解這個問題,一種較為常見的操作是數據擴充,其中最直接的方式是在模型訓練過程中,通過各種變換來處理原始虹膜圖像.
除此之外,如圖24(a)所示,He 等[96]將歸一化的虹膜圖像采用滑動窗口的方式進行劃分,因此產生了多個相鄰之間有重疊且大小相等的小圖像塊(Patch).接著,對每個圖像塊通過卷積神經網絡進行分類學習,然后將各個塊的分類輸出在決策層使用Logistic 回歸進行融合,根據融合結果判斷輸入的虹膜圖像是真實虹膜還是呈現攻擊.如圖24(b)所示,Raghavendra 等[97]則將歸一化的虹膜圖像劃分為大小相等的不重疊的圖像塊,然后采用卷積神經網絡進行分類學習,最后對多個圖像塊的分類結果按照多數同意的投票規則進行決策.與前兩種方法不同,Hoffman 等[98]沒有采用歸一化的虹膜圖像作為輸入,而是為了保留更多的原始像素信息,同時聚焦于虹膜區域,首先考慮進行虹膜分割,然后裁剪包含虹膜區域的圖像,并縮放到 3 00×300 像素大小,最后將分割和縮放后的虹膜圖像按照棋盤格劃分為相同大小且有重疊的圖像塊,如圖24(c)所示.進一步地,劃分后的每個圖像塊被送入到卷積神經網絡中預測PA 得分,并通過歐氏距離損失函數進行模型優化.為了進一步地建模虹膜和瞳孔像素的相對重要性,將虹膜分割后的二值掩膜也作為輸入,參與模型預測.所有圖像塊的PA 得分通過加權的分數層融合進行整合,從而判別出真假虹膜.該方法在跨數據集和跨傳感器的場景中取得了較好的檢測性能,驗證了方法的有效性.類似地,Pala等[99]也從分割后的原始虹膜圖像中提取了若干個可能重疊的圖像塊,并據此發展了一個基于三元卷積神經網絡(Triplet convolutional networks)的深度度量學習框架用于虹膜呈現攻擊檢測.他們首先構造了三元組作為輸入,包括2 個真實虹膜圖像塊和1 個假體虹膜圖像塊,或者2 個假體虹膜圖像塊和1 個真實虹膜圖像塊;然后雇傭了一個共享權重的輕量級卷積神經網絡用于提取三元組輸入的特征,并通過三元組損失函數進行網絡優化,使得真假虹膜之間的特征分離開.圖像塊和三元組的設置極大地增加了訓練樣本的數量,緩解了虹膜呈現攻擊檢測數據集規模較小的問題.測試時,通過將查詢圖像的若干圖像塊與真假虹膜的圖像塊參考集進行特征匹配,并按照決策層融合的方法判別真假.實驗表明,該方法可以實時運行,并在打印虹膜和紋理隱形眼鏡兩類呈現攻擊類型上取得了較好的性能.

圖24 不同的圖像預處理模塊,其中(a)來自文獻[96],(b)來自文獻[97],(c)來自文獻[98]Fig.24 Different image preprocessing modules,where(a) is from [96],(b) is from [97],and (c) is from [98]
Fang 等[100]觀察到真假虹膜樣本在虹膜與鞏膜邊界區域周圍存在圖像動態的差異性,因而提出了分析歸一化虹膜邊界區域的微條紋來檢測虹膜呈現攻擊的方法.如圖25 所示,首先進行粗糙的虹膜分割確定瞳孔和虹膜邊界,然后對它們進行擴展,從而聚焦于虹膜與鞏膜邊界區域周圍,隨后進行歸一化和圖像增強操作.接著,從增強的歸一化虹膜圖像中隨機采樣,獲取多個重疊的微條紋進行分析.這些微條紋提供了更低維度的輸入數據和更多的訓練樣本,從而有助于更好地擬合模型.最后,采用一個輕量級的MobileNet V3-small 模型對微條紋進行分類學習,并按照多數同意的投票規則對多個微條紋產生的PAD 決策進行融合,以此增加最終決策的魯棒性.實驗結果顯示該方法在多個數據集上具有優異的性能,并能很好地區分紋理隱形眼鏡和透明隱形眼鏡.在此基礎上,Fang 等[101]進一步地在跨數據集和跨攻擊類型的虹膜呈現攻擊檢測上進行了擴展.

圖25 基于微條紋分析的虹膜呈現攻擊檢測方法[100]Fig.25 Micro stripes analyses for iris presentation attack detection[100]
現有的基于CNNs 的虹膜呈現攻擊檢測方法主要依賴在原始灰度空間中提取的虹膜紋理深度特征,然而這類特征差異不夠明顯,只能辨別單源假體虹膜.為此,劉明康等[102]提出一種基于增強型灰度圖像空間的虹膜呈現攻擊檢測方法,首先利用ResNet 網絡將原始虹膜圖像映射到可分離的灰度圖像空間,使得真假虹膜特征具有明顯的判別性,然后使用預訓練LightCNN (Light convolutional neural networks)-4 網絡提取新空間中的虹膜紋理特征,并使用三元組損失函數與softmax 損失函數聯合訓練模型,從而實現二分類任務.該方法在2個單源假虹膜數據庫上采用閉集檢測方式分別取得了100%和99.75%的準確率,在多源假虹膜數據庫上采用開集檢測方式分別取得了98.94%和99.06%的準確率,表明該方法具有較好的泛化性.
先前的方法大多數只進行一次決策來判別真假虹膜,而Tapia 等[7]則提出了一種級聯的專用深度學習網絡執行兩次決策來判別真假虹膜,在LivDet-Iris 2020 比賽中以0.46%的最低真實呈現誤判率(BPCER)贏得了冠軍.在該方法中,首先提出了2個新的數據集,分別擴充真實樣本和打印虹膜樣本,然后通過各種類型的仿射變換、投射變換、對比度變化、高斯噪聲、圖像區域隨機丟失、裁剪和模糊等操作進行數據擴充,并通過直方圖均衡化方法歸一化虹膜圖像.在預處理完虹膜圖像后,使用一個基于MobileNetV2 的級聯的兩階段框架進行虹膜真假分類,其中第1 個模型從零開始進行訓練,用來區分真實樣本和呈現攻擊兩種類別,而第2 個模型也從零開始進行訓練,用來對第1 個模型預測為真的樣本做進一步分類,區分真實樣本和尸體虹膜、打印虹膜、紋理隱形眼鏡虹膜四種類別.模型訓練過程中,將類別權重引入到損失函數中,以此平衡不同數量的類別樣本.通過這種級聯的策略,有效提升了真實樣本的分類正確率.
與先前的CNN 分類模型不同,Gautam 等[103]將無監督的自編碼器(Autoencoder)引入到虹膜呈現攻擊檢測中,提出了一種端到端的深度監督類別編碼(Deep supervised class encoding,DSCE)檢測方法.該方法將虹膜真假樣本的類別標簽信息與端到端可訓練的無監督自編碼器模型結合在一起,共同學習一個有效的、具有判別力的和降維的特征向量,而后進行真假虹膜分類.進一步地,重建損失和分類損失聯合對模型的特征提取器和分類器進行端到端優化.在不同數據集上的實驗結果表明,該方法可以有效地檢測打印虹膜、隱形眼鏡和合成虹膜,并優于當前的最先進方法,同時跨數據集的實驗表明該方法具有良好的泛化能力.
總的來說,使用端到端的CNN 進行虹膜真假分類是目前最常見的虹膜呈現攻擊檢測方法,該類方法在提升模型的準確度方面效果顯著,明顯優于基于傳統計算機視覺的方法.然而由于依賴數據驅動的二分類學習方法,加之虹膜呈現攻擊檢測的數據集數量較少,攻擊類型不夠豐富,導致該類方法容易出現過擬合現象以及在未知攻擊類型、未知領域等場景中的泛化性能較弱的問題.因此,很多研究者聚焦于提升檢測算法的域泛化能力.
3.3.2 生成對抗網絡
近年來,生成對抗網絡在許多領域引起了研究者的廣泛關注.Goodfellow 等[104]在2014 年提出了生成對抗網絡(Generative adversarial networks,GAN),它是一種由生成器和判別器組成的深度神經網絡架構.通過在生成和判別之間的多次循環,兩個網絡相互對抗博弈,繼而兩者性能逐步提升,最終網絡進入一種“納什均衡”的狀態.在此之后,生成對抗網絡發展出了很多變體模型,如DCGAN[105]、RaSGAN[106]、StyleGAN[107]等.
由于生成對抗網絡在圖像生成、圖像翻譯等領域的成功應用,它首先被研究人員用來進行虹膜合成,如第2.2.3 節所述,合成后的虹膜被陸續驗證有潛力進行呈現攻擊.此外,生成對抗網絡也可以用來進行虹膜呈現攻擊的檢測.先前提出的很多算法在已知的攻擊類型上都取得了較好的性能,但它們普遍將虹膜呈現攻擊檢測建模為一個二分類問題,因此需要收集大量的真假虹膜樣本以訓練分類器.然而收集數量充足、類型豐富的攻擊樣本遠比收集真實虹膜樣本困難得多.此外,基于二分類的虹膜呈現攻擊檢測算法往往容易過擬合已有的攻擊類型,而在實際應用時,虹膜呈現攻擊的類型往往是多樣化的,甚至在訓練階段是不可見的,因而檢測算法在泛化到未知的攻擊類型時容易失敗,如圖26(a)、26(b).為解決此類泛化性問題,Yadav等[108]采用了異常檢測方法,又稱單類別分類(Oneclass classification,OCC)[109]方法.具體地,他們首先基于真實的虹膜樣本訓練RaSGAN,以生成高質量的合成虹膜.在RaSGAN 訓練過程中,相對判別器(Relativistic discriminator,RD)學習如何區分真實虹膜與合成虹膜.當模型最終收斂時,相對判別器已經無法區分真實虹膜與合成虹膜,因此在真實的虹膜樣本周圍擬合出了一個緊致的邊界,即產生了一個有效的單類別異常檢測器,稱為RDPAD.在檢測過程中,落在該邊界之內的樣本被識別為真實虹膜,而任何落在該邊界之外的樣本被識別為呈現攻擊,如圖26(c)、26(d).實驗結果表明,該方法在檢測未知攻擊類型時具有可行性,且使用少量呈現攻擊樣本微調檢測器可進一步地提高其泛化性.

圖26 基于二分類(上)和單分類(下)的虹膜呈現攻擊檢測算法在處理未知攻擊時的效果示意圖[108]Fig.26 Illustration of the effects of IPAD algorithms based on binary classification (top) and one-class classification (bottom) in handling unseen presentation attacks[108]
Ferreira 等[110]提出一種對抗學習的模型用于魯棒地檢測未知的虹膜呈現攻擊,使用GANs 學習對呈現攻擊類型不變的圖像的潛在表示,這些潛在表示保留了與PAD 屬性相關的特征信息,同時摒棄了可能阻礙PAD 分類任務的特定攻擊工具的相關信息,這樣的正則化策略避免了過多依賴于特定的呈現攻擊工具種類,從而有利于實現對新的未知攻擊類型的有效檢測.Yadav 等[111]提出一種新穎的循環圖像翻譯生成對抗網絡(CIT-GAN),用于多域風格傳輸.為實現這一點,引入一個樣式化網絡,該網絡能夠學習訓練數據集中表示的每個域的樣式特征.樣式化網絡幫助生成器驅動圖像從源域到參考域的轉換,并生成具有參考域樣式特征的合成圖像.每個領域的學習風格特征取決于風格損失和領域分類損失,這導致每個領域的風格特征發生變化.提出的CIT-GAN 用于虹膜呈現攻擊檢測,為訓練集中表現不足的類生成合成呈現攻擊樣本.使用當前最先進的方法進行評估,證明了這種合成的呈現攻擊樣本的有效性.此外,使用Frechet 初始距離評分來評估合成樣本的質量,結果表明,該方法生成的合成圖像質量優于其他方法.
3.3.3 域自適應
域自適應(Domain adaptation,DA)是一種新的方法,能夠有效地解決訓練樣本和測試樣本概率分布不一致的學習問題,重點在于如何克服源域分布和目標域分布不同,實現目標域上的學習任務[112].在虹膜呈現攻擊檢測中使用域自適應方法,模型將被引導學習域不變特征,從而可以魯棒地區分真實虹膜圖像與不同類型的呈現攻擊虹膜圖像.
現有虹膜呈現攻擊檢測算法的一個主要問題是缺乏對不同傳感器或者不同環境捕獲的數據的泛化性,主要原因在于訓練模型的圖像分布和用于測試的圖像分布之間存在域偏移(Domain shift).針對這個問題,El-Din 等[113]首次將無監督域自適應(Unsupervised DA)方法引入進來,旨在通過利用源域中的標簽數據和目標域中的未標記數據訓練一個模型,減少在未標記的目標域上的分類誤差.此外,對抗訓練也被用來幫助網絡學習域不變特征.具體來說,利用了一個最新的域自適應網絡,即域對稱網絡(Domain-symmetric networks,Sym-Nets)[114]進行虹膜呈現攻擊檢測.該網絡在包含針對源域和目標域的2 個分類器的基礎上,增加了真實域判別器與攻擊域判別器以便改善域之間的對齊問題.進一步地,利用類別概率與域分類的交互作用,聯合地對抗性訓練面向移動端的特征提取網絡,最終能夠生成域不變的特征用于真假虹膜分類.實驗結果表明該模型能夠有效地提升虹膜呈現攻擊檢測的魯棒性和泛化性.
類似地,Li 等[10]考慮在跨數據集的條件下減少域偏移對模型檢測性能的影響,提出一種基于小樣本的單類別域自適應(Few-shot one-class domain adaptation)方法,其中域自適應僅依賴于有限數量的目標真實樣本.該模型包含基于頻域的注意力模塊(Frequency-based attention module,FAM)和混頻模塊(Frequency mixing module,FMM)兩部分.FMM 將源域圖像的高頻分量與有限數量的目標域真實圖像的低頻分量進行混合,生成大規模的皆具源域標簽和目標風格的樣本圖像,這將有助于減少風格差異造成的域遷移.然后源域圖像和混合圖像一起被送入到殘差網絡中進行真假分類學習.進一步地,在構成殘差網絡的殘差塊中,FAM 網絡被包含在內,旨在將頻域信息聚合到空間注意力中,顯式地強化高頻細粒度特征.實驗結果表明,集成了FAM 和FMM 的模型在跨數據集和同數據集的評測中呈現出良好的檢測性能.
雖然域自適應的方法可以利用未標記的目標數據來最小化源域和目標域之間的分布差異,但是在許多現實應用場景中,收集未標記的目標數據用于訓練是困難的、昂貴的,甚至在涉及到隱私問題時是無法實現的.
3.3.4 注意力機制
注意力機制是繼卷積神經網絡之后近些年深度學習技術發展的焦點,先被用于提升卷積神經網絡的特征表達能力[115-116],最近又演化出了完全基于注意力機制的神經網絡架構Transformer[117-118].特別地,針對卷積神經網絡提取的特征映射,注意力機制可以建模通道維度及空間維度的相互依賴關系,從而強化對預測有用的特征,抑制與之無關的特征,提升網絡的預測能力.
Chen 等[21]首先提出了注意力引導的卷積神經網絡模型用于虹膜呈現攻擊檢測.該模型在主干網絡的最后一個卷積層上并行配置了兩種類型的注意力模塊,分別是通道注意力與位置注意力模塊,后者也稱空間注意力模塊.通道注意力模塊用于建模特征映射的通道間關系,而位置注意力模塊用于建模特征映射的空間關系,兩個模塊通過逐元素求和來進行融合,從而獲取細化的特征,聚焦顯著的虹膜區域.實驗結果表明該方法在虹膜呈現攻擊檢測上具有較好的泛化性和可解釋性.呂夢凌等[119]針對紋理隱形眼鏡虹膜提出一種基于循環注意力機制的檢測方法,考慮到真實虹膜與紋理隱形眼鏡虹膜之間微小的特征差異,將檢測問題看作是細粒度圖像分類問題進行處理.首先引入循環注意力機制先后對原始虹膜圖像的虹膜區域和紋理區域進行無監督定位,使網絡能模擬人眼的視覺特性,進而不斷聚焦于關鍵區域的特征差異以進行呈現攻擊檢測;其次采用MobileNetV2 對特征分類網絡進行輕量化處理,在保持檢測精度的同時,減少了網絡的參數量和計算量.通過實驗表明該方法可以針對真偽虹膜之間關鍵區域的微小特征差異進行檢測,具有更好的準確性和泛化性,且更適宜在邊緣設備上的應用部署.陳旭旗等[120]也針對紋理隱形眼鏡(美瞳)虹膜提出了一種基于SSD (Single shot multibox detector)目標檢測網絡的虹膜定位和美瞳檢測算法IrisBeautyDet,并對網絡結構進行了輕量化處理,引入MobileNet 主干網絡顯著減少了模型計算量,極大提高了速度.進一步地采用空間注意力和通道注意力機制,提高了模型準確率.實驗表明該方法更輕、更快,具有較好的泛化能力和魯棒性.
盡管在性能上很多基于卷積神經網絡的虹膜呈現攻擊檢測方法超越了傳統方法,但是由于它們普遍僅采用真假二值監督來訓練模型,帶來了在跨攻擊類型或跨數據集場景下的過擬合風險.主要原因在于這種二值的監督機制在提供有用的全局信息之時,也削弱了空間上捕獲局部假體線索的能力.為解決這個問題,Fang 等[9]引入逐像素二值監督(Pixel-wise binary supervision,PBS)策略,允許利用二值的掩膜監督虹膜呈現攻擊檢測模型的訓練,從而捕獲細粒度的像素級或塊級的假體線索.進一步地,在此基礎上引入空間注意力機制,引導網絡自動找到最有助于做出準確決策的區域進行強調或抑制,因此模型被命名為A-PBS.實驗結果表明,在注意力機制的輔助下,通過全局的二值監督和局部的逐像素二值監督聯合訓練的A-PBS 模型具有很強的虹膜呈現攻擊檢測能力.后面Fang 等在文獻[121]中進行了跨域的性能評估,包括跨攻擊類型、跨數據集和跨光譜,證實了該方法具有不錯的泛化性,但同時也指出跨域的虹膜呈現攻擊檢測問題仍然是有挑戰性的.
先前介紹的虹膜呈現攻擊檢測方法大部分基于單個特征,然而無論使用傳統的計算機視覺方法,還是使用深度學習方法,都發現這些提取的特征在面對未知的數據集、未知的攻擊類型甚至變化的圖像成像環境時泛化性能受到限制,影響了在現實場景中的部署.為解決這個問題,很多研究人員都提出了多源特征融合的思路,考慮通過將多種提取的特征進行融合來提高檢測系統的泛化性.目前典型的多源特征融合方法包括傳統特征與深度學習特征相融合、多模態特征融合等.
傳統特征通常嵌入了大量虹膜相關的先驗知識,且計算量相對較小,而深度學習特征從數據中自動學習而來,包含了一些未知的高維抽象特征,因此將二者進行結合,實現優勢互補是一個有前途的方向.
Yadav 等[122]將多層冗余離散小波變換域(Multi-level redundant discrete wavelet transform domain)中的局部和全局Haralick 紋理特征與降維后的VGG 特征相結合,來編碼真假虹膜之間的紋理變化.然后,這些經串聯融合的特征被送入到一個3 層的神經網絡中進行真假分類.實驗結果表明所提出的融合方法優于單個特征的方法,包括Haralick 特征、VGG 特征以及LBP、WLBP 等傳統特征.在基于卷積神經網絡的虹膜呈現攻擊檢測方法中,DenseNet 網絡被普遍認為表現良好,因此廣泛用來提取深度特征.Choudhary 等在文獻[123]中也采納了一種輕量級的定制版DenseNet121 模型來提取數據驅動的虹膜特征.在此基礎上,考慮融合多個手工提取的統計特征,如LBPV、SIFT、DAISY、Multiple BSIF (MBSIF)等.特別地,對于MBSIF 特征,考慮兩類,一類是在自然圖像上訓練的通用濾波器,另一類取自在歸一化虹膜數據集上訓練過的專用濾波器.進一步地,兩類MBSIF 特征均包括3 個不同尺度和位長的BSIF 濾波器,并通過特征串聯來組合它們各自生成的特征.這些手工特征和深度特征都被分別喂給SVM 分類器進行單獨的訓練以區分真假虹膜.為了能夠有效識別最優的特征集合,采用分數層融合和統計學測試.最終結果表明,在虹膜數據集訓練過的專用特征,包括手工的MBSIF 特征和數據驅動的DenseNet 特征,在區分真假虹膜時,顯著優于通用特征.此外,與現有方法相比,兩者融合的方法在3 個隱形眼鏡的虹膜呈現攻擊檢測數據集上獲得了明顯的性能提升.
Kuehlkamp 等[124]提出了一種新穎的集成多視角學習分類器的方法用于跨域的虹膜呈現攻擊檢測.該方法首先將原始的輸入虹膜圖像轉換到多個不同的BSIF 表示空間;然后通過輕量級的CNNs提取不同視角下的特征進行真假分類;接著選擇最相關和互補的多視角分類器;最后將它們的預測結果進行融合,產生最終的決策.實驗結果表明,該方法在跨數據集和數據集內部的場景中均超過了Liv-Det-Iris 2017 比賽的冠軍方法.
一般來說,通過傳感器采集的虹膜圖像除了包含虹膜模態外,還包含瞳孔、鞏膜、眼周等模態信息,而后者往往也包含一些假體虹膜的線索,因此提取多模態特征并進行融合成為一個很自然的選擇.如第3.1.1 節所述,陳瑞等[53-54]融合了在不同波段光源照射下的鞏膜和虹膜生理特征,并結合SVM分類器進行真假虹膜判別.Gragnaniello 等[125]針對隱形眼鏡的檢測和分類需求,提出了同時利用虹膜和部分鞏膜區域的局部圖像描述子特征的機器學習方法.他們觀察到紋理隱形眼鏡通常具有非常明顯的紋理特征,比天然虹膜更顯著,因此可根據虹膜區域的分析來識別它們;另一方面,透明隱形眼鏡并不會改變虹膜紋理特征,但是不像天然虹膜那樣,一個圓形的邊界仍然會或多或少地出現在鞏膜區域.受這些觀察的啟發,他們同時提取了來自虹膜和部分鞏膜區域的稠密局部特征,并通過詞袋模型(Bag of features,BOF)進行結合,最后使用SVM分類器進行天然虹膜、佩戴紋理隱形眼鏡和佩戴透明隱形眼鏡的分類.除了虹膜和鞏膜特征融合以外,Hoffman 等[126]也提出利用多個卷積神經網絡分別提取虹膜和眼周的特征進行融合,從而提升虹膜呈現攻擊檢測的泛化性.
最近,印度理工學院圖像分析和生物特征識別實驗室(Image Analysis and Biometrics Lab,IAB Lab)系統研究了檢測紋理隱形眼鏡的一系列可泛化方法[6,127-128],均采用了多源特征融合的思想.在文獻[127]中,他們提出一種基于深度學習的虹膜呈現攻擊檢測網絡MVANet,通過在一個淺層的基礎全卷積網絡后面并行地連接3 個由全連接層組成的分類網絡,學習一個虹膜圖像的多特征表示.進一步地,使用串聯的形式進行特征融合從而實現綜合決策.緊接著,在文獻[128]中,他們又考慮了融合兩種形式的輸入: 原始圖像和邊緣增強的圖像進行特征提取和真假二值分類,其中原始圖像幫助學習與環境相關的特征,如傳感器特定的、光照特定的特征,而邊緣增強的虹膜圖像幫助挖掘由于隱形眼鏡的紋理和邊界而發生的差異線索.兩種特征通過一種基于收縮-擴張(Contraction-expansion)CNN 的孿生結構進行聯合學習,并通過相加、相乘、串聯、距離度量嵌入幾種形式進行結合,從而最終用于真假二值分類.除特征層融合外,他們在文獻[6]中又探索了圖像層融合和分數層融合,其中圖像層融合使用原始圖像和對比度受限的自適應直方圖均衡化(Contrast limited adaptive histogram equalization,CLAHE)增強的虹膜圖像作為輸入,分數層融合采用加權求和的方法,特征提取和分類器采用14 層的CNN 模型.通過使用多源互補信息的早期和晚期融合,提升了檢測模型在處理現實未知場景時的可信度,呈現出良好的泛化性能.實驗結果顯示后兩種方法在某些數據集上的性能均超過了第一種方法MVANet.
總體來說,多源特征融合的方法在檢測性能特別是泛化性上明顯優于基于傳統計算機視覺或者深度學習方法提取的單特征,但是另一方面,這種融合也增加了系統的復雜性,使得計算量增大,不利于在邊緣設備上的部署.因此需要在性能與效率方面進行很好的平衡,從而提高這類方法的可用性.
基于軟件的虹膜呈現攻擊檢測方法通過對輸入的圖像進行特征分析判別真假虹膜.不像基于硬件的方法需要額外的成像設備,這類方法僅需要依賴虹膜傳感器捕獲虹膜圖像信息,成本更低,運行速度更快,對用戶的干擾較少,但是也容易受到周圍環境的影響導致采集的圖像質量含有較多噪聲,從而降低虹膜呈現攻擊檢測算法的準確性[129].此外,基于軟件的方法在處理未知領域(例如未知攻擊類型、未知傳感器、未知采集環境等)的測試圖像時普遍仍然存在泛化性低的問題,且部分方法呈現出來的高性能具有局限性,大部分數據集只關注于單個或部分攻擊類型,遠不能滿足現實復雜場景的需求[130].
為全面了解現有方法在閉集(Closed-set)和開集(Open-set)場景下的虹膜呈現攻擊檢測性能,美國圣母大學Bowyer 教授團隊[37]進行了全面的研究.首先,他們基于先前來自不同研究團隊發布的26 個基準數據集外加新收集的15 萬張圖像構建了一個迄今為止最大的開放虹膜呈現攻擊檢測數據集,共計45 萬張圖像,包含真實虹膜和7 種虹膜呈現攻擊類型,即義眼、紋理隱形眼鏡、打印紋理隱形眼鏡、病變虹膜、尸體虹膜、打印虹膜、合成虹膜.接著,他們對4 個開源的虹膜呈現攻擊檢測方法和1 個新的基于變分自編碼器(Variational autoencoder,VAE)的方法在以上構建的最大數據集上進行了閉集和開集評估.在這些方法中,3 個方法[20,37,131]使用了深度學習進行端到端的檢測,2 個方法[82,132]首先提取了諸如LBP、BSIF 等紋理特征,然后使用傳統的分類器如SVM、隨機森林等進行真假分類.評估協議包含3 類: 閉集評估、留一法評估和LivDet-Iris 2020 評估,其中閉集評估時,算法訓練/驗證和測試的數據分布和攻擊類型均是相同的,類似于第2.3 節介紹的同數據集同類型協議;留一法屬于開集評估,測試時聚焦于算法訓練和驗證時未知的攻擊類型,類似于第2.3 節介紹的跨類型協議;LivDet-Iris 2020 評估所使用的訓練集和測試集含有部分相同的攻擊類型,但是來自不同的數據源,因此從攻擊類型的角度來看,它不屬于開集評估,主要是用來評估算法在未知領域上的泛化性.
實驗結果表明: 1) 閉集的虹膜呈現攻擊檢測可以看成是一個已經解決的問題,例如5 個評測的算法都取得了98%以上的正確分類率.2) 開集的虹膜呈現攻擊檢測仍然是一個遠未解決的問題,例如沒有一個算法在將紋理隱形眼鏡作為留一攻擊類型時取得高于28%的正確分類率,或者將合成虹膜作為留一攻擊類型時取得高于53%的正確分類率.因此,可能有很多虹膜呈現攻擊類型是很難通過學習其他攻擊類型來進行泛化的,這進一步地表明,一個在所有當前已知攻擊類型上學習得到的具有高準確性和泛化性的虹膜呈現攻擊檢測算法,在遇到新的攻擊類型時仍然可能遭遇嚴重失敗.3) 通過在大規模的、多樣化的數據集上訓練,可有效地提升算法,特別是深度學習算法在跨域場景下的檢測性能.4)通過將閉集評估中的若干優秀算法的分類分數通過SVM 進行融合,進一步地提高了在開集場景下的檢測性能,并明顯擊敗了LivDet-Iris 2020 比賽的冠軍算法,表明算法集成是一種有前途的提升泛化性的方法.除了泛化性問題以外,基于深度學習的方法由于其本身是一個黑盒模型,因此還存在可解釋性弱的問題.
目前,虹膜呈現攻擊檢測方法的開源代碼較少,已開源的方法總結在表3 中,其中方法的描述已經在前面內容中呈現,因此不再贅述.

表3 虹膜呈現攻擊檢測開源代碼總覽Table 3 Brief overview of open-source IPAD methods
Czajka 等[16]對虹膜呈現攻擊檢測相關數據集進行了總結,但其中并非所有數據集都可以公開申請下載,部分數據集的原申請地址已經失效.為方便研究者,本文整理概括了自2023 年3 月以來仍可以開放申請的數據集,如表4 所示.

表4 虹膜呈現攻擊檢測開放數據集總覽Table 4 Brief overview of publicly available IPAD datasets
Warsaw-BioBase-Disease-Iris v1.0 數據集[36]包括了603 張近紅外虹膜圖像和222 張相應的可見光虹膜圖像,其中大多數圖像是從受不同疾病影響的眼睛中獲取的.近紅外圖像由IrisGuard AD100捕獲,而可見光圖像則由通用型Canon EOS 1000D以及專業的Topcon DC3 相機捕獲.每個個體的圖像集都附帶有一個眼科評論作為元數據.該數據集中識別出的疾病包括: 白內障、急性青光眼、前后房粘連、視網膜脫離、虹膜紅腫、角膜血管化、角膜潰瘍、混濁、角膜移植、虹膜損傷和萎縮等.
Warsaw-BioBase-Disease-Iris v2.1 數據集[133]是Warsaw-BioBase-Disease-Iris v1.0 數據集的擴展,包括了從115 名眼科患者收集的2 996 張虹膜圖像,其中含有1 793 張近紅外圖像和1 203 張可見光圖像.近紅外圖像由IrisGuard AD10 捕獲,可見光圖像由通用型Canon EOS 1000D 以及專業的Topcon DC3 相機捕獲.每個個體的圖像集都附帶有一個眼科評論作為元數據.
Warsaw-BioBase-Post-Mortem-Iris v1.1 數據集[33]的采集對象為尸體虹膜,樣本取自17 個對象死后近34 天之內的尸檢.該數據集包括了使用IriShield M2120U 虹膜識別相機獲得的574 張近紅外圖像和使用Olympus TG-3 相機獲得的1 023 張可見光圖像.每個逝者都附有年齡、性別和死因作為元數據.
Warsaw-BioBase-Post-Mortem-Iris v2.0 數據集[134]是Warsaw-BioBase-Post-Mortem-Iris v1.1數據集的擴展,采集自溫度為6 ℃左右的醫院太平間,采集設備和持續時長與Warsaw-BioBase-Post-Mortem-Iris v1.1 數據集相同.最終該數據集包括了從37 個逝者中收集到的1 200 張近紅外圖像和1 787 張可見光圖像.逝者的年齡范圍從19 歲到75 歲不等,其中有5 位女性和32 位男性.死因包括心力衰竭(18 例)、車禍(7 例)、自縊(7 例)、謀殺(1 例)、中毒(2 例)和頭部外傷(2 例).眼睛的顏色分布為藍色/灰色/淺綠色(29 例)、淺棕色/淡褐色(5 例)和深棕色(3 例).
Warsaw-BioBase-Post-Mortem-Iris v3.0 數據集[135]是Warsaw-BioBase-Post-Mortem-Iris v1.1數據集的擴展,總共收集了來自42 個逝者的1 094張近紅外圖像和785 張可見光圖像.該數據集與v2.0 數據集的采集對象不重疊,圖像采集的時間跨度為死亡后的369 小時(近16 天).
CASIA-Iris-Syn 數據集[43]包含1 000 類10 000張合成虹膜圖像,合成的虹膜圖像外觀逼真,因此大多數人很難區分真實虹膜和合成虹膜.合成方法見第2.2.3 節描述.
CASIA-Iris-Fake 數據集[136]是中國科學院自動化研究所構建的一個多源虹膜呈現攻擊檢測數據集,包含10 730 張虹膜圖像,其中真實虹膜圖像6 000 張、打印虹膜圖像640 張、紋理隱形眼鏡虹膜圖像740 張、塑料虹膜圖像(義眼) 400 張和合成虹膜圖像2 950 張,所有圖像均由IG-H100 設備捕獲.真實虹膜與紋理隱形眼鏡虹膜圖像的分辨率為640×480像素,打印虹膜圖像和塑料虹膜圖像的分辨率大小不一,合成虹膜為歸一化圖像,分辨率為512×80像素1.
CASIA-Iris-LFLD[57-58]是目前為止第一個近紅外遠距離光場虹膜呈現攻擊檢測數據集.該數據集在環境光照多變、采集背景復雜、采集姿態非對正、遮擋等半受控環境下收集.采集對象有14 人,呈現攻擊類型包括打印虹膜(普通打印紙、高光相片紙)和屏顯虹膜(iPad) 兩類.經過圖像篩選后,得到504 個可用真假虹膜樣本(約5 萬張重對焦光場圖像),其中包含230 個真實虹膜樣本和274 個假體虹膜樣本.進一步地,在假體虹膜樣本中,普通打印紙虹膜、高光相片紙虹膜和屏顯虹膜的樣本數分別是18、122、134.
Eye Tracker Print-Attack Database (ETPAD) 是美國德克薩斯州立大學Rigas 和Komogortsev 專門建立的利用眼動信號檢測打印虹膜攻擊的數據集,包括兩個版本: v1[63]和v2[64].建立兩個數據集的裝置和采集方式相同,只不過v2 版本的數據集比v1 版本的數據集規模更大.采集分為2 個階段: 第1 階段,記錄志愿者的眼動信號和虹膜圖像;第2 階段,利用捕獲的虹膜圖像對眼球跟蹤系統進行打印虹膜攻擊,該系統模擬了具有眼球跟蹤功能的虹膜掃描儀,然后記錄佩戴了打印虹膜的志愿者的眼動信號.采集過程中,志愿者的頭部使用頦托進行固定,然后注視前方向上 3 .5°方向15 s,并使用采樣速率為1 000 Hz 的EyeLink 1000眼動儀記錄眼動信號,虹膜圖像由CMTech BTM-20 虹膜識別系統拍攝,分辨率大小為 6 40×480 像素.在v1 版本中,共有100 個志愿者,男性52 人,女性48 人,年齡在18 到43 歲之間,平均年齡22 歲.在v2 版本中,共有200 個志愿者,男性99 人,女性101 人,年齡在18 到44 歲之間,平均年齡22 歲.每個志愿者均從左眼中捕獲2 幅虹膜圖像.因此,ETPAD v1 最終包含600 個眼動記錄和200 張真實/打印虹膜圖像,而ETPAD v2 最終包含1 200 個眼動記錄和400 張真實/打印虹膜圖像.
Synthetic Iris Textured Based 數據集[137]是一個合成虹膜數據集,包含1 000 個類,每類7 個樣本.合成虹膜分2 個階段生成,在第1 階段,馬爾科夫隨機場模型用于生成代表全局虹膜外觀的背景紋理.在第2 階段,生成各種虹膜特征,如徑向和同心溝槽、頸圈和隱窩,并將其嵌入到紋理場中.合成的虹膜外觀上與真實虹膜非常相似,并被驗證可以用來評估虹膜識別算法的性能.
Synthetic Iris Model Based 數據集[138]是一個合成虹膜數據集,由基于模型和解剖學的方法合成,初始目的是為了提供給學術界和產業界大規模的數據集以利于評測新設計的虹膜識別算法.該合成方法分五步進行,具有40 個可控制的隨機參數,例如纖維大小、瞳孔大小、虹膜厚度、眼睛大小等,生成了10 000 個類(5 000 名個體,每名個體包含左眼和右眼),每類有16 張圖像,1 張優質圖像,15 張退化圖像,具有噪聲、旋轉、離焦模糊、運動模糊、低對比度和鏡面反射的組合效果.
Unconstrained Visible Spectrum Contact Lens Iris (UVCLI)數據集[139]是第一個可見光譜下的紋理隱形眼鏡數據集,包含了1 877 張真實虹膜圖像和1 925 張紋理隱形眼鏡虹膜圖像,采集自35個用戶(70 個類別),其中包括17 名女性和18 名男性,年齡在18 至38 歲之間,覆蓋了多個種族,如亞洲人、白種人和西班牙人.該數據集的采集地點包括照明受控的室內環境和變化的室外環境,成像設備為配置了EFS 60mm f/2.8 Macro USM 定焦鏡頭的EOS 60D DSLR 佳能相機.
WVU Unconstrained Multi-sensor Iris Presentation Attack (UnMIPA)數據集[93]由來自81 名個體(41 名女性和40 名男性)的18 706 張虹膜圖像組成,這些圖像是在室內和室外環境下使用多個虹膜傳感器對佩戴和未佩戴紋理隱形眼鏡的對象拍攝所得,其中隱形眼鏡的品牌和顏色各異,品牌包括Bausch &Lomb、Freshlook Dailies、Freshlook Colorblends 和Celebration,顏色包括藍色、綠色、灰色、紫色和棕色.該數據集是由真假虹膜組成的單個最大規模的虹膜呈現攻擊數據集.
Cataract Mobile Periocular Database (CMPD)[140]是通過移動設備在2 個不同的階段中捕獲的: 術前和術后.術前階段采集了受白內障影響的眼周圖像,術后階段則采集了手術后7 至10 天的眼周圖像.該數據集在術前和術后階段,分別有145 和99 個受試者,且56 個受試者是重復的,每個受試者的樣本數量從3 到6 不等,成像設備為搭載1 600 萬像素相機的MicroMax A350 Canvas Knight 手機.該數據集共計包含了2 380 張分辨率為 4 608×3 456 像素的眼周圖像.
WVU Mobile Iris Spoofing (IIITD-WVU)Dataset[14]是專為LivDet-Iris 2017 比賽而收集的,由2 個數據集合并而成,其中IIITD 數據集用來進行模型訓練,而WVU 數據集用于模型測試.該數據集適合評估在傳感器和采集環境不同條件下的跨數據集的檢測性能.具體地,訓練集由2 250 張真實虹膜圖像、1 000 張紋理隱形眼鏡虹膜圖像和3 000張打印虹膜圖像組成,構成了4 個子集類別: 佩戴紋理隱形眼鏡的虹膜圖像、真實虹膜圖像的打印圖像、佩戴紋理隱形眼鏡虹膜圖像的打印圖像和真實虹膜圖像.測試集由4 209 張使用IriShield MK2120U 移動虹膜傳感器在室內和室外兩個不同的環境情況采集的虹膜圖像組成,其中采集對象分別收集了佩戴和不佩戴紋理隱形眼鏡的虹膜圖像.測試集共計包含了702 張真實虹膜圖像、701 張紋理隱形眼鏡虹膜圖像、1 404 張打印虹膜圖像和1 402 張打印紋理隱形眼鏡虹膜圖像.
IIITD Contact Lens Iris (CLI) Database[141]包含6 570 張虹膜圖像,取自101 名個體的左右虹膜.對于每個個體,使用2 種不同的虹膜傳感器(Cogent 雙虹膜傳感器和VistaFA2E 單虹膜傳感器)分別采集未佩戴隱形眼鏡、佩戴透明隱形眼鏡和佩戴紋理隱形眼鏡的對象的虹膜圖像.另外,隱形眼鏡的制造商為諾華視康和博士倫,而顏色包括藍色、灰色、淡褐色和綠色四種.
ND Cosmetic Contact Lenses 2013 (NDCLD13) 數據集[142]由2 個子集組成,其中第1 個子集包含了3 000 張圖像組成的訓練集和1 200 張圖像組成的測試集,而第2 個子集包含了600 張圖像組成的訓練集和300 張圖像組成的測試集.第1 個子集使用LG4000 虹膜相機拍攝,訓練集和驗證集均等分為3 類: 未佩戴隱形眼鏡、佩戴透明隱形眼鏡和佩戴紋理隱形眼鏡,其中前2 類是性別平衡的,包含了不同的種族,而第3 類圖像主要來自白人男性.第2 個子集使用IrisGuard AD100 虹膜相機拍攝,并且與第1 個子集的劃分方式相同.該數據集的所有紋理隱形眼鏡均來自3 個主要的供應商: 強生公司、諾華視康和庫博光學,且包含了多種顏色種類.
The Notre Dame Contact Lense Dataset 2015 (NDCLD15)[86]的采集協議與ND Cosmetic Contact Lenses 2013 數據集類似,是后者的擴充版本.所有圖像使用IrisAccess LG4000 或者Iris-Guard AD100 虹膜相機拍攝,最終收集了7 300 張虹膜圖像,其中6 000 張圖像用于模型訓練,1 200張圖像用于模型測試.另外,數據集被等分為三類:未佩戴隱形眼鏡、佩戴透明隱形眼鏡和佩戴紋理隱形眼鏡,其中所有紋理隱形眼鏡均來自五個主要的供應商: 強生公司、諾華視康、庫博光學、科萊博和United Contact Lens (UCL),且包含了多種顏色種類.
The Notre Dame LivDet-Iris 2017 數據集[14]基于NDCLD15 進行構造,包含了佩戴和未佩戴隱形眼鏡的虹膜圖像,專門用于LivDet-Iris 2017 比賽.特別地,比賽的訓練集包含了600 張真實虹膜圖像和600 張由諾華視康、UCL 和科萊博制造的紋理隱形眼鏡虹膜圖像;測試集被劃分為已知攻擊和未知攻擊,其中前者包含了900 張由諾華視康、UCL和科萊博制造的紋理隱形眼鏡虹膜圖像和900 張真實虹膜圖像,后者包含了900 張由庫博光學和強生公司制造的紋理隱形眼鏡虹膜圖像和900 張真實虹膜圖像.所有圖像使用IrisAccess LG4000 或者IrisGuard AD100 虹膜相機拍攝所得.
Notre Dame Photometric Stereo Iris Dataset(WACV 2019)[83]提供了佩戴和未佩戴隱形眼鏡的虹膜圖像,這些圖像是在2 個不同位置的近紅外照明下連續拍攝的,使用LG IrisAccess 4000 傳感器共采集了119 名個體的5 796 張虹膜圖像.該數據集被分為四個部分用于實驗: 1) 1 800 張佩戴規則帶點狀圖案的紋理隱形眼鏡的虹膜圖像;2) 864 張佩戴不規則無點狀圖案的紋理隱形眼鏡的虹膜圖像;3) 1 728 張佩戴透明隱形眼鏡的虹膜圖像(無任何可見的美瞳紋理);4) 1 404 張真實虹膜圖像.
NDIris3D[84]數據集共包含6 850 張圖像,其中3 488 張圖像使用LG4000 拍攝,3 362 張圖像使用AD100 拍攝,分別取自89 名佩戴和不佩戴紋理隱形眼鏡的個體.在LG4000 拍攝的圖像中,1 752 張圖像為真實虹膜樣本,1 736 張圖像為佩戴紋理隱形眼鏡樣本,含770 個規則帶點狀圖案的紋理隱形眼鏡樣本和966 個不規則無點狀圖案的紋理隱形眼鏡樣本.在AD100 拍攝的圖像中,1 706 張圖像為真實虹膜樣本,1 656 張圖像為佩戴紋理隱形眼鏡樣本,含742 個規則帶點狀圖案的紋理隱形眼鏡樣本和914 個不規則無點狀圖案的紋理隱形眼鏡樣本.NDIris3D 原始是為基于光度立體特征的虹膜呈現攻擊檢測算法[83-84]而開發的,是已知的最大一個在2 個不同方向的近紅外光源照射下,從相同對象獲取的帶有和不帶有紋理隱形眼鏡的虹膜數據集.
目前,有關虹膜呈現攻擊檢測的比賽較少,除在主流的國際生物特征識別會議如ICB、BTAS、IJCB 上舉辦的系列比賽LivDet-Iris 外,僅有2014年舉辦的MobILive.本文對比賽信息進行了匯總,如表5 所示.
第一屆虹膜呈現攻擊檢測比賽是由克拉克森大學、華沙工業大學和圣母大學聯合在IEEE International Conference on Biometrics: Theory,Applications and Systems (BTAS) 2013 舉辦的Liv-Det-Iris 2013 比賽[11].該比賽使用的數據集由上述3 所院校提供,包括圣母大學的NDCLD13、華沙工業大學的Warsaw 子集和克拉克森大學的Clarkson 子集,分別使用LG4000、IrisGuard AD100 和DALSA 相機拍攝,攻擊類型包括打印虹膜和紋理隱形眼鏡虹膜,且所有打印虹膜被成功用于欺騙商業虹膜識別系統,因此這些打印虹膜代表了真實的呈現攻擊.比賽共有3 個隊伍成功提交了算法,其中University of Naples Federico II 提出的Federico 方法在3 個數據子集上獲得了最好的檢測結果,其真實呈現誤判率(BPCER)為28.56%,呈現攻擊誤判率(APCER)為5.72%.通過實驗分析,進一步地發現打印虹膜相比紋理隱形眼鏡虹膜更容易檢測.
第二屆虹膜呈現攻擊檢測比賽是由INESC TEC 和波爾圖大學聯合在IEEE International Joint Conference on Biometrics (IJCB) 2014 舉辦的MobILive 2014 比賽[12],首次面向移動端環境而設置.比賽使用的數據集為MobBIOfake,采集自100 名個體,每名個體由8 張真實虹膜圖像和8 張對應的打印虹膜圖像組成,因此共有1 600 張圖像,通過移動的手持設備在可見光環境下采集得到.比賽共有6 個來自不同國家和地區的隊伍參加,最后來自印度理工學院印多爾分校(IIT Indore)的團隊提交的算法贏得了比賽冠軍,其真實呈現誤判率(BPCER)為0.50%,呈現攻擊誤判率(APCER)為0.00%,即算法僅錯誤地將0.50%的真實虹膜錯誤分類為呈現攻擊,而打印虹膜均被正確地識別為呈現攻擊.該算法同時融合了3 種紋理特征算子:Local Phase Quantization、Binary Gabor Pattern 和Local Binary Pattern,并將融合后的特征送入帶有線性核的SVM 分類器中進行真假分類.比賽結果表明: 閉集的打印虹膜呈現攻擊檢測可以看成是一個已經解決的問題.
LivDet-Iris 2015 比賽[13]是LivDet-Iris 2013比賽的延續,由克拉克森大學和華沙工業大學聯合在International Conference on Biometrics (ICB)2016 上承辦.類似地,本次比賽的虹膜呈現攻擊類型包括打印虹膜和紋理隱形眼鏡虹膜,構成了3 個子集: Clarkson LG 數據集、Clarkson Dalsa 數據集和Warsaw IrisGuard 數據集.Clarkson LG 數據集使用LG IrisAccess EOU2200 相機拍攝虹膜圖像,產生了訓練集和測試集,前者包含450 張真實虹膜圖像、576 張紋理隱形眼鏡圖像和846 張打印圖像,后者包含378 張真實虹膜圖像、576 張紋理隱形眼鏡圖像和900 張打印虹膜圖像.Clarkson Dalsa 數據集使用一個修改的Dalsa 相機捕獲近紅外光下的人臉圖像,然后從中裁剪出虹膜區域,產生了訓練集和測試集,前者包含700 張真實虹膜圖像、873 張紋理隱形眼鏡圖像和846 張打印虹膜圖像,后者包含378 張真實虹膜圖像、558 張紋理隱形眼鏡圖像和900 張打印虹膜圖像.Warsaw Iris-Guard 數據集使用IrisGuard AD100 相機拍攝虹膜圖像,并使用Lexmark 534dn 打印機打印真實的虹膜圖像,構造的訓練集包含852 張真實虹膜圖像和815 張打印虹膜圖像,而測試集包含2 002 張真實虹膜圖像和3 890 張打印虹膜圖像.最后,比賽共收到了4 個有效的算法提交,其中來自University of Naples Federico II 團隊提出的Federico 算法在3 個數據集的平均錯誤率最低,檢測效果最好,其真實呈現誤判率(BPCER) 為1.68%,呈現攻擊誤判率(APCER)為5.48%.總體來說,虹膜呈現攻擊檢測算法的性能從2013 年到2015 年已經有了巨大的改進.
時隔兩年的LivDet-Iris 2017 比賽[14]由克拉克森大學、華沙工業大學、圣母大學、西弗吉尼亞大學和印度理工學院德里分校聯合在IEEE International Joint Conference on Biometrics (IJCB)2017 上舉辦,虹膜呈現攻擊類型包括紙質打印虹膜和紋理隱形眼鏡虹膜.比賽共使用了4 個數據集進行評測,包括Clarkson 數據集、Warsaw 數據集、The Notre Dame LivDet-Iris 2017 數據集和IIITDWVU 數據集.其中Clarkson 數據集由克拉克森大學使用LG IrisAccess EOU2200 相機進行收集,在LivDet-Iris 2015 使用的Clarkson LG 數據集基礎上進行了擴展,訓練集包含2 469 張真實虹膜圖像、1 122 張紋理隱形眼鏡圖像和1 346 張打印圖像,測試集包含1 485 張真實虹膜圖像、765 張紋理隱形眼鏡圖像和908 張打印虹膜圖像.Warsaw 數據集由華沙工業大學收集,在LivDet-Iris 2013 和LivDet-Iris 2015 比賽使用的數據集基礎上進行了擴展,訓練集包含1 844 張真實虹膜圖像和2 669 張打印虹膜圖像,測試集包含3 324 張真實虹膜圖像和4 176張打印虹膜圖像.The Notre Dame LivDet-Iris 2017 數據集和IIITD-WVU 數據集已在第4 節中介紹.總體來說,本次比賽使用了更多的數據集,且新增了2 個設置,第一是將測試集進一步地按照攻擊類型分為已知攻擊子集和未知攻擊子集,已知攻擊子集的圖像與訓練集圖像具有相似的采集設置,而未知攻擊子集可能取自與訓練集不同的成像環境、傳感器、攻擊工具種類等;第二是設置了跨數據集挑戰.最后,比賽共收到了3 個有效的算法提交,其中來自匿名團隊提交的Anon1 算法在4 個數據集上取得了最好的平均結果,其真實呈現誤判率(BPCER) 為3.36%,呈現攻擊誤判率(APCER) 為14.71%.本次比賽表明現有算法在檢測未知攻擊類型或者跨數據集的虹膜呈現攻擊方面仍然有較大的提升空間.
LivDet-Iris 2020 比賽[15]是虹膜呈現攻擊檢測系列比賽的第四屆,于2020 年5 月由克拉克森大學、圣母大學、華沙工業大學、瑞士IDIAP 研究所和華沙醫科大學聯合在IEEE International Joint Conference on Biometrics (IJCB) 2020 上舉辦.相比前幾次比賽,本次比賽呈現出若干新特點: 1) 在先前打印虹膜和紋理隱形眼鏡虹膜的基礎上,增加了屏顯虹膜、義眼和尸體虹膜為新的呈現攻擊類型.此外,還增加了一些組合攻擊類型,如在紙張打印虹膜上放置透明或紋理隱形眼鏡、在義眼上放置紋理隱形眼鏡等.2) 將LivDet-Iris 作為一項持續的工作,通過Biometrics Evaluation and Testing(BEAT) 開源平臺持續向公眾開放評測.3) 本次比賽將選手提交的算法與由圣母大學和密歇根州立大學提供的3 種基準方法以及3 種開源算法進行性能比較.4) 本次比賽沒有提供任何官方的訓練數據集,比賽選手可以自由使用任何公有和私有數據集設計算法,測試集僅提供關于攻擊類型的簡短描述,而測試樣例并未公開釋放給選手.具體地,測試數據集包含5 331 張真實虹膜圖像和7 101 張呈現攻擊虹膜圖像.從攻擊類型來看,打印虹膜子集包含了1 049 張虹膜圖像,紋理隱形眼鏡虹膜子集包含了4 336 張虹膜圖像,屏顯虹膜子集包含了81 張虹膜圖像,尸體虹膜子集包含了1 094 張虹膜圖像,義眼及組合攻擊子集包含了541 張虹膜圖像.各種不同的傳感器被使用以獲取不同類型的虹膜呈現攻擊圖像.比賽共收到了3 個有效的算法提交,其中USACH/TOC 團隊[7]贏得了冠軍,其在所有攻擊類型上的平均呈現攻擊誤判率(APCER)為59.10%,真實呈現誤判率(BPCER)為0.46%,即平均分類錯誤率(ACER) 為29.78%.盡管如此,最好的性能卻來自于密歇根州立大學提供的基準算法D-Net-PAD[20],其平均分類錯誤率(ACER)僅為2.18%,這可能主要得益于其使用了更全面的訓練集來設計算法.
總體來說,虹膜呈現攻擊檢測系列比賽的主要目的是提供一個公開的平臺用來公正地評估現有檢測算法的性能,其中LivDet-Iris 2013、MobILive 2014 和LivDet-Iris 2015 采用了閉集的評估方法,即訓練集和測試集的數據分布和攻擊類型是相同的.然而LivDet-Iris 2017 和LivDet-Iris 2020 則提出了更多的挑戰,部分采用了開集的評估方法,以度量IPAD 算法在未知目標域和未知攻擊類型上的泛化性.從現有比賽結果來看,閉集的虹膜呈現攻擊檢測問題趨向于已解決,而開集的虹膜呈現攻擊檢測仍然是一個遠未解決的研究問題,特別是大規模的評測數據集仍然是匱乏的,現有算法對未知攻擊類型的泛化能力有限,因此需要學術界和產業界的共同努力以促進本領域的進一步發展.更完整的關于虹膜呈現攻擊檢測比賽的內容可參考最新的綜述[143].
在生物特征識別系統中,除了準確性外,可解釋性也是衡量系統是否可以大范圍部署和安全使用的一個重要考量.這里可解釋性主要是指某些算法或系統的行為和預測能夠被人類所理解.對于虹膜呈現攻擊檢測,學術界和產業界普遍關注呈現攻擊樣例被檢測出的內部機理,以便調試系統,對系統做進一步的改造升級,減少系統偏見和增加公平性、可靠性.
一般來說,算法可解釋性可以分為兩類,一類是算法本身由于結構簡單而被認為是可解釋的,如閾值法、決策樹、K-Means 聚類、線性回歸、SVM等傳統算法具有很好的自解釋性,它們的預測結果有跡可循;另一類是事后解釋性,即算法模型訓練后運用與模型無關的解釋方法進行判決歸因,分析做出決策的依據.對于很多基于深度學習的虹膜呈現攻擊檢測算法,由于深度學習模型本身的黑盒效應,因此往往只能采用后一類方法對模型預測的結果進行事后解釋,以提供某些觀察來分析模型和改進模型.因此,總體來說,基于硬件的方法和基于傳統計算機視覺的方法大多具有較好的可解釋性,被產業界廣泛采用,而基于深度學習的方法普遍解釋性較弱,近年來得到了研究人員的日益關注.
Sharma 等[20]通過t-SNE[95]繪圖和Grad-CAM[92]熱圖對提出的基于DenseNet 卷積神經網絡結構的虹膜呈現攻擊檢測模型D-NetPAD 進行了可視化分析.正如第3.3.1 節所述,D-NetPAD 接受虹膜圖像作為輸入,然后使用4 個Dense Block進行特征提取,最后通過全連接層預測了一個PA得分來決定輸入圖像是真實虹膜還是呈現攻擊.
圖27 展示了訓練好的D-NetPAD 模型在測試樣例上的可視化結果,其中圖27(a)為t-SNE 圖,它將D-NetPAD 的每個Dense Block 末尾提取的高維特征減小到更低的維度(這里為二維),然后用于構建散點圖.從中可以看出,真實虹膜(Bonafide)、義眼(Artificial eyes) 和紋理隱形眼鏡(Cosmetic contacts)的二維特征在初始層中重疊在一起,然后隨著網絡不斷加深逐漸被分離,最后徹底分離開來.圖中真實虹膜中的2 個藍色簇分別對應著受噪聲影響的左右眼.CNN 特征分布變化的過程顯示了D-NetPAD 模型具有先進的特征提取能力,可以較好地辨別真假虹膜.圖27(b)顯示了在真實虹膜圖像、義眼和紋理隱形眼鏡上的Grad-CAM 熱圖,它通過計算虹膜呈現攻擊檢測分數相對于卷積層特征映射的梯度來衡量圖像像素的重要性.如圖所示,最后一列表示在整個測試集上每個類別的平均熱圖,紅色區域代表CNN 高度激活,而藍色區域代表CNN 較低激活.第一行展示了真實樣本圖像的熱圖以及平均真實熱圖,其中高激活區域位于瞳孔附近區域.第二行對應了義眼圖像的熱圖,其中焦點主要集中在虹膜的左右兩個子區域.最后一行展示了紋理隱形眼鏡圖像的熱圖,其聚焦于虹膜的下半區域.不同類別聚焦于不同的區域,這有助于區分真假虹膜.

圖27 D-NetPAD 的特征可視化[20]Fig.27 Feature visualization of D-NetPAD[20]
Chen 等[21]提出了一種注意力引導的虹膜呈現攻擊檢測模型AG-PAD.為進一步識別用于預測真假虹膜的圖像關鍵區域,在注意力模塊前后分別應用Grad-CAM 生成可視化熱圖,如圖28 所示.圖中第一行為虹膜圖像,其中第一列為真實虹膜,第二和四列為隱形眼鏡,第三列為義眼圖像;第二行是使用注意力模塊之前的可視化結果;第三行是使用注意力模塊之后的可視化結果.顯然,引入注意力模塊使得網絡能夠將焦點轉移到環形虹膜區域,從而做出最終決策.這與人類的直覺相符,一般位于瞳孔區域之外的虹膜紋理在呈現攻擊檢測中發揮著更重要的作用.

圖28 AG-PAD 的Grad-CAM 熱圖[21]Fig.28 Grad-CAM heatmaps of AG-PAD[21]
正如第3.3.4 節所述,Fang 等[9]提出了一種基于注意力機制和深度逐像素二值監督改進的Dense-Net 模型用于虹膜呈現攻擊檢測,命名為A-PBS.為進一步地驗證這些改進的有效性,他們隨機選取了若干真實虹膜和假體虹膜樣本,并應用Score-CAM[144]方法生成可視化熱圖,如圖29 所示.作為比較,基于全局二值監督的DenseNet 模型、基于深度逐像素二值監督的DenseNet 模型(PBS)也進行了可視化展示.可以看到,PBS 和A-PBS 模型更加關注于虹膜區域,而DenseNet 模型似乎丟掉了一些信息.進一步地,PBS 模型的注意力熱圖看起來幾乎覆蓋了整個虹膜和瞳孔區域,而A-PBS 模型由于使用了空間注意力機制,則將更多的注意力焦點轉移到圓形虹膜上,例如虹膜的邊界.以上分析表明了注意力機制和深度逐像素二值監督的有效性.

圖29 不同方法的Score-CAM 熱圖[9]Fig.29 Score-CAM heatmaps of different methods[9]
對于尸體虹膜,由于生物特征本身的不同呈現,虹膜樣本之間仍存在一些差異,這與眼瞼的外觀最顯著相關.在尸檢數據中,眼瞼經常被開瞼器拉開,以保持眼睛張開狀態進行圖像采集.為減輕這些差異,要求參與收集活體虹膜的對象盡可能睜大眼睛.然而,開瞼器的存在仍然是一個問題,因為這些部件出現在尸體虹膜中,而沒有出現在活體虹膜樣本中.如圖30 所示,為檢驗開瞼器在訓練DCNN辨別尸體虹膜和活體虹膜時是否會作為線索,Trokielewicz 等[22]在原始虹膜圖像(第一和第二列)和裁剪虹膜圖像(第三和第四列)上分別應用了Grad-CAM 進行可視化分析.在第二行中,開瞼器清晰地出現在原始虹膜圖像中,而在第一行中,原始虹膜圖像盡管沒有出現開瞼器,但是眼瞼發生了嚴重扭曲.裁剪后的圖像避開了這些缺點.從Grad-CAM熱圖可以看出,對于原始虹膜圖像,開瞼器和嚴重扭曲的眼瞼取代虹膜區域提供了真假虹膜判別線索,這是不合理的.該問題可以通過裁剪虹膜圖像來改善.從右圖中可以發現,虹膜及其邊界成為了模型關注的焦點,但是它們仍然與真實虹膜關注的區域不同,因此可以正確地識別出尸體虹膜.

圖30 DCNN 的Grad-CAM 熱圖[22]Fig.30 Grad-CAM heatmaps of DCNN[22]
總體來說,使用特征可視化方法有助于提高深度學習模型的可解釋性,其中t-SNE 從群體特征分布的角度分析了模型的性能,而Grad-CAM 和Score-CAM 則可以針對單個測試實例進行CNN 激活分析,幫助了解影響模型預測的圖像顯著性區域.除特征可視化方法外,其他針對虹膜呈現攻擊檢測的可解釋性方法幾乎沒有.另外,在更廣的生物特征識別領域對于可解釋性研究的相關理論和方法也暫無統一標準,因此研究具有可解釋性的虹膜呈現攻擊檢測算法任重道遠.
由于虹膜識別具有高精度、穩定性、大容量、非接觸性、方便快捷等優點,使得其被廣泛應用于現實生產生活場景中.因此,虹膜呈現攻擊檢測對提高虹膜識別的安全性和可靠性具有重要意義.隨著深度學習技術的不斷發展,基于神經網絡的虹膜呈現攻擊檢測方法也不斷增多,并在性能上取得了顯著的進步.除了提高檢測性能,越來越多的研究也開始關注可解釋性、公平性等其他方面.
本文全面總結了虹膜呈現攻擊檢測方法的最新進展,介紹了虹膜呈現攻擊類型,特別是詳述了新型攻擊類型——合成虹膜攻擊,闡明了虹膜呈現攻擊的目的.進一步地,將現有虹膜呈現攻擊檢測方法分為基于硬件與基于軟件的方法,在基于軟件的方法中又分為基于傳統計算機視覺的方法、基于深度學習的方法和多源特征融合的方法.除上述幾點外,本文的主要貢獻還在于引入注意力機制的方法、對基于生成對抗網絡的方法和域自適應的方法進行了總結、關注檢測方法的可解釋性、對開源代碼以及公開數據集的歸納整理等.
自2003 年Daugman 提出的幾種可以檢測虹膜呈現攻擊的方法起,該問題一直得到了研究人員的關注.不同學者已經研究了各種方法進行虹膜呈現攻擊檢測,例如依賴額外設備的硬件方法通過利用人眼的生理和物理特性檢測攻擊;基于軟件的方法,包括傳統計算機視覺的方法與近年流行的基于神經網絡的方法,通過分析圖像中真實虹膜與攻擊虹膜的紋理差異、質量差異、深度特征差異等檢測攻擊.盡管這些方法在不同數據集上取得了較好的結果,但虹膜呈現攻擊檢測中仍有一些亟待解決的潛在問題需要持續進行研究,其中部分問題也引起了生物特征識別領域多位知名學者如美國密歇根州立大學Jain 教授[27]和Ross 教授[145]、美國圣母大學Bowyer 教授[16-17]、印度理工學院焦特布爾分校Singh 教授[146]、挪威科技大學Busch 教授[8]等的廣泛關注和討論.
1) 對未知呈現攻擊的泛化性
大多數方法針對單一攻擊類型,且用于模型訓練的數據集規模相對較小,因此容易導致過擬合.而在實際應用過程中,虹膜呈現攻擊類型眾多,采集虹膜圖像的傳感器各不相同,成像環境如光源和采集對象配合程度不同,這些都有可能導致訓練集和測試集存在域偏移的問題,降低了模型應用于實際檢測的通用性和魯棒性.更進一步地,如第3.5 節所述,開集的虹膜呈現攻擊檢測仍然是一個遠未解決的問題,目前現有的檢測算法對于未知的呈現攻擊類型僅有有限的泛化性,難以滿足實際應用的需要.為解決跨領域和跨攻擊類型的泛化性問題,研究人員陸續提出了域自適應[10,113]、多源特征融合[6,122]、異常檢測(或單類別分類)[108,130]、結合人類先驗知識[147]等方法,取得了一些進展.然而隨著虹膜呈現攻擊工具的不斷進化、虹膜識別場景的日益豐富和應用范圍的逐步擴大,虹膜呈現攻擊檢測面臨的挑戰將會與日俱增,因此提升檢測算法在處理跨數據集、跨傳感器、跨環境、跨攻擊類型等場景時的泛化性仍是未來亟需解決的一個關鍵科學問題[27,145].一些有前途的解決該問題的研究方向包括:a) 使用更新更先進的網絡結構;b) 研究優于全局二值監督和局部逐像素二值監督的更有效的IPAD監督策略;c) 利用遷移學習、元學習、度量學習等學習有判別力的、可區分性的真假虹膜特征表示;d) 研究開集分類或者識別(Open set classification/recognition) 方法[148];e) 研究更有效的異常檢測方法.
2) 虹膜呈現攻擊檢測與虹膜識別的集成部署
如第1.3 節所述,當集成了虹膜呈現攻擊檢測功能的虹膜識別系統部署到資源受限的邊緣設備、移動設備、嵌入式設備等時,在保證性能的前提下需要額外考慮虹膜呈現攻擊檢測模型的輕量化部署,減少設備的負載[27,145].同時,計算復雜度應該盡可能低、推理速度盡可能快,減少響應的延遲,避免影響整個識別過程的效率和用戶體驗.
一般來說,設計輕量級的且滿足實時推理的虹膜呈現攻擊檢測模型主要是針對基于深度學習的方法而言,而傳統方法普遍沒有這方面的問題.現有的深度學習模型主要關注檢測的準確性方面,而沒有特別考慮模型的空間和時間復雜性.為滿足上述要求,可考慮采用一些輕量級的網絡結構如MobileNet[149]、EfficientNet[150]等,或者利用模型的壓縮、量化、剪枝等策略提升模型的可用性.但是輕量級的模型可能會降低檢測性能,因此如何對性能和復雜性之間做平衡是虹膜呈現攻擊檢測方法實際部署時需要首先考慮的問題.
此外,在并行集成方式中,有2 個突出問題值得深入探索: a) 統一的虹膜呈現攻擊檢測和虹膜識別模型.盡管Dhar 等[30]首次提出EyePAD 和Eye-PAD++驗證了統一模型的有效性,但是是否有更好的模型結構仍然需要進一步研究.特別是在多任務學習范式、骨干網絡等方面,需要考慮如何在一個統一的框架下分別獲取針對虹膜呈現攻擊檢測和虹膜識別的最佳特征;是否可以利用一些最新的網絡結構如視覺Transformer (Vision transformer,ViT)[118]作為統一模型的骨干網絡等.b) 虹膜呈現攻擊檢測和虹膜識別的分數融合.應當注意的是,盡管從理論上來說,分數融合是可行的,并且在人臉[151]和指紋[152]方面均有成功實踐,但是目前我們并未發現在虹膜上的文獻記載.因此進一步地探索分數融合在虹膜上的可行性是未來可能的一個研究方向,其中選擇一個合適的結合指標是關鍵,元學習[153]或許是一種有效的解決方案.
3) 可信性
得益于高度的準確性和便利性,包括虹膜識別在內的生物特征識別系統在一定程度上取代了傳統密碼等身份驗證方式,然而公眾對生物特征識別系統的可信性方面仍然保有懷疑和強烈關切,因此持續的研究勢在必行.可信性一般包括準確性、偏見與公平性、安全性、可解釋性以及隱私性[27].
具體而言,偏見與公平性是指生物特征識別系統是否在所有人口統計學群體中都能正常工作,以及系統在一個人口統計學群體中的某類屬性上是否有偏差,例如年齡、性別、種族等.例如文獻[154]分析了在人臉呈現攻擊檢測中的公平性問題;一些人臉識別模型已經被證實存在人口統計學偏差[155-157].同樣地,在虹膜呈現攻擊檢測中,Fang等[23]對人口統計學中的性別進行了研究和分析,通過實驗發現,男性和女性樣本之間的算法性能和結果存在顯著差異,且男性的錯誤率低于女性,揭示了女性受到虹膜呈現攻擊檢測系統的保護可能不足.然而Agarwal 等[146]通過一個更大規模的、性別均衡的、在受控室內環境和非受控室外環境下采集的數據集分析發現,造成虹膜呈現攻擊檢測算法性別偏差的原因可能不在于性別本身,而在于圖像采集環境等其他因素.未來可能的研究方向包括: a) 調研虹膜呈現攻擊檢測算法在其他人口統計學屬性,如眼睛顏色、種族等的偏差及其原因;b) 提出有效的方法顯著緩解人工統計學的偏差問題,例如可以考慮在發展虹膜呈現攻擊檢測算法的時候將學習到的中間特征進行解耦,僅依賴與人工統計學信息無關的特征進行真假分類,或者學習人工統計學中無偏的中間態,將其作為媒介緩解算法對輸入的偏差等.
如第6 節所述,目前已經有一些虹膜呈現攻擊檢測的工作[20-22]通過t-SNE 和Grad-CAM/Score-CAM 等可視化技術研究了算法的可解釋性,然而目前的解釋仍然比較主觀和被動,原因可能是缺乏準確的逐像素呈現攻擊標注作為評估和發展可解釋的虹膜呈現攻擊檢測方法的基礎.此外,一些更先進的特征可視化方法亟待提出以更好地幫助分析、調試和改進檢測算法.
目前虹膜數據集體量小,主要原因是數據采集復雜、成本較高,其中近紅外圖像需要使用專用的傳感器采集,另外志愿者出于隱私保護的角度也不愿意配合采集.當前許多大型人臉數據集開始不對外開放,雖然虹膜圖像不像人臉圖像的身份辨識度高,但隱私問題依然存在.歐盟在2016 年出臺了《通用數據保護條例》 (General data protection regulation,GDPR),其中規范了數據保護和隱私的條例,并涉及到了歐洲境外的個人數據出口.受此影響,一些虹膜數據集不再開源,例如LivDet-Iris系列競賽中的Warsaw 數據集已經不再公開釋放.因此,如何在保護虹膜數據的用戶隱私的前提下設計虹膜呈現攻擊檢測方法是一個值得思考的問題,一些最新的技術如聯邦學習[158]等是有潛力的探索方向.
4) 開源方法、大規模開放數據集和算法評估
如第3.6 節所述,當前開源的虹膜呈現攻擊檢測方法偏少,導致研究者很難對現有的模型進行有效分析,從而去升級改造模型;同時另一方面,在進行方法比較時,也很難做到公平性.基于這些考慮,鼓勵研究者開源檢測算法,提高算法的可復現性和可重用性,促進虹膜呈現攻擊檢測領域的良性發展[16-17].
從第4 節及表4 可以看出,現有的虹膜呈現攻擊檢測開放數據集存在攻擊類型單一、攻擊樣本數量較少、采集環境不夠多樣化、缺乏人口統計學屬性等問題,影響了虹膜呈現攻擊檢測模型的準確性、泛化性和公平性等.為此,需要進一步地在多樣化的采集環境下收集大規模的、涵蓋全面的攻擊類型的、具有豐富人口統計學屬性的數據集[146],并在保護用戶隱私的前提下進行開放.進一步地,從系統集成的角度出發,如第1.3 節所述,也缺乏大規模的含有真假類別標注的虹膜識別數據集以方便開發和評估統一的虹膜呈現攻擊檢測和虹膜識別模型.
如第2.1 節所述,虹膜呈現攻擊檢測問題已經有了統一的評價指標,然而對于最近新興的虹膜呈現攻擊檢測和虹膜識別聯合建模問題,仍然需要進一步地提煉和總結評價指標,其中文獻[30,152]可作為研究基礎.此外,也缺乏公開的基準以方便算法比較,因此本文并沒有列舉檢測性能排行榜.當前LivDet-Iris 系列競賽是唯一公開公正的算法評估平臺,特別是LivDet-Iris 2020 比賽[15]依托BEAT 開源平臺可以長期評測提交檢測算法的性能.然而從現有發表文獻來看,近些年的研究者很少使用該平臺,主要原因在于一方面該平臺使用起來不夠友好,另外一方面,LivDet-Iris 2020 比賽沒有提供訓練集.因此鼓勵研究者開發更大規模、用戶友好、包含統一訓練和測試集以及提供若干基線模型的開放基準評測平臺[17],及時反映虹膜呈現攻擊檢測領域的最新發展成果.
5) 合成虹膜
當前合成虹膜已經得到了初步研究,從視覺效果上看,合成虹膜與真實虹膜之間已經難以用肉眼去分辨,因此合成虹膜被作為一種呈現攻擊工具.在一些場景下,合成虹膜也被用來替代真實虹膜訓練虹膜識別模型,以緩解對用戶隱私等問題的擔憂.
未來合成虹膜可能的研究方向之一是持續地加強“矛”與“盾”的對抗研究,一方面研究各種最新的生成方法如擴散模型(Diffusion model)[159]以生成大規模的、高質量的、多樣化的合成虹膜圖像以欺騙檢測系統,其中可考慮創建新類型的合成虹膜,如隱形眼鏡、尸體虹膜等以及在此基礎上的打印合成虹膜、屏顯合成虹膜等[8].從集成部署的角度出發,在合成攻擊虹膜的同時保持身份信息也是重要的.另一方面,提出更魯棒有效的檢測算法以更好地檢測合成虹膜,從而提升檢測算法的泛化性.