虹膜分割算法評價(jià)基準(zhǔn)

2020-02-19 03:36:02王財(cái)勇孫哲南

計(jì)算機(jī)研究與發(fā)展 2020年2期

王財(cái)勇孫哲南

(中國科學(xué)院大學(xué)人工智能學(xué)院北京 100049) (模式識別國家重點(diǎn)實(shí)驗(yàn)室(中國科學(xué)院自動(dòng)化研究所) 北京 100190)

生物特征識別是指依賴人體固有的、獨(dú)一無二的生理特性或者行為特征通過計(jì)算機(jī)進(jìn)行身份認(rèn)證的一種技術(shù),具有方便性、普適性、安全性、唯一性,被認(rèn)為是未來身份認(rèn)證的趨勢[1].典型的生物識別技術(shù)包括：指紋識別、人臉識別、虹膜識別、掌紋識別、步態(tài)識別等.

在眾多的生物形態(tài)中,虹膜被認(rèn)為是最穩(wěn)定和最可靠的,并且由于虹膜是眼睛中一個(gè)外部可見的內(nèi)部器官,因此虹膜識別系統(tǒng)對用戶來說是非接觸式的,這些使得虹膜識別成為一種最有前途的身份識別方法[2].圖1(a)展示了眼睛中的虹膜和其他眼周結(jié)構(gòu).

Fig. 1 Periocular image and iris segmentation圖1 眼周結(jié)構(gòu)與虹膜分割

通常一個(gè)完整的虹膜識別流程包含虹膜圖像獲取、虹膜預(yù)處理、虹膜特征提取、虹膜比對.其中虹膜分割處在預(yù)處理階段,虹膜分割結(jié)果的好壞將直接影響虹膜識別的精度.虹膜分割可以由廣義和狹義之分,狹義的虹膜分割是指提取有效的未被噪聲干擾的虹膜紋理區(qū)域，提取的結(jié)果是一個(gè)二值掩模，其中1表示有效的虹膜像素，0表示其他區(qū)域，因此狹義的虹膜分割也可以看成是二類的語義分割在虹膜圖像的應(yīng)用[3]；廣義的虹膜分割除了包含狹義的分割之外，還包含了虹膜的內(nèi)外邊界定位，用于進(jìn)行虹膜的歸一化操作.本文主要討論狹義的虹膜分割，對于虹膜定位，我們將在結(jié)尾處進(jìn)行討論.圖1(b)展示了狹義的虹膜分割的結(jié)果.

由于虹膜是處在人眼的黑色瞳孔與白色鞏膜之間的圓環(huán)狀區(qū)域,很容易受到睫毛、陰影、光斑、鏡框的干擾.傳統(tǒng)的虹膜分割技術(shù)往往帶有很強(qiáng)的假設(shè)，需要經(jīng)歷復(fù)雜的預(yù)處理操作或者人工設(shè)計(jì)特征，這些方法在虹膜圖像質(zhì)量較好(如在近紅外光照條件下拍攝的高清圖片)的情況下具有較好的性能,但是對于成像質(zhì)量較差的圖像則性能下降.這些反映了傳統(tǒng)方法具有較弱的魯棒性.

近年來,深度學(xué)習(xí)技術(shù)發(fā)展突飛猛進(jìn),極大地提高了生物特征識別的精度.深度學(xué)習(xí)技術(shù)是一種機(jī)器學(xué)習(xí)技術(shù),源于人工神經(jīng)網(wǎng)絡(luò)的研究.不同于傳統(tǒng)的基于邊緣檢測、模板匹配等手工設(shè)計(jì)特征的方法,深度學(xué)習(xí)技術(shù)基于大量的數(shù)據(jù)樣本,可以自動(dòng)地從數(shù)據(jù)中提取特征,已經(jīng)廣泛應(yīng)用在語義分割、目標(biāo)檢測等領(lǐng)域.由于虹膜分割可以看成是二分類的語義分割,因此基于深度學(xué)習(xí)的語義分割框架可以直接應(yīng)用到虹膜分割上.例如,文獻(xiàn)[3]第1次提出使用全卷積網(wǎng)絡(luò)來進(jìn)行虹膜分割,最終結(jié)果顯示其精度全面超過了傳統(tǒng)的方法.

當(dāng)前提出的各類虹膜分割算法在不同的數(shù)據(jù)集上使用不同的評價(jià)指標(biāo)進(jìn)行了評估，證明了其有效性，然而由于沒有建立一個(gè)統(tǒng)一的基準(zhǔn)對各類算法進(jìn)行全面、公平的比較，妨礙了各類算法的大規(guī)模應(yīng)用.另外，我們也需要對各類算法的一般規(guī)律進(jìn)行總結(jié)，以便更好地提升算法的性能.基于以上目的，我們提出了一個(gè)公開的虹膜分割評價(jià)基準(zhǔn)，在充分考慮算法的泛化能力和應(yīng)用場景的前提下，選取了3個(gè)有代表性的含有人工標(biāo)注的公開數(shù)據(jù)集，并建立了一個(gè)統(tǒng)一的評價(jià)指標(biāo).然后我們選取了若干有代表性的虹膜分割算法，包含傳統(tǒng)的虹膜分割算法和基于深度學(xué)習(xí)的虹膜分割算法，在選取的3個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，實(shí)驗(yàn)揭示了基于深度學(xué)習(xí)的虹膜分割算法的巨大優(yōu)越性.最后我們也思考了基于深度學(xué)習(xí)的虹膜分割算法存在的問題，為后續(xù)的研究工作指明了方向.

1 虹膜數(shù)據(jù)庫

虹膜圖像是虹膜分割研究的數(shù)據(jù)基礎(chǔ),尤其是基于深度學(xué)習(xí)的虹膜分割算法,需要大量的標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí).這里的標(biāo)注是指人工標(biāo)好的虹膜二值掩膜.另一方面,我們需要對分割后的結(jié)果進(jìn)行評價(jià),最直觀有效的評價(jià)方式就是與分割標(biāo)注進(jìn)行比對,因此帶有分割標(biāo)注的虹膜圖像數(shù)據(jù)庫對于發(fā)展虹膜分割算法具有重要的意義.

本文將介紹3個(gè)重要的虹膜數(shù)據(jù)庫.這3個(gè)數(shù)據(jù)庫分別涵蓋了近紅外近距離、可見光遠(yuǎn)距離、可見光移動(dòng)端3種不同的拍攝情形,可以用來評估虹膜分割算法在不同環(huán)境下的魯棒性,且這些數(shù)據(jù)庫都帶有像素級標(biāo)注，可公開獲取.

1.1 中國科學(xué)院自動(dòng)化研究所虹膜數(shù)據(jù)庫

中國科學(xué)院自動(dòng)化所虹膜數(shù)據(jù)庫(CASIA iris image database, CASIA-Iris)[4]是由中國科學(xué)院自動(dòng)化所免費(fèi)提供給國外內(nèi)研究者使用的大型虹膜數(shù)據(jù)庫.自2002年發(fā)布CASIA-IrisV1后,截至2018年6月共有4個(gè)版本,并且新增了移動(dòng)端的虹膜圖像數(shù)據(jù)庫.CASIA 虹膜數(shù)據(jù)庫包含了從近距離到遠(yuǎn)距離拍攝、從高質(zhì)量圖像到低質(zhì)量圖像、從近紅外光到可見光等各種情形.目前最新的CASIA-IrisV4共有6個(gè)子數(shù)據(jù)庫,分別是CASIA-Iris-Interval,CASIA-Iris-Lamp,CASIA-Iris-Twins,CASIA-Iris-Distance,CASIA-Iris-Thousand,CASIA-Iris-Syn.

1) CASIA-Iris-Interval數(shù)據(jù)庫特點(diǎn)是虹膜圖像質(zhì)量高,虹膜的細(xì)節(jié)特征清晰可見,近距離、近紅外光下拍攝.

2) CASIA-Iris-Lamp數(shù)據(jù)庫有意引入了環(huán)境光照變化,獲取了具有非線性形變的虹膜圖像數(shù)據(jù),且該數(shù)據(jù)庫虹膜大部分來自東方人,因此上下眼皮與睫毛的遮擋比較嚴(yán)重,很適合檢測虹膜分割算法對于形變的魯棒性,在可見光下拍攝.

3) CASIA-Iris-Twins是第1個(gè)公開的雙胞胎虹膜庫.

4) CASIA-Iris-Distance數(shù)據(jù)庫特點(diǎn)是遠(yuǎn)距離拍攝,且拍攝對象移動(dòng).

5) CASIA-Iris-Thousand數(shù)據(jù)庫是第1個(gè)包含超過1 000個(gè)對象的虹膜數(shù)據(jù)庫.

6) CASIA-Iris-Syn數(shù)據(jù)庫是第1個(gè)合成的數(shù)據(jù)庫,可以用于虹膜活性檢測.

由于CASIA虹膜數(shù)據(jù)庫只提供了虹膜圖像,而沒有提供分割標(biāo)注.為此,文獻(xiàn)[3]從CASIA-Iris-Distance中選取子集并使用Photoshop和GrowCut[5]軟件手動(dòng)進(jìn)行了標(biāo)注.該子集共有400張虹膜圖像,分辨率是640×480,均為黑白圖片.根據(jù)文獻(xiàn)[3],我們可選取來自前30個(gè)對象的300張圖像進(jìn)行訓(xùn)練,后面10個(gè)對象的100張圖像被用來測試.圖2(a)展示了CASIA-Iris-Distance中的一些樣例圖片.

Fig. 2 Examples of images from three databases圖2 三大數(shù)據(jù)集上的樣例圖片

1.2 葡萄牙貝拉地區(qū)大學(xué)噪聲可見光虹膜數(shù)據(jù)庫

葡萄牙貝拉地區(qū)大學(xué)噪聲可見光虹膜數(shù)據(jù)庫(University of Beira Interior noisy visible wave-length iris image databases, UBIRIS)[6]是由葡萄牙University of Beira Interior的SOCIA Lab(Soft Computing and Image Analysis Group)收集,于2004年公開發(fā)布，主要是為了促進(jìn)較少約束條件下的帶噪聲的虹膜圖像識別.UBIRIS數(shù)據(jù)集分為2個(gè)部分：UBIRIS.V1與UBIRIS.V2.其中UBIRIS.V1的特點(diǎn)是：引入了多種噪聲,如運(yùn)動(dòng)模糊、鏡面反射、眼皮遮擋、閉眼等,是在近距離可見光下拍攝.相比UBIRIS.V1，UBIRIS.V2使用了遠(yuǎn)距離拍攝,且允許拍攝對象緩慢移動(dòng)，因而UBIRIS.V2引入了更多的噪聲,如離焦模糊、隱形眼鏡遮擋、頭發(fā)遮擋等.

為了促進(jìn)虹膜識別的發(fā)展，葡萄牙University of Beira Interior發(fā)布了噪聲虹膜挑戰(zhàn)評估賽(Noisy Iris Challenge Evaluation， NICE[7-8]).NICE共舉辦了2次,其中NICE.I[7]主要側(cè)重于虹膜分割,NICE.II[8]主要側(cè)重于虹膜特征提取和比對.NICE.I比賽使用的數(shù)據(jù)集來自UBIRIS.V2,訓(xùn)練集和測試集各有500張圖片,分辨率是400×300，均為彩色圖片.這里需要說明的是,我們從NICE.I組織者下載的測試圖像中缺失了55張,因此共有445張,但總的來說不影響虹膜分割算法的性能評估.圖2(b)展示了NICE.I比賽中使用的部分樣圖.

1.3 移動(dòng)端虹膜挑戰(zhàn)評估數(shù)據(jù)庫

移動(dòng)端虹膜挑戰(zhàn)評估(mobile iris challenge evaluation, MICHE)[9]數(shù)據(jù)庫是為移動(dòng)端虹膜挑戰(zhàn)賽[10]而收集.該比賽同NICE比賽一樣,也分成了2部分：第1部分,即MICHE-I,主要任務(wù)是移動(dòng)端虹膜圖像分割；第2部分,即MICHE-II,主要任務(wù)是移動(dòng)端虹膜圖像識別.目前公開可得的MICHE數(shù)據(jù)集是MICHE-I,該數(shù)據(jù)集主要用于MICHE-I以及MICHE-II的訓(xùn)練環(huán)節(jié).

MICHE-I虹膜數(shù)據(jù)庫是由3部移動(dòng)裝置iPhone5(IP5)，Galaxy Samsung IV(GS4)，Galaxy Tablet II(GT2)拍攝,分別包含1 262,1 297,632張圖片,此外還包含40張合成圖像,113個(gè)使用移動(dòng)設(shè)備拍攝的虹膜視頻.MICHE-I數(shù)據(jù)庫主要特點(diǎn)是使用移動(dòng)設(shè)備獲取,包含了更多的現(xiàn)實(shí)噪聲,且大多數(shù)圖像都是在無約束條件下獲得,因此更接近現(xiàn)實(shí)情況,有利于移動(dòng)端虹膜識別的研究.由于該數(shù)據(jù)庫僅僅提供了虹膜圖像,沒有提供分割標(biāo)注,幸運(yùn)的是Hu等人[11]從IP5和GS4中隨機(jī)選取了一部分圖片,并進(jìn)行了眼睛區(qū)域的提取,生成了一個(gè)包含569張圖片的子集,然后進(jìn)行了手動(dòng)虹膜分割,其中140張圖片用來進(jìn)行訓(xùn)練,余下的429張圖片進(jìn)行測試.為了加速虹膜分割進(jìn)程,所有圖像的寬度縮放到400,高度縮放到與原始圖像保持相同的比例,最終的圖像尺寸大致在400×400,均是彩色圖片.圖2(c)展示了MICHE-I的部分樣例圖片.

注意：為了方便起見,后文統(tǒng)一將CASIA-Iris-Distance簡稱為CASIA,UBIRIS.V2簡稱為UBIRIS,MICHE-I簡稱為MICHE.

2 評價(jià)指標(biāo)

合適的虹膜分割性能評價(jià)方法對于發(fā)展高效魯棒的虹膜分割算法至關(guān)重要.一般來說,評價(jià)虹膜分割算法有2種主要的方法：第1種就是直接評價(jià)虹膜分割的效果,通過將標(biāo)記過的虹膜掩模與預(yù)測得到的虹膜掩模按照某種指標(biāo)進(jìn)行比較；第2種就是間接進(jìn)行比較.由于虹膜分割的主要目的是為了進(jìn)行虹膜識別,因此我們可以通過比較虹膜識別的性能來間接得到虹膜分割算法的性能指標(biāo),但是由于這種比較方法涉及到了一些額外的中間操作過程,如歸一化處理等,所以這里不作為主要的評價(jià)指標(biāo)進(jìn)行測試.另外我們還需要考慮虹膜分割的時(shí)間以及占用的運(yùn)行內(nèi)存,所以一個(gè)全面的虹膜分割評價(jià)指標(biāo)應(yīng)該覆蓋這些方面.下面我們介紹虹膜分割評價(jià)指標(biāo).

指標(biāo)1.來自NICE.I比賽[7]，包含2個(gè)評價(jià)指標(biāo)E1和E2[12].假定Ii表示輸入圖像,O(c′,r′)表示預(yù)測得到的虹膜掩模,C(c′,r′)表示標(biāo)記過的虹膜掩模.3個(gè)圖像必須大小相等,并且為了計(jì)算簡單,O(c′,r′)和C(c′,r′)都取為二值圖像.因此第i幅圖像的分割錯(cuò)誤率ei可以被計(jì)算為預(yù)測虹膜掩模與標(biāo)記虹膜掩模之間不一致的像素占全體像素的比例，即

(1)

其中c′和r′是預(yù)測虹膜掩模與對應(yīng)的標(biāo)記虹膜掩模的坐標(biāo),r和c相應(yīng)地表示為圖像的行數(shù)和列數(shù),?為邏輯異或操作.整體的識別率E1可以看成是所有測試圖像錯(cuò)誤率的平均.

(2)

E2是為了彌補(bǔ)圖像中虹膜像素與非虹膜像素占比不均等的缺點(diǎn).它平衡了假陽性率fp和假陰性率fn,如圖3所示，計(jì)算如下：

(3)

同理,E2為所有測試圖像錯(cuò)誤率的平均.

(4)

這2個(gè)測度的值位于[0,1]之間，其中1和0分別表示最差和最好的情況.

Fig. 3 Example of calculation of fn,fp,tp for iris segmentation[13]圖3 計(jì)算虹膜分割指標(biāo)fn,fp,tp的示例[13]

指標(biāo)2[13].文獻(xiàn)[13]提出了一種新的評價(jià)指標(biāo),即利用來自信息檢索領(lǐng)域公認(rèn)的標(biāo)準(zhǔn)：準(zhǔn)確率P、召回率R和f1-測度F1,其中用到了真陽性率tp、假陽性率fp和假陰性率fn,如圖3所示，準(zhǔn)確率定義為

(5)

其度量了預(yù)測得到的虹膜像素為真實(shí)的虹膜像素的比例.

召回率定義為

(6)

其度量了標(biāo)記的虹膜掩模中,虹膜像素被正確識別的比例.另外為了平衡2個(gè)測度,我們定義F1為P和R的調(diào)和平均值,即:

(7)

這3個(gè)測度的值位于[0,1]之間,0和1分別表示最差和最好的情況.另外這里計(jì)算的是每一幅圖像的測度,為了評價(jià)整體的性能,我們需要計(jì)算各個(gè)測度的均值μ和方差σ.顯然均值越高,方差越小，算法性能越好.

指標(biāo)3.來自一般的語義分割領(lǐng)域,即計(jì)算mIOU,用來表達(dá)分割的準(zhǔn)確率.其中IOU可以計(jì)算為預(yù)測掩膜與標(biāo)記掩膜的交集與并集之比.延續(xù)指標(biāo)2的標(biāo)記,IOU可以表達(dá)為

(8)

則mIOU為全體測試圖像IOU的平均,即:

(9)

mIOU位于[0,1]之間,其中0和1分別表示最差和最好的情況.

指標(biāo)4.比較平均的運(yùn)行時(shí)間.由于傳統(tǒng)方法一般運(yùn)行在CPU上,而深度學(xué)習(xí)方法需要聯(lián)合運(yùn)行在CPU與GPU上,加之程序語言和算法優(yōu)化的程度不同,也會(huì)導(dǎo)致運(yùn)行時(shí)間有所差異,所以這里的運(yùn)行時(shí)間僅作為一個(gè)參考.

指標(biāo)5.比較模型的存儲空間和參數(shù)數(shù)量.考慮到基于機(jī)器學(xué)習(xí)的方法會(huì)生成參數(shù)模型,因此我們可以比較模型的存儲空間和參數(shù)數(shù)量,以此評估在各平臺使用的可能性.一般地,模型占用存儲空間越小,使用的參數(shù)數(shù)量越少,越有利于模型的實(shí)際應(yīng)用,例如將算法部署在移動(dòng)端.

指標(biāo)6.跨庫評估.為了考察算法的泛化性，通常可以將在某個(gè)數(shù)據(jù)庫上訓(xùn)練學(xué)習(xí)得到的模型直接在另外的數(shù)據(jù)庫上進(jìn)行測試.對于泛化能力比較強(qiáng)的模型，由于其學(xué)習(xí)到了真正的圖像特征，因此可以得到高性能的分割結(jié)果，可以更好地部署在實(shí)際的系統(tǒng)中.

指標(biāo)7.極端圖像的定性比較.由于上面大部分評價(jià)指標(biāo)都是統(tǒng)計(jì)意義上的,因此很難評估算法對于極端難例的魯棒性,因此我們可以選取各個(gè)數(shù)據(jù)庫中具有代表意義的困難樣本,進(jìn)行算法的定性比較,以此得到一個(gè)較客觀全面的評價(jià).

以上7種指標(biāo)全面考慮了虹膜分割算法的準(zhǔn)確性、運(yùn)行時(shí)間、模型大小以及魯棒性、泛化性.我們將在后面的實(shí)驗(yàn)中使用這些指標(biāo)比較不同的算法性能.

3 傳統(tǒng)的虹膜分割算法

傳統(tǒng)的虹膜分割算法大致可以分為2類：基于邊界的方法和基于像素的方法.前者主要通過定位虹膜的內(nèi)外邊界、上下眼皮以及去除睫毛遮擋、鏡面反射等來得到孤立的虹膜區(qū)域,最典型的工作要屬Daugman[14]的積分微分算子和Wildes[15]的圓形霍夫變換.這2類方法都假定虹膜內(nèi)外邊界是圓形,且像素灰度值在虹膜邊界上變化很大.其中積分微分算子通過計(jì)算沿圓心邊界上的徑向灰度變化之和,尋找最大值來確定虹膜內(nèi)外圓參數(shù).Wildes首先使用基于梯度的邊緣檢測算法(如canny邊緣檢測[16])檢測虹膜邊緣點(diǎn),然后基于得到的邊緣點(diǎn)進(jìn)行Hough變換,從而得到虹膜內(nèi)外圓參數(shù).以上2類方法在比較理想的清晰虹膜圖像上獲得了較好的分割結(jié)果,然而對于遠(yuǎn)距離、可見光下獲得的虹膜圖像效果不佳，另外上下眼皮以及鏡面反射等噪聲未進(jìn)行檢測.

基于以上2類算法，陸續(xù)出現(xiàn)很多工作來改進(jìn)分割的性能.He等人[17]提出了一系列魯棒的操作實(shí)現(xiàn)了虹膜分割，包括基于Adaboost-cascade的檢測器用于虹膜粗定位、基于推拉算法的內(nèi)外圓定位以及三次樣條插值的非圓虹膜邊界擬合用于處理非圓的邊界和一系列新穎的方法用于眼瞼、睫毛、陰影檢測.該方法在非理想的虹膜圖像上獲得了魯棒而準(zhǔn)確的分割結(jié)果，并且運(yùn)行速度很快.Tan等人[18]提出了基于聚類的方法用于虹膜粗定位以及噪聲區(qū)域檢測，并且使用積分微分星座圖方法改進(jìn)了原始的積分微分算子，提升了其速度和準(zhǔn)確性，該方法在NICE.I虹膜分割比賽獲得了冠軍.Sutra等人[19]使用了Viterbi算法用于虹膜分割.Viterbi算法被用在2個(gè)分辨率的虹膜梯度圖像上：高分辨率圖像用于定位精細(xì)的虹膜內(nèi)外輪廓，從而獲取分割掩膜；低分辨率圖像用于定位粗糙的輪廓，從而獲取內(nèi)外圓.文獻(xiàn)[20]提出了一種新穎的全變差模型,使用l1范數(shù)正則化魯棒地壓制噪聲,生成了邊界清晰的圖像,并使用改進(jìn)的圓形霍夫變換在生成的圖像上進(jìn)行內(nèi)外圓定位,獲得了準(zhǔn)確的檢測結(jié)果,除此以外，一系列新穎的后處理操作被用于準(zhǔn)確地獲得虹膜的二值掩模.文獻(xiàn)[21]是一種無監(jiān)督的分割方法,專門用來處理噪聲圖像,在移動(dòng)端虹膜挑戰(zhàn)賽MICHE-I中獲得了最好的分割結(jié)果.該方法通過一系列預(yù)處理操作如反射矯正、使用修改的積分微分算子進(jìn)行內(nèi)外圓檢測、歸一化處理、上下眼皮定位等方法確定了虹膜的大致位置,然后將虹膜紋理建模成一個(gè)多光譜的空間概率模型,并使用自適應(yīng)的閾值方法檢測噪聲像素,從而間接得到有效的虹膜區(qū)域.作者還在NICE.I數(shù)據(jù)集上進(jìn)行了測試,以0.012 4的E1錯(cuò)誤率名列第1名,超過了NICE.I比賽的冠軍算法,充分證明了該算法的魯棒性和準(zhǔn)確性.除了將內(nèi)外邊界建模成圓形外,文獻(xiàn)[22]提出了測地線主動(dòng)輪廓算法用于獲取虹膜的內(nèi)外邊界.文獻(xiàn)[23]考慮使用測地線主動(dòng)輪廓算法來估計(jì)虹膜的內(nèi)外邊界曲線,然后在得到的曲線上進(jìn)行橢圓擬合獲取虹膜內(nèi)外邊界，此外圖割算法被用來獲取分割掩膜.文獻(xiàn)[24]使用了一種新的測地線主動(dòng)輪廓算法將內(nèi)外邊界曲線建模成自由封閉曲線,而后使用非圓的歸一化操作,并進(jìn)行了識別實(shí)驗(yàn),證明了該方法的有效性.

另一類基于像素的方法則直接根據(jù)像素點(diǎn)附近的外觀特征,比如顏色、紋理、邊緣方向等,來決定是否屬于虹膜區(qū)域.例如文獻(xiàn)[25]在像素點(diǎn)鄰域提取位置和顏色特征后,使用神經(jīng)網(wǎng)絡(luò)來判別像素點(diǎn)是否是虹膜.文獻(xiàn)[26]則提取像素點(diǎn)附近的Zernike矩作為特征,然后使用SVM進(jìn)行分類.與前面2類不同,文獻(xiàn)[27]則將分割分為4個(gè)階段：第1階段對圖像進(jìn)行對比度增強(qiáng)；第2階段使用HOG描述子和SVM方法定位虹膜位置；第3階段對定位后的虹膜區(qū)域使用GrowCut算法進(jìn)行虹膜像素的提取；第4階段使用后處理移除瞳孔、陰影和反射.這類方法通常需要手工設(shè)計(jì)特征,且特征提取和分類器訓(xùn)練是分開的,因此在應(yīng)對復(fù)雜場景下的虹膜分割面臨著很大的挑戰(zhàn).

總的來說,傳統(tǒng)的虹膜分割算法包含了大量的預(yù)處理和手工操作,因此算法的準(zhǔn)確性很容易受到這些中間處理的影響,進(jìn)而也影響了算法的魯棒性.因此在完善傳統(tǒng)方法的基礎(chǔ)上,我們需要發(fā)展新的虹膜分割思路.

4 基于深度學(xué)習(xí)的虹膜分割算法

近年來,得益于計(jì)算機(jī)計(jì)算能力的提高和大數(shù)據(jù)的應(yīng)用，深度學(xué)習(xí)方法尤其是CNN在自然圖像分類、識別、檢測、分割以及三維重建等經(jīng)典的計(jì)算機(jī)視覺問題大放異彩,廣泛應(yīng)用到生物特征識別、醫(yī)學(xué)圖像處理、遙感圖像處理等各個(gè)領(lǐng)域.深度學(xué)習(xí)的巨大成功也促進(jìn)了虹膜識別的飛速發(fā)展,很多基于深度學(xué)習(xí)的虹膜分割[3]和特征提取算法[28]等陸續(xù)提出.本節(jié)主要側(cè)重于虹膜分割，總結(jié)了2類經(jīng)典的基于CNN的虹膜分割算法：一類是基于像素塊的滑窗圖像分割框架；另一類就是當(dāng)前流行的全卷積網(wǎng)絡(luò)(fully convolutional network, FCN)[29].事實(shí)上,基于深度學(xué)習(xí)的虹膜分割算法一般可以看作2類的語義分割問題，因此基于深度學(xué)習(xí)的虹膜分割算法的發(fā)展是伴隨著一般的語義分割算法的發(fā)展.

4.1 基于像素塊的滑窗分割框架

CNN最早應(yīng)用在圖像分類、檢測領(lǐng)域,后來有人嘗試將CNN應(yīng)用在語義分割上[30-32].主要的思路就是基于像素塊的分類.具體是：將整個(gè)圖像從上到下、從左到右依次掃描像素點(diǎn),然后選取像素點(diǎn)附近一定大小的鄰域塊使用判別網(wǎng)絡(luò)比如VGGNet[33]等進(jìn)行判別,從而得到該像素的類別,最后所有的像素類別匯總在一起輸出分割的結(jié)果.這類方法的優(yōu)點(diǎn)就是成功地將分類網(wǎng)絡(luò)的豐富成果應(yīng)用到語義分割領(lǐng)域,最終產(chǎn)生的分割結(jié)果也超越了很多傳統(tǒng)的語義分割方法.但缺點(diǎn)也很明顯：一是各個(gè)像素塊之間重疊區(qū)域被進(jìn)行了重復(fù)的前向和后向運(yùn)算；二是像素塊大小的選取比較困難,因?yàn)檩^大的像素塊可以捕獲更多的全局信息,忽略細(xì)節(jié),而小的像素塊可以包含更多的細(xì)節(jié),但是也帶來了很多噪聲.

盡管如此,基于像素塊的滑窗分類框架仍然促進(jìn)了語義分割領(lǐng)域新的發(fā)展.在虹膜分割領(lǐng)域,也有工作嘗試著基于這種方法發(fā)展了新的虹膜分割方法.文獻(xiàn)[3]提出了一種多尺度的分層卷積神經(jīng)網(wǎng)絡(luò)(HCNNs)用于虹膜分割,該網(wǎng)絡(luò)選取了每個(gè)像素點(diǎn)附近3個(gè)不同尺度的鄰域塊,將其送進(jìn)分類網(wǎng)絡(luò)中,提取不同尺度的特征,在結(jié)尾使用全連接層進(jìn)行多尺度特征的融合,并最終決定該像素是否屬于虹膜.HCNNs部分解決了前面所提到的基于像素塊的語義分割框架的第2個(gè)缺點(diǎn),成功地將多尺度的特征進(jìn)行了融合,然而各個(gè)像素塊重疊區(qū)域依然進(jìn)行了重復(fù)的計(jì)算,3個(gè)尺度的選取也并非是最優(yōu)的,最終的結(jié)果表明該方法獲得了較好的準(zhǔn)確率,但仍然在一些噪聲虹膜圖像上效果較差.文獻(xiàn)[34]考慮到整個(gè)虹膜圖像包含了頭發(fā)、眼瞼、鏡框、眉毛等類似于虹膜的區(qū)域,因此CNN模型很可能會(huì)將它們看成虹膜,因此作者提出了一種2階段的處理方法：第1階段使用各種圖像處理方法定位大概的虹膜邊界區(qū)域；第2階段在粗定位的虹膜區(qū)域使用訓(xùn)練好的VGG模型進(jìn)行逐像素的判別.結(jié)果顯示,在UBIRIS.v2和MICHE-I數(shù)據(jù)集上都獲得了較好的效果,部分解決了鏡框等遮擋問題.然而該方法在第一階段需要大量的預(yù)處理,占用了很多時(shí)間,因此在應(yīng)用上依然存在不少的問題.

總的看來,因?yàn)樾枰罅康闹貜?fù)計(jì)算,且不能做到端到端的訓(xùn)練和測試,基于像素塊的滑窗分割框架在語義分割中已不再占優(yōu)勢,另外一種基于全卷積的語義分割網(wǎng)絡(luò)正在如火如荼地興起.基于全卷積的分割網(wǎng)絡(luò)接受整幅圖像輸入,最終也可以輸出整個(gè)圖像的分割結(jié)果,整個(gè)網(wǎng)絡(luò)可以端到端地訓(xùn)練,且允許挖掘多尺度的上下文信息,計(jì)算上不再重復(fù),因此較好地解決了基于像素塊的滑窗分割框架的問題,并廣泛應(yīng)用于醫(yī)學(xué)圖像處理、遙感圖像處理、虹膜分割等領(lǐng)域.

4.2 基于全卷積網(wǎng)絡(luò)的分割框架

2015年Long等人[29]第1次提出使用全卷積網(wǎng)絡(luò)(FCN)進(jìn)行語義分割,隨后涌現(xiàn)出各種各樣的框架改進(jìn)語義分割的效果,他們的共同點(diǎn)是整個(gè)網(wǎng)絡(luò)都使用全卷積層,不包含全連接層,因此我們將這類網(wǎng)絡(luò)統(tǒng)稱為基于全卷積網(wǎng)絡(luò)的分割框架(全卷積分割網(wǎng)絡(luò)).

受文獻(xiàn)[35]的啟發(fā),我們把基于全卷積網(wǎng)絡(luò)的分割框架分為編碼模塊與解碼模塊,其中編碼模塊一般選取用于圖像分類的特征提取網(wǎng)絡(luò),例如VGGNet[33]，ResNet[36]，MobileNet[37]，ShuffleNet[38]，解碼模塊用以細(xì)化提取的特征，并將提取的特征進(jìn)行上采樣，得到最終的分割結(jié)果.這里我們將解碼模塊歸為4類：Feedforward，Skip，Decoder，Dilation，如圖4所示：

Fig. 4 Different decoder frameworks圖4 不同的解碼框架

Feedforward框架是最簡單常用的一種分割框架,最早見于FCN32s[29].此類框架通常調(diào)整一般的分類網(wǎng)絡(luò)，將編碼層后面的全連接層改成1×1的卷積層,并使用轉(zhuǎn)置卷積上采樣特征圖到原始的分辨率大小.該框架可以很方便地利用在ImageNet上預(yù)訓(xùn)練的特征,計(jì)算代價(jià)小,主要的缺點(diǎn)是得到的分割結(jié)果比較粗糙.

Skip框架來自FCN8s[29],是FCN32s的一個(gè)變種.此類框架利用了編碼層的多階段側(cè)邊輸出,并通過連續(xù)的卷積操作細(xì)化特征，同時(shí)減少各階段特征圖的數(shù)量,然后使用轉(zhuǎn)置卷積上采樣多尺度的特征圖到原始的分辨率大小，最后將各層輸出使用逐元素相加法進(jìn)行結(jié)果融合，輸出分割的結(jié)果.相比Feed-forward框架,這類結(jié)果將高層高語義特征與低層高細(xì)節(jié)特征進(jìn)行融合,得到了較準(zhǔn)確的分割結(jié)果.

Decoder框架是性能最好、最常使用的一類分割框架,應(yīng)用在著名的U-Net[39]，SegNet[40]，Deconv-Net[41]，RefineNet[42-43]等分割網(wǎng)絡(luò)中.它們的共同點(diǎn)是漸進(jìn)式地從高層特征上采樣到原始輸入大小,同時(shí)融合同階段編碼層的信息.其中U-Net框架最早用于生物醫(yī)學(xué)圖像分割,整個(gè)框架形成一個(gè)U形的對稱結(jié)構(gòu).U-Net的編碼層與解碼層在各個(gè)階段是相互對稱的,其解碼層逐階段地上采樣,然后與同階段的編碼層進(jìn)行匯總,并使用3×3的卷積操作進(jìn)行特征的融合,輸出最終分割結(jié)果.該類框架廣泛應(yīng)用于二值語義分割,尤其在醫(yī)學(xué)圖像分割、遙感圖像分割以及Kaggle各類比賽中應(yīng)用廣泛.SegNet也是一個(gè)對稱性的網(wǎng)絡(luò)框架,與U-Net不同,該網(wǎng)絡(luò)并沒有直接融合編碼層的特征,而是利用了來自編碼層的池化索引結(jié)果,逐階段地上采樣高層特征為原先的2倍,然后同編碼層相對稱地使用等量的卷積、Batch Normalization和ReLU操作,最后輸出分割的結(jié)果.DeconvNet同SegNet結(jié)構(gòu)類似,也使用了上池化操作,同時(shí)解碼層為編碼層的鏡像,所不同的是其在解碼層使用轉(zhuǎn)置卷積取代普通的卷積.

Dilation框架利用了空洞卷積[44].傳統(tǒng)的網(wǎng)絡(luò)在編碼層使用步長大于1的池化操作擴(kuò)大感受野,增強(qiáng)網(wǎng)絡(luò)的不變性，提升網(wǎng)絡(luò)的特征提取能力，但同時(shí)也導(dǎo)致特征圖變小.空洞卷積在原始的卷積操作上注入了空洞，即設(shè)置了卷積核的間隔數(shù)量，稱之為空洞率，正常的卷積，其空洞率為1.一般地，空洞率越大，感受野也越大.空洞卷積可以在保持同池化操作相同的感受野的同時(shí)不丟失特征圖的分辨率,又可以有效地利用在ImageNet等上預(yù)訓(xùn)練好的特征，已經(jīng)作為一個(gè)標(biāo)準(zhǔn)的操作應(yīng)用在語義分割中,如著名的Deeplab系列、ParseNet[45]、PSPNet[46]等.Deeplab系列是由谷歌的研究人員推出,目前共有4個(gè)版本,其中Deeplab V1[47]框架類似于Skip結(jié)構(gòu),在每一個(gè)編碼階段的最后一層連接了一個(gè)MLP層,然后將各階段的輸出匯合在一起，使用逐像素的加和進(jìn)行融合,輸出分割結(jié)果.Deeplab V1將pool4和pool5的步長由2變成了1,然后緊接著使用了空洞卷積以取代普通的卷積操作,使得特征圖為輸入大小的18.Deeplab V1還引入了全連接的條件隨機(jī)場操作用于細(xì)化分割的邊緣.由于Deeplab V1在編碼層的每一階段都連接了大量的卷積層,導(dǎo)致參數(shù)過大,為了克服這個(gè)缺點(diǎn),使網(wǎng)絡(luò)更加精煉,又推出了Deeplab V2[48].Deeplab V2的最大特點(diǎn)就是ASPP(atrous spatial pyramid pooling)結(jié)構(gòu).ASPP是一種“桶形” 結(jié)構(gòu),由多尺度的空洞卷積組成,用來捕獲不同尺度的感受野,后面連接著2個(gè)1×1的卷積用于細(xì)化特征，同時(shí)減少特征圖數(shù)量,然后通過逐像素的加和進(jìn)行融合,輸出預(yù)測的分割結(jié)果.Deeplab V3[49]借鑒了ParseNet和PSPNet的思想,進(jìn)一步地將全局的上下文信息融合到ASPP中,同時(shí)使用1×1的卷積操作取代大尺度的空洞卷積.為了進(jìn)一步地細(xì)化分割邊界效果,Deeplab V3+[50]引入了Decoder結(jié)構(gòu),結(jié)合了來自底層的特征進(jìn)行,2次上采樣，逐步將分割結(jié)果恢復(fù)到原始的分辨率大小.

總的來說,目前的語義分割框架并不是嚴(yán)格獨(dú)立的,很多新的分割網(wǎng)絡(luò)融合了不同框架的優(yōu)點(diǎn),從語義分割的發(fā)展趨勢上看,一個(gè)好的語義分割網(wǎng)絡(luò)往往朝著4方面努力：

1) 擴(kuò)大感受野，挖掘不同尺度的信息[51].相關(guān)方法大致可以分為3類,分別是：Deeplab系列采用的多尺度空洞卷積；ParseNet,PSPNet等采用的全局平均池化操作；使用不同大小的卷積核[52].

2) 將語義較強(qiáng)的高層特征與細(xì)節(jié)較強(qiáng)的低層特征進(jìn)行融合,或者借助低層的池化索引上采樣高層特征,例如Skip框架和Decoder框架.

3) 設(shè)計(jì)輔助任務(wù)，增強(qiáng)語義分割網(wǎng)絡(luò)的特征提取能力,進(jìn)一步地提升分割精度.例如文獻(xiàn)[53]在語義分割任務(wù)的基礎(chǔ)上增加了邊緣檢測的任務(wù)，增強(qiáng)了類外的差異性.文獻(xiàn)[54]在語義分割網(wǎng)絡(luò)中增加了全局的分類任務(wù)來尋找和語義分割最相關(guān)的類別,以此增加全局的上下文信息，提升分割的準(zhǔn)確率.

4) 使用更好的基底網(wǎng)絡(luò),例如當(dāng)前更多的語義分割網(wǎng)絡(luò)使用ResNet[46,49-50]取代VGGNet提取特征,也有人開始將更先進(jìn)的DenseNet[55]應(yīng)用于語義分割.

表1匯總了部分經(jīng)典的全卷積分割網(wǎng)絡(luò)的特點(diǎn).

最早將全卷積分割網(wǎng)絡(luò)應(yīng)用于虹膜分割的來自文獻(xiàn)[3],其提出了多尺度的全卷積網(wǎng)絡(luò)(multi-scale fully convolutional networks, MFCNs)用于虹膜分割,該網(wǎng)絡(luò)采用了類似于Deeplab V1的結(jié)構(gòu),高層特征和底層特征進(jìn)行了有效的融合，提升了分割的性能.作者使用來自前面介紹的UBIRIS.v2和CASIA.v4-distance的子數(shù)據(jù)集,分別進(jìn)行了訓(xùn)練,然后在對應(yīng)的數(shù)據(jù)集上進(jìn)行了測試，結(jié)果顯示,相比傳統(tǒng)方法,該方法可以明顯提高分割的精度,但在黑色皮膚和沒有眼睛的圖像上該方法出現(xiàn)了錯(cuò)誤,作者提到主要的原因是樣本缺少.文獻(xiàn)[56]提出了輕量級的DeconvNet，該網(wǎng)絡(luò)總共有6層,3層卷積層和3層轉(zhuǎn)置卷積層,每一層后面緊跟著一個(gè)Batch Normalization層和ReLU層,整個(gè)網(wǎng)絡(luò)沒有池化操作和全連接層,相比原始的DeconvNet,該網(wǎng)絡(luò)使用了較大的卷積核,參數(shù)比較少,在CASIA-IrisV3-Interval 數(shù)據(jù)集上獲得了不錯(cuò)的效果,不過由于該數(shù)據(jù)集比較小,虹膜形態(tài)比較單一,因此需要驗(yàn)證其在更有挑戰(zhàn)性的數(shù)據(jù)集(如UBIRIS等)上的效果.文獻(xiàn)[57]使用了修改后的Deeplab網(wǎng)絡(luò)用于虹膜、鞏膜、瞳孔與背景區(qū)域的分割,并且使用了自己收集和標(biāo)定的虹膜圖像進(jìn)行訓(xùn)練,值得注意的是該標(biāo)定是一個(gè)粗糙的標(biāo)定,沒有考慮到將睫毛、光照等分離出去.文獻(xiàn)[58]將SegNet的3種變體：Original,Basic,Bayesian-Basic應(yīng)用到虹膜分割上,作者使用了5個(gè)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),并且與傳統(tǒng)的方法進(jìn)行了比較,結(jié)果顯示Bayesian-Basic的效果最好.這里Bayesian-Basic不同與原始的SegNet實(shí)現(xiàn),它在Encoder和Decoder的最深的2個(gè)卷積層后面增加了額外的Dropout層,并且在測試階段使用Monte Carlo Dropout sampling去產(chǎn)生像素類別標(biāo)簽的后驗(yàn)分布和最終的分割結(jié)果.文獻(xiàn)[59]提出了基于注意力機(jī)制的改進(jìn)U-Net模型用于虹膜分割，作者在原始U-Net的Encoder末尾增加了邊界框回歸子網(wǎng)絡(luò)用于獲取虹膜的注意力掩膜，隨后該掩膜作為一個(gè)權(quán)重函數(shù)與Decoder部分的特征層融合促使模型更加聚焦于有效的虹膜區(qū)域的分割.SegDenseNet[60]是目前第1個(gè)將DenseNet應(yīng)用在虹膜分割上的網(wǎng)絡(luò).SegDenseNet仿照FCN32s[29]將DenseNet去掉全連接層,改造成全卷積網(wǎng)絡(luò),并使用Skip結(jié)構(gòu)融合不同層的輸出,最后使用轉(zhuǎn)置卷積上采樣輸出到原始大小.作者將SegDenseNet用于白內(nèi)障病人的術(shù)前和術(shù)后虹膜分割,取得了較好的效果，相似的網(wǎng)絡(luò)還包括IrisDenseNet[61].為了減少分割網(wǎng)絡(luò)的參數(shù),文獻(xiàn)[62]設(shè)計(jì)了基于Encoder-Decoder的全殘差分割網(wǎng)絡(luò)FRED-Net，在獲得很高的分割精度的同時(shí)保持輕量級的大小.

Table 1 Classical Fully Convolutional Segmentation Networks表1 經(jīng)典的全卷積分割網(wǎng)絡(luò)

總的來說,大多數(shù)現(xiàn)有的虹膜分割網(wǎng)絡(luò)都源自一般的語義分割網(wǎng)絡(luò),且在各種數(shù)據(jù)集上進(jìn)行了測試,驗(yàn)證了算法的有效性.表2列舉了部分傳統(tǒng)虹膜分割方法和基于深度學(xué)習(xí)的虹膜分割方法的比較.

Table 2 Comparison Between Traditional and Deep Learning Based Lris Segmentation Methods表2 傳統(tǒng)方法和基于深度學(xué)習(xí)的虹膜分割方法的比較

Continued (Table 2)

Note: ① http://nice1.di.ubi.pt/; ② https://github.com/5455945/Iris_Osiris; ③ https://www4.comp.polyu.edu.hk/～csajaykr/tvmiris.htm;④ https://ars.els-cdn.com/content/image/1-s2.0-S0167865515000604-mmc1.zip

5 實(shí)驗(yàn)設(shè)計(jì)與評估

5.1 實(shí)驗(yàn)設(shè)計(jì)

為了建立一個(gè)公平的虹膜分割算法基準(zhǔn)，我們選取了一些經(jīng)典的全卷積分割網(wǎng)絡(luò)，在三大數(shù)據(jù)集上進(jìn)行了訓(xùn)練和測試，同時(shí)使用提出的評價(jià)指標(biāo)進(jìn)行了評估.我們的評估模型和相關(guān)代碼將會(huì)在github(1)https://github.com/xiamenwcy/IrisSegBenchmark上開源，因此歡迎更多的研究者使用我們的方法提交評測的結(jié)果.

實(shí)驗(yàn)選取的網(wǎng)絡(luò)包括FCN8s[29]，U-Net[39]， SegNet[40]，Deeplab V1[47]，Deeplab V2[48]，Deeplab V3[49]，ParseNet[45]，PSPNet[46]，覆蓋了提出的4種分割解碼框架.另外為了與傳統(tǒng)的方法進(jìn)行比較,我們選取了2種性能最好的傳統(tǒng)分割算法[20-21]作為對比,這2種方法在各類數(shù)據(jù)集的測試中取得了很好的效果,因此具有很強(qiáng)的代表性,且有公開的源代碼或者可執(zhí)行程序.

實(shí)驗(yàn)過程中，首先對于所有的全卷積網(wǎng)絡(luò)，都采用在ImageNet上預(yù)訓(xùn)練的VGG-16網(wǎng)絡(luò)的前5個(gè)卷積模塊作為編碼層,然后將解碼層的分割類別調(diào)整為2,其中一個(gè)類別表示背景，另一個(gè)表示虹膜區(qū)域.網(wǎng)絡(luò)訓(xùn)練過程中，使用交叉熵?fù)p失函數(shù)作為優(yōu)化的目標(biāo)函數(shù)，使用的數(shù)據(jù)為帶有人工標(biāo)注的CASIA，UBIRIS，MICHE這3個(gè)數(shù)據(jù)集,并且我們對數(shù)據(jù)進(jìn)行了擴(kuò)充.擴(kuò)充方法是：對于每一張訓(xùn)練圖片,首先將其縮放為原來的0.5，1，1.5倍,然后對于每個(gè)尺度的圖片,旋轉(zhuǎn)16個(gè)不同的角度,并進(jìn)行左右翻轉(zhuǎn),這樣就可以將數(shù)據(jù)集擴(kuò)充為原來的96倍,最后CASIA，UBIRIS，MICHE訓(xùn)練集的總樣本數(shù)為28 800，48 000，13 440.

實(shí)驗(yàn)使用開源框架Caffe[64]來實(shí)現(xiàn)網(wǎng)絡(luò)模型,模型的參數(shù)設(shè)計(jì)保持同原文獻(xiàn)一致.我們先在擴(kuò)充后的數(shù)據(jù)集上進(jìn)行網(wǎng)絡(luò)訓(xùn)練,然后使用訓(xùn)練好的模型在測試集上進(jìn)行測試.整個(gè)實(shí)驗(yàn)使用單塊12 GB的GTX Titan GPU進(jìn)行.

5.2 實(shí)驗(yàn)結(jié)果

表3～5分別展示了2種傳統(tǒng)的虹膜分割方法和若干種全卷積分割網(wǎng)絡(luò)在3種不同的數(shù)據(jù)集上的分割結(jié)果.我們在評測中使用了前面所述的評價(jià)指標(biāo)，立足于產(chǎn)生一個(gè)較全面的評價(jià)結(jié)果.

從表3來看，文獻(xiàn)[20]在各種評價(jià)指標(biāo)上都表現(xiàn)出一致較好的性能,而相比之下，文獻(xiàn)[21]性能較差,這與其論文中表述的性能似乎不符.需要注意的是我們這里使用的是作者提供的可執(zhí)行程序,由于沒辦法調(diào)參,所以這里得到的結(jié)果也許并不是最優(yōu)的.另外文獻(xiàn)[21]運(yùn)行時(shí)間較長,主要原因是作者提供的程序不僅僅用來做虹膜分割,也提供了虹膜歸一化處理等其他操作，另外程序本身沒有進(jìn)行優(yōu)化.

Table 3 Comparison of Traditional Iris Segmentation Methods on Different Datasets表3 傳統(tǒng)虹膜分割方法在不同數(shù)據(jù)集上的比較結(jié)果

Table 4 Comparison of Different Fully Convolutional Segmentation Networks on Different Datasets表4 各種全卷積分割網(wǎng)絡(luò)在不同數(shù)據(jù)集上的比較結(jié)果

Table 5Comparison of Different Fully ConvolutionalSegmentation Networks on Computational Complexity

表5 各種全卷積分割網(wǎng)絡(luò)在計(jì)算復(fù)雜性上的比較結(jié)果

我們在全卷積分割網(wǎng)絡(luò)的實(shí)驗(yàn)中分別使用了單尺度和多尺度的方式進(jìn)行測試.單尺度是指對于一幅輸入圖像,僅使用原圖得到分割結(jié)果.多尺度是指將一幅輸入圖像分別縮放為0.5,1.0,1.5倍,然后將得到3個(gè)結(jié)果進(jìn)行融合,得到最終的分割結(jié)果.從測試結(jié)果上看,多尺度的方式得到的分割精度高于單尺度,因此這里匯總為多尺度的分割結(jié)果.由于SegNet只支持固定輸入,所以這里只呈現(xiàn)其單尺度的測試結(jié)果.

由表4和表5可得如下實(shí)驗(yàn)結(jié)論：

1) 各評價(jià)指標(biāo)之間存在一定的一致性，但并不是嚴(yán)格單調(diào)的.以U-Net為例，將在CASIA和其他2個(gè)數(shù)據(jù)集的結(jié)果進(jìn)行比較發(fā)現(xiàn)，其在CASIA數(shù)據(jù)集上的E1和E2指標(biāo)最低，相應(yīng)地，其F1值和mIOU也表現(xiàn)較高.但是，和ParseNet相比，盡管其在CASIA數(shù)據(jù)集上的E1和E2指標(biāo)低于ParseNet，但是F1值和mIOU卻不如后者高,但是相差不大.實(shí)際使用中，我們需要根據(jù)實(shí)際的需求來確定，如果更加關(guān)注錯(cuò)誤率，例如將虹膜識別應(yīng)用在安防等更加關(guān)注安全的領(lǐng)域，在此情況下，較低的錯(cuò)誤匹配是更好的，則應(yīng)該使用E1和E2指標(biāo)；如果更加關(guān)注正確檢測率，例如將虹膜識別應(yīng)用在手機(jī)解鎖等領(lǐng)域，在此情況下，更高的匹配成功率是需要的，則應(yīng)該使用F1值和mIOU指標(biāo).一般學(xué)術(shù)上，更加關(guān)注E1和E2指標(biāo).

2) 以E1和E2指標(biāo)排序，U-Net，Deeplab V1，Deeplab V3 在CASIA，UBIRIS，MICHE的分割性能最好，分別比文獻(xiàn)[20]低0.41%(0.21%)，0.75%(0.37%)，1.42%(0.70%).其中括號外面指的是E1，括號里面指的是E2.以F1值和mIOU指標(biāo)排序，ParseNet，U-Net，Deeplab V3在CASIA，UBIRIS，MICHE的分割性能最好，分別比文獻(xiàn)[20]高5.89%(9.67%)，4.84%(7.91%)，13.08%(18.78%).其中括號外面是F1的均值，括號里面是mIOU.另外從整體來看全卷積分割網(wǎng)絡(luò)一致地超過了傳統(tǒng)的虹膜分割方法，反映了深度學(xué)習(xí)方法的優(yōu)越性.

3) 除SegNet外,其他算法均一致性地在CASIA數(shù)據(jù)集上表現(xiàn)最佳.這主要源于CASIA數(shù)據(jù)集含有較少的噪聲,是高質(zhì)量的近紅外圖像,而SegNet框架比較適合處理RGB圖像.

4) 從模型的存儲空間和參數(shù)數(shù)量上看,FCN8s占用最多,主要由于FCN8s網(wǎng)絡(luò)是將原始的VGGNet的全連接層直接改成了卷積層,其參數(shù)數(shù)量并沒有減少,而其他的網(wǎng)絡(luò)或者使用空洞卷積或者直接去掉了原始的全連接層,因而模型的參數(shù)數(shù)量較少,占用存儲空間較小.但是在整個(gè)FCN類網(wǎng)絡(luò)中,最小的模型占用存儲空間也在0.07 GB(72 MB左右),參數(shù)數(shù)量達(dá)到了18.85 M,因此有必要進(jìn)行模型的裁剪和壓縮.

5) 得益于GPU的高性能運(yùn)算,使用FCN類網(wǎng)絡(luò)進(jìn)行測試時(shí)平均運(yùn)行時(shí)間在1 s以內(nèi)，然而沒有達(dá)到實(shí)時(shí)的處理速度，因此如結(jié)論4)，必要的網(wǎng)絡(luò)壓縮或者輕量級的分割網(wǎng)絡(luò)是虹膜分割的發(fā)展趨勢.

根據(jù)評價(jià)指標(biāo)6，我們對全卷積分割網(wǎng)絡(luò)進(jìn)行了跨庫評估.根據(jù)表4的分割結(jié)果，我們選取了在3個(gè)數(shù)據(jù)集上性能一致較好的Deeplab V1和U-Net進(jìn)行了實(shí)驗(yàn).表6展示了跨庫評估的結(jié)果.具體的實(shí)驗(yàn)步驟為：將網(wǎng)絡(luò)分別在UBIRIS和MICHE數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后在剩余的2個(gè)數(shù)據(jù)集上直接進(jìn)行測試.

從實(shí)驗(yàn)結(jié)果上來看,對于CASIA數(shù)據(jù)集,2個(gè)網(wǎng)絡(luò)泛化性能都不好,甚至說已經(jīng)退化.主要原因在于UBIRIS和MICHE數(shù)據(jù)集都是在可見光下拍攝的,而CASIA數(shù)據(jù)集是近紅外下拍攝的,盡管CASIA數(shù)據(jù)集圖像質(zhì)量比較高,但網(wǎng)絡(luò)的學(xué)習(xí)能力依然很差,并不能很好地進(jìn)行遷移.而在UBIRIS和MICHE數(shù)據(jù)集上測試的效果比較好,其原因是UBIRIS和MICHE 都是在相似的環(huán)境下拍攝,服從相似的數(shù)據(jù)分布,因此表現(xiàn)的泛化能力較好.

此外整體來看,在UBIRIS訓(xùn)練的網(wǎng)絡(luò)比在MICHE訓(xùn)練的網(wǎng)絡(luò)性能較高,主要原因在于UBIRIS訓(xùn)練集數(shù)量(48 000幅)遠(yuǎn)超MICHE數(shù)據(jù)集(13 440幅),因此涵蓋了更多的噪聲種類和虹膜形態(tài),也充分說明了數(shù)據(jù)對于深度學(xué)習(xí)的重要性.

Table 6 Segmentation Results of Cross Database Evaluation表6 跨庫評估的分割結(jié)果 %

為了對比各種算法在困難樣本的表現(xiàn),我們從3個(gè)數(shù)據(jù)庫中隨機(jī)選取了一些帶有鏡面反射、眼皮遮擋、閉眼、黑色皮膚、睫毛遮擋、頭發(fā)遮擋等困難樣本共9幅(其中每個(gè)數(shù)據(jù)庫為3幅),并使用目前最好的3個(gè)算法進(jìn)行了測試,包括1個(gè)傳統(tǒng)方法和2個(gè)基于深度學(xué)習(xí)的方法,即U-Net和Deeplab V1.表7展示了對比結(jié)果，其中紅色標(biāo)注了錯(cuò)誤拒絕的像素點(diǎn)(即該點(diǎn)被標(biāo)記為虹膜而算法卻識別為非虹膜像素),綠色標(biāo)注了錯(cuò)誤接受的像素點(diǎn)(即該點(diǎn)被標(biāo)記為非虹膜而算法卻識別為虹膜像素).

從最終的視覺效果來看,在面對有挑戰(zhàn)性的困難樣本時(shí),深度學(xué)習(xí)方法表現(xiàn)得更加魯棒,其可以比較準(zhǔn)確地識別出真實(shí)虹膜的位置,尤其是表6最后一幅圖像,即使不存在虹膜區(qū)域,深度網(wǎng)絡(luò)也能準(zhǔn)確地識別出來,但是傳統(tǒng)方法會(huì)顯示更多的誤判點(diǎn).當(dāng)然我們也發(fā)現(xiàn),基于深度學(xué)習(xí)的方法,表現(xiàn)出錯(cuò)誤拒絕的像素點(diǎn)個(gè)數(shù)要高于錯(cuò)誤接受的像素點(diǎn)個(gè)數(shù).這表明深度學(xué)習(xí)方法對于有爭議的虹膜像素傾向于將其識別為背景像素,我們將其稱為類內(nèi)的不一致性問題,間接反映了深度網(wǎng)絡(luò)欠缺學(xué)習(xí)到一個(gè)有區(qū)別力的虹膜特征表示.

Table 7 Segmentation Results of Hard Examples表7 困難樣本分割結(jié)果

Continued (Table 7)

6 思考與展望

綜上所述,相比傳統(tǒng)方法,基于深度學(xué)習(xí)的分割模型，尤其是全卷積分割網(wǎng)絡(luò)能夠從大量的數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,進(jìn)而可以進(jìn)行準(zhǔn)確的虹膜分割,為虹膜識別打下良好的基礎(chǔ)，因此是虹膜分割的首選算法.但是當(dāng)前基于深度學(xué)習(xí)的虹膜分割技術(shù)仍然存在很多問題,這也是未來可以研究的開放命題.

1) 當(dāng)前的虹膜分割網(wǎng)絡(luò)可以得到逐像素的預(yù)測結(jié)果,但是不能直接得到虹膜的內(nèi)外邊界定位,因此無法進(jìn)行后續(xù)的歸一化處理,也就無法進(jìn)行虹膜識別.一種間接的處理方法是從分割好的虹膜掩模中提取虹膜的內(nèi)外邊界(通常是內(nèi)外圓),如文獻(xiàn)[63，65],但是由于虹膜區(qū)域經(jīng)常面臨很多的噪聲遮擋,得到的虹膜掩模并不是完整的圓環(huán)區(qū)域,導(dǎo)致這類方法往往會(huì)失敗.因此我們需要發(fā)展多任務(wù)的分割框架,既能得到分割的掩模,也能得到內(nèi)外邊界參數(shù).

2) 當(dāng)前的虹膜分割網(wǎng)絡(luò)盡管在分割精度上超越了傳統(tǒng)的方法，但是其模型占有空間較大，運(yùn)行時(shí)間較慢,因此需要設(shè)計(jì)高效的輕量級神經(jīng)網(wǎng)絡(luò)，或者采取網(wǎng)絡(luò)壓縮和裁剪等方法.

3) 虹膜、鞏膜、手、耳朵等都是人體的生物特征,均可以用來進(jìn)行身份識別.其識別過程都經(jīng)歷了檢測、分割[66-68]以及歸一化處理等階段,尤其是分割處理,本質(zhì)上都是二分類的像素級分割,也都會(huì)面臨被各種噪聲遮擋的問題.因此可以統(tǒng)計(jì)其一般規(guī)律，提出統(tǒng)一的生物特征分割網(wǎng)絡(luò)框架,用于這類圖像的分割處理.

7 總結(jié)

本文建立了虹膜分割算法的評價(jià)基準(zhǔn)，選取了3類有代表性的虹膜分割數(shù)據(jù)庫，并定義了完整的評價(jià)指標(biāo),然后總結(jié)了傳統(tǒng)的虹膜分割算法和基于深度學(xué)習(xí)的虹膜分割算法,最后選取了一些經(jīng)典的算法在選取的虹膜數(shù)據(jù)庫上進(jìn)行了詳細(xì)的實(shí)驗(yàn)和比較分析,實(shí)驗(yàn)結(jié)果充分表明了全卷積分割網(wǎng)絡(luò)在虹膜分割中的優(yōu)越性,同時(shí)結(jié)尾也指出了當(dāng)前全卷積分割網(wǎng)絡(luò)存在的一些問題，這些問題的解決將促進(jìn)虹膜識別新的發(fā)展.