摘要:介紹了一種新的生物識別技術——人耳識別。首先對人耳生物識別系統進行介紹,并與其他生物識別技術進行比較;重點按照識別特征的不同提取方法分別綜述了各種人耳識別技術的關鍵技術,如PCA方法、基于神經網絡方法、力場轉換理論、遺傳局部搜索法以及基于幾何學方法和基于長軸的結構特征提取方法等分析方法。通過對各種識別方法的分析和比較,總結了影響人耳識別技術的幾個因素和研究開發成功的人耳識別技術需要考慮的幾個重要方面,最后提出了展望。
關鍵詞:人耳識別; 生物特征; 模式識別
中圖分類號:TP391; TP18文獻標志碼:A
文章編號:10013695(2007)04002105
1研究背景
近年來,生物特征識別越來越多地引起人們的關注。生物特征識別技術在新安全措施的各個方面均扮演了重要角色——從安全門禁到恐怖分子的識別。實際上,人的任何生理或行為特征只要它滿足如下條件,原則上就可作為生物特征用于身份鑒別:這個特征是每個人都應該有的(普遍性);沒有兩個人是相同的(唯一性);特征是不隨時間改變的(穩定性);是可以定量測量的(易采集性)[1]。目前主要的生物特征識別技術有人臉識別、指紋識別、虹膜識別、DNA識別、步態識別等。但是,由于對環境的要求太高或其他原因,很多生物特征識別系統沒有達到期望效果。學者們正在積極尋找新的識別方法,人耳識別就是其中的一種。人耳識別技術既可作為其他生物識別技術的有益補充,也可以單獨應用于一些個體身份鑒別的場合。
1.1人耳解剖結構
圖1所示為一個典型耳朵的解剖學結構圖。其中各數字標號代表:1耳輪,2耳垂,3對耳輪,4耳甲腔,5耳屏,6對耳屏,7耳輪腳,8三角窩,9耳屏間切跡。對于人耳識別來說,在訓練和測試時主要是因為耳輪、耳屏和對耳屏產生陰影而發生變化[2]。
Iannarelli通過兩次大規模實驗證明耳朵具有獨一無二的特征。因為進行實驗的耳朵沒有相同的,即使是雙胞胎的耳朵也只是相似,不完全相同,尤其是耳輪和耳垂部分[2]。他同時指出,在8~70歲之間每個人的耳朵結構特征基本保持不變[2]。表1對包括耳朵在內的幾個不同生物特征的穩定性作了比較,穩定性越好就有越多的符號“0”[3]。可見,人耳生物特征的穩定性處于平均狀態:已使用的虹膜、視網膜、DNA等比人耳更穩定;與人耳同水平的指紋和手形、簽字、人臉和聲音沒有人耳穩定。
1.2人耳生物識別系統
早在1946年美國犯罪學研究專家Iannarelli A就已經發表了他的人耳識別系統,該系統已經被美國法律執行機構采用,并應用了四十多年。Iannarelli系統通過在一張放大的耳朵圖像上放置一個有八根輪輻的透明羅盤,在耳朵周圍確定12個測量點,如圖2所示;然后將待測圖像投影到特定標準畫板的指定區域;最后在圖像中提取測量段識別不同的人耳。這種方法是以耳廓解剖學特征作為測量系統的基礎,不易定位,所以不能用于人耳自動識別系統。
自動人耳識別最近幾年才發展起來。一套完整的人耳自動識別系統一般包括以下幾個過程:人耳圖像采集、圖像預處理、人耳圖像的邊緣檢測與分割、特征提取、樣本訓練和模板匹配。
圖像的采集階段一般通過攝像機或CCD照相機采集一定數量的人耳圖像,建立人耳圖像庫。預處理階段通常包括降噪、增強以及歸一化、去除噪聲、進行光照補償等處理,以克服光照變化的影響,突出人耳特征。然后進行邊緣提取和分割,提取出人耳輪廓并分割定位出完整的人耳圖像。至于特征提取,不同的方法差別很大。最后是匹配。
1.3人耳區別于其他生物特征的優點
在基于生物特征的身份鑒別技術中,人耳與人臉最相似,但是與臉相比,外耳圖像尺寸更小,意味著計算量更小;外耳的顏色分布更一致,在轉換為灰度圖像時信息丟失少;人耳不受表情、化妝品和發型變化的影響,不隨年齡的增長而改變。
虹膜圖像的獲取要求高分辨率的相機或專門的儀器以及可靠的光源,人耳則只需普通的CCD照相機,克服了在圖像獲取距離上的難題,因此硬件成本更低。
指紋識別也需要專門的傳感器,對于大范圍配備非常昂貴。另外,人耳識別是非打擾式的,減少了損壞捕獲圖像設備的機會。而且指紋只能依靠2D數據進行識別,人耳可以利用3D結構進行特征提取和識別。
測試者的聲音受健康狀況影響,而耳朵幾乎不受健康狀況的影響。另外,聲音識別會遭受背景噪聲的影響。
綜上所述,人耳具有豐富的結構,每個人的外耳輪廓、內部耳溝紋理都是不相同的[2];人耳具有獨特的生理特征和觀測角度,而且具有結構穩定、易采集等特點;人耳識別是一種非打擾式的識別方法。因而它可以作為一種個體識別技術,具有相當的理論研究價值和實際應用前景。
2主要的人耳識別方法簡介
2.1主元分析法(PCA)
PCA是生物特征識別研究中廣泛使用的一種方法[4~7],在人臉識別領域已經進行了大量研究。PCA是一種降維技術,它根據圖像的統計特性進行正交變換,以消除原有向量各分量間的相關性,變換得到對應特征值依次遞減的特征向量。
Victor等人[4]比較了PCA應用于人耳識別和人臉識別的性能。他們使用了標準PCA算法:①將人耳和人臉圖像進行剪裁、歸一化、屏蔽非耳朵區域、補光等操作;②用主元分析法訓練得到特征臉和特征耳;③用最近鄰法對測試圖像的特征向量與注冊庫中的特征向量進行匹配。在假設人耳識別、人臉識別之間不存在顯著差異的前提下總共進行了三次實驗,三次實驗的圖庫和探測集分別取自同一時間但具有不同的表情、不同時間的相同表情、不同時間和不同表情。在所有三次實驗中,人臉識別效果均優于人耳識別的效果。
Chang等人[5]繼上述研究后使用更大樣本集做了類似的實驗,過程基本與Victor等人的相同。但庫中臉和耳朵圖像的質量控制更加嚴格,去掉了圖像有被遮擋或覆蓋的情況。他們也做了三次實驗,分別是時間改變、光照條件改變和姿勢改變(旋轉225°)。結果發現人臉和人耳識別率沒有較大差別;耳識別率最高為716%,臉為705%。Chang等人還進行了多模態識別,發現用臉和耳共同構成的多模態方法效率優于單獨使用其中一種方法的識別效率。例如,在一次實驗中可達到909%的識別率[4,5]。
Victor和Chang的實驗得出了不同的結論可能是由于圖庫的質量。Victor等人所研究的圖像數據集對于被耳環、頭發覆蓋在耳朵上的情況沒有控制,從而導致了誤識;而Chang等人排除了這些圖像,提高了人耳識別的效率。
2.2使用Voronoi圖表的鄰接圖匹配方法
Burge和Burger提出了一種圖表匹配方法進行人耳識別[8~10]。他們對個體頭部灰度圖像梯度的高斯金字塔使用可變形輪廓方法進行外耳定位,再使用Canny算子進行邊緣檢測,如圖3(a)所示。較大的曲線段使用邊緣松弛法形成,去除較小的曲線段,形成Voronoi圖表,如圖3(b)所示。最后將提取的曲線與模板進行比對。光照和位置的變化使得這種方法非常不可靠。為了克服這種影響,他們將問題轉換為描述曲線之間的相鄰關系,構建如圖3(c)所示的曲線Voronoi鄰接圖;還使用了一個稱為誤差改正圖匹配算法進行誤差校正。
論文中沒有實驗結果。然而當文獻[5]想實現他們的方法時,卻發現基本的耳朵描述是相當不穩定的,圖像角度和光照有輕微改變,從圖像檢測出的邊緣變化就非常大。Burger等人建議使用溫譜圖解決耳朵被頭發部分遮擋的問題。他們發現耳朵眼很容易定位,在溫譜圖上,耳朵眼是最熱的部分,它和周圍頭發之間有8℃的溫差,因此通過找到這個高溫區域,就有可能用溫譜圖檢測和定位出耳朵。
2.3使用各種組合技術的神經網絡方法
Moreno等人[11]使用神經網絡設計了三種分類器:①使用外耳特征點進行識別。使用雙Sobel算子得到外耳輪廓圖,提取如圖4(a)所示的點作為外耳特征點構成特征向量,作為神經元的輸入,識別率為43%。②使用外耳形態進行識別。使用上述技術構造大小為H×V像素的外耳輪廓圖,然后在水平方向上進行h分割,在垂直方向上進行v分割,在對角方向上進行2(h+v)分割,如圖4(b)所示。對人耳輪廓圖中交叉點個數和不同分割構成的向量進行歸一化,得到每幅圖像的形態學特征向量,作為神經元的輸入,識別率為83%。③使用壓縮網絡進行識別。這步分為兩個階段:第一階段提取原始外耳圖像顯著的統計特征和宏觀特征,即壓縮特征。這個壓縮向量是原始圖像的一個中間編碼表示,如圖4(c)所示,它構成第二階段執行識別任務的神經網絡的神經元輸入。
用上面的分類器構造復合分類器,目標是希望通過合并得到更好的識別率。一共使用了三種組合方法,即確定性分類器、等級分類器和不確定性分類器。實驗結果顯示,壓縮網絡達到最高的識別率,合并的分類器沒有提高識別率;但若考慮拒絕域,這些合并技術還是提高了無錯識別率。
2.4力場轉換方法
Hurley等人[12,13]模仿自然界的電磁力場過程,提出了一種力場轉換理論。在該理論中,整幅圖像被轉換為一個力場,該力場的形成是通過假定圖像上每一個像素點對其他所有像素點均施加一個等方向性的力;這種力與像素灰度成正比,與像素間距離的平方成反比。由此,就存在一個與力場相關的勢能面。在待檢測的耳周圍放置一組單位亮度的測試像素點,它們呈封閉形將耳包圍。每一個測試像素點在力場的拉動下朝著潛在勢阱運動,直至到達平衡位置,即勢阱的中心,其產生的運動軌跡形成場線。由于在每一點的力場是唯一的,所有到達給定點的場線都會沿著同樣的路徑,并從該點繼續向前運動從而形成“渠”。圖5中描述了該過程。50個測試像素點呈橢圓形被放置在力場中,測試像素點經過多次計算形成場線,并且能夠從圖像中觀察到渠的形成過程。圖5(c)顯示了阱位置,潛在的勢阱位置被提取出來作為基本特征向量描述人耳的特征點,并證明不同的耳朵,其勢能通道與勢阱是唯一的。
該方法中特征點數量和位置不受初始點位置選取的影響,但初始點數量不能太少,否則會導致勢阱丟失;而且在分辨率較低情況下仍能獲取力場結構。這樣可以先利用較低的分辨率定位目標,然后在較高分辨率下進一步提取特征信息。它還具有抗噪聲能力,在受到高斯噪聲的干擾下力場結構基本不變。該方法具有很強的魯棒性,這項技術的好處在于并不需要一個對目標拓撲結構的清晰描述,對阱的提取僅僅是場線以及觀察到的最終坐標。而若考慮到渠的形狀和最終能量表面的形狀,則可以提高描述細節程度,以達到任意需求。
2.5遺傳局部搜索算法
Yuizono T.等人[14]把耳識別問題轉換為圖像的模板匹配問題,用遺傳算法進行全局搜索,在基本的選擇、交叉、變異操作中加入了局部搜索。這種改進提高了局部最優值的搜索效率。
搜索空間包括50個耳圖像,每行10幅,共五行;同時在每個注冊圖像四周分別加了20個像素。染色體被設計成模板匹配過程中耳朵圖像最左上角頂點的X、Y坐標,一共包含21bits。其中,10bits表示X坐標,11bits表示Y坐標。適應度函數S定義為每兩個網格交叉點的灰度差值的總和。
模板匹配在網格結構中進行,以節省計算時間,計算時間與網格數量是等比例的。圖6是一個網格結構的例子。實驗中選擇的染色體數目是800,遺傳代數為250代,兩點交叉率為06,使用了12×16的網格結構。
在選擇策略中,局部搜索被應用到具有最佳適應度的五個精英中;同時選擇精英保留策略,保存具有最佳適應度的個體。在局部搜索算法中,一個(X,Y)坐標的父坐標有如圖7所示的四個已知點,它們是在X±6像素,Y±10像素范圍中選取的。父代中具有最佳適應度的坐標和它的四個坐標作為產生下一代的新父類。這種方法對已注冊圖像的最高識別率可達到100%,對未注冊圖像的拒絕率是100%。
2.6幾何學方法
Michal[15,16]提出了一種幾何學方法來提取特征點。他用自己提出的算法進行輪廓提取,然后進行二值化、坐標歸一化,找出其質心。質心是為特征提取所找的參考點,以質心作為參考點可以使圖像滿足平移、旋轉、大小不變性。
第一個特征向量V由幾何信息構成。以質心為圓心畫Nr個不同半徑的同心圓;對每一個圓算出其與耳輪廓的交點數量lr以及相鄰交點之間的距離d。根據圓半徑的不同,把所有交點及相應信息存入第一個特征向量V中,如圖8所示。第二個特征向量F由特征點信息構成,即由耳輪廓線端點、分叉點和與圓的交點構成。對耳輪廓線上的每一點(g0=1),找出其相鄰八個點中屬于耳輪廓(g=1)的個數N8c。若N8c=1則說明該點是耳輪廓線端點;若N8c>2則說明該點是耳輪廓線的分叉點,如圖9所示。
2.7基于長軸的形狀特征提取方法
Mu等人[17]提出了基于長軸的形狀特征提取方法(LABSSFE)。首先在外耳輪廓上找到距離最長的兩點((x1,y1)和(x2,y2))形成長軸,取長軸的中點O(x0,y0);然后外耳曲線通過中點被分成兩部分Line1和Line2,如圖10所示;對每一部分應用最小二乘法進行曲線擬合,將兩個擬合曲線的參數向量作為Line1和 Line2的形狀特征向量。
如圖11所示,A、B是長軸與外耳輪廓的交點,長軸的長度為|AB|。短軸FOH為長軸的中垂線。用長短軸與內耳的交點之間的長度和長軸的比率作為特征向量,即[OA/AB,OB/AB,OC/AB, OD/AB,OE/AB,OF/AB,OG/AB,OH/AB]。這樣,當耳朵圖像旋轉或縮放時,這個特征向量是不變的;然后把兩個向量合并成一個向量,使用BP神經網絡作為分類器進行識別。
2.8基于3D耳朵檢測和識別方法
用2D灰度圖像進行識別不可避免地會遇到類似陰影、姿勢和光照條件改變等問題。Chen Hui等人使用距離傳感器直接獲取人耳的3D圖像數據,提出基于3D人耳檢測和識別方法。
(1)基于3D的外耳檢測方法
Chen Hui等人提出了一種簡單高效的從側臉圖像中檢測人耳的方法[18]。首先用形狀指數的直方圖獲取耳朵的幾何信息,根據此信息建立耳朵的模型模板;然后利用三維外耳輪廓的高度差會有很大跳躍的特點得到側臉的階躍邊緣圖像后,域值化為二值圖像。這個二值圖像上有一些小洞,對它進行膨脹以填充這些小洞。利用一個閾值移去一些過小不可能包含耳朵的區域,結果如圖12所示。最后計算可能存在耳朵的區域形狀指數直方圖,將其與第一步中得到的耳朵模板進行比較,找到一個非近似程度最小的區域就是耳朵所在的區域。實驗采用真實的耳朵圖像,正確檢測率達到915%,錯誤警報率為252%。
(2)基于3D的人耳識別方法[19]
①首先利用基于3D的外耳檢測方法檢測出外耳輪廓;然后利用ICP(Iterative Closest Point)算法找到一個初始變換使得一個模型耳與測試耳對應。注意,一個待檢測耳朵需要與模型庫中的所有耳朵都執行一遍ICP算法。②在①粗匹配中得到的模型耳中,再次利用ICP算法,通過在耳朵中間部位取出的一些點來改進變換矩陣,細化得到的變換矩陣,使得模型耳與測試耳更好地對應。③利用RMS錯誤匹配標準找出有最小RMS錯誤的模型耳,此時認為匹配成功。這種用兩步ICP過程實現3D人耳識別方法的實驗結果具有很高的識別率,可以達到933%,而且魯棒性強。
2.9各種耳識別技術效果比較
總結上述人耳識別方法,有以下兩個方向:①基于整體的研究方法,考慮了模式的整體屬性;②基于特征分析的方法,也就是將描述人耳結構特征和形狀參數等一起構成識別特征向量。由于使用的人耳圖像庫不同,而且多數方法是在理想條件下高質量的圖像上進行實驗,甚至有的識別方法沒有進行實際仿真實驗,只是一個理論上的模型,因此不同識別算法之間的優劣沒有可比性。表2是對上述識別方法的一個簡單的歸納總結。
表2人耳識別方法總結
3結束語
基于外耳生物特征識別技術是一個正在探索和嘗試的課題,尚不是實用化領域的活躍課題。類似于人臉識別,人耳識別難度也很大,但人耳識別研究已經不局限于傳統的點和線分析方法,不少新的模型也用來表達和識別人耳,如立場轉換理論等就是很好的嘗試。
從目前的研究成果來看,就2D圖像而言,成功的人耳識別系統至少要考慮下面幾個方面的問題:①由于外部的干擾不可避免,耳朵容易被頭發和帽子遮擋,還有光照條件和姿勢變化的影響。預處理的效果會影響到識別結果,好的人耳模型應該能夠在識別的同時,抑制分離外在干擾的影響。②細節應該是區分不同人耳的關鍵,因此很多傳統識別方法都十分注重細節。但是上面的PCA、力場轉換等基于整體模式的識別方法中缺少對細節的考慮,因此應與別的方法結合,取得更好的識別效果。③由于表達人耳的特征不是很多,目前的耳識別主要依據耳廓形狀和結構特征信息。可以考慮利用耳的大小和方向(耳相對頭部的夾角,如兜風耳和順風耳等)信息進行耳識別。④耳識別主要采用手工采集圖像。應考慮給出一套自動圖像采集系統,不需要測試者調整頭部的位置,也不需要人工調整攝像機的位置,真正體現非打擾式的自動人耳識別。⑤從頭部圖像自動找到耳廓區域是提取耳特征的前提。目前還沒有給出人耳自動定位的相關方法,只有一篇從3D側臉提取耳朵的研究論文,有待于研究。
另外,實用的人耳識別系統還必須考慮計算復雜度。現有的識別方法中,基于2D的方法通過從人耳圖像中提取特征向量對數據庫進行檢索的速度比基于3D映射的方法速度快,但隨著圖像庫數據的增加,前者的識別率卻在下降。可以考慮將兩者相結合,首先用快速的特征匹配來縮小檢索范圍,再進行3D匹配。
本文只是對目前基于外耳圖像的身份鑒別技術作了選擇性介紹。由于耳識別的研究處于起步階段,還不完善,具體算法的實現也有很多因素有待研究,計算機自動人耳識別的實用化還需要眾多科研人員的不懈努力。
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。