摘要:本文針對高等教育自學考試考生試卷筆跡真偽鑒定應用,利用人工筆跡鑒定專家知識,結合文本獨立,和訓練樣本少的特點給出一種基于紋理的算法。通過實驗得出,正確接受率為92.9%,正確拒絕率為90.0%。
關鍵字:筆記鑒別;紋理;Gabor
中圖分類號:G642
文獻標識碼:A
文章編號:1672-5913(2008)02-0122-03
1引言
不同的人根據自身的生理特征和后天的學習情況不同,而練就不同的筆跡,正所謂“字如其人”。筆跡正是一種相對穩定的行為特征,因此筆跡可以用來識別個體身份。目前在公安、社會化考試、銀行等領域得到日益廣泛的應用,其中一個典型應用就是高等教育自學考試考生試卷筆跡真偽鑒定。現在試卷筆跡鑒定工作是通過考試中心文檢人員手工比對,這種傳統的筆跡鑒別方法,容易引入個人因素,影響鑒定效果的真實性。隨著考生人數的增多,這項比對工作相當耗費人力、物力。本文正是基于高自考這樣的背景,來研究基于文本獨立的離線筆跡鑒別。
目前筆跡鑒別研究方向可以分為在線(on-line)和離線(off-line)兩類。進一步細分,離線筆跡鑒別又可分為:文本依存(Text-dependent)和文本獨立(Text-independent)
兩種。文本依存就是提前規定書寫內容,文本獨立則對書寫內容沒有限制。筆跡鑒別的復雜性在于字跡的變化性,其任務就是從所有筆跡樣本中提取那些變化最大的特征,然后根據這些特征對測試筆跡樣本進行真、偽分類。
另一個問題是,目前分類方法主要有支持向量機、多層神經網絡等,由于實際應用中樣本數較少,以上方法都不適用,因此本文主要針對訓練樣本少的實際應用情況討論文本獨立型(Text-independent)書寫人識別。通過用Gabor等紋理分析方法提取文字紋理特征,獲得了較好的識別效果。
2基于Gabor小波的紋理分析
紋理分析在圖像處理、分析和識別中廣泛應用,是從圖像中提取反映紋理特性的特征。每個人都有自己的書寫風格,從整體筆跡圖像看,它們含有不同的紋理特征,如筆跡的排版規律(行間、字間排列等)、單個字符的筆劃搭配關系都可以看成是一種紋理。從已知的筆跡鑒別方法來看,有不少都采用了紋理分析的思想。將筆跡視為圖像紋理,利用紋理分析的方法提取筆跡紋理特征并進行鑒別,是目前研究的熱點。
Gabor函數由Dennis Gabor于20世紀40年代提出的,后來被J.Daugman首先用于表征圖像,并用于視覺方面的研究。隨著計算機的不斷發展,成為了非常流行的圖像處理方法,這得益于Gabor函數特有的屬性及其生物意義。生物學的研究表明Gabor函數可以較準確地描述人腦視覺皮層簡單細胞的感受野。如圖1所示。
圖1視覺皮層簡單細胞的感受野與二維Gabor函數的對比
Gabor函數是一個被復正弦函數調制的高斯函數,它是唯一能夠達到時頻測不準關系下界的函數,能夠最好地兼顧信號在時域和頻域中的分辨能力。其中,一維Gabor函數如式(1):
其中m用來控制函數的中心,s為寬度(Gaussian函數的標準偏差),周期為T,函數波形如圖2所示。
圖2一維Gabor函數波形
二維Gabor函數具有方向選擇性和帶通性,能夠比較精確地提取圖像的局部紋理特征。二維Gabor函數如式(2)所示:
3Gabor變換以及筆跡特征獲取
本文使用Gabor核函數對筆跡紋理圖像進行Gabor變換,提取筆跡特征。給定一幅圖像f(x,y),其Gabor變換定義為:
(4)
根據卷積定理,時域中卷積相當于頻域中乘積,故可借助快速傅立葉變換(FFT)。這是由于快速傅立葉變換算法的計算效率要比基本的離散傅立葉變換高出幾個數量級,由于FFT的高效率,在許多情況下實現卷積最有效的方法是先計算參與卷積的序列的離散傅立葉變換,然后將它們的變換相乘,最后計算這些變換乘積的逆變換。快速傅立葉變換算法有很多種,目前廣為使用的是蝶形算法。對于本文中,進行的是二維傅立葉變換,由于其行列可分性,因此可以先對列進行一維快速傅立葉變換,然后對行進行一維傅立葉變換。特征提取的實現過程入下:
(1) 先根據Gabor核函數的參數,即4個頻率和8個相位,依次求出32個Gabor核函數,并對其依次進行二維快速傅立葉變換,將其結果保存到數組;
(2) 對筆跡紋理圖像塊進行二維快速傅立葉變換,將其結果分別與32個Gabor核函數相乘,并且乘上一個系數;
(3) 對32個相乘結果分別進行二維傅立葉逆變換,這樣對于每一個Gabor核函數將對應得到一個Gabor變換系數,該系數為復數,對于每一個筆跡樣本就對應得到32個變換系數;
(4) 針對每一變換系數,分別求出模值,然后根據模值求出方差和均值,經實驗比較,對于本文文本依存情況,僅選取32維方差要比選取32維均值或者64維方差和均值的混合特征作為筆跡特征,鑒別率要高,效果要好,因此最終特征選用32維變換系數模值的方差。
4分類器的構建
由于人工神經網絡、支持向量機等分類器均需要較多樣本進行訓練,而在實際應用中樣本數較少。根據這一事實,并且結合本文提出的訓練方法,本文從樣本距離角度尋求分類器。從相關文獻中了找了8個與距離相關的分類標準,目的是通過實驗從中找出適合于本文的分類器。這8個分類標準依次為歐氏距離、普通距離、相似度、特征距離、Canberra距離、Dice系數、Jacquard系數、向量間距離,其數學表達式分別如式4~1所示:
歐氏距離:
以上8個式子中, 和 分別為特征向量,i=1,2,3,4,5……
實驗時選取8個人的樣本,其中5個人每人1份,另3個人每人10份樣本,共8個人35份筆跡樣本,測試結果如表1所示,表中A,B,C分別為三個書寫人,每人10份筆跡樣本,實驗步驟為(以A為例,其它類似):
(1) 以A的第一份樣本為參考樣本,經“隨機訓練”為每個分類器獲取閾值;
(2) 以A的第一份樣本為參考樣本,用獲取到的閾值,與A的其它9個樣本進行比對,給出測試正確樣本數,對于每個分類器分別填入對應表格“本人”處;
(3) 以A的第一份樣本為參考樣本,用獲取到的閾值,與B、C的各5個樣本進行比對,給出測試正確樣本數,對于每個分類器分別填入對應表格“不同人”處;
(4) 分別統計每個分類器判別正確的樣本數。
根據表中各分類器的分類結果,并結合運算量,本文最終選定歐氏距離作為分類器。對于兩個樣本,其歐氏距離越小,表明兩個樣本越相似,假設兩個樣本之間的歐氏距離為d,分類閾值為g,那么如果d 5結論 本文研究內容是文本獨立的離線筆跡鑒別,結合課題背景本文給出一種基于紋理的方法。實驗時,先采集30人共計108份筆跡樣本,然后對這些筆跡樣本進行預處理、形成紋理圖,使用32個Gabor核函數,進行Gabor變換,把變換后所得系數的方差作為最后的筆跡特征,共32維。最后使用歐氏距離作為分類器,采用本文提出的閾值獲取辦法進行訓練。我們在自己采集的筆跡庫上實驗,在對28人的56份樣本實驗中,對于與參考樣本出自同一人的筆跡樣本的測試,共28份,對于與參考樣本不同人的筆跡樣本,共140份。 從表2可以看出,針對本文方法,對于與參考樣本出自同一人的筆跡樣本的測試,共28份,其中被正確鑒別的份數為26,正確接受率為92.9% 。對于與參考樣本不同人的筆跡樣本,共140份,正確鑒別的份數為126,正確拒絕率為90.0%。達到了較為理想的效果。 Writer Identification Based on Small Amount of Test Samples and TextureAnalyse Abstract This paper is presented for identification of examination papers handwriting, A kind of algorithm, which is characterized with less training samples and text-independent, is proposed, and it is used of artificial handwriting identification expert knowledge. Finally, experiments show that the correct acceptances rate is 92.9% and the correct rejections rate is 90.0%. Keywords:handwriting identification, texture, Gabor filter 參考文獻 [1] 孫廣萍. 身份驗證中的簽名鑒別技術[J]. 黑龍江通信技術,2003,(1):34-35. [2] 劉宏,李錦濤,崔國勤. 基于SVM和紋理的筆跡鑒別方法[J]. 計算機輔助設計與圖形學學報,2003,15(12):1479-1484. [3] 許春曄,郭寶蘭. 基于Gabor函數的漢字字體識別[J]. 河北大學學報(自然科學報),2001,21(2):167-170. [4] 邊肇祺,張學工. 模式識別[M]. 北京:清華大學出版社,2000. [5] Andrew R Webb著. 王萍,楊培龍,羅穎昕譯. Statistical Pattern Recognition, 2ED[M]. 北京:電子工業出版社,2004. [6] 陶躍華. 基于向量的相似度計算方案[J]. 云南師范大學學報,2001,21(5):17-19. [7] 易東,陳慶虎. 基于多分類器組合的筆跡驗證[J]. 計算機應用,2006,26(1):172-173. [8] 劉成林,戴汝為,劉迎建. 簡化的Winger分布及其在筆跡鑒別中的應用[J]. 計算機學報,1997,20(11):1018-1024. 作者簡介:桑金歌,男(漢族),河北工業大學在讀碩士研究生,滄州職業技術學院信息工程系副主任。 注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。”