劉維達+卜巍+鄔向前


摘要:筆跡性別識別在取證分析中具有重要意義。近年來,雖然筆跡性別識別獲得了越來越多的關注,但是目前提出的算法都基于人工設計的特征,難以準確地表達筆跡包含的信息,因而準確率較低。針對這個問題,本文提出了一種基于深度學習的筆跡性別識別方法,使用深度學習caffe工具,將預處理后的筆跡圖像輸人本文設計的卷積神經網絡進行分類。本文首先提取筆跡圖像的每個單詞,然后取單詞的不同全排列拼接成基礎圖,接著按照固定的大小從基礎圖截取材料圖,最后以材料圖為輸入數據,以包含7個卷積層的網絡為模型進行分類。本文的方法在IAM On-Line公開數據庫上進行了測試,取得了較高的識別率。
關鍵詞:筆跡;性別識別;深度學習
0引言
近年來,由于在數據挖掘、取證分析、文檔授權和判斷真實歷史筆跡等方面的應用,筆跡分析變得愈加重要。人類學習寫字從模仿他人開始并逐漸形成自己的筆跡風格,在這個過程中,性別的影響是不容忽視的。Beech和Mackintosh研究了激素和筆跡風格的關系,由此發現產前激素對女性的筆跡風格有很大的影響。Mergl和Tigges的研究表明男性筆跡和女性筆跡存在明顯差異,女性的筆跡更加易讀,更加整潔和有組織性,而男性筆跡更加潦草,會出現更多的錯誤。
目前筆跡性別識別的方法有:基于梯度的識別算法GLBP,提取圖像的HOG特征并結合根據LBP算子提取的梯度特征來支持處理識別,使用SVM進行分類,獲得了75.45%的準確率:基于局部特征的識別算法,設計塊特征計算密度并提取多種LBP特征和HOG特征加入研發識別,使用SVM進行分類,獲得了70%的準確率;基于GMM的識別算法,將局部特征和全局特征融合進行分類,獲得了67.57%的準確率。雖然現有的方法可以在一定程度上識別作者性別,但是由于這些特征表達的筆跡信息不準確,識別率一直并不理想。而深度神經網絡能夠自主學習特征,并且在人臉識別、物體的檢測識別系統方面取得了堪稱優良的效果,因此本文研發設計了一個深度適中的網絡對筆跡進行性別分類。
1圖像預處理
IAM On-Line數據庫提供了筆跡圖像按行分割的結果,圖1為一幅筆跡圖像按行分割的8幅圖像。訓練神經網絡需要大量的數據,而IAM中的筆跡圖像不到兩萬幅,直接使用數據庫中的圖像顯然不能滿足要求,所以本文將這些圖像經過一系列處理,生成了大量圖像。