韓虹 孫鵬 王運宏 單大國
1. 中國刑事警察學院 2. 司法部司法鑒定重點實驗室
簽名字跡是最常用的身份認證方法,確認簽名的真實性對于防止詐騙、檢驗文件真?zhèn)巍⑸矸輽z查有著十分重要的作用。大多數(shù)民事案件中,委托簽名字跡檢驗鑒定的對象大部分為印章與簽名相重疊的文件,此時需要把印章與簽名分離開,以便于后續(xù)的印章真?zhèn)舞b定和簽名字跡的同一鑒定[1]。但當簽名筆跡與其他物質相結合時,字跡常出現(xiàn)的細節(jié)特征會因為與其他顏色的疊加被掩蓋,從而影響特征的正常觀察,導致鑒定人員忽略相關特征,最終對鑒定結果判定產(chǎn)生一定的影響。因此,將印章與簽名筆跡進行有效分離,同時盡可能的保留筆跡的細節(jié)特征是筆跡鑒定工作重要的一部分。
印章與簽名筆跡的分離實質上是關于圖像分割的問題,面對此類問題,通常采用閾值法來達到圖像分割的目的[2]。目前基于圖像處理的印章與簽名字跡分割法主要為閾值處理,最早的閾值處理法是由Prewitt等人[3]提出的谷底最小值法,該方法將直方圖中的局部極小值作為閾值對圖像進行分割,但經(jīng)過實驗后發(fā)現(xiàn),該方法并不適合直方圖中雙峰間距離寬廣的圖像,同時對于單峰圖像也不適用。Ridler[4]等人雖然對該方法進行了改進,采用迭代的方式來確定局部極小值,但其閾值確定的原理和谷底最小值法相同,且處理結果的表現(xiàn)同樣受到待處理圖像直方圖質量的限制。而后Kapur等人[5]提出了一維最大熵方法,引入熵概念,將圖像的灰度級概率分布分為兩類,求得每一種分布的熵并對其進行求和,選擇合適的閾值最大化兩者之和,以獲得物體和圖片背景分布之間的最大信息,從而實現(xiàn)物體與背景之間的分割。
目前使用的閾值分割方法都是直接利用圖像的灰度直方圖信息進行閾值確定,忽略了色彩空間中印章與簽名字跡兩類數(shù)據(jù)之間的關系,導致閾值處理后少量簽名筆跡數(shù)據(jù)被錯誤劃分,從而出現(xiàn)印章與筆跡無法完全分離或筆跡細節(jié)特征丟失的現(xiàn)象,最終影響簽名字跡的比對。針對上述問題,本文提出在進行閾值處理之前,先對印章和書寫字跡的數(shù)據(jù)進行分類,而不是直接對圖像灰度級進行分類,然后再結合直方圖信息,選擇合適的閾值實現(xiàn)兩者之間的分割。該方法的具體流程如圖1所示。
線性判別分析是一種有監(jiān)督學習的降維技術,在人臉檢測、人臉識別、目標跟蹤和檢測中得以廣泛應用,因為在進行模式識別過程中總是面臨著數(shù)據(jù)維數(shù)過高的問題,這些高維特征是具有相關性的或是冗余的,往往可以嵌入某個低維空間中,所以對數(shù)據(jù)進行降維是進行圖像處理過程中的一個重要步驟[6]。由于本文討論的問題僅限于印章和簽名字跡的兩類數(shù)據(jù),所以暫時不需要考慮對數(shù)據(jù)進行降維,而只需要解決二分類的問題。因此,選擇使用Fisher線性判別分析來實現(xiàn)。
一張圖片中,有的顏色分量之間會呈現(xiàn)出線性相關性,而有的顏色分量之間能夠呈現(xiàn)出線性可分性[7]。對線性相關性太強的數(shù)據(jù)進行Fisher線性判別很難將兩者進行分離,經(jīng)過最終的閾值處理后仍然會呈現(xiàn)出數(shù)據(jù)被錯誤劃分的現(xiàn)象。因此,對兩類數(shù)據(jù)進行分類之前需要先確定適合印章數(shù)據(jù)和簽名字跡數(shù)據(jù)分離的顏色分量,減少兩類數(shù)據(jù)被錯誤劃分的情況,達到印章和筆跡在完全分離的情況下又保留筆跡原有細節(jié)特征的要求。
圖2(a)顯示了待處理圖片的像素分布情況,可以看到,印章數(shù)據(jù)與簽名數(shù)據(jù)的B分量和G分量存在大部分重疊的現(xiàn)象,兩者具有明顯的線性相關性[8],觀察圖2(b)發(fā)現(xiàn),R和G分量的像素分布只存在少部分重疊,F(xiàn)isher線性判別分析可行性高,又因為B分量和G分量具有高度的線性相關性,故選擇對R分量和G分量進行數(shù)據(jù)分離。

Fisher線性判別分析通過公式(1)將數(shù)據(jù)投影到直線上,其中ω 為對兩類數(shù)據(jù)進行分離的最佳投影向量,為實現(xiàn)印章與簽名字跡的分離,就需要使這兩類數(shù)據(jù)經(jīng)過投影后形成的新的投影點盡可能的遠,即印章數(shù)據(jù)中心 與簽名字跡數(shù)據(jù)中心 的距離最大化,而兩類數(shù)據(jù)內部的各投影點距離要保持盡可能的近。因此,引入類間散度矩陣 和類內散度矩陣Sm,通過公式(2)最大化兩者的廣義瑞利商,使得投影后印章數(shù)據(jù)與簽名字跡數(shù)據(jù)的類間散度矩陣最大且類內散度矩陣最小。最終計算得到向量ω,如公式(3)所示:

圖2(c)是R分量和G分量經(jīng)過線性判別分析后的像素分布圖,與圖2(b)進行對比,可以明顯看出兩類數(shù)據(jù)已被很好的分離開。在完成以上工作之后,只需要通過圖像直方圖信息確定其閾值就可以完成印章和簽名字跡分割的整個任務。
本文實驗所用掃描儀為佳能MG2580S,文件掃描格式為PDF;所用的計算機配置為Windows 10操作系統(tǒng),CPU類型為第六代智能英特爾酷睿i5四核處理器,圖像處理編程環(huán)境為Matlab。
為保證實驗的多樣性和可靠性,實驗數(shù)據(jù)集按以下方法制作:首先在白紙上分別寫下“實驗簽名”、“實驗用字”、“筆記檢驗”等字,將其分為A、B、C三組,每組24個樣本,對每個樣本進行編號后進行掃描,作為真值圖像與實驗結果進行比對。使用同一枚印章在制作好的筆跡樣本上進行蓋印,確保印文與字跡有較多重疊,對蓋印后的圖片進行掃描作為樣本,最終得到的印章簽名樣本圖像共144幅(72幅真值圖,72幅樣本),每幅圖像的大小為1800×1800。
由于本文最終是根據(jù)直方圖信息確定閾值,為了說明本方法在分離圖像和細節(jié)保留方面的有效性,選擇同樣基于直方圖的較為經(jīng)典的谷底最小值法和一維最大熵法對樣本進行處理,將其結果與基于線性判別分析方法進行比對。同時,引入矩陣相關系數(shù)和特征相似度(Feature Similarity,F(xiàn)SIM)對結果進行客觀測評,將評價數(shù)值繪制成折線圖,更加直觀的展示三種方法之間的優(yōu)劣,并在最后通過對評價指標結果均值的分析證明該方法的有效性。
整個實驗遵循控制變量原則,在相同實驗環(huán)境下,分別使用一維最大熵法、谷底最小值法以及本文提出的基于線性判別分析的方法對原始圖像進行處理,從三組實驗結果中各

觀察圖3(c)列發(fā)現(xiàn),利用一維最大熵法進行實驗后得到的簽名字跡在筆畫粗細方面基本沒有變化,但其與印章未能實現(xiàn)完全分離。圖3(d)列的結果說明,雖然使用谷底最小值法能夠將兩者分離,簽名字跡卻出現(xiàn)了筆畫變細以及偽漏白現(xiàn)象,這兩種情況對于筆跡鑒定的真實性會產(chǎn)生嚴重干擾。通過圖3(e)列可以觀察到,使用本文方法得到的簽名字跡,印章與字跡不僅能完全分離,而且分離后筆畫變細和偽漏白現(xiàn)象均得到了很好的解決。
為客觀評估提取效果,使用矩陣相關系數(shù)和FSIM對簽名字跡提取效果進行評價,并記錄其測評數(shù)據(jù)值:
1. 矩陣相關系數(shù)
計算提取的印章簽名與真值簽名的相關系數(shù),用于度量其線性相關性。其數(shù)學表達式為:

2. 特征相似度
FSIM通過計算提取簽名字跡的局部相位一致性及梯度幅值的相似度,得出加權匹配后的相似度分數(shù),值越大說明當前簽名字跡越接近真值簽名字跡,其數(shù)學表達式為:



觀察圖4、圖5發(fā)現(xiàn),三種方法得到的評測值變化趨勢基本一致,但利用本文方法得到的簽名字跡的評估值始終高于另外兩種方法,且波動更加平緩,由此可見其魯棒性更高。三種方法的評價均值詳見表1,該數(shù)據(jù)同樣表明,本文方法相較于另外兩種方法有一定程度的提高。其中,矩陣相關系數(shù)比一維最大熵法提高了6%,比谷底最小值法提高了5%;FSIM系數(shù)比一維最大熵法提高了10.2%,相對于谷底最小值法提高了10.5%。由此可見,本文提出的基于線性判別分析的印章與簽名字跡分離方法的有效性和魯棒性更高。

?
本文提出了一種基于線性判別分析實現(xiàn)印章與簽名字跡分離的方法,首先分析色彩分量之間的像素分布,找到適合分離的兩個顏色分量,經(jīng)過線性判別分析完成二分類后,通過圖像直方圖信息選擇閾值進行處理。結果表明,該方法不僅能夠實現(xiàn)印章與簽名字跡的完全分離,還能夠保持簽名字跡的原有特征不被破壞,比直接通過直方圖選取閾值以及直接對圖像灰度級進行分類的效果更好。未來的工作將致力于印章與簽名字跡重疊情況下提取印章的新方法。