黃飛騰,郝紅光,陳維娜,孫佳藝,史文韜,張璐野,王子夫
(1.中國(guó)人民公安大學(xué)刑事科學(xué)技術(shù)學(xué)院,北京100038;2.公安部物證鑒定中心,北京 100038)
隨著無紙化辦公的普及,電子簽名的應(yīng)用越來越廣泛,電子簽名筆跡真?zhèn)渭m紛隨之產(chǎn)生,相比于紙質(zhì)簽名筆跡,由于電子簽名的書寫條件、書寫心理狀態(tài)等發(fā)生了較大的改變,僅依靠傳統(tǒng)的筆跡檢驗(yàn)方法難以得出準(zhǔn)確的結(jié)論,因此,一些專家學(xué)者提出了電子簽名筆跡的動(dòng)態(tài)特征研究方法[1]。筆跡的動(dòng)態(tài)特征是指,書寫運(yùn)動(dòng)過程中各個(gè)物理量的大小和變化,如時(shí)長(zhǎng)、作用力、速度等[1]。這些動(dòng)態(tài)特征在傳統(tǒng)的紙質(zhì)簽名中不易獲取,但是在電子簽名筆跡中,可以通過解析軟件獲取,為量化檢驗(yàn)提供條件。目前,在國(guó)內(nèi)外筆跡檢驗(yàn)領(lǐng)域,主要是利用電子簽名設(shè)備獲取時(shí)長(zhǎng)、速度、壓力等動(dòng)態(tài)特征的量化數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行分析、比對(duì),探究電子簽名筆跡動(dòng)態(tài)特征的穩(wěn)定性[2-3],并利用動(dòng)態(tài)特征數(shù)據(jù)區(qū)分摹仿簽名與真實(shí)簽名[4-6]。筆跡檢驗(yàn)領(lǐng)域的研究主要是逐個(gè)進(jìn)行人工分析比對(duì),依靠專家經(jīng)驗(yàn)得出最終的鑒定結(jié)論,對(duì)于大量的檢驗(yàn)、樣本的比對(duì)則需要耗費(fèi)筆跡檢驗(yàn)人員大量的時(shí)間、精力,而且效率較低,成本高。
隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,許多專家、學(xué)者開始研究利用計(jì)算機(jī)技術(shù)對(duì)電子簽名筆跡進(jìn)行輔助檢驗(yàn),并取得了一系列的成果[7,8]。通過計(jì)算機(jī)輔助檢驗(yàn)可以對(duì)大量樣本進(jìn)行初步篩查,縮小范圍,為檢驗(yàn)人員在實(shí)際案件檢驗(yàn)中提供幫助。本文以中文電子簽名筆跡為研究對(duì)象,嘗試?yán)脵C(jī)器學(xué)習(xí)算法來研究動(dòng)態(tài)特征,創(chuàng)造性地結(jié)合多種監(jiān)督學(xué)習(xí)算法構(gòu)建分類模型[9,10]對(duì)不同人的電子簽名筆跡進(jìn)行分類識(shí)別,方法易于理解,操作簡(jiǎn)單易行,識(shí)別正確率高,具有可行性。
數(shù)據(jù)采集設(shè)備,智創(chuàng)PPL398S2型手寫板。設(shè)備參數(shù):分辨率 5080LPI;采點(diǎn)率 300PPS(非插值);誤差(邊緣)0.5mm;壓力感應(yīng)2048級(jí)(非插值)線性技術(shù);筆ID號(hào)64BIT;筆尖為高摩擦雙材料。
數(shù)據(jù)采集軟件,ZCSignDemoV2.2,解析出電子簽名筆跡的采集位點(diǎn)數(shù)量、每個(gè)采集位點(diǎn)的坐標(biāo)與壓力值。
數(shù)據(jù)分析軟件,MATLAB,用于分類識(shí)別。
繪圖軟件,Origin2018,繪制圖表,展示實(shí)驗(yàn)結(jié)果。
選取30名在校大學(xué)生作為志愿者,其中男性志愿者 15名(M1-M15)、女性志愿者 15名(F1-F15),詳細(xì)信息見表1。

表1 30名志愿者的基本信息
按照簽名筆畫數(shù)將簽名分為簡(jiǎn)單、一般、復(fù)雜三種類型簽名,詳見圖1至圖3、表2。保持電子簽名板與水平面夾角為0°,志愿者在柔和的自然光線下,保持坐姿在板上進(jìn)行書寫練習(xí),熟悉書寫條件與書寫環(huán)境后以正常速度分別書寫相同的簡(jiǎn)單、一般、復(fù)雜簽名各100次,簽名筆跡如圖1-3所示。其中,80次作為訓(xùn)練樣本,20次作為測(cè)試樣本。為了防止手臂肌肉疲勞,每書寫20次休息一次,每種簽名樣本3000份,共計(jì)獲取樣本9000份,提取的簽名樣本原始數(shù)據(jù),如圖4所示。其中,序號(hào)表示采集位點(diǎn),一個(gè)位點(diǎn)表示1/300s,X、Y表示位點(diǎn)的坐標(biāo),范圍為150至1600點(diǎn)位,相鄰兩個(gè)點(diǎn)位的實(shí)際長(zhǎng)度為3.57×10-5m;Z表示位點(diǎn)的壓力值,范圍為0至2048級(jí),1級(jí)等于9.8×10-4N。

圖1簡(jiǎn)單簽名

圖2一般簽名

圖3復(fù)雜簽名

圖4簽名樣本數(shù)據(jù)

表2實(shí)驗(yàn)采集的簽名類型
通過對(duì)原始數(shù)據(jù)的分析獲取書寫時(shí)長(zhǎng)與力度變化數(shù)據(jù),如圖5-圖7所示。

圖5簡(jiǎn)單簽名“王寧”的書寫力度變化(M1)

圖6一般簽名“孫佳藝”的書寫力度變化(M1)

圖7復(fù)雜簽名“黃飛騰”的書寫力度變化(M1)
采集位點(diǎn)數(shù)除以300可以得到以秒為單位的時(shí)長(zhǎng);將書寫時(shí)長(zhǎng)、書寫力度變化圖中的峰數(shù)量(書寫筆畫數(shù))以及每一筆畫的平均書寫力度作為特征進(jìn)行分類,如表3所示。

表3預(yù)處理后的數(shù)據(jù)
對(duì)簡(jiǎn)單、一般、復(fù)雜三種類型的簽名樣本,分別運(yùn)用KNN、DA、RF、SVM算法構(gòu)建分類模型,使用MATLAB 的 KNN.fit、ClassificationDiscriminant.fit、TreeBagger、fitcecoc函數(shù),各自調(diào)整到合適的參數(shù)實(shí)現(xiàn)分類,并統(tǒng)計(jì)訓(xùn)練集(Training Set)、測(cè)試集(Test Set)正確率(Accuracy/%),分類時(shí)間(Time)
四種分類模型對(duì)簡(jiǎn)單簽名分類的實(shí)驗(yàn)結(jié)果,如表4,圖8所示。

表4四種分類模型對(duì)簡(jiǎn)單簽名的分類結(jié)果
表4記錄了3000份簡(jiǎn)單簽名樣本在四種分類模型下的分類正確率、分類時(shí)間。每種模型的訓(xùn)練樣本數(shù)為2400,測(cè)試樣本數(shù)為600。KNN模型的訓(xùn)練樣本正確率為87.4%,測(cè)試樣本的正確分類數(shù)為505,錯(cuò)誤分類數(shù)為95,正確率為84.1%,分類時(shí)間為0.87s;DA模型的訓(xùn)練樣本正確率為75.5%,測(cè)試樣本正確分類數(shù)為468,錯(cuò)誤分類數(shù)為132,正確率為78.0%,分類時(shí)間為1.28s;RF模型的訓(xùn)練樣本正確率為99.8%,測(cè)試樣本正確分類數(shù)為544,錯(cuò)誤分類數(shù)為56,正確率為90.7%,分類時(shí)間為1.88s;SVM模型的訓(xùn)練樣本正確率為94.1%,測(cè)試樣本正確分類數(shù)為524,錯(cuò)誤分類數(shù)為76,正確率為87.3%,分類時(shí)間為6.75s;其中,測(cè)試樣本分類正確率最高為90.7%,最低為78.0%;分類時(shí)間最長(zhǎng)為6.75s,最短為0.87s。

圖8簡(jiǎn)單簽名的分類正確率與時(shí)間
由圖8可以看出,四種模型都取得了較高的正確率,SVM分類時(shí)間較長(zhǎng),其余均較短;RF模型分類正確率最高,KNN模型的分類時(shí)間最短。
四種分類模型對(duì)一般簽名分類的實(shí)驗(yàn)結(jié)果,如表5,圖9所示。

圖9一般簽名的分類正確率與時(shí)間
表5記錄了3000份一般簽名樣本在四種分類模型下的分類正確率、分類時(shí)間。每種模型的訓(xùn)練樣本數(shù)為2400,測(cè)試樣本數(shù)為600。KNN模型的訓(xùn)練樣本正確率為85.3%,測(cè)試樣本的正確分類數(shù)為492,錯(cuò)誤分類數(shù)為108,正確率為82.0%,分類時(shí)間為0.92s;DA模型的訓(xùn)練樣本正確率為81.7%,測(cè)試樣本正確分類數(shù)為466,錯(cuò)誤分類數(shù)為134,正確率為77.7%,分類時(shí)間為1.28s;RF模型的訓(xùn)練樣本正確率為99.8%,測(cè)試樣本正確分類數(shù)為549,錯(cuò)誤分類數(shù)為51,正確率為91.5%,分類時(shí)間為2.15s;SVM模型的訓(xùn)練樣本正確率為98.4%,測(cè)試樣本正確分類數(shù)為512,錯(cuò)誤分類數(shù)為88,正確率為85.3%,分類時(shí)間為7.01s;其中,測(cè)試樣本正確率最高為91.5%,最低為77.7%;分類時(shí)間最長(zhǎng)為7.01s,最短為0.92s。
由圖9可以看出,四種模型都取得了較高的正確率,SVM分類時(shí)間較長(zhǎng),其余均較短;RF模型分類正確率最高,KNN模型的分類時(shí)間最短。

表5四種分類模型對(duì)一般簽名的分類結(jié)果
四種分類模型對(duì)復(fù)雜簽名分類的實(shí)驗(yàn)結(jié)果,如表6,圖 10所示。

表6四種分類模型對(duì)復(fù)雜簽名的分類結(jié)果

圖10復(fù)雜簽名的分類正確率與時(shí)間
表6記錄了3000份復(fù)雜簽名樣本在四種分類模型下的分類正確率、分類時(shí)間。每種模型的訓(xùn)練樣本數(shù)為2400,測(cè)試樣本數(shù)為600。KNN模型的訓(xùn)練樣本正確率為99.9%,測(cè)試樣本的正確分類數(shù)為509,錯(cuò)誤分類數(shù)為91,正確率為84.8%,分類時(shí)間為0.75s;DA模型的訓(xùn)練樣本正確率為75.5%,測(cè)試樣本正確分類數(shù)為483,錯(cuò)誤分類數(shù)為117,正確率為80.5%,分類時(shí)間為1.11s;RF模型的訓(xùn)練樣本正確率為99.8%,測(cè)試樣本正確分類數(shù)為560,錯(cuò)誤分類數(shù)為40,正確率為93.3%,分類時(shí)間為1.99s;SVM模型的訓(xùn)練樣本正確率為94.1%,測(cè)試樣本正確分類數(shù)為539,錯(cuò)誤分類數(shù)為61,正確率為89.8%,分類時(shí)間為6.43s;其中,測(cè)試樣本正確率最高為93.3%,最低為80.5%;分類時(shí)間最長(zhǎng)為6.43s,最短為0.75s。
由圖10可以看出,四種模型都取得了較高的正確率,SVM分類時(shí)間較長(zhǎng),其余均較短;RF模型分類正確率最高,KNN模型的分類時(shí)間最短。
綜合表4-表6,圖8-圖10,選取書寫時(shí)長(zhǎng)、書寫筆畫數(shù)以及每一筆畫的平均書寫力度作為特征,在本研究中的四種分類模型下,不同類型的簽名對(duì)分類效果影響不大,即便是傳統(tǒng)意義上認(rèn)為較難鑒定的簡(jiǎn)單簽名也取得了較好的分類效果。其中,RF模型分類正確率最高對(duì)三種樣本的分類正確率都超過90%,KNN模型用時(shí)最少,對(duì)三種樣本的分類時(shí)間均低于1s。
本研究通過獲取電子簽名筆跡的動(dòng)態(tài)特征數(shù)據(jù),并解析出時(shí)長(zhǎng)、筆畫數(shù)、每筆平均書寫力度作為特征,結(jié)合鑒別分析、K近鄰、隨機(jī)森林、支持向量機(jī)算法構(gòu)建分類模型,取得了較理想的實(shí)驗(yàn)結(jié)果。研究結(jié)果表明,隨機(jī)森林分類器正確率最高,用時(shí)最短;盡管不同類型的簽名筆畫數(shù)不同,但是對(duì)實(shí)驗(yàn)結(jié)果的正確率影響不大,這些分類模型不僅適用于傳統(tǒng)意義上的特征較多、較易鑒定的復(fù)雜簽名,也適用于特征較少、不易鑒定的簡(jiǎn)單簽名。本研究在一定程度上論證了運(yùn)用機(jī)器學(xué)習(xí)算法構(gòu)建分類模型對(duì)電子簽名筆跡的分類識(shí)別具有可行性,為電子簽名筆跡的計(jì)算機(jī)輔助檢驗(yàn)提供了一種簡(jiǎn)單易行、識(shí)別精度高的新思路。