基于動(dòng)態(tài)特征的電子簽名筆跡分類識(shí)別研究

2020-04-08 07:52:38黃飛騰郝紅光陳維娜孫佳藝史文韜張璐野王子夫

現(xiàn)代計(jì)算機(jī) 2020年7期

關(guān)鍵詞：分類模型

黃飛騰，郝紅光，陳維娜，孫佳藝，史文韜，張璐野，王子夫

（1.中國(guó)人民公安大學(xué)刑事科學(xué)技術(shù)學(xué)院，北京100038；2.公安部物證鑒定中心，北京 100038）

0 引言

隨著無紙化辦公的普及，電子簽名的應(yīng)用越來越廣泛，電子簽名筆跡真?zhèn)渭m紛隨之產(chǎn)生，相比于紙質(zhì)簽名筆跡，由于電子簽名的書寫條件、書寫心理狀態(tài)等發(fā)生了較大的改變，僅依靠傳統(tǒng)的筆跡檢驗(yàn)方法難以得出準(zhǔn)確的結(jié)論，因此，一些專家學(xué)者提出了電子簽名筆跡的動(dòng)態(tài)特征研究方法[1]。筆跡的動(dòng)態(tài)特征是指，書寫運(yùn)動(dòng)過程中各個(gè)物理量的大小和變化，如時(shí)長(zhǎng)、作用力、速度等[1]。這些動(dòng)態(tài)特征在傳統(tǒng)的紙質(zhì)簽名中不易獲取，但是在電子簽名筆跡中，可以通過解析軟件獲取，為量化檢驗(yàn)提供條件。目前，在國(guó)內(nèi)外筆跡檢驗(yàn)領(lǐng)域，主要是利用電子簽名設(shè)備獲取時(shí)長(zhǎng)、速度、壓力等動(dòng)態(tài)特征的量化數(shù)據(jù)，對(duì)這些數(shù)據(jù)進(jìn)行分析、比對(duì)，探究電子簽名筆跡動(dòng)態(tài)特征的穩(wěn)定性[2-3]，并利用動(dòng)態(tài)特征數(shù)據(jù)區(qū)分摹仿簽名與真實(shí)簽名[4-6]。筆跡檢驗(yàn)領(lǐng)域的研究主要是逐個(gè)進(jìn)行人工分析比對(duì)，依靠專家經(jīng)驗(yàn)得出最終的鑒定結(jié)論，對(duì)于大量的檢驗(yàn)、樣本的比對(duì)則需要耗費(fèi)筆跡檢驗(yàn)人員大量的時(shí)間、精力，而且效率較低，成本高。

隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展，許多專家、學(xué)者開始研究利用計(jì)算機(jī)技術(shù)對(duì)電子簽名筆跡進(jìn)行輔助檢驗(yàn)，并取得了一系列的成果[7,8]。通過計(jì)算機(jī)輔助檢驗(yàn)可以對(duì)大量樣本進(jìn)行初步篩查，縮小范圍，為檢驗(yàn)人員在實(shí)際案件檢驗(yàn)中提供幫助。本文以中文電子簽名筆跡為研究對(duì)象，嘗試?yán)脵C(jī)器學(xué)習(xí)算法來研究動(dòng)態(tài)特征，創(chuàng)造性地結(jié)合多種監(jiān)督學(xué)習(xí)算法構(gòu)建分類模型[9,10]對(duì)不同人的電子簽名筆跡進(jìn)行分類識(shí)別，方法易于理解，操作簡(jiǎn)單易行，識(shí)別正確率高，具有可行性。

1 實(shí)驗(yàn)部分

1.1 軟硬件設(shè)備

數(shù)據(jù)采集設(shè)備，智創(chuàng)PPL398S2型手寫板。設(shè)備參數(shù)：分辨率 5080LPI；采點(diǎn)率 300PPS（非插值）；誤差（邊緣）0.5mm；壓力感應(yīng)2048級(jí)（非插值）線性技術(shù)；筆ID號(hào)64BIT；筆尖為高摩擦雙材料。

數(shù)據(jù)采集軟件，ZCSignDemoV2.2，解析出電子簽名筆跡的采集位點(diǎn)數(shù)量、每個(gè)采集位點(diǎn)的坐標(biāo)與壓力值。

數(shù)據(jù)分析軟件，MATLAB，用于分類識(shí)別。

繪圖軟件，Origin2018，繪制圖表，展示實(shí)驗(yàn)結(jié)果。

1.2 樣本采集

選取30名在校大學(xué)生作為志愿者，其中男性志愿者 15名（M1-M15）、女性志愿者 15名（F1-F15），詳細(xì)信息見表1。

表1 30名志愿者的基本信息

按照簽名筆畫數(shù)將簽名分為簡(jiǎn)單、一般、復(fù)雜三種類型簽名，詳見圖1至圖3、表2。保持電子簽名板與水平面夾角為0°，志愿者在柔和的自然光線下，保持坐姿在板上進(jìn)行書寫練習(xí)，熟悉書寫條件與書寫環(huán)境后以正常速度分別書寫相同的簡(jiǎn)單、一般、復(fù)雜簽名各100次，簽名筆跡如圖1-3所示。其中，80次作為訓(xùn)練樣本，20次作為測(cè)試樣本。為了防止手臂肌肉疲勞，每書寫20次休息一次，每種簽名樣本3000份，共計(jì)獲取樣本9000份，提取的簽名樣本原始數(shù)據(jù)，如圖4所示。其中，序號(hào)表示采集位點(diǎn)，一個(gè)位點(diǎn)表示1/300s，X、Y表示位點(diǎn)的坐標(biāo)，范圍為150至1600點(diǎn)位，相鄰兩個(gè)點(diǎn)位的實(shí)際長(zhǎng)度為3.57×10-5m；Z表示位點(diǎn)的壓力值，范圍為0至2048級(jí)，1級(jí)等于9.8×10-4N。

圖1簡(jiǎn)單簽名

圖2一般簽名

圖3復(fù)雜簽名

圖4簽名樣本數(shù)據(jù)

表2實(shí)驗(yàn)采集的簽名類型

1.3 數(shù)據(jù)預(yù)處理

通過對(duì)原始數(shù)據(jù)的分析獲取書寫時(shí)長(zhǎng)與力度變化數(shù)據(jù)，如圖5-圖7所示。

圖5簡(jiǎn)單簽名“王寧”的書寫力度變化（M1）

圖6一般簽名“孫佳藝”的書寫力度變化（M1）

圖7復(fù)雜簽名“黃飛騰”的書寫力度變化（M1）

采集位點(diǎn)數(shù)除以300可以得到以秒為單位的時(shí)長(zhǎng)；將書寫時(shí)長(zhǎng)、書寫力度變化圖中的峰數(shù)量（書寫筆畫數(shù)）以及每一筆畫的平均書寫力度作為特征進(jìn)行分類，如表3所示。

表3預(yù)處理后的數(shù)據(jù)

2 結(jié)果與分析

對(duì)簡(jiǎn)單、一般、復(fù)雜三種類型的簽名樣本，分別運(yùn)用KNN、DA、RF、SVM算法構(gòu)建分類模型，使用MATLAB 的 KNN.fit、ClassificationDiscriminant.fit、TreeBagger、fitcecoc函數(shù)，各自調(diào)整到合適的參數(shù)實(shí)現(xiàn)分類，并統(tǒng)計(jì)訓(xùn)練集（Training Set）、測(cè)試集（Test Set）正確率（Accuracy/%），分類時(shí)間（Time）

2.1 簡(jiǎn)單簽名

四種分類模型對(duì)簡(jiǎn)單簽名分類的實(shí)驗(yàn)結(jié)果，如表4，圖8所示。

表4四種分類模型對(duì)簡(jiǎn)單簽名的分類結(jié)果

表4記錄了3000份簡(jiǎn)單簽名樣本在四種分類模型下的分類正確率、分類時(shí)間。每種模型的訓(xùn)練樣本數(shù)為2400，測(cè)試樣本數(shù)為600。KNN模型的訓(xùn)練樣本正確率為87.4%，測(cè)試樣本的正確分類數(shù)為505，錯(cuò)誤分類數(shù)為95，正確率為84.1%，分類時(shí)間為0.87s；DA模型的訓(xùn)練樣本正確率為75.5%，測(cè)試樣本正確分類數(shù)為468，錯(cuò)誤分類數(shù)為132，正確率為78.0%，分類時(shí)間為1.28s；RF模型的訓(xùn)練樣本正確率為99.8%，測(cè)試樣本正確分類數(shù)為544，錯(cuò)誤分類數(shù)為56，正確率為90.7%，分類時(shí)間為1.88s；SVM模型的訓(xùn)練樣本正確率為94.1%，測(cè)試樣本正確分類數(shù)為524，錯(cuò)誤分類數(shù)為76，正確率為87.3%，分類時(shí)間為6.75s；其中，測(cè)試樣本分類正確率最高為90.7%，最低為78.0%；分類時(shí)間最長(zhǎng)為6.75s，最短為0.87s。

圖8簡(jiǎn)單簽名的分類正確率與時(shí)間

由圖8可以看出，四種模型都取得了較高的正確率，SVM分類時(shí)間較長(zhǎng)，其余均較短；RF模型分類正確率最高，KNN模型的分類時(shí)間最短。

2.2 一般簽名

四種分類模型對(duì)一般簽名分類的實(shí)驗(yàn)結(jié)果，如表5，圖9所示。

圖9一般簽名的分類正確率與時(shí)間

表5記錄了3000份一般簽名樣本在四種分類模型下的分類正確率、分類時(shí)間。每種模型的訓(xùn)練樣本數(shù)為2400，測(cè)試樣本數(shù)為600。KNN模型的訓(xùn)練樣本正確率為85.3%，測(cè)試樣本的正確分類數(shù)為492，錯(cuò)誤分類數(shù)為108，正確率為82.0%，分類時(shí)間為0.92s；DA模型的訓(xùn)練樣本正確率為81.7%，測(cè)試樣本正確分類數(shù)為466，錯(cuò)誤分類數(shù)為134，正確率為77.7%，分類時(shí)間為1.28s；RF模型的訓(xùn)練樣本正確率為99.8%，測(cè)試樣本正確分類數(shù)為549，錯(cuò)誤分類數(shù)為51，正確率為91.5%，分類時(shí)間為2.15s；SVM模型的訓(xùn)練樣本正確率為98.4%，測(cè)試樣本正確分類數(shù)為512，錯(cuò)誤分類數(shù)為88，正確率為85.3%，分類時(shí)間為7.01s；其中，測(cè)試樣本正確率最高為91.5%，最低為77.7%；分類時(shí)間最長(zhǎng)為7.01s，最短為0.92s。

由圖9可以看出，四種模型都取得了較高的正確率，SVM分類時(shí)間較長(zhǎng)，其余均較短；RF模型分類正確率最高，KNN模型的分類時(shí)間最短。

表5四種分類模型對(duì)一般簽名的分類結(jié)果

2.3 復(fù)雜簽名

四種分類模型對(duì)復(fù)雜簽名分類的實(shí)驗(yàn)結(jié)果，如表6，圖 10所示。

表6四種分類模型對(duì)復(fù)雜簽名的分類結(jié)果

圖10復(fù)雜簽名的分類正確率與時(shí)間

表6記錄了3000份復(fù)雜簽名樣本在四種分類模型下的分類正確率、分類時(shí)間。每種模型的訓(xùn)練樣本數(shù)為2400，測(cè)試樣本數(shù)為600。KNN模型的訓(xùn)練樣本正確率為99.9%，測(cè)試樣本的正確分類數(shù)為509，錯(cuò)誤分類數(shù)為91，正確率為84.8%，分類時(shí)間為0.75s；DA模型的訓(xùn)練樣本正確率為75.5%，測(cè)試樣本正確分類數(shù)為483，錯(cuò)誤分類數(shù)為117，正確率為80.5%，分類時(shí)間為1.11s；RF模型的訓(xùn)練樣本正確率為99.8%，測(cè)試樣本正確分類數(shù)為560，錯(cuò)誤分類數(shù)為40，正確率為93.3%，分類時(shí)間為1.99s；SVM模型的訓(xùn)練樣本正確率為94.1%，測(cè)試樣本正確分類數(shù)為539，錯(cuò)誤分類數(shù)為61，正確率為89.8%，分類時(shí)間為6.43s；其中，測(cè)試樣本正確率最高為93.3%，最低為80.5%；分類時(shí)間最長(zhǎng)為6.43s，最短為0.75s。

由圖10可以看出，四種模型都取得了較高的正確率，SVM分類時(shí)間較長(zhǎng)，其余均較短；RF模型分類正確率最高，KNN模型的分類時(shí)間最短。

綜合表4-表6，圖8-圖10，選取書寫時(shí)長(zhǎng)、書寫筆畫數(shù)以及每一筆畫的平均書寫力度作為特征，在本研究中的四種分類模型下，不同類型的簽名對(duì)分類效果影響不大，即便是傳統(tǒng)意義上認(rèn)為較難鑒定的簡(jiǎn)單簽名也取得了較好的分類效果。其中，RF模型分類正確率最高對(duì)三種樣本的分類正確率都超過90%，KNN模型用時(shí)最少，對(duì)三種樣本的分類時(shí)間均低于1s。

3 結(jié)語

本研究通過獲取電子簽名筆跡的動(dòng)態(tài)特征數(shù)據(jù)，并解析出時(shí)長(zhǎng)、筆畫數(shù)、每筆平均書寫力度作為特征，結(jié)合鑒別分析、K近鄰、隨機(jī)森林、支持向量機(jī)算法構(gòu)建分類模型，取得了較理想的實(shí)驗(yàn)結(jié)果。研究結(jié)果表明，隨機(jī)森林分類器正確率最高，用時(shí)最短；盡管不同類型的簽名筆畫數(shù)不同，但是對(duì)實(shí)驗(yàn)結(jié)果的正確率影響不大，這些分類模型不僅適用于傳統(tǒng)意義上的特征較多、較易鑒定的復(fù)雜簽名，也適用于特征較少、不易鑒定的簡(jiǎn)單簽名。本研究在一定程度上論證了運(yùn)用機(jī)器學(xué)習(xí)算法構(gòu)建分類模型對(duì)電子簽名筆跡的分類識(shí)別具有可行性，為電子簽名筆跡的計(jì)算機(jī)輔助檢驗(yàn)提供了一種簡(jiǎn)單易行、識(shí)別精度高的新思路。