摘 要:通過實際案例的激光打印機打印文字,鑒別打印機型和打印機墨粉類型,分析打印文字圖像或墨料(粉)FTIR圖形單一鑒別與聯(lián)合鑒別結(jié)果之間的誤差率,評估兩種鑒別方式的可靠性差異。方式一,用打印文字圖像字域及其等方格分區(qū)的筆畫比面積相關(guān)法模糊鑒別打印機型;方式二,用墨料傅里葉變換紅外光譜(FTIR)圖形吸收峰波數(shù)及其一二階導(dǎo)數(shù)和自卷積相關(guān)法模糊鑒別打印機墨料種類。相對上述兩種方式,計算出相關(guān)系數(shù)的距離,進(jìn)行誤差率的模糊綜合分析。結(jié)果表明,單一鑒別方式與聯(lián)合鑒別方式的誤差率有顯著差別。
關(guān)鍵詞:打印機; 文字圖像; 墨料; 相關(guān)系數(shù); 模糊鑒別; 誤差分析
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2008)08-2390-03
Error analysis of printer fuzzy identification based on correlative
specific area of character image black-powder FTIR graphics
WANG Ning1, 2, HAN Guo-qiang1
(1.School of Computer Science Engineering, South China University of Technology, Guangzhou 510641, China;2. Guangzhou Public Security Bureau, Guangzhou 510030, China)
Abstract:This paper analyzed the error of two methods of printer fuzzy identification by a case of laser printer identification. By error analysis of single method and united method, it evaluated the reliability of two methods about printer identification. The first method, got the type of printer by fuzzy evaluation of correlative specific area of character image. The second method, idantified the printer by the similar FTIR spectrum graphics of black-powder of laser printer based on the wavenumbers, the first derivative, the second derivative and the self-deconvolution of FTIR spectrum graphics. With the calculation of correlation of above two methods, the error was analyzed by fuzzy synthetic evaluation about them. The result showed that the difference was obvious between single method and united method.
Key words:printer; character image; black-powder; correlation coefficient; fuzzy identification; error analysis
隨著辦公數(shù)字化的普及,越來越多的司法案件涉及到打印文件(字)來源的快速鑒別,即通過打印文件來鑒別打印機型和墨料類型。研究中,分別用文字圖像相關(guān)比面積法和墨料傅里葉變換紅外光譜(FTIR)圖形模糊判別法鑒別打印機的類型。在具體應(yīng)用中,后者常為前者的輔助鑒別手段,視為佐證,大多不作為主要依據(jù)。實際上,將兩種方法的鑒別結(jié)果均作為主要依據(jù)看待更合理,即同時使用兩種方法進(jìn)行聯(lián)合鑒別。這樣可以大大提高打印機鑒別的可靠性和準(zhǔn)確性。但是,聯(lián)合鑒別較耗時,是否必要,要視其能在多大程度上提高可靠性。本文將通過實際激光打印機鑒別的案例,分析單一鑒別方式與聯(lián)合鑒別方式結(jié)果間的差錯率,給出評價,并提出打印機鑒別的合理方案。一案例涉及常用10種激光打印機及其打印墨粉,具體型號如表1、2所示。
1 基于文字圖像相關(guān)比面積法模糊鑒別打印機型
1.1 文字圖像特征提取
1) 文字來源
一宗司法案件涉及的10種常用激光打印機的打印文件。選擇最常用的1 000個漢字,以宋體、仿宋、楷體、黑體四種字體和四號、五號、六號三種字號,分別用上述10種打印機打印,作為標(biāo)準(zhǔn)參照。
表1 10種常用激光打印機編號打印機編號打印機B1方正文景A230B6利盟E120B2富士施樂3117B7佳能LBP2900B3惠普CLJ5500dnB8三星ML2010B4聯(lián)想LJ2000B9兄弟2040B5愛普生6200LB10柯美1400W表2 10種激光打印機的墨粉編號打印機編號打印機D1方正文景A230D6利盟E120D2富士施樂3117D7佳能LBP2900D3惠普CLJ5500dnD8三星ML2010D4聯(lián)想LJ2000D9兄弟2040D5愛普生6200LD10柯美1400W2)文字圖像采集及處理
1)采用光學(xué)分辨率在1 200 dpi以上的高檔或?qū)I(yè)掃描儀采集文字圖像。掃描分辨率等參數(shù)應(yīng)一致。通過對不同字體字號的實驗,確定1 000 ppi分辨率,反射模式和默認(rèn)參數(shù)值是較理想的條件。
2)應(yīng)用改進(jìn)的最大類間方差法對文字圖像二值化[1,2]。
3)先行分割,再字分割,從打印文件中隨機選取常用字100個。將每個字以3×3網(wǎng)格模式分成9個等面積方塊分區(qū)(圖1) [3]。
3)特征指標(biāo)設(shè)定
設(shè)字域面積為σ0,字筆畫總面積為s0 ,筆畫總周長為l0 ,分區(qū)面積為σi,各分區(qū)筆畫面積為si。
1)整字比面積 筆畫總面積像素與字域面積像素之比。
λ0=s0/σ0(1)
2)分區(qū)比面積 分區(qū)筆畫面積像素與分區(qū)面積像素之比。
σi=σ0/9(2)
λi=si/σi(i=1,2,…,9)(3)
c) 去周長筆畫相對面積
γ=(s0-l0)/s0(4)
待鑒別文字指標(biāo)與標(biāo)準(zhǔn)文字相同。
4)計算待鑒別字與標(biāo)準(zhǔn)字指標(biāo)間的相關(guān)系數(shù)
設(shè)標(biāo)準(zhǔn)字的指標(biāo)為x,待鑒別字的指標(biāo)為y,以r表示標(biāo)準(zhǔn)字與待鑒別字間的相關(guān)系數(shù)。相關(guān)系數(shù)計算公式為
r=|∑(x-x)(y-y)|/∑(x-x)2(y-y)2(5)
1.2 激光打印機機型鑒別
1.2.1 指標(biāo)相關(guān)系數(shù)分布
隨機在待鑒別打印文件中選取100個字,按式(5)計算待鑒別字與10種打印機打印的相同字基本指標(biāo)的相關(guān)系數(shù)。設(shè)f1為整字比面積100個字的相關(guān)系數(shù);f2為去周長筆畫相對面積100個字的相關(guān)系數(shù);f3為分區(qū)比面積的相關(guān)系數(shù)100個字的平均值(式(6))。
f3=∑rn/100; n=1,2,…,100(6)
計算出各指標(biāo)的相關(guān)系數(shù)在各打印機型間的分布見表3。
1.2.2 模糊綜合鑒別
1)特征指標(biāo)隸屬函數(shù)及權(quán)重系數(shù)矩陣
設(shè)特征指標(biāo)隸屬函數(shù)為μA (aj)。設(shè)三個特征指標(biāo)的權(quán)重系數(shù)分別為A1、A2、A3,它們根據(jù)理論設(shè)計要求和統(tǒng)計學(xué)知識,經(jīng)反復(fù)實驗確定。其中:A1為0.125; A2為0.057;A3為0.818,則權(quán)重系數(shù)矩陣如式(7)所示[4]。
A=(A1,A2,A3)=(0.125,0.057,0.818)(7)
2)待鑒別字隸屬函數(shù)及判別矩陣
設(shè)隸屬函數(shù)為μB ( bk),隸屬矩陣為B,則
B=(B1,B2,…,B10)(8)
3)隸屬關(guān)系函數(shù)及矩陣
表3 各指標(biāo)相關(guān)系數(shù)在10種激光打印機型間的分布表編號f1f2f3編號f1f2f3B10.4680.4050.412B60.6920.7850.704B20.4760.4280.399B70.3970.4240.463B30.5350.6130.577B80.4950.5060.520B40.1470.2290.193B90.9270.8940.961B50.3190.3740.421B100.6720.7150.683待鑒別字隸屬函數(shù)μB(bk)與指標(biāo)隸屬函數(shù)μA(aj)之間模糊關(guān)系的隸屬函數(shù)為R (aj,bk),矩陣R根據(jù)表3建立[5,6]。
4) 模糊綜合評判計算
μB(bk)=sup(μA(aj)∧R(aj,bk)); j=1,2,3;k=1,2,…,10(9)
用矩陣計算
B=A R=(0.125 0.057 0.818)
0.4680.4760.5350.1470.3190.6920.3970.4950.9270.672
0.4050.4280.6130.2290.3740.7850.4240.5060.8940.715
0.4120.3990.5770.1930.4210.7040.4630.5200.9610.683=
(0.412 0.399 0.577 0.193 0.421 0.704 0.463 0.520 0.818 0.683)(10)
5)判別
B0=max(B1B2B3B4B5B6B7B8B9B10)=B9=0.818(11)
結(jié)果,待鑒別打印機被判斷為兄弟2040激光打印機,與案件最終結(jié)果一致。統(tǒng)計用這種方法的結(jié)果,與案件最終結(jié)果一致率為96.07%。
2 基于墨粉FTIR圖形相似法模糊鑒別打印機型
2.1 墨粉FTIR圖形的采集
1)以傅里葉變換紅外光譜儀對待鑒別墨粉樣品掃描,獲取墨粉的紅外吸收光譜,并進(jìn)行一階、二階導(dǎo)數(shù)和自卷積處理[7]。
2)以同樣方法采集10種激光打印機墨粉的FTIR圖形,并進(jìn)行一階、二階導(dǎo)數(shù)和自卷積處理。
2.2 待鑒別墨粉與標(biāo)準(zhǔn)墨粉的相關(guān)系數(shù)計算
2.2.1 基本指標(biāo)設(shè)定
基本指標(biāo)為FTIR光譜及其一階、二階導(dǎo)數(shù)和自卷積的特征吸收峰值。計算吸收峰波數(shù)的相關(guān)系數(shù)時,必須輸入相互對應(yīng)的吸收峰波數(shù)值,波數(shù)值相差很大時,可認(rèn)為吸收峰不對應(yīng)。這種情況下視對方值為0。根據(jù)FTIR技術(shù)的判斷界限,大多不超過12。故FTIR吸收峰波數(shù)h對應(yīng)區(qū)間為
|h-h|<12(12)
2.2.2 待鑒別墨粉與標(biāo)準(zhǔn)墨粉相關(guān)系數(shù)分布
Ci表示FTIR常規(guī)光譜、一階、二階導(dǎo)數(shù)光譜及自卷積波數(shù)值四個指標(biāo)。即C1為常規(guī)光譜波數(shù);C2為一階導(dǎo)數(shù);C3為二階導(dǎo)數(shù);C4為自卷積,待鑒別墨粉與10種激光打印機墨粉Gj各指標(biāo)的相關(guān)系數(shù)分布如表4[8,9]所示。
表4待鑒別墨粉基本指標(biāo)相關(guān)系數(shù)在10種激光打印墨粉Gj中的分布表指標(biāo)G1G2G3G4G5G6G7G8G9G10C10.3860.8250.0930.7920.3740.6940.1910.7830.9740.501C20.4150.7710.1890.6810.2870.5270.2070.6760.9350.497C30.4720.7340.2040.7160.3160.6230.3160.7140.8130.546C40.4030.7260.1670.6940.3480.7020.2340.6950.8960.4742.3 墨粉類型的模糊綜合分析
2.3.1 指標(biāo)隸屬函數(shù)及權(quán)重系數(shù)矩陣
指標(biāo)的隸屬函數(shù)為μC(ci),F(xiàn)TIR常規(guī)、一階、二階導(dǎo)數(shù)和自卷積光譜的權(quán)重,以統(tǒng)計學(xué)中的差異顯著性級別確定。四個指標(biāo)的權(quán)重系數(shù)分別為0.951、0.039、0.005、0.005,權(quán)重系數(shù)矩陣C以下式表示。
C=(C1 C2 C3 C4)=(0.951 0.039 0.005 0.005)(13)
2.3.2 待鑒別墨粉隸屬函數(shù)及隸屬矩陣
待鑒別墨粉隸屬函數(shù)為μG(gj), 判別隸屬矩陣為G。
G=(G1,G2,…,G10)(14)
2.3.3 模糊關(guān)系函數(shù)及模糊關(guān)系矩陣
R(ci,gj)為待鑒別墨粉隸屬函數(shù)μG(gj)與指標(biāo)的隸屬函數(shù)μC(ci)的模糊關(guān)系函數(shù)。其矩陣根據(jù)表4建立[10,11]。
2.3.4 模糊綜合分析
μG(gj)=sup(μc(ci)∧R(ci,gj))
i=1,2,3,4; j=1,2,…,10(15)
實例計算如下
G=C R=(0.951 0.039 0.005 0.005)
0.3860.8250.0930.7920.3740.6940.1910.7830.9740.501
0.4150.7710.1890.6810.2870.5270.2070.6760.9350.497
0.4720.7340.2040.7160.3160.6230.3160.7140.8130.546
0.4030.7260.1670.6940.3480.7020.2340.6950.8960.474(16)
G0=max(G1 G2 G3 G4 G5 G6 G7 G8 G9 G10)=G9=0.951(17)
結(jié)果,待鑒別墨粉被判斷為兄弟2040激光打印機墨粉,與案件最終結(jié)果一致。統(tǒng)計用這種方法的結(jié)果,與案件最終結(jié)果一致率為98.13%。
3 文字圖像相關(guān)比面積法與墨料FTIR圖形相似法聯(lián)合鑒別的可靠性分析3.1 指標(biāo)設(shè)置
以B0為文字圖像相關(guān)比面積法鑒別打印機型的最大相似度。差錯可用距離di =1-B0表示。WB代表文字圖像相關(guān)比面積法鑒別打印機型差錯的權(quán)重,表示鑒別時可能出錯誤的概率。現(xiàn)有打印機10臺,鑒別時可能出差錯的權(quán)重WB為 0.1 。同樣,以G0為墨料FTIR圖形最大相似度。差錯可用距離dj =1-G0表示。WG代表墨料FTIR圖形相似法鑒別打印機差錯的權(quán)重。墨料也有10種,故FTIR圖形差距權(quán)重WG為0.1 。 而聯(lián)合鑒別同時使用兩種鑒別方式,則權(quán)重WBG 為兩者權(quán)重的乘積, 即0.01。
3.2 差錯率在鑒別方式間的分布
用B表示文字圖像相關(guān)比面積法鑒別打印機型,用G表示FTIR圖形相似法鑒別墨料類型,BG表示上述兩種方式聯(lián)合鑒別打印機型和墨料類型。如果兩種鑒別方式任何交叉組合作用的差錯率,都可以表示成R
Rij=didj=(1-B)(1-G)(18)
則didj分布如表5所示。
表5 各差錯率在鑒別方式M間假設(shè)的分布BGBGWBd1d1d1d2d1d3WGd2d1d2d2d2d3WBGd3d1d3d2d3d3由于單獨進(jìn)行一種鑒別時,另一種鑒別沒有實施,其鑒別結(jié)果應(yīng)為0 :
Rij=(1-B0)(1-G0)(B=B0,G=G0)
1-B0(B=B0,G=0)
1-G0(G=G0,B=0)
1(B=0,G=0)
i=1,2,3; j=1,2,3(19)
其中:B0=0.960 7,G0=0.981 3。因此,表5應(yīng)寫成為表6的形式。
表6 差錯率在鑒別方式M間的實際分布BGBGWB1 - B011 - B0WG11 - G01 - G0WBG1 - B01 - G0(1 - B0)( 1 - G0)3.3 建立隸屬函數(shù)及其矩陣
指標(biāo)(差錯概率)隸屬函數(shù)為μW(wi),權(quán)重矩陣為W。
W=(W1W2W3)=(WBWGWBG)=(0.10.10.01)(20)
鑒別方式隸屬函數(shù)為μM(mj),其矩陣為M。
M=(M1 M2 M3)(21)
鑒別方式隸屬函數(shù)μM(mj)與差錯指標(biāo)概率μW(wi)的模糊關(guān)系函數(shù)為 R(wi,mj ),其矩陣R可由式(22)表示。
R=1-B011-B0
11-G01-G0
1-B01-G0(1-B0)(1-G0)(22)
3.4 誤差模糊綜合分析
誤差模糊綜合分析的計算方法,是選擇差錯最小的鑒別方式[4,5,12],可由式(23)得到。
μM(mj)inf(μW(wi)∧R(wi,mj)); i=1,2,3; j=1,2,3(23)
用實測值代入矩陣計算如下:
M=W R=(0.1 0.1 0.01)0.039 310.039 3
10.018 70.018 7
0.039 30.018 70.0007 3=
(0.01 0.01 0.000 73)(24)
M0=min(M1 M2 M3)=min(0.01 0.01 0.000 73)=
M3=0.000 73(25)
其中:可計算出各自誤差范圍,見式(26)~(28)。
0.01≤M1≤0.039 3(26)
0.01≤M2≤0.018 7(27)
0.0007 3≤M3≤0.01(28)
由上可知,單一使用文字圖像相關(guān)比面積法鑒別打印機型,誤差率在0.01~0.039 3;單一使用墨料FTIR圖形相似法鑒別墨料類型,誤差率在0.01~0.018 7;而同時使用兩者聯(lián)合鑒別,誤差率在0.000 73~0.01。單一使用某一種鑒別方式的誤差率與聯(lián)合鑒別的誤差率差別明顯。前兩者誤差率為后者的13倍多。
4 結(jié)束語
單一使用某一種鑒別方式,其誤差率與同時使用兩者聯(lián)合鑒別的誤差率差別明顯。建議聯(lián)合使用文字圖像相關(guān)比面積法和墨料FTIR圖形模糊鑒別法鑒別打印機型,以提高打印機鑒別的可靠性和準(zhǔn)確性。
參考文獻(xiàn):
[1]陳書海,傅錄祥.實用數(shù)字圖像處理[M].北京:科學(xué)出版社,2005:220-280.
[2]陸宗騏,金登男.Visual C++.NET圖像處理編程[M].北京:清華大學(xué)出版社,2006:215-227.
[3]ZHU Yong, TAN Tie-niu,WANG Yun-hong.Font recognition based on global texture analysis[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2001,23(10):1192-1200.
[4]胡寶清.模糊理論基礎(chǔ)[M].武漢:武漢大學(xué)出版社, 2004: 198-218.
[5]李士勇.工程模糊數(shù)學(xué)及應(yīng)用[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社, 2004:25-136.
[6]WANG H W, MA G F, WANG Z C. The study of fuzzy identification theory and its practical applications[J]. Journal of System Simulation, 2000, 12(3):87-90.
[7]吳瑾光.近代傅里葉變換紅外光譜技術(shù)及應(yīng)用[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,1994:3-131.
[8]CHEN S M. Similarity measure between vague sets and between elements[J]. IEEE Trans on Systems, Man and Cybernetics, 1997, 27(1):153-158.
[9]CHEN S M,YEH M S, HISIAO P Y. A comparison of similarity measures of fuzzy values[J]. Fuzzy Sets and Systems, 1995, 72(1):79-80.
[10]劉華文.模糊模式識別的基礎(chǔ)——相似度量[J].模式識別與人工智能,2004,17(2):141-145.
[11]李云,吳中福,葉春曉,等.基于擴(kuò)張矩陣的模糊特征選擇算法[J].模式識別與人工智能, 2004, 17(4):417-423.
[12]PAPPS C P, KARACAPILIDIS N I. A comparative assessment of measures of similarity of fuzzy values[J]. Fuzzy Sets andSystems, 1993, 56(2):171-174.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文