999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于因子分析的計算機打印文件鑒定?

2019-07-10 08:18:52趙克堅廖海斌
計算機與數(shù)字工程 2019年6期
關(guān)鍵詞:特征文本內(nèi)容

趙克堅 廖海斌

(1.咸寧市中心醫(yī)院(湖北科技學(xué)院附屬第一醫(yī)院)計算機中心 咸寧 437100)

(2.湖北科技學(xué)院計算機科學(xué)與技術(shù)學(xué)院 咸寧 437100)

1 引言

隨著現(xiàn)代科技的發(fā)展,人們的生活越來越數(shù)字化,打印機逐漸普及,與之相伴隨的打印文件相關(guān)的民事糾紛、刑事案件等也越來越多。如偽造合同、證件,傳播恐嚇、煽動性文書等。打印文件是重要的物證或線索,鑒定問題文檔是否被篡改或者辨別此打印問題文檔的打印機源能給案件偵破提供有價值的援助。此外,驗證印刷證件、打印票據(jù)等的真?zhèn)我矘O為重要。

針對一些特定的打印文檔,目前的鑒別技術(shù)已經(jīng)可以利用水印[1~2]、安全纖維、全息圖[3]或者特殊的墨水[4]等特征來識別真?zhèn)危沁@類安全技術(shù)往往花費較大,需要特殊的設(shè)備來植入安全特征,對普通用戶來說成本太昂貴。因此,利用計算機圖像處理和人工智能方法來自動鑒定打印文檔具有重要的理論意義和應(yīng)用價值。

計算機打印文件鑒定技術(shù)研究開始于21 世紀(jì),目前研究者相對較少。J. Oliver 和J. Chen[5]利用計算機統(tǒng)計打印字符的面積特征,通過相同字符是否存在不同面積來判斷文件中是否有非法偽造的內(nèi)容。該方法簡單,計算速度較快,但是判斷的依據(jù)并不嚴(yán)密,效果并不理想。美國Purdue 大學(xué)2002 年成立了傳感器與打印機鑒定實驗室(PSAPF),其成果主要有:研究了激光打印機的齒輪傳動裝置的齒咬合誤差與大齒輪的離心率誤差對打印圖像造成的明暗間隔的條紋特征;通過提取字符“e”的灰度共生矩陣等來提取紋理特征,并分別利用5 近鄰分類器與SVM 方法進(jìn)行分類[6~10]。Tsai 等提出利用離散小波變換和特征選擇方法來識別彩色激光打印機[11]。Akao 等通過最大熵方法估計正齒輪數(shù)目來識別噴墨打印機[12]。王寧、韓國強[13]等利用掃描采集的打印字符的筆畫總面積和筆畫輪廓總周長等特征值建立單字信息庫來識別文檔的來源機型。鄧偉、涂巖愷、陳慶虎等[14~17]設(shè)計并開發(fā)了圖像整體顯微放大系統(tǒng)來采集打印文檔的整體細(xì)節(jié)圖像信息,并采用圖形匹配算法、雙極性Hausdorff 距離、小尺度小波域特征的半影條紋特征提取方法等多種方法進(jìn)行打印文檔的源機識別。總的說來利用計算機進(jìn)行打印文件鑒定取得了一定的成果,但識別率仍需進(jìn)一步提高。

國外學(xué)者利用計算機進(jìn)行打印文件鑒定的研究時,訓(xùn)練文件與識別文件常取相同的字符內(nèi)容,如出現(xiàn)頻率高的字母”e”或單詞”the”。國內(nèi)學(xué)者也往往是取相同字符內(nèi)容的樣本進(jìn)行匹配分類。而對中文打印文件來說,很可能識別文件與訓(xùn)練文件中的內(nèi)容存在很少相同字符甚至不存在相同字符,這樣顯著增加了識別的難度。這是因為相同字符的非同機距離明顯小于不同字符的同機距離。為了更好地研究訓(xùn)練與識別文件字符內(nèi)容不一致時的打印機文檔鑒定問題,本文將影響打印字符形態(tài)特征的因素從來源上劃分為兩類,由打印機的不同如打印機部件的參數(shù)不一致、器件不同等引入的差異稱為打印機因素或打印機因子,是一種風(fēng)格因子;由字符本身的文本內(nèi)容的不同引入的差異稱為文本因素或文本因子,是一種內(nèi)容因子。對打印文件鑒定來說,打印機因子是有效因子,而文本因子是干擾因子。本文提出將因子分析模型的方法用于打印字符的二次特征提取,通過雙線性方法進(jìn)行因子分解,提取特征矩陣的打印機因子,降低文本因素對識別的干擾,從而提高了對打印文檔源機的識別率。

2 基于因子分析模型的特征分解

把內(nèi)容和風(fēng)格看作影響一個事物的兩個互相獨立的因素[18],它們決定了事物的觀測。比如:語音信號中,表示語音文本即語義信息的是內(nèi)容因子,表示說話人的音色、說話語氣和聲調(diào)等信息的是風(fēng)格因子;手寫筆跡中,表示這個樣本是哪個字符的信息是內(nèi)容因子,表示這個樣本是哪個人寫的是風(fēng)格因子[19];多字體印刷字符中,表示字符文本信息的是內(nèi)容因子,表示字符字體信息的是風(fēng)格因子;在人臉圖像中,正規(guī)人臉(正面,中性,光照歸一化)是內(nèi)容因子,而人臉的姿態(tài)、光照、表情等變化是風(fēng)格因子[20]。同樣的,在打印文檔中,由打印機的不同引入的差異是風(fēng)格因子,也可稱作打印機因子;由字符文本內(nèi)容的不同引入的差異是內(nèi)容因子,也可稱作文本因子。打印文檔鑒定的目的就是根據(jù)打印機風(fēng)格信息識別出此文檔出自何臺打印機,如果能將影響打印字符特征的文本內(nèi)容信息分離出來,提取出內(nèi)容無關(guān)的特征,將有利于打印文檔鑒定。基于此思想,本文提出基于因子分析模型的打印字符二次特征提取方法,通過雙線性方法分離出打印機因子和文本因子,從而提取近似文本獨立的打印字符特征。

2.1 基于雙線性的因子分析模型

如果打印字符內(nèi)容bj∈?J具有風(fēng)格ai∈?I,那么打印字符的觀測y ∈?K可以用雙線性表示:其中,k ∈[1,K]表示打印字符觀察向量中第k 維特征,符號s 和c 分別標(biāo)記風(fēng)格和內(nèi)容,wijk表示內(nèi)容與風(fēng)格的交互作用關(guān)系。為了使因子分析模型更具靈活性,假定交互作用項wijk隨著內(nèi)容變化而變化,設(shè),則式(1)變?yōu)?/p>

設(shè)Bc表示K*I 維的矩陣,元素分別為,則式(2)可寫為更簡潔的因子分析模型形式:

例如,將雙線性模型應(yīng)用到不同字體的印刷字符集中。則字體的信息為風(fēng)格因子,字符本身是內(nèi)容因子,結(jié)果如圖1 所示。每一個字符都可以由基本內(nèi)容因子矩陣和字體因子系數(shù)的來表示,如果要重建一個特定字體下特定內(nèi)容的字符,只需要將基本矩陣進(jìn)行字體系數(shù)加權(quán)線性組合即可。

2.2 因子分析模型匹配求解

因子分析模型的匹配求解目標(biāo)是在訓(xùn)練階段使所有樣本的總平方誤差最小化。設(shè)第t 次訓(xùn)練觀測值為y(t),其中t=1,2,…,T 。 設(shè)指示變量為hsc(t),其中

因此,因子分析模型的全部訓(xùn)練集的總平方誤差E為

如果訓(xùn)練樣本中,對各種風(fēng)格s和內(nèi)容c的觀測數(shù)量相等,那么利用奇異值分解(SVD)就可以得到因子分析模型的最優(yōu)擬合結(jié)果。

圖1 三種字體的雙線性模型分解圖

在打印機鑒定中,設(shè)打印機為s,文本為c的觀測均值為

明顯的,這些觀測矩陣是3 維的,為了利用標(biāo)準(zhǔn)的矩陣算法,把SC個K維行向量轉(zhuǎn)為S*(KC)維的二維矩陣,表示如下:其中為K維觀測均值向量。則式(3)可表示為更為簡潔的矩陣形式:其中,為S*I維矩陣,表示打印機因子的參數(shù)矩陣;為I*(KC)維矩陣,表示文本因子的參數(shù)矩陣。

為了得到打印機因子和文本因子參數(shù)的最小方差估計,利用SVD計算Yˉ=USVT,S的對角線元素按特征值的大小取降序排列。則A可取U矩陣的前I列,B可取SVT矩陣的前I行。模型的維數(shù)I的大小可以根據(jù)先驗知識或者實驗效果來定。

2.3 基于EM算法的打印機分類

假設(shè)測試數(shù)據(jù)來自訓(xùn)練數(shù)據(jù)中S臺打印機的某一臺,但是字符內(nèi)容與訓(xùn)練數(shù)據(jù)不一樣。設(shè)打印機因子為as,新的文本因子為Bc?。假設(shè)打印機s的新文本c?的觀測數(shù)據(jù)y服從高斯分布,其均值為雙線性預(yù)測值,方差為σ2,則

y的整體概率密度分布則為

根據(jù)先驗知識,p(s,c?)為均勻分布。下面采用EM 算法循環(huán)迭代來得到新的文本因子Bc?和描述測試數(shù)據(jù)的最佳標(biāo)簽

E-步:對打印機為s,文本為c?的觀測數(shù)據(jù)y計算概率密度函數(shù):

M-步:估計新的文本因子Bc?,使得對數(shù)似然概率最大。令

新的Bc?則可以由解出:

EM迭代具體算法如下:

1)初始化文本因子Bc?;

2)計算出式(11)E-步中觀測值y的后驗概率

3)根據(jù)式(13)更新文本因子Bc?的值;

4)重復(fù)步驟2)3),直至兩次計算得出p(s,c?|y)的差值小于閾值或迭代次數(shù)超出規(guī)定的最大次數(shù)。EM 算法收斂于L的局部最大值,測試數(shù)據(jù)就可以根據(jù)使得后驗概率最大的類別s來分類。對于EM 算法來說,初始化是非常重要的。由于本文主要關(guān)注的是識別性能,所以初始化采用最近鄰方法,即對于每個測試數(shù)據(jù)向量,文本因子取與之最相近字符的文本因子。

3 實驗結(jié)果與討論

為了測試上述基于因子分析模型的打印文件鑒定的有效性,建立了包括40 臺激光打印機的打印文件數(shù)據(jù)庫。這些打印機包括一些常用品牌及多種型號,見表1。對40 臺打印機分別采樣,每臺打印機打印兩張文件,一張用作訓(xùn)練,一張用作測試。每張文件的打印內(nèi)容是1100 個一級常用漢字,采用宋體、小四號打印。利用圖像整體高倍放大系統(tǒng)采集每張訓(xùn)練文件的504 個字符和每張測試文件的另外504 個完全不同內(nèi)容的字符,經(jīng)過預(yù)處理,切割,字符內(nèi)容自動識別,這樣就構(gòu)成了40份樣本、每份樣本504個字的訓(xùn)練庫和40份字符內(nèi)容與訓(xùn)練庫完全不同的測試庫。

表1 實驗中打印機編號和型號

首先取一臺打印機的兩張文件,記為A1,A2,取另外一臺打印機的一張文件,記為B2。對3張文件中每個字符提取反映字符形狀的8 維矩特征,并求出A1與A2之間的距離,記為D1,求出A1與B2之間的距離,記為D2。則D1 表示同一臺打印機不同字符內(nèi)容的距離,如圖2 中星形點所示;D2 表示不同打印機同樣字符內(nèi)容的距離,如圖2 中菱形點所示。可以看出,同一臺打印機不同字符之間的距離遠(yuǎn)大于不同打印機同樣字符之間的距離。即文本因子對字符特征的影響非常顯著,遠(yuǎn)大于打印機因子。因此,打印機因素在字符形態(tài)特征中是一種弱信號,容易受到文本因素強信號與誤差因素的干擾,這也影響了打印文件鑒別的準(zhǔn)確率。

采用本文提出的方法進(jìn)行打印機因子和文本因子的分離后,對A1,A2 和B2 的打印機因子按上述方法分別求距離,如圖3 所示。可以看出,同一臺打印機不同字符之間的距離已經(jīng)小于不同打印機同樣字符之間的距離。即文本因子對字符特征的影響顯著降低,打印機因子的影響更加顯著。

圖2 不同字符的同機距離和相同字符的非同機距離比較

下面進(jìn)行識別實驗。采用矩特征(MF)、方向指數(shù)直方圖(DIH)和Wigner 特征(WF)這三種方法進(jìn)行特征提取,對提取出來的特征矩陣分別用本文方法和歐式距離方法進(jìn)行一對一的鑒別實驗,其中本文方法是將EM 算法后所得的后驗概率與閾值比較,歐式距離方法是將特征距離與閾值比較,若大于閾值則判斷為同機打印,統(tǒng)計正確鑒別數(shù),實驗結(jié)果如表2 所示。另外實驗結(jié)果也與文獻(xiàn)[18]所用方法(記為方法1)比較,其中方法1 的訓(xùn)練庫和測試庫中每兩份文檔之間平均有50 個左右的相同字符,而本文實驗的訓(xùn)練庫和測試庫完全無相同字符。3種方法列出的均為最優(yōu)閾值的實驗數(shù)據(jù)。

可以看出,特征矩陣經(jīng)過因子分析模型分離打印機因子和文本因子以后,文本因素的影響顯著降低,獲得近似文本獨立的特征,在檢材與樣本之間沒有任何相同字的情況下識別率顯著提高。但是相比有50 個相同字情況下的識別率仍然有一定差距,說明文本因子的挖掘并不徹底,分離以后的特征仍然殘留有部分的文本因子的影響,這可能是特征矩陣與雙線性模型之間不完全契合所導(dǎo)致的。下一步工作中,考慮將特征矩陣先進(jìn)行變換處理,使之更符合雙線性模型,然后再進(jìn)行變換。另外,會考慮采用新的模型進(jìn)行因子估計與因子分離,比如非線性模型。

圖3 因子分離后不同字符的同機距離和相同字符的非同機距離比較

表2 歐氏距離方法、本文方法與方法1的識別結(jié)果

4 結(jié)語

計算機打印機文檔鑒定是一個新的研究課題,在樣本和檢材文件中沒有相同字或相同字符極少的情況下,打印文檔鑒定相當(dāng)困難。本文針對這個問題,提出了一種基于因子分析模型的打印機因子與文本因子分解方法,對特征矩陣采用雙線性模型進(jìn)行因子分離,提取近似文本無關(guān)的特征,然后采用EM 算法迭代求得最大后驗概率進(jìn)行分類,使得樣本與檢材文件中沒有相同字時的打印機鑒定正確率有了顯著的提高。

猜你喜歡
特征文本內(nèi)容
內(nèi)容回顧溫故知新
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
主要內(nèi)容
臺聲(2016年2期)2016-09-16 01:06:53
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 欧美日韩在线成人| 天天色天天综合| 国产成人综合日韩精品无码首页| 3p叠罗汉国产精品久久| 婷婷亚洲天堂| 亚亚洲乱码一二三四区| 伊人婷婷色香五月综合缴缴情| 97超碰精品成人国产| 欧美中文一区| 国产精品三级专区| 毛片视频网| 日本91视频| 久99久热只有精品国产15| 亚洲二三区| 国产尤物jk自慰制服喷水| 黄色网在线免费观看| 欧美天天干| 亚洲视频无码| 日韩高清无码免费| 国产理论精品| 成人国产精品一级毛片天堂| 性色一区| 先锋资源久久| 午夜啪啪网| 亚洲v日韩v欧美在线观看| 久久国产热| 国内精品久久人妻无码大片高| 免费人成网站在线观看欧美| www.亚洲一区二区三区| 国产在线观看精品| 又爽又大又黄a级毛片在线视频 | 精品国产一区二区三区在线观看| 亚洲国产AV无码综合原创| 怡红院美国分院一区二区| 女人一级毛片| 免费无遮挡AV| 国产第八页| 精品久久久无码专区中文字幕| 亚洲人成影院在线观看| 99精品一区二区免费视频| 国产91小视频| 精品国产成人高清在线| 国产精品一区在线麻豆| 美女国内精品自产拍在线播放| 五月婷婷综合网| 国产精品第| 国产资源免费观看| 国产专区综合另类日韩一区| 国产精品私拍99pans大尺度| 亚洲综合片| 无码国产伊人| 另类专区亚洲| 日韩AV无码免费一二三区| 久久99热66这里只有精品一| 99这里只有精品免费视频| 国产无码高清视频不卡| www.av男人.com| 91福利免费| 亚洲欧州色色免费AV| 精品人妻系列无码专区久久| 91探花国产综合在线精品| 欧美性久久久久| 亚洲精品不卡午夜精品| 就去色综合| 99热这里只有免费国产精品| 国产91小视频在线观看| a毛片免费在线观看| 久久中文字幕不卡一二区| 国外欧美一区另类中文字幕| 欧美在线一级片| 欧美国产在线精品17p| 国产自在自线午夜精品视频| 国模私拍一区二区| 国产91成人| 国产精品自拍露脸视频| 高清无码一本到东京热| 精品福利视频导航| 成人午夜亚洲影视在线观看| 国产大片黄在线观看| 欧美成人午夜视频| 国产第一福利影院| 天堂久久久久久中文字幕|