999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞袋模型與幾何不變特征的筆跡鑒別

2022-08-10 08:12:18李新德阿依夏木力提甫熊聞心
關(guān)鍵詞:特征

李新德 阿依夏木·力提甫 楊 天 熊聞心

1(國(guó)網(wǎng)湖北省電力有限公司信息通信公司 湖北 武漢 430077) 2(武漢大學(xué)電子信息學(xué)院 湖北 武漢 430072) 3(新疆師范大學(xué)物理與電子工程學(xué)院 新疆 烏魯木齊 838054)

0 引 言

人類的生物特征可以分為生理特征和行為特征兩種類型,前者包括指紋、面像、虹膜、掌紋等靜態(tài)特性,后者主要指的是步態(tài)、聲音、筆跡等動(dòng)態(tài)特性[1]。其中,筆跡反映書寫人長(zhǎng)期以來(lái)形成的特殊書寫行為,與其他行為特征相比,筆跡圖片具有相對(duì)穩(wěn)定性、獲取方便,并且利用特定的模式識(shí)別技術(shù)可以確定書寫人的身份[2]。

最近幾十年來(lái),筆跡鑒別技術(shù)在歷史文件分析、司法嫌疑人身份識(shí)別和古代手稿分類等方面發(fā)揮著重要作用。然而,鑒于書寫文字的多樣性、個(gè)人寫作風(fēng)格的隨意性以及筆跡樣式易受到外部因素的影響等原因,筆跡鑒別具有很大的難度,尤其對(duì)于文檔字?jǐn)?shù)比較少以及內(nèi)容各異的實(shí)際場(chǎng)景。

人工智能和模式識(shí)別領(lǐng)域的發(fā)展在很大程度上促進(jìn)了筆跡鑒別的發(fā)展,各種信息編碼技術(shù)也給文字處理提供了新思路[3]。最近十年比較流行的是局部特征提取方法和基于碼本的筆跡鑒別算法[4]。李昕等[5]提出的網(wǎng)格微結(jié)構(gòu)特征雖然適用于多文種,但對(duì)筆跡樣本的字符數(shù)量有較高要求。陳睿等[6]提出了基于關(guān)鍵詞的文本依存筆跡鑒別技術(shù),該方法通用性低、穩(wěn)定性差。謝鵬飛等[7]提取以圖像邊緣為基礎(chǔ)的方向比重特征,研究了維吾爾文筆跡。由于每個(gè)微切分窗口提取的筆跡特征較少,該方法并不適合內(nèi)容篇幅很少的筆跡樣本。鄢煜塵等[8]提出了雙因子方差分析方法,并利用數(shù)據(jù)挖掘技術(shù)提高了鑒別準(zhǔn)確率。全志楠等[9]提出了在小樣本數(shù)據(jù)情況下提取鄰環(huán)結(jié)構(gòu)特征的方法。文獻(xiàn)[10]利用的SIFT描述符在圖像檢索以及圖像取證相關(guān)領(lǐng)域有著強(qiáng)大的功能,但需要組合能力強(qiáng)的編碼方式。文獻(xiàn)[11]提出了局部二進(jìn)制模式的游程長(zhǎng)度(LBPruns)和線分布云(COLD)特征,是基于紋理的無(wú)曲率特征。文獻(xiàn)[12]采用字符碎片碼本及文獻(xiàn)[13]提出的集成碼本,不僅要求的代碼數(shù)量比較多,而且需要較長(zhǎng)的訓(xùn)練時(shí)間。文獻(xiàn)[14]針對(duì)簽名驗(yàn)證系統(tǒng)提出了能夠代表復(fù)雜成分的簡(jiǎn)單字母或者字母組合生成碼本進(jìn)一步提高了筆跡鑒定效率。隨著深度學(xué)習(xí)算法成功用于筆跡鑒別任務(wù)中[15],以上算法稱為手工特征,大家開始注重系統(tǒng)的學(xué)習(xí)能力。然而,深度學(xué)習(xí)算法的網(wǎng)絡(luò)結(jié)構(gòu)龐大、訓(xùn)練權(quán)值多、需要海量的訓(xùn)練數(shù)據(jù),無(wú)法滿足實(shí)際應(yīng)用需求。

手寫文檔中的字符外形、字位傾斜度、中心偏移、字符的伸展與伸展平衡度等特征能夠反映不同的書寫風(fēng)格[4]。本文深入研究各語(yǔ)種文字的結(jié)構(gòu)特征,搭建基于筆跡書寫結(jié)構(gòu)的詞袋模型,提出了幾何矩的八個(gè)特征。低階幾何矩能夠描述物體形狀的定性特征,并且通過歸一化能夠減小特征值的動(dòng)態(tài)范圍。小樣本條件下利用八個(gè)矩特征可以表征筆跡風(fēng)格,比直接用網(wǎng)格窗口遍歷整篇樣本耗時(shí)少、效率高,更重要的是書寫人數(shù)的增多對(duì)實(shí)驗(yàn)結(jié)果的影響不明顯。此外,在預(yù)處理階段,高頻模式的切分工作不受窗口大小和形狀變換的影響,并且需要提取的子圖像數(shù)量遠(yuǎn)比以上文獻(xiàn)少。實(shí)驗(yàn)表明,對(duì)于字符數(shù)較少以及內(nèi)容不受約束的筆跡鑒別任務(wù),該算法具有良好的表征能力。

1 基于矩特征的筆跡鑒別方法

本文算法通過兩個(gè)步驟實(shí)現(xiàn):預(yù)處理與測(cè)試。預(yù)處理部分主要包括原始圖像的二值化、子圖像的提取與標(biāo)注、搭建詞袋模型等三個(gè)部分。測(cè)試部分主要完成特征提取、特征融合、多分類器組合等操作,其流程如圖1所示。

圖1 基于矩特征的筆跡鑒別流程

可以看出,本文預(yù)處理部分的主要任務(wù)是合理切分原始圖像,搭建能夠代表作者書寫風(fēng)格的詞袋。測(cè)試部分的主要任務(wù)是能夠全面提取子圖像特征,鑒定作者身份。這兩個(gè)部分在筆跡鑒別系統(tǒng)中分別由預(yù)處理軟件和測(cè)試軟件實(shí)現(xiàn)。首先所有掃描好的筆跡圖像被分成兩大組:參考樣本和測(cè)試樣本。在預(yù)處理階段把所有的圖像轉(zhuǎn)換成二值圖像,去除各種噪聲、行線、格線。然后根據(jù)文字的書寫特點(diǎn)確定文中出現(xiàn)頻率較高的模式,切分高頻子圖像、歸一化并標(biāo)注。所有已標(biāo)注的子圖像形成了書寫人獨(dú)有的“詞袋”,其中子圖像的切分是詞袋模型的基礎(chǔ);標(biāo)注是為了便于檢索。在測(cè)試階段先檢索參考樣本與測(cè)試樣本之間具有相同標(biāo)注符的子圖像;然后對(duì)于標(biāo)注符匹配的子圖像,提取八個(gè)物理特征并計(jì)算相同子圖像之間的特征距離;最后經(jīng)過特征融合找出距離平均值并確定最接近測(cè)試樣本的筆跡。

1.1 預(yù)處理與單詞拆分

原始圖像用Otsu變換轉(zhuǎn)換成二值圖像后,通過任意大小的矩形窗口切分子圖像,子圖像的大小控制在1~6個(gè)字節(jié),并且提取之后歸一化成大小為64×64的矩陣。選取子圖像的基本原則是根據(jù)手稿文字的書寫特點(diǎn),選擇具有代表意義的高頻模式。本文提取單詞級(jí)別的子圖像,并且通過冗余子圖像增加相同成分的匹配概率。所有子圖像經(jīng)過切分、標(biāo)注、歸一化等預(yù)處理過程后搭建樣本詞袋,如圖2所示。

圖2 文本依存的詞袋生成過程

1.2 特征提取

文本依存的筆跡鑒別方法依靠從參考樣本與測(cè)試樣本選取的幾組相同子圖像獲得良好的識(shí)別結(jié)果。本文從字符圖像的幾何矩中提取歸一化的個(gè)體特征,提取的特征在平移、縮放和筆畫寬度下是不變的。它們明確對(duì)應(yīng)于人類對(duì)形狀的感知,并將它們的值分布在小的動(dòng)態(tài)范圍內(nèi)。

對(duì)于一個(gè)大小為M×N的數(shù)字圖像f(x,y)(離散函數(shù)),p+q階幾何矩的計(jì)算公式是:

(1)

從零階矩M00和一階幾何矩M01與M10可以得到物體的重心(X,Y),即:

(2)

然后,以重心為坐標(biāo)原點(diǎn)可得到中心矩Upq,此中心矩是相對(duì)于位移不變的。

(3)

低階矩具有明顯的物理意義,零階矩表示圖像中所有像素點(diǎn)灰度值和,即對(duì)于二值圖像則表示黑像素點(diǎn)的個(gè)數(shù),就是u前景區(qū)域的面積。相應(yīng)的二、三階矩能表達(dá)一些更復(fù)雜的形狀特征。二階矩指的是方差,其中U20和U02表示圖像中的黑點(diǎn)分別在水平和垂直方向上的伸展度,且二階矩U11表示物體的傾斜度。三階矩U30和U03表示物體在水平和垂直方向上的偏移度。然而,三階矩U21和U12表示物體在水平和垂直方向上伸展的均衡程度。因?yàn)樘卣髦档膭?dòng)態(tài)范圍太大會(huì)嚴(yán)重影響分類器的設(shè)計(jì)與功能,所以必須對(duì)特征值進(jìn)行歸一化處理限制取值范圍。通過對(duì)二階、三階中心矩進(jìn)行變化可以得到字符的八個(gè)歸一化形狀特征。這些形狀特征對(duì)字符位移、尺寸和筆畫厚度不變,并且特征的取值范圍可以控制在[-1,1]內(nèi)。

這些特征的提取方法和意義介紹如下。

1) 長(zhǎng)寬比。字符長(zhǎng)寬比歸一化表示為:

(4)

3) 慣性比。字符的慣性比等于協(xié)方差矩陣的本征值,相應(yīng)的歸一化特征:

(5)

f3=0對(duì)應(yīng)于字符為圓形的情況λ1=λ2。

4) 伸展度。字符的伸展度是一個(gè)旋轉(zhuǎn)不變的特征,其歸一化的特征值如下:

(6)

5) 水平偏度。字符在水平方向上的偏度歸一化特征為:

(7)

6) 垂直偏度。字符在垂直方向上的偏度歸一化特征為:

(8)

7) 水平伸展均衡度。字符水平伸展的上下均衡度的歸一化特征為:

(9)

8) 垂直伸展均衡度。字符垂直伸展的左右均衡度的歸一化特征為:

(10)

1.3 計(jì)算特征距離與因子分離

對(duì)于詞袋中的每幅子圖像計(jì)算八個(gè)特征值組成一個(gè)向量,然后把所有的子特征向量融合成總特征向量。計(jì)算特征距離時(shí),先對(duì)于每一份測(cè)試樣本的詞袋檢索參考樣本詞袋中具有相同標(biāo)注的子圖像,然后對(duì)于每對(duì)相同子圖像計(jì)算修正的街區(qū)距離。最后進(jìn)行雙因子方差分析[8]、然后濾除字符因素(標(biāo)注)并保留書寫風(fēng)格因素,獲得了文本獨(dú)立的筆跡鑒別分類器[1]。這里修正的街區(qū)距離計(jì)算公式如下:

d(F1,F2)=

(11)

2 實(shí)驗(yàn)分析和方法比較

2.1 數(shù)據(jù)集及評(píng)估標(biāo)準(zhǔn)

實(shí)驗(yàn)將在維吾爾語(yǔ)2016數(shù)據(jù)集[1]及英文數(shù)據(jù)集IAM[16]上進(jìn)行。

1) 維吾爾語(yǔ)2016數(shù)據(jù)集:此數(shù)據(jù)集是本文作者建立。包含180個(gè)人,每人書寫2頁(yè)維吾爾文字,書寫內(nèi)容各異。測(cè)試中,同一作者提供兩份文字分成兩組分別用于訓(xùn)練與測(cè)試。

2) IAM數(shù)據(jù)集:此數(shù)據(jù)集是在手寫識(shí)別領(lǐng)域廣泛使用的英語(yǔ)數(shù)據(jù)集。包括657名作者提供的手稿,其中356名作者只寫了1頁(yè)字,301名作者至少寫了2頁(yè)字,書寫內(nèi)容不相同。本文只保留前2頁(yè)進(jìn)行測(cè)試,然后從301份樣本中選出180份筆跡用于評(píng)估算法。

筆跡檢索任務(wù)中的主要評(píng)估標(biāo)準(zhǔn)有平均準(zhǔn)確率均值(mAP)、Soft top-K(Top-k)、Hard top-k等幾種[2]。測(cè)試也有比較典型的幾種對(duì)比策略:留一法對(duì)比、成對(duì)對(duì)比、相異特征對(duì)比等。本文用留一法對(duì)比策略求距離平均值,以Top-k評(píng)估標(biāo)準(zhǔn)確定最接近測(cè)試樣本的參考樣本。

2.2 影響因素分析

本文算法中影響測(cè)試結(jié)果的因素有書寫人數(shù)、樣本字?jǐn)?shù)、子圖像數(shù)量。

2.2.1書寫人數(shù)的影響

不少研究者認(rèn)為隨著樣本數(shù)量的增多鑒別精度普遍下降。而本文算法在保證樣本字?jǐn)?shù)的前提下,對(duì)于書寫人數(shù)的增多具有一定的魯棒性。本文針對(duì)維吾爾語(yǔ)數(shù)據(jù)集和英文數(shù)據(jù)集中字?jǐn)?shù)不少于60個(gè)單詞的樣本,設(shè)計(jì)了書寫人數(shù)對(duì)于鑒別精度的影響實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖3所示。

圖3 書寫人數(shù)對(duì)鑒別精度的影響

可見,對(duì)于維吾爾語(yǔ)2016數(shù)據(jù)集書寫人數(shù)的增多對(duì)于鑒別精度的影響不明顯。對(duì)于英文數(shù)據(jù)集IAM而言,隨著書寫人數(shù)的增多鑒別精度略有下降。這種區(qū)別是由兩種文字的書寫結(jié)構(gòu)引起的。英文中有26個(gè)字母,在字?jǐn)?shù)有限的情況下能夠提取的子圖像以單詞和字母為主,然而子圖像的匹配率不太高或者表征能力不強(qiáng)。維吾爾文中有32個(gè)字母,再加上84個(gè)字母變體時(shí)共有116個(gè)字母形體。在預(yù)處理階段能夠切分的子圖像不僅包括單詞和字母,還包括出現(xiàn)頻率較高的音節(jié)和字母獨(dú)立書寫格式。針對(duì)IAM數(shù)據(jù)集中人數(shù)的增多引起的鑒別精度下降問題,可以采取增多子圖像數(shù)量的措施提高筆跡鑒別率。

2.2.2子圖像數(shù)量的影響

研究表明,隨著子圖像數(shù)量的增多鑒別精度會(huì)升高,并且子圖像大小為2~5個(gè)字節(jié)時(shí)系統(tǒng)的性能變得穩(wěn)定[12-13]。本文分別從兩種數(shù)據(jù)庫(kù)中的180份樣本提取子圖像,觀察了子圖像數(shù)量的變化對(duì)結(jié)果的影響,實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 子圖像數(shù)量對(duì)鑒別精度的影響

詞袋中的子圖像從10逐漸增多到100的時(shí)候,鑒別精度從41.1%開始增加到95.2%,并且保持了相對(duì)穩(wěn)定的值。可見,本文算法雖然利用10~20幅子圖像可以確定書寫人的身份,但是當(dāng)子圖像的數(shù)量達(dá)到70幅時(shí),鑒別率提高到85%以上并保持穩(wěn)定值。與文獻(xiàn)[10,12-13]相比,本文算法需要的子圖像數(shù)量少。其主要原因是本文的子圖像以字母、音節(jié)、單詞為單位提取,與以字符碎片相比攜帶的書寫風(fēng)格信息量比較多。此外,與IAM數(shù)據(jù)集相比,本文算法在維吾爾語(yǔ)數(shù)據(jù)集上的鑒別性能高于IAM數(shù)據(jù)集。其主要原因在于維吾爾文數(shù)據(jù)集上的樣本篇幅大,提取的子圖像以單詞為主,包含少量字母獨(dú)立體和音節(jié)。然而,IAM數(shù)據(jù)集上的子圖像除了少量單詞,其他都是表征能力較弱的獨(dú)立字母、前綴和后綴。

2.3 鑒別結(jié)果

本文先從兩種數(shù)據(jù)集上的每一份樣本至少提取70幅子圖像搭建了詞袋。考慮字?jǐn)?shù)較少的樣本,本文中除了選取單詞級(jí)別的子圖像,還提取一定數(shù)量的字母和音節(jié)增多了冗余子圖像。為了提高系統(tǒng)魯棒性,對(duì)于一份樣本上重復(fù)出現(xiàn)的詞語(yǔ)和詞語(yǔ)塊,采取了完全提取的措施。本文算法的鑒別性能如表1所示。

表1 基于矩特征的筆跡鑒別結(jié)果(180份樣本)(%)

可以看出,維吾爾語(yǔ)數(shù)據(jù)集上的鑒別結(jié)果比IAM數(shù)據(jù)集的高一些。其主要原因除了子圖像的長(zhǎng)度因素,還有子圖像的數(shù)量和筆跡質(zhì)量等因素。

2.4 鑒別性能對(duì)比

國(guó)內(nèi)在維吾爾文筆跡鑒別方面的研究也不少,本文算法的性能與文獻(xiàn)[7]的對(duì)比結(jié)果如表2所示。

表2 局部特征鑒別性能比較(維吾爾語(yǔ)2016)

從書寫人數(shù)和首選鑒別率相比,在人數(shù)比文獻(xiàn)[7]多兩倍的情況下,本文算法仍然得到96.7%的首選鑒別率,比文獻(xiàn)[7]提高了20百分點(diǎn)。

國(guó)際上,使用IAM數(shù)據(jù)集的研究論文較常見,在測(cè)試樣本與參考樣本的比例為18:65的前提下,本文算法與相似文獻(xiàn)的對(duì)比結(jié)果如表3所示。可以看出,本文方法在IAM數(shù)據(jù)集中的首選(Top-1)鑒別結(jié)果排第四,但前10候選鑒別性能最高, 整體性能比較令人滿意。

表3 幾種局部特征方法的鑒別性能比(IAM)

本文方法在預(yù)處理階段不受窗口大小的影響。只要以單詞、字母或者音節(jié)為基礎(chǔ)的子圖像能夠完整地提取,基本上可以滿足本文的測(cè)試要求。實(shí)驗(yàn)結(jié)果表明,本文要求的子圖像數(shù)量較少,并且書寫人的增多對(duì)實(shí)驗(yàn)結(jié)果的影響相對(duì)不明顯。對(duì)于字?jǐn)?shù)較多的數(shù)據(jù)集,本文還可以通過增多子圖像的數(shù)量進(jìn)一步提高鑒別精度。

3 結(jié) 語(yǔ)

本文提出一種基于詞袋模型與矩特征的筆跡鑒別方法。在預(yù)處理階段,本文提取了以單詞、字母和音節(jié)為主的子圖像并標(biāo)注,建立了詞袋模型。對(duì)于詞袋中的每一個(gè)幅圖像提取八個(gè)幾何矩特征生成特征向量,然后利用特征融合的方法求出所有子圖像的總特征向量,最后用修正的街區(qū)距離公式求距離并進(jìn)行因子分離。本文利用維吾爾文數(shù)據(jù)集和英文數(shù)據(jù)集IAM評(píng)估算法,并通過實(shí)驗(yàn)驗(yàn)證了本文方法的可行性和魯棒性。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個(gè)P’維非線性不可約特征標(biāo)的非可解群
月震特征及與地震的對(duì)比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠(chéng)的四個(gè)特征
詈語(yǔ)的文化蘊(yùn)含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 98精品全国免费观看视频| 久久一级电影| 国产成人欧美| 日韩高清欧美| 亚洲一区二区在线无码| 亚洲日韩精品欧美中文字幕| 日韩视频精品在线| 欧洲欧美人成免费全部视频 | 亚洲人成网站在线播放2019| 国产女同自拍视频| 国产麻豆福利av在线播放| 99热这里只有精品久久免费| h网站在线播放| 亚洲国产综合精品中文第一| 国国产a国产片免费麻豆| 欧美不卡视频在线观看| 一级看片免费视频| 999精品视频在线| 熟妇人妻无乱码中文字幕真矢织江| 久久免费视频播放| 午夜福利在线观看成人| av大片在线无码免费| 呦女亚洲一区精品| 精品色综合| 欧美色伊人| 成人午夜亚洲影视在线观看| 中文字幕日韩丝袜一区| 视频国产精品丝袜第一页| 亚洲精品黄| 欧美怡红院视频一区二区三区| 国产一级毛片yw| 欧美精品影院| 夜精品a一区二区三区| 国产老女人精品免费视频| 91久久偷偷做嫩草影院电| 欧美在线视频不卡| 中国精品自拍| 国产经典免费播放视频| 青青极品在线| 婷婷亚洲综合五月天在线| 国产女人喷水视频| 色婷婷在线影院| 免费看a毛片| 亚洲欧洲日韩综合色天使| 香蕉eeww99国产在线观看| 91在线一9|永久视频在线| 色天天综合| 日韩欧美国产三级| 四虎影视永久在线精品| 亚洲一区二区三区国产精品 | 超碰精品无码一区二区| 成人福利在线免费观看| 高潮爽到爆的喷水女主播视频| 亚洲一区精品视频在线| 亚洲欧美不卡| 久久精品人人做人人爽| 国产微拍精品| 欧美伊人色综合久久天天| 老司机午夜精品视频你懂的| 午夜精品福利影院| 人人91人人澡人人妻人人爽| 成人毛片免费观看| 免费观看成人久久网免费观看| 亚洲国产理论片在线播放| 热99精品视频| 波多野结衣第一页| 18黑白丝水手服自慰喷水网站| 88av在线播放| 亚洲视频三级| 91丝袜在线观看| 免费观看无遮挡www的小视频| 日韩av在线直播| 国产成人乱无码视频| 91国内在线观看| 又猛又黄又爽无遮挡的视频网站| 九色在线视频导航91| 国产91丝袜在线观看| 国产最新无码专区在线| 亚洲欧美日韩天堂| 欧美日韩成人| 亚洲无码A视频在线| 久久公开视频|