999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于極坐標(biāo)變換的脫機(jī)手寫藏文字符特征提取方法

2018-04-18 11:33:49朱利娟云中華邊巴旺堆
計算機(jī)應(yīng)用與軟件 2018年3期
關(guān)鍵詞:特征提取

朱利娟 云中華 邊巴旺堆*

1(西藏大學(xué)藏文信息技術(shù)研究中心 西藏 拉薩 850012) 2(西藏大學(xué)工學(xué)院 西藏 拉薩 850012) 3(西藏大學(xué)信息技術(shù)國家級實驗教學(xué)示范中心 西藏 拉薩 850012)

0 引 言

文字識別技術(shù)[1](Optical Character Recognition),是模式識別、圖像處理及統(tǒng)計理論等多學(xué)科融合的一個重要應(yīng)用領(lǐng)域。利用一定的光電設(shè)備將在某介質(zhì)上的各種文字字符轉(zhuǎn)化成圖像,并利用計算機(jī)進(jìn)行高速、自動地辨識[2]。OCR可分為印刷體和手寫體文字識別技術(shù)兩類。近年來越來越多的學(xué)者開始關(guān)注藏文文字識別技術(shù)領(lǐng)域,使藏文信息技術(shù)不斷提升和發(fā)展[3-4]。

文字識別過程可分為三個階段如圖 1 所示。第一階段待識別手寫文字圖像的采集階段即圖像輸入;第二階段輸入的文字圖像進(jìn)行預(yù)處理和特征提取;第三階段藏文字符的分類識別以及識別后的處理過程[5-7]。

圖1 藏文字符識別系統(tǒng)的結(jié)構(gòu)框圖

由圖1可知藏文字符特征提取常用算法包括基于圖像投影法、方向線素法、分矩形法等[8-10]。其方向線素法特征提取中特征向量的維數(shù)過多、存儲空間大、運算速度慢,圖像投影法區(qū)分相似字能力較差。由圖2知藏文字形結(jié)構(gòu)復(fù)雜、相似字的比例高等,將給藏文文字識別帶來了很大的困難,而藏文文字識別方法的核心和關(guān)鍵技術(shù)是藏文字符的特征提取。

圖2 藏字結(jié)構(gòu)圖

為了使得藏文字符特征向量維數(shù)少、存儲空間小、運算速度快及區(qū)分相似字能力高,結(jié)合Rittavee等[11]提出的自適應(yīng)極坐標(biāo)變換的算法,提出了一種基于極坐標(biāo)變換的脫機(jī)手寫藏文字符特征提取法。該算法首先將藏文字符圖像進(jìn)行預(yù)處理后得到大小、位置統(tǒng)一的二值圖像,并計算二值圖像的極點位置,其次求出f(x,y)=1的所有點對應(yīng)的極坐標(biāo)(ρ,θ)。然后對所有點的極坐標(biāo)進(jìn)行投影變換,將變換之后得到的向量作為該脫機(jī)手寫藏文字符的特征向量,即可實現(xiàn)脫機(jī)手寫藏文字符的識別。結(jié)果表明該算法計算簡單并有效提升了藏文字符識別效果。

1 藏文字符的預(yù)處理

文字圖像獲取過程中,由于紙張質(zhì)量不同、印刷或書寫質(zhì)量不同及設(shè)備性能的優(yōu)劣使得圖像存在較大噪聲、對比度不夠等缺點,使模式識別的效果較低。故需要進(jìn)行預(yù)處理消除圖像中無關(guān)的信息、最大限度地將干擾信息降到最低、恢復(fù)真實信息、簡化數(shù)據(jù)信息,從而提高特征提取、分類識別的可靠性。藏文字圖像預(yù)處理包括二值化、傾斜校正、行、列切分、平滑、去除噪聲、歸一化和抽取輪廓等[12]。本文中預(yù)處理有二值化、行、列切分、歸一化和平滑。二值化可得到0、1的二值點陣圖像,行列切分可找出單個字符的上下左右邊界,歸一化可得到大小、位置統(tǒng)一的字符,平滑可減少圖像的噪聲。

1.1 二值化

藏文字符圖像的二值化是將掃描字符的256灰度圖轉(zhuǎn)變成灰度值只有0、1的過程。其中二值化算法中的關(guān)鍵是求得一個最佳的閾值。

(1)

(2)

(3)

則有組內(nèi)方差:

(4)

組間方差:

(5)

1.2 歸一化

大小歸一化需對不同大小的字符進(jìn)行變換,使之尺寸大小統(tǒng)一,本文先確定輸入藏文字符的外接邊框,再將字符的外邊框按比例線性放大或縮小成48×24點陣。位置歸一化是把整個字符點陣圖像移到規(guī)定的位置上,文中采用基于質(zhì)心位置歸一化,先計算字符的質(zhì)心(Gi,Gj),然后把質(zhì)心移到指定的位置上。式(6)為計算字符質(zhì)心的公式:

(6)

式中:x、y分別表示橫坐標(biāo)和縱坐標(biāo)方向,f(x,y)=1表示該字符像素點為黑像素點即黑色,反之表示白色。top、bott、R、L分別表示字符圖像的上下左右邊界。

(a) (b)(c)(d)圖3 藏文字符“”預(yù)處理過程

2 特征提取

特征提取需要從原始圖像數(shù)據(jù)中提取一系列穩(wěn)定的、典型的基本元素或相關(guān)的數(shù)學(xué)表達(dá)式,這些元素或數(shù)學(xué)表達(dá)式能夠精確反映圖像的特征。

1) 極坐標(biāo)系的建立利用極坐標(biāo)的基本思想本文利用方向和距離表示平面上一點與極點之間的關(guān)系。設(shè)f(x,y)是樣本字符預(yù)處理后得到的位置、大小統(tǒng)一的48×24二值點陣圖像,規(guī)定:

(7)

式中:x、y分別表示坐標(biāo)橫軸和縱軸上的點x=1,2,3,…,48,y=1,2,3,…,24,f(x,y)表示二值點陣圖像中某點的坐標(biāo)(x,y)是否屬于目標(biāo)函數(shù)。f(x,y)=1時表明該點在目標(biāo)函數(shù)上,則該字符像素點為黑像素;f(x,y)≠1時該點不在目標(biāo)函數(shù)上,則該字符像素點為背景色。

極坐標(biāo)系建立時利用式(8)、式(9)先計算極點ο的坐標(biāo)(x0,y0)。

(8)

(9)

式中:H表示二值圖像的高度,W表示二值圖像的寬度。

圖4 藏文字符“”的極坐標(biāo)系

2) 極坐標(biāo)特征提取方法自適應(yīng)極坐標(biāo)變換是一種基于圖片均勻采樣的極坐標(biāo)變換法[11]。該方法充分利用了字符圖像信息,同時由于圓周方向上的采樣數(shù)隨著半徑值的增大而增加,使得藏文字符筆畫周邊信息得到有效的利用。直角坐標(biāo)系下點(x,y)在極坐標(biāo)系為(ρ,θ)。ρ為這一點到極點的距離,θ表示從極點到該點引出的射線與極軸的夾角大小。若以x軸的正方向為起點,逆時針遍歷直角坐標(biāo)系下所有f(x,y)=1時的坐標(biāo)點。若x0,y0表示直角坐標(biāo)系下的坐標(biāo)原點,利用直角坐標(biāo)與極坐標(biāo)的轉(zhuǎn)換公式:

(10)

(11)

將極坐標(biāo)下圖像記為g(ρ,θ),nr表示沿半徑方向的采集數(shù),nθi表示第i個采集點的半徑處的圓周方向的采樣數(shù),nθmax表示Ri=Rmax處圓周方向的采樣數(shù),Ri表示半徑向第i個采樣點處的半徑值,Rp,θp分別表示在距離軸ρ和方向軸θ的投影,其中采樣點為f(x,y)=1時的點[13-14]。則有:

(12)

(13)

3 實驗結(jié)果分析

在Windows 7系統(tǒng)下用C++語言對本算法進(jìn)行編程實驗。極坐標(biāo)投影的流程圖如圖5所示。

圖5 極坐標(biāo)變換流程圖

實驗使用的數(shù)據(jù)由基字和縱向疊加字符共580個藏文音節(jié)字符組成,其中包括基字30、基字+元音120個、上加字+基字33個、上加字+基字+元音132個、基字+下加字24個、基字+下加字+元音96個、特殊下加字+基字15個、特殊下加字+基字+元音60、上加字+基字+下加字14個、上加字+基字+下加字+元音56個。收集30 000個藏文手寫字體作為實驗數(shù)據(jù),其中80%的樣本作為訓(xùn)練數(shù)據(jù),20%的樣本作為測試數(shù)據(jù)。建立識別字典中580個字符都有一個標(biāo)準(zhǔn)模板相對應(yīng)。考慮到速度與存儲量等因素,用KNN分類器對6 000個測試數(shù)據(jù)分別進(jìn)行極坐標(biāo)變換法特征提取及圖像投影法特征提取進(jìn)行識別性能比較,如表1所示。KNN分類器[15]即k-最近鄰分類法是基于類比學(xué)習(xí),通過將給定的檢驗元組與和它相似的訓(xùn)練元組進(jìn)行比較來學(xué)習(xí)。其算法關(guān)鍵是求得一個最佳的k值。在實際應(yīng)用中,KNN分類器中不同的近鄰數(shù)k影響著藏文字符的識別率。

表1 極坐標(biāo)變換法和圖像投影法的識別性能對比

由表1可看出:(1) 基于圖像投影法的特征提取,近鄰個數(shù)k從1到7時,藏文字符的識別率隨著近鄰個數(shù)的增加而上升;在k=7時識別率最高,達(dá)到84.86%。當(dāng)k從7到9時,藏文字符的識別率總體呈下降趨勢。(2) 基于極坐標(biāo)變換法的特征提取,近鄰個數(shù)k從1到5時,藏文字符的識別率隨著近鄰個數(shù)的增加而上升;在k=5時識別率最高,達(dá)到96.32%。當(dāng)k從5到9時,藏文字符的識別率總體呈下降趨勢。(3) 在k值相同時,基于極坐標(biāo)投影變換法比基于圖像投影法的識別率有很大幅度的提高。(4) 兩種特征提取法方法中,識別時間都隨k值個數(shù)的增加而延長。雖然基于極坐標(biāo)變換特征提取的方法普遍比基于圖形投影特征提取的方法識別時間長,但極坐標(biāo)變換特征提取的方法識別率在最高時運行時間是42.25 ms,而基于圖形投影特征提取的方法識別率在最高時運行時間是43.97 ms。總的來說基于極坐標(biāo)變換特征提取的方法的運行速度快些。

由圖6可知特征空間的維數(shù)從10到74時識別率總體呈上升趨勢,當(dāng)特征向量的維數(shù)為74時,識別效果達(dá)到最大,最大值為96.32%,當(dāng)特征向量的維數(shù)大于74維時,識別率總體呈下降趨勢。

圖6 不同特征向量維數(shù)的識別率

4 結(jié) 語

針對脫機(jī)手寫藏文字符的字形多樣性、相似字符比例高等特點,分析了常用的藏文字符識別的方法,結(jié)合自適應(yīng)極坐標(biāo)變換的思想,提出一種基于極坐標(biāo)投影變換的藏文字符特征提取的方法,將其有效地運用到藏文字符的識別中。從實驗結(jié)果可以看出,該方法與以往的圖像投影法相比較,不僅能夠充分利用字符圖像的信息,而且藏文字符的識別率也有明顯的提高,對藏文字符的特征提取具有較好的識別效果。

[1] 劉偉. 脫機(jī)手寫體漢字識別的特征提取研究與實現(xiàn)[D].長沙:湖南大學(xué),2007.

[2] 蔡曉娟. 基于LBP和PCA 的脫機(jī)手寫藏文字符識別系統(tǒng)[D].西寧:青海師范大學(xué),2016.

[3] Huang H, Da F, Han X, et al. Wavelet transform and gradient direction based feature extraction method for off-line handwritten Tibetan letter recognition[J]. 東南大學(xué)學(xué)報(英文版), 2014, 30(1):27-31.

[4] Ma L L,Liu H D,Wu J.MRG-OHTC database for on-line handwritten Tibetan characterrecognition[C] // 2011 International Conference on Document Analysis and Recognition (ICDAR). Beijing, China: 2011:207-211.

[5] Lorigo L M, Govidaraju V. Offline Arabic handwriting recognition a survey[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(5):712.

[6] Vamvakas G,Gatos B,Perantonis S J. Handwritten character recognition through two-stage foreground sub-sampling[J].PatternRecognition,2010,43:2807-2816.

[7] 周緯,陳良育,曾振柄. 基于幾何形狀分析的藏文字符識別[J]. 計算機(jī)工程與應(yīng)用, 2012, 48(18): 201-205.

[8] 王維蘭.藏文基本字符識別算法研究[J].西北民族大學(xué)學(xué)報(自然科學(xué)版),1999,20(3):20-23.

[9] 王維蘭,丁小青,陳力,等.印刷體現(xiàn)代藏文識別研究[J].計算機(jī)工程,2003,29(3):37-39.

[10] 劉真真,李永忠,沈曄華. 基于分形矩的印刷體藏文特征提取方法[J].江南大學(xué)學(xué)報(自然科學(xué)版),2007,6(6):791-794.

[11] Matungka R, Zheng Y F, Ewing R L. Image registration using adaptive polar transform.[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2009, 18(10):2340-2354.

[12] 高定國,珠杰.藏文信息處理的原理與應(yīng)用[M].成都:西南交通大學(xué)出版社,2014:152-159.

[13] 符艷軍,程永梅,潘泉,等.基于自適應(yīng)極坐標(biāo)變換的景象匹配算法[J].西北工業(yè)大學(xué)學(xué)報,2011,29(5):702-708.

[14] 高冠東,王晶,劉菲,等.一種基于極坐標(biāo)變換的點模式匹配算法[J]. 計算機(jī)工程與科學(xué),2016,38(2):331-336.

[15] 李衛(wèi)平,楊杰,王鋼.比例逆權(quán)重KNN算法及其流處理應(yīng)用[J].計算機(jī)工程與設(shè)計,2015,36(12):3355-3358.

猜你喜歡
特征提取
特征提取和最小二乘支持向量機(jī)的水下目標(biāo)識別
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術(shù)
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進(jìn)WLD的紋理特征提取方法
淺析零件圖像的特征提取和識別方法
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 色婷婷久久| 亚洲欧美日韩中文字幕在线一区| 少妇高潮惨叫久久久久久| 日日拍夜夜操| 色吊丝av中文字幕| 国产美女久久久久不卡| 国产精品欧美日本韩免费一区二区三区不卡 | 亚洲色欲色欲www在线观看| 国产精品乱偷免费视频| 四虎成人免费毛片| 色视频久久| 毛片a级毛片免费观看免下载| 2021国产精品自产拍在线| 成人精品区| 久草视频一区| 亚洲日本韩在线观看| 免费无码又爽又黄又刺激网站| 99在线国产| 97免费在线观看视频| 亚洲AV无码精品无码久久蜜桃| 国产成人精品在线| 一级毛片免费观看不卡视频| 国产性生大片免费观看性欧美| 狼友视频一区二区三区| 久久网综合| 国产亚洲欧美另类一区二区| 亚洲小视频网站| 国产真实二区一区在线亚洲| 国产亚洲视频中文字幕视频| 黄色国产在线| 国产精品99在线观看| 精品91自产拍在线| 亚洲人成色在线观看| 久久人妻xunleige无码| 亚洲欧美日韩中文字幕一区二区三区| 999精品色在线观看| 亚洲欧美在线综合图区| 欧美一级高清片欧美国产欧美| 亚洲精品视频免费| 特级aaaaaaaaa毛片免费视频| 亚洲AV成人一区国产精品| 国内精品九九久久久精品| 欧美色99| 亚洲欧美另类色图| 成人免费一级片| 欧美一区福利| 国产福利拍拍拍| 18禁高潮出水呻吟娇喘蜜芽| 欧美国产日韩另类| 成人a免费α片在线视频网站| 日韩大乳视频中文字幕| 四虎国产精品永久一区| 99久久精品国产精品亚洲| 亚洲午夜久久久精品电影院| 国产在线精品人成导航| 美女无遮挡免费视频网站| 东京热一区二区三区无码视频| 97久久人人超碰国产精品| 免费播放毛片| 日韩AV无码免费一二三区| 深爱婷婷激情网| 国产精品久久久久久久久kt| 四虎国产成人免费观看| 色综合久久88色综合天天提莫 | 日韩精品无码免费一区二区三区| 欧洲亚洲一区| 日韩精品少妇无码受不了| 日韩在线中文| www.99精品视频在线播放| 亚洲AV永久无码精品古装片| 97国产在线视频| 久久黄色小视频| 91小视频版在线观看www| 国产十八禁在线观看免费| 成人午夜天| 日韩欧美高清视频| 亚洲天堂啪啪| 国产精品30p| 99热这里只有精品国产99| 亚洲成网站| 日本亚洲国产一区二区三区| 精品三级网站|