999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于FSVM脫機手寫體漢字分類識別研究

2014-08-03 15:23:40朱程輝王建平
計算機工程與應用 2014年23期
關鍵詞:分類特征

朱程輝,甘 恒,王建平

合肥工業大學 電氣與自動化工程學院,合肥 230009

基于FSVM脫機手寫體漢字分類識別研究

朱程輝,甘 恒,王建平

合肥工業大學 電氣與自動化工程學院,合肥 230009

1 引言

漢字具有漢字類別多、字體結構復雜、字型變化多、相似字多的特點[1]。脫機手寫體漢字除此之外,還具有書寫風格眾多、書寫不規范、隨意性較大等特點。這些特點導致脫機手寫體漢字成為目前文字識別領域最困難的問題之一。近些年已有一些新的方法理論運用到脫機手寫體漢字識別領域,如神經網絡、粗糙集等,與這些方法相比支持向量機有很好的泛化能力,同時避免了維數災難[2]。

脫機手寫體漢字識別首先要進行粗分類。目前采用支持向量機粗分類的方法主要有:按漢字字型結構特征和按漢字部首特征。按漢字字型結構特征進行粗分類存在某些字的字型結構不明確的問題[3]。按漢字部首特征粗分類,存在部首特征難以提取的問題[4]。和前兩種特征相比,漢字像素密度特征易于提取并且分類明確。本文結合漢字整體的像素密度特征和小波分解橫、豎、斜向筆劃細節描述特征,利用模糊支持向量機(FSVM)進行粗分類。

一個待識別漢字像素密度若距離漢字樣本像素密度期望值越遠,則待識別漢字歸屬該樣本的可能性越小。本文采用FSVM方法,根據不同輸入樣本對分類重要程度的不同,賦予不同隸屬度[5]。減少噪聲對傳統支持向量機的影響,進而改善并提高識別精度。同時根據待識別漢字樣本歸屬類別的可能性大小,建立按可能性大小排列的二叉樹,以提高識別速度。

2 模糊支持向量機(FSVM)概述

設 模 糊 支 持 向 量 機 訓 練 集 為 s={(x1,y1,μ1),…,(xj,yj,μj),…,(xl,yl,μl)},其中xj∈ Rn,yj∈{-1,1},μj∈[0,1]。μj表示樣本xj對其所屬類別 yj之間的權重,不同樣本對超平面的訓練有著不同的重要性,其值越大表明越重要。μj稱為模糊成員(Fuzzy membership)[6]。

優化問題如下:

3 漢字的粗分類

3.1 像素密度的定義

漢字像素密度特征定義如下:設手寫體漢字二值圖像(包括小波分解圖像)為 f(x,y),其中 x={1,2,…,N}; y={1,2,…,N};脫機手寫體漢字像素點與圖像總像素的比值,稱之為脫機手寫體漢字像素密度,如式(4):

本文定義:經細化后的漢字圖像由式(4)計算得到的像素密度稱為整體像素密度;小波分解后的橫向子圖由式(4)計算得到的像素密度稱為橫像素密度;同樣方法定義豎、斜向像素密度。

3.2 漢字像素密度分布

本文根據漢字的像素密度對漢字進行粗分類。由于每個漢字筆畫數目的不同,每個漢字的繁簡度也就不盡相同。在漢字圖像上即表現為漢字的像素密度的不同。通過對漢字細化、歸一化后樣本的仿真表明,漢字水平方向像素密度百分比分布在0.322到8.261的區間內,漢字水平像素密度的方差(δ)最大值為0.521。其中一個實際漢字“椽”其樣本分布情況如圖1(橫坐標表示樣本的像素百分比,縱坐標表示在該像素百分比下漢字樣本出現的個數)。圖中值為6.3豎線表示的是“椽”所有樣本的像素百分比的一個期望值。可以看出漢字樣本在其期望附近比較集中。經統計得到:脫機手寫體漢字在3δ范圍內集中了漢字樣本的92.5%,在4δ范圍內集中了97.5%,在5δ范圍內集中了99.5%。

圖1“椽”字樣本分布圖

3.3 漢字圖像的二維小波分解

采用FSVM的方法進行粗分類,首先要對漢字樣本進行預處理[7],包括二值化、歸一化和細化。然后采用二維小波對圖像進行分解。漢字圖像的二維小波分解重構可以得到四個子圖,分別是低頻分量子圖、水平分量子圖、垂直分量子圖和斜向分量子圖。以“葉”的二維小波一級分解為例,如圖2。

圖2“葉”字小波分解及重構圖

由圖可以看出漢字圖像的水平、垂直、斜向分量重構圖在一定程度上刻畫了漢字橫筆劃、豎筆劃、斜向筆劃的特征。同時也可以看出,與印刷體漢字相比,由于手寫漢字的變形引入了干擾。如圖1中“葉”字由于變形引入了斜向筆劃的干擾信息。這也正是手寫體漢字比印刷體漢字識別更加困難的原因之一。

3.4 動態剪枝模糊支持向量多級分類算法

3.4.1 模糊成員定義

采用FSVM的關鍵是對模糊成員(有的文獻中也稱為隸屬度函數)的定義,目前尚未有統一的方法[8]。常見的方法主要是基于距離定義模糊成員[9],即其中 X+表示 yi=+1(正類)的輸入空間,X-表示 yi=-1(負類)的輸入空間;xˉ+表示 X+的中心,xˉ-表示 X-的中心;γ+表示 X+的半徑,γ-表示 X-的半徑;δ表示一個無窮小量,為了防止分母為零的情況出現。

以第一級水平像素密度分類為例介紹FSVM手寫體漢字分類算法(圖3),如下:

步驟1計算待識別漢字的密度百分比ρi。

步驟2根據 ρi,由漢字樣本分布圖(如圖1)找出所有與 ρi有交集的漢字(如圖4)作為待識別空間樣本S,其他沒有交集的漢字剔除。將空間S依照像素密度百分比分為n類,記S的長度為L。取像素密度期望在內對應的漢字樣本作為正類的訓練樣本(S+)。

3.4.2 多級分類的算法

通過小波分解后得到三幅有效的漢字圖像,即水平分量子圖、垂直分量子圖和斜向分量子圖。采用FSVM進行如圖3所示的多級分類。

圖3 漢字粗分類示意圖

子集(即粗分類類別)根據漢字像素密度進行劃分,其中子集1、子集2、……、子集k-1、子集k根據集合密度區間與待識別漢字密度距離由近到遠依次排列。也就是采用剪枝二叉樹的方式[10],按可能性由大到小排列——子集像素密度與待識別漢字密度越接近,待識別漢字屬于該子集的可能性越大,也就越靠近二叉樹的根節點。通過這樣的方式優化二叉樹結構,加快識別速度。

圖4 相交漢字示意圖

步驟3S+的余集作為負類的訓練樣本(S-)。通過式(6)計算模糊成員 μj。通過式(2)求出 αj,代入式(3)即可求得最優超平面并判斷待識別漢字是否屬于S+。

完成第一級依照水平像素密度分類后,第二第三級(垂直像素密度和斜向像素密度)分類按同樣方法進行。

3.5 粗分類仿真實驗

首先對第20區94個漢字(每個字100個樣本)進行二值化、細化、歸一化、去孤立點和二維小波分解。然后計算每個漢字像素密度的期望和方差,水平分量子圖的統計結果如圖5和圖6所示。其中橫坐標表示對應漢字,縱坐標表示像素密度百分比。

圖5 像素密度期望

以“椽”字作為待識別漢字為例,進行第一級粗分類。首先計算待識別“椽”字樣本像素密度百分比為5.468。椽字像素密度的期望值 E椽=4.431。如圖4所示,求與其有交集的漢字(共60個)。

圖6 像素密度方差

這60個漢字像素密度期望值的分布區間為[4.262,5.825]。其中像素密度期望最小值對應漢字是“窗”,值為 E窗=4.262,δ窗=0.427;最大值對應漢字是“蠢”,值為 E蠢=5.825,δ蠢=0.549。

取n=4根據步驟2,正類落在區間[4.34,6.59]內的漢字共16個。其余38個漢字所有樣本作為負類的訓練樣本。按式(6)計算模糊成員,部分值如表1所示。

表1 部分樣本模糊成員μ值

然后按照步驟3~步驟5,判別待識別漢字所屬類別。其中核函數采用徑向基(σ=3.6,C=2),特征向量為小波分解水平分量子圖的水平、垂直方向投影直方圖(維數為96維)。經FSVM判別,待識別漢字屬于正類且與其實際所屬類別一致。

實驗選取第20區94個漢字,每個漢字的50個樣本作為訓練樣本,另50個作為待識別樣本進行粗分類。通過實驗仿真得到分類數n與正確率關系如圖7。

圖7 粗分類正確率與分類數關系圖

根據圖7所示n與正確率的關系兼顧分類子集漢字數目的大小,選取分類數n=5。與選取同樣參數的普通支持向量機作比較,FSVM粗分類正確率平均值為96.2%,粗分類結果所有子集中最大類別集合漢字為16個字。而普通支持向量機粗分類正確率平均值為93.1%,最大類別集合漢字為22個字。可見采用FSVM在同樣的參數情況下精度更高,同時粗分類得到的集合更小。

4 脫機手寫體漢字的識別

粗分類利用漢字的像素密度特征,根據小波分解后的漢字像素密度特征,將漢字粗分類為小集合。在此基礎上進行細分類識別。為了提高識別的精度,本文采用“一對多”支持向量機算法[11]。

4.1 手寫體漢字特征提取

脫機手寫體漢字識別的特征主要有基于筆畫密度、筆畫輪廓特征、背景特征、方向線素特征以及端點奇點等點特征[12]。

(1)基于網格方向分解的方法[13]

該方法首先將漢字用網格進行劃分,通常采用的是非均勻網格。劃分的方法有多種,常見的是基于像素點的方法,其他還有基于筆畫穿越數、筆畫間隔和線密度的方法。劃分網格后在網格內將筆畫分解到橫、豎、45°方向和135°方向模式。方向分解的方法主要有邊緣方向分解法、骨架方向分解法、輪廓方向分解法等。產生網格數乘以四的特征向量。

(2)外圍輪廓特征[14]

外圍特征定義為從漢字圖像邊緣垂直于邊緣方向接觸到漢字黑像素點的距離。其中第一次接觸到黑像素點的距離即稱為一階外圍特征,第二次的稱為二階外圍特征。采用固定掃描線的即稱為均勻外圍特征。非均勻掃描線的即稱為非均勻外圍特征。

(3)小波多網格特征[15]

該方法是首先對漢字圖像進行小波變換,再對變換后的四幅子圖建立網格。在網格內計算像素平均灰度值,從而構造特征向量的一種方法。特征向量維數等于網格數乘以四。

4.2 一對多支持向量機的算法

假設共有n個類別,算法如下:

步驟1選取第i類所有樣本作為正類樣本,其余所有樣本為負類。

步驟2從i=1開始支持向量機訓練,直到i=n,訓練結束產生n個分類器。

步驟3將待識別樣本用n個分類器進行分類。

步驟4計算待識別漢字分類間隔,分類間隔最大的一類即為待識別樣本所屬類別。

4.3 細識別實驗仿真

在細分類識別中采用外圍輪廓特征融合小波多網格特征的方法進行識別。外圍輪廓特征采用16維的非均勻網格,從水平和垂直方向提取一階、二階到四階的外圍特征。構成16×4×2=128維的特征向量。

小波分解后采用固定網格的小波特征,這里為6×6的固定網格對漢字圖像進行網格劃分,然后計算每個網格中的灰度平均值作為小波網格特征。用MATLAB中dwt2()函數對漢字圖像的255色灰度圖像進行小波變換后,水平、垂直以及斜向分量子圖僅存在±127.5,±255和0五個值。由于灰度值是由0到255表示,小波變換系數值的大小表示灰度,故對小波變換系數進行取絕對值處理后計算每個網格的平均灰度值,構成6×6×3=108維的特征向量,與外圍輪廓特征組合構成236維的特征向量,通過一對多支持向量機的方法進行漢字細分類識別。細分類識別核函數采用徑向基,用交叉參數法確認參數。表2為粗分類中分別采用FSVM和普通支持向量機進行漢字識別的識別率對比。

表2 識別率對照表

5 結束語

從仿真結果可以看出,粗分類采用FSVM的方法,最終漢字識別率要優于采用普通支持向量機的方法。本文中利用FSVM的方法進行粗分類是有效的。從數據結果可以看出對于簡單漢字的識別率明顯要優于筆畫結構復雜的漢字。如“川”明顯優于“矗”和“搐”。同時采用漢字像素密度特征進行粗分類,簡單漢字的識別率及分類精細程度都要優于復雜漢字。

[1]趙繼印,鄭蕊蕊,吳寶春,等.脫機手寫體漢字識別綜述[J].電子學報,2010,38(2):406-415.

[2]高學,金連文,尹俊勛,等.一種基于支持向量機的手寫漢字識別方法[J].電子學報,2002,30(5):651-654.

[3]朱程輝,項思俊.手寫體漢字識別的二叉樹SVM算法研究[J].計算機技術與發展,2009,19(9):42-45.

[4]馬龍龍,劉成林.基于統計部首模型的聯機手寫漢字識別方法[J].智能系統學報,2010,5(5):385-391.

[5]Lin C F,Wang S D.Fuzzy support vector machines[J].IEEE Transactions on Neural Networks,2002,13(2):464-471.

[6]吳青,劉三陽,杜喆.基于邊界向量提取的模糊支持向量機方法[J].模式識別與人工智能,2008,21(3):332-337.

[7]黃襄念,程萍,楊波,等.自然手寫漢字預處理子系統[J].重慶大學學報,2000,23(4):33-37.

[8]張翔,肖小玲,徐光祐.模糊支持向量機中隸屬度的確定與分析[J].中國圖象圖形學報,2006,11(8):1188-1192.

[9]Lin C F,Wang S D.Fuzzy support vector machines with automatic membership setting[J].Stud Fuzz,2005,177(1):233-254.

[10]Wang Anna,Hou Yuntao,Zhao Yue,et al.Research on fault diagnosis method of blast furnace based on clustering combine SVMS dynamic pruned binary tree[J]. IEEE,2010,8(10):67-70.

[11]鄭勇濤,劉玉樹.支持向量機解決多分類問題研究[J].計算機工程與應用,2005,41(23):190-192.

[12]高彥宇,楊揚.脫機手寫體漢字識別研究綜述[J].計算機工程與應用,2004,40(7):74-77.

[13]高學,金連文,尹俊勛.一種基于筆畫密度的彈性網格特征提取方法[J].模式識別與人工智能,2002,15(3):351-354.

[14]張君祥,施鵬飛.基于網格外圍特征的平假名識別及應用[J].實驗室研究與探索,2009,28(12):27-30.

[15]陳力,丁曉青.基于小波特征的單字符漢字字體識別[J].電子學報,2004,32(2):177-180.

ZHU Chenghui,GAN Heng,WANG Jianping

School of Electrical Engineering and Automation,Hefei University of Technology,Hefei 230009,China

Considering the features of off-line handwritten Chinese characters,this paper presents a course classification method based on FSVM(Fuzzy Support Vector Machine).According to pixel density characteristics of wavelet decomposition, writer makes coarse classification on Chinese characters by using FSVM.On extracting peripheral features through fine classification and recognition,together with wavelet multi-grid characteristics,this paper relatively succeeds to do fine recognition by one-against-all method.The emulation test shows that the new method has a high recognition rate.

off-line handwritten Chinese characters;Fuzzy Support Vector Machine(FSVM);pixel density;wavelet

針對脫機手寫體漢字特點,給出一種采用模糊支持向量機粗分類的方法。根據小波分解像素密度特征,利用模糊支持向量機對漢字進行粗分類。細分類識別提取外圍特征,同時融合小波多網格特征,采用一對多算法進行細識別。仿真實驗表明,該方法有較高識別率。

脫機手寫體漢字;模糊支持向量機;像素密度;小波

A

TP391.43

10.3778/j.issn.1002-8331.1212-0250

ZHU Chenghui,GAN Heng,WANG Jianping.Classified identification of off-line handwritten Chinese characters recognition based on FSVM.Computer Engineering and Applications,2014,50(23):189-193.

國家實驗教學示范中心項目(No.411101)。

朱程輝(1959—),男,副教授,碩士生導師,主要研究方向為圖像處理、模式識別與神經網絡;甘恒(1985—),男,碩士研究生,主要研究方向為圖像處理與模式識別;王建平(1955—),男,教授,博士生導師,主要研究方向為智能測控技術、機器人視覺與圖像識別系統等。E-mail:gdl_02@163.com

2012-12-21

2013-01-22

1002-8331(2014)23-0189-05

CNKI網絡優先出版:2013-03-13,http://www.cnki.net/kcms/detail/11.2127.TP.20130313.0955.022.html

◎信號處理◎

猜你喜歡
分類特征
抓住特征巧觀察
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 欧美黄网在线| AV熟女乱| 欧美97欧美综合色伦图 | 亚洲国产欧美目韩成人综合| 蜜芽国产尤物av尤物在线看| 成人av手机在线观看| 自拍偷拍欧美日韩| 免费一级毛片完整版在线看| 五月婷婷精品| 99热这里只有精品国产99| 深夜福利视频一区二区| 蜜臀AV在线播放| 三级毛片在线播放| 国产欧美在线视频免费| 99精品免费欧美成人小视频 | 午夜精品区| 亚洲精品中文字幕无乱码| 国产在线欧美| 中文字幕在线视频免费| 超级碰免费视频91| 丰满少妇αⅴ无码区| 久996视频精品免费观看| 五月婷婷导航| 久久一日本道色综合久久| 大陆国产精品视频| 亚洲国产综合自在线另类| 97精品国产高清久久久久蜜芽 | 波多野结衣的av一区二区三区| 国产美女精品在线| 欧美综合一区二区三区| 日韩毛片在线视频| 在线观看免费黄色网址| 都市激情亚洲综合久久| 久久久久亚洲AV成人网站软件| 四虎永久在线视频| 欧美一级黄色影院| 日韩欧美国产另类| 97久久免费视频| 日本欧美午夜| 国产一二三区在线| 欧美 亚洲 日韩 国产| 欧美精品伊人久久| 色爽网免费视频| 在线观看av永久| 国产91麻豆免费观看| 操操操综合网| 欧美日韩成人在线观看| 国产毛片片精品天天看视频| 亚洲性色永久网址| 91久久精品国产| 欧美日韩亚洲国产| 国产麻豆精品手机在线观看| 亚洲一级毛片| 色亚洲成人| 国产三级国产精品国产普男人| 中文字幕66页| 8090成人午夜精品| 久久精品国产电影| 亚洲系列无码专区偷窥无码| 日本成人一区| 久久精品中文字幕免费| 黄色一级视频欧美| 91久久青青草原精品国产| 国产va视频| 91亚洲国产视频| 久久久精品国产亚洲AV日韩| 国产日韩精品欧美一区灰| 2020精品极品国产色在线观看 | 国产中文一区二区苍井空| 91口爆吞精国产对白第三集| 一本综合久久| aa级毛片毛片免费观看久| 久久成人免费| 久久免费视频6| 亚洲无线观看| 在线亚洲天堂| www.99在线观看| 99这里精品| 婷婷六月综合网| 精品视频福利| 爱色欧美亚洲综合图区| 九月婷婷亚洲综合在线|