"/>
999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于MATLAB GUI的少數民族文字手寫體采集系統——以滿文為例

2014-04-21 12:24:28鄭蕊蕊吳寶春
大連民族大學學報 2014年3期

鄭蕊蕊,李 敏,吳寶春

(大連民族學院信息與通信工程學院,遼寧大連116605)

研究少數民族文字識別方法是保護和傳承少數民族文化遺產的重要技術手段,具有重要的社會價值和歷史意義[1-4]。光學字符識別技術(Optical Character Recognition,OCR)必須以大量的字符樣本為基礎,因此建設少數民族文字數據庫是研究少數民族文字識別方法的必要條件。然而,目前能讀寫少數民族文字的人數量有限,部分少數民族的語言文字甚至已瀕臨失傳,要獲得大量的手寫體樣本比較困難。為了獲取大規模的少數民族文字手寫樣本,設計并開發了一種少數民族文字手寫體采集系統。本采集系統能使零基礎的用戶快速掌握少數民族文字的讀寫規律,擴展了少數民族文字手寫樣本的采集范圍,很大程度上解決了少數民族文字手寫樣本匱乏的問題。系統還集成了文字數據庫構建中常用的圖像預處理算法,實現了數據采集與數據庫圖片生成的一體化技術,并具備互動式圖片對比功能,使少數民族文字手寫樣本的采集和數據庫構建更為方便快捷。

1 少數民族文字模板/語音數據庫

目前,中國已正式使用和經國家批準推行的少數民族文字有19種。不同民族文字的拼讀方式具有很大差異,應根據具體民族文字的實際情況設計具有針對性的文字模板。考慮到本系統后續的讀音數據采集功能的開發,需要建設少數民族語音數據庫。現以滿文為例,介紹少數民族文字模板的設計方案和音頻數據的獲取及處理方法。

1.1 滿文字母模板數據庫

滿文是一種音素文字,共有40個字母。滿文字母根據在單詞中位置的不同,同一個字母有獨寫體、首寫體、中寫體和尾寫體4種不同寫法。在滿文字母模板中添加“字符中位置”屬性,分別用“獨”,“首”,“中”和“尾”加以標識,如圖1。

圖1 滿文字母模板

滿文字母的4種寫法,加上不規則的元音書寫方式,共計128個字母,因此滿文字母模板庫共包含128個模板圖片,如圖2。考慮到滿文字母書寫的規范性,還在模板中添加了“字母筆順”屬性,輔助用戶寫出規范的滿文字母。滿文字母有對應的羅馬字轉寫,用來表示字母讀音[5-6],為了方便本采集系統后續功能(學習和讀音數據采集功能)的擴展,在模板中加入“羅馬字轉寫”屬性,以便鏈接讀音數據。如果用戶不會滿語,但參照模板中的筆順和實例,經多次練習,即可寫出令人滿意的滿文字母樣本。為了方便查找,模板保存時統一采用“羅馬字母轉寫+位置編號”的方式命名。數字0,1,2,3分別對應字母的獨寫體、首寫體、中寫體和尾寫體4種位置。因此圖1的模板命名為“a0.jpg”。

圖2 部分滿文字母模板庫

1.2 滿文字母音頻數據

音頻數據數字化的方法已非常成熟,本文采用由美國Adobe公司開發的Adobe Audition軟件提供的專業化音頻編輯環境,將滿文字母的讀音數字化并存為.mp3格式,保存在滿文字庫中對應的字母庫中,統一采用“羅馬字母轉寫.mp3”的方式命名。

2 基于MATLAB GUI的系統軟件開發

系統采用MATLAB提供的圖形用戶界面開發環境(Graphical User Interface Development Environment,GUIDE)設計圖形用戶界面,少數民族文字手寫體采集系統運行情況如圖3。界面共分為3大模塊,分別是系統菜單、文字展示區和文字識別區。系統菜單包括全部功能菜單、圖像預處理菜單和常用工具欄。文字展示區用于顯示所調用的少數民族文字模板,文字采集區主要完成書寫功能,可采用鼠標,推薦使用數位板做為書寫工具以獲得更好的效果。

圖3 少數民族文字學習與采集系統運行界面

3 少數民族文字手寫體采集系統的關鍵技術

本采集系統為避免用戶重復操作,已將常用中值濾波器、灰度化、二值化和歸一化等操作集成在圖像預處理模塊,用戶可根據需要選擇不同的方法處理樣本圖片。

3.1 二值化算法的改進

常規文檔圖像二值化方法很多,但在處理效果、魯棒性和速度上存在較大差異。童立靖等[7]分析了OTSU算法、迭代法、簡單統計法等常用于文本圖像二值化的方法的優缺點。Ostu算法是常用的全局閾值法;Kittler算法結合了圖像統計信息且處理速度快;迭代法允許用戶交互設置參數,且在許多情況下都能取得令人滿意的二值化效果。本采集系統根據這些方法的特點,選擇采用Ostu算法[8]和迭代法[9]作為通用二值化方法提供給用戶,除此之外還提出一種改進的二值化算法。首先將彩色圖片灰度化,然后分別采用Ostu算法、Kittler算法和迭代法3種二值化方法得到3種中間結果。

Otsu法的實質是通過迭代法尋找使圖像前景和背景兩類的類內方差最小的閾值。一幅具有L個灰度級的圖像,其中第i個灰度級的像素為Ni個,i=0,1,…,L-1,圖像的總像素個數為 N,第 i個灰度級出現的概率為Pi=Ni/N。假設閾值k將圖像分為目標像素C0和背景像素C1兩類。其中C0的灰度級為0~k-1,C1的灰度級為k~L-1。則圖像的總平均灰度級為:μ=,其中 C0類像素所占比例為:ω0類像素所占比例為:1-ω0;C0類像素的平均灰度為:μ0(k)=/)ω0;C1類像素的平均灰度為:μ1(k)=/ω。1則類間方差公式為

令k從0~L-1變換,計算不同k值下的類間方差δ2(k),使得δ2(k)取最大值的k即為所求最優閾值。

Kittler算法[10]是一種基于圖像梯度值與圖像灰度統計相結合的閾值選取方法,閾值T計算公式為

其中:f(x,y)是圖像灰度值,g(x,y)=max{|gx|,|gy|}表示像素點x和y方向上的最大值;gx=f(x-1,y)-f(x+1,y)表示水平方向梯度;gy=f(x,y-1)-f(x,y+1)表示垂直方向梯度。Kittler算法的優點是適合細節豐富的圖像且算法速度快。

采用迭代法選取二值化閾值的過程為

step1 選擇一個T的初始估計值T0;

step2 用閾值T0分割圖像,這樣會生成兩組像素:G1為所有灰度值大于T0的像素組成,G2由所有灰度值小于T0的像素組成;

step3 分別計算區域G1、G2所有像素的平均灰度值 μ1、μ2;

step4 計算新的閾值:T=1/2(μ1+μ2);

重復step2到step4,直到相鄰兩次的T值之差小于事先定義的參數Tr。

選擇采用迭代法選取閾值時,用戶可交互式地給出閾值初始估計值T0和參數Tr,默認情況下T0=1/2(maxf(x,y)+minf(x,y)),Tr=1。

設上述三種二值化方法分別作用的結果為B1(x,y),B2(x,y)和 B3(x,y),最終的二值化結果B(x,y)根據公式

3.2 基于可接受度的灰面積關聯度比對方法

在用戶學習書寫的過程中,若能有評分功能也有利于用戶學習。這兩項功能的實現,都可以借助基于可接受度的灰面積關聯度對比方法來實現。首先手寫樣本與標準模板要經過歸一化和傾斜校正等預處理;然后采用灰面積關聯度計算手寫樣本與標準模板之間的相似程度。

灰關聯分析方法[11]的基本思想是根據序列曲線幾何形狀間的相似程度來判斷其聯系是否緊密。經過預處理的手寫樣本與標準模板的投影特征都可以視為曲線。采用灰面積關聯度分析曲線,曲線越接近,相應序列之間的關聯度就越大;反之就越小,這種特性與書寫樣本比對相符合。同時,灰關聯度分析方法對樣本量的多少和樣本有無規律性都同樣適用,且計算量小。因此本文研究以灰面積關聯度分析手寫樣本與標準模板之間的相似程度。灰面積關聯度分析過程如下:

首先將經過預處理的標準模板和手寫樣本向水平和垂直方向分別投影,得到投影序列;再分別計算水平和垂直方向的灰面積關聯度。現以水平方向為例:假設標準模板水平方向投影序列x=(x(1),x(2),…,x(n));手寫樣本水平方向投影序列y=(y(1),y(2),…,y(n))。將序列 y平移:y'=y(i)-(y(1)-x(1)),其中 i=1,2,…,n,相當于把對比序列平移,曲線作平移不會影響曲線的關聯度。計算曲線間面積關聯度時,曲線有相交和不相交兩種情況,如圖4。

圖4 灰面積關聯度的計算

(1)當曲線不相交時,所圍成的區域可以看作一梯形(三角形看作梯形的特例)。面積計算公式為

(2)當曲線相交時,所圍成的區域可以看作兩個三角形面積的疊加。面積計算公式為

其中,ρ為分辨系數,是一個可調因子,通常取ρ=0.8/Sv。Sv為比較序列y’與參考序列x的曲線面積Si的均值:Sv=Si。

定義可接受度 Acc=(γx+γy)/2,即水平和垂直方向灰面積關聯度的平均值,且0≤Acc≤1。

4 結語

本系統針對少數民族文字手寫體樣本采集和數據庫建設問題,設計了具有針對性的圖像預處理算法,使采集到的圖像可直接生成為滿足數據庫要求的圖像格式,避免了現有技術方案依靠光學設備進行文檔數字化的繁瑣工作和噪聲污染。提出了一種改進的圖像二值化算法和基于可接受度的灰面積關聯度對比方法。

[1]王華,丁曉青,哈力木拉提.多字體多字號印刷體維吾爾文字符識別[J].清華大學學報:自然科學版,2004,44(7):946-949.

[2]PENG Liangrui,LIU Changsong,DING Xiaoqing.Multi-font printed Mongolian document recognition system[J].International Journal on Document Analysis and Recognition,2010,13(2):93-106.

[3]王華,丁曉青.一種多字體印刷藏文字符識別方法[J],計算機工程,2004,30(13):18-20.

[4]許爽,孫炎輝,丁紀峰,等.基于ARM的少數民族文字手寫輸入系統設計[J].大連民族學院學報,2012(5):456-459.

[5]季永海.滿語教程[M].北京:中央民族大學出版社,2011.

[6]何榮偉.滿語365句[M].沈陽:遼寧民族出版社,2009.

[7]童立靖,張艷,舒巍,等.幾種文本圖像二值化方法的對比分析[J].北方工業大學學報,2011,23(1):25-33.

[8]OTSU,N.A Threshold Selection Method from Gray-Level Histograms.IEEE Transactions on Systems [J].Man and Cybernetics,1979(9):62-66.

[9]楊杰,黃朝兵.數字圖像處理及MATLAB實現[M].北京:電子工業出版社,2010.

[10]KITTLER J,ILLINGWORTH J.Minimum error thresholding[J].Pattern Recognit,1986(19):41 – 47.

[11]李建坡,趙繼印,鄭蕊蕊.基于綜合關聯度分析的電力變壓器故障診斷[J].2008,26(1):62-68.

主站蜘蛛池模板: 亚洲第一视频免费在线| 毛片基地美国正在播放亚洲| 四虎国产在线观看| 欧美午夜网站| 国产美女精品一区二区| 青青网在线国产| 成人伊人色一区二区三区| 91高清在线视频| 欧美黄网在线| 日韩欧美中文字幕一本| 亚洲天堂久久| 国产日韩欧美一区二区三区在线| 亚洲精品桃花岛av在线| 国产又粗又爽视频| 91精品人妻互换| 在线精品视频成人网| 国产高清毛片| 91在线精品麻豆欧美在线| 亚洲中文久久精品无玛| 亚洲三级影院| 丁香综合在线| 丁香婷婷在线视频| 亚洲国产天堂久久综合226114| 乱色熟女综合一区二区| 亚洲精品国产日韩无码AV永久免费网| 国产精品久久久久久搜索| 91精品国产一区自在线拍| 国产内射在线观看| 伊人久久综在合线亚洲2019| 久久精品国产精品国产一区| 91久久精品国产| 超级碰免费视频91| 看国产一级毛片| 日韩欧美在线观看| 岛国精品一区免费视频在线观看| 欧美成人a∨视频免费观看| 精品人妻无码中字系列| 色婷婷在线播放| 中文字幕亚洲综久久2021| 国产亚洲精品97AA片在线播放| 毛片在线看网站| 综合色天天| 91人妻在线视频| 小蝌蚪亚洲精品国产| 丝袜国产一区| 热这里只有精品国产热门精品| 黄色成年视频| 9久久伊人精品综合| 国产99视频精品免费观看9e| 在线a视频免费观看| 国产va在线观看| 91精品啪在线观看国产60岁 | 日本福利视频网站| 欧美国产精品不卡在线观看| 高清无码手机在线观看| 亚洲国产精品无码久久一线| 国产精品va| 国产成人综合久久精品下载| 在线观看精品国产入口| 欧美性天天| 欧美人与牲动交a欧美精品 | 欧美国产在线精品17p| 久久免费视频播放| 亚洲AV无码久久天堂| 国产浮力第一页永久地址| 欧美中出一区二区| 成人在线亚洲| 国产一级片网址| 日韩精品无码不卡无码| 欧美成人日韩| 久久亚洲天堂| AⅤ色综合久久天堂AV色综合| 欧美成人日韩| 国产精品对白刺激| 亚洲Va中文字幕久久一区| 欧美日韩一区二区在线播放| 日韩最新中文字幕| 中文字幕调教一区二区视频| 91精品国产丝袜| 一区二区三区四区精品视频| 国产呦视频免费视频在线观看| 青草91视频免费观看|