999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

滿文單詞合成系統的設計

2016-11-03 00:34:31張晶李婷許爽王帆
科技視界 2016年18期

張晶 李婷 許爽 王帆

【摘 要】本文依托滿文的特點,根據滿文的音節特點和滿文單詞的拼寫規則建立滿文字母樣本庫。經過對樣本庫中滿文字母的黑色像素遍歷,繪出像素分布直方圖,定位字母基線,再通過上下基線拼接達到合成滿文單詞圖像的目的,實現單詞圖像合成,利用Matlab的GUI實現系統的可視化界面。

【關鍵詞】滿文單詞;合成;字母基線;圖像拼接

【Abstract】Relying on the characteristics of the Manchu words, the sample database of Manchu words is established based on its syllable characteristics and spelling rules. After traversing the black pixels of the Manchu words in the sample library, a pixel distribution histogram is drawn. After positioning the letter baseline, we stitch the upper and lower baseline to realize the word image synthesis, in order to achieve the purpose of synthesis Manchu word image. At last, Matlab GUI is used to implement the visualization interface.

【Key words】Manchu words; Synthesis; Letter baseline; Image Stitching

0 引言

作為統治了中國近三百年之久的清王朝,孕育了豐富多彩的滿族文化。滿族是一個擁有獨特文化的民族,不僅有自己的歷史文化、風俗習慣,還有自己的語言和文字,現存的用滿文寫成的浩如煙海的典籍和檔案文獻,為我們留下了珍貴的文化遺產。隨著歷史進程,滿文逐漸成為了一種歷史文字。時至今日,精通滿文的人已為數不多,滿族語言文字已瀕臨失傳,這就使得各個領域對滿文歷史資料和滿文信息化的的研究顯得十分困難。內蒙古大學的魏宏喜,高光來[1]等人在蒙古文的識別和合成方法上,提出了Word Spotting的改進技術,而現有針對滿文文字的合成研究卻是非常少的。實現滿文文字字母樣本庫的建立和滿文單詞的合成,不僅有助于對滿文的學習和研究,也對我國其他少數民族語言文字處理的發展有借鑒作用。

1 滿文文字特點

滿文[2]是屬于阿爾泰語系的通古斯語族的一種古文字,在詞的構造和拼寫上與英語、漢語等語種有很大的差異。

1)滿文的基本字母由6個元音和36個輔音字母構成,其中一個字母有最多8種的寫法,且不同元音字母和輔音字母搭配在一起或字母在單詞中的位置不同都可能使其在書寫上具有不同的形式。

2)在書寫上滿文采用從上到下的書寫順序,每個滿文單詞都是由一到多個滿文字母上下綴接而成。

3)與其他文字不同,滿文是由滿文字母通過主基線拼接而成,且字母之間無縫連接不存在空隙。

1.1 滿文的音節特點

滿文是一種音節型的拼音文字[3]。每一個字母都可以作為一個獨立的音節構成單詞,雖然我們可以將滿文字母的所有音節劃分為元音音節和輔音音節,但滿文卻不能被完全稱為是一種音節型文字。實際上,滿文是以音節為單位,由字頭、字中和字尾上下綴接而成的。在首字頭形下綴接i、o、b、k、l、m、s、k、n、ng、r等11個音素,這樣形成的十一種音素字頭與首字頭共同構成滿文的十二字頭。這十二字頭基本囊括了滿文的所有音節,然后在對這些音節進行聯綴拼接就構成了滿文單詞。不同元音字母和輔音字母搭配在一起書寫,其書寫形式也有很大差異。

1.2 滿文的拼寫規則

滿文單詞的拼寫是從上到下進行的。滿文單詞由一到多個字母從上到下連續書寫而成。由上文可知滿文有其獨有的音節特點,其所對應的字母形式也分為獨立字形、字頭形、字中形和字尾形。在滿文單詞中,字母出現在不同的位置會有不同的寫法,每一個滿文單詞最多包含四種字母形式,稱為獨立字形、字頭形、字中形和字尾形。在單詞拼寫時,除獨立字形外,字頭形、字中形和字尾形字都有固定的拼接規則,一般形式為1個字頭形+ n個字中形+ 1個字尾形(n大于0)的聯合體。

2 滿文單詞合成系統的設計

2.1 滿文字母庫的建立及預處理

從何榮偉[4]所編著的《滿語365句》金標掃描版中摘選出滿文的標準的基本字母,并且根據滿文的音節特點和拼寫特點將滿文字母預處理之后分類處理,建立滿文字母的樣本庫。

為了使得到的圖像具有較高的質量,將滿文字母圖片以高分辨率保存。得到統一字體的滿文單詞圖片,依據滿文單詞的拼音文字和拼寫規則將滿文字母整理,使用截圖工具依據滿文字母的音節和字頭、字中、字尾圖片截取以高分辨率的PNG格式保存,建立圖片形式的滿文字母統一的樣本庫,為了保證后續工作(如:遍歷像素點、圖像拼接等)的順利進行,有必要對掃描圖像進行有效的預處理,以減輕噪聲的干擾,提高圖像質量。圖像的預處理步驟如圖2所示。

采用“閾值法”實現圖像的二值化處理。選取適當閥值,將截取的灰度圖像通過二值處理得到仍然可以反映字母圖像的整體和局部特征的二值化圖像。

2.2 字母圖像的表示

如果直接在字母圖像的像素灰度值上進行圖像匹配和特征提取通常是效果欠佳的。如何提取出有效的高層特征來表示字母圖像,以便采用更高效的圖像拼接算法,獲得更好的單詞合成結果也是應當關注的問題。

由于以何種方式來表示滿文字母圖像與所要釆用的特征選擇和圖像拼接策略以及合成的準確率是密切相關的,因此這兩個關鍵問題需要整體看待。此處我們只對圖像的表示方法進行歸類,不同的圖像表示方法有不同的圖像匹配策略。本文采用基于像素的表示方法對字母圖像進行表示。

該方法直接將單詞圖像中每個像素的亮度或者方向梯度用來描述字母圖像。這種表示方法選取滿文單詞的基線作為特征,通過遍歷像素黑點得到結果直方圖,即可獲得字母圖像之間的匹配基線。

2.3 定位基線

每個滿文單詞可看成由一到多個滿文字母通過基線相連構成,基線大多位于單詞中部,而且完全由密集的黑像素點構成,如圖3所示。根據基線由密集的黑像素點所構成的這一特點,把滿文字母圖像看作一個隨機的二值圖像點陣[5],取點陣中每列黑像素數總數為A:

對選中的其中一個滿文字母樣本例如音節ng的字尾形,如圖5所示,進行黑色像素的遍歷,遍歷結果直方圖如圖6所示,在圖6的左圖中繪出在現有圖像像素的基礎上,樣本圖片的黑色像素分布情況,由圖中我們觀察到在位于圖片大約30(單位:像素)時,黑色像素點明顯增多,由此,基線粗略位置即可得到。其次,在遍歷黑色像素的基礎上,記錄相鄰兩列黑像素的差值,得到的峰值和谷值即為圖6的右圖所示,由此,所得峰值為基線的最左側,谷值即為基線的最右側,至此,字母圖像的基線位置得以確定,由此類推,每個滿文字母的基線位置都可以被定位。

2.4 圖片拼接合成實現

滿文至上而下書寫,同一個單詞中所有字母按出現的先后順序依據音節特點,由字頭形式、字中形式和字尾形式從上至下依次拼接起來。

利用圖像拼接原理[6]合成單詞圖像[7]的時候,如下兩個條件必須同時滿足:(1)相鄰字母的基線必須左右邊界完全對齊;(2)相鄰字母按照基線位置無縫拼接,相鄰字母的基線在其上下邊界應完全重合且無縫隙。

以下為本設計合成滿文單詞圖像的算法步驟。假設一個合成單詞圖像表示MW,它由3個字形圖像組成,并定義由前個字形圖像生成的中間結果表示為MWIR,則生成的算法如下:

2.5 系統GUI的設計

本文基于matlab實現將滿文字母圖像拼接合成滿文單詞圖像,并設計了GUI界面。本系統可以在界面的選擇字母按鍵面板中點擊選擇字頭、字中或字尾形,在彈出的文件夾中選取所要合成的滿文字頭、字中、字尾,通過點擊滿文合成按鍵,即可得到完整的滿文單詞。系統具有保存合成后的滿文單詞、輸入漢語顯示對應的滿文句子等功能。滿文單詞合成系統界面如圖7所示。

3 結論

本文對滿文單詞合成系統關鍵技術進行了研究。首先,確定了構成滿文單詞的字形集,并根據字形出現在單詞中的位置,將它們分為:字頭字形、字中字形和字尾字形。然后,依據滿文單詞的拼寫規則和書寫特點,對滿文字母樣本進行黑色像素的遍歷定位基線,以對齊字形圖像基線實現拼接。本文利用matlab實現了該系統,并設計了GUI界面使系統可視化。該系統為滿文信息平臺及滿文單詞檢索研究奠定了良好的基礎,同時也對其他少數民族文字合成提供了參考,有助于我國少數民族語言文字處理的發展。

【參考文獻】

[1]魏宏喜,高光來.蒙古文古籍圖像檢索技術研究[D].內蒙古大學,2012.

[2]屈六生.滿文教材[M].烏魯木齊:新疆人民出版社,1991.

[3]胡增益.新滿漢大詞典[M].烏魯木齊:新疆人民出版社,1994.

[4]何榮偉.滿語365句[M].沈陽:遼寧民族出版社,2009.

[5]李偉,高光來,侯宏旭,李振宏.印刷體蒙古文字識別技術中切分方法的設計與實現[J].內蒙古大學學報,2003(3):1-5.

[6]Shi J, Malik J. Normalized cuts and image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 8(22): 888- 905.

[7]Regier T, Carlson L. Grounding spatial language inperception: an empirical and computational investigation[J]. Journal of Experimental Psychology: General, 2001, 130(2): 273-298.

[責任編輯:楊玉潔]

主站蜘蛛池模板: 欧美国产精品不卡在线观看| 久久这里只有精品23| 亚洲伊人天堂| 风韵丰满熟妇啪啪区老熟熟女| 亚洲最大看欧美片网站地址| 亚洲欧美一区二区三区图片| 免费国产好深啊好涨好硬视频| 国产精品自在拍首页视频8| 日韩中文欧美| 波多野结衣一区二区三区AV| 色婷婷亚洲十月十月色天| 国产成人精品一区二区不卡| 国产精品99久久久| 国产喷水视频| 国产不卡国语在线| 狠狠做深爱婷婷综合一区| 在线人成精品免费视频| 国精品91人妻无码一区二区三区| 精品一区二区三区水蜜桃| 亚洲国产成人久久77| 五月天香蕉视频国产亚| 2020精品极品国产色在线观看| 久久五月视频| 她的性爱视频| 国产新AV天堂| 国产成人综合在线观看| 国产产在线精品亚洲aavv| 婷婷六月综合| 亚洲国产精品日韩欧美一区| 少妇精品久久久一区二区三区| 婷婷激情亚洲| 91蜜芽尤物福利在线观看| 国产白浆在线观看| 国产成人高清在线精品| 国产麻豆永久视频| a亚洲视频| 天堂久久久久久中文字幕| 成人午夜网址| 国产精品粉嫩| 亚洲综合片| 热99re99首页精品亚洲五月天| 国产老女人精品免费视频| 午夜啪啪网| 亚洲一级毛片免费观看| 一本大道在线一本久道| 亚洲成人在线免费观看| 亚洲无码37.| 日韩欧美中文| 五月激情婷婷综合| 亚洲成a人片在线观看88| 综合五月天网| 日本三级欧美三级| 中文字幕在线看视频一区二区三区| 国产精品区网红主播在线观看| 久久无码av三级| 亚洲一道AV无码午夜福利| 视频在线观看一区二区| 秘书高跟黑色丝袜国产91在线 | 日韩a在线观看免费观看| 久久香蕉欧美精品| 欧美第九页| 女人天堂av免费| 中文字幕有乳无码| 极品私人尤物在线精品首页 | 福利在线一区| 五月天久久综合| 国产丝袜第一页| 天天干伊人| 久久国产免费观看| 亚洲第一视频免费在线| 99久久精彩视频| 久久激情影院| 黄色网在线| 热99精品视频| 乱系列中文字幕在线视频| 亚洲综合色吧| 国产亚洲精品yxsp| 一区二区三区四区在线| 最新精品久久精品| 国产青青操| 国产成人区在线观看视频| P尤物久久99国产综合精品|