999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

印刷體錫伯文圖像數(shù)據(jù)集的構(gòu)建

2018-12-17 12:19:28樊小超新疆師范大學(xué)
數(shù)碼世界 2018年11期
關(guān)鍵詞:單詞方法

樊小超 新疆師范大學(xué)

引言:我國是一個由56個民族組成的統(tǒng)一的多民族國家,許多少數(shù)民族擁有自己的語言和文字,錫伯文就是其中之一。錫伯文記載著本民族的歷史記憶和眾多民俗,展示著本民族的特征和文化內(nèi)涵,更是錫伯族非物質(zhì)文化遺產(chǎn)的重要載體[1]。錫伯文保留著滿文的完整性,同滿文在詞匯、詞法、句法等諸多方面基本相同,可以相互通用[2]。

錫伯文是是滿語支中至今任被使用的語言,研究錫伯文識別技術(shù)具有重大的理論價值和實際意義。首先,語言和文字是承載民族文化、溝通民族感情、構(gòu)成民族各個組成部分的橋梁,錫伯文識別技術(shù)的研究對錫伯文、滿文的傳承和發(fā)揚有著重要作用;其次,清王朝統(tǒng)治中國二百六十多年,留下了浩如煙海的滿文檔案及文獻資料,錫伯文識別技術(shù)的研究有利于保護和考據(jù)珍貴的歷史文獻;最后,錫伯文在新疆錫伯族聚居地有著十分廣泛的使用,在錫伯族的交際活動中占主要地位,錫伯文識別技術(shù)的研究將有利于錫伯族群眾更好的融入現(xiàn)代生活,轉(zhuǎn)變生活方式,具有重大的實際意義。

本文的目的在于從語言學(xué)文字角度分析錫伯文的特點,在此基礎(chǔ)上構(gòu)建印書體錫伯文數(shù)據(jù)集,為今后的錫伯文識別算法提供公共的訓(xùn)練和測試樣本,為錫伯文文字識別技術(shù)提供必要的前提。

1.錫伯語言文字特點

錫伯文按使用場合不同可以分為書面語和口語,二者存在較大差異。本文的研究對象為錫伯文書面語。錫伯文書寫時,通常以單詞為單位,詞與詞之間由空格或標(biāo)點符號隔開,每個單詞由一個或多個字母構(gòu)成,行文從上到下,從左到右。現(xiàn)代錫伯文包含5個元音字母,25個輔音字母,根據(jù)字母所處位置的不同,字母有四種形體:獨立形式,字母的前后沒有其他字母連接;詞首形式,字母只于其后的字母連接;詞尾形式,字母只于其前的字母連接;詞中形式,字母同時連接前后的字母。由此可以看出,錫伯文是一種字母具有獨立、詞首、詞中、詞尾不同形式,且每一種形式可以有多個不同的書寫形體的、黏著連寫的拼音文字。為了便于書寫和傳播,錫伯文字母可以轉(zhuǎn)寫成拉丁字母,且錫伯文字母和拉丁字母具有雙向可逆性,能夠以相似的方式進行雙向轉(zhuǎn)換。

2.錫伯文數(shù)據(jù)集的構(gòu)建

2.1 詞典來源

為了生成錫伯文詞典,本文分析了不同的錫伯文書籍,最終選擇了新疆維吾爾自治區(qū)察布查爾縣中小學(xué)教材審定委員會2014年審查通過的錫伯文小學(xué)課本1-5冊(試用版),《錫伯文雙語速成課本》初級,以及《錫漢教學(xué)詞典》作為錫伯文單詞的來源。從以上書籍當(dāng)中,本數(shù)據(jù)集收集整理3424個錫伯文單詞,這些單詞涵蓋了目前印刷體錫伯文中最常用的名詞、動詞、形容詞、副詞。

2.2 渲染過程

通過掃描或拍攝得到的圖像通常會存在傾斜或包含噪音,在預(yù)處理過程中需要消除這些影響。本文構(gòu)建的印書體錫伯文數(shù)據(jù)集來自文本數(shù)據(jù),使用程序自動生成文本圖像,避免了引入噪聲,也不會出現(xiàn)傾斜等現(xiàn)象。

由文本生成圖像可以采用多種不同的方法完成,但是不同的方法通常都會導(dǎo)致目標(biāo)圖像的輕微變化。本文采用下采樣和抗鋸齒效果的渲染方法,這種方法能夠在低分辨率下較好的保留圖像的特征。該過程使用抗鋸齒過濾方法將高分辨率源圖像下采樣為低分辨率圖像。首先選擇字體、字號和字型,對詞典中的單詞在高分辨率下(360像素/英寸)生成灰度圖像。然后將白色像素點添加到圖像的右側(cè)和底部,形成大小相同的圖像。最后采用抗鋸齒過濾方法獲得低分辨率(72像素/英寸)的目標(biāo)圖像。圖像生成算法采用python 3.5實現(xiàn),主要使用了PIL包中Image模塊,為了優(yōu)化下采樣的質(zhì)量和速度,采用了平滑方法。

2.3 標(biāo)注過程

錫伯文圖像數(shù)據(jù)集中的每個單詞圖像都使用一個XML文件完整地描述,該文件包含關(guān)于單詞的主要信息和生成的信息,具體信息如圖2所示。

圖2 錫伯文圖像標(biāo)注

imageInfo標(biāo)記中的id標(biāo)識了圖片的名稱,是該圖片的唯一標(biāo)識。每個xml文件包含4個主要標(biāo)記:

.Content:描述了當(dāng)前單詞,當(dāng)前單詞包含的字母數(shù)量及該單詞的中文翻譯。該標(biāo)記包含次級標(biāo)記,次級標(biāo)記屬性描述了該單詞所包含的每個錫伯文字母,字母的羅馬轉(zhuǎn)寫及該字母在單詞中的位置。

.Font:描述了當(dāng)前單詞的字體,字號和字型。

.Specs:描述了圖片的格式,高度,寬度和其他效果。

.Generation:描述了圖片生成方式,使用工具及過濾方法。

3.結(jié)論

本文提出了一種印刷體錫伯文圖像數(shù)據(jù)集,該數(shù)據(jù)集由多種常用的錫伯文字體組成,為了便于進一步的研究和對比實驗,文中提出了對于數(shù)據(jù)集劃分的指導(dǎo)性建議。錫伯文與漢文在基本筆畫組成、連接以及書寫方式上均不同,且有著較大的差異,許多在漢文上應(yīng)用的識別技術(shù)不能夠直接應(yīng)用到錫伯文字的識別中。錫伯文數(shù)據(jù)集的建立,有利于對于錫伯文文字的切分和識別的研究,為今后有效的進行錫伯文、滿文的高效識別打下了良好的基礎(chǔ)。

猜你喜歡
單詞方法
What’s This?
Exercise 1
單詞連一連
學(xué)習(xí)方法
看圖填單詞
看完這些單詞的翻譯,整個人都不好了
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 久久国产成人精品国产成人亚洲| jizz在线免费播放| 亚洲精品免费网站| 欧美日韩一区二区三区四区在线观看 | 国产成人综合日韩精品无码不卡| 一区二区自拍| 亚洲欧洲自拍拍偷午夜色无码| 国产成年女人特黄特色大片免费| 国产激情无码一区二区三区免费| 免费看av在线网站网址| 88国产经典欧美一区二区三区| 真实国产精品vr专区| 天堂成人av| 欧美国产日韩一区二区三区精品影视| 久久久精品久久久久三级| 国产精品免费电影| 熟妇人妻无乱码中文字幕真矢织江| 国产99精品久久| 成人无码一区二区三区视频在线观看| 免费不卡视频| 久久免费视频播放| 国产日韩精品一区在线不卡| 亚洲成a人片| 日本亚洲成高清一区二区三区| 欧美国产日韩另类| 成人亚洲国产| 久久夜色撩人精品国产| 欧美国产三级| 国产精品亚欧美一区二区| 免费在线看黄网址| 妇女自拍偷自拍亚洲精品| 一级毛片在线播放| 国产精品爆乳99久久| 麻豆精品在线视频| 日韩福利在线观看| 欧美日本激情| 欧洲精品视频在线观看| 自拍中文字幕| AV老司机AV天堂| 欧美伊人色综合久久天天| 波多野结衣一二三| 国产成人精品在线| 国产成人高清精品免费5388| 亚洲色图欧美一区| 最新国产高清在线| 国产区在线观看视频| 亚洲欧美自拍中文| 四虎成人在线视频| 国产va视频| 无码AV动漫| 国产成人盗摄精品| 尤物国产在线| 91福利一区二区三区| 亚洲天堂视频在线观看免费| 在线精品自拍| 成人一区专区在线观看| 国产精品美女在线| 亚洲欧洲日韩国产综合在线二区| 国产亚洲精品91| 亚洲国产午夜精华无码福利| 91青青草视频在线观看的| 高清欧美性猛交XXXX黑人猛交| 国产成人8x视频一区二区| 欧美日韩一区二区三| 欧美中出一区二区| 亚洲视频免| 国产小视频a在线观看| 亚洲一区二区三区麻豆| 98超碰在线观看| 亚洲日本韩在线观看| 国产91av在线| 国产成人综合亚洲欧美在| 国产91熟女高潮一区二区| AV不卡在线永久免费观看| 在线高清亚洲精品二区| 国产噜噜噜视频在线观看| 波多野结衣在线se| 欧美成a人片在线观看| 亚洲婷婷在线视频| 91午夜福利在线观看精品| 色亚洲成人| 在线观看无码a∨|