999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

藏文音節(jié)的錯誤檢測方法研究

2020-02-14 05:58:28王福釗周雁
計算機時代 2020年1期

王福釗 周雁

摘 ?要: 在藏文信息化處理中,藏文音節(jié)的正確拼寫是一切工作的基礎(chǔ)。文章針對藏文文本中藏文音節(jié)的錯誤自動檢測技術(shù)進(jìn)行了研究,以包含62597個藏文音節(jié)的50篇新聞稿作為文本語料,研究比較了基于藏文音節(jié)構(gòu)件識別的構(gòu)件間約束限制匹配和基于全藏字列表的直接匹配這兩種方法的藏文音節(jié)檢錯誤判率,進(jìn)而探討了不同的音節(jié)檢錯方法適用的最佳范圍和情況。

關(guān)鍵詞: 藏文; 音節(jié); 錯誤檢測; 約束限制匹配; 直接匹配

中圖分類號:TP391.4 ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A ? ? 文章編號:1006-8228(2020)01-05-05

Abstract: In the Tibetan information processing, the correct spelling of Tibetan syllables is the basis of all work. This paper studies the automatic error detection technology of Tibetan syllable in Tibetan text, and uses 50 news articles containing 62,597 Tibetan syllables as text corpus to study and compare the syllable error rate with two methods, i.e., the constraint limited matching between Tibetan syllable components method and the Tibetan syllable full-word list based direct matching method, and then explore the optimal range and situation for different syllable error detection methods to use.

Key words: Tibetan; syllable; error detection; constraint limited matching; direct matching

0 引言

本世紀(jì)初,國內(nèi)藏文信息化處理進(jìn)入了發(fā)展階段,以中央民族大學(xué)、西藏大學(xué)、西北民族大學(xué)等高校為首的研究機構(gòu)加大了藏文信息處理的研究,在藏文文字處理上取得了大量成果。藏文是具有悠久歷史的古老文字,其可追溯至上古象雄時期,后經(jīng)過中世紀(jì)的發(fā)展,至吐蕃王朝第三十三代贊普松贊干布時期,由該時期的著名大臣吐彌桑布扎結(jié)合梵文正式創(chuàng)制了這一獨特的文字[1]。藏文是藏族人民交流溝通的主要語言文字,是藏文文化傳播的重要載體,是經(jīng)過不斷修正完善的中華民族古老文字的重要組成部分。藏語是中華民族語言大家庭中的重要一員,在信息化發(fā)展的不斷推動下,藏文信息化得到了快速發(fā)展。隨著藏文信息化的發(fā)展,計算機對藏文的處理顯得格外重要,計算機中藏文的正確表示和存儲是藏文信息處理的基礎(chǔ),是進(jìn)行藏文分詞、詞性標(biāo)注、詞頻統(tǒng)計等工作的基礎(chǔ)。本次研究是從藏文的文本基本組成單元——音節(jié)出發(fā),以西藏新聞網(wǎng)的新聞稿件為文本語料,從構(gòu)字規(guī)則上研究并編寫計算機程序,實現(xiàn)了藏文音節(jié)的拼寫錯誤檢測。

1 研究基礎(chǔ)

1.1 藏文結(jié)構(gòu)

藏文類似于漢文屬于拼音型文字,屬于藏漢語系藏緬語族藏語支[2]。從狹義上講,藏文是指藏語的符號;但就廣義上講,藏文除了符號外還包括藏文文法等[3]。藏文在組成上由30個輔音字母(共8組)和5個元音字母(其中?a為省略不寫)組成[1]。具體如表1-表2所示。

藏文的基本組成單元是字母,文本的基本組成單元是藏文音節(jié)。另外,藏文音節(jié)是字、詞、短語和句子的組成基本單元,音節(jié)間用隔音符“?”標(biāo)記隔開,句子分割使用單垂符“?”或雙垂符“??”標(biāo)記隔開。每個藏文音節(jié)呈橫向-縱向雙重疊加的平面字,由30個輔音字母和4個元音字母按照構(gòu)字規(guī)則填補在基字、前加字、上加字、下加字、元音符號、后加字和再后加字中的1~7部分,來進(jìn)行構(gòu)成。其中基字必須存在,是整個音節(jié)的核心部分。30個輔音字母皆可作為基字。藏字基本結(jié)構(gòu)如圖1所示。

基字:30個輔音字母皆可作為基字。

前加字:?????共5個。

上加字:???共3個。

下加字:????共4個。

元音符號:? ?? ?? ??共4個。

后加字:??????????共10個。

再后加字:??共2個。

前加字約束如表3,其中,? ?? ?? ?? ?? ?? 6個只能在疊加時才可添加前加字?,其余只需作為基字即可添加相應(yīng)前加字。對于上加字的添加限制如表4所示。

對于下加字的添加限制如表5所示。

對于再后加字的添加限制如表6所示。

對于后加字而言,? ? ? ?? ? ? ? ? ? ? 皆可加在所有的字丁后,但不同的后加字將限制再后加字的出現(xiàn)[1]。還有一些特殊情況,基字+下加字+再下加字的三重疊加體,如???等。

1.2 檢錯原理

對于藏文音節(jié)的錯誤檢測,是根據(jù)其構(gòu)字規(guī)則進(jìn)行規(guī)則匹配,匹配與否就是錯誤與否。對于整篇藏文文本而言,首先對文本進(jìn)行預(yù)處理操作,替換非藏文字符的其他所有符號及進(jìn)行藏文縮略詞的還原,后將文章按照隔音符“?”進(jìn)行單元隔開,最后通過音節(jié)匹配進(jìn)行錯誤檢測[4-8]。其原理圖如圖2所示。

主站蜘蛛池模板: 亚洲综合色婷婷中文字幕| 国产精品亚洲一区二区三区z| 免费AV在线播放观看18禁强制| 麻豆国产在线观看一区二区| 99在线视频精品| 毛片网站免费在线观看| 麻豆精品在线| 热99精品视频| 蜜臀av性久久久久蜜臀aⅴ麻豆| 日韩黄色大片免费看| 国产精品嫩草影院视频| 9999在线视频| 日本福利视频网站| 国产亚洲欧美日韩在线一区二区三区| 国产不卡一级毛片视频| 天堂岛国av无码免费无禁网站| 亚洲,国产,日韩,综合一区 | 无码有码中文字幕| 亚洲乱伦视频| 97国产在线视频| 国产精品无码久久久久AV| 国产欧美又粗又猛又爽老| 国产女人在线观看| 毛片久久久| 亚洲欧洲综合| 婷婷色婷婷| 欧美日韩国产在线人| 国产网站免费看| 极品国产一区二区三区| 中国精品久久| 国产精品无码作爱| 亚洲无卡视频| 亚洲水蜜桃久久综合网站 | 欧洲成人免费视频| 91麻豆久久久| 99在线观看国产| 538国产在线| 国产欧美日韩91| 又爽又大又黄a级毛片在线视频| 波多野结衣无码视频在线观看| 国产a在视频线精品视频下载| 五月婷婷中文字幕| 国产精品手机视频| 国产成年女人特黄特色大片免费| 国精品91人妻无码一区二区三区| 美女被躁出白浆视频播放| 国产精品毛片一区| 黄色一及毛片| 亚洲免费黄色网| 亚洲欧美日韩精品专区| 天天操精品| 国产精品永久在线| 国产成人三级在线观看视频| 无码视频国产精品一区二区 | 五月天福利视频 | 欧美色香蕉| 国产综合亚洲欧洲区精品无码| 亚洲中文字幕在线一区播放| 美女一区二区在线观看| 日韩精品欧美国产在线| 亚洲最大在线观看| 九九九精品视频| 亚洲综合激情另类专区| 亚洲第一色网站| 露脸国产精品自产在线播| 亚洲日韩精品伊甸| 国产乱子伦一区二区=| 国产浮力第一页永久地址| 无码AV高清毛片中国一级毛片| 操操操综合网| 99久久国产综合精品女同| 91激情视频| 国产福利免费视频| 国产精品性| 国产美女叼嘿视频免费看| 丁香婷婷激情综合激情| 中文字幕亚洲另类天堂| 狠狠色香婷婷久久亚洲精品| 91精品在线视频观看| 粗大猛烈进出高潮视频无码| 欧美成人区| 国产精品欧美亚洲韩国日本不卡|