999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析蒙古文電子文檔中的文本錯誤

2019-05-24 14:13:16楊利潤斯琴巴圖
電腦知識與技術 2019年11期

楊利潤 斯琴巴圖

摘要:蒙古文電子文檔中普遍存在文本錯誤,主要有非詞錯誤、真詞錯誤、形對碼錯錯誤、句法語義錯誤等。其中,尤以形對碼錯錯誤最為普遍,且難以人為判斷對錯,只能由計算機程序自動校對。梳理文本錯誤是做蒙古文自動校對工作的基礎和依據,其重要性不言而喻。本文在梳理了蒙古文電子文檔中文本錯誤類型的基礎上,列出了錯誤產生的相應原因及解決方案。

關鍵詞:蒙古文;文本錯誤;自動校對

中圖分類號:TP391 文獻標識碼:A

文章編號:1009-3044(2019)11-0211-03

Abstract: There are common text errors in Mongolian electronic documents, mainly including non-word errors, true word errors, pronunciation non-word errors, and syntactic and semantic errors. Among them, especially the pronunciation of non-word errors is the most common, and it is difficult to judge right or wrong manually, and can only be automatically proofread by a computer program. To sort out the text errors is the basis and basis for the automatic text proofing work in Mongolia, and its importance is self-evident. Based on the text error types in Mongolian electronic documents, this paper lists the corresponding causes and solutions of errors.

Key words: Mongolian; text error; automatic text proofing

1 文本錯誤類型

由于蒙古文不同于英文的特點,蒙古文電子文檔中除了有英文文檔中出現的非詞、真詞、句法語義等錯誤以外,還有形對碼錯錯誤等普遍存在,且比較獨特的錯誤。

1.1 非詞錯誤

2.3 編碼轉換

由于歷史原因,以往有大量蒙古文電子文檔都是基于字形編碼或音形混合編碼(如方正6.0 文檔等)存儲。這些電子文檔轉換為基于語音的國際編碼時,因為只能達到字形上的一致而導致文本錯誤。例如,上述單詞“”的例子,在編碼轉換時也存在同樣的問題。在將這類同形音異單詞轉換為基于語音的國際編碼時,轉換軟件如果沒有相當好的上下文分析功能,則很難完成轉換到正確編碼的任務。

3 文本錯誤解決方案

3.1 自動校對軟件

使用自動校對軟件處理非詞錯誤相對簡單,有比較成熟的一些校對算法可以很好的勝任校對任務,但處理真詞錯誤則比較困難。對于蒙古文電子文檔中真詞錯誤的處理,最新研究有內蒙古大學斯·勞格勞副教授的碩士生迎春在其碩士論文“蒙古文真詞錯誤的偵測與糾錯建議的生成研究”中給出的一個采用基于統計的方法和基于易混淆詞詞典的方法設計實現的蒙古文真詞錯誤校對系統。該系統的召回率為82%,正確率為3.4%,糾錯建議生成率為91%。對于形對碼錯錯誤的處理,郝莉在其文章“基于貝葉斯算法的蒙古文文本自動校對研究”中給出了一種使用貝葉斯算法校正由于讀音混淆而引起的錯誤(讀音非詞)的方法,其拼寫糾錯率可達89%以上。廉冰在其論文“基于有限狀態自動機的蒙古文同形詞校對方法的研究”(該文中的同形詞錯誤的概念與本文中的讀音非詞錯誤的概念相同)中也給出了一種讀音非詞的校對方法,平均準確率達到了91.5%,平均召回率為84.9%。

3.2 輸入法校對功能

通過輸入法自帶的校對功能,可以解決文檔中的非詞錯誤。例如,對正在編輯的文檔,通過輸入法自帶的校對功能,在輸入的同時提示用戶,使其進行正確錄入。目前,主流的蒙古文輸入法有兩種,一個是蒙科立2016輸入法,另一個是德力海蒙古文輸入法2016-教育版。這兩種輸入法都具備一定的非詞提醒功能,前者是用紅色顯示提醒用戶錄入的是非詞,后者是用黑色顯示提醒用戶錄入的是非詞。輸入法自帶的校對功能不能處理真詞錯誤。

使用德力海蒙古文輸入法2016-教育版輸入讀音非詞錯誤編碼時,會自動處理錯誤,將錯誤編碼轉換成正確編碼。

3.3 人工結合校對軟件

3.4 培養使用者正確錄入習慣

蒙古文文檔中,讀音非詞錯誤主要是由于使用者沒有養成正確錄入習慣,只求字形正確而導致。所以通過培養使用者正確錄入習慣,從而避開導致讀音非詞類的形對碼錯錯誤的起因是一種較好的從源頭解決問題的方案。

4 總結

蒙古文電子文檔中普遍存在文本錯誤,主要有非詞錯誤、真詞錯誤、形對碼錯錯誤、句法語義錯誤等。分析梳理這些文本錯誤及其產生的原因,對蒙古文文本自動校對工作有重要的意義,是文本自動校對工作的基礎和依據。目前,對非詞錯誤的處理相對成熟,有較多的處理算法和模型;解決真詞錯誤方面的研究相對薄弱,缺乏實用算法和方案;對形對碼錯錯誤處理的研究較廣泛,但主要集中在讀音非詞的校正上,而同形詞替代引起的錯誤有待更進一步研究。

參考文獻:

[1] 張仰森,俞士汶.文本自動校對技術研究綜述[J].計算機應用研究,2006(6):8-12.

[2] 斯·勞格勞.基于不確定有限自動機的蒙古文校對算法[J].中文信息學報,2009,23(6):110-115.

[3] 迎春.蒙古文真詞錯誤的偵測與糾錯建議的生成研究[D].呼和浩特:內蒙古大學,2017.

[4] 包敏娜.《蒙古文印刷體掃描識別系統》(recog1.0版)自動校正算法研究[D].呼和浩特:內蒙古大學,2007.

[5] 斯·勞格勞.蒙古文編碼轉換通用算法研究[J].內蒙古大學學報(哲學社會科學版),2009,41(2):133-136.

[6] 郝莉,敖登巴拉,鞏政,等.基于貝葉斯算法的蒙古文文本自動校對研究[J].內蒙古大學學報(自然科學版),2010,41(4):440-442.

[7] 駱衛華,羅振聲,宮小瑾.中文文本自動校對技術的研究[J].計算機研究與發展,2004,41(1):244-249.

[8] 包烏格德勒,李娟.蒙古文文本自動校對研究綜述[J].電腦知識與技術,2016,12(35):227-229.

[9] 廉冰.基于有限狀態自動機的蒙古文同形詞校對方法的研究[D].內蒙古大學,2014.

【通聯編輯:梁書】

主站蜘蛛池模板: 亚洲国产成人久久精品软件 | 国产尤物视频在线| 嫩草影院在线观看精品视频| 国产精品福利在线观看无码卡| 97久久超碰极品视觉盛宴| 久久一色本道亚洲| 欧美成人午夜视频| 国产福利免费视频| 亚洲人成网18禁| 三上悠亚在线精品二区| www.国产福利| 四虎亚洲精品| 国产69囗曝护士吞精在线视频| 欧美成人精品一级在线观看| 久久精品人妻中文视频| 18禁黄无遮挡免费动漫网站| 亚洲一区二区日韩欧美gif| 亚洲日本中文字幕乱码中文| 国产三级精品三级在线观看| 国产精品尤物铁牛tv| 免费啪啪网址| 色国产视频| 亚洲高清在线天堂精品| 五月天综合网亚洲综合天堂网| 亚洲香蕉伊综合在人在线| 美女无遮挡免费网站| 久久青草热| www.亚洲色图.com| 日韩123欧美字幕| 日韩成人在线网站| 国产无人区一区二区三区| 亚洲午夜国产精品无卡| 福利视频一区| 男人的天堂久久精品激情| 国产伦精品一区二区三区视频优播| 全部无卡免费的毛片在线看| 国产另类视频| 91伊人国产| 波多野结衣中文字幕一区二区| 九九久久99精品| 亚洲精品视频免费看| 美女免费黄网站| 91九色最新地址| 就去色综合| 亚洲国产综合第一精品小说| 爆乳熟妇一区二区三区| 浮力影院国产第一页| 亚洲三级影院| 亚洲最大看欧美片网站地址| 国产永久无码观看在线| 在线欧美一区| 精品视频在线观看你懂的一区| 精品国产Ⅴ无码大片在线观看81| 久久精品电影| 国禁国产you女视频网站| 中文字幕亚洲第一| 久久国产成人精品国产成人亚洲 | 8090成人午夜精品| 99精品国产高清一区二区| 国产一级裸网站| 亚洲天堂精品视频| 国内精自视频品线一二区| 久久视精品| 亚洲狠狠婷婷综合久久久久| 亚洲第一天堂无码专区| 狠狠亚洲婷婷综合色香| 一区二区三区四区日韩| 欧美另类第一页| 欧美色视频日本| 国内精品自在自线视频香蕉| 老色鬼欧美精品| 成人福利一区二区视频在线| 亚洲精品成人7777在线观看| 国产女人18水真多毛片18精品| 四虎永久在线视频| 在线亚洲精品自拍| 亚洲国产日韩在线观看| 日韩精品一区二区三区免费| 亚洲综合狠狠| 亚洲有码在线播放| 一级毛片在线免费视频| 萌白酱国产一区二区|