999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于匹配算法的藏文文本詞語校對研究?

2021-08-08 11:14:00王福釗周
計算機與數字工程 2021年7期
關鍵詞:文本研究

王福釗周 雁

(1.西藏大學信息科學技術學院 拉薩850000)(2.北京理工大學珠海學院計算機學院 珠海519000)

1 引言

文本校對是較為復雜的自然語言處理過程,也是自然語言處理中最為重要的關鍵一步。漢英文本校對研究起步較早,目前也已經取得了較好的成果。藏文信息處理研究起始于21世紀初,其起步晚,研究資源短缺,研究進展緩慢[1]。藏文文本校對占據了藏文信息處理的重要位置,是進行藏文自動分詞、文本語義分析、語料庫建設等的基礎,具有極其重要的基礎性意義[2]。藏文文本校對是一項較為復雜的工作,其包括音節校對、梵音轉寫校對、詞語校對、接續關系校對以及語法校對[3]。隨著計算機的不斷應用普及,對藏文信息化的要求也越來越高。簡單來看,當我們在計算機中進行藏文文本的錄入時就可能存在錯誤,可能出現音節拼寫上的錯誤或詞法、句法上的錯誤等,這些錯誤都將嚴重影響之后的文本處理。因此在我們的生產生活科研中對藏文文本的校對就顯得格外重要。在過去的十多年里,一些科研機構對藏文文本的校對進行了研究,大多是對藏文音節和詞接續關系的研究[1~3]。本次研究的對象是藏文文本中的詞語校對方法研究,并采用最大匹配算法的思想在不進行分詞的情況下實現了藏文文本的詞語校對。

2 研究基礎

2.1 藏文基本結構

藏文創造于吐蕃松贊干布時期,屬于藏漢語系語言。藏文同是拼音型文字,其拼寫為一體,即書寫和拼讀皆通過30個輔音字母和5個元音字母(其中?a為省略不寫)構成[4]。藏文的輔音和元音字母如表1,2所示。

表1 藏文輔音字母

表2 藏文元音字母

藏文字形結構是縱橫疊加的平面結構,其以基字(一個輔音字母)為核心?,F代藏字包括一般結構和特殊結構。在一般結構中,藏字至少由一個輔音字母組成,最多可由七個字母組成[4]。藏字一般結構如圖1所示。

圖1 藏字一般結構

2.2 藏文文本校對類型

根據藏文文本中可能出現的錯誤情況進行校對分類,共分為五類。具體如下。

1)藏文音節校對。主要是從藏文字的構字規則出發對音節的組成進行檢查。例如,藏字

3 藏文文本詞語校對

藏文文本的詞語校對方法主要有機器學習的詞網絡匹配方法和詞典匹配兩種方法?;谠~典匹配的詞校對方法是簡單而方便的詞校對方法,之前的研究中大多通過文本分詞,再進行詞典的匹配方式實現詞校對?,F將使用動態組詞并匹配的方式實現詞語校對。藏文文本詞語校對原理圖如圖2所示。

圖2 藏文文本詞語校對原理

藏文文本進行預處理。首先,將其中的非藏文特殊字符,如逗號、冒號、引號等進行處理,將文本根據這些符號進行簡單分句;其次,對文本中的縮略詞進行還原;最后在預處理的結果上進行文本的詞語校對。

3.1 文本預處理

3.2 音節校對

藏文音節校對采用構字規則約束判斷。首先對音節進行構件拆分識別,將各個構件以基字為中心拆開,然后通過構字規則的限制條件進行約束限制判斷,如果構件之間不能滿足限制條件則確定音節錯誤[8]。藏文構字規則約束較多[4],有對前加字的限制如表3所示。

表3 前加字約束

表4 上加字約束

對于下加字的添加限制如表5所示。

表5 下加字約束

對于再后加字的添加限制如表6所示。

表6 再后加字約束

3.3 詞語校對算法設計

校對算法的設計采用的是在前向最大匹配算法的基礎上增加了反向匹配的思想。校對算法原理如圖3所示。

圖3 詞語校對算法思想

如圖3中所示,藏文句子words=(a1,a2,a3,…,an-1,an)包含n個音節。算法以前向最大匹配算法的基礎上融入了反向匹配的思想,在前向匹配的起止start、end游標基礎上增設front游標,實現了前向-后向匹配。算法具體實現是1)初始化。先賦初值start←0,front←start,end←start;2)校對控制。start游標從0開始以1為單量遞增至n+1則表示當前句子校對結束;3)前向動態組詞。words[start…end]由start和end組成,end從start開始依次以1為增量遞增,當words[start…end]與詞典匹配成功則end遞增結束并start←end+1,否則依次遞增匹配至n,當end為n還尚未匹配成功,則前向匹配失敗并進行后向匹配;4)后向動態組詞。words[front…start]由front和start組成,front從start開始依次以1為減量遞減,當words[front…start]與詞典匹配成功則front遞減結束并start←start+1,否則依次遞減匹配至0,當front為0還尚未匹配成功,則后向匹配失敗。前后向均匹配失敗,則表示當前音節本身以及至少與下一個音節不能組成詞語,作錯誤標記并進行start←start+2。

4 實驗及結論

實驗程序通過pycharm工具編寫python3.5程序實現算法,并對人工輸入共計包含28469個音節的藏文文本進行了校對測試。具體實驗步驟如下:1)對文本預處理;2)將預處理的結果文本以單垂符“?”和雙垂符“??”分句;3)將分句的結果輸入校對算法程序進行文本校對;4)將算法程序執行后返回的校對結果輸出到文件中。通過實驗驗證,結果表明該方法下藏文文本的詞語校對達到較好的效果,實現了在不進行分詞情況下的詞語校對。

5 結語

藏文文本校對不僅對藏文信息化處理的研究具有重要意義,而且對生產生活也具有重要意義。隨著計算機技術和藏文基礎研究的不斷發展,藏文文本校對方法將會得到不斷的改進和優化,其應用領域也將會越來越廣闊。

猜你喜歡
文本研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
在808DA上文本顯示的改善
EMA伺服控制系統研究
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
新版C-NCAP側面碰撞假人損傷研究
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 2020最新国产精品视频| 亚洲美女高潮久久久久久久| 久久国产黑丝袜视频| 国产精品蜜臀| 欧美一区精品| 高清乱码精品福利在线视频| 六月婷婷综合| 国产网站一区二区三区| 青青久在线视频免费观看| 中国黄色一级视频| 欧美性色综合网| 欧美全免费aaaaaa特黄在线| 亚洲精品无码久久毛片波多野吉| 国产精品冒白浆免费视频| 伊人福利视频| 国产极品粉嫩小泬免费看| 麻豆精选在线| 波多野结衣久久高清免费| 国产 在线视频无码| 国产一区免费在线观看| 国产Av无码精品色午夜| 国产jizz| 国产免费久久精品99re丫丫一| 欧美视频在线第一页| 亚欧成人无码AV在线播放| 九九线精品视频在线观看| 国产精品嫩草影院视频| 玖玖精品视频在线观看| 黄片一区二区三区| 国产精品午夜福利麻豆| 亚洲国产AV无码综合原创| 被公侵犯人妻少妇一区二区三区| AV色爱天堂网| 欧美精品成人| 国产黄在线免费观看| 黄色福利在线| 亚洲九九视频| 亚洲丝袜第一页| 青青草91视频| 国产精品一区二区不卡的视频| 美女国内精品自产拍在线播放| 69av免费视频| 日韩毛片免费| 992Tv视频国产精品| 成人第一页| 久久国产精品夜色| 亚洲AV无码乱码在线观看裸奔 | 国产精品久久久久久久久| 国产精品成人一区二区| 一本久道久综合久久鬼色| 在线无码九区| 久久99国产综合精品1| 亚洲精品动漫| 日韩精品资源| 四虎国产在线观看| 精品国产免费人成在线观看| 欧美日韩激情| 99视频在线免费观看| 就去色综合| 免费一级无码在线网站 | 日本不卡免费高清视频| 色老二精品视频在线观看| 亚洲三级色| 国产黄网站在线观看| 久久久久88色偷偷| 2022国产91精品久久久久久| 日本免费一级视频| 欧美在线三级| 久久成人免费| 熟女日韩精品2区| 亚洲精品午夜无码电影网| 99精品久久精品| 伊人丁香五月天久久综合 | 久久久久青草大香线综合精品| 黄色网页在线观看| 国产精品久久自在自线观看| 国产三级国产精品国产普男人| 91麻豆国产在线| 亚洲国产欧美国产综合久久| 日韩欧美在线观看| 色婷婷视频在线| 成年人福利视频|