基于匹配算法的藏文文本詞語校對研究?

2021-08-08 11:14:00王福釗周

計算機與數字工程 2021年7期

王福釗周雁

（1.西藏大學信息科學技術學院拉薩850000）（2.北京理工大學珠海學院計算機學院珠海519000）

1 引言

文本校對是較為復雜的自然語言處理過程，也是自然語言處理中最為重要的關鍵一步。漢英文本校對研究起步較早，目前也已經取得了較好的成果。藏文信息處理研究起始于21世紀初，其起步晚，研究資源短缺，研究進展緩慢［1］。藏文文本校對占據了藏文信息處理的重要位置，是進行藏文自動分詞、文本語義分析、語料庫建設等的基礎，具有極其重要的基礎性意義［2］。藏文文本校對是一項較為復雜的工作，其包括音節校對、梵音轉寫校對、詞語校對、接續關系校對以及語法校對［3］。隨著計算機的不斷應用普及，對藏文信息化的要求也越來越高。簡單來看，當我們在計算機中進行藏文文本的錄入時就可能存在錯誤，可能出現音節拼寫上的錯誤或詞法、句法上的錯誤等，這些錯誤都將嚴重影響之后的文本處理。因此在我們的生產生活科研中對藏文文本的校對就顯得格外重要。在過去的十多年里，一些科研機構對藏文文本的校對進行了研究，大多是對藏文音節和詞接續關系的研究［1~3］。本次研究的對象是藏文文本中的詞語校對方法研究，并采用最大匹配算法的思想在不進行分詞的情況下實現了藏文文本的詞語校對。

2 研究基礎

2.1 藏文基本結構

藏文創造于吐蕃松贊干布時期，屬于藏漢語系語言。藏文同是拼音型文字，其拼寫為一體，即書寫和拼讀皆通過30個輔音字母和5個元音字母（其中?a為省略不寫）構成［4］。藏文的輔音和元音字母如表1，2所示。

表1 藏文輔音字母

表2 藏文元音字母

藏文字形結構是縱橫疊加的平面結構，其以基字（一個輔音字母）為核心?，F代藏字包括一般結構和特殊結構。在一般結構中，藏字至少由一個輔音字母組成，最多可由七個字母組成［4］。藏字一般結構如圖1所示。

圖1 藏字一般結構

2.2 藏文文本校對類型

根據藏文文本中可能出現的錯誤情況進行校對分類，共分為五類。具體如下。

1）藏文音節校對。主要是從藏文字的構字規則出發對音節的組成進行檢查。例如，藏字

3 藏文文本詞語校對

藏文文本的詞語校對方法主要有機器學習的詞網絡匹配方法和詞典匹配兩種方法?；谠~典匹配的詞校對方法是簡單而方便的詞校對方法，之前的研究中大多通過文本分詞，再進行詞典的匹配方式實現詞校對?，F將使用動態組詞并匹配的方式實現詞語校對。藏文文本詞語校對原理圖如圖2所示。

圖2 藏文文本詞語校對原理

藏文文本進行預處理。首先，將其中的非藏文特殊字符，如逗號、冒號、引號等進行處理，將文本根據這些符號進行簡單分句；其次，對文本中的縮略詞進行還原；最后在預處理的結果上進行文本的詞語校對。

3.1 文本預處理

3.2 音節校對

藏文音節校對采用構字規則約束判斷。首先對音節進行構件拆分識別，將各個構件以基字為中心拆開，然后通過構字規則的限制條件進行約束限制判斷，如果構件之間不能滿足限制條件則確定音節錯誤［8］。藏文構字規則約束較多［4］，有對前加字的限制如表3所示。

表3 前加字約束

表4 上加字約束

對于下加字的添加限制如表5所示。

表5 下加字約束

對于再后加字的添加限制如表6所示。

表6 再后加字約束

3.3 詞語校對算法設計

校對算法的設計采用的是在前向最大匹配算法的基礎上增加了反向匹配的思想。校對算法原理如圖3所示。

圖3 詞語校對算法思想

如圖3中所示，藏文句子words=（a1，a2，a3，…，an-1，an）包含n個音節。算法以前向最大匹配算法的基礎上融入了反向匹配的思想，在前向匹配的起止start、end游標基礎上增設front游標，實現了前向-后向匹配。算法具體實現是1）初始化。先賦初值start←0，front←start，end←start；2）校對控制。start游標從0開始以1為單量遞增至n+1則表示當前句子校對結束；3）前向動態組詞。words［start…end］由start和end組成，end從start開始依次以1為增量遞增，當words［start…end］與詞典匹配成功則end遞增結束并start←end+1，否則依次遞增匹配至n，當end為n還尚未匹配成功，則前向匹配失敗并進行后向匹配；4）后向動態組詞。words［front…start］由front和start組成，front從start開始依次以1為減量遞減，當words［front…start］與詞典匹配成功則front遞減結束并start←start+1，否則依次遞減匹配至0，當front為0還尚未匹配成功，則后向匹配失敗。前后向均匹配失敗，則表示當前音節本身以及至少與下一個音節不能組成詞語，作錯誤標記并進行start←start+2。

4 實驗及結論

實驗程序通過pycharm工具編寫python3.5程序實現算法，并對人工輸入共計包含28469個音節的藏文文本進行了校對測試。具體實驗步驟如下：1）對文本預處理；2）將預處理的結果文本以單垂符“?”和雙垂符“??”分句；3）將分句的結果輸入校對算法程序進行文本校對；4）將算法程序執行后返回的校對結果輸出到文件中。通過實驗驗證，結果表明該方法下藏文文本的詞語校對達到較好的效果，實現了在不進行分詞情況下的詞語校對。

5 結語

藏文文本校對不僅對藏文信息化處理的研究具有重要意義，而且對生產生活也具有重要意義。隨著計算機技術和藏文基礎研究的不斷發展，藏文文本校對方法將會得到不斷的改進和優化，其應用領域也將會越來越廣闊。