基于正則表達式的藏文屬格的識別及其檢錯算法研究

2018-02-25 06:21:08拉毛措

電子技術與軟件工程 2018年9期

拉毛措

摘要文中結合傳統的格助詞添接規則和正則表達式對屬格助詞進行了識別和檢錯的算法研究，提出了藏文屬格助詞的識別算法，再次基礎上我們提出了基于正則表達式和消歧知識庫的屬格助詞自動檢錯算法。最后3本藏文書文本作為實驗語料，結果表明該檢錯算法能夠較好地完成5個藏文屬格助詞的自動檢錯任務。

【關鍵詞】屬格助詞歧義識別檢錯

藏文信息處理的技術水平在逐步提高，但客觀地說這項技術仍然不夠成熟，一些技術難關和關鍵問題還沒有找到有效的解決方法。比如，有很多學者在研究藏文虛詞的識別、藏文音節字校對、文本校對、歧義虛詞的消歧等問題，但都沒能通過語義對藏文虛詞進行自動校對。校對是文本編輯中確保文本與原文一致的重要手段。藏語虛詞在藏語中占有特殊地位，其詞具有結構復雜、含義廣泛、使用頻繁等特點，因而藏文文本中藏文虛詞的校對較為復雜，尤其是藏文不自由虛詞的識別及其校對。藏文虛詞的校對是藏文詞、字、句校對和信息檢索、雙語互譯、自動分類等的基礎，有著極其廣泛的應用價值。本文通過研究藏語虛詞的添接規則和傳統的藏語文法，對屬格助詞的識別方法及其樹檢錯算法進行研究。

針對傳統的藏文文法，我們建立基于正則語法的藏文虛詞添接規則表達式。因藏文虛詞有二義性，建立消歧知識庫來消歧虛詞的歧義性。

1 藏文屬格助詞的識別算法

很多研究藏文虛詞校對方法是首先判斷一個詞是否可能是虛詞，其次獲取其前一個詞的后加字，再次判斷后加字后的虛詞的添接是否正確。我們的作法是把后兩個過程合二為一，提高性能。

2 藏文屬格助詞的校對正則表達式

正則表達式，又稱正規表示法、常規表示法（英語：Regular Expression，在代碼中常簡寫為regex、regexp或RE），是計算機科學的一個概念。正則表達式使用單個字符串來描述、匹配一系列符合某個語法規則的字符串。在很多文本編輯器里，正則表達式通常被用來檢索、替換那些符合某個模式的文本。

3 基于正則表達式的藏文虛詞屬格的自動校對算法

3.1 基于正則表達式的屬格助詞自動檢錯算法

基于正則表達式的藏文虛詞屬格自動檢錯算法，具體描述如下：

基于正則表達式的藏文屬格助詞自動檢錯算法的流程圖，如圖1所示。

但是，我們通過分析研究藏文語料庫，發現藏文屬格的5個助詞都有二義性，5個助詞在不同的語義中，有時是助詞，有時是實詞，我們以格薩爾中《i嗣“串習s。耵》為語料統計了屬格5個助詞的二義性情況，統計數據如表

如，§在語料中出現361次，其中15次為實詞，為實詞的百分比為4.1%。

為了提高基于正則表達式對屬格助詞檢錯的準確率，我們建立了屬格助詞的消歧知識庫。消歧知識庫的結構如表2所示。

3.2 基于正則表達式和知識庫的屬格助詞自動檢錯算法

4 實驗結果與分析

4.1 實驗設計和結果

才旦夏茸大師文集第一冊至十三冊作為實驗語料.其中第一冊到第三冊為訓練語料，用于建設消歧知識庫和訓練屬格的5個助詞的檢錯正則表達式，第四冊至第六冊內容作了修改作為測試語料。語料的規模如表3。

衡量指標選用了準確率P：

方法1 代表基于正則表達式的屬格助詞自動檢錯算法1，方法2代表基于正則表達式和知識庫的屬格助詞自動檢錯算法，實驗結果如表4。

4.2 實驗結果分析

從計算的結果可以看出，采用方法2檢錯率比方法l的檢錯率高，雖然只增加了消歧知識庫，但準確率明顯提高，但方法2比方法1增加了時間復雜度T（n）=O（log2（n》。

在實驗過程中也發現一些有待解決的問題：消歧知識庫的規模不大，還得擴充知識庫。

5 結束語

縱觀當前少數民族語言文字發展的現狀，我們可以清楚地看到，要想句法分析向語義分析階段順利邁進，目前最重要的問題就是處理好藏文的虛詞，藏文虛詞的研究成果可以在各個層面上推廣應用。下一步工作計劃是，擴充藏文歧義虛詞知識庫，提高藏文虛詞識別和檢錯的準確性。

總體而言藏文屬格助詞的識別及其自動檢錯算法的研究達到了可實用的水平。

參考文獻

[1]卓瑪吉，安見才讓.藏文不自由虛詞的自動識別研究[J].商業文化，2014 （05），

[2]高定國，扎西加，趙棟材.計算機識別藏語虛詞的方法研究[J].中文信息學報，2014， 28 （01）：113-05.

[3]吳朔平.科技英語虛詞分析法簡介[J]，系統工程與電子技術學報，1986 （07）.

[4]楊慧玲.英語虛詞在常規句和疑難句中的翻譯比較分析[J].昆明師范高等?？茖W校學報，2006，28 （01）： 86-88.

[5]多拉.藏語語義理解中功能性虛詞研究[J]，西藏大學學報（社會科學版）， 2011， 26 （04）：106-107.

[6]胡書津.簡明藏丈文法：藏漢對照2版[M].云南民族出版社，2000 （10）.

[7]格桑局冕，格桑央金，實用藏文文法教程[M].四川民族出版社，2004 （11）.

[8]才旦夏著，藏文文法詳解[M].青海民族出版社，1954，5：18-45.

電子技術與軟件工程2018年9期

電子技術與軟件工程的其它文章: 單片機系統中復位電路的可靠性分析與設計; 兩地雙重聯鎖控制電動機正反轉電路分析; CT設備的應用與維護方法; 醫療電子設備故障診斷技術; 航空安全信息處理技術; 基于改進的Page Rank算法的網頁主題相關度分析研究