湘西苗文詞性標注知識庫系統的構建

2021-12-18 12:40:17莫禮平胡美琪唐琰

電腦知識與技術 2021年31期

莫禮平胡美琪唐琰

摘要：為了解決詞性標注技術研究過程中所涉及的詞性標注語料及詞性標注規則等知識的管理問題，以系統功能、詞性標注語料庫、詞性電子詞典、詞性標注規則庫和詞性標注規則自動獲取方法的設計與實現為重點，構建了一個湘西苗文詞性標注知識庫系統。測試情況表明，該系統不但具備詞性標注語料及詞性標注標注規則的常規管理功能，而且支持用戶從語料庫自動提取詞性標注規則，并對測試語料進行詞性自動標注，能夠滿足湘西苗文詞性標注技術研究的基本需求。

關鍵詞：詞性標注;知識庫系統;語料庫;規則庫

中圖分類號：TP391.1 ? ? ?文獻標識碼：A

文章編號：1009-3044（2021）31-0009-04

The Construction of the Knowledge Base System for Part-of-Speech Tagging in Xiangxi Hmong

MO Li-ping*， HU Mei-qi， TANG Yan

（College of Information Science & Engineering， Jishou University，Jishou 416000， China）

Abstract： To solve the problem of knowledge management such as part-of-speech （POS） tagging corpus and POS tagging rules involved in the research process of POS tagging technology， a knowledge base system for POS tagging in Xiangxi Hmong is constructed by focusing on the design and implementation of system functions， POS tagging corpus， POS electronic dictionary， POS tagging rule base， and automatic acquisition method of POS tagging rules. The test results show that the POS tagging knowledge base system not only has the regular management functions of POS tagging corpus and rules， but also supports users to automatically extract POS tagging rules from the corpus and automatically tag corpus， which can meet the basic needs of the research on the technology of part-of-speech tagging in Xiangxi Hmong.

Key words： part-of-speech tagging; knowledge base system; corpus; rule base

1 引言

詞性標注是自然語言處理領域的基礎課題之一，在語義理解、機器翻譯、文本語音轉換等自然語言處理應用中起著至關重要的作用。詞性標注相關研究始于上世紀 60 年代初對世界最早的機讀語料庫—Brown語料庫中的英文語料的詞性標注工作[1]。歷經近60年的發展，英文詞性標注技術已趨于成熟，國外面向意大利文、阿拉伯文等文字的詞性標注技術也發展迅速[2-3]。國內面向漢字、藏文、維吾爾文、蒙古文等文字的詞性標注研究工作起步較早且成果豐碩[4]。面向漢、藏、維、蒙的詞性標注技術當前已同深度學習模型緊密結合，取得了比傳統詞性標注方法顯著優異的詞性標注效果[5-8]。然而，國內面向苗文的詞性標注相關研究工作剛剛起步，前期僅有周潭等[9]從詞性標記集的設計，Li H C等[10]從基于隱馬爾可夫模型（Hidden Markov Model，HMM）的苗漢混合文本詞性自動標注等方面開展了一些嘗試性研究工作。

本文結合苗文信息化的實際需要，探討湘西苗文詞性標注知識庫系統的設計和實現方法，以期為湘西苗文的詞性自動標注和智能處理技術研究奠定基礎，并為武陵山片區湘西民族文化資源大數據的開發及利用提供工具支持。

2 湘西苗文語料收集處理及詞性標記集設計

2.1 語料收集處理

湘西苗文是指在武陵山片區湘西土家族苗族自治州苗民聚居地流行使用的苗文，分為圖 1所示的方塊苗文和方言苗文兩大類。方塊苗文是一種仿漢字結構的文字，是表意苗文的代表，共分為老寨苗文、古丈苗文和板塘苗文三套[11]。方言苗文（也稱湘西新苗文）基于拉丁字母，是拼音苗文的代表。據文獻[12]，中國科學院1956年組織中國少數民族語言第二調查隊詳細調查了湘西苗語使用情況，根據調查結果創制了湘西方言的《苗文方案（草案）》，并從1958年開始在湘西花垣縣和鳳凰縣試驗推行新苗文，1961年因故中止，1983年得以恢復。推行期間，政府編印出版了大量新苗文讀物，取得文字普及的良好效果，有力地推動了當地經濟文化事業的發展。方言苗文又分為中東部土語苗文和西部土語苗文兩類。前者分布在湘西自治州的瀘溪、吉首、龍山等縣，以龍山苗語苗文為代表;后者則分布在吉首、鳳凰、龍山、鳳凰、花垣等縣，其代表是吉衛苗語苗文和矮寨苗語苗文。

通過學校圖書館民族文獻借閱、網絡文獻檢索、民間實地調查搜集等途徑，我們已經搜集了大量記載苗文詞匯、語句、民間故事、民歌民謠等湘西苗文相關手稿、書稿和其他類型的資料。在對這些資料進行整理歸類的基礎上，經拍照、掃描、圖片加工等處理，借助國際音標輸入法軟件、“掃描全能王”文字識別軟件，以及方塊苗文輸入法軟件錄入湘西苗文原始語料;然后，結合向日征編著的《漢苗詞典（湘西方言）》和石如金編著的《苗漢漢苗詞典》，設計語料數據庫，制成了與漢語對等理解度的湘西苗文詞級生語料。

2.2 詞性標記集的設計

在根據生語料的統計分析結果確定湘西苗文詞語的種類和詞性的基礎上，我們直接借鑒北京大學計算語言學研究俞士汶主編的《現代漢語語料庫加工―詞語切分與詞性標注規范與手冊》中的詞性編碼方法進行苗文詞性標注符號、形式和風格的設計。通過對周潭等[9]設計的方塊苗文詞性標記集進行擴充，建立了如表1所示的較完整的湘西苗文詞性標記集。

3 湘西苗文詞性標注知識庫系統的設計

下面從系統功能模塊設計、苗文詞性電子詞典設計、苗文詞性規則庫設計，以及詞性標注規則自動獲取方法設計等幾個方面來介紹湘西苗文詞性標注知識庫系統的設計方法。

3.1系統功能模塊設計

湘西苗文詞性標注知識庫系統主要包括語料庫管理、規則處理和詞性自動標注三個重要模塊。其中的核心子模塊功能設計如下：

（1）語料庫管理功能：湘西苗文詞性標注知識庫系統中的語料以文件形式保存，用戶可以將已標注語料以文件形式導入或導出，也可以通過操作系統的資源管理器選擇語料文件來查詢、添加、修改或刪除;

（2）規則手動導入功能：允許用戶把事先手工編制的詞性標注規則文件導入系統;

（3）規則自動提取功能：利用關聯規則挖掘算法從已標注語料庫中自動提取規則，并將規則保存在知識庫系統的規則庫中;

（4）規則管理功能：手動導入及自動提取的詞性標注規則在湘西苗文詞性標注知識庫系統中均以條目形式進行保存，用戶可以對相應規則進行增加、查詢、修改或刪除等常規管理;

（5）詞性自動標注功能：用戶可以利用規則庫中存儲的詞性標注規則對語料測試樣例進行詞性標注，并對標注結果進行保存或輸出處理;

（6）測試樣例管理功能：用戶可以從外部文件導入語料測試樣例以供自動標注測試，并對測試樣例進行查詢、添加、修改、刪除等操作。

3.2 苗文詞性電子詞典設計

湘西苗文詞性電子詞典結構按照漢語語法的傳統用法來設計。首先，將苗文粗分為實詞和虛詞兩大類;然后，再在這兩大類的基礎上根據詞的語法功能進行細分，并對其進行詳細地描述。電子詞典的結構包括如下三部分：

（1）詞性本身：名詞、動詞、副詞、形容詞等;

（2）語法功能：邏輯結構、功能描述、形式結構等;

（3）其他：習慣用法、詞語搭配、語言色彩、解釋說明等。

3.3 苗文詞性標注語料庫設計

首先依據苗文詞性電子詞典來手工標注湘西苗文詞性，進而創建苗文詞性標注語料庫。語料庫中手工標注的語料以“詞性”為基礎，對文本進行漢語翻譯和分詞后對每一個詞語附上相應的詞性標簽。表2以方言苗文為例，給出了湘西苗文詞性標注語料庫的內容示例及附加說明。

3.4 苗文詞性標注規則庫設計

詞性標注規則是規則類詞性自動標注方法進行詞性標注的依據。湘西苗文詞性標注規則庫中存儲的規則通常設計為形如“if … then …”的產生式規則。例如，“if（Word1，Tag1） then（Word2，Tag2）”和“if（Word1，Tag1） and（Word2，Tag2） then（Word3，Tag3）”的產生式規則分別表示前1-2個詞或詞性的組合對當前詞的詞性影響的規則。由于同一個詞語在不同上下文環境中可能擁有不同詞性，使得根據不同規則來確定同一詞語的詞性時可能發生沖突，為了提高標注的準確率，每一條規則定義一個置信度來表示該規則的準確程度。進行詞性標注時，優先選擇置信度較高的規則作為標注依據。

湘西苗文詞性標注規則庫中存儲的規則既包括結合苗文詞性電子詞典和詞性標注語料庫手工編制的詞性標注規則，又包括應用關聯規則挖掘FP-Growth算法從詞性標注訓練語料庫中自動獲取的詞性標注規則。

3.5 基于FP-Growth算法的詞性標注規則自動獲取方法設計

湘西苗文詞性標注知識庫系統涉及到的核心算法是用于自動獲取詞性標注規則的FP-Growth算法。該算法過程主要包括計算候選模式集、提取頻繁模式集和生成關聯規則三個階段。FP-Growth算法應用于詞性標注規則自動獲取的方法設計如下：

（1）以詞性標注訓練語料庫作為事務數據庫;

（2）采用FP-Growth算法掃描事務數據庫，構建模式前綴樹FP-tree來存儲候選模式集，從訓練集的句子中提取不同長度的模式，用以生成候選模式集;

（3）構建條件模式基FP-tree，并根據用戶給定的最小支持度，從候選模式集中挖掘大于最小支持度的各種長度模式的頻繁模式集;

（4）針對各個頻繁模式，生成形如“a1a2，...，ak-1ak=>（wk，ak）”的關聯規則;

（5）如果得到的關聯規則滿足用戶給定的最小置信度，則將規則改寫成形如“if（Word1，Tag1） then（Word2，Tag2）”或“if（Word1，Tag1） and（Word2，Tag2） then（Word3，Tag3）”的產生式規則，將其加入規則庫。

4 湘西苗文詞性標注知識庫系統功能界面的實現

下面以語料庫管理、詞性標注規則處理、自動標注三個功能為例來介紹湘西苗文詞性標注知識庫系統主要功能界面的實現。

4.1語料庫管理功能界面

湘西苗文詞性標注知識庫系統中的語料主要來自于吉衛苗語苗文、湘西矮寨苗語苗文和龍山苗語苗文，以及三套方塊苗文。前期，我們已針對《苗文課本》（1-4冊）、《吉衛苗語研究》《龍山苗語實錄與導讀》《苗族語言與文化》《湘西矮寨苗語》等書籍內容，在進行人工錄入、檢驗、分詞和標注等工作的基礎上，建立了湘西苗文詞性標注語料數據庫。數據庫中存儲的語料既包含手工標注語料，也包括前期采用隱馬爾科夫模型方法自動標注的語料。湘西苗文詞性標注知識庫系統提供了對這些語料進行添加、查詢、修改和刪除的功能。語料庫管理功能界面運行效果如圖2所示。

實現語料庫管理功能界面的關鍵源代碼如下。

</div>

<div class="tip">輸入文件名：</div>

</div>

<div class="item"><div class="itemtext">吉衛苗語例句STD.txt</div><button>查詢</button></div>

</div>

4.2 詞性標注規則處理功能界面

湘西苗文詞性標注知識庫系統中的詞性標注規則以條目形式進行保存。用戶可以將事先手工編制的詞性標注規則文件導入到系統的規則庫中，也可以利用關聯規則挖掘FP-Growth算法從已標注語料庫中自動提取規則，并將提取的規則保存到系統的規則庫。用戶使用系統提供的規則管理功能對規則庫中的規則進行新增、查詢、修改或刪除等常規管理。規則處理功能界面運行效果如圖3所示。

實現規則處理功能界面的關鍵源代碼如下。

</div>

<div class="tip">輸入文件名：</div>

</div>

<div class="item"><div class="itemtext">苗語標注規則1</div><button>查詢</button></div>

<div class="item"><div class="itemtext">苗語標注規則2</div><button>查詢</button></div>

<div class="item"><div class="itemtext">苗語標注規則3</div><button>查詢</button></div>

<div class="item"><div class="itemtext">苗語標注規則4</div>button>查詢</button></div>

</div>

4.3 語料自動標注功能界面

湘西苗文詞性標注知識庫系統提供了詞性自動標注功能，允許用戶利用規則庫中存儲的詞性標注規則對語料測試樣例進行詞性標注，并把結果進行保存或輸出。用戶可以從外部文件導入語料測試樣例以供自動標注測試。同語料庫管理功能一樣，系統也支持對測試樣例的增加、查詢、添加、刪除等操作。自動標注功能界面運行效果如圖4所示。

實現語料自動標注功能界面的關鍵源代碼如下。

</div>

5 結束語

構建湘西苗文詞性標注知識庫系統之后，我們根據重新收集整理得到的湘西苗文語料，對系統中詞性標注語料庫和詞性標注規則庫的內容進行了補充豐富。然后，對經上述處理后的湘西苗文詞性標注知識庫系統進行了較全面的運行測試。測試結果表明，該系統基本到達預期目標，具備湘西苗文詞性標注技術研究所需要的基本功能。

本文從語料收集處理及詞性標記集設計、系統的設計、系統主要功能模塊的實現等幾個方面闡述了湘西苗文詞性標注知識庫系統的構建過程，對于面向其他文字的詞性標注相關知識庫系統的設計和開發能夠起到一定的借鑒作用。

參考文獻：

[1] Leech G. The state of the art in corpus linguistics[A]. In K. Aijmer & B. Altenberg（eds. ）. English CorpusLinguistics： Studies in Honor of Jan Swartvik [C]. London： Longman， 1991， 9-11.

[2] Bosco C，Tamburini F，Bolioli A，et al.Overview of the EVALITA 2016[M]//EVALITA.Evaluation of NLP and Speech Tools for Italian.Accademia University Press，2016：78-84.

[3] Abumalloh R A， Al-Sarhan H M， Ibrahim O， et al. Arabic Part-of-Speech Tagging[J]. J. Soft Comput. Decis. Support Syst， 2016， 3（2）： 45-52.

[4] 中文信息處理發展報告（2016），中國中文信息學會，北京： 2016.

[5] 謝逸，饒文碧，段鵬飛，等.基于CNN和LSTM混合模型的中文詞性標注[J].武漢大學學報（理學版），2017，63（3）：246-250.

[6] Wang L L，Chen Z Y，Yang H W.TPOS tagging method based on BiLSTM_CRF model[M]//Communications in Computer and Information Science.Singapore：Springer Singapore，2019：490-503.

[7] 帕麗旦·木合塔爾，吾守爾·斯拉木，買買提阿依甫.基于混合模型的維吾爾文詞性標注方法[J].計算機仿真，2019，36（1）：268-273.

[8] 劉婉婉，蘇依拉，烏尼爾，等.基于門控循環神經網絡詞性標注的蒙漢機器翻譯研究[J].中文信息學報，2018，32（8）：68-74.

[9] 周潭，莫禮平，曾虎，等.方塊苗文詞性標注集的設計[J].智能計算機與應用，2019，9（1）：131-134.

[10] Li H C，Mo L P，Zhou K Q.A part-of-speech tagging approach for Chinese-Hmong mixed text[J].IOP Conference Series：Materials Science and Engineering，2020，864：012064.

[11] 趙麗明，劉自齊.湘西方塊苗文[J].民族語文，1990（1）：44-49.

[12] 魏忠.中國的多種民族文字及文獻[M].北京：民族出版社，2004.

【通聯編輯：唐一東】

收稿日期：2021-06-25

基金項目：湖南省語委語言文字應用研究專項課題（XYJ2019GB09）;湖南省自然科學基金項目（2019JJ40234）;湖南省教育廳科學研究重點項目（19A414）;吉首大學本科生科研項目（JDX19031）

作者簡介：胡美琪（1999—），女，本科生，主要研究方向：自然語言處理;莫禮平（1972—），通信作者，女，碩士，教授，主要研究方向：自然語言處理、智能計算及應用研究;唐琰（1998—），男，本科生，主要研究方向：自然語言處理。

電腦知識與技術2021年31期

電腦知識與技術的其它文章: STEAM視角下的教科版高一《信息技術基礎（必修）》教材分析; 中小學信息技術教師職前培養路徑的對比研究; “互聯網+”條件下民族地區農村中小學遠程互動教學模式研究; 云計算關鍵技術案例教學方法研究; 大數據背景下地方院校信管專業《Python程序設計》課程教學改革; 以學生為中心的《計算機導論》混合式教學研究