基于HMM 的維吾爾語詞性標注研究

2017-04-22 08:34:41李萍楊勇賽買提艾力任鴿

現代計算機 2017年7期

關鍵詞：模型研究

李萍，楊勇，賽買提·艾力，任鴿

（新疆師范大學計算機科學技術學院，烏魯木齊 830054）

基于HMM 的維吾爾語詞性標注研究

李萍，楊勇，賽買提·艾力，任鴿

（新疆師范大學計算機科學技術學院，烏魯木齊 830054）

在維吾爾語與漢語的機器翻譯的研究中，詞性標注起到很大的作用，詞性標注也是自然語言處理的基礎性工作。介紹基于隱馬爾可夫模型的詞性標注算法和詞性標注器Citar，并且將Citar標注器應用到維吾爾語上進行詞性標注。為了能對維吾爾語進行詞性標注，在在布朗詞性標注集的基礎上，定義一套適用于維吾爾語的詞性標注集，采用基于隱馬爾可夫模型的方法，對部分維吾爾語進行詞性標注實驗，經過實驗表明，Citar標注器能準確對維吾爾語進行詞性標注，從而表明此標注器適用于維吾爾語。

機器翻譯；詞性標注；隱馬爾可夫模型；詞性標注集；維吾爾語

0 引言

詞性標注[1-3]是自然語言處理的基礎，其中機器翻譯[4-5]、信息抽取[6-7]、信息檢索、信息識別等的研究都要在詞性標注的研究基礎上。詞性標注是將句子中的詞語標記上詞性屬性，詞性標注的難點在于一個詞在不同的語境環境可能有不同的屬性，另外對于未登錄詞的處理也是詞性標注中的一大難點。漢語中的詞性標記還涉及一個分詞問題，先要對句子進行分詞，而像英語、維語這類的語言，其詞與詞之間存在空格，相比于漢語的詞性標記，這類語言的詞性標注相對容易些。

維吾爾語是阿爾泰語系，所有的詞語由32個字母構成，但是每個字母有不同的變形，在構成不同的詞語的時候其字形不一樣，這種變形加大了維吾爾語詞性標注的難度。詞性標注的難點主要是對兼類詞和未登錄詞的處理。目前對于維吾爾語詞性標注的研究主要是集中于兩個方面，一個方面是維吾爾語詞性標注集的研究與設計，第二個方面是詞性標注算法在維吾爾語上的應用。文獻[8]主要研究的是基于詞典的詞性標注，構建了《現代維語電子詞典》用于維吾爾語的詞性標注，使用的標注集是小標記集。文獻[9]使用了最大熵模型對維吾爾語進行了詞性標記，并且標記的時候結合了維吾爾語的詞綴作為標記特征。文獻[10]將三階隱馬爾可夫模型運用到了維吾爾語的詞性標注，并且改進了Viterbi算法。文獻[11]使用感知器訓練算法和Viterbi算法對維吾爾語進行了詞性標注，同樣在標注時結合了詞的特征。對維吾爾語的自動化標注目前使用的標注集大部分是新疆大學多語種信息技術實驗室制定的，也有部分研究是專門關于標記集的制定。本文采用的以布朗語料庫制定的詞性標記集為基礎并結合了維吾爾語的詞性特征篩選出來，使得基于隱馬爾科夫模型標注器Citar適用于維吾爾語的詞性標注。

1 基于HMM 的詞性標注算法

隱馬爾科夫模型是由五元組μ=（S，O，A，B，π）構成的，S為模型中的隱含狀態集合，在詞性標注問題中對應的是詞性，O為模型中的觀察狀態，在詞性標注問題中對應的是單詞，π為初始化狀態概率矩陣，A為隱含狀態轉移概率矩陣，B為觀察狀態轉移概率矩陣。

為了對大量維吾爾語詞語進行標注，需要先得到一個合適的隱馬爾科夫模型。本文采用Citar標注器對維吾爾語進行模型的訓練以及詞性的標注。由于Citar標注器適應的是英文，在應用方面有相應的區別。在訓練之前首先要確定維吾爾語的標記集，由于在詞性標注問題上，大部分的標記集都是由布朗語料庫中的標記集演變而來，因此根據Brown語料庫的87個標記集[12-13]以及大眾維語里出現的詞性[14]，篩選出用于維吾爾語詞性標注的標記集如表1所示，這里只針對常見的維吾爾語詞性確定了標記集，還有待進一步完善。

表1 維吾爾語詞性標記集

采用此標記集對部分語料的人工標注結果如圖1所示。

2 實驗

2.1 模型訓練

本文使用了維吾爾語日常用語的1000句進行人工標注，根據人工詞性標注的實驗數據進行模型訓練，通過實驗數據的訓練，可以得到兩個模型文件lexicon和ngrams，其中lexicon模型文件主要是統計詞型和詞性標記的組合在訓練集合中出現的次數，ngrams模型文件主要是一元詞性和二元詞性在訓練集中的出現次數。模型訓練的命令為：”./citar-train../../corups/w4.txt lexicon ngrams”，生成的模型文件如圖2和圖3所示：

圖1 維吾爾語詞性標注人工標注結果

圖2 lexicon

圖3 ngrams

2.2 詞性標注

圖4 詞性標注結果

3 結語

結合維吾爾語的特點，為了能高效對維吾爾語進行詞性標注，本文提出了將基于HMM的Citar標注器應用于維吾爾語中進行詞性標注。在布朗詞性標注集的基礎上，提取出了維吾爾語常用的詞性標注集，通過實驗表明，Citar標注器非常適用于維吾爾語的詞性標注，這也為以后的研究奠定了基礎。不足的是維吾爾語詞性標注集不是很齊全，另外由于維吾爾語的書寫規則，使得詞性標注的應用存在困難，另外模型訓練時人工標注語料較少，真正對詞性進行標注時測試數據集較少，下一步工作就是獲取更多的人工標注語料，在大規模的測試集上進行實驗，并對結果進行評測。

[1]陳莉.基于HMM的柯爾克孜語基本詞性標注研究[D].新疆大學，2013.

[2]王海波，祖漪清，力提甫，等.基于功能詞綴串的維吾爾語詞性標注方法[J].中文信息學報，2013，27（5）:179-183.

[3]洪銘材，張闊，唐杰，等.基于條件隨機場（CRFs）的中文詞性標注方法[J].計算機科學，2006，33（10）:148-151.

[4]劉群.統計機器翻譯綜述[J].中文信息學報，2003，17（4）:1-12.

[5]楊攀，李淼，張建.基于短語統計翻譯的漢維機器翻譯系統[J].計算機應用，2009，29（07）:2022-2025.

[6]李保利，陳玉忠.信息抽取研究綜述[J].計算機工程與應用，2003，39（10）:1-5.

[7]李萍，朱建波，周立新，廖彬.基于快速構建模板的購物信息抽取方法[J].計算機應用，2014，34（3）:733-737.

[8]玉素甫·艾白都拉，阿布都熱依木·沙力.現代維語語料庫的詞類標注研究.民族語文，2005（4）:63-66.

[9]帕里旦·吐爾遜，艾山·吾買爾爾，吐爾根·依布拉音，等.基于最大熵的維吾爾語詞性標注模型:第三屆全國少數民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯合學術研討會[Z].烏魯木齊:201017-20.

[10]陳鵬.隱馬爾可夫模型在維吾爾語詞性標注中的應用[J].電腦知識與技術（學術交流），2006（4）:127-128.

[11]卡哈爾江·阿比的熱西提帕提古力·依馬木買合木提·買買提吐爾根·依布拉音.基于感知器算法的維吾爾語詞性標注研究[J].中文信息學報.2014，28（5）.

[12]Eric Atwell.Automatic Mapping Among Lexico-Grammatical Annotation Models[eb/ol].[2015-9-29].http://www.scs.leeds.ac.uk/ccalas/ tagsets/brown.html.

[13]Brants T.TnT:a Statistical Part-of-Speech Tagger[C].Proceedings of the Sixth Conference on Applied Natural Language Processing. Association for Computational Linguistics，2000:224-231.

[14]馬德元，塔西普拉提，烏買爾.大眾維語[M].新疆：新疆大學出版社，1997:1-100.

Research on Uyghur Part-of-Speech Tagging Model Based on Hidden Markov Model

LI Ping，YANG Yong，SAI Mai Ti·Ai Li，REN Ge
（College of Computer Science and Technology,Xinjiang Normal University,Urumqi 830054）

The part-of-speech tagging plays a very important role in the research on machine translation in Uyghur and Chinese.The part-ofspeech tagging is the groundwork for natural language processing.Introduces the part-of-speech tagging algorithm based on HMM and the part-of-speech tools named Citar,improves Citar in order to make the part-of-speech tagging tools apply to the Uyghur.On the basis of brown part-of-speech tagging sets,defines part-of-speech tagging sets used in the Uyghur for the part-of-speech tagging of Uyghur. Uses the method based on hidden Markov model,carried out the part of speech tagging experiment.The experiment result show that Citar has a good result on the part-for-speech tagging of Uyghur and the label machine is suitable for the Uyghur.

Machine Translation;Part-of-Speech Tagging;HMM;Part-of-Speech Tagging Sets;Uyghur

1007-1423（2017）07-0011-04

10.3969/j.issn.1007-1423.2017.07.003

李萍（1989-），女，湖南株洲人，講師，碩士，研究方向為自然語言處理、信息檢索、信息抽取

楊勇（1979-），男，陜西漢中人，副教授，博士，研究方向為自然語言處理

賽買提·艾力（1983-），男，新疆烏魯木齊人，講師，碩士，研究方向為自然語言處理

任鴿（1986-），女，新疆烏魯木齊人，講師，碩士，研究方向為自然語言處理

2016-12-22

2017-02-10

新疆師范大學優秀青年教師科研啟動基金項目（No.XJNU201420）