999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HMM 的維吾爾語詞性標注研究

2017-04-22 08:34:41李萍楊勇賽買提艾力任鴿
現代計算機 2017年7期
關鍵詞:模型研究

李萍,楊勇,賽買提·艾力,任鴿

(新疆師范大學計算機科學技術學院,烏魯木齊 830054)

基于HMM 的維吾爾語詞性標注研究

李萍,楊勇,賽買提·艾力,任鴿

(新疆師范大學計算機科學技術學院,烏魯木齊 830054)

在維吾爾語與漢語的機器翻譯的研究中,詞性標注起到很大的作用,詞性標注也是自然語言處理的基礎性工作。介紹基于隱馬爾可夫模型的詞性標注算法和詞性標注器Citar,并且將Citar標注器應用到維吾爾語上進行詞性標注。為了能對維吾爾語進行詞性標注,在在布朗詞性標注集的基礎上,定義一套適用于維吾爾語的詞性標注集,采用基于隱馬爾可夫模型的方法,對部分維吾爾語進行詞性標注實驗,經過實驗表明,Citar標注器能準確對維吾爾語進行詞性標注,從而表明此標注器適用于維吾爾語。

機器翻譯;詞性標注;隱馬爾可夫模型;詞性標注集;維吾爾語

0 引言

詞性標注[1-3]是自然語言處理的基礎,其中機器翻譯[4-5]、信息抽取[6-7]、信息檢索、信息識別等的研究都要在詞性標注的研究基礎上。詞性標注是將句子中的詞語標記上詞性屬性,詞性標注的難點在于一個詞在不同的語境環境可能有不同的屬性,另外對于未登錄詞的處理也是詞性標注中的一大難點。漢語中的詞性標記還涉及一個分詞問題,先要對句子進行分詞,而像英語、維語這類的語言,其詞與詞之間存在空格,相比于漢語的詞性標記,這類語言的詞性標注相對容易些。

維吾爾語是阿爾泰語系,所有的詞語由32個字母構成,但是每個字母有不同的變形,在構成不同的詞語的時候其字形不一樣,這種變形加大了維吾爾語詞性標注的難度。詞性標注的難點主要是對兼類詞和未登錄詞的處理。目前對于維吾爾語詞性標注的研究主要是集中于兩個方面,一個方面是維吾爾語詞性標注集的研究與設計,第二個方面是詞性標注算法在維吾爾語上的應用。文獻[8]主要研究的是基于詞典的詞性標注,構建了《現代維語電子詞典》用于維吾爾語的詞性標注,使用的標注集是小標記集。文獻[9]使用了最大熵模型對維吾爾語進行了詞性標記,并且標記的時候結合了維吾爾語的詞綴作為標記特征。文獻[10]將三階隱馬爾可夫模型運用到了維吾爾語的詞性標注,并且改進了Viterbi算法。文獻[11]使用感知器訓練算法和Viterbi算法對維吾爾語進行了詞性標注,同樣在標注時結合了詞的特征。對維吾爾語的自動化標注目前使用的標注集大部分是新疆大學多語種信息技術實驗室制定的,也有部分研究是專門關于標記集的制定。本文采用的以布朗語料庫制定的詞性標記集為基礎并結合了維吾爾語的詞性特征篩選出來,使得基于隱馬爾科夫模型標注器Citar適用于維吾爾語的詞性標注。

1 基于HMM 的詞性標注算法

隱馬爾科夫模型是由五元組μ=(S,O,A,B,π)構成的,S為模型中的隱含狀態集合,在詞性標注問題中對應的是詞性,O為模型中的觀察狀態,在詞性標注問題中對應的是單詞,π為初始化狀態概率矩陣,A為隱含狀態轉移概率矩陣,B為觀察狀態轉移概率矩陣。

為了對大量維吾爾語詞語進行標注,需要先得到一個合適的隱馬爾科夫模型。本文采用Citar標注器對維吾爾語進行模型的訓練以及詞性的標注。由于Citar標注器適應的是英文,在應用方面有相應的區別。在訓練之前首先要確定維吾爾語的標記集,由于在詞性標注問題上,大部分的標記集都是由布朗語料庫中的標記集演變而來,因此根據Brown語料庫的87個標記集[12-13]以及大眾維語里出現的詞性[14],篩選出用于維吾爾語詞性標注的標記集如表1所示,這里只針對常見的維吾爾語詞性確定了標記集,還有待進一步完善。

表1 維吾爾語詞性標記集

采用此標記集對部分語料的人工標注結果如圖1所示。

2 實驗

2.1 模型訓練

本文使用了維吾爾語日常用語的1000句進行人工標注,根據人工詞性標注的實驗數據進行模型訓練,通過實驗數據的訓練,可以得到兩個模型文件lexicon和ngrams,其中lexicon模型文件主要是統計詞型和詞性標記的組合在訓練集合中出現的次數,ngrams模型文件主要是一元詞性和二元詞性在訓練集中的出現次數。模型訓練的命令為:”./citar-train../../corups/w4.txt lexicon ngrams”,生成的模型文件如圖2和圖3所示:

圖1 維吾爾語詞性標注人工標注結果

圖2 lexicon

圖3 ngrams

2.2 詞性標注

圖4 詞性標注結果

3 結語

結合維吾爾語的特點,為了能高效對維吾爾語進行詞性標注,本文提出了將基于HMM的Citar標注器應用于維吾爾語中進行詞性標注。在布朗詞性標注集的基礎上,提取出了維吾爾語常用的詞性標注集,通過實驗表明,Citar標注器非常適用于維吾爾語的詞性標注,這也為以后的研究奠定了基礎。不足的是維吾爾語詞性標注集不是很齊全,另外由于維吾爾語的書寫規則,使得詞性標注的應用存在困難,另外模型訓練時人工標注語料較少,真正對詞性進行標注時測試數據集較少,下一步工作就是獲取更多的人工標注語料,在大規模的測試集上進行實驗,并對結果進行評測。

[1]陳莉.基于HMM的柯爾克孜語基本詞性標注研究[D].新疆大學,2013.

[2]王海波,祖漪清,力提甫,等.基于功能詞綴串的維吾爾語詞性標注方法[J].中文信息學報,2013,27(5):179-183.

[3]洪銘材,張闊,唐杰,等.基于條件隨機場(CRFs)的中文詞性標注方法[J].計算機科學,2006,33(10):148-151.

[4]劉群.統計機器翻譯綜述[J].中文信息學報,2003,17(4):1-12.

[5]楊攀,李淼,張建.基于短語統計翻譯的漢維機器翻譯系統[J].計算機應用,2009,29(07):2022-2025.

[6]李保利,陳玉忠.信息抽取研究綜述[J].計算機工程與應用,2003,39(10):1-5.

[7]李萍,朱建波,周立新,廖彬.基于快速構建模板的購物信息抽取方法[J].計算機應用,2014,34(3):733-737.

[8]玉素甫·艾白都拉,阿布都熱依木·沙力.現代維語語料庫的詞類標注研究.民族語文,2005(4):63-66.

[9]帕里旦·吐爾遜,艾山·吾買爾爾,吐爾根·依布拉音,等.基于最大熵的維吾爾語詞性標注模型:第三屆全國少數民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯合學術研討會[Z].烏魯木齊:201017-20.

[10]陳鵬.隱馬爾可夫模型在維吾爾語詞性標注中的應用[J].電腦知識與技術(學術交流),2006(4):127-128.

[11]卡哈爾江·阿比的熱西提帕提古力·依馬木買合木提·買買提吐爾根·依布拉音.基于感知器算法的維吾爾語詞性標注研究[J].中文信息學報.2014,28(5).

[12]Eric Atwell.Automatic Mapping Among Lexico-Grammatical Annotation Models[eb/ol].[2015-9-29].http://www.scs.leeds.ac.uk/ccalas/ tagsets/brown.html.

[13]Brants T.TnT:a Statistical Part-of-Speech Tagger[C].Proceedings of the Sixth Conference on Applied Natural Language Processing. Association for Computational Linguistics,2000:224-231.

[14]馬德元,塔西普拉提,烏買爾.大眾維語[M].新疆:新疆大學出版社,1997:1-100.

Research on Uyghur Part-of-Speech Tagging Model Based on Hidden Markov Model

LI Ping,YANG Yong,SAI Mai Ti·Ai Li,REN Ge
(College of Computer Science and Technology,Xinjiang Normal University,Urumqi 830054)

The part-of-speech tagging plays a very important role in the research on machine translation in Uyghur and Chinese.The part-ofspeech tagging is the groundwork for natural language processing.Introduces the part-of-speech tagging algorithm based on HMM and the part-of-speech tools named Citar,improves Citar in order to make the part-of-speech tagging tools apply to the Uyghur.On the basis of brown part-of-speech tagging sets,defines part-of-speech tagging sets used in the Uyghur for the part-of-speech tagging of Uyghur. Uses the method based on hidden Markov model,carried out the part of speech tagging experiment.The experiment result show that Citar has a good result on the part-for-speech tagging of Uyghur and the label machine is suitable for the Uyghur.

Machine Translation;Part-of-Speech Tagging;HMM;Part-of-Speech Tagging Sets;Uyghur

1007-1423(2017)07-0011-04

10.3969/j.issn.1007-1423.2017.07.003

李萍(1989-),女,湖南株洲人,講師,碩士,研究方向為自然語言處理、信息檢索、信息抽取

楊勇(1979-),男,陜西漢中人,副教授,博士,研究方向為自然語言處理

賽買提·艾力(1983-),男,新疆烏魯木齊人,講師,碩士,研究方向為自然語言處理

任鴿(1986-),女,新疆烏魯木齊人,講師,碩士,研究方向為自然語言處理

2016-12-22

2017-02-10

新疆師范大學優秀青年教師科研啟動基金項目(No.XJNU201420)

猜你喜歡
模型研究
一半模型
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
3D打印中的模型分割與打包
主站蜘蛛池模板: 成人伊人色一区二区三区| 精品午夜国产福利观看| 亚洲免费黄色网| 国产一二视频| 玖玖免费视频在线观看| 国产天天色| 手机看片1024久久精品你懂的| 亚洲首页在线观看| 二级特黄绝大片免费视频大片| 色九九视频| 亚洲国产成熟视频在线多多| 久久semm亚洲国产| 国产中文一区二区苍井空| 日韩欧美色综合| 亚洲精品成人福利在线电影| AV在线麻免费观看网站 | 四虎永久免费网站| 国产一级在线观看www色| 国产在线一区视频| 婷婷午夜影院| 国产97视频在线观看| 高清国产va日韩亚洲免费午夜电影| 国产人成在线视频| 亚洲va视频| 一本大道无码高清| 尤物在线观看乱码| 国产永久在线视频| 亚洲侵犯无码网址在线观看| 精品久久久久成人码免费动漫| 欧美在线伊人| 综合五月天网| 99成人在线观看| 国产h视频免费观看| 亚洲av色吊丝无码| аⅴ资源中文在线天堂| 欧美日韩北条麻妃一区二区| 国产亚洲精品va在线| 久久精品66| 亚洲综合网在线观看| 九九精品在线观看| 中文字幕无码av专区久久 | 一级不卡毛片| 无码精品国产dvd在线观看9久| 国产欧美另类| 四虎永久免费网站| 欧美全免费aaaaaa特黄在线| 国产丰满大乳无码免费播放| 成·人免费午夜无码视频在线观看| 日韩视频精品在线| 亚洲天堂免费观看| 综合成人国产| 日韩东京热无码人妻| 国产精品七七在线播放| 午夜精品福利影院| 91成人在线免费观看| 精品第一国产综合精品Aⅴ| 国产无码高清视频不卡| 亚洲AⅤ永久无码精品毛片| 成人伊人色一区二区三区| 免费全部高H视频无码无遮掩| 免费又黄又爽又猛大片午夜| 欧美日本在线播放| 欧美一级特黄aaaaaa在线看片| 91精品国产自产在线观看| 国产乱人伦AV在线A| 又粗又硬又大又爽免费视频播放| 性视频一区| 欧美精品成人| 国产亚洲精品无码专| 91在线精品麻豆欧美在线| 亚洲一区免费看| 国产一级毛片高清完整视频版| 三区在线视频| 中文字幕有乳无码| 国产成人精品一区二区三在线观看| 亚洲黄网在线| 国产成人夜色91| 最近最新中文字幕免费的一页| 久热中文字幕在线| 欧洲欧美人成免费全部视频| 国产网站一区二区三区| 欧美区一区二区三|