999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HMM 的維吾爾語詞性標注研究

2017-04-22 08:34:41李萍楊勇賽買提艾力任鴿
現代計算機 2017年7期
關鍵詞:模型研究

李萍,楊勇,賽買提·艾力,任鴿

(新疆師范大學計算機科學技術學院,烏魯木齊 830054)

基于HMM 的維吾爾語詞性標注研究

李萍,楊勇,賽買提·艾力,任鴿

(新疆師范大學計算機科學技術學院,烏魯木齊 830054)

在維吾爾語與漢語的機器翻譯的研究中,詞性標注起到很大的作用,詞性標注也是自然語言處理的基礎性工作。介紹基于隱馬爾可夫模型的詞性標注算法和詞性標注器Citar,并且將Citar標注器應用到維吾爾語上進行詞性標注。為了能對維吾爾語進行詞性標注,在在布朗詞性標注集的基礎上,定義一套適用于維吾爾語的詞性標注集,采用基于隱馬爾可夫模型的方法,對部分維吾爾語進行詞性標注實驗,經過實驗表明,Citar標注器能準確對維吾爾語進行詞性標注,從而表明此標注器適用于維吾爾語。

機器翻譯;詞性標注;隱馬爾可夫模型;詞性標注集;維吾爾語

0 引言

詞性標注[1-3]是自然語言處理的基礎,其中機器翻譯[4-5]、信息抽取[6-7]、信息檢索、信息識別等的研究都要在詞性標注的研究基礎上。詞性標注是將句子中的詞語標記上詞性屬性,詞性標注的難點在于一個詞在不同的語境環境可能有不同的屬性,另外對于未登錄詞的處理也是詞性標注中的一大難點。漢語中的詞性標記還涉及一個分詞問題,先要對句子進行分詞,而像英語、維語這類的語言,其詞與詞之間存在空格,相比于漢語的詞性標記,這類語言的詞性標注相對容易些。

維吾爾語是阿爾泰語系,所有的詞語由32個字母構成,但是每個字母有不同的變形,在構成不同的詞語的時候其字形不一樣,這種變形加大了維吾爾語詞性標注的難度。詞性標注的難點主要是對兼類詞和未登錄詞的處理。目前對于維吾爾語詞性標注的研究主要是集中于兩個方面,一個方面是維吾爾語詞性標注集的研究與設計,第二個方面是詞性標注算法在維吾爾語上的應用。文獻[8]主要研究的是基于詞典的詞性標注,構建了《現代維語電子詞典》用于維吾爾語的詞性標注,使用的標注集是小標記集。文獻[9]使用了最大熵模型對維吾爾語進行了詞性標記,并且標記的時候結合了維吾爾語的詞綴作為標記特征。文獻[10]將三階隱馬爾可夫模型運用到了維吾爾語的詞性標注,并且改進了Viterbi算法。文獻[11]使用感知器訓練算法和Viterbi算法對維吾爾語進行了詞性標注,同樣在標注時結合了詞的特征。對維吾爾語的自動化標注目前使用的標注集大部分是新疆大學多語種信息技術實驗室制定的,也有部分研究是專門關于標記集的制定。本文采用的以布朗語料庫制定的詞性標記集為基礎并結合了維吾爾語的詞性特征篩選出來,使得基于隱馬爾科夫模型標注器Citar適用于維吾爾語的詞性標注。

1 基于HMM 的詞性標注算法

隱馬爾科夫模型是由五元組μ=(S,O,A,B,π)構成的,S為模型中的隱含狀態集合,在詞性標注問題中對應的是詞性,O為模型中的觀察狀態,在詞性標注問題中對應的是單詞,π為初始化狀態概率矩陣,A為隱含狀態轉移概率矩陣,B為觀察狀態轉移概率矩陣。

為了對大量維吾爾語詞語進行標注,需要先得到一個合適的隱馬爾科夫模型。本文采用Citar標注器對維吾爾語進行模型的訓練以及詞性的標注。由于Citar標注器適應的是英文,在應用方面有相應的區別。在訓練之前首先要確定維吾爾語的標記集,由于在詞性標注問題上,大部分的標記集都是由布朗語料庫中的標記集演變而來,因此根據Brown語料庫的87個標記集[12-13]以及大眾維語里出現的詞性[14],篩選出用于維吾爾語詞性標注的標記集如表1所示,這里只針對常見的維吾爾語詞性確定了標記集,還有待進一步完善。

表1 維吾爾語詞性標記集

采用此標記集對部分語料的人工標注結果如圖1所示。

2 實驗

2.1 模型訓練

本文使用了維吾爾語日常用語的1000句進行人工標注,根據人工詞性標注的實驗數據進行模型訓練,通過實驗數據的訓練,可以得到兩個模型文件lexicon和ngrams,其中lexicon模型文件主要是統計詞型和詞性標記的組合在訓練集合中出現的次數,ngrams模型文件主要是一元詞性和二元詞性在訓練集中的出現次數。模型訓練的命令為:”./citar-train../../corups/w4.txt lexicon ngrams”,生成的模型文件如圖2和圖3所示:

圖1 維吾爾語詞性標注人工標注結果

圖2 lexicon

圖3 ngrams

2.2 詞性標注

圖4 詞性標注結果

3 結語

結合維吾爾語的特點,為了能高效對維吾爾語進行詞性標注,本文提出了將基于HMM的Citar標注器應用于維吾爾語中進行詞性標注。在布朗詞性標注集的基礎上,提取出了維吾爾語常用的詞性標注集,通過實驗表明,Citar標注器非常適用于維吾爾語的詞性標注,這也為以后的研究奠定了基礎。不足的是維吾爾語詞性標注集不是很齊全,另外由于維吾爾語的書寫規則,使得詞性標注的應用存在困難,另外模型訓練時人工標注語料較少,真正對詞性進行標注時測試數據集較少,下一步工作就是獲取更多的人工標注語料,在大規模的測試集上進行實驗,并對結果進行評測。

[1]陳莉.基于HMM的柯爾克孜語基本詞性標注研究[D].新疆大學,2013.

[2]王海波,祖漪清,力提甫,等.基于功能詞綴串的維吾爾語詞性標注方法[J].中文信息學報,2013,27(5):179-183.

[3]洪銘材,張闊,唐杰,等.基于條件隨機場(CRFs)的中文詞性標注方法[J].計算機科學,2006,33(10):148-151.

[4]劉群.統計機器翻譯綜述[J].中文信息學報,2003,17(4):1-12.

[5]楊攀,李淼,張建.基于短語統計翻譯的漢維機器翻譯系統[J].計算機應用,2009,29(07):2022-2025.

[6]李保利,陳玉忠.信息抽取研究綜述[J].計算機工程與應用,2003,39(10):1-5.

[7]李萍,朱建波,周立新,廖彬.基于快速構建模板的購物信息抽取方法[J].計算機應用,2014,34(3):733-737.

[8]玉素甫·艾白都拉,阿布都熱依木·沙力.現代維語語料庫的詞類標注研究.民族語文,2005(4):63-66.

[9]帕里旦·吐爾遜,艾山·吾買爾爾,吐爾根·依布拉音,等.基于最大熵的維吾爾語詞性標注模型:第三屆全國少數民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯合學術研討會[Z].烏魯木齊:201017-20.

[10]陳鵬.隱馬爾可夫模型在維吾爾語詞性標注中的應用[J].電腦知識與技術(學術交流),2006(4):127-128.

[11]卡哈爾江·阿比的熱西提帕提古力·依馬木買合木提·買買提吐爾根·依布拉音.基于感知器算法的維吾爾語詞性標注研究[J].中文信息學報.2014,28(5).

[12]Eric Atwell.Automatic Mapping Among Lexico-Grammatical Annotation Models[eb/ol].[2015-9-29].http://www.scs.leeds.ac.uk/ccalas/ tagsets/brown.html.

[13]Brants T.TnT:a Statistical Part-of-Speech Tagger[C].Proceedings of the Sixth Conference on Applied Natural Language Processing. Association for Computational Linguistics,2000:224-231.

[14]馬德元,塔西普拉提,烏買爾.大眾維語[M].新疆:新疆大學出版社,1997:1-100.

Research on Uyghur Part-of-Speech Tagging Model Based on Hidden Markov Model

LI Ping,YANG Yong,SAI Mai Ti·Ai Li,REN Ge
(College of Computer Science and Technology,Xinjiang Normal University,Urumqi 830054)

The part-of-speech tagging plays a very important role in the research on machine translation in Uyghur and Chinese.The part-ofspeech tagging is the groundwork for natural language processing.Introduces the part-of-speech tagging algorithm based on HMM and the part-of-speech tools named Citar,improves Citar in order to make the part-of-speech tagging tools apply to the Uyghur.On the basis of brown part-of-speech tagging sets,defines part-of-speech tagging sets used in the Uyghur for the part-of-speech tagging of Uyghur. Uses the method based on hidden Markov model,carried out the part of speech tagging experiment.The experiment result show that Citar has a good result on the part-for-speech tagging of Uyghur and the label machine is suitable for the Uyghur.

Machine Translation;Part-of-Speech Tagging;HMM;Part-of-Speech Tagging Sets;Uyghur

1007-1423(2017)07-0011-04

10.3969/j.issn.1007-1423.2017.07.003

李萍(1989-),女,湖南株洲人,講師,碩士,研究方向為自然語言處理、信息檢索、信息抽取

楊勇(1979-),男,陜西漢中人,副教授,博士,研究方向為自然語言處理

賽買提·艾力(1983-),男,新疆烏魯木齊人,講師,碩士,研究方向為自然語言處理

任鴿(1986-),女,新疆烏魯木齊人,講師,碩士,研究方向為自然語言處理

2016-12-22

2017-02-10

新疆師范大學優秀青年教師科研啟動基金項目(No.XJNU201420)

猜你喜歡
模型研究
一半模型
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲精品国产综合99久久夜夜嗨| 欧美精品高清| 国产亚洲精品自在线| 国产91视频观看| 成人91在线| 国产精品私拍在线爆乳| 国产精品不卡永久免费| 国产专区综合另类日韩一区| 婷婷伊人五月| 成人国产精品一级毛片天堂| 中国黄色一级视频| 在线播放精品一区二区啪视频| 国产免费看久久久| 国产a v无码专区亚洲av| 日本午夜三级| 57pao国产成视频免费播放| 波多野结衣一区二区三区四区视频| jizz亚洲高清在线观看| 中文字幕1区2区| 欧美午夜网站| 日本尹人综合香蕉在线观看 | 国产精品美人久久久久久AV| 亚洲色成人www在线观看| 亚洲欧美成人影院| 国产成人综合久久精品下载| 久久婷婷色综合老司机| 92精品国产自产在线观看| 亚洲国产成熟视频在线多多| 国产在线观看一区二区三区| 日韩欧美视频第一区在线观看| 国产极品美女在线观看| 美女视频黄频a免费高清不卡| 欧美第九页| 亚洲第一成年免费网站| 国产欧美日韩另类| 91视频精品| 一级毛片免费不卡在线| 久久香蕉国产线| 亚洲乱码在线视频| 国产成人91精品| 国产精品极品美女自在线| 亚洲无码视频一区二区三区 | 亚洲一区波多野结衣二区三区| 欧美亚洲香蕉| 国产黑人在线| 亚洲日本中文字幕乱码中文| 青青热久免费精品视频6| 欧美国产日韩在线| 99热这里只有免费国产精品| 国产在线高清一级毛片| 国产丝袜啪啪| 国产成人AV男人的天堂| 久热re国产手机在线观看| 精品久久综合1区2区3区激情| a级毛片网| 2021国产在线视频| 高清色本在线www| 99热这里只有精品国产99| 92午夜福利影院一区二区三区| 国产国语一级毛片在线视频| 国产啪在线91| 亚洲三级片在线看| 国产人免费人成免费视频| 国产乱子精品一区二区在线观看| 久久无码免费束人妻| 亚洲不卡无码av中文字幕| 中国国产一级毛片| 国产精品无码一二三视频| 中文字幕久久波多野结衣 | 999在线免费视频| 国产精品香蕉| 国内精品一区二区在线观看| 国产在线一区二区视频| 国产精品视频观看裸模| 人妻精品全国免费视频| 色有码无码视频| 日本高清免费不卡视频| 色视频国产| 日韩专区欧美| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 亚洲天堂久久| 日韩精品亚洲精品第一页|