基于最大熵的哈薩克語(yǔ)詞性標(biāo)注模型

2013-08-04 02:23:54新疆大學(xué)信息科學(xué)與工程學(xué)院烏魯木齊830046

計(jì)算機(jī)工程與應(yīng)用 2013年11期

關(guān)鍵詞：詞綴特征模型

1.新疆大學(xué) 信息科學(xué)與工程學(xué)院，烏魯木齊 830046

2.國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心少數(shù)民族語(yǔ)言中心哈薩克和柯爾克孜語(yǔ)文基地，烏魯木齊 830046

1.新疆大學(xué) 信息科學(xué)與工程學(xué)院，烏魯木齊 830046

2.國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心少數(shù)民族語(yǔ)言中心哈薩克和柯爾克孜語(yǔ)文基地，烏魯木齊 830046

1 引言

在自然語(yǔ)言中，詞是語(yǔ)言的基本單位，而詞性（POS）是詞匯最重要的特性。詞性標(biāo)注是為句子中的每一個(gè)詞標(biāo)注一個(gè)正確的詞性，是實(shí)現(xiàn)自然語(yǔ)言分析和理解的一個(gè)重要中間環(huán)節(jié)，此環(huán)節(jié)出現(xiàn)的錯(cuò)誤，將在后續(xù)處理鏈中被放大。例如在機(jī)器翻譯中，詞性標(biāo)注錯(cuò)誤有時(shí)會(huì)導(dǎo)致錯(cuò)誤地理解整句話。許多自然語(yǔ)言處理任務(wù)，如：信息抽取、信息檢索、文本分類、機(jī)器翻譯等都依賴于詞性標(biāo)注的精確結(jié)果才能最終取得理想的效果[1]。

哈薩克語(yǔ)屬于阿爾泰語(yǔ)系突厥語(yǔ)族的克普恰克語(yǔ)支，拼音文字，是黏著語(yǔ)言類型；與漢語(yǔ)、英語(yǔ)等相比具有自己的特點(diǎn)。

2 研究現(xiàn)狀

詞性標(biāo)注的方法有基于規(guī)則、統(tǒng)計(jì)以及規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。Ratnaparkhi[2]較早展開了應(yīng)用最大熵模型進(jìn)行英文詞性標(biāo)注的研究，使用的特征有包括每個(gè)單詞本身詞形，前面兩個(gè)詞的詞形和詞性，后面兩個(gè)詞的詞形以及單詞中是否含有數(shù)字、連字符、大寫字母等，測(cè)試的語(yǔ)料采取華爾街日?qǐng)?bào)，取得了96.63%的標(biāo)注準(zhǔn)確率。在漢語(yǔ)研究方面趙巖[3]等應(yīng)用最大熵模型進(jìn)行了漢語(yǔ)的詞性標(biāo)注研究，使用的特征有包括每個(gè)單詞本身詞形，前面兩個(gè)詞的詞形和詞性、后面兩個(gè)詞的詞形以及詞的前綴、后綴、重疊詞等，在《人民日?qǐng)?bào)》語(yǔ)料庫(kù)上進(jìn)行了大規(guī)模測(cè)試，詞性標(biāo)注的準(zhǔn)確率均在96%以上。在哈薩克語(yǔ)詞性標(biāo)注研究方面，達(dá)吾勒等[4]使用基于規(guī)則的詞性標(biāo)注，準(zhǔn)確率為74%。劉艷等[5]使用統(tǒng)計(jì)與規(guī)則結(jié)合的方法進(jìn)行了探索，其中的統(tǒng)計(jì)方法使用了隱馬爾科夫模型（HMM），封閉測(cè)試準(zhǔn)確率達(dá)到了86%。侯呈風(fēng)[6]使用了改進(jìn)的HMM，封閉測(cè)試準(zhǔn)確率達(dá)到86.8%，開放式測(cè)試的準(zhǔn)確率為81.4%。本文基于最大熵的方法構(gòu)建哈薩克語(yǔ)詞性標(biāo)注模型，在封閉與開放測(cè)試中準(zhǔn)確率分別達(dá)到了96.8%和86.1%。

3 基于最大熵的詞性標(biāo)注模型

3.1 最大熵模型原理

最大熵模型（Maximum Entropy，ME）的工作原理是，對(duì)未知部分的知識(shí)，不做任何假設(shè)，選取符合這些知識(shí)使熵值取最大的概率分布。熵是對(duì)一個(gè)隨機(jī)變量的不確定性的定義，熵最大的時(shí)候?qū)?yīng)的隨機(jī)變量最不確定。最大熵原理的實(shí)質(zhì)：在已知部分知識(shí)的前提下，符合已知知識(shí)最不確定或最隨機(jī)的推斷就是對(duì)未知部分最合理的推斷，這是可以做出的唯一最接近事物真實(shí)狀態(tài)的選擇，對(duì)于任何其他的選擇，都意味著增加了其他的約束和假設(shè)條件。

最大熵模型能把各種不同的特征在同一個(gè)框架中刻畫出來(lái)，并且不需要特征的獨(dú)立性假設(shè)，能夠?qū)ξ谋局械纳舷挛男畔⒂行У乩茫鶕?jù)己有的事實(shí)提取表達(dá)特定任務(wù)的特征集合，在有效的約束條件下可以得到與訓(xùn)練數(shù)據(jù)一致的概率分布，該模型已廣泛應(yīng)用于分類問(wèn)題的處理中。

3.2 最大熵模型框架

形式化描述最大熵模型：隨機(jī)過(guò)程所有輸出的值構(gòu)成一個(gè)有限集，設(shè)為Y，對(duì)于每個(gè)輸出結(jié)果 y∈Y，輸出的結(jié)果都受到上下文x的影響，x屬于有限集X。對(duì)于自然語(yǔ)言處理的許多問(wèn)題都可以這樣來(lái)描述，對(duì)于哈語(yǔ)詞性標(biāo)注任務(wù)來(lái)說(shuō)，x表示待標(biāo)注詞上下文的環(huán)境，y表示輸出結(jié)果屬于所有的詞性標(biāo)記集合Y，實(shí)現(xiàn)的任務(wù)是：在實(shí)例或上下文x的條件下，構(gòu)造一個(gè)模型，能精確地估計(jì)出分類標(biāo)記結(jié)果 y出現(xiàn)的概率即P(y/x)。所有的條件概率分布的集合用P來(lái)表示，那么對(duì)P(y/x)就是P的一個(gè)元素。但是對(duì)于所有可能的(x，y)，要做到完全精確地確定P(y/x)一般是不可能的，所以需要構(gòu)造出一種模型，通過(guò)x和 y的統(tǒng)計(jì)特征，當(dāng)給定上下文信息x∈X時(shí)，能夠較準(zhǔn)確地估計(jì)出輸出y∈Y的條件概率 p(y/x)。

根據(jù)最大熵原理，p(y/x)的取值符合下面的指數(shù)模型：

fi(x，y)就是所謂的特征函數(shù)，y表示標(biāo)注結(jié)果，當(dāng) x滿足特定的上下文條件時(shí)，特征值為真。

λi是特征參數(shù)，代表每個(gè)特征的重要性。Zλ(y/x)是歸一化因子，它的引入是為了保證P*(y/x)是概率，也就是。公式（1）使模型由求概率值轉(zhuǎn)化為求參數(shù)值λi，一般的估計(jì)方法是Darroch和Ratcliff[7]的通用迭代算法（Generalized Iterative Scaling，GIS），用來(lái)得到具有最大熵分布的所有參數(shù)值λi。Pietra等[8]則描述了一個(gè)改進(jìn)的迭代算法IIS。

3.3 最大熵模型的特征表示

最大熵模型的關(guān)鍵在于如何針對(duì)特定的任務(wù)，為模型選取特征集合。采用簡(jiǎn)單的特征表示復(fù)雜的語(yǔ)言現(xiàn)象，承認(rèn)已有的可觀察到的事實(shí)，不做任何獨(dú)立性假設(shè)，這些觀察到的事實(shí)表示為最大熵模型的特征集合。在漢語(yǔ)詞性標(biāo)注研究中，基本上都采用基于詞的上下文特征[9]。哈薩克語(yǔ)與漢語(yǔ)、英語(yǔ)不同，哈語(yǔ)是以詞為單位，這方面像英語(yǔ)，但是哈薩克語(yǔ)具有粘著性和豐富的上下文信息，哈語(yǔ)詞的詞形變化要比英語(yǔ)豐富得多。基于哈語(yǔ)自身的特點(diǎn)，本文特征空間定義為：

詞，當(dāng)前詞及其前后各一個(gè)詞。

詞干，當(dāng)前詞的詞干及其前后各一個(gè)詞的詞干。

詞性，前一個(gè)詞的詞性，及后一個(gè)詞的詞性。

詞綴，由于哈語(yǔ)的詞綴變化較多，這里只選擇前一個(gè)詞及當(dāng)前詞的最后一個(gè)詞綴。

根據(jù)這個(gè)特征空間，本文定義了模型中的模板，如表1所示。在這個(gè)表中每個(gè)模板只考慮了一種因素，稱之為原子模板。原子模板也可以看作是對(duì)于當(dāng)前上下文的一個(gè)特征函數(shù)。

表1 原子特征模板

當(dāng)特征函數(shù)取特定值時(shí)，則該模板被實(shí)例化，得到具體的特征。特征一般由兩部分來(lái)組成，一部分稱為條件或上下文x，另一部分則是在條件滿足時(shí)采取的行動(dòng)，或稱為目標(biāo)概念類y。特征值一般可以定義為下面的一個(gè)二值函數(shù)形式：

在上下文中，僅僅使用原子特征不足以表示上下文中的一些現(xiàn)象。故本文對(duì)表1中的各種原子模板進(jìn)行了組合，構(gòu)成一些復(fù)合模板來(lái)表示更復(fù)雜的上下文環(huán)境，如表2所示，由于文章篇幅，這里只列出了一部分。原子特征模板和各種復(fù)合特征模板共同構(gòu)成了模型的所有特征模板，共有40種摸板。同樣，對(duì)于復(fù)合特征模板，也是首先對(duì)各個(gè)原子模板進(jìn)行實(shí)例化，對(duì)模板函數(shù)取值后，輸出某種標(biāo)注，從而產(chǎn)生一個(gè)特征，為復(fù)合特征。復(fù)合特征表示為二值特征函數(shù)的形式與原子特征相似，只是在取值時(shí)需要滿足的條件變多。

3.4 特征選擇

通過(guò)對(duì)人工標(biāo)注的熟語(yǔ)料進(jìn)行訓(xùn)練，從候選特征集中提取一個(gè)數(shù)量龐大的特征集合，然而并非所有特征都適合引入到最大熵模型中，因此，需要進(jìn)行特征選擇，通常選擇下面兩種辦法。

（1）基于頻數(shù)閾值的特征選擇：只保留那些頻數(shù)大于等于一定閾值k的特征。基于頻數(shù)閾值的特征選擇認(rèn)為不常出現(xiàn)的特征是噪聲或不相關(guān)的，只有那些出現(xiàn)頻數(shù)大于k的特征才真正代表了數(shù)據(jù)的特性，可以選作特征。閾值k的選定與任務(wù)和數(shù)據(jù)相關(guān)，可以通過(guò)實(shí)驗(yàn)來(lái)確定。多數(shù)研究者[10]通常取5，在3到20之間都可以找到較好的閾值。

（2）增量式特征選擇：使用增量法來(lái)選擇區(qū)分度最高的特征作為特征集。增量式特征選擇以特征信息的增益來(lái)判斷是否引入該特征，通過(guò)計(jì)算每一個(gè)要加入特征的增益，再?gòu)闹羞x取增益最大的一個(gè)，并且重新計(jì)算加入該特征的最大熵分布，重復(fù)該步驟直到增益不顯著為止。

文獻(xiàn)[11]將方法（1）和方法（2）進(jìn)行了比較：當(dāng)k值選取適當(dāng)時(shí)，兩種方法性能上差別不大，均有相同的召回率和準(zhǔn)確率，但在訓(xùn)練時(shí)間上，第一種方法較為簡(jiǎn)單，訓(xùn)練時(shí)間相對(duì)較短，優(yōu)于第二種方法。本文采用第一種方法進(jìn)行特征選取，經(jīng)過(guò)反復(fù)實(shí)驗(yàn)，將特征頻數(shù)的閾值定為5，表示只使用特征頻數(shù)大于5的特征。考慮到哈語(yǔ)的特殊性，如有的詞是合成詞，有的詞沒(méi)有詞綴（如：詞根）等，需在進(jìn)行特征提取時(shí)將上下文中含有空值的特征去掉。

表2 復(fù)合特征模板

4 系統(tǒng)設(shè)計(jì)

基于最大熵模型的哈薩克語(yǔ)詞性標(biāo)注系統(tǒng)，核心的是訓(xùn)練模塊和標(biāo)注模塊。

4.1 訓(xùn)練模塊

圖1是訓(xùn)練模塊的數(shù)據(jù)流圖。圖中的候選特征是通過(guò)特征模板從語(yǔ)料庫(kù)中進(jìn)行的抽取；在候選特征的基礎(chǔ)上通過(guò)基于頻數(shù)閾值的特征選擇，只保留那些出現(xiàn)頻數(shù)大于等于5的特征，建立特征集。將特征結(jié)果組織好后送到最大熵工具包進(jìn)行訓(xùn)練，本文中選擇IIS算法進(jìn)行參數(shù)估計(jì)。

圖1 訓(xùn)練模塊數(shù)據(jù)流圖

4.2 標(biāo)注模塊

首先進(jìn)行識(shí)別之前的預(yù)處理工作，將語(yǔ)料組織成符合識(shí)別模塊接口標(biāo)準(zhǔn)的形式。輸入文件是經(jīng)過(guò)詞干提取之后的語(yǔ)料，語(yǔ)料中包括詞、詞干、詞綴等信息。為了能提高模型的標(biāo)注準(zhǔn)確率，在語(yǔ)料中加入了部分詞的詞性信息：

（1）根據(jù)電子詞典能唯一確定詞性的，標(biāo)注其詞性并添加一個(gè)標(biāo)簽記為var=0。

（2）不能確定其唯一詞性，但是可以獲得所有可能詞性的，將這些詞性一起標(biāo)注，使用#號(hào)分隔不同的詞性，并添加標(biāo)簽var=1。

（3）其余的詞添加標(biāo)簽var=2。

標(biāo)注模塊的主要任務(wù)就是給定一個(gè)需要詞性標(biāo)注的句子W=(w1，w2，…，wn)，找到一個(gè)與此對(duì)應(yīng)的詞性序列T= (t1，t2，…，tn)，使得

本文的算法如下：

步驟1讀入一個(gè)句子，從左向右依次標(biāo)注每個(gè)哈語(yǔ)單詞wi，根據(jù)特征模板實(shí)例化其上下文特征向量Xi。

步驟2使用訓(xùn)練階段得到的模型計(jì)算得到Xi的每個(gè)特征取值的概率P(Yi|Xi)，選取概率最大的前n項(xiàng)作為候選詞性（這里取n等于3）。局部最優(yōu)算法在這一步只是選擇概率最大的一個(gè)詞性，因此它也就沒(méi)有下面的步驟3，選擇一個(gè)概率最大的詞性標(biāo)準(zhǔn)序列。因?yàn)榛诰植孔顑?yōu)算法得出的只有一條標(biāo)準(zhǔn)序列。

步驟3依次將這n個(gè)詞性加入下一個(gè)詞的上下文特征向量中，以此類推直至句子結(jié)束。最終選出一條使P(T|W)取值最大的詞性標(biāo)注序列。

5 實(shí)驗(yàn)結(jié)果與分析

5.1 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)數(shù)據(jù)來(lái)自本實(shí)驗(yàn)室的現(xiàn)代哈薩克語(yǔ)綜合語(yǔ)料庫(kù)，它的內(nèi)容來(lái)自于2008年《新疆日?qǐng)?bào)》哈語(yǔ)版，題材涉及政治、經(jīng)濟(jì)、體育、衛(wèi)生、文化、藝術(shù)、娛樂(lè)等。目前該語(yǔ)料庫(kù)已完成詞干切分、詞綴的提取，以及部分的詞性標(biāo)注。本文采用2008年1月份的已完成人工詞性標(biāo)注和校對(duì)后的語(yǔ)料進(jìn)行實(shí)驗(yàn)，包含646篇文章共31 695條語(yǔ)句，圖2給出了一個(gè)語(yǔ)料的樣例。在31天的語(yǔ)料中1～28號(hào)的語(yǔ)料作為訓(xùn)練語(yǔ)料，其余作為開放測(cè)試語(yǔ)料，并其在測(cè)試時(shí)從訓(xùn)練集中隨機(jī)抽取3天的語(yǔ)料作為封閉測(cè)語(yǔ)料。其中pos表示單詞的詞性，stem表示單詞的詞干，affix表示單詞的附加成分，var為詞類標(biāo)記符號(hào)（var為0時(shí)表示電子詞典中詞性唯一；var為1時(shí)表示兼類詞；var為2時(shí)表示人工修改的詞性）。

圖2 語(yǔ)料樣例

根據(jù)本階段語(yǔ)料庫(kù)建設(shè)的需要和訓(xùn)練語(yǔ)料的規(guī)模，本文詞性主要包括一級(jí)詞性。具體詞性及對(duì)應(yīng)的標(biāo)記集見表3。

表3 哈薩克語(yǔ)一類詞性標(biāo)注集

5.2 實(shí)驗(yàn)結(jié)果

為評(píng)估本文中方法的有效性，在相同的語(yǔ)料上分別做了HMM及局部最優(yōu)的最大熵方法的對(duì)照實(shí)驗(yàn)，標(biāo)注結(jié)果對(duì)比如表4所示。

表4 標(biāo)注結(jié)果準(zhǔn)確率比較（%）

表4中（M）表示使用經(jīng)過(guò)本文語(yǔ)料預(yù)處理所得的語(yǔ)料。這里的結(jié)果并未對(duì)最大熵模型在其他語(yǔ)言中詞性標(biāo)注的結(jié)果作對(duì)比，不同的語(yǔ)言、不同的語(yǔ)料標(biāo)注以及詞性標(biāo)注集的大小等都會(huì)對(duì)模型的標(biāo)注結(jié)果產(chǎn)生一定的影響，因此這里僅對(duì)本實(shí)驗(yàn)室相同語(yǔ)料下的不同標(biāo)注方法作了結(jié)果對(duì)比。由結(jié)果可以看出加入部分確定性詞性后標(biāo)注準(zhǔn)確率有了明顯的提高，這主要是因?yàn)椴糠衷~的標(biāo)注過(guò)程中可以用到后一個(gè)詞的詞性特征（如果其后一個(gè)詞的詞性是預(yù)先標(biāo)注好的），這是一般最大熵模型不會(huì)用到的特征。使用本文中的標(biāo)注方法后準(zhǔn)確率相比局部最優(yōu)的最大熵也有提高，本文的方法中考慮到了詞性標(biāo)注序列的整體最優(yōu)，當(dāng)然這增加了時(shí)間復(fù)雜度，但是這里可以設(shè)置取每個(gè)詞的最優(yōu)前n個(gè)詞性，既照顧了整體的最優(yōu)，又不會(huì)過(guò)多地增加模型的時(shí)間、空間復(fù)雜度。

5.3 錯(cuò)誤分析

由實(shí)驗(yàn)數(shù)據(jù)可以看出準(zhǔn)確率仍有很大的提升空間，經(jīng)分析標(biāo)注錯(cuò)誤主要來(lái)自以下幾個(gè)方面：

（1）詞法分析中的錯(cuò)誤產(chǎn)生的積累，即詞干提取、詞綴的切分錯(cuò)誤在詞性標(biāo)注中的影響。因?yàn)樵~干、詞綴作為模型的原子特征，其中詞綴或詞干的錯(cuò)誤造成了詞性標(biāo)注的錯(cuò)誤。

（2）專有名詞、固定詞組標(biāo)注錯(cuò)誤。習(xí)語(yǔ)、固定詞組和專有名詞的構(gòu)成不完全符合語(yǔ)法規(guī)則而且這些詞出現(xiàn)次數(shù)又極少，對(duì)其中的詞標(biāo)注詞性時(shí)常規(guī)特征概率較大，系統(tǒng)對(duì)這些詞組中的詞按一般詞進(jìn)行標(biāo)注，因而出現(xiàn)錯(cuò)誤。

（3）組合詞的標(biāo)注錯(cuò)誤。未登錄詞在詞性標(biāo)注中是一個(gè)難點(diǎn)，哈語(yǔ)中未登錄詞的一大部分是組合詞，即兩個(gè)或兩個(gè)以上的詞用下劃線連接組成新的詞如（玩笑），這些詞不能很好地確定其詞干、詞綴等，數(shù)據(jù)稀疏加上本身的特征信息又少，此類詞標(biāo)注的正確率也就不高。

6 結(jié)束語(yǔ)

本文使用最大熵模型進(jìn)行哈薩克語(yǔ)的詞性標(biāo)注，在語(yǔ)料預(yù)處理中對(duì)有唯一確定詞性的詞進(jìn)行了預(yù)先標(biāo)注，增加了可以利用的上下文特征；改進(jìn)了標(biāo)注算法，在計(jì)算量不過(guò)多增長(zhǎng)的同時(shí)考慮了詞性序列的整體最優(yōu)化，提高了詞性標(biāo)注的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明開放測(cè)試的準(zhǔn)確率仍然有很大的提高空間，原因在語(yǔ)料的預(yù)處理階段中，詞干、詞綴的自動(dòng)切分正確率不是很高、專有名詞等未能提前處理，在接下來(lái)的工作中可以考慮從提高詞干切分的準(zhǔn)確率、預(yù)先識(shí)別專業(yè)名詞等方面來(lái)提高整個(gè)系統(tǒng)的標(biāo)注準(zhǔn)確率。

[1]買合木提·買買提.基于統(tǒng)計(jì)的維吾爾語(yǔ)詞性標(biāo)注研究與實(shí)現(xiàn)[D].烏魯木齊：新疆大學(xué)，2009.

[2]Ratnaparkhi A.A maximum entropy model for part-of-speech tagging[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing，1996：133-141.

[3]Zhao Yan，Wang Xiaolong.Applying class triggers in Chinese POS tagging based on maximum entropy model[C]// The 3rd InternationalConference on Machine Learning and Cybernetics，Shanghai，2004：1641-1645.

[4]達(dá)吾勒·阿布都哈依爾，古麗拉·阿東別克.哈薩克語(yǔ)詞法分析器的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用，2008，44（19）：146-149.

[5]劉艷，古麗拉·阿東別克，伊力亞爾.哈薩克語(yǔ)詞性自動(dòng)標(biāo)注研究初探[J].計(jì)算機(jī)工程與應(yīng)用，2008，44（20）：242-244.

[6]侯呈風(fēng)，古麗拉·阿東別克.改進(jìn)的HMM應(yīng)用于哈薩克語(yǔ)詞性標(biāo)注[J].計(jì)算機(jī)工程與應(yīng)用，2010，46（36）：147-149.

[7]Darroch JN，RatcliffD.Generalized iterative scaling for log2 linear models[J].Analysis of Mathematical Statistics，1999，43（5）：1470-1480．

[8]Pietra S D，Pietra V D，Lafferty J.Including features of random fields[J].IEEE Transactionson Pattern Analysisand Machine Intelligence，1997，19（4）：380-393．

[9]Chen Jinying，Xue Nianwen，Palmer M.Using a smoothing maximum entropy model for Chinese nominal entity tagging[C]// Proceedingsofthe1st International Joint Conference on Natural Language Processing，Hainan Island，2004：493-499.

[10]RatnaparkhiA.Learning to parse naturallanguage with maximum entropy models[J].Machine Learning，1999，341（3）：151-176．

[11]Berger A L，Della Pietra S A，Della Pietra V J.A maximum entropy approach to natural language processing[J]. Computational Linguistic，2002，22（1）：39-71.

基于最大熵的哈薩克語(yǔ)詞性標(biāo)注模型

桑海巖1，2，古麗拉·阿東別克1，2，牛寧寧1，2

SANG Haiyan1，2,Gulia·Altenbek1，2,NIU Ningning1，2

1.College of Information Science and Engineering,Xinjiang University,Urumqi 830046,China
2.The Base of Kazakh and Kirghiz Language,Minority Languages Branch,National Language Resource Monitoring and Research Center,Urumqi 830046,China

Maximum entropy model can make full use of context,agilely take multiple characteristics.This paper uses maximum entropy model to part of speech tagging of Kazakh,designs feature template according to tackiness and rich shape,and joins the backward relying part of speech feature template.In this paper,the module is improved,which takes the previous n words of highest probability to join the characteristic vector of next word and so on until the end of the sentence,and finally it selects a probability optimal sequence of part of speech tagging.The results show that feature template choice is correct,and the improved model accuracy rate reaches 96.8%.

natural language processing;part-of-speech tagging;maximum entropy model;Kazakh

最大熵模型能夠充分利用上下文，靈活取用多個(gè)特征。使用最大熵模型進(jìn)行哈薩克語(yǔ)的詞性標(biāo)注，根據(jù)哈語(yǔ)的粘著性、形態(tài)豐富等特點(diǎn)設(shè)計(jì)特征模板，并加入了向后依賴詞性的特征模板。對(duì)模型進(jìn)行了改進(jìn)，在解碼中取概率最大的前n個(gè)詞性分別加入下一個(gè)詞的特征向量中，以此類推直至句子結(jié)束，最終選出一條概率最優(yōu)的詞性標(biāo)注序列。實(shí)驗(yàn)結(jié)果表明，特征模板的選擇是正確的，改進(jìn)模型的準(zhǔn)確率達(dá)到了96.8%。

自然語(yǔ)言處理；詞性標(biāo)注；最大熵模型；哈薩克語(yǔ)

TP391

10.3778/j.issn.1002-8331.1212-0193

SANG Haiyan,Gulia·Altenbek,NIU Ningning.Kazakh part-of-speech tagging method based on maximum entropy. Computer Engineering and Applications,2013,49（11）：126-129.

國(guó)家自然科學(xué)基金（No.61063025）。

桑海巖（1982—），男，碩士，研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言信息處理；古麗拉·阿東別克（1962—），女，教授，博士生導(dǎo)師，研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言信息處理、人工智能等；牛寧寧（1988—），女，碩士，研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言信息處理等。E-mail：sang_haiyan@163.com

2012-12-17

2013-03-06

1002-8331（2013）11-0126-04