999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于最大熵的哈薩克語(yǔ)詞性標(biāo)注模型

2013-08-04 02:23:54新疆大學(xué)信息科學(xué)與工程學(xué)院烏魯木齊830046
關(guān)鍵詞:詞綴特征模型

1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046

2.國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心 少數(shù)民族語(yǔ)言中心 哈薩克和柯爾克孜語(yǔ)文基地,烏魯木齊 830046

1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046

2.國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心 少數(shù)民族語(yǔ)言中心 哈薩克和柯爾克孜語(yǔ)文基地,烏魯木齊 830046

1 引言

在自然語(yǔ)言中,詞是語(yǔ)言的基本單位,而詞性(POS)是詞匯最重要的特性。詞性標(biāo)注是為句子中的每一個(gè)詞標(biāo)注一個(gè)正確的詞性,是實(shí)現(xiàn)自然語(yǔ)言分析和理解的一個(gè)重要中間環(huán)節(jié),此環(huán)節(jié)出現(xiàn)的錯(cuò)誤,將在后續(xù)處理鏈中被放大。例如在機(jī)器翻譯中,詞性標(biāo)注錯(cuò)誤有時(shí)會(huì)導(dǎo)致錯(cuò)誤地理解整句話。許多自然語(yǔ)言處理任務(wù),如:信息抽取、信息檢索、文本分類、機(jī)器翻譯等都依賴于詞性標(biāo)注的精確結(jié)果才能最終取得理想的效果[1]。

哈薩克語(yǔ)屬于阿爾泰語(yǔ)系突厥語(yǔ)族的克普恰克語(yǔ)支,拼音文字,是黏著語(yǔ)言類型;與漢語(yǔ)、英語(yǔ)等相比具有自己的特點(diǎn)。

2 研究現(xiàn)狀

詞性標(biāo)注的方法有基于規(guī)則、統(tǒng)計(jì)以及規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。Ratnaparkhi[2]較早展開了應(yīng)用最大熵模型進(jìn)行英文詞性標(biāo)注的研究,使用的特征有包括每個(gè)單詞本身詞形,前面兩個(gè)詞的詞形和詞性,后面兩個(gè)詞的詞形以及單詞中是否含有數(shù)字、連字符、大寫字母等,測(cè)試的語(yǔ)料采取華爾街日?qǐng)?bào),取得了96.63%的標(biāo)注準(zhǔn)確率。在漢語(yǔ)研究方面趙巖[3]等應(yīng)用最大熵模型進(jìn)行了漢語(yǔ)的詞性標(biāo)注研究,使用的特征有包括每個(gè)單詞本身詞形,前面兩個(gè)詞的詞形和詞性、后面兩個(gè)詞的詞形以及詞的前綴、后綴、重疊詞等,在《人民日?qǐng)?bào)》語(yǔ)料庫(kù)上進(jìn)行了大規(guī)模測(cè)試,詞性標(biāo)注的準(zhǔn)確率均在96%以上。在哈薩克語(yǔ)詞性標(biāo)注研究方面,達(dá)吾勒等[4]使用基于規(guī)則的詞性標(biāo)注,準(zhǔn)確率為74%。劉艷等[5]使用統(tǒng)計(jì)與規(guī)則結(jié)合的方法進(jìn)行了探索,其中的統(tǒng)計(jì)方法使用了隱馬爾科夫模型(HMM),封閉測(cè)試準(zhǔn)確率達(dá)到了86%。侯呈風(fēng)[6]使用了改進(jìn)的HMM,封閉測(cè)試準(zhǔn)確率達(dá)到86.8%,開放式測(cè)試的準(zhǔn)確率為81.4%。本文基于最大熵的方法構(gòu)建哈薩克語(yǔ)詞性標(biāo)注模型,在封閉與開放測(cè)試中準(zhǔn)確率分別達(dá)到了96.8%和86.1%。

3 基于最大熵的詞性標(biāo)注模型

3.1 最大熵模型原理

最大熵模型(Maximum Entropy,ME)的工作原理是,對(duì)未知部分的知識(shí),不做任何假設(shè),選取符合這些知識(shí)使熵值取最大的概率分布。熵是對(duì)一個(gè)隨機(jī)變量的不確定性的定義,熵最大的時(shí)候?qū)?yīng)的隨機(jī)變量最不確定。最大熵原理的實(shí)質(zhì):在已知部分知識(shí)的前提下,符合已知知識(shí)最不確定或最隨機(jī)的推斷就是對(duì)未知部分最合理的推斷,這是可以做出的唯一最接近事物真實(shí)狀態(tài)的選擇,對(duì)于任何其他的選擇,都意味著增加了其他的約束和假設(shè)條件。

最大熵模型能把各種不同的特征在同一個(gè)框架中刻畫出來(lái),并且不需要特征的獨(dú)立性假設(shè),能夠?qū)ξ谋局械纳舷挛男畔⒂行У乩茫鶕?jù)己有的事實(shí)提取表達(dá)特定任務(wù)的特征集合,在有效的約束條件下可以得到與訓(xùn)練數(shù)據(jù)一致的概率分布,該模型已廣泛應(yīng)用于分類問(wèn)題的處理中。

3.2 最大熵模型框架

形式化描述最大熵模型:隨機(jī)過(guò)程所有輸出的值構(gòu)成一個(gè)有限集,設(shè)為Y,對(duì)于每個(gè)輸出結(jié)果 y∈Y,輸出的結(jié)果都受到上下文x的影響,x屬于有限集X。對(duì)于自然語(yǔ)言處理的許多問(wèn)題都可以這樣來(lái)描述,對(duì)于哈語(yǔ)詞性標(biāo)注任務(wù)來(lái)說(shuō),x表示待標(biāo)注詞上下文的環(huán)境,y表示輸出結(jié)果屬于所有的詞性標(biāo)記集合Y,實(shí)現(xiàn)的任務(wù)是:在實(shí)例或上下文x的條件下,構(gòu)造一個(gè)模型,能精確地估計(jì)出分類標(biāo)記結(jié)果 y出現(xiàn)的概率即P(y/x)。所有的條件概率分布的集合用P來(lái)表示,那么對(duì)P(y/x)就是P的一個(gè)元素。但是對(duì)于所有可能的(x,y),要做到完全精確地確定P(y/x)一般是不可能的,所以需要構(gòu)造出一種模型,通過(guò)x和 y的統(tǒng)計(jì)特征,當(dāng)給定上下文信息x∈X時(shí),能夠較準(zhǔn)確地估計(jì)出輸出y∈Y的條件概率 p(y/x)。

根據(jù)最大熵原理,p(y/x)的取值符合下面的指數(shù)模型:

fi(x,y)就是所謂的特征函數(shù),y表示標(biāo)注結(jié)果,當(dāng) x滿足特定的上下文條件時(shí),特征值為真。

λi是特征參數(shù),代表每個(gè)特征的重要性。Zλ(y/x)是歸一化因子,它的引入是為了保證P*(y/x)是概率,也就是。公式(1)使模型由求概率值轉(zhuǎn)化為求參數(shù)值λi,一般的估計(jì)方法是Darroch和Ratcliff[7]的通用迭代算法(Generalized Iterative Scaling,GIS),用來(lái)得到具有最大熵分布的所有參數(shù)值λi。Pietra等[8]則描述了一個(gè)改進(jìn)的迭代算法IIS。

3.3 最大熵模型的特征表示

最大熵模型的關(guān)鍵在于如何針對(duì)特定的任務(wù),為模型選取特征集合。采用簡(jiǎn)單的特征表示復(fù)雜的語(yǔ)言現(xiàn)象,承認(rèn)已有的可觀察到的事實(shí),不做任何獨(dú)立性假設(shè),這些觀察到的事實(shí)表示為最大熵模型的特征集合。在漢語(yǔ)詞性標(biāo)注研究中,基本上都采用基于詞的上下文特征[9]。哈薩克語(yǔ)與漢語(yǔ)、英語(yǔ)不同,哈語(yǔ)是以詞為單位,這方面像英語(yǔ),但是哈薩克語(yǔ)具有粘著性和豐富的上下文信息,哈語(yǔ)詞的詞形變化要比英語(yǔ)豐富得多。基于哈語(yǔ)自身的特點(diǎn),本文特征空間定義為:

詞,當(dāng)前詞及其前后各一個(gè)詞。

詞干,當(dāng)前詞的詞干及其前后各一個(gè)詞的詞干。

詞性,前一個(gè)詞的詞性,及后一個(gè)詞的詞性。

詞綴,由于哈語(yǔ)的詞綴變化較多,這里只選擇前一個(gè)詞及當(dāng)前詞的最后一個(gè)詞綴。

根據(jù)這個(gè)特征空間,本文定義了模型中的模板,如表1所示。在這個(gè)表中每個(gè)模板只考慮了一種因素,稱之為原子模板。原子模板也可以看作是對(duì)于當(dāng)前上下文的一個(gè)特征函數(shù)。

表1 原子特征模板

當(dāng)特征函數(shù)取特定值時(shí),則該模板被實(shí)例化,得到具體的特征。特征一般由兩部分來(lái)組成,一部分稱為條件或上下文x,另一部分則是在條件滿足時(shí)采取的行動(dòng),或稱為目標(biāo)概念類y。特征值一般可以定義為下面的一個(gè)二值函數(shù)形式:

在上下文中,僅僅使用原子特征不足以表示上下文中的一些現(xiàn)象。故本文對(duì)表1中的各種原子模板進(jìn)行了組合,構(gòu)成一些復(fù)合模板來(lái)表示更復(fù)雜的上下文環(huán)境,如表2所示,由于文章篇幅,這里只列出了一部分。原子特征模板和各種復(fù)合特征模板共同構(gòu)成了模型的所有特征模板,共有40種摸板。同樣,對(duì)于復(fù)合特征模板,也是首先對(duì)各個(gè)原子模板進(jìn)行實(shí)例化,對(duì)模板函數(shù)取值后,輸出某種標(biāo)注,從而產(chǎn)生一個(gè)特征,為復(fù)合特征。復(fù)合特征表示為二值特征函數(shù)的形式與原子特征相似,只是在取值時(shí)需要滿足的條件變多。

3.4 特征選擇

通過(guò)對(duì)人工標(biāo)注的熟語(yǔ)料進(jìn)行訓(xùn)練,從候選特征集中提取一個(gè)數(shù)量龐大的特征集合,然而并非所有特征都適合引入到最大熵模型中,因此,需要進(jìn)行特征選擇,通常選擇下面兩種辦法。

(1)基于頻數(shù)閾值的特征選擇:只保留那些頻數(shù)大于等于一定閾值k的特征。基于頻數(shù)閾值的特征選擇認(rèn)為不常出現(xiàn)的特征是噪聲或不相關(guān)的,只有那些出現(xiàn)頻數(shù)大于k的特征才真正代表了數(shù)據(jù)的特性,可以選作特征。閾值k的選定與任務(wù)和數(shù)據(jù)相關(guān),可以通過(guò)實(shí)驗(yàn)來(lái)確定。多數(shù)研究者[10]通常取5,在3到20之間都可以找到較好的閾值。

(2)增量式特征選擇:使用增量法來(lái)選擇區(qū)分度最高的特征作為特征集。增量式特征選擇以特征信息的增益來(lái)判斷是否引入該特征,通過(guò)計(jì)算每一個(gè)要加入特征的增益,再?gòu)闹羞x取增益最大的一個(gè),并且重新計(jì)算加入該特征的最大熵分布,重復(fù)該步驟直到增益不顯著為止。

文獻(xiàn)[11]將方法(1)和方法(2)進(jìn)行了比較:當(dāng)k值選取適當(dāng)時(shí),兩種方法性能上差別不大,均有相同的召回率和準(zhǔn)確率,但在訓(xùn)練時(shí)間上,第一種方法較為簡(jiǎn)單,訓(xùn)練時(shí)間相對(duì)較短,優(yōu)于第二種方法。本文采用第一種方法進(jìn)行特征選取,經(jīng)過(guò)反復(fù)實(shí)驗(yàn),將特征頻數(shù)的閾值定為5,表示只使用特征頻數(shù)大于5的特征。考慮到哈語(yǔ)的特殊性,如有的詞是合成詞,有的詞沒(méi)有詞綴(如:詞根)等,需在進(jìn)行特征提取時(shí)將上下文中含有空值的特征去掉。

表2 復(fù)合特征模板

4 系統(tǒng)設(shè)計(jì)

基于最大熵模型的哈薩克語(yǔ)詞性標(biāo)注系統(tǒng),核心的是訓(xùn)練模塊和標(biāo)注模塊。

4.1 訓(xùn)練模塊

圖1是訓(xùn)練模塊的數(shù)據(jù)流圖。圖中的候選特征是通過(guò)特征模板從語(yǔ)料庫(kù)中進(jìn)行的抽取;在候選特征的基礎(chǔ)上通過(guò)基于頻數(shù)閾值的特征選擇,只保留那些出現(xiàn)頻數(shù)大于等于5的特征,建立特征集。將特征結(jié)果組織好后送到最大熵工具包進(jìn)行訓(xùn)練,本文中選擇IIS算法進(jìn)行參數(shù)估計(jì)。

圖1 訓(xùn)練模塊數(shù)據(jù)流圖

4.2 標(biāo)注模塊

首先進(jìn)行識(shí)別之前的預(yù)處理工作,將語(yǔ)料組織成符合識(shí)別模塊接口標(biāo)準(zhǔn)的形式。輸入文件是經(jīng)過(guò)詞干提取之后的語(yǔ)料,語(yǔ)料中包括詞、詞干、詞綴等信息。為了能提高模型的標(biāo)注準(zhǔn)確率,在語(yǔ)料中加入了部分詞的詞性信息:

(1)根據(jù)電子詞典能唯一確定詞性的,標(biāo)注其詞性并添加一個(gè)標(biāo)簽記為var=0。

(2)不能確定其唯一詞性,但是可以獲得所有可能詞性的,將這些詞性一起標(biāo)注,使用#號(hào)分隔不同的詞性,并添加標(biāo)簽var=1。

(3)其余的詞添加標(biāo)簽var=2。

標(biāo)注模塊的主要任務(wù)就是給定一個(gè)需要詞性標(biāo)注的句子W=(w1,w2,…,wn),找到一個(gè)與此對(duì)應(yīng)的詞性序列T= (t1,t2,…,tn), 使得

本文的算法如下:

步驟1讀入一個(gè)句子,從左向右依次標(biāo)注每個(gè)哈語(yǔ)單詞wi,根據(jù)特征模板實(shí)例化其上下文特征向量Xi。

步驟2使用訓(xùn)練階段得到的模型計(jì)算得到Xi的每個(gè)特征取值的概率P(Yi|Xi),選取概率最大的前n項(xiàng)作為候選詞性(這里取n等于3)。局部最優(yōu)算法在這一步只是選擇概率最大的一個(gè)詞性,因此它也就沒(méi)有下面的步驟3,選擇一個(gè)概率最大的詞性標(biāo)準(zhǔn)序列。因?yàn)榛诰植孔顑?yōu)算法得出的只有一條標(biāo)準(zhǔn)序列。

步驟3依次將這n個(gè)詞性加入下一個(gè)詞的上下文特征向量中,以此類推直至句子結(jié)束。最終選出一條使P(T|W)取值最大的詞性標(biāo)注序列。

5 實(shí)驗(yàn)結(jié)果與分析

5.1 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)數(shù)據(jù)來(lái)自本實(shí)驗(yàn)室的現(xiàn)代哈薩克語(yǔ)綜合語(yǔ)料庫(kù),它的內(nèi)容來(lái)自于2008年《新疆日?qǐng)?bào)》哈語(yǔ)版,題材涉及政治、經(jīng)濟(jì)、體育、衛(wèi)生、文化、藝術(shù)、娛樂(lè)等。目前該語(yǔ)料庫(kù)已完成詞干切分、詞綴的提取,以及部分的詞性標(biāo)注。本文采用2008年1月份的已完成人工詞性標(biāo)注和校對(duì)后的語(yǔ)料進(jìn)行實(shí)驗(yàn),包含646篇文章共31 695條語(yǔ)句,圖2給出了一個(gè)語(yǔ)料的樣例。在31天的語(yǔ)料中1~28號(hào)的語(yǔ)料作為訓(xùn)練語(yǔ)料,其余作為開放測(cè)試語(yǔ)料,并其在測(cè)試時(shí)從訓(xùn)練集中隨機(jī)抽取3天的語(yǔ)料作為封閉測(cè)語(yǔ)料。其中pos表示單詞的詞性,stem表示單詞的詞干,affix表示單詞的附加成分,var為詞類標(biāo)記符號(hào)(var為0時(shí)表示電子詞典中詞性唯一;var為1時(shí)表示兼類詞;var為2時(shí)表示人工修改的詞性)。

圖2 語(yǔ)料樣例

根據(jù)本階段語(yǔ)料庫(kù)建設(shè)的需要和訓(xùn)練語(yǔ)料的規(guī)模,本文詞性主要包括一級(jí)詞性。具體詞性及對(duì)應(yīng)的標(biāo)記集見表3。

表3 哈薩克語(yǔ)一類詞性標(biāo)注集

5.2 實(shí)驗(yàn)結(jié)果

為評(píng)估本文中方法的有效性,在相同的語(yǔ)料上分別做了HMM及局部最優(yōu)的最大熵方法的對(duì)照實(shí)驗(yàn),標(biāo)注結(jié)果對(duì)比如表4所示。

表4 標(biāo)注結(jié)果準(zhǔn)確率比較 (%)

表4中(M)表示使用經(jīng)過(guò)本文語(yǔ)料預(yù)處理所得的語(yǔ)料。這里的結(jié)果并未對(duì)最大熵模型在其他語(yǔ)言中詞性標(biāo)注的結(jié)果作對(duì)比,不同的語(yǔ)言、不同的語(yǔ)料標(biāo)注以及詞性標(biāo)注集的大小等都會(huì)對(duì)模型的標(biāo)注結(jié)果產(chǎn)生一定的影響,因此這里僅對(duì)本實(shí)驗(yàn)室相同語(yǔ)料下的不同標(biāo)注方法作了結(jié)果對(duì)比。由結(jié)果可以看出加入部分確定性詞性后標(biāo)注準(zhǔn)確率有了明顯的提高,這主要是因?yàn)椴糠衷~的標(biāo)注過(guò)程中可以用到后一個(gè)詞的詞性特征(如果其后一個(gè)詞的詞性是預(yù)先標(biāo)注好的),這是一般最大熵模型不會(huì)用到的特征。使用本文中的標(biāo)注方法后準(zhǔn)確率相比局部最優(yōu)的最大熵也有提高,本文的方法中考慮到了詞性標(biāo)注序列的整體最優(yōu),當(dāng)然這增加了時(shí)間復(fù)雜度,但是這里可以設(shè)置取每個(gè)詞的最優(yōu)前n個(gè)詞性,既照顧了整體的最優(yōu),又不會(huì)過(guò)多地增加模型的時(shí)間、空間復(fù)雜度。

5.3 錯(cuò)誤分析

由實(shí)驗(yàn)數(shù)據(jù)可以看出準(zhǔn)確率仍有很大的提升空間,經(jīng)分析標(biāo)注錯(cuò)誤主要來(lái)自以下幾個(gè)方面:

(1)詞法分析中的錯(cuò)誤產(chǎn)生的積累,即詞干提取、詞綴的切分錯(cuò)誤在詞性標(biāo)注中的影響。因?yàn)樵~干、詞綴作為模型的原子特征,其中詞綴或詞干的錯(cuò)誤造成了詞性標(biāo)注的錯(cuò)誤。

(2)專有名詞、固定詞組標(biāo)注錯(cuò)誤。習(xí)語(yǔ)、固定詞組和專有名詞的構(gòu)成不完全符合語(yǔ)法規(guī)則而且這些詞出現(xiàn)次數(shù)又極少,對(duì)其中的詞標(biāo)注詞性時(shí)常規(guī)特征概率較大,系統(tǒng)對(duì)這些詞組中的詞按一般詞進(jìn)行標(biāo)注,因而出現(xiàn)錯(cuò)誤。

(3)組合詞的標(biāo)注錯(cuò)誤。未登錄詞在詞性標(biāo)注中是一個(gè)難點(diǎn),哈語(yǔ)中未登錄詞的一大部分是組合詞,即兩個(gè)或兩個(gè)以上的詞用下劃線連接組成新的詞如(玩笑),這些詞不能很好地確定其詞干、詞綴等,數(shù)據(jù)稀疏加上本身的特征信息又少,此類詞標(biāo)注的正確率也就不高。

6 結(jié)束語(yǔ)

本文使用最大熵模型進(jìn)行哈薩克語(yǔ)的詞性標(biāo)注,在語(yǔ)料預(yù)處理中對(duì)有唯一確定詞性的詞進(jìn)行了預(yù)先標(biāo)注,增加了可以利用的上下文特征;改進(jìn)了標(biāo)注算法,在計(jì)算量不過(guò)多增長(zhǎng)的同時(shí)考慮了詞性序列的整體最優(yōu)化,提高了詞性標(biāo)注的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明開放測(cè)試的準(zhǔn)確率仍然有很大的提高空間,原因在語(yǔ)料的預(yù)處理階段中,詞干、詞綴的自動(dòng)切分正確率不是很高、專有名詞等未能提前處理,在接下來(lái)的工作中可以考慮從提高詞干切分的準(zhǔn)確率、預(yù)先識(shí)別專業(yè)名詞等方面來(lái)提高整個(gè)系統(tǒng)的標(biāo)注準(zhǔn)確率。

[1]買合木提·買買提.基于統(tǒng)計(jì)的維吾爾語(yǔ)詞性標(biāo)注研究與實(shí)現(xiàn)[D].烏魯木齊:新疆大學(xué),2009.

[2]Ratnaparkhi A.A maximum entropy model for part-of-speech tagging[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing,1996:133-141.

[3]Zhao Yan,Wang Xiaolong.Applying class triggers in Chinese POS tagging based on maximum entropy model[C]// The 3rd InternationalConference on Machine Learning and Cybernetics,Shanghai,2004:1641-1645.

[4]達(dá)吾勒·阿布都哈依爾,古麗拉·阿東別克.哈薩克語(yǔ)詞法分析器的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(19):146-149.

[5]劉艷,古麗拉·阿東別克,伊力亞爾.哈薩克語(yǔ)詞性自動(dòng)標(biāo)注研究初探[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(20):242-244.

[6]侯呈風(fēng),古麗拉·阿東別克.改進(jìn)的HMM應(yīng)用于哈薩克語(yǔ)詞性標(biāo)注[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(36):147-149.

[7]Darroch JN,RatcliffD.Generalized iterative scaling for log2 linear models[J].Analysis of Mathematical Statistics,1999,43(5):1470-1480.

[8]Pietra S D,Pietra V D,Lafferty J.Including features of random fields[J].IEEE Transactionson Pattern Analysisand Machine Intelligence,1997,19(4):380-393.

[9]Chen Jinying,Xue Nianwen,Palmer M.Using a smoothing maximum entropy model for Chinese nominal entity tagging[C]// Proceedingsofthe1st International Joint Conference on Natural Language Processing,Hainan Island,2004:493-499.

[10]RatnaparkhiA.Learning to parse naturallanguage with maximum entropy models[J].Machine Learning,1999,341(3):151-176.

[11]Berger A L,Della Pietra S A,Della Pietra V J.A maximum entropy approach to natural language processing[J]. Computational Linguistic,2002,22(1):39-71.

基于最大熵的哈薩克語(yǔ)詞性標(biāo)注模型

桑海巖1,2,古麗拉·阿東別克1,2,牛寧寧1,2

SANG Haiyan1,2,Gulia·Altenbek1,2,NIU Ningning1,2

1.College of Information Science and Engineering,Xinjiang University,Urumqi 830046,China
2.The Base of Kazakh and Kirghiz Language,Minority Languages Branch,National Language Resource Monitoring and Research Center,Urumqi 830046,China

Maximum entropy model can make full use of context,agilely take multiple characteristics.This paper uses maximum entropy model to part of speech tagging of Kazakh,designs feature template according to tackiness and rich shape,and joins the backward relying part of speech feature template.In this paper,the module is improved,which takes the previous n words of highest probability to join the characteristic vector of next word and so on until the end of the sentence,and finally it selects a probability optimal sequence of part of speech tagging.The results show that feature template choice is correct,and the improved model accuracy rate reaches 96.8%.

natural language processing;part-of-speech tagging;maximum entropy model;Kazakh

最大熵模型能夠充分利用上下文,靈活取用多個(gè)特征。使用最大熵模型進(jìn)行哈薩克語(yǔ)的詞性標(biāo)注,根據(jù)哈語(yǔ)的粘著性、形態(tài)豐富等特點(diǎn)設(shè)計(jì)特征模板,并加入了向后依賴詞性的特征模板。對(duì)模型進(jìn)行了改進(jìn),在解碼中取概率最大的前n個(gè)詞性分別加入下一個(gè)詞的特征向量中,以此類推直至句子結(jié)束,最終選出一條概率最優(yōu)的詞性標(biāo)注序列。實(shí)驗(yàn)結(jié)果表明,特征模板的選擇是正確的,改進(jìn)模型的準(zhǔn)確率達(dá)到了96.8%。

自然語(yǔ)言處理;詞性標(biāo)注;最大熵模型;哈薩克語(yǔ)

A

TP391

10.3778/j.issn.1002-8331.1212-0193

SANG Haiyan,Gulia·Altenbek,NIU Ningning.Kazakh part-of-speech tagging method based on maximum entropy. Computer Engineering and Applications,2013,49(11):126-129.

國(guó)家自然科學(xué)基金(No.61063025)。

桑海巖(1982—),男,碩士,研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言信息處理;古麗拉·阿東別克(1962—),女,教授,博士生導(dǎo)師,研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言信息處理、人工智能等;牛寧寧(1988—),女,碩士,研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言信息處理等。E-mail:sang_haiyan@163.com

2012-12-17

2013-03-06

1002-8331(2013)11-0126-04

猜你喜歡
詞綴特征模型
一半模型
從網(wǎng)絡(luò)語(yǔ)“X精”看“精”的類詞綴化
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
釋西夏語(yǔ)詞綴wji2
西夏研究(2017年1期)2017-07-10 08:16:55
3D打印中的模型分割與打包
試析否定詞綴在漢維語(yǔ)中的不同表現(xiàn)
主站蜘蛛池模板: 九色在线视频导航91| 孕妇高潮太爽了在线观看免费| 日韩精品无码一级毛片免费| 在线另类稀缺国产呦| 日本成人不卡视频| 精品无码人妻一区二区| 国产精品yjizz视频网一二区| 亚洲午夜福利在线| 中文国产成人久久精品小说| 色老头综合网| 免费无码又爽又黄又刺激网站| 欧美色视频在线| 日韩福利在线观看| 国产拍在线| 亚洲AV无码乱码在线观看代蜜桃| 91精品国产91久无码网站| 国产成人精品免费av| 1769国产精品视频免费观看| 国产欧美精品一区aⅴ影院| 毛片免费在线视频| 日韩av无码DVD| 亚洲自偷自拍另类小说| 国模粉嫩小泬视频在线观看| 幺女国产一级毛片| 久久永久精品免费视频| 国产主播一区二区三区| 色一情一乱一伦一区二区三区小说| 久久免费视频播放| 免费在线色| 国产精品美女网站| 久久永久精品免费视频| 亚洲日韩图片专区第1页| av在线人妻熟妇| 国产资源站| 18禁黄无遮挡网站| 青草视频久久| 精品久久久久久中文字幕女| 一本大道无码日韩精品影视| 久爱午夜精品免费视频| 亚洲h视频在线| 免费观看成人久久网免费观看| 欧美激情综合| 美女无遮挡拍拍拍免费视频| 久久人与动人物A级毛片| 五月婷婷丁香色| 国产在线观看91精品亚瑟| 亚洲婷婷六月| 免费看av在线网站网址| 黑人巨大精品欧美一区二区区| 91在线视频福利| 黄色在线不卡| 日韩小视频在线播放| 国产精品一区二区不卡的视频| 日韩AV无码一区| 国产a网站| 欧美精品亚洲日韩a| 99久久亚洲精品影院| 成人a免费α片在线视频网站| 久久亚洲中文字幕精品一区| 国产日产欧美精品| 精品久久久久久中文字幕女| 凹凸国产分类在线观看| 亚洲精品动漫| 色首页AV在线| 国产在线一区二区视频| 欧美特黄一级大黄录像| 亚洲一区二区精品无码久久久| 777午夜精品电影免费看| 国产丝袜啪啪| 亚洲国产成人久久精品软件| 国产成人资源| 97精品国产高清久久久久蜜芽| 亚洲人成色77777在线观看| 国内99精品激情视频精品| 国产大片喷水在线在线视频| 波多野吉衣一区二区三区av| 国产精品国产三级国产专业不| 久久人人妻人人爽人人卡片av| 伊人无码视屏| 蜜桃视频一区二区| 欧美色综合网站| 91精品国产情侣高潮露脸|