古麗尼格爾·阿不都外力 買合木提·買買提 吐?tīng)柛ひ啦祭? 早克熱·卡德?tīng)? 西熱艾力·海如拉 王路路



摘 ?要: 詞干提取是形態(tài)豐富語(yǔ)言信息處理中的基礎(chǔ)任務(wù),對(duì)其他自然語(yǔ)言處理任務(wù)有著重要的影響。該文將詞干提取任務(wù)看作序列標(biāo)注問(wèn)題,以字符為切分粒度來(lái)表征維吾爾語(yǔ)單詞的構(gòu)成機(jī)制,結(jié)合條件隨機(jī)場(chǎng)模型,實(shí)現(xiàn)基于字符序列標(biāo)注的維吾爾語(yǔ)詞干提取方法。首先使用詞典查詢方法進(jìn)行詞干提取,然后結(jié)合字符的弱化發(fā)音特征、音類特征以及語(yǔ)音特征,針對(duì)受限數(shù)據(jù)和非受限數(shù)據(jù)采用條件隨機(jī)場(chǎng)訓(xùn)練模型及預(yù)測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果表明,該方法在非受限數(shù)據(jù)集上效果較佳,且能廣泛應(yīng)用到其他語(yǔ)言。
關(guān)鍵詞: 詞干提取; 序列標(biāo)注; 條件隨機(jī)場(chǎng); 特征提取; 模型訓(xùn)練; 預(yù)測(cè)結(jié)果
中圖分類號(hào): TN912.34?34; TP391 ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)12?0151?04
Abstract: Stemming is a fundamental task in the morphologically rich language information processing and has an important influence on other natural language processing (NLP) tasks. Taking the task for stemming as the process of character sequence labeling in this paper, and using the character as the segmentation unit to represent the formation mechanism of Uyghur word, the method of Uyghur stemming based on character sequence labeling is realized in combination with the conditional random field model. The dictionary query method is used to stemming, and then the model training with the conditional random field and the results′prediction are performed for the restricted data and unrestricted data by combining with the weak pronunciation features, sound class features and speech features of characters. The experimental results this method has well effect on unrestricted datasets and can be widely used in other languages.
Keywords: stemming; sequence labeling; conditional random field; feature extraction; model training; prediction results
0 ?引 ?言
維吾爾語(yǔ)是典型的形態(tài)復(fù)雜的黏著性語(yǔ)言。黏著性語(yǔ)言的主要特點(diǎn)是沒(méi)有詞內(nèi)部的屈折,每個(gè)語(yǔ)法范疇都由一類詞綴來(lái)表示?[1]。由于詞干連接的詞綴不同,因此會(huì)構(gòu)成不同的單詞,將造成嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題。如“Biz(我們)”與“ni?(的)”相連接會(huì)構(gòu)成“Bizni?(我們的)”,與“ni(把)”相連接會(huì)構(gòu)成“Bizni(把我們)”,而詞干提取是去除詞綴獲取詞干的過(guò)程,使單詞的不同形態(tài)變體還原成一種統(tǒng)一形式,從而有效地提高自然語(yǔ)言處理?[2]以及信息檢索??[3]等任務(wù)的性能。
由于維吾爾語(yǔ)構(gòu)詞方法較為豐富,因此,利用相關(guān)技術(shù)深入研究詞干提取才能有效解決維吾爾語(yǔ)形態(tài)復(fù)雜問(wèn)題。目前主要采用基于規(guī)則的方法和基于統(tǒng)計(jì)的方法,其中,基于規(guī)則的方法是根據(jù)形態(tài)構(gòu)成中的規(guī)律進(jìn)行詞綴刪除、詞干還原,其嚴(yán)重依賴于形態(tài)構(gòu)成規(guī)律,局限性較強(qiáng);基于統(tǒng)計(jì)的方法主要借助詞干在單詞中的分布進(jìn)行概率統(tǒng)計(jì),但是針對(duì)維吾爾語(yǔ)而言,目前的研究結(jié)果還不夠理想。
基于以上分析,本文將詞干提取問(wèn)題看作是序列標(biāo)注問(wèn)題,以字符為序列標(biāo)注單元,提出一種基于條件隨機(jī)場(chǎng)模型的維吾爾語(yǔ)詞干提取方法,且能廣泛應(yīng)用到其他語(yǔ)言。
1 ?相關(guān)工作
目前為止,國(guó)內(nèi)外流行的詞干提取方法主要有基于詞典和規(guī)則的方法[4?5]、基于統(tǒng)計(jì)的方法[6?7]和基于混合的方法[8?9]。20世紀(jì)六七十年代,研究者們使用基于詞典的方法和基于規(guī)則的方法對(duì)文本進(jìn)行詞干提取。孫漢博等人利用改進(jìn)的Porter Stemmer算對(duì)英文詞干提取并應(yīng)用于垃圾郵件的過(guò)濾上??[5]?;谠~典/規(guī)則的方法準(zhǔn)確率很高,但基于詞典的方法只能提取詞典中存在的詞干,不能處理詞典中不存在的單詞;而基于規(guī)則的方法只能處理普遍存在的語(yǔ)言規(guī)則,不能處理特殊的情況。Gupta等人提出了基于無(wú)監(jiān)督的詞干提取方法?[6]。
隨著詞干提取技術(shù)的不斷發(fā)展,國(guó)內(nèi)少數(shù)民族語(yǔ)言的詞干提取技術(shù)也發(fā)展起來(lái)了。趙偉等通過(guò)分析蒙古語(yǔ)詞的構(gòu)形特點(diǎn),提出一種有效的蒙古語(yǔ)詞標(biāo)注方法,并基于條件隨機(jī)場(chǎng)模型構(gòu)建了一個(gè)蒙古語(yǔ)詞切分系統(tǒng)?[7]。吾蘭等人提出了基于N?gram語(yǔ)言模型的哈薩克語(yǔ)詞干提取方法?[9]。維吾爾語(yǔ)詞干提取研究處于起步階段?[10],文獻(xiàn)?[8]提出了融合詞性特征和上下文詞干信息的維吾爾語(yǔ)詞干提取模型。文獻(xiàn)?[11]提出基于雙向門限遞歸單元神經(jīng)網(wǎng)絡(luò)的維吾爾語(yǔ)形態(tài)切分方法,將維吾爾詞自動(dòng)切分為語(yǔ)素序列,從而緩解數(shù)據(jù)稀疏問(wèn)題。
2 ?基于CRF的維吾爾語(yǔ)詞干提取
本文利用少數(shù)民族語(yǔ)言分詞技術(shù)評(píng)測(cè)(MLWS2017)語(yǔ)料,以字符(字母)為切分粒度,構(gòu)建一種結(jié)合特征的條件隨機(jī)場(chǎng)模型。首先利用詞干/詞綴詞典對(duì)評(píng)測(cè)語(yǔ)料進(jìn)行過(guò)濾,然后使用受限CRF模型和非受限CRF模型分別進(jìn)行預(yù)測(cè),最終評(píng)估結(jié)果。整體流程圖如圖1所示。
2.1 ?預(yù)處理
訓(xùn)練集是在官方提供的數(shù)據(jù)集基礎(chǔ)上抽取的詞對(duì)(Kursantlarda|Kursant),再對(duì)其進(jìn)行字符切分和標(biāo)記;而測(cè)試集使用新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室自然語(yǔ)言處理組維吾爾語(yǔ)自然語(yǔ)言處理工具包,將進(jìn)行詞例、詞性標(biāo)注等預(yù)處理操作,詞性標(biāo)注集如表1所示。本文根據(jù)詞性進(jìn)行篩選,僅保留部分詞性的單詞,保留單詞的詞性見(jiàn)表中的加粗部分。
2.2 ?問(wèn)題描述
詞干提取問(wèn)題可視為一個(gè)序列標(biāo)注問(wèn)題,維吾爾語(yǔ)詞干最少由兩個(gè)字符構(gòu)成,本文以字符為切分粒度,利用條件隨機(jī)場(chǎng)模型對(duì)單詞進(jìn)行標(biāo)注,將每個(gè)單詞作為一個(gè)字符串的觀測(cè)序列,目標(biāo)是獲取對(duì)應(yīng)的標(biāo)記序列 。
為了更好地提高詞干提取效果,本文采用“SF標(biāo)記符號(hào)”對(duì)單詞進(jìn)行標(biāo)注,其中S表示當(dāng)前單詞的詞干部分,F(xiàn)表示當(dāng)前單詞非詞干部分,如“d?wirl?rg? (時(shí)代)”標(biāo)注模型如圖2所示。
2.3 ?條件隨機(jī)場(chǎng)模型
2.4 ?特征選擇
條件隨機(jī)場(chǎng)序列標(biāo)注算法中,特征選擇關(guān)系到訓(xùn)練模型對(duì)維吾爾語(yǔ)詞干提取的性能。本文主要選取字符(C)、弱化發(fā)音特征(WP)、音類特征(S)、語(yǔ)音特征作(P)為特征?[13]。
2.4.1 ?字符(C)
由于單詞主要由字符構(gòu)成,一個(gè)字符代表一個(gè)維吾爾語(yǔ)字母,而這些字符構(gòu)成單詞存在一些規(guī)律,因此字符本身具有信息,可以作為有效的特征。
2.4.2 ?弱化發(fā)音特征(WP)
在維吾爾語(yǔ)中,當(dāng)詞干與詞綴相連接時(shí)一般會(huì)發(fā)生弱化發(fā)音現(xiàn)象,這將會(huì)影響詞干提取的過(guò)程,如“a,?,o,u”弱化成“e,i,?,ü”。如果發(fā)生此現(xiàn)象,則取弱化后的字符,如果沒(méi)有弱化則填寫(xiě)NL。
2.4.3 ?音類特征(S)
維吾爾語(yǔ)單詞由一個(gè)或者一個(gè)以上音節(jié)構(gòu)成,而音節(jié)是由元音和輔音組成,其中元音8個(gè),輔音24個(gè)。判斷當(dāng)前字符的音類(元音或者輔音)作為特征,若當(dāng)前字符是元音,則表示V;如果是輔音,則音類特征為C。
2.4.4 ?語(yǔ)音特征(P)
根據(jù)音類特征,本文按照文獻(xiàn)?[13]分別將元音和輔音劃分為3類特征,元音和輔音都具有各自的語(yǔ)音(音系)特征,如下:
1) 元音
① 縱向舌位位置
按照發(fā)音時(shí)縱向舌位的位置分為高位元音(VH)、中位元音(VM)、低位元音(VL),以當(dāng)前字符發(fā)音時(shí)縱向舌位的位置作為特征。
② 橫向舌位位置
如果按照發(fā)音時(shí)橫向舌位的位置分為前位元音(VR)、后位元音(VF)、前后自由浮動(dòng)性元音(VB),以當(dāng)前字母發(fā)音時(shí)縱向舌位的位置作為特征。
③ 展圓情況
維吾爾語(yǔ)元音發(fā)音時(shí)根據(jù)嘴唇的展圓情況分為展唇元音(OV)和圓唇元音(RV),判別當(dāng)前元音發(fā)音時(shí)的嘴唇展圓情況作為特征。
2) 輔音
① 振動(dòng)情況
輔音根據(jù)發(fā)音時(shí)聲帶的振動(dòng)情況,分為濁輔音和清輔音,因此本文考慮該特征,如果是濁輔音,則表示為CT,否則表示為CC。
②發(fā)音部位
維吾爾語(yǔ)的24個(gè)輔音發(fā)音時(shí)會(huì)受到氣流阻力的部位不同,分為雙唇(PA1)、唇齒(PA2)、舌尖前(PA3)、舌尖中(PA4)、舌尖后(PA5)、舌面中(PA6)、舌面后(PA7)、小舌音(PA8)、喉音(PA9),故本文將當(dāng)前字符的發(fā)音部位作為特征。
③ 發(fā)音方式
輔音發(fā)音時(shí)氣流受阻和除阻的方式也不同,并分為塞音(MA1)、塞擦音(MA2)、擦音(MA3)、鼻音(MA4)、顫音(MA5)、邊擦音(MA6)、半元音(MA7)等,本文將不同的發(fā)音方式作為當(dāng)前字符的考慮特征。
2.5 ?特征模板
維吾爾語(yǔ)形態(tài)的豐富性造成了詞干提取的復(fù)雜性。如果單一地從字符特征出發(fā),難以達(dá)到理想的結(jié)果。條件隨機(jī)場(chǎng)模型的關(guān)鍵是利用選取的特征構(gòu)建特征模板,因此,選擇具有代表性的特征模版能夠充分利用相關(guān)信息且能減少信息冗余,同時(shí)還能提高詞干提取性能。本文在特征模板的設(shè)計(jì)中不僅定義了原子特征模板,還定義了復(fù)合特征模板。假設(shè)C是字符特征,F(xiàn)為非字符特征,則特征模板定義如表2 所示。
3 ?實(shí) ?驗(yàn)
3.1 ?數(shù)據(jù)集
目前,針對(duì)維吾爾語(yǔ)詞干提取公開(kāi)語(yǔ)料庫(kù)未見(jiàn)報(bào)道,因此,本文使用兩種數(shù)據(jù)進(jìn)行訓(xùn)練,分別是受限數(shù)據(jù)和非受限數(shù)據(jù)。受限數(shù)據(jù)中的訓(xùn)練語(yǔ)料來(lái)自MLWS2017評(píng)測(cè)語(yǔ)料;非受限數(shù)據(jù)中的訓(xùn)練集是由MLWS2017評(píng)測(cè)語(yǔ)料和新疆大學(xué)建立的詞干提取語(yǔ)料組成。兩種數(shù)據(jù)的測(cè)試語(yǔ)料是來(lái)自MLWS2017評(píng)測(cè)語(yǔ)料的測(cè)試語(yǔ)料,具體的語(yǔ)料統(tǒng)計(jì)如表3所示。
3.2 ?實(shí)驗(yàn)結(jié)果與分析
在維吾爾語(yǔ)詞干提取中,本文共提供了兩個(gè)實(shí)驗(yàn)結(jié)果,分別為受限結(jié)果和非受限結(jié)果,各系統(tǒng)描述如下:
受限實(shí)驗(yàn)主系統(tǒng)(UY?2017?U1?primary?a):首先根據(jù)評(píng)測(cè)舉辦方發(fā)布的語(yǔ)料進(jìn)行詞對(duì)提取,其次構(gòu)建一個(gè)詞干/詞綴詞典,最后按字符串的序列標(biāo)注,提取單詞特征,為CRF模型準(zhǔn)備數(shù)據(jù)并訓(xùn)練受限系統(tǒng)模型。
非受限實(shí)驗(yàn)主系統(tǒng)(UY?2017?U1?primary?b):此系統(tǒng)與上述受限系統(tǒng)唯一區(qū)別在于詞典的構(gòu)建,在構(gòu)建非受限系統(tǒng)的詞典時(shí),加入了內(nèi)部數(shù)據(jù)集,擴(kuò)大了詞典的規(guī)模。兩個(gè)系統(tǒng)測(cè)試結(jié)果如表4所示。
從總體的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),非受限系統(tǒng)的實(shí)驗(yàn)結(jié)果比受限系統(tǒng)的實(shí)驗(yàn)結(jié)果較好一些。從準(zhǔn)確率上看,當(dāng)擴(kuò)大詞典的規(guī)模時(shí)準(zhǔn)確度比較高;從召回率上看,非受限系統(tǒng)中有些詞干沒(méi)有召回或錯(cuò)誤提取。通過(guò)分析實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),如果構(gòu)詞詞綴與構(gòu)形詞綴一樣時(shí),模型可能沒(méi)有準(zhǔn)確區(qū)分;將序列標(biāo)注的方法應(yīng)用于以字符構(gòu)成的語(yǔ)言進(jìn)行詞干提取時(shí),對(duì)實(shí)驗(yàn)結(jié)果還是有效的。以上的實(shí)驗(yàn)結(jié)果是參加MLWS2017的評(píng)測(cè)結(jié)果,并在評(píng)測(cè)中獲得了第三名。
4 ?結(jié) ?論
本文從維吾爾語(yǔ)形態(tài)豐富的特點(diǎn)出發(fā),提出一種基于字符序列標(biāo)注的維吾爾語(yǔ)詞干提取方法。以MLWS2017評(píng)測(cè)數(shù)據(jù)作為受限數(shù)據(jù),融合新疆大學(xué)建立的詞干提取語(yǔ)料作為非受限數(shù)據(jù)。結(jié)合字符的弱化發(fā)音特征、音類特征以及語(yǔ)音特征,對(duì)兩種數(shù)據(jù)使用基于字符序列的條件隨機(jī)場(chǎng)模型預(yù)測(cè)提取結(jié)果。實(shí)驗(yàn)結(jié)果表明,該方法在非受限數(shù)據(jù)結(jié)果較佳,且能夠廣泛應(yīng)用于其他語(yǔ)言。以后,將進(jìn)一步采用神經(jīng)網(wǎng)絡(luò)的方法實(shí)現(xiàn)維吾爾語(yǔ)詞干提取,提高準(zhǔn)確率。
注:本文通訊作者為吐?tīng)柛ひ啦祭簟?/p>
參考文獻(xiàn)
[1] 葉蜚聲,徐通鏘.語(yǔ)言學(xué)綱要[M].北京:北京大學(xué)出版社,2006.
[2] 吳思竹,錢慶,胡鐵軍,等.詞干提取方法及工具的對(duì)比分析研究[J].圖書(shū)情報(bào)工作,2012,56(15):109?115.
[3] FLORES F N, MOREIRA V P. Assessing the impact of stemming accuracy on information retrieval?a multilingual perspective [J]. Information processing & management, 2016, 52(5): 840?854.
[4] 塔依爾·阿不都外力,艾山·吾買爾,吐?tīng)柛ひ敛祭?,?基于標(biāo)注詞典和規(guī)則的維吾爾文動(dòng)詞詞干提取方法[J].新疆大學(xué)學(xué)報(bào)(自然科學(xué)版),2013(1):6?12.
[5] 孫漢博,馮國(guó)燦.基于改進(jìn)的Porter Stemmer詞干提取與核方法的垃圾郵件過(guò)濾算法[J].計(jì)算機(jī)科學(xué),2017,44(z1):61?67.
[6] GUPTA D, KUMAR Y R, SAJAN N. Improving unsupervised stemming by using partial lemmatization coupled with data?based heuristics for Hindi [J]. International journal of computer applications, 2012, 38(8): 1?8.
[7] 趙偉,侯宏旭,從偉,等.基于條件隨機(jī)場(chǎng)的蒙古語(yǔ)詞切分研究[J].中文信息學(xué)報(bào),2010,24(5):31?36.
[8] 賽迪亞古麗·艾尼瓦爾,向露,宗成慶,等.融合多策略的維吾爾語(yǔ)詞干提取方法[J].中文信息學(xué)報(bào),2015,29(5):204?210.
[9] 吾蘭·努魯別克,熱木土拉·麥麥提,艾斯卡爾·艾木都拉.基于N?gram模型的哈薩克詞干提取方法[J].電腦知識(shí)與技術(shù),2017(12):160?162.
[10] 吐?tīng)柛ひ啦祭?,袁保?新疆少數(shù)民族語(yǔ)言文字信息處理研究與應(yīng)用[J].中文信息學(xué)報(bào),2011,25(6):149?156.
[11] 哈里旦木·阿布都克里木,程勇,劉洋,等.基于雙向門限遞歸單元神經(jīng)網(wǎng)絡(luò)的維吾爾語(yǔ)形態(tài)切分[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2017(1):1?6.
[12] LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]// 18th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers, 2001: 282?289.
[13] 力提甫·托乎提.現(xiàn)代維吾爾語(yǔ)參考語(yǔ)法[M].北京:中國(guó)社會(huì)科學(xué)出版社,2012.