李亞超,江 靜,加羊吉,于洪志
(甘肅省民族語(yǔ)言智能處理重點(diǎn)實(shí)驗(yàn)室,西北民族大學(xué),甘肅蘭州730030)
藏文是一種拼音文字,有30個(gè)輔音字母和四個(gè)元音字母,由這些字母組成音節(jié),由音節(jié)構(gòu)成詞,音節(jié)之間用音節(jié)點(diǎn)“”(tsheg)作為分隔符。藏語(yǔ)詞語(yǔ)之間沒(méi)有明顯的分隔符來(lái)進(jìn)行區(qū)分,因此藏語(yǔ)信息處理首先要面對(duì)分詞問(wèn)題。雖然藏語(yǔ)是一種古老的語(yǔ)言,但是對(duì)于詞匯類別的研究較晚,以往大都是針對(duì)藏語(yǔ)構(gòu)詞、形態(tài)變化進(jìn)行的研究[1-2]。從整體上看,藏文分詞、詞性標(biāo)注研究基礎(chǔ)較弱。在藏文分詞、詞性標(biāo)注研究上,沒(méi)有形成一個(gè)公認(rèn)的或者成熟的分詞方法,更沒(méi)有共享的開(kāi)源系統(tǒng)。
藏文分詞研究相對(duì)較早,1999年發(fā)表的“一個(gè)人機(jī)互助的藏文分詞和詞登錄系統(tǒng)的設(shè)計(jì)”可以看作是藏文分詞研究開(kāi)始的標(biāo)志[3]。其后,陳玉忠等[4]提出了一種基于格助詞和連續(xù)特征的書(shū)面藏文自動(dòng)分詞方法,該方案在處理切分歧義,解決未登錄詞問(wèn)題,提高藏文分詞的效果上具有很高的實(shí)用價(jià)值。以上研究是較為典型的基于規(guī)則的藏文分詞方法。基于統(tǒng)計(jì)的藏文分詞方法是最近幾年興起的研究,劉匯丹[5]等采用格助詞分塊并識(shí)別臨界詞,然后采用最大匹配方法分詞,進(jìn)行緊縮詞識(shí)別,并形成了較為有效的分詞系統(tǒng)。孫萌[6]提出了一種基于判別式感知機(jī)模型的藏文分詞方法,重點(diǎn)研究最小構(gòu)詞粒度和分詞結(jié)果重排序?qū)Σ匚姆衷~的影響,該方法在基于音節(jié)的分詞系統(tǒng)上加入基于詞圖的重排序模塊,在感知機(jī)模型上融合了詞典信息。李亞超[7]研究了基于條件隨機(jī)場(chǎng)的分詞方法,重點(diǎn)解決了緊縮詞識(shí)別問(wèn)題。基于條件隨機(jī)場(chǎng)模型,基于判別式感知機(jī)模型,以及基于HMM模型的分詞方法是藏文分詞研究的主要方法。這些分詞方法大都以統(tǒng)計(jì)模型為基礎(chǔ),融合詞典或者是藏語(yǔ)語(yǔ)言特征。以上藏文分詞研究的源代碼和實(shí)驗(yàn)語(yǔ)料都沒(méi)有公開(kāi),加上實(shí)驗(yàn)語(yǔ)料規(guī)模大都較小,并且融合了較多的語(yǔ)言規(guī)則,實(shí)驗(yàn)結(jié)果難以進(jìn)行有效的對(duì)比。
針對(duì)信息處理用藏文詞性標(biāo)記研究起始于2005年,才藏太[8]在班智達(dá)漢藏公文翻譯系統(tǒng)中對(duì)提出了藏文詞性標(biāo)記問(wèn)題。蘇俊峰[9]研究了基于HMM的藏文詞性標(biāo)記方法。扎西加[10]基于藏文中虛詞發(fā)揮的功能,結(jié)合標(biāo)注語(yǔ)料庫(kù)實(shí)現(xiàn)了藏文自動(dòng)分詞和詞性標(biāo)記一體化處理模型。史曉東等[11]采用HMM方法將漢語(yǔ)分詞系統(tǒng)Segtag移植到藏語(yǔ)分詞中,其中分詞準(zhǔn)確度為93%,詞性標(biāo)注準(zhǔn)確度為83.17%,該系統(tǒng)是較早的實(shí)用的藏文分詞詞性標(biāo)注系統(tǒng)。華卻才讓[12]研究了基于感知機(jī)訓(xùn)練模型的判別式藏文詞性標(biāo)注方法,并且實(shí)現(xiàn)了相應(yīng)的詞性標(biāo)注系統(tǒng)“TiPosTag”。于洪志等[13]以最大熵模型為基本框架,根據(jù)藏文的構(gòu)詞特征研究了融合語(yǔ)言特征的最大熵藏文詞性標(biāo)注模型。以上研究都是針對(duì)藏文某種語(yǔ)言學(xué)特征,采用統(tǒng)計(jì)模型進(jìn)行建模,最后實(shí)現(xiàn)相應(yīng)的詞性標(biāo)記方法。以上的研究方法,實(shí)驗(yàn)條件和實(shí)驗(yàn)語(yǔ)料不統(tǒng)一,實(shí)驗(yàn)結(jié)果相差較大。
論文的其余部分安排如下:第二部分闡述TIPLAS藏文分詞詞性標(biāo)注系統(tǒng)的基本思路和系統(tǒng)特點(diǎn);第三部分介紹基于條件隨機(jī)場(chǎng)的藏文分詞方法;第四部分介紹基于最大熵的藏文詞性標(biāo)注方法;第五部分給出實(shí)驗(yàn)數(shù)據(jù),并進(jìn)行結(jié)果分析;最后第六部分為全文總結(jié)和展望。
由于藏文分詞、詞性標(biāo)注語(yǔ)料難以獲得,更沒(méi)有形成規(guī)模的共享語(yǔ)料可以使用,已有的研究都是在私有語(yǔ)料上取得的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)語(yǔ)料規(guī)模大都較小,實(shí)驗(yàn)結(jié)果相差很大,難以進(jìn)行有效的對(duì)比。本系統(tǒng)希望解決限制成熟的自然語(yǔ)言處理方法在藏文上應(yīng)用的關(guān)鍵問(wèn)題,盡量減少對(duì)藏語(yǔ)語(yǔ)言知識(shí)庫(kù)的依賴,盡可能提高藏文分詞、詞性標(biāo)注方法的可移植性。為此,延續(xù)了前期關(guān)于藏文分詞、詞性標(biāo)注的研究成果,開(kāi)發(fā)了較為成熟的,以可實(shí)用為目的藏文分詞、詞性標(biāo)注系統(tǒng),命名為“TIP-LAS”,并在規(guī)模較大的語(yǔ)料上進(jìn)行了實(shí)驗(yàn)。分詞、詞性標(biāo)注系統(tǒng)源代碼可以從以下地址獲得①https://github.com/liyc7711/tip-las。
TIP-LAS集成藏文分詞、詞性標(biāo)注功能,該系統(tǒng)由C++實(shí)現(xiàn),提供跨Linux,Windows平臺(tái)功能,分為藏文分詞系統(tǒng),詞性標(biāo)注系統(tǒng)兩大模塊。藏文分詞系統(tǒng)基于條件隨機(jī)場(chǎng)模型,實(shí)現(xiàn)了基于音節(jié)標(biāo)注的藏文分詞方法,藏文詞性標(biāo)注系統(tǒng)基于最大熵模型,并融合了音節(jié)特征。該系統(tǒng)的準(zhǔn)確度和速度已經(jīng)基本滿足實(shí)際應(yīng)用要求。
條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)是Lafferty等提出的一種統(tǒng)計(jì)的序列標(biāo)記模型[14]。在本文分詞系統(tǒng)中,把藏文分詞看成是序列標(biāo)記問(wèn)題。在序列標(biāo)記問(wèn)題中生成一個(gè)基于無(wú)向圖(undirected graph)G=(V,E)的一階線性鏈?zhǔn)紺RF(linear-chain CRF)。V是隨機(jī)變量Y的集合Y={Yi|1≤i≤n},對(duì)于輸入一個(gè)句子的n個(gè)需要標(biāo)記單元,E={(Yi-1,Yi)|1≤i≤n}是n-1個(gè)邊構(gòu)成的線性鏈。對(duì)于每個(gè)句子x,定義兩個(gè)非負(fù)因子:
對(duì)于每個(gè)邊:

對(duì)于每個(gè)節(jié)點(diǎn):

其中fk是一個(gè)二值特征函數(shù),K和K′是定義在每個(gè)邊和相應(yīng)節(jié)點(diǎn)的特征數(shù)量。
給定一個(gè)需要標(biāo)記的序列x,其對(duì)應(yīng)的標(biāo)記序列y的條件概率為式(3)。

其中Z(x)是歸一化函數(shù)。給定訓(xùn)練集D,訓(xùn)練模型的參數(shù)是用來(lái)最大化條件似然值。當(dāng)給定了要標(biāo)記的序列x,其對(duì)應(yīng)的標(biāo)記序列y由參數(shù)Argmaxy′P(y′|x)給出。
本系統(tǒng)使用CRF模型來(lái)實(shí)現(xiàn)藏文音節(jié)標(biāo)注任務(wù)。
在分詞特征選取上選取音節(jié)類別和音節(jié)上下文特征信息,音節(jié)上下文特征模板如表1所示。音節(jié)類別,在本文中分為藏語(yǔ)音節(jié)、藏語(yǔ)標(biāo)點(diǎn)符號(hào)、漢語(yǔ)標(biāo)點(diǎn)符號(hào)、英文字母等。

表1 分詞特征模板
基于字標(biāo)注的分詞方法中,需要對(duì)每一個(gè)字在詞中的位置信息進(jìn)行標(biāo)注,根據(jù)前期研究結(jié)果,在系統(tǒng)中選用“BMES”標(biāo)記集,根據(jù)每個(gè)藏文音節(jié)在詞中出現(xiàn)的位置,給予不同的標(biāo)簽,B代表詞的左邊界,E代表詞的右邊界,M代表詞的中間部分,S代表單音節(jié)詞,標(biāo)記示例如表2所示,超過(guò)三音節(jié)的詞中間部分都標(biāo)記為M。在分詞中,把輸入的原始藏文文本切分成音節(jié)序列,音節(jié)序列包含藏文音節(jié),英文,漢語(yǔ)標(biāo)點(diǎn)符號(hào)等,采用CRF模型對(duì)音節(jié)進(jìn)行位置標(biāo)注,根據(jù)標(biāo)注結(jié)果還原出分詞結(jié)果。

表2 音節(jié)標(biāo)記示例
最大熵模型能夠融合復(fù)雜的特征,在英語(yǔ)、漢語(yǔ)等語(yǔ)言詞性標(biāo)注研究中取得了較好的效果。該模型最初由E T Jaynes在1950年提出,Della Pietra等[15]將其應(yīng)用于自然語(yǔ)言處理中。最大熵原理的基本思想是,首先利用給定的訓(xùn)練樣本,選擇一個(gè)與訓(xùn)練樣本一致的概率分布,它必須要滿足所有已知的事實(shí)。在沒(méi)有更多的約束和假設(shè)的情況下,對(duì)于那些不確定的部分,則會(huì)賦予均勻的概率分布。熵是用來(lái)表示隨機(jī)變量的不確定性,不確定性越大,熵越大,分布越均勻。最大熵模型為式(4)。

H (P )是模型P的熵,C是滿足條件約束的模型集合,下面需要尋求P*,P*的形式如式(5)所示。

Z(x)是歸一化常數(shù),表示形式如式(6)所示。

其中,λi為特征的權(quán)重參數(shù)。
綜合考慮藏文詞性標(biāo)注速度與準(zhǔn)確度,本系統(tǒng)選用最大熵模型作為序列標(biāo)注工具。
4.2.1 上下文特征
一個(gè)詞的詞性很大程度上由其上下文的環(huán)境決定,因此當(dāng)前詞的前后n個(gè)詞可以作為判斷當(dāng)前詞詞性的依據(jù)。特征模板如表3所示。

表3 上下文特征模板
4.2.2 詞內(nèi)部特征
藏文屬于拼音文字,是形態(tài)較為豐富的語(yǔ)言,動(dòng)詞的現(xiàn)在、將來(lái)、過(guò)去時(shí)和命令式是通過(guò)詞綴及附加詞綴來(lái)表現(xiàn)的。一般來(lái)說(shuō)藏文動(dòng)詞的屈折形態(tài)可以分為同根類型和異根類型兩種。對(duì)于詞內(nèi)部特征函數(shù)定義為式(7)。

詞匯詞尾音節(jié)特征函數(shù)定義為式(8)。

詞內(nèi)部信息特征模板如表4所示。

表4 詞內(nèi)部特征模板
將當(dāng)前詞的詞首音節(jié)、詞尾音節(jié),前、后詞,前驅(qū)詞的詞尾音節(jié)、后繼詞的詞首音節(jié)等特征結(jié)合在一起,定義音節(jié)特征見(jiàn)表5所示。

表5 音節(jié)特征模板
分詞系統(tǒng)采用的語(yǔ)料為“第七屆全國(guó)機(jī)器翻譯研討會(huì)(CWMT2011)”藏漢報(bào)刊政論文獻(xiàn)平行語(yǔ)料中的藏語(yǔ)語(yǔ)料部分,共128萬(wàn)詞。把整體語(yǔ)料按照3∶7的比例分為測(cè)試語(yǔ)料和訓(xùn)練語(yǔ)料。
詞性標(biāo)注系統(tǒng)采用的語(yǔ)料從主流的藏語(yǔ)新聞網(wǎng)站抓取網(wǎng)頁(yè)正文,語(yǔ)料主要來(lái)源是中國(guó)西藏網(wǎng)、青海藏語(yǔ)廣播網(wǎng)、人民網(wǎng)藏語(yǔ)版等,選取政治、經(jīng)濟(jì)、新聞、社會(huì)、法律等領(lǐng)域的文本。對(duì)獲取的藏文生語(yǔ)料,經(jīng)過(guò)分詞、詞性標(biāo)注工具處理后,再由人工校對(duì)獲得詞性標(biāo)注語(yǔ)料,語(yǔ)料統(tǒng)計(jì)如表6所示。訓(xùn)練語(yǔ)料來(lái)源于中國(guó)西藏網(wǎng)、青海藏語(yǔ)廣播網(wǎng),共212萬(wàn)詞,測(cè)試語(yǔ)料來(lái)源于人民網(wǎng)藏語(yǔ)版,共46萬(wàn)詞。

表6 語(yǔ)料統(tǒng)計(jì)
本文分詞系統(tǒng)在測(cè)試語(yǔ)料上的F值達(dá)到95.33%,詞性標(biāo)注準(zhǔn)確度達(dá)到93.90%,詞性標(biāo)注系統(tǒng)由于輸入的是分好詞的序列,所以只計(jì)算準(zhǔn)確度。

表7 實(shí)驗(yàn)結(jié)果

表8 分詞標(biāo)注系統(tǒng)對(duì)比
已有公開(kāi)的藏文分詞、詞性標(biāo)注系統(tǒng)采用的方法、語(yǔ)料、詞典各異,進(jìn)行嚴(yán)格的對(duì)比較為困難,以下列出主要的幾個(gè)公開(kāi)發(fā)表的系統(tǒng)實(shí)現(xiàn),希望可以進(jìn)行近似的結(jié)果比較。以下對(duì)語(yǔ)料規(guī)模的表述依據(jù)原文的數(shù)據(jù)表述方式。
SegT分詞系統(tǒng)采用3 000句訓(xùn)練語(yǔ)料,1 000句測(cè)試語(yǔ)料。該系統(tǒng)使用格助詞分塊和最大匹配方法進(jìn)行分詞,采用雙向切分檢測(cè)分詞歧義并使用預(yù)先統(tǒng)計(jì)的詞頻信息進(jìn)行消歧。最大匹配分詞方法對(duì)詞典的依賴性非常大,需要高質(zhì)量的分詞詞典才能實(shí)現(xiàn)。該系統(tǒng)為規(guī)則和統(tǒng)計(jì)相結(jié)合的藏文分詞系統(tǒng)。
孫萌的系統(tǒng)采用12 942句語(yǔ)料,共110K詞語(yǔ),從中隨機(jī)選擇500句作為測(cè)試集,剩余的作為訓(xùn)練集。該系統(tǒng)采用感知機(jī)模型,在基于音節(jié)的分詞系統(tǒng)上加入基于詞圖的重排序模塊,采用了分詞切分語(yǔ)料和詞典等語(yǔ)料資源。
華卻才讓的系統(tǒng)采用2.2萬(wàn)多句詞性標(biāo)注句子為感知機(jī)模型訓(xùn)練語(yǔ)料,測(cè)試語(yǔ)料573句,詞性詞典是從訓(xùn)練語(yǔ)料、班智達(dá)詞性詞典中獲得的9.3萬(wàn)多條詞語(yǔ),1.9千條地名詞語(yǔ),1.6萬(wàn)條人名詞典以及計(jì)算機(jī)等專用詞典中抽取,總共抽取到12.36萬(wàn)余條藏語(yǔ)詞條。系統(tǒng)在人工建立的573句藏語(yǔ)詞性標(biāo)注測(cè)試集上,分別做了標(biāo)準(zhǔn)測(cè)試和分詞標(biāo)注一體化測(cè)試。采用了分詞切分語(yǔ)料和詞典等語(yǔ)料資源。
央金藏文分詞系統(tǒng)移植于基于HMM的漢語(yǔ)分詞系統(tǒng)Segtag,采用2.7M訓(xùn)練語(yǔ)料(UTF16編碼),以及詞典,測(cè)試語(yǔ)料25K。分詞、詞性標(biāo)注系統(tǒng)加入了20多萬(wàn)條的藏漢人名對(duì)照詞典,通過(guò)構(gòu)造詞圖來(lái)提高基線系統(tǒng)的效果。
康才畯[16]的分詞系統(tǒng)訓(xùn)練語(yǔ)料約100萬(wàn)字,測(cè)試語(yǔ)料約兩萬(wàn)字。在詞性標(biāo)注系統(tǒng)中,訓(xùn)練語(yǔ)料20萬(wàn)詞,測(cè)試語(yǔ)料320個(gè)句子,采用的標(biāo)記集有20個(gè)一級(jí)類,52個(gè)二級(jí)類。分詞系統(tǒng)采用基于條件隨機(jī)場(chǎng)模型方法,詞性標(biāo)注系統(tǒng)采用最大熵模型。實(shí)驗(yàn)中沒(méi)有加入規(guī)則和詞典等額外信息。
TIP-LAS系統(tǒng)在分詞、詞性標(biāo)注任務(wù)上相對(duì)來(lái)說(shuō)效果較好,在分詞任務(wù)上低于前三個(gè)系統(tǒng),在詞性標(biāo)注上低于第三個(gè)系統(tǒng)。但是,本文系統(tǒng)沒(méi)有采用詞頻,語(yǔ)言規(guī)則、詞性詞典、人名詞典等輔助資源。本文系統(tǒng)實(shí)驗(yàn)結(jié)果全部采用訓(xùn)練語(yǔ)料所包含的特征,目的是為分詞、詞性標(biāo)注提供一個(gè)可以比較的實(shí)驗(yàn)平臺(tái)。
本文延續(xù)了前期關(guān)于藏文分詞、詞性標(biāo)注的研究,并對(duì)前期研究進(jìn)行整合,實(shí)現(xiàn)相應(yīng)的軟件平臺(tái),本系統(tǒng)與已有的系統(tǒng)相比,在分詞、詞性標(biāo)注上取得了較好的效果,并在本單位的機(jī)器翻譯、語(yǔ)音翻譯等系統(tǒng)中得到實(shí)際應(yīng)用。
開(kāi)源和共享是自然語(yǔ)言處理研究的發(fā)展趨勢(shì),英文的開(kāi)源系統(tǒng)較為豐富,漢語(yǔ)成熟的開(kāi)源系統(tǒng)有哈爾濱工業(yè)大學(xué)的LTP,東北大學(xué)的Niutrans,復(fù)旦大學(xué)的FudanNLP等,這些都是優(yōu)秀的中文信息處理平臺(tái),對(duì)推動(dòng)中文信息處理進(jìn)步起著不可替代的作用。藏語(yǔ)信息處理研究基礎(chǔ)較弱,沒(méi)有開(kāi)源軟件可以使用,共享語(yǔ)料也很少。本文把最新的研究成果形成實(shí)用的軟件系統(tǒng),把藏文分詞、詞性標(biāo)注集成到一個(gè)平臺(tái)里,并公開(kāi)源代碼。希望該研究得到更多人的加入,形成共享的開(kāi)源平臺(tái),推動(dòng)TIPLAS的不斷完善,促進(jìn)藏文信息處理的發(fā)展。
[1] 宋金蘭.漢藏語(yǔ)形態(tài)變體的分化.民族語(yǔ)文,2002,1:29-33.
[2] 龍從軍.藏語(yǔ)形容詞性語(yǔ)素研究[J].Journal of Chinese Language and Computing.2006,15(4):193-201.
[3] 扎西次仁.一個(gè)人機(jī)互助的藏文分詞和詞登錄系統(tǒng)的設(shè)計(jì)[C]//中國(guó)少數(shù)民族語(yǔ)言文字現(xiàn)代化文集,北京:民族出版社,1999:322-327.
[4] 陳玉忠,俞士汶.藏文信息處理技術(shù)的研究現(xiàn)狀與展望[J].中國(guó)藏學(xué),2003,04:97-107.
[5] 劉匯丹,諾明花,趙維納等.SegT:一個(gè)實(shí)用的藏文分詞系統(tǒng)[J].中文信息學(xué)報(bào),2009,23(1):97-103.
[6] 孫萌,華卻才讓,才智杰等.基于判別式分類和重排序技術(shù)的藏文分詞[J].中文信息學(xué)報(bào),2014,28(2):61-65.
[7] 李亞超,加羊吉,宗成慶等.基于條件隨機(jī)場(chǎng)的藏語(yǔ)自動(dòng)分詞方法研究與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2013,27(4):52-58.
[8] 才藏太,華關(guān)加.班智達(dá)漢藏公文翻譯系統(tǒng)中基于二分法的句法分析方法研究中[J].中文信息學(xué)報(bào),2005,19(6):7-12.
[9] 蘇俊峰.基于HMM的藏語(yǔ)語(yǔ)料庫(kù)詞性自動(dòng)標(biāo)注研究[D].西北民族大學(xué),碩士學(xué)位論文,2010.
[10] 扎西加,高定國(guó).藏文文本分詞賦碼一體化研究[J].西藏大學(xué)學(xué)報(bào)(自然科學(xué)版)2012,27(1):57-61.
[11] 史曉東,盧亞軍.央金藏文分詞系統(tǒng)[J].中文信息學(xué)報(bào),2011,25(4):54-56.
[12] 華卻才讓,劉群,趙海興.判別式藏語(yǔ)文本詞性標(biāo)注研究[J].中文信息學(xué)報(bào),2014,28(2):56-60.
[13] 于洪志,李亞超,汪昆,等.融合音節(jié)特征的最大熵藏文詞性標(biāo)注研究[J].中文信息學(xué)報(bào),2013,27(5):160-165.
[14] J Lafferty,A McCallum,F(xiàn) Pereira.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of ICML-2001,2001:282-289.
[15] Adam L Berger,Stephen A Della Pietra,Vincent J Della Pietra.A Maximum Entropy Approach to Natural Language Processing[J].Computational Linguistics,1996,1(22):39-71.
[16] 康才畯.藏語(yǔ)分詞與詞性標(biāo)注研究[D].上海師范大學(xué)博士學(xué)位論文,2014.