使用過訓(xùn)練提升詞性標(biāo)注依存句法聯(lián)合模型的速度

2014-04-29 00:44:03張梅山車萬翔劉挺

智能計(jì)算機(jī)與應(yīng)用 2014年4期

張梅山　車萬翔　劉挺

摘要：詞性標(biāo)注和依存句法分析是自然語言處理領(lǐng)域中句子級別基本分析技術(shù)的兩個重要任務(wù)，一般來說詞性標(biāo)注是依存句法分析的一個前提條件?；诼?lián)合分析的方法將這兩個任務(wù)在一個統(tǒng)一的統(tǒng)計(jì)模型中聯(lián)合處理能避免錯誤傳播這類問題的發(fā)生，因此這種聯(lián)合模型能取得比較好的性能。但是這種聯(lián)合模型會帶來算法上的時間復(fù)雜度的額外開銷，因此導(dǎo)致聯(lián)合分析的方法，速度非常慢。本文提出一種基于過訓(xùn)練的方法，通過極少量的性能損失，使得聯(lián)合模型的解碼速度提升了6倍。

關(guān)鍵詞：詞性標(biāo)注；依存句法分析；聯(lián)合模型；過訓(xùn)練

中圖分類號：TP391 文獻(xiàn)標(biāo)識碼：A文章編號：2095-2163（2014）04-0021-04

Abstract：POS tagging and dependency parsing are basic tasks of sentence-level natural language processing. Generally POS-tagging is a necessary prerequisite for dependency parsing. The joint models which link the two tasks together and process them by a unified model have achieved improved performances， because joint modeling can avoid the error-propagation problem. However， the time complexity of joint models can be always so large， thus yields much slower speed. This paper proposes a method based on uptraining technique to improve the speed of joint models， with only very little loss in performances.

Key words：POS-Tagging； Dependency Parsing； Joint Models； Uptraining

0引言

詞性標(biāo)注和句法分析都是自然語言處理句子級別的基礎(chǔ)分析研究中非常重要的兩個任務(wù)，在自然語言處理領(lǐng)域，有不少的研究者對其展開了深入的研究[1-2]。詞性標(biāo)注和依存句法分析，分別屬于詞法分析和句法分析的范疇，且都能為自然語言的上層處理任務(wù)，包括機(jī)器翻譯、信息檢索、問答等等，提供最基本的信息，使得這些任務(wù)的性能達(dá)到更好。

一般來說，對于給定的一個句子，往往首先會對該句子進(jìn)行詞性標(biāo)注，然后在詞性標(biāo)注的基礎(chǔ)之上進(jìn)行依存句法分析，因?yàn)橐来婢浞ǚ治鲋杏玫降拇罅刻卣鞫际且蕾囉谠~的詞性的，如此邏輯為依存句法分析的性能提供了保證。這一方法通常可稱為串行的方法，但卻存在兩個方面的大問題。第一個問題是錯誤蔓延，也就是詞性標(biāo)注的錯誤會加劇依存句法分析的錯誤，第二個問題是詞性標(biāo)注很難用到上層的句法信息，更多情況下，句法層面的詞語和詞語之間相互依賴的非詞序信息即能較好地幫助詞性的消歧，只是這種串行的方法對于上述信息的利用具有相當(dāng)?shù)碾y度。

近年來，聯(lián)合模型的方法得到了自然語言處理領(lǐng)域中研究者們的廣泛關(guān)注，這一方法正是為了解決串行模型所面臨的那兩類問題而極富創(chuàng)造性地提出的。聯(lián)合模型將兩個相互依賴而且相鄰的任務(wù)放在一個統(tǒng)一的模型中進(jìn)行處理，這樣詞性標(biāo)注和依存句法之間便可以得到非常充分的互相利用。

目前典型的詞性標(biāo)注和依存句法的聯(lián)合模型一共有兩種，基于圖的聯(lián)合模型[3]和基于轉(zhuǎn)移的聯(lián)合模型[4]，這兩種聯(lián)合模型分別是在基于圖的依存分析模型和基于轉(zhuǎn)移的依存分析模型的框架下進(jìn)行擴(kuò)展而得到的。對于基于圖的聯(lián)合模型，李正華等人發(fā)現(xiàn)，聯(lián)合模型的速度和串行模型相比，有著很嚴(yán)重的下降，由串行的5.8句每秒下降到聯(lián)合模型的0.6句每秒。而針對基于轉(zhuǎn)移的聯(lián)合模型， Jun Harori等人也有類似的發(fā)現(xiàn)。這一速度的發(fā)現(xiàn)，會大大降低聯(lián)合模型的實(shí)用性。

為了提升聯(lián)合模型的速度，同時也盡可能少地影響最終詞性標(biāo)注和依存句法分析的性能，本文提出了一種基于過訓(xùn)練的方法[5]。在文中，由于基于轉(zhuǎn)移的聯(lián)合模型可以非常簡單地在速度和性能之間進(jìn)行調(diào)節(jié)，因此可以通過改進(jìn)該聯(lián)合模型來達(dá)到研究的最終目標(biāo)?；谵D(zhuǎn)移的聯(lián)合模型是一個線性時間復(fù)雜度的基于柱搜索的統(tǒng)計(jì)模型，其速度的快慢僅僅取決于模型的柱大小，因此可以非常方便地通過減少柱大小使得分析速度加快，但是因?yàn)橐粋€較小的柱會導(dǎo)致較小的搜索空間，并帶來最終性能的急劇下降。通過分析知道，提高一個統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型效果的最簡單方法便是增加訓(xùn)練語料。在這里，可以根據(jù)過訓(xùn)練的原理，首先使用最基準(zhǔn)的64柱大小的模型自動解析大量原始句子，并將解碼的結(jié)果加入到與一個柱大小相對來說較小的聯(lián)合模型中，這樣就可使得這個柱比較小的聯(lián)合模型的性能得到提升，從而使得最終的聯(lián)合模型不僅速度加快，而且在性能上也和原來64柱大小的聯(lián)合模型的性能相差不大。

1背景介紹

1.1詞性標(biāo)注

2基于轉(zhuǎn)移的詞性標(biāo)注依存句法聯(lián)合模型

基于轉(zhuǎn)移的聯(lián)合模型最早由Jun Hatori等人于2011年提出并發(fā)表在IJCNLP上[4]，本文使用JTrans來表示這一聯(lián)合模型。該方法借鑒了自動機(jī)的思想，其核心模塊集中表現(xiàn)為一個轉(zhuǎn)移系統(tǒng)，轉(zhuǎn)移系統(tǒng)由系統(tǒng)的狀態(tài)和這個狀態(tài)能接受的一系列操作組成。在開始解碼時，有一個初始的狀態(tài)，經(jīng)過一系列轉(zhuǎn)移操作后，系統(tǒng)進(jìn)入終結(jié)狀態(tài)，每個終結(jié)狀態(tài)對應(yīng)為一顆依存句法樹，這顆依存句法樹可以由中間經(jīng)歷的轉(zhuǎn)移操作序列直接得到。

對于文中的詞性標(biāo)注依存句法聯(lián)合模型，系統(tǒng)的狀態(tài)由一個棧和一個隊(duì)列組成，棧中是部分解碼的依存句法子樹序列，記為S0， S1， …，隊(duì)列中是需要進(jìn)一步處理的詞語序列，記為Q0， Q1， …。在初始狀態(tài)時，棧為空，隊(duì)列中為w1， …， wn；而終結(jié)狀態(tài)，棧中僅有一顆依存句法樹，隊(duì)列為空。在系統(tǒng)的狀態(tài)上定義的操作有兩類，移進(jìn)和歸約，兩類動作都有參數(shù)。對于移進(jìn)，參數(shù)是詞性，對于隊(duì)列中詞賦予詞性并移入棧中，而對于歸約，實(shí)際上就是將棧頂?shù)膬深w子依存樹進(jìn)行合并，其主要參數(shù)將指明該歸約是左歸約還是右歸約，左歸約后棧頂?shù)牡诙脴鋵⒊蔀榈谝豢脴涞暮⒆咏Y(jié)點(diǎn)，而右歸約后則是棧頂?shù)牡谝豢脴鋵⒊蔀榈诙w樹的孩子結(jié)點(diǎn)。如圖2所示顯示了聯(lián)合模型情況下的轉(zhuǎn)移系統(tǒng)，最上面的是轉(zhuǎn)移系統(tǒng)的狀態(tài)，下面分別表示經(jīng)過移進(jìn)和歸約之后狀態(tài)的變化情況。

對于一個指定的狀態(tài)，一般會有多種操作，這樣在分析過程中，從初始狀態(tài)到結(jié)束狀態(tài)，就可能有多種轉(zhuǎn)移動作序列，每一種轉(zhuǎn)移動作序列都面臨一個不同的分析結(jié)果。為了得到最好的分析結(jié)果，可以根據(jù)目前的解碼狀態(tài)得到分?jǐn)?shù)最高的那個動作，從而得到下一個狀態(tài)，這種方法是一種基于貪心的搜索算法，但是這種方法是一種局部最優(yōu)的算法，而且還會裁剪掉初始動作分?jǐn)?shù)不高但是后期動作分?jǐn)?shù)很高的一些動作轉(zhuǎn)移序列。為了緩解這一問題，本文一般采用了柱搜索算法，如算法所示，其中st代表狀態(tài)， A代表所有可能操作的結(jié)合。柱搜索每次保留固定的多個轉(zhuǎn)移動作而不是貪心算法中的一個轉(zhuǎn)移動作。柱大小的設(shè)置方法往往是根據(jù)實(shí)驗(yàn)的需求進(jìn)行設(shè)定的，一般在研究中采用柱大小為64來實(shí)現(xiàn)解碼，這樣就能和其它性能最好的詞性標(biāo)注依存句法聯(lián)合模型取得相當(dāng)?shù)慕Y(jié)果。

采用柱大小為64的聯(lián)合模型面臨著解碼速度非常慢的問題，其搜索空間和存儲空間都要比貪心算法大上64倍，因此研究希望通過降低柱的大小使得速度能夠獲得提升，但是柱大小的降低勢必會影響聯(lián)合模型的性能。鑒于此，本文采用了過訓(xùn)練的方法來使得柱降低之后的聯(lián)合模型性能得到較大的提升。

過訓(xùn)練最早由Slav Petrov等人在2010年提出。假設(shè)一個任務(wù)存在兩種不同的模型M1和M2，同時還有大規(guī)模未標(biāo)注數(shù)據(jù)，其中M1速度非常慢但是準(zhǔn)確率高，而M2速度非?？斓菧?zhǔn)確率卻有較大下降，過訓(xùn)練即是使用M1去自動解析大規(guī)模的未標(biāo)注數(shù)據(jù)，而后用自動解析得到的數(shù)據(jù)去進(jìn)一步訓(xùn)練模型M2，從而使得M2的性能可以獲得大幅度提升。

對于詞性標(biāo)注和依存句法聯(lián)合模型，研究中就存在一個高精度但是速度慢的統(tǒng)計(jì)模型，即柱大小為64的JTrans，通過改變JTrans的柱的大小，相應(yīng)地也可以得到一系列精度低但是速度更快的簡單聯(lián)合模型，這兩類模型分別對應(yīng)于上面提到的M1和M2。因此本文即采用柱大小為64的JTrans來自動解析接近50萬句的原始句子，然后加入到柱大小降低后的簡單聯(lián)合模型的訓(xùn)練語料中，從而使得簡單模型的性能大大提升，甚至和原始的柱大小為64的JTrans相比，性能損失也已不再明顯。

4實(shí)驗(yàn)

本文通過在中文賓州樹庫5.1版上進(jìn)行實(shí)驗(yàn)來驗(yàn)證上述提出的方法，該樹庫是一個短語句法樹庫，在此通過張?jiān)赖热?008年提出的規(guī)則，將中文賓州樹庫的短語結(jié)構(gòu)轉(zhuǎn)換成依存結(jié)構(gòu)。而且，更進(jìn)一步地將這一數(shù)據(jù)按照7：1：2的方式劃分成為三個集合，分別為訓(xùn)練集（用于訓(xùn)練統(tǒng)計(jì)模型中的特征權(quán)重）、開發(fā)集（用于調(diào)整模型中一些比較宏觀的參數(shù)）和測試集（用戶評價最終的模型性能）。使用過訓(xùn)練的方法時，本文從賓夕法尼亞大學(xué)共享的Linguistic Data Consortium語料中提取了關(guān)于中文的50萬句原始語料作為自動標(biāo)注的原始語料。

在評價詞性標(biāo)注性能時，使用了詞性標(biāo)注準(zhǔn)確率，即詞性標(biāo)注正確的詞的總數(shù)占所有詞比例；在評價依存分析性能時，使用了依存弧準(zhǔn)確率（Unlabeled Attached Score， UAS），即父親節(jié)點(diǎn)被正確找到的詞的個數(shù)占所有詞的個數(shù)的比例。另外，還使用了根節(jié)點(diǎn)識別準(zhǔn)確率（Root Accuracy， RA）以及整個句子正確識別準(zhǔn)確率（Completely Match， CM），并且在評價依存的過程中，本文忽略了標(biāo)點(diǎn)符號。

在使用了過訓(xùn)練算法之后，聯(lián)合模型的性能如表2的上半部分所示。從數(shù)據(jù)結(jié)果的分析可以得出，依存分析和詞性標(biāo)注的性能下降速度變慢了。當(dāng)柱大小下降為4時，聯(lián)合模型的準(zhǔn)確率和不使用過訓(xùn)練時柱大小為8的性能幾乎一致；類似地，柱大小為8的模型和不使用過訓(xùn)練柱大小為16的性能幾乎一致。由此可以得到結(jié)論：使用了過訓(xùn)練的方法后，基于同樣的準(zhǔn)確率，聯(lián)合模型的速度有了一定的提升，集效率也得到了提高。

5結(jié)束語

詞性標(biāo)注和依存句法的聯(lián)合模型雖然一定程度上可提升各自的任務(wù)性能，但是其解碼速度卻超出了可接受范圍，以致于在很多實(shí)際應(yīng)用中受到了技術(shù)限制。針對這一問題，本文采用了一種基于過訓(xùn)練的方法來提升聯(lián)合模型的速度。研究中使用的基準(zhǔn)聯(lián)合模型是一種基于轉(zhuǎn)移的聯(lián)合模型，這種模型可以非常方便地通過柱大小的調(diào)整來平衡聯(lián)合模型的準(zhǔn)確率和速度，本文即以其為基礎(chǔ)，并結(jié)合過訓(xùn)練方法，實(shí)現(xiàn)了一個不僅速度快而且性能損失也比較少的聯(lián)合模型，并最終使得文中聯(lián)合模型的速度達(dá)到了100多句每秒，而性能損失卻僅有0.3%。

參考文獻(xiàn)：

[1]ZHANG Y， CLARK S. Syntactic processing using the generalized perceptron and beam search[J]. Computational Linguistics， 2011， 37（1）： 105-151.

[2]MCDONALD R， NIVRE J. Analyzing and integrating dependency parsers[J]. Computational Linguistics， 2011， 37（1）： 197-230.

[3]LI Z， ZHANG M， CHE W， et al. Joint optimization for Chinese POS tagging and dependency parsing[J]. IEEE/ACM Transactions on Audio， Speech and Language Processing （TASLP）， 2014， 22（1）： 274-286.

[4]HATORI J， MATSUZAKI T， MIYAO Y T J. Incremental joint POS tagging and dependency parsing in Chinese[C]// Chiang Mai， Thailand： 2011.

[5]PETROV S， CHANG P， RINGGAARD M A H. Uptraining for accurate deterministic question parsing[C]// Cambridge， MA， 2010.

[6]李正華，車萬翔，劉挺. 基于柱搜索的高階依存句法分析[J]. 中文信息學(xué)報， 2010， 24（1）： 37-41.

[7]COLLINS M， KOO T. Discriminative reranking for natural language parsing[J]. Computational Linguistics， 2005， 31（1）： 25-70.

[8]COLLINS M R B. Incremental parsing with the perceptron algorithm[C]//Barcelona， Spain， 2004.

智能計(jì)算機(jī)與應(yīng)用2014年4期

智能計(jì)算機(jī)與應(yīng)用的其它文章: 基于位置的社交網(wǎng)絡(luò)研究綜述; 一種電磁場運(yùn)動模擬仿真軟件的開發(fā); 基于FPGA的8位移位相加型硬件乘法器的設(shè)計(jì); 基于移動用戶體驗(yàn)的APP設(shè)計(jì); 單幀模式衛(wèi)星上行站網(wǎng)絡(luò)管理平臺及值班室互動全景的仿真應(yīng)用; 基于ASP.NET MVC的物料管理系統(tǒng)設(shè)計(jì)與開發(fā)