999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

使用過訓(xùn)練提升詞性標(biāo)注依存句法聯(lián)合模型的速度

2014-04-29 00:44:03張梅山車萬翔劉挺

張梅山 車萬翔 劉挺

摘要:詞性標(biāo)注和依存句法分析是自然語言處理領(lǐng)域中句子級別基本分析技術(shù)的兩個重要任務(wù),一般來說詞性標(biāo)注是依存句法分析的一個前提條件?;诼?lián)合分析的方法將這兩個任務(wù)在一個統(tǒng)一的統(tǒng)計(jì)模型中聯(lián)合處理能避免錯誤傳播這類問題的發(fā)生,因此這種聯(lián)合模型能取得比較好的性能。但是這種聯(lián)合模型會帶來算法上的時間復(fù)雜度的額外開銷,因此導(dǎo)致聯(lián)合分析的方法,速度非常慢。本文提出一種基于過訓(xùn)練的方法,通過極少量的性能損失,使得聯(lián)合模型的解碼速度提升了6倍。

關(guān)鍵詞:詞性標(biāo)注; 依存句法分析; 聯(lián)合模型; 過訓(xùn)練

中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A文章編號:2095-2163(2014)04-0021-04

Abstract:POS tagging and dependency parsing are basic tasks of sentence-level natural language processing. Generally POS-tagging is a necessary prerequisite for dependency parsing. The joint models which link the two tasks together and process them by a unified model have achieved improved performances, because joint modeling can avoid the error-propagation problem. However, the time complexity of joint models can be always so large, thus yields much slower speed. This paper proposes a method based on uptraining technique to improve the speed of joint models, with only very little loss in performances.

Key words:POS-Tagging; Dependency Parsing; Joint Models; Uptraining

0引言

詞性標(biāo)注和句法分析都是自然語言處理句子級別的基礎(chǔ)分析研究中非常重要的兩個任務(wù),在自然語言處理領(lǐng)域,有不少的研究者對其展開了深入的研究[1-2]。詞性標(biāo)注和依存句法分析,分別屬于詞法分析和句法分析的范疇,且都能為自然語言的上層處理任務(wù),包括機(jī)器翻譯、信息檢索、問答等等,提供最基本的信息,使得這些任務(wù)的性能達(dá)到更好。

一般來說,對于給定的一個句子,往往首先會對該句子進(jìn)行詞性標(biāo)注,然后在詞性標(biāo)注的基礎(chǔ)之上進(jìn)行依存句法分析,因?yàn)橐来婢浞ǚ治鲋杏玫降拇罅刻卣鞫际且蕾囉谠~的詞性的,如此邏輯為依存句法分析的性能提供了保證。這一方法通常可稱為串行的方法,但卻存在兩個方面的大問題。第一個問題是錯誤蔓延,也就是詞性標(biāo)注的錯誤會加劇依存句法分析的錯誤,第二個問題是詞性標(biāo)注很難用到上層的句法信息,更多情況下,句法層面的詞語和詞語之間相互依賴的非詞序信息即能較好地幫助詞性的消歧,只是這種串行的方法對于上述信息的利用具有相當(dāng)?shù)碾y度。

近年來,聯(lián)合模型的方法得到了自然語言處理領(lǐng)域中研究者們的廣泛關(guān)注,這一方法正是為了解決串行模型所面臨的那兩類問題而極富創(chuàng)造性地提出的。聯(lián)合模型將兩個相互依賴而且相鄰的任務(wù)放在一個統(tǒng)一的模型中進(jìn)行處理,這樣詞性標(biāo)注和依存句法之間便可以得到非常充分的互相利用。

目前典型的詞性標(biāo)注和依存句法的聯(lián)合模型一共有兩種,基于圖的聯(lián)合模型[3]和基于轉(zhuǎn)移的聯(lián)合模型[4],這兩種聯(lián)合模型分別是在基于圖的依存分析模型和基于轉(zhuǎn)移的依存分析模型的框架下進(jìn)行擴(kuò)展而得到的。對于基于圖的聯(lián)合模型,李正華等人發(fā)現(xiàn),聯(lián)合模型的速度和串行模型相比,有著很嚴(yán)重的下降,由串行的5.8句每秒下降到聯(lián)合模型的0.6句每秒。而針對基于轉(zhuǎn)移的聯(lián)合模型, Jun Harori等人也有類似的發(fā)現(xiàn)。這一速度的發(fā)現(xiàn),會大大降低聯(lián)合模型的實(shí)用性。

為了提升聯(lián)合模型的速度,同時也盡可能少地影響最終詞性標(biāo)注和依存句法分析的性能,本文提出了一種基于過訓(xùn)練的方法[5]。在文中,由于基于轉(zhuǎn)移的聯(lián)合模型可以非常簡單地在速度和性能之間進(jìn)行調(diào)節(jié),因此可以通過改進(jìn)該聯(lián)合模型來達(dá)到研究的最終目標(biāo)?;谵D(zhuǎn)移的聯(lián)合模型是一個線性時間復(fù)雜度的基于柱搜索的統(tǒng)計(jì)模型,其速度的快慢僅僅取決于模型的柱大小,因此可以非常方便地通過減少柱大小使得分析速度加快,但是因?yàn)橐粋€較小的柱會導(dǎo)致較小的搜索空間,并帶來最終性能的急劇下降。通過分析知道,提高一個統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型效果的最簡單方法便是增加訓(xùn)練語料。在這里,可以根據(jù)過訓(xùn)練的原理,首先使用最基準(zhǔn)的64柱大小的模型自動解析大量原始句子,并將解碼的結(jié)果加入到與一個柱大小相對來說較小的聯(lián)合模型中,這樣就可使得這個柱比較小的聯(lián)合模型的性能得到提升,從而使得最終的聯(lián)合模型不僅速度加快,而且在性能上也和原來64柱大小的聯(lián)合模型的性能相差不大。

1背景介紹

1.1詞性標(biāo)注

2基于轉(zhuǎn)移的詞性標(biāo)注依存句法聯(lián)合模型

基于轉(zhuǎn)移的聯(lián)合模型最早由Jun Hatori等人于2011年提出并發(fā)表在IJCNLP上[4],本文使用JTrans來表示這一聯(lián)合模型。該方法借鑒了自動機(jī)的思想,其核心模塊集中表現(xiàn)為一個轉(zhuǎn)移系統(tǒng),轉(zhuǎn)移系統(tǒng)由系統(tǒng)的狀態(tài)和這個狀態(tài)能接受的一系列操作組成。在開始解碼時,有一個初始的狀態(tài),經(jīng)過一系列轉(zhuǎn)移操作后,系統(tǒng)進(jìn)入終結(jié)狀態(tài),每個終結(jié)狀態(tài)對應(yīng)為一顆依存句法樹,這顆依存句法樹可以由中間經(jīng)歷的轉(zhuǎn)移操作序列直接得到。

對于文中的詞性標(biāo)注依存句法聯(lián)合模型,系統(tǒng)的狀態(tài)由一個棧和一個隊(duì)列組成,棧中是部分解碼的依存句法子樹序列,記為S0, S1, …,隊(duì)列中是需要進(jìn)一步處理的詞語序列,記為Q0, Q1, …。在初始狀態(tài)時,棧為空,隊(duì)列中為w1, …, wn;而終結(jié)狀態(tài),棧中僅有一顆依存句法樹,隊(duì)列為空。在系統(tǒng)的狀態(tài)上定義的操作有兩類,移進(jìn)和歸約,兩類動作都有參數(shù)。對于移進(jìn),參數(shù)是詞性,對于隊(duì)列中詞賦予詞性并移入棧中,而對于歸約,實(shí)際上就是將棧頂?shù)膬深w子依存樹進(jìn)行合并,其主要參數(shù)將指明該歸約是左歸約還是右歸約,左歸約后棧頂?shù)牡诙脴鋵⒊蔀榈谝豢脴涞暮⒆咏Y(jié)點(diǎn),而右歸約后則是棧頂?shù)牡谝豢脴鋵⒊蔀榈诙w樹的孩子結(jié)點(diǎn)。如圖2所示顯示了聯(lián)合模型情況下的轉(zhuǎn)移系統(tǒng),最上面的是轉(zhuǎn)移系統(tǒng)的狀態(tài),下面分別表示經(jīng)過移進(jìn)和歸約之后狀態(tài)的變化情況。

對于一個指定的狀態(tài),一般會有多種操作,這樣在分析過程中,從初始狀態(tài)到結(jié)束狀態(tài),就可能有多種轉(zhuǎn)移動作序列,每一種轉(zhuǎn)移動作序列都面臨一個不同的分析結(jié)果。為了得到最好的分析結(jié)果,可以根據(jù)目前的解碼狀態(tài)得到分?jǐn)?shù)最高的那個動作,從而得到下一個狀態(tài),這種方法是一種基于貪心的搜索算法,但是這種方法是一種局部最優(yōu)的算法,而且還會裁剪掉初始動作分?jǐn)?shù)不高但是后期動作分?jǐn)?shù)很高的一些動作轉(zhuǎn)移序列。為了緩解這一問題,本文一般采用了柱搜索算法,如算法所示,其中st代表狀態(tài), A代表所有可能操作的結(jié)合。柱搜索每次保留固定的多個轉(zhuǎn)移動作而不是貪心算法中的一個轉(zhuǎn)移動作。柱大小的設(shè)置方法往往是根據(jù)實(shí)驗(yàn)的需求進(jìn)行設(shè)定的,一般在研究中采用柱大小為64來實(shí)現(xiàn)解碼,這樣就能和其它性能最好的詞性標(biāo)注依存句法聯(lián)合模型取得相當(dāng)?shù)慕Y(jié)果。

采用柱大小為64的聯(lián)合模型面臨著解碼速度非常慢的問題,其搜索空間和存儲空間都要比貪心算法大上64倍,因此研究希望通過降低柱的大小使得速度能夠獲得提升,但是柱大小的降低勢必會影響聯(lián)合模型的性能。鑒于此,本文采用了過訓(xùn)練的方法來使得柱降低之后的聯(lián)合模型性能得到較大的提升。

過訓(xùn)練最早由Slav Petrov等人在2010年提出。假設(shè)一個任務(wù)存在兩種不同的模型M1和M2,同時還有大規(guī)模未標(biāo)注數(shù)據(jù),其中M1速度非常慢但是準(zhǔn)確率高,而M2速度非??斓菧?zhǔn)確率卻有較大下降,過訓(xùn)練即是使用M1去自動解析大規(guī)模的未標(biāo)注數(shù)據(jù),而后用自動解析得到的數(shù)據(jù)去進(jìn)一步訓(xùn)練模型M2,從而使得M2的性能可以獲得大幅度提升。

對于詞性標(biāo)注和依存句法聯(lián)合模型,研究中就存在一個高精度但是速度慢的統(tǒng)計(jì)模型,即柱大小為64的JTrans,通過改變JTrans的柱的大小,相應(yīng)地也可以得到一系列精度低但是速度更快的簡單聯(lián)合模型, 這兩類模型分別對應(yīng)于上面提到的M1和M2。因此本文即采用柱大小為64的JTrans來自動解析接近50萬句的原始句子,然后加入到柱大小降低后的簡單聯(lián)合模型的訓(xùn)練語料中,從而使得簡單模型的性能大大提升,甚至和原始的柱大小為64的JTrans相比,性能損失也已不再明顯。

4實(shí)驗(yàn)

本文通過在中文賓州樹庫5.1版上進(jìn)行實(shí)驗(yàn)來驗(yàn)證上述提出的方法,該樹庫是一個短語句法樹庫,在此通過張?jiān)赖热?008年提出的規(guī)則,將中文賓州樹庫的短語結(jié)構(gòu)轉(zhuǎn)換成依存結(jié)構(gòu)。而且,更進(jìn)一步地將這一數(shù)據(jù)按照7:1:2的方式劃分成為三個集合,分別為訓(xùn)練集(用于訓(xùn)練統(tǒng)計(jì)模型中的特征權(quán)重)、開發(fā)集(用于調(diào)整模型中一些比較宏觀的參數(shù))和測試集(用戶評價最終的模型性能)。使用過訓(xùn)練的方法時,本文從賓夕法尼亞大學(xué)共享的Linguistic Data Consortium語料中提取了關(guān)于中文的50萬句原始語料作為自動標(biāo)注的原始語料。

在評價詞性標(biāo)注性能時,使用了詞性標(biāo)注準(zhǔn)確率,即詞性標(biāo)注正確的詞的總數(shù)占所有詞比例;在評價依存分析性能時,使用了依存弧準(zhǔn)確率(Unlabeled Attached Score, UAS),即父親節(jié)點(diǎn)被正確找到的詞的個數(shù)占所有詞的個數(shù)的比例。另外,還使用了根節(jié)點(diǎn)識別準(zhǔn)確率(Root Accuracy, RA)以及整個句子正確識別準(zhǔn)確率(Completely Match, CM),并且在評價依存的過程中,本文忽略了標(biāo)點(diǎn)符號。

在使用了過訓(xùn)練算法之后,聯(lián)合模型的性能如表2的上半部分所示。從數(shù)據(jù)結(jié)果的分析可以得出,依存分析和詞性標(biāo)注的性能下降速度變慢了。當(dāng)柱大小下降為4時,聯(lián)合模型的準(zhǔn)確率和不使用過訓(xùn)練時柱大小為8的性能幾乎一致;類似地,柱大小為8的模型和不使用過訓(xùn)練柱大小為16的性能幾乎一致。由此可以得到結(jié)論:使用了過訓(xùn)練的方法后,基于同樣的準(zhǔn)確率,聯(lián)合模型的速度有了一定的提升,集效率也得到了提高。

5結(jié)束語

詞性標(biāo)注和依存句法的聯(lián)合模型雖然一定程度上可提升各自的任務(wù)性能,但是其解碼速度卻超出了可接受范圍,以致于在很多實(shí)際應(yīng)用中受到了技術(shù)限制。針對這一問題,本文采用了一種基于過訓(xùn)練的方法來提升聯(lián)合模型的速度。研究中使用的基準(zhǔn)聯(lián)合模型是一種基于轉(zhuǎn)移的聯(lián)合模型,這種模型可以非常方便地通過柱大小的調(diào)整來平衡聯(lián)合模型的準(zhǔn)確率和速度,本文即以其為基礎(chǔ),并結(jié)合過訓(xùn)練方法,實(shí)現(xiàn)了一個不僅速度快而且性能損失也比較少的聯(lián)合模型,并最終使得文中聯(lián)合模型的速度達(dá)到了100多句每秒,而性能損失卻僅有0.3%。

參考文獻(xiàn):

[1]ZHANG Y, CLARK S. Syntactic processing using the generalized perceptron and beam search[J]. Computational Linguistics, 2011, 37(1): 105-151.

[2]MCDONALD R, NIVRE J. Analyzing and integrating dependency parsers[J]. Computational Linguistics, 2011, 37(1): 197-230.

[3]LI Z, ZHANG M, CHE W, et al. Joint optimization for Chinese POS tagging and dependency parsing[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), 2014, 22(1): 274-286.

[4]HATORI J, MATSUZAKI T, MIYAO Y T J. Incremental joint POS tagging and dependency parsing in Chinese[C]// Chiang Mai, Thailand: 2011.

[5]PETROV S, CHANG P, RINGGAARD M A H. Uptraining for accurate deterministic question parsing[C]// Cambridge, MA, 2010.

[6]李正華,車萬翔,劉挺. 基于柱搜索的高階依存句法分析[J]. 中文信息學(xué)報, 2010, 24(1): 37-41.

[7]COLLINS M, KOO T. Discriminative reranking for natural language parsing[J]. Computational Linguistics, 2005, 31(1): 25-70.

[8]COLLINS M R B. Incremental parsing with the perceptron algorithm[C]//Barcelona, Spain, 2004.

主站蜘蛛池模板: 国产乱人伦精品一区二区| 久青草网站| 国产毛片基地| 日韩在线视频网| 国产精品久久久久无码网站| 99九九成人免费视频精品| 亚洲色大成网站www国产| 国产精品成人一区二区| 又大又硬又爽免费视频| 亚洲高清日韩heyzo| 国产精品无码AV中文| 国产精品伦视频观看免费| 久久国产亚洲欧美日韩精品| 99久久精品免费看国产免费软件 | www.99精品视频在线播放| 国产成a人片在线播放| 婷婷六月综合| 国产亚洲精品自在久久不卡 | 色婷婷亚洲综合五月| 欧美一级爱操视频| 91成人在线免费视频| 四虎永久在线视频| 天天躁夜夜躁狠狠躁躁88| 激情综合图区| 亚洲有无码中文网| 少妇精品网站| 青青青草国产| 女人18毛片久久| 久草视频一区| 青草免费在线观看| 欧美全免费aaaaaa特黄在线| 日韩午夜福利在线观看| 国产在线视频导航| 国产精品无码AⅤ在线观看播放| a级毛片视频免费观看| 欧美在线伊人| 免费一级无码在线网站| 国产视频久久久久| 亚洲精品色AV无码看| 手机在线免费不卡一区二| 99热精品久久| 五月婷婷亚洲综合| 少妇精品在线| 亚洲最新地址| 浮力影院国产第一页| 欧美第九页| 色噜噜狠狠狠综合曰曰曰| 91福利片| 亚洲综合色在线| 精品福利视频导航| 亚洲欧美日韩动漫| 日韩av手机在线| 在线观看精品自拍视频| 国产日韩丝袜一二三区| 亚洲视频免| 99国产精品国产高清一区二区| 午夜a视频| 亚洲福利片无码最新在线播放| 欧美中文字幕在线视频| 国产夜色视频| 韩国自拍偷自拍亚洲精品| 色综合热无码热国产| 永久免费av网站可以直接看的 | 天天色天天综合| 色老头综合网| 四虎永久免费在线| 91av成人日本不卡三区| 久久99精品国产麻豆宅宅| 国产欧美亚洲精品第3页在线| 中文字幕亚洲精品2页| 免费一级毛片| 国内熟女少妇一线天| 影音先锋丝袜制服| 国产精品色婷婷在线观看| 国产污视频在线观看| 日韩视频福利| 欧美黄网在线| 日本人妻丰满熟妇区| yy6080理论大片一级久久| 永久在线精品免费视频观看| aⅴ免费在线观看| 日韩二区三区|