999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

向上學習方法改進移進-歸約中文句法分析

2015-04-21 09:26:33朱慕華王會珍朱靖波
中文信息學報 2015年2期
關鍵詞:實驗系統

朱慕華,王會珍,朱靖波

(東北大學 自然語言處理實驗室,遼寧 沈陽 110819)

?

向上學習方法改進移進-歸約中文句法分析

朱慕華,王會珍,朱靖波

(東北大學 自然語言處理實驗室,遼寧 沈陽 110819)

基于移進-歸約的句法分析系統具有線性的時間復雜度,因此在大規模句法分析任務中具有特別實際的意義。然而目前移進-歸約句法分析系統的性能遠低于領域內最好的句法分析器,例如,伯克利句法分析器。該文研究如何利用向上學習和無標注數據改進移進-歸約句法分析系統,使之盡可能接近伯克利句法分析器的性能。我們首先應用伯克利句法分析器對大規模的無標注數據進行自動分析,然后利用得到的自動標注數據作為額外的訓練數據改進詞性標注系統和移進-歸約句法分析器。實驗結果表明,向上學習方法和無標注數據使移進-歸約句法分析的性能提高了2.3%,達到82.4%。這個性能與伯克利句法分析器的性能可比。與此同時,該文最終得到的句法分析系統擁有明顯的速度優勢(7倍速度于伯克利句法分析器)。

中文句法分析;移進-歸約分析;伯克利句法分析器;向上學習;無標注數據

1 前言

根據采用的搜索算法不同,中文成分句法分析領域中經常使用的模型可以大致分為兩類: 基于動態規劃的模型[1-5]和基于貪婪搜索或者柱搜索的模型,例如,移進-歸約句法分析[6-8]。從性能來看,基于動態規劃的句法分析器普遍優于移進-歸約句法分析器,特別是基于隱含標注的伯克利句法分析器[1],代表著目前中文句法分析的最好性能。但是在解碼效率上,移進-歸約句法分析只要求線性的時間復雜度因而具有明顯的速度優勢。在實際應用尤其是大規模句法分析任務中(例如,對網絡上的海量網頁進行句法分析),解碼速度是我們必須考慮的一個重要因素。因此本文著重研究提高移進-歸約成分句法分析器的性能。

為了改進移進-歸約句法分析器的性能,我們可以從兩方面著手。(1) 提高中文詞性標注的性能。移進-歸約句法分析通常要求輸入句子中包含詞性信息,而且詞性標注的準確性對句法分析的性能有很大影響(參照文獻[7]的實驗部分)。然而與其他語言(例如,英語)相比,中文詞性標注的性能還有較大的提高空間。(2) 改進移進-歸約句法分析系統本身。改進詞性標注與句法分析器的一個可行方案是建立兩者的聯合模型,利用詞性與句法之間的相互作用提高整體性能。例如,在依存句法分析領域,Hatori等[9]提出了基于移進-歸約框架的詞性標注與句法分析聯合模型。然而在成分句法分析領域中,管道式框架(依次進行詞性標注和句法分析)仍然是主流。因此本文將沿用管道式框架,采用無標注數據分別改進詞性標注與句法分析的準確性。

為了利用無標注數據,我們采用向上學習(uptraining)方法[10]。向上學習的基本思想是利用一個性能較高但速度相對較慢的系統來幫助改進一個性能相對較弱但是擁有速度優勢的系統,其目標是使高速系統的性能接近(甚至超過)低速系統的性能。Petrov等[10]最先提出了向上學習的方法,利用領域適應性較強的伯克利句法分析器改進領域適應性相對較弱的移進-歸約依存句法分析器。在本文的工作中,我們除了應用向上學習方法構建高性能移進-歸約成分句法分析系統之外,還將針對以下問題進行討論。

(1) Petrov等人的工作[10]中,由于領域差異性,源領域內構建的詞性標注器和移進-歸約句法分析器在目標領域內的性能都明顯下降,因此實驗中所用的基準系統的性能相對較低。本文的訓練和測試數據都來自新聞領域。實驗中所采用中文詞性標注和句法分析基準系統的性能已經較高。在這種情況下,向上學習是否仍然有效果是一個需要通過實驗驗證的問題。

(2) Petrov等人的工作[10]中,向上學習同時改進了詞性標注和移進-歸約句法分析器的性能,但是沒有討論詞性標注性能對句法分析性能的影響。我們發現詞性標注的準確性與句法分析的性能并不是絕對的正相關關系: 在某些情況下,詞性標注準確性下降反而產生更有利于句法分析的詞性標注結果。我們通過實驗對這個現象進行了討論。

實驗結果表明,應用向上學習方法和無標注數據使移進-歸約句法分析的性能提高了2.3%,達到82.4%。這個性能很接近伯克利句法分析器,同時優于其它基于動態規劃算法的句法分析器。此外,本文的移進-歸約系統具有明顯的速度優勢。

2 本文方法

本文應用向上學習方法改進移進-歸約句法分析系統的性能。具體地說,我們應用伯克利分析器幫助改進移進-歸約句法分析器Zpar[7]的性能。下面我們首先簡單介紹這兩個句法分析系統,然后描述向上學習的過程。

2.1 伯克利句法分析器

伯克利句法分析器是基于隱含標注的成分句法分析模型。其出發點在于人工標注的句法樹從計算的角度來看存在不足: 某些位置的標注過細,而某些位置的標注則過于粗糙。伯克利分析器認為真正適合統計學習的標注是未知的,而且隱含在人工標注的句法樹之中。因此伯克利句法分析器利用期望最大化(Expectation Maximization,EM)[11]方法自動學習隱含的標注并在此基礎上構建句法分析模型。

2.2 移進-歸約句法分析器

移進-歸約句法分析過程可以看作狀態轉移過程,其中狀態由兩個數據結構表示: 堆棧S和隊列 Q。S保存已經完成的(部分)句法分析結果而Q則存儲輸入句子(詞序列和相應的詞性序列)中尚未被處理的部分。在初始狀態下,S為空而Q中保存著完整的輸入句子;在終止狀態下Q為空而S保存著最終的句法分析結果。從初始狀態到終止狀態的轉移過程中,分析器或者執行移進操作將Q的最左端元素壓入S的棧頂;或者對S頂端的元素執行一元歸約(擴展堆棧頂端的元素)或者二元歸約操作(擴展堆棧頂端的兩個元素)。

本文所采用的移進-歸約句法分析系統為Zpar[7]。據我們所知,該分析器是目前性能最好的移進-歸約中文句法分析系統。與之前的移進-歸約句法分析器(例如,文獻 [6])相比,Zpar在訓練階段做出了改進,提出了全局訓練的方法。Zpar之前的移進-歸約句法分析方法將分析過程看作是一個分類決策問題: 從起始狀態到終止狀態,利用分類器選擇合適的移進或者歸約操作進行狀態轉移。因此句法分析器的訓練過程實質上等同于訓練分類器。Zpar將訓練過程看作柱搜索過程: 從初始狀態出發尋找終止狀態。在柱搜索過程中產生多個相互競爭的中間狀態,其中有且只有一個可以達到正確的終止狀態。Zpar的學習目標是確保該“正確”狀態始終停留在柱中不被減枝。由于篇幅所限,關于Zpar的更詳細介紹可以參考文獻[7]。

2.3 向上學習過程

應用伯克利句法分析器和移進-歸約句法分析器Zpar進行向上學習的過程如圖1所示。我們首先應用伯克利句法分析器對(經過自動分詞的)無標注數據進行句法分析。分析的結果稱為自動標注數據,其中包含自動標注的詞性和句法樹。然后我們將得到的自動標注數據與人工標注的訓練數據進行合并,分別訓練詞性標注器和Zpar。在測試階段,依次應用中文詞性標注和句法分析系統得到句法分析結果。

圖1 向上學習過程圖

很顯然,向上學習方法不會改變詞性標注和句法分析系統的解碼時間復雜度(但是系統所需的訓練時間隨著訓練數據的增多而相應地增加),因此最終得到的移進-歸約句法分析器仍然具有速度上的優勢。另外,向上學習方法的實現非常簡單: 我們只需要將詞性標注和句法分析系統看作黑盒而不需要掌握系統內部的實現細節。從性能角度考慮,上述方法成功的關鍵在于應用伯克利句法分析器對無標注數據進行自動分析。本文采用伯克利句法分析器的原因之一是伯克利句法分析器在中文句法分析任務上的性能優勢: 更高的性能可以產生更高質量的自動標注數據。此外,伯克利分析器對詞性標注與句法分析采取了集成解碼策略(類似的句法分析器還包括文獻[3]),因此自動詞性標注的結果受到上層句法信息的約束。以這種方式得到的大規模自動標注詞性數據可以幫助構建更加有利于句法分析的詞性標注器。

注意到向上學習方法與句法分析領域中經常使用的自學習方法非常相似。區別在于產生自動標注數據的方式。基于移進-歸約句法分析器的自學習方法要求依次應用基準詞性標注系統和基準句法分析系統對無標注數據進行處理以生成自動標注數據;本文的向上學習方法采用伯克利句法分析器,該分析器對詞性標注和句法分析采取了集成解碼策略。在向上學習過程中,我們需要考慮兩個學習參數: (1)參與訓練的自動標注數據的規模;(2)在數據合并時人工標注數據和自動標注數據的相對權重。

3 實驗

3.1 實驗數據與設置 本文的實驗基于賓州大學的中文樹庫(PCTB)5.1版[12]以及如下所述的數據劃分方法: 文檔001-270和440-1151中的句法樹用作訓練數據,文檔270-300中的句法樹作為測試數據而文檔301-325中的句法樹用于系統開發與調參。此外,本文實驗中所用的無標注數據來自于中文Gigaword(LDC2003T09),我們從中隨機抽取100萬句無標注數據并且利用一個基于條件隨機場的分詞系統(CTB5.1測試集上的分詞準確性為97.2%)進行了自動分詞。數據相關統計信息如表1所示。

表1 本文實驗所用數據的相關統計信息

本文實驗設置如下: 首先利用伯克利句法分析器對100萬無標注數據進行句法分析。這里所用的伯克利句法分析器在CTB5.1訓練數據上訓練,EM的迭代次數設置為5。然后我們將自動標注數據作為額外訓練數據分別訓練詞性標注器和移進-歸約句法分析器。具體地說,利用自動標注數據中的詞性部分與CTB訓練數據合并訓練斯坦福詞性標注器[12];利用自動標注數據中句法樹(包括詞性)與CTB訓練數據一起訓練Zpar。在數據合并時,所有數據的相對權重都設置為1。在訓練和測試階段,Zpar的柱寬(beam size)設置為16。所有實驗在3.16G赫茲的個人計算機上進行。

實驗中我們需要評價詞性標注與句法分析的準確性。詞性標注的性能評價指標采用精準率(accuracy),即測試集中被正確賦予詞性標記的詞的比例;對句法分析的性能評價我們采用準確率、召回率以及F1值(由EVALB[13]評價工具提供)。

3.2 系統的最終性能

我們首先報告本文系統在測試集上獲得的最終性能和測試時間,并且與相關的句法分析器進行比較,結果如表2所示。這里斯坦福詞性標注器的訓練采用CTB訓練數據和500K自動標注數據;Zpar的訓練采用CTB訓練數據和250K自動標注數據。這里使用的自動標注數據的規模通過在開發集上進行調試得到(詳見3.3和3.4節的討論)。CH00、BI04、PK07和CJ05分別指文獻[3]、[14]、[1]和[15]中所提出的句法分析模型,其中CH00、BI04和PK07是單系統模型而CJ05是基于重排序的句法分析器。注意,PK07就是本文采用的伯克利句法分析器。參與比較的句法分析器除了Zpar之外都不需要獨立的詞性標注器。這里我們忽略模型裝載的耗時而只評價句法分析所需的時間。

表2 不同句法分析器在測試數據上的性能與運行時間比較

在不使用任何自動標注數據時,斯坦福詞性標注器在測試集上的精準率為95.4%,Zpar句法分析性能為80.1%;使用自動標注數據之后,詞性標注精準率提高到95.5%,而句法分析的最終性能達到82.4%。因此,向上學習和無標注數據獲得了2.3%的句法分析性能提升,其中詞性標注的改進貢獻了1.2%,而句法分析器的改進貢獻了剩余的1.1%。另外,從表2可以看出,本文移進-歸約句法分析器的性能明顯超過了CH00和BI04而且略優于基于重排序的句法分析器CJ05。此外,我們發現本文的句法分析器的性能仍然要低于PK07,但是我們的句法分析器在運行效率方面具有明顯的優勢。具體地說,伯克利句法分析器處理測試集中的句子需要三分鐘,而我們的句法分析器卻只需要25秒。注意,我們沒有衡量CJ05的運行速度,但CJ05以CH00為第一階段分析器生成k最優侯選,因此它的運行時間要多于CH00所需的時間。

3.3 向上學習對詞性標注的影響

本節分析向上學習對詞性標注的影響以及得到最優結果的自動標注數據的規模。我們在CTB訓練數據的基礎上逐步加入自動標注數據以重新訓練斯坦福詞性標注系統。得到的詞性標注器的性能在CTB開發集上進行評價(表3)。除了詞性標注精準率以外,我們還采用句法分析的性能作為詞性標注質量的一個外部評價指標。因此,表3的最后一列報告了移進-歸約句法分析器Zpar在開發集上的性能。注意,在本實驗中Zpar固定使用CTB訓練數據而不使用任何自動標注數據。該實驗的目的在于評價詞性標注的變化對句法分析性能的影響。

表3 向上學習詞性標注在開發集上的實驗結果

從表中結果可以看出,加入自動標注數據之后,詞性標注的精準率呈下降趨勢,但是句法分析的性能(表3最后一列)卻呈現上升的趨勢。這意味著(1)自動標注數據可以使詞性標注器輸出更加有利于句法分析的詞性標注結果;(2)當我們面向句法分析任務討論詞性標注的質量時,精準率并不是可靠的性能評價指標。另外,我們發現自動標注數據達到500K句時句法分析的性能達到85.0%,而后繼續增加新的數據會使性能下降。因此我們固定以500K句自動標注數據以及CTB訓練數據訓練詞性標注器。

我們也在測試數據上評價了引入500K自動標注數據后的詞性標注性能。我們發現在測試集上詞性標注的精準率得到了提高,但是提高幅度只有0.1%(從95.4%到95.5%)。另一方面,我們發現測試集上句法分析的性能從80.1%顯著提高到81.3%(Zpar的訓練只使用CTB訓練數據)。這個現象與開發集上的實驗結果基本一致: 向上學習和自動標注數據的作用主要體現在生成更加有利于句法分析的詞性標注結果而不在于提高詞性標注的精準率。有必要對這個實驗現象進行進一步的分析。

我們首先比較了基準詞性標注系統和更新之后的系統在測試集上的錯誤分布,如表4所示,其中第一列表示正確的詞性而第一行表示錯誤的詞性。例如,表項[NN,VV]表示正確的詞性為NN而被系統錯誤標成VV的詞的個數。表項中斜杠前的數字表示基準詞性標注系統的錯誤計數、而斜杠后的數字表示我們的系統的錯誤計數。從表中結果可以看出,中文詞性標注在以下詞性之間存在較為嚴重的歧義: NN-VV(普通名詞-動詞)、DEC-DEG(補語標識-所有格標識)、NN-JJ(普通名詞-形容詞)和NN-NR(普通名詞-專有名詞)。同時,我們發現引入自動標注數據后對上述幾個類別的詞性的標注結果產生了不同的影響。具體地說,引入自動標注數據之后,NN、VV和DEC這三個詞性的標注錯誤減少;自動標注數據對DEG幾乎沒有影響; NN與NR之間的錯誤明顯增加。

表4 測試數據上詞性標注結果中的錯誤分布

上述詞性對句法分析的影響程度并不同。為了簡化討論,我們挑選測試數據中有且只有一個詞的詞性被修改的句子,共得到78句。這78個句子中NN與NR之間的跳轉占了25句,其中13個句子的句法分析性能完全沒有改變;5個句子的性能有所提高而7個句子的性能下降。這個現象說明NR換成NN或者NN換成NR對句法分析影響比較小。我們發現78個句子中包含19個VV與NN之間的跳轉,其中14個跳轉改進了句法分析的性能而只有5個降低句法分析性能;VV與NN之間的跳轉總是使句法分析的性能發生改變。換句話說,將NN換成VV(或者相反)將對上層的句法結構產生較大影響;將NR換成NN(或者相反)并不影響我們對句法結構的理解。不同詞性對句法分析影響程度不同解釋了向上學習在幾乎不改變詞性標注精準率的情況能夠對句法分析性能產生較大影響的原因。為了實驗的完整性,我們在測試集上衡量了NN與VV之間的跳轉次數與使用的自動標注數據規模之間的關系,以及詞性跳轉對句法分析性能的影響,結果如表5所示。表中最后3列分別表示包含NN與VV跳轉的所有句子中句法分析性能上升的句子數,性能下降的句子數以及性能沒有改變的句子數。由于這些句子中可能不僅僅包含NN與VV跳轉,因此這3列數字只是近似衡量NN與VV的跳轉對句法分析的影響。從表中可以看出,隨著自動標注數據規模的增加,NN與VV之間的(正確)跳轉數以及相應的句法分析性能都有所增加,直到達到峰值。

表5 NN與VV跳轉與自動標注數據規模之間的關系

最后我們系統地分析句法分析性能的改變來源于何種詞性跳轉。為此,我們根據句法分析性能的變化情況將測試集中的句子分成三組: 79句通過向上學習改變詞性而得到更高的句法分析性能;48句的句法分析性能下降;221句的句法分析性能沒有改變。在第一組句子中,我們發現排在前五位的詞性跳轉分別為: VV-NN(28),DEG-DEC(15),DEC-DEG(12),NN-VV(12)以及NN-NR(11),其中括號內的數字表示跳轉的次數,例如VV-NN(28)表示向上學習方法使28個VV被修改為NN。類似地我們獲得第二組句子中排在前五位的跳轉,分別為VV-NN(18),DEG-DEC(12),NN-NR(10),NN-VV(9)以及DEC-DEG(6)。由此我們可以看出,向上學習主要通過上述五種詞性跳轉影響句法分析的性能(注意,如前所述,這五種詞性跳轉對句法分析的影響程度并不相同)。

3.4 向上學習對句法分析的影響

我們研究加入自動標注數據對Zpar性能的影響。同樣地,我們在CTB訓練數據的基礎上逐漸加入自動標注數據以重新訓練Zpar然后在開發集上評價其性能。實驗結果如表6所示。注意,(1)表中所列的結果全部基于詞性標注的精準率為95.5%(使用500K自動標注數據時得到的結果);(2)Zpar訓練過程中的迭代次數對最終的句法分析性能有重大的影響,因此在表6中我們也列出了在開發集上取得最優性能的迭代次數。

表6 向上學習句法分析在開發集上的結果

從實驗結果可以看出,自動標注數據對提高Zpar的性能具有正向作用。具體地說,當250K自動標注數據被用作額外訓練數據時,性能可以達到最高(85.5%);隨著更多自動標注數據的引入,性能反而呈現下降趨勢。此外,我們在實驗過程中發現了幾個值得討論的問題。第一,隨著訓練數據規模的擴大,訓練時間相應地大幅增加(表6中最后1列表示完成最優迭代次數所需要的訓練時間)。這是因為Zpar的訓練過程是一個在線學習(online learning)過程。學習算法需要對訓練數據重復多次掃描,每個被掃描到的句子都需要利用當前模型進行句法分析。即使采用了提前更新(early update)策略[16],這也是一個非常耗時的過程。正是由于這個原因,本實驗最多使用了750K自動標注數據。第二: 引入自動標注數據以后Zpar達到最優性能所需要的迭代次數明顯減小。Zpar的學習目標是使學習得到的模型盡可能地擬合訓練數據,即盡可能將訓練數據中所有的句子都進行正確的句法分析。然而自動標注數據中難免存在錯誤,導致Zpar的模型隨著迭代次數的增加而不斷地擬合錯誤點。因此Zpar在迭代次數達到某個值以后,性能會下降。總體來說,自動標注的數據加入得越多,達到最優性能所需要的迭代次數就越少。

4 討論

實驗結果表明,伯克利句法分析器輸出的自動標注數據可以有效改進詞性標注的質量(從句法分析的角度進行評價)。出于比較的目的,我們利用斯坦福標注系統實驗了自學習方法[17],即應用斯坦福標注系統給無標注數據自動賦予詞性然后以自動標注數據作為額外的訓練數據重新訓練斯坦福詞性標注器。結果表明,自學習方法既不能提高詞性標注的精準率也不能改善句法分析的性能。考慮到斯坦福詞性標注系統與伯克利句法分析器具有非常接近的詞性標注精準率,我們認為產生性能差異的可能原因在于伯克利句法分析器產生的詞性序列受到上層句法規則的約束。從這個角度來說,任何詞性標注和句法分析統一解碼的分析器,例如,Collins句法分析器[2]和Charniak句法分析器[3]可能都具有類似于伯克利分析器的效果。這將在我們的下一步工作中進行驗證。利用自動標注數據可以改進句法分析器的性能。但是該方法存在一些不足,例如上面已經討論的訓練時間過長,對自動標注數據中的錯誤容易過度擬合等問題。這是由Zpar的訓練過程本身的特點決定的。自動標注的數據中錯誤和噪音是不可避免的。可行的解決辦案是利用自動標注數據中的部分信息而不是整棵句法樹。因此,將來我們可以采用類似Chen等[18]所采用的子樹抽取技術。我們將在未來工作中進行討論。

5 結論

本文采用了向上學習方法和無標注數據改進移進-歸約句法分析的性能。具體地說,我們首先利用伯克利句法分析器對無標注數據進行自動分析,然后將得到的自動標注數據作為新的數據訓練詞性標注器和句法分析器。實驗結果表明,該方法可以使移進-歸約句法分析器的性能提高2.3%,最終達到82.4%。這個性能非常接近伯克利句法分析器的性能并且要優于其它的分析器。同時,我們得到的分析器具有速度上的明顯優勢(七倍速度于伯克利分析器)。

[1] Slav P, Dan K. Improved inference for unlexicalized parsing[C]//Proceedings of Huamn Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, 2007: 404-411.

[2] Michael C. Head-driven statistical models for natural language parsing [D]. Ph.D. Thesis, University of Pennsylvania, 1999.

[3] Eugune C. Maximum-entropy-inspired parser[C]//Proceedings of the 1st Meeting of the North American Chapter of the Association for Computational Linguistics, 2000: 132-139.

[4] 何亮,戴新宇,周俊生,等.中心詞驅動的漢語統計句法分析模型的改進[J]. 中文信息學報,2008,22(4):3-9.

[5] 冀鐵亮,穗志方.詞匯化句法分析與子語類框架獲取的互動方法[J].中文信息學報,2007,21(1): 120-126.

[6] Kenji S, Alon L. A classifier-based parser with linear run-time complexity[C]//Proceedings of the 9th International Workshop on Parsing Technologies, 2005: 125-132.

[7] Zhang Y, Stephen C. Transition-based parsing of the Chinese Treebank using a global discriminative model[C]//Proceedings of the 11th International Workshop on Parsing Technologies,.2009: 162-171.

[8] 馬驥,朱慕華,肖桐,等.面向移進-歸約句法分析器的單模型系統整合算法[J]. 中文信息學報,2012,26(3): 9-15.

[9] Jun H, Takuya M, Yusuke M, et al. Incremental joint POS tagging and dependency parsing in Chinese[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing, 2011: 1216-1224.

[10] Slav P, Pi-Chuan Chang, Michael R, Hiyan A. Uptraining for accurate deterministic question parsing[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, 2010: 705-713.

[11] 李航. 統計學習方法[M].北京: 清華大學出版社,2012.

[12] Nianwen Xue, Fei Xia, Fu dong Chiou, et al. The Penn Chinese Treebank: phrase structure annotation of a large corpus [J], Natural Language Engineering, 11(20),207-238.

[13] Kristina T, Christopher D M. Enriching the knowledge sources used in a maximum entropy part-of-speech tagger[C]//Proceedings of the 2003 Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, 2003: 252-259.

[14] Dan B. On the parameter space of generative lexicalized statistical parsing models[D], Ph.D. thesis, University of Pennsylvania,1999.

[15] Eugune C, Mark J. Coarse-to-fine n-best parsing and MaxEnt discriminative reranking[C]//Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics, 2005, 173-180.

[16] Michael C, Brian R. Incremental parsing with the perceptron algorithm[C]//Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, 2004.

[17] Mark S, Steven B, Jeremiah C, et al. CLSP WS-02 final report: semi-supervised training for statistical parsing[R]. Technical Report, Johns Hopkins University.

[18] Wenliang Chen, Jin’ichi K, Kiyotaka U, et al. Improving Dependency parsing with subtrees from auto-parsed data[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, 2009: 570-579.

[19] http://nlp.cs.nyu.edu/evalb[OL]

Improving Shift-Reduce Chinese Parsing with an Uptraining Approach

ZHU Muhua, WANG Huizhen, ZHU Jingbo

(Northeastern University NLP Lab, Shenyang, Liaoning 110819, China)

In practical applications such as parsing the Web, the shift-reduce parser is often preferred due to its linear time complexity. To be further comparable to the state-of-the-art parsers publicly available, this paper adopts the uptraining approach to improve the performance of the shift-reduce parser. The basic idea of uptraining is to apply a high-accuracy parser (such as the Berkeley parser used in this paper) to automatically analyze unlabeled data and then the new labeled data is applied as additional training data to build a POS tagger and the shift-reduce parser. Experimental results on Penn Chinese Treebank show that the approach can improve the shift-reduce parsing to 82.4% (with an absolute improvement of 2.3%), which is comparable to the Berkley parser on the same data and outperforms other state-of-the-art parsers.

Chinese syntactic parsing; shift-reduce parsing; Berkeley parser; uptraining; unlabeled data

朱慕華(1981—),博士,主要研究領域為自然語言處理。E?mail:zhumuhua@gmail.com王會珍(1980—),博士,講師,主要研究領域為自然語言處理,文本分析,知識圖譜。E?mail:wanghuizhen@mail.neu.edu.cn朱靖波(1973—),博士,教授,博士生導師,主要研究領域為自然語言處理。E?mail:zhujingbo@mail.neu.edu.cn

1003-0077(2015)02-0033-07

2012-06-22 定稿日期: 2012-09-04

國家自然科學基金(61073140,61100089),中央高校基本科研業務費專項資金(N110404012),高等學校博士學科點專項科研基金(20100042110031)

TP391

A

猜你喜歡
實驗系統
記一次有趣的實驗
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
微型實驗里看“燃燒”
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
做個怪怪長實驗
半沸制皂系統(下)
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 国产精品毛片一区视频播| 国产黑丝一区| 国产成人精品亚洲日本对白优播| 99无码中文字幕视频| 亚洲综合在线网| 最近最新中文字幕免费的一页| a亚洲视频| 992Tv视频国产精品| 国产真实乱子伦视频播放| 日韩激情成人| 国产91丝袜| 乱人伦99久久| 亚洲高清中文字幕在线看不卡| 日韩无码黄色网站| 国产成人无码AV在线播放动漫| 91精品视频在线播放| 欧美乱妇高清无乱码免费| 亚洲精品欧美日本中文字幕| 欧美日韩亚洲综合在线观看| 毛片网站观看| 亚洲天天更新| h网站在线播放| 国产免费怡红院视频| 亚洲日本www| 国产精品999在线| 亚欧成人无码AV在线播放| 日韩欧美中文| 香蕉色综合| 青青久视频| 久久久久久午夜精品| 国产精品亚洲五月天高清| 婷婷久久综合九色综合88| 激情影院内射美女| 亚洲妓女综合网995久久| 动漫精品中文字幕无码| 手机精品福利在线观看| 欧美区国产区| 国产精品免费久久久久影院无码| 全免费a级毛片免费看不卡| 99re热精品视频中文字幕不卡| 亚洲欧美h| 国产精品女熟高潮视频| 欧美成人第一页| 婷婷午夜影院| 国产真实乱子伦精品视手机观看| 欧美一区二区丝袜高跟鞋| 黄片在线永久| 日韩国产欧美精品在线| 国产亚洲精品97在线观看| 色成人亚洲| 亚洲视频免费在线看| 欧美精品亚洲精品日韩专区| 国产在线八区| 伊在人亚洲香蕉精品播放 | 亚洲愉拍一区二区精品| 欧美国产在线看| 日本高清成本人视频一区| 色九九视频| 88av在线| 国内嫩模私拍精品视频| 四虎影视8848永久精品| 久久国产精品电影| 亚国产欧美在线人成| 欧美成在线视频| 国产精品综合色区在线观看| 日本不卡视频在线| 99精品福利视频| 不卡视频国产| 国产网站免费观看| 国产特级毛片| 毛片免费试看| 国产农村妇女精品一二区| 高清乱码精品福利在线视频| av在线人妻熟妇| 成人第一页| 中文字幕丝袜一区二区| 好久久免费视频高清| 高清国产在线| 人妻91无码色偷偷色噜噜噜| 婷婷亚洲视频| 制服丝袜国产精品| 色综合日本|