中英平行短語依存樹庫構(gòu)建

2014-09-07 10:24:55曹井香,黃德根,王偉,王帥軍

大連理工大學(xué)學(xué)報 2014年1期

關(guān)鍵詞：語義英文文本

曹井香, 黃德根, 王偉, 王帥軍

( 1.大連理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院, 遼寧大連 116024;2.大連理工大學(xué) 外國語學(xué)院, 遼寧大連 116024 )

電子與信息工程、管理工程

中英平行短語依存樹庫構(gòu)建

曹井香*1,2, 黃德根1, 王偉1, 王帥軍2

( 1.大連理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院, 遼寧大連 116024;2.大連理工大學(xué) 外國語學(xué)院, 遼寧大連 116024 )

提出了面向翻譯研究的融合短語結(jié)構(gòu)樹和依存分析的短語依存樹庫(phrase dependency treebank, PDT)的構(gòu)建思想,闡述了中英平行PDT的構(gòu)建方法．PDT 采用“扁平結(jié)構(gòu)優(yōu)先”的短語結(jié)構(gòu)樹和“基于語義”的依存句法功能標(biāo)注原則,有別于傳統(tǒng)依存分析的完全二分法．大連理工大學(xué)中英平行PDT(DUT-CEPDT)的生語料取自文本質(zhì)量較高的政府工作報告和白皮書及其官方譯文．首先,對文本進行分詞和詞性標(biāo)注之后,利用專為語言學(xué)家開發(fā)的輔助工具LingTreeConstructor構(gòu)建中文和英文的單語PDT；之后,在兩個單語PDT之間從篇章到詞的節(jié)點進行對齊,這種多層次的立體對齊比只有詞、短語或句子的單層對齊能提供更豐富的翻譯知識；最后,依據(jù)FrameNet進行雙語平行的框架語義角色標(biāo)注．DUT-CEPDT將為譯員培訓(xùn)和機器翻譯研究提供所需的標(biāo)準語料．

短語依存樹庫；機器翻譯；節(jié)點對齊；句法功能；語義角色

0 引言

當(dāng)前機器翻譯取得的進展大都是基于統(tǒng)計的方法,或者是統(tǒng)計和規(guī)則相結(jié)合的方法．機器翻譯研究所依賴的標(biāo)注語料資源多是單句庫,句子一般都不能太復(fù)雜．隨著句子長度和復(fù)雜度的提高,人譯的難度加大,機譯則更困難．

目前中英平行語料庫有Babel語料庫,它有句對齊和詞性標(biāo)注,語料取自英文報刊文章及其中譯版,主要用于中英語言對比研究[1]；專利語料庫,由中國專利的中英文摘要或?qū)＠杏⑽目杀容^語料挖掘的句對構(gòu)建,句子結(jié)構(gòu)復(fù)雜,但是都沒有深加工[2]．目前深加工的中文單語樹庫有美國賓州中文樹庫[3]、臺北“中研院”Sinica中文樹庫[4]、清華大學(xué)中文樹庫[5]和哈爾濱工業(yè)大學(xué)中文依存樹庫[6]等．英文單語樹庫有很多,應(yīng)用最廣泛的是美國賓州英文樹庫[7]．深加工的雙語平行樹庫有布拉格捷克語-英語平行依存樹庫(Prague Czech-English dependency treebank, PCEDT),可把賓州英文樹庫的華爾街日報子庫翻譯成捷克語句子,同時實現(xiàn)了雙語依存樹的節(jié)點對齊[8]．

隨著我國改革開放和對外交往的不斷發(fā)展,雙語語料文本越來越多,如產(chǎn)品說明書、文件和論文的摘要、旅游景點介紹等,但這些譯文大多是一個門面的裝飾,譯文質(zhì)量參差不齊,不能作為翻譯學(xué)習(xí)的樣本．PCEDT專門把賓州英文樹庫翻譯成捷克語而沒有采用現(xiàn)有譯文語料,考慮的原因之一就是能夠收集到的翻譯文本翻譯太自由,意譯和編譯普遍,很難實現(xiàn)深度的平行．而政府文件的官方翻譯是要向外界傳達國家重要信息的,翻譯質(zhì)量很高．這些文本是譯員學(xué)習(xí)的樣本,也應(yīng)該作為機譯學(xué)習(xí)的樣本,以提高機譯的質(zhì)量．因此,本文嘗試利用人譯的思路深度加工這些雙語文本,并實現(xiàn)最大程度的對齊,為機器翻譯研究構(gòu)建一個高質(zhì)量的學(xué)習(xí)和評測語料庫．

本文提出短語依存樹庫(phrase dependency treebank, PDT)的構(gòu)建思想,闡述大連理工大學(xué)中英平行短語依存樹庫(DUT-CEPDT)的構(gòu)建過程,介紹比傳統(tǒng)句對齊或詞對齊更徹底的從篇章到詞的節(jié)點翻譯對齊．

1 輔助工具和資源

1.1 LingTreeConstructor的改造

LingTreeConstructor是由丹麥計算語言學(xué)家Sandborg-Petersen開發(fā)的語言學(xué)句法樹構(gòu)建軟件[9],該軟件專門為語言專業(yè)人員設(shè)計,其豎排圖示與其他句法樹可視化軟件的橫排圖示不同,方便大段文本可視化加工(圖1)．

圖1 句法樹構(gòu)建工具LingTreeConstructor

對這個軟件的改造主要是增加以下功能:分離語料中的詞性標(biāo)注；實現(xiàn)平行翻譯對齊節(jié)點連結(jié)；增加傳統(tǒng)括號格式句法樹輸出,方便后期機器學(xué)習(xí)．

1.2 FrameNet的引入

FrameNet是美國加州大學(xué)伯克利分校創(chuàng)建的,用于標(biāo)注中心語的語義類別及附屬語與中心語的語義關(guān)系,也就是語義角色標(biāo)注(semantic role labeling)[10]．目前FrameNet已建框架還很有限．語義標(biāo)注是一項巨大的工程,為了確保標(biāo)注的質(zhì)量,按詞的語義類別分組進行,即不是一次性完成文本中所有詞的語義標(biāo)注,而是一次性完成某組同一義類的詞的標(biāo)注,然后逐步完成所有詞的標(biāo)注．表1是FrameNet總結(jié)的“保護”類詞(bulwark n, cover n, guard v, insulate v, safeguard n, protect v, protection_(entity) n, protection_(event) n, safeguard v, secure v, shelter n, shelter v, shield n, shield v)的框架．

引入語義角色標(biāo)注是要在句法功能標(biāo)注依存關(guān)系以外添加語義關(guān)系．不同語種之間表達同一意思的句法結(jié)構(gòu)和功能會有所不同,但語義關(guān)系應(yīng)該是基本相通的,這也是翻譯的基本假設(shè),即相信兩種語言可以表達相同的意思．

表1 保護語義的框架

2 DUT-CEPDT的構(gòu)建思想和過程

2.1 政府文件文本及其預(yù)處理

原始文本從中華人民共和國中央人民政府官方網(wǎng)站(http://www.gov.cn)下載,目前只用了政府工作報告(Report on the Work of the Government, 2000～2012,每年一份)和白皮書(White Papers, 2000～2012,每年數(shù)目不等),英文788 670 詞,28 569句；中文1 189 161字,33 318 句．中英文皆為官方發(fā)布,語言正式,句式復(fù)雜,內(nèi)容廣泛．比較政府文件翻譯和其他文本翻譯,可以觀察到政府文件翻譯高度忠實于原文,除了增加一些注釋外,幾乎沒有改動．

中文文本分詞和詞性標(biāo)注使用的是大連理工大學(xué)開發(fā)的NiHao語料標(biāo)注系統(tǒng)[11],分詞標(biāo)準是北京大學(xué)的《規(guī)范2003》．分詞結(jié)果如下例:

現(xiàn)在/NOUN-ADV, /WD 我/PERSON-PRON 代表/NVERB 國務(wù)院/ORG, /WD 向/PREP 大會/COM-NOUN 作/COM-VERB 政府/COM-NOUN 工作/NVERB-N 報告/NVERB-N, /WD 請/COM-VERB 各位/PERSON-PRON 代表/NVERB 審議/NVERB, /WD 并/CNJ 請/COM-VERB 全國/COM-NOUN 政協(xié)/ORG 委員/COM-NOUN 提出/NVERB 意見/COM-NOUN．/WJ

對英文文本進行詞性標(biāo)注,使用的是英國蘭卡斯特大學(xué)UCREL中心[12]開發(fā)的CLAWS7標(biāo)注器,標(biāo)注結(jié)果如下例:

On_II31 behalf_II32 of_II33 the_AT State_NN1 Council_NN1, _, I_PPIS1 now_RT present_VV0 to_II you_PPY my_APPGE report_NN1 on_II the_AT work_NN1 of_IO the_AT government_NN1 for_IF your_APPGE deliberation_NN1 and_CC approval_NN1 ._. I_PPIS1 also_RR invite_VV0 the_AT members_NN2 of_IO the_AT National_JJ Committee_NN1 of_IO the_AT Chinese_JJ People_NN ′s_GE Political_JJ Consultative_JJ Conference_NN1 (_( CPPCC_NP1 )_) to_TO submit_VVI comments_NN2 and_CC suggestions_NN2 ._.

之所以選擇這兩個標(biāo)注器,是因為它們的詞性分類都很細,包含了較豐富的語義和語法信息,有利于后期的機器學(xué)習(xí)．

另外,對比上例中的中英兩個版本,中文只有1個句末標(biāo)點,而英文有2個；中文用簡稱“全國政協(xié)委員”,而英文用全稱the members of the National Committee of the Chinese People′s Political Consultative Conference (CPPCC)．這兩個現(xiàn)象在中英翻譯中非常普遍,因此要做的是與常見的單句對齊或詞對齊不同的節(jié)點對齊．

2.2 DUT-CEPDT的句法標(biāo)注特點

當(dāng)前的句法分析主要有兩種形式:一種是傳統(tǒng)的短語結(jié)構(gòu)分析；另一種是依存關(guān)系分析．短語結(jié)構(gòu)分析不直接包含依存關(guān)系,現(xiàn)有把短語結(jié)構(gòu)樹庫轉(zhuǎn)換為依存樹庫的研究都需要配合30條左右的轉(zhuǎn)換規(guī)則,這些轉(zhuǎn)換規(guī)則是短語結(jié)構(gòu)樹庫以外的知識．但是依存樹庫可以直接根據(jù)繼承推導(dǎo)來實現(xiàn)短語結(jié)構(gòu),不過也只能得到無標(biāo)注的層次劃分而已,不能得到結(jié)構(gòu)類型標(biāo)注．結(jié)構(gòu)類型也需要外部的知識規(guī)則來判定,目前這類研究很少見．DUT-CEPDT的句法分析形式融合了這兩種句法分析的結(jié)果,既保留了傳統(tǒng)的短語結(jié)構(gòu)樹,又標(biāo)注了依存方向和依存關(guān)系．短語結(jié)構(gòu)的保留是為了節(jié)點對齊的塊翻譯研究；依存方向和關(guān)系可用于翻譯的調(diào)序問題研究．

2.2.1 短語依存樹的節(jié)點類型當(dāng)前自然語言處理領(lǐng)域的結(jié)構(gòu)樹都是以句子為最大單位．平行語料庫多以翻譯句對為計量單位．然而語言的理解和翻譯經(jīng)常需要句子之外的上下文語境,保留原文篇章的完整更符合人譯的習(xí)慣．為了探討擬合人譯的機器翻譯方法研究,篇章的根節(jié)點為text,定義的節(jié)點結(jié)構(gòu)類型自底向上依次有:

(1)詞word,中文分詞和詞性標(biāo)注,英文詞性標(biāo)注之后,以空格為界的最小單位．本文不對詞進行判定,而是直接采納標(biāo)注工具的標(biāo)注結(jié)果．詞是樹庫的終節(jié)點．

(2)短語詞phrasal word,書寫有空格為界的幾個詞,但從語義和用法看是一個整體,都是結(jié)構(gòu)相對穩(wěn)固的習(xí)語或成語．CLAWS7在詞性標(biāo)注階段就有標(biāo)注,如前文例子中的On_II31 behalf_II32 of_II33、中文“在中國共產(chǎn)黨的領(lǐng)導(dǎo)下”中的“在……下”,又如中文的“特別是”“環(huán)比”等．中文的原始文本無分詞標(biāo)識的,不同分詞方法和工具對同一文本的標(biāo)注可能不同．短語詞的構(gòu)建是對分詞結(jié)果的一個修正,就是把不該切分的單位復(fù)合成一個單位．短語詞的可操作性判別有3個標(biāo)準:①朗讀和口語中的語感,是不可停頓的整體,異常停頓后會感覺表達不流暢；②內(nèi)部結(jié)構(gòu)關(guān)系不好確定,需要查閱詞源信息；③譯文是一個詞．特征①和②是最重要的,③只做參考．短語詞按整體的功能以詞性分類,如短語名詞、短語動詞、短語連詞等(如圖1左下角的PhrV、PhrII、PhrRR、PhrCC)．

(3)短語phrase,由兩個及以上詞組成且不能構(gòu)成小句的非短語詞結(jié)構(gòu)．短語是介于小句和詞之間的單位,幾個詞是否能夠組合成短語,主要看這個結(jié)構(gòu)在語義上是否相對完整,同時可以整體被替換或移動．短語基本按傳統(tǒng)語法功能分類(如圖1中的NP、AP等)．謂語動詞,包括助動詞和主動詞,設(shè)為PredVP,其賓語、狀語和補語分開另設(shè),這個是以動詞為中心語的依存設(shè)計．

(4)小句clause,以主謂結(jié)構(gòu)定義．英文小句是以謂語動詞為中心語的結(jié)構(gòu)；中文小句的主語不是必要成分,主要參照的是謂語,主語承前省略的并列謂語結(jié)構(gòu)也為小句．主語省略的小句與非謂語動詞短語的區(qū)別在于非謂語動詞有上一層小句作為父節(jié)點,而省略主語的小句通常是并列謂語．

(5)句子sentence,以原文的書寫為準．中文以句末標(biāo)點(。？！……)定義,英文以句首字母大寫和句末標(biāo)點(.?!…)定義．小句加句末標(biāo)點是句子,短語加句末標(biāo)點也是句子．

(6)句群group sentence,在翻譯對齊中,中英文句子會有一對多、多對一的時候,句群是對應(yīng)同一句子的多個句子．這個節(jié)點標(biāo)注在雙語節(jié)點對齊的工序中補加．

(7)段落paragraph,以原文的排版為準,如首行縮進、換行．標(biāo)題、獨立呼語行(如“各位代表,”,“各位來賓,”)等都劃為段落．

以上的節(jié)點類型定義中,段落和句子是完全按形式定義的,小句、短語和短語詞是按語義和內(nèi)部結(jié)構(gòu)定義的,而句群是按翻譯的對齊結(jié)果定義的．標(biāo)點符號在分詞處理中與詞相同對待,因此在終節(jié)點上歸入詞一級．定義短語詞是為了高效處理一些已經(jīng)石化的習(xí)語,免去對其詞源歷史的追蹤,這些短語詞通常被譯成一個詞；定義句群是為了研究翻譯過程中句子之外結(jié)構(gòu)的調(diào)整,合譯與分譯是人譯經(jīng)常采用的處理技巧．

2.2.2 “扁平結(jié)構(gòu)優(yōu)先”的短語結(jié)構(gòu)分析本文的短語結(jié)構(gòu)分析基本相當(dāng)于傳統(tǒng)的短語成分層次分析．符合英語習(xí)慣的是中心語先與前置附屬語組合,然后再與后置附屬語組合．符合漢語習(xí)慣的是中心語先與近的附屬語組合,再與較遠的附屬語組合．圖2所示的Stanford parser對以下句對的分析結(jié)果就體現(xiàn)了這種單語分析的特點．

“十一五”時期是我國發(fā)展進程中極不平凡的五年。The Eleventh Five-Year Plan period was a truly extraordinary time in the course of the country′s development.

(a) 中文

(b) 英文

圖2 斯坦福句法分析結(jié)果

Fig.2 Stanford parser result

英文a truly extraordinary time 先組合,然后再與 in the course of the country′s development 組合；而中文 “我國發(fā)展過程中”先與 “極”“不”“平凡”組合,再與“的”組合之后才與“五年”組合．都是先就近組合再與較遠的附屬語組合．這樣的結(jié)構(gòu)分析除了末端節(jié)點的詞對齊之外,就只有根節(jié)點、主語節(jié)點和謂語節(jié)點3個能對齊的了．但是如果盡量采取前后修飾語扁平處理的話,可對齊的節(jié)點就更多,對翻譯研究有益,也更忠實于深層語義結(jié)構(gòu)．

因此,為了服務(wù)于翻譯研究,本文不采用把句子首先劃分為主語和謂語的傳統(tǒng)二分法,而是以主句謂詞為中心語(head),傳統(tǒng)語法的主語、賓語、狀語和補語都是同級對待的,都是謂詞中心語的附屬語(dependent)．而且每個結(jié)構(gòu)的前置附屬語和后置附屬語也是同一層的,而不是前后依次嵌套的．這就是本文提出的“扁平結(jié)構(gòu)優(yōu)先”原則,能并列的就不分層,減少層次,這樣有助于后期的節(jié)點對齊,有助于翻譯調(diào)序處理[11],也有助于探索多語統(tǒng)一的分析標(biāo)注體系．圖3是依據(jù)“扁平結(jié)構(gòu)優(yōu)先”原則對圖2的例子進行人工分析的結(jié)果,詞性標(biāo)注為本文2.1所述標(biāo)注器的標(biāo)注結(jié)果．

(a) 中文

(b) 英文

圖3 “扁平結(jié)構(gòu)優(yōu)先”原則

Fig.3 Flat structure preference rule

這個處理方法有別于目前單語依存樹庫構(gòu)建思想．在單語依存樹庫構(gòu)建中,很多的課題是研究把扁平結(jié)構(gòu)進行二分處理的．本文從探索多語統(tǒng)一標(biāo)注體系和翻譯研究的角度出發(fā),最大限度保留扁平結(jié)構(gòu),以實現(xiàn)多語的一致性和翻譯的靈活性．2.2.3 基于語義的依存方向標(biāo)注本文的依存句法關(guān)系標(biāo)注是指分層標(biāo)注中心語及其附屬語的句法關(guān)系,也就是標(biāo)注本層結(jié)構(gòu)的中心語以及附屬語組塊與中心語的關(guān)系．依存處理是以格語法為依據(jù)的,即小句(clause)的中心語(head)是謂語動詞,主語、賓語、狀語、補語都是附屬語．單語依存樹庫的構(gòu)建通常是為了實現(xiàn)一致的二分法依存,很多虛詞甚至是標(biāo)點符號被認定為中心語,比如連詞、介詞甚至是冠詞．

Chomsky學(xué)派就提出用DP(限定短語)替代NP(名詞短語)的語法理論,提出了限定詞(如a, the, this, his)是傳統(tǒng)名詞短語的中心語的說法,而沒有限定詞的泛指名詞短語則引入空語類(null)來解釋[13]．包括漢語在內(nèi)的很多語言都被探討,試圖說明DP是比NP更有解釋力的普遍語法．介詞(前置詞)短語結(jié)構(gòu)(prepositional phrase, PP)已經(jīng)被廣泛接受,普遍把介詞當(dāng)成PP的中心語,現(xiàn)有文獻中的依存也都是把介詞當(dāng)成中心語的,在介賓結(jié)構(gòu)中,賓語是附屬語．還有并列結(jié)構(gòu)和同位語結(jié)構(gòu),起初是規(guī)定連詞或標(biāo)點符號為中心語,現(xiàn)在普遍規(guī)定首個或末尾組分為中心語．因此賓州依存樹庫在給出typed dependency 之外還有dependency collapsed[14-15]．而Prague依存樹庫則在analytical level之外又另設(shè)一層tectogrammatical level[8]．這些處理的核心都是簡化或者刪除虛詞為中心語的依存關(guān)系表示,突出語義層面的關(guān)系．

針對以上情況,為了方便翻譯研究,本文對中心語,即依存方向,作了一些不同于傳統(tǒng)語法,也不同于大多數(shù)現(xiàn)有依存樹的處理．

(1)短語詞phrasal word,是補充的在短語一級定義的與詞相同的結(jié)構(gòu)．在結(jié)構(gòu)和依存分析中,把短語詞看成是一個詞,不再分析．同時像a lot of, a number of 等短語量詞與名詞組合時,這些量詞是附屬語,而后面的名詞是中心語．

(2)謂語動詞短語PredVP,就是小句謂語動詞,包含助動詞．主動詞是中心語,這也是與其他依存句法分析中把助動詞定義為中心語不同的處理．

(3)屬格短語PossP(possessive phrase),英文詞性標(biāo)注把 ′s分隔成詞,名詞或名詞短語與′s組合后就是PossP．屬格短語的中心語是前面的名詞或名詞短語．

(4)中文“的”字結(jié)構(gòu)deP,中文分詞把“的”分隔成詞,“的”字前面的部分是中心語．

(5)中文方位短語LocP(locative phrase),就是名詞+“里、中、內(nèi)”等,前面沒有“在”的情況．方位詞前面的部分是中心語．

本文規(guī)定的中心語都是語義中心語,而非傳統(tǒng)句法依存中心語．世界不同語種之間的差異重在語法虛詞的使用,翻譯的核心是語義轉(zhuǎn)達．以中英語言為例,英文譯成中文時冠詞、介詞和助動詞通常被省略,而中文譯成英文時需要添加．這些虛詞通常都沒有內(nèi)含嵌套的結(jié)構(gòu),本文把這些虛詞附屬語與中心語的依存關(guān)系定義為句法限定語(determiner)和連接語(link)．

基于語義的依存方向標(biāo)注簡化了現(xiàn)有依存標(biāo)注因部分結(jié)構(gòu)句法依存和語義依存方向相反而使得全庫需要用兩套標(biāo)注的煩瑣,而且這樣的理解也是傳統(tǒng)語言學(xué)的主張．

2.2.4 并列及同位結(jié)構(gòu)的多中心分析并列結(jié)構(gòu)和同位語結(jié)構(gòu)是依存關(guān)系構(gòu)建中需要特殊處理的結(jié)構(gòu)．為了滿足二分法的要求,目前的處理方法可以歸納為“就近原則”,即靠近父節(jié)點中心的部分為中心,Stanford parser就是這樣處理的．

圖4中的每對依存關(guān)系中前面的是中心語,后面的是附屬語,圖4(a)是Stanford的分析結(jié)

國防和軍隊現(xiàn)代化建設(shè)取得重大成就。Great progress was made in the modernization of national defense and the army.

(a) 句法中心與并列單中心分析

(b) 語義中心與并列多中心分析

果．中文“國防和軍隊”的依存中心是“軍隊”,“國防”與“軍隊”的關(guān)系是conj,“和”與“軍隊”的關(guān)系是cc．英文“national defense and the army”的依存中心是defense,national、and和army都是defense 的附屬語．把并列關(guān)系和修飾關(guān)系等同對待,在翻譯對齊上就會造成混亂．允許多中心的分層次依存,就是“國防和軍隊”中“國防”和“軍隊”都是中心,“和”是附屬于兩個中心的．這個NP再附屬于“現(xiàn)代化”,意思是“國防現(xiàn)代化和軍隊現(xiàn)代化”,再一起附屬于“建設(shè)”．這種并列的結(jié)構(gòu)和理解在翻譯過程中是時常會遇到的．

圖4(b)是根據(jù)DUT-CEPDT構(gòu)建結(jié)果的等同表示,不含短語結(jié)構(gòu)信息．與圖4(a)的主要區(qū)別就在于并列結(jié)構(gòu)的多中心和介詞的非中心語處理,即介詞、連詞和冠詞等語法功能詞都在依存關(guān)系括號的后位．同時對中文的語義依存分析有一處不同,即圖4(a)認為“現(xiàn)代化”和“國防與軍隊”同為“建設(shè)”的修飾語,而圖4(b)認為“現(xiàn)代化”是“國防和軍隊”的中心語,“建設(shè)”只是“現(xiàn)代化”的中心語．

2.2.5 句法依存關(guān)系類別本文的單語標(biāo)注階段還需要對同級關(guān)系進行依存關(guān)系類別標(biāo)注．句法依存關(guān)系類別基本是以傳統(tǒng)的句法功能定義的．小句(句子)的內(nèi)部句法依存關(guān)系類別有:主語(subject)、謂語(predicate)、直接賓語(object)、間接賓語(indirect object)、謂語狀語(adjunct)、小句狀語(disjunct)、插入語(parenthesis/expletives)、呼語(vocative)；短語的內(nèi)部句法功能類別有:中心語(head)、內(nèi)容附屬語(modifier)、虛詞限定語(determiner)和連結(jié)語(link)．連結(jié)語包括并列連詞、從屬連詞、標(biāo)點符號和中文“的”．虛詞限定語是指英文的冠詞、形容詞性物主代詞等．句法依存關(guān)系是在單語處理階段標(biāo)注的．

2.3 翻譯節(jié)點對齊

2.3.1 翻譯節(jié)點對齊設(shè)計目前平行語料對齊是段落、句子、短語或者詞對齊．本文希望實現(xiàn)不同層級的最充分對齊,即節(jié)點對齊．也就是比照雙語文本,節(jié)點所表示的結(jié)構(gòu)整體互譯,連結(jié)后該節(jié)點保存對譯樹庫中的節(jié)點ID,既方便翻譯知識學(xué)習(xí),也方便后期的語義角色平行標(biāo)注．本文認為除文學(xué)和廣告文本翻譯外,絕大部分翻譯的本質(zhì)是語義的翻譯,語義是基本對應(yīng)的,不同的是語言形式,其深層結(jié)構(gòu)對應(yīng),表層結(jié)構(gòu)不同．圖5是對以下句子的節(jié)點對齊示意圖．

我們在國際事務(wù)中發(fā)揮重要的建設(shè)性作用,有力維護國家主權(quán)、安全和發(fā)展利益,全方位外交取得重大進展。We played an important and constructive role in international affairs; effectively safeguarded our national sovereignty, security and development interests; and made major progress in our all-around diplomacy.

(a) 中文樹

(b) 英文樹

圖5 節(jié)點翻譯對齊

Fig.5 Translation node alignment

包括標(biāo)點符號在內(nèi),中文樹共27個終節(jié)點,英文樹共30個終節(jié)點,中文多了“的”和“中”,英文多了an、our、in和2個and．對齊的節(jié)點共41對．在子節(jié)點與父節(jié)點的連線中,點虛線表示虛詞附屬語,短畫線表示實詞附屬語,實線表示中心語．這些句法關(guān)系都是相對于同一父節(jié)點的同級關(guān)系．

對齊連結(jié)就是在兩個樹庫中可以對譯的節(jié)點之間建立關(guān)聯(lián)．圖5中每個節(jié)點只保留了一個主參數(shù),葉子節(jié)點就是原詞,詞性標(biāo)注省略,中間節(jié)點是短語類名,所有節(jié)點的句法功能標(biāo)注和語義角色標(biāo)注都省略．中括號內(nèi)信息是該節(jié)點在單語庫的ID和對譯節(jié)點在對譯單語庫中的ID．如中文節(jié)點C17對譯英文節(jié)點E12,即“重要的建設(shè)性作用”對譯“an important and constructive role”．

傳統(tǒng)短語結(jié)構(gòu)分析法首先是主語謂語切分,但本文采用“扁平結(jié)構(gòu)優(yōu)先”原則．以E38和C39節(jié)點表示的小句為例, “全方位外交取得重大進展”和“and made major progress in our all-round diplomacy”的主語是不一樣的,中文的主語“全方位外交”對譯是“in our all-round diplomacy”,是狀語．如果把它們放在同一層級,在節(jié)點翻譯后調(diào)整位置就完成翻譯了．

自然文本的語篇對齊,句子層面會有一對多、多對一情況．以較長文本為準,對譯的多句添加一個句群節(jié)點與之對齊,可用于研究翻譯中的斷句與合句規(guī)則學(xué)習(xí)．

2.3.2 節(jié)點對齊操作節(jié)點對齊人工操作輔助工具是作者自行開發(fā)的．

圖6中的左上方實現(xiàn)詞性提取和轉(zhuǎn)換功能,右上方實現(xiàn)對齊操作．主框左右便是雙語樹庫了．每個節(jié)點可收可放,已經(jīng)對齊的顯示為綠色(文中深色部分),未對齊的節(jié)點為白色．選中左右要對齊的節(jié)點,點擊“建立關(guān)聯(lián)”,兩個節(jié)點的樹庫ID碼便建立了關(guān)聯(lián),保存在關(guān)聯(lián)文件里．

圖6 節(jié)點對齊標(biāo)注工具

關(guān)聯(lián)文件表示以下對齊:

10010 Text,10010 Text,

10011 各位,10011 Fellow,

10012 代表,10012 Deputies 等

2.4 語義依存關(guān)系標(biāo)注

對齊的節(jié)點連結(jié)之后,分層標(biāo)注附屬語與中心語的語義依存關(guān)系．由于翻譯節(jié)點之間建立關(guān)聯(lián),在語義角色標(biāo)注中能實現(xiàn)雙語同時標(biāo)注,源語與譯語的語義關(guān)系是相同的．傳統(tǒng)依存關(guān)系把句法關(guān)系和語義關(guān)系融合成一個標(biāo)注符,也就是說依存關(guān)系標(biāo)注的一個特征值里包含了句法和語義信息．本文的標(biāo)注把句法功能和語義關(guān)系分開,句法功能在單語庫標(biāo)注,語義關(guān)系可在關(guān)聯(lián)之后標(biāo)注．因為翻譯的前提就是假設(shè)兩個文本意思相同,那么同一中心語的附屬語的語義角色也相同,中文的時間不會變成英文的地點,但是中文的主語很可能譯成英文的狀語．標(biāo)注語義關(guān)系為“的”的區(qū)別于同一級附屬語的不同元素,為翻譯規(guī)則學(xué)習(xí)增加一項可用的特征參數(shù)．

FrameNet團隊為相同語義類別的詞歸納框架,歸納了框架的主要元素和次要元素[10]．框架元素就是該框架中心語的附屬語．該團隊已經(jīng)標(biāo)注了大量的框架,但是還有很多需要總結(jié)．框架的總結(jié)依據(jù)語料庫的檢索行(concordance)．常用的語料庫檢索工具目前有AntConc、WordSmith Tools和ParaConc等．雖然ParaConc是針對平行語料的,但輸入語料要求已經(jīng)句對齊．本文保留了篇章的原貌,沒有先進行句對齊,而是采用語料庫語言學(xué)領(lǐng)域使用最多的WordSmith Tools 5.0[16]．圖7是protect的檢索行界面截圖．

圖7 WordSmith Tools 5.0 檢索

圖8是表1所示protect框架的標(biāo)注實例．根據(jù)目標(biāo)詞在檢索行所在語境的附屬語類別,歸納出語義框架,特別是該框架的框架元素．語義依存關(guān)系標(biāo)注,也就是語義角色標(biāo)注,是非常復(fù)雜而艱巨的任務(wù),需要分批次逐個完成．

圖8 “protect”語義角色標(biāo)注實例

3 DUT-CEPDT的主要特點

DUT-CEPDT的主要特點歸納如下:

(1)翻譯節(jié)點多層對齊．這個是文獻中還未見到的．它的優(yōu)勢在于對齊徹底,計劃用于各個層次的翻譯知識獲取、詞語翻譯、短語翻譯、小句翻譯等．

(2)短語結(jié)構(gòu)語法與依存語法相結(jié)合．常規(guī)依存樹是單點之間的聯(lián)系,只能通過繼承來實現(xiàn)層次連接,因此所有結(jié)構(gòu)都只有唯一中心,并列結(jié)構(gòu)也要先單點連結(jié)；同位語結(jié)構(gòu)甚至把標(biāo)點符號作為中心．雖然在形式上一致了,但在語言理解上與人的直覺理解相悖,在翻譯過程中也會出現(xiàn)困難．因此本文采用“扁平結(jié)構(gòu)優(yōu)先”的短語結(jié)構(gòu)分析和基于語義的依存分析來解析句法結(jié)構(gòu)和功能,允許多中心結(jié)構(gòu),只有實詞可作為中心語,既符合人對語言的理解,也有利于翻譯知識的提取．短語層次的依存有助于互譯塊和翻譯規(guī)則的學(xué)習(xí)．

(3)生語料語言規(guī)范,譯文質(zhì)量很高．政府文件文本句法結(jié)構(gòu)復(fù)雜,話題內(nèi)容廣泛．不是新聞題材,也不是專業(yè)題材,而是常見主題的正規(guī)表達．

中英平行短語依存樹庫是嶄新的嘗試,工程浩大．其困難之一在于這樣的精細加工需要大量的語言專業(yè)人力投入,這也是一開始就把建庫應(yīng)用領(lǐng)域定位在語言和語言學(xué)教學(xué)、譯員培訓(xùn)和翻譯機器學(xué)習(xí)的考慮．在教學(xué)工作中積累所需語料,項目可以得到持續(xù)擴展和升級．困難之二是后期的自動化或半自動化分析．人工標(biāo)注只是一個基礎(chǔ),工程應(yīng)用需要實現(xiàn)自動化,需要實現(xiàn)規(guī)模．實現(xiàn)這樣精細的加工自動化有很大的困難,但是可以依賴現(xiàn)有的一些工具的拼接和整合先實現(xiàn)半自動化,逐步訓(xùn)練匹配的分析器可以實現(xiàn)自動化．

4 結(jié) 語

2013年剛由Springer出版的自然語言處理理論與應(yīng)用叢書之一的《計算機語言獲取的認知問題》第十章專門討論“樹庫分析和語言知識”[17],介紹了利用標(biāo)注語料庫來獲取傳統(tǒng)語言學(xué)意義上的“語言知識”的思路和方法,認為當(dāng)前利用大規(guī)模語料統(tǒng)計學(xué)習(xí)來獲取語言知識的方法的性能有限,語料的持續(xù)增加會積累“不自然”的語言結(jié)構(gòu),因此獲取傳統(tǒng)語言學(xué)知識對于提高機器學(xué)習(xí)和句法分析的性能很重要．實驗表明未經(jīng)加工或者是淺層加工的語料規(guī)模加大并不能持續(xù)提高機器學(xué)習(xí)的效果,目前更需要深加工的語料來提高機器學(xué)習(xí)的性能．DUT-CEPDT的單語庫可用于語法教學(xué)和語言學(xué)研究,機器學(xué)習(xí)語法規(guī)則；雙語庫可用于語言對比研究,機器翻譯規(guī)則學(xué)習(xí)．

由于標(biāo)注信息量加大,無論是人工標(biāo)注,還是機器標(biāo)注總體上操作性都變難了．但是由于采用了更符合人們直覺的語義優(yōu)先的標(biāo)注體系,在單項任務(wù)上人工標(biāo)注的一致性容易實現(xiàn)．目前的標(biāo)注全部是人工進行的,但只有實現(xiàn)自動和半自動標(biāo)注才能實現(xiàn)工程上的運用,因此,下一步工作重點就是以人工標(biāo)注為基礎(chǔ)進行自動化標(biāo)注研究．

[1]Xiao R. Babel English-Chinese parallel corpus [DB/OL]. [2013-02-13]. http://www. lancs. ac. uk/fass/projects/corpus/babel/babel. htm.

[2]LU B, Tsou B K, JIANG Tao,etal. Mining large-scale parallel corpora from multilingual patents:an English-Chinese example and its application to SMT [C] // Proceedings of the1st CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2010). Beijing:CLP, 2010.

[3]XUE Nian-wen, XIA Fei, Chiou Fu-dong,etal. The Penn Chinese TreeBank:phrase structure annotation of a large corpus [J]. Natural Language Engineering, 2005,11(2):207-238.

[4]陳鳳儀, 蔡碧芳, 陳克健, 等. 中文句結(jié)構(gòu)樹資料庫的構(gòu)建[J]. 中文計算語言學(xué)期刊, 1999,4(2):87-104.

Chen Feng-yi, Tsai Bi-fang, Chen Keh-Jiann,etal. The construction of the Sinica treebank [J]. Computational Linguistics and Chinese Language Processing, 1999,4(2):87-104. (in Chinese)

[5]周強. 漢語句法樹庫標(biāo)注體系[J]. 中文信息學(xué)報, 2004,18(4):1-8.

ZHOU Qiang. Annotation scheme for Chinese treebank [J]. Journal of Chinese Information Processing, 2004,18(4):1-8. (in Chinese)

[6]LIU Ting, MA Jin-shan, LI Sheng. Building a dependency treebank for improving Chinese parser [J]. Journal of Chinese Language and Computing, 2006,16(4):207-224.

[7]Marcus M, Santorini B, Marcinkiewicz M. Building a large annotated corpus of English:The Penn treebank [J]. Computational Linguistics, 1993,19(2):313-330.

[9]Sandborg-Petersen U. LingTreeConstructor [DB/OL]. [2013-01-10]. http://ltc.sourceforge.net/.

[10]Baker C F, Fillmore C J, Lowe J B. The Berkeley FrameNet project [C] // COLING-ACL ′98:Proceedings of the Conference. Montreal:COLING-ACL, 1998:86-90

[11]HUANG De-gen, TONG De-qin. Context information and fragments based cross-domain word segmentation [J]. China Communications, 2012,9(3):49-57.

[12]Garside R, Smith N. A hybrid grammatical tagger:CLAWS4 [C] // Corpus Annotation:Linguistic Information from Computer Text Corpora. London:Longman, 1997:102-121.

[13]肖欣延,劉洋,劉群,等. 面向?qū)哟味陶Z翻譯的詞匯化調(diào)序方法研究[J]. 中文信息學(xué)報, 2012,26(1):37-41.

XIAO Xin-yan, LIU Yang, LIU Qun,etal. Lexical reordering for hierarchical phrase-based translation [J]. Journal of Chinese Information Processing, 2012,26(1):37-41. (in Chinese)

[14]Szabolcsi A. The possessor that ran away from home [J]. The Linguistic Review, 1983,3(1):89-102.[15]Marneffe M, Maccartney B, Manning C. Generating typed dependency parses from phrase structure parses [C] // Proceedings of the International Conference on Language Resources and Evaluation (LREC-06). Genoa:Diplomarbeit, 2006:449-454.

[16]Scott M. WordSmith Tools version 5 [DB/OL]. [2013-01-10]. http://www. lexically. net/wordsmith/version5/index. html.

[17]Fong S, Malioutov I, Yankama B,etal. Treebank parsing and knowledge of language [C] // Cognitive Aspects of Computational Language Acquisition, Theory and Application of Natural Language Processing. Heidelberg:Springer-Verlag, 2013:133-172.

ConstructionofparallelChinese-Englishphrasedependencytreebank

CAO Jing-xiang*1,2, HUANG De-gen1, WANG Wei1, WANG Shuai-jun2

( 1.School of Computer Science and Technology, Dalian University of Technology, Dalian 116024, China;2.School of Foreign Languages, Dalian University of Technology, Dalian 116024, China )

A phrase dependency treebank (PDT) integrating phrase structure grammar and dependency grammar is proposed and elaborated to cater for translation studies. The construction of DUT Parallel Chinese-English PDT (DUT-CEPDT) is reported. PDT favors flat structures and the dependency is based on semantics rather than syntactic functions, which differs from the mainstream dependency analysis that favors binary branching. The raw texts of DUT-CEPDT are Chinese government work reports and White Papers and their official English translation. First of all, after word segmentation and part of speech (POS) tagging, Chinese PDT and English PDT are constructed manually with the aid of LingTreeConstructor, a tool tailored for linguists. Then, node alignment, which covers translation alignments of words, phrases, clauses up to the whole passage, is proposed instead of traditional word or sentence alignment to provide more translation knowledge. Lastly, semantic roles based on the FrameNet are labeled simultaneously on the aligned nodes of the English and Chinese trees. DUT-CEPDT can serve as a resource and standard of the training and assessment of both human translators and machine translation systems.

phrase dependency treebank; machine translation; node alignment; syntactic function; semantic roles

2012-10-02；

: 2013-11-08．

國家自然科學(xué)基金資助項目(61173100).

曹井香*(1973- ),女,博士,副教授,碩士生導(dǎo)師,E-mail: caojx@dlut.edu.cn；黃德根(1965-),男,博士,教授,博士生導(dǎo)師,E-mail:huangdg@dlut.edu.cn.

TP391

：A

10.7511/dllgxb201401015

中英平行短語依存樹庫構(gòu)建

0 引 言

1 輔助工具和資源

2 DUT-CEPDT的構(gòu)建思想和過程

3 DUT-CEPDT的主要特點

4 結(jié) 語

0 引言