邱立坤,金 澎,王厚峰
(1. 魯東大學 文學院 山東省語言資源開發與應用重點實驗室,山東 煙臺 264025;2. 北京大學 計算語言學研究所,北京 100871;3. 樂山師范學院 智能信息處理及應用實驗室,四川 樂山 614004)
?
基于依存語法構建多視圖漢語樹庫
邱立坤1,2,金 澎2,3,王厚峰2
(1. 魯東大學 文學院 山東省語言資源開發與應用重點實驗室,山東 煙臺 264025;2. 北京大學 計算語言學研究所,北京 100871;3. 樂山師范學院 智能信息處理及應用實驗室,四川 樂山 614004)
樹庫是自然語言處理中一項重要的基礎資源,現有樹庫基本上都是單視圖樹,支持短語結構語法或者依存語法。該文提出一套基于依存語法的多視圖漢語樹庫標注體系,僅需標注中心語和語法角色兩類信息,之后可以自動地推導出描述句法結構所需的短語結構功能和層次信息,從而可以在不增加標注工作量的前提下獲得更多語法信息?;谠擉w系,構建了北京大學多視圖漢語樹庫(PMT)1.0版,含有64 000句、140萬詞,支持短語結構語法和依存語法兩個視圖。
多視圖樹庫;依存語法;短語結構語法
樹庫是標注有句法信息的語料庫,是一種深度標注的語言知識資源。在語料庫語言學和計量語言學中,樹庫可以用于研究各種語法現象以及語言整體的特點;在計算語言學中,樹庫可以用于訓練和測試句法分析器。20世紀90年代之前,自動句法分析主要使用規則的方法,通過大量人工總結的規則來進行句法分析。賓州樹庫[1]以及一系列類似句法樹庫的構建改變了這一局面。自賓州樹庫發布之后,詞匯化的統計句法分析取得了長足進展,在評測中與基于規則方法相比具有較大優勢。Collins[2-3]基于賓州樹庫所提出的句法分析方法取得了很大成功,代表著統計句法分析方法達到了一個全新的水平。一系列樹庫的建設促進了統計句法分析研究的產生與繁榮。
就樹庫構建中的語法理論而言,最主流的理論是短語結構語法,大多數樹庫都是基于這一理論構建的。依存語法是另外一種比較流行的理論,主要描述詞語之間的依存關系,甚至是非相鄰的依存關系,在自然語言處理和信息檢索中具有重要價值。依存樹庫因此日益受到重視,許多學者研究將現有的短語結構樹庫轉換為依存樹庫[4-6]。
就漢語而言,目前成規模的樹庫主要有賓州中文樹庫、清華中文樹庫、北大中文樹庫、教育部語用所樹庫和哈工大依存樹庫。在現有樹庫的基礎上,本研究提出一套以依存語法為核心的多視圖漢語樹庫標注體系,該體系僅需標注中心語和語法角色(指主、謂、賓、定、狀、補等句法成分)兩種信息,可以自動推導出短語功能信息(指NP、VP、ADJP等短語功能信息)和層次信息,從而在標準的依存樹庫基礎上自動生成短語結構樹庫。基于本文所提出的標注體系,我們開發了“北京大學多視圖漢語樹庫1.0版”。
本文其余部分組織如下: 第2節簡單介紹相關研究;第3節介紹我們提出的多視圖樹庫標注體系;第4節介紹我們所構建的多視圖樹庫的基本情況;最后一節是結語和展望。
除去通過自動轉換得到的樹庫以外,世界上成規模的樹庫主要是短語結構樹和依存樹兩種類型。這兩種類型中,又以短語結構樹庫影響最大、使用最廣。比如在英語和漢語中,主要的樹庫都是短語結構樹庫。從短語結構樹出發,通過自動轉換的形式產生了中心語驅動的短語結構語法(HPSG)、詞匯功能語匯法(LFG)、組合范疇語法(CCG)等多種類型的樹庫,許多依存樹庫也是從短語結構樹庫轉換來的。
多數短語結構樹和依存樹并不依賴于特定的語法理論,短語結構樹和依存樹之間的區別主要在于標注信息的側重點不同。句法結構的描寫中可以包括詞類、層次、語法結構關系、短語整體功能等信息[7],其中結構關系又可以分解為中心語和語法角色兩個信息。短語結構樹是一棵層次樹,其中突顯的是層次信息;此外,由于在自動句法分析中基于生成式規則的(概率)上下文無關文法較為流行,在標注短語結構樹時短語整體功能信息就成了另外一個突顯的信息;中心語和語法角色信息相對而言不受重視。相比于短語結構樹,依存樹缺少了短語這一級中間結點,直接描寫詞與詞之間的關系,因此突顯的是中心語信息和語法角色信息,層次和短語功能信息在其中均沒有直接表示。
目前成規模的中文樹庫主要有賓州中文樹庫[8]、Sinica中文樹庫[9]、清華中文樹庫[10]、國家語委中文樹庫[11]、北大中文樹庫[12]和哈工大中文依存樹庫[13]。這些樹庫的基本信息如表 1所示。

表1 現有中文樹庫基本信息一覽表
除了樹庫轉換之外,多表達形式(Multi-representational)樹庫是另外一種可行的思路。Xia等[14]介紹了構建Hindi/Urdu語多表達形式樹庫的計劃,并認為下一代樹庫應該是多表達形式的樹庫,各表達形式之間可以相互轉換。由于該樹庫及其詳細規范尚未發布,所以目前還不知道其細節情況。
3.1 多視圖樹的定義與基本框架
對同一個句子,基于同一個數據源,提供多種視圖,如依存視圖、短語結構視圖、組合范疇語法視圖等。我們稱這種樹為多視圖樹。一般意義上的依存樹、短語結構樹或組合范疇語法樹可以視為單視圖樹。
多視圖樹的“多”首先體現在構建階段。在構建多視圖樹時,可以選一個視圖作為中心視圖,其他視圖與中心視圖共享數據、彼此之間可以相互轉換。
多視圖樹的“多”還體現在使用階段。在使用階段,多視圖樹不僅僅為同一個句子提供多種體系的句法分析結果,更重要的是這些不同體系的句法分析結果具有相同數據來源,不同視圖只是同一數據來源的不同表現形式而已。
本文設定的多視圖漢語樹庫基本框架為: 以依存視圖為核心,在句法層面上僅僅標注中心語和語法角色兩類信息,通過層次生成程序和結構功能映射規則自動地產生層次信息和短語結構功能信息,從而自動轉換出相應的短語結構樹;在語義層面上,通過對部分語法標簽的細化進一步標注語義角色標簽,并通過虛詞的格傳遞來保證語法依存和語義依存在中心語上的一致性;在以上視圖的基礎上再生成組合范疇語法視圖。最終生成的多視圖樹庫可以含有語法依存視圖、短語結構視圖、組合范疇視圖和語義依存視圖等多個視圖。
在本文中,我們主要討論含有短語結構語法和依存語法兩個視圖的多視圖樹,其中需要解決的關鍵問題是短語整體功能的推導和層次信息的推導。
3.2 短語功能和層次信息的可推導性及解決辦法
3.2.1 整體功能的可推導性及推導方法
對于短語整體功能的可推導性,漢語學界很早就有過討論。朱德熙先生[15]提出,“內部構造相同的結構,功能一般相同;功能相同的結構,內部構造不一定相同?!?陳保亞先生[16]則將之總結為結構功能原則,“如果兩個言語片斷的直接成分功能相同,結構關系相同,它們的功能也相同?!薄斑@個規律叫做結構功能原則。根據這一原則,只要知道了直接成分的功能和結構關系,結構功能就知道了”。換言之,我們知道了具有依存關系的兩個詞的詞類以及它們之間語法關系的類型,這兩個詞構成的短語的功能也就可以推導出來了。
按照結構功能原則,推導短語整體功能時在每一步都需要知道直接成分的功能。依存樹中只標注了詞的功能標記,沒有短語的功能標記,但是通過遞歸的方式,可以依次獲得各短語直接成分的功能標記。
本文使用短語功能標記作為推導的目標標記,推導短語整體功能的規則為: 父結點詞類+子結點詞類+語法角色=>短語整體功能標記。例如,“v+n+VOB=>VP”表示父結點詞類為動詞(v)、子結點詞類為名詞(n)、子結點充當父結點的賓語(VOB),則整個短語的功能類型為動詞性短語VP。
通過設計不同的規則體系,可以從同樣的依存樹庫生成不同體系的短語結構樹庫。目前,我們已經設計出針對北大中文樹庫和賓州中文樹庫兩套體系的推導規則。
3.2.2 層次的可推導性及推導方法
對于整體功能的可推導性,學界基本上是有共識的;層次的可推導性,目前卻很少有人論及。本文中將以并列結構為例來分析層次推導過程中的歧義及其消解辦法。
并列結構是一類比較特殊的結構,從依存樹轉換到短語結構樹的過程中,并列結構的子結點在與父結點結合時會面臨歧義,其子結點可能依附于并列結構多個并列成分中的一個,也可能依附于整個并列結構。如果以并列結構中最左側的并列成分為核心結點,則左邊的子結點可能依附于最左側的并列成分,也可能依附于整個并列結構;如果以最右側的并列成分為核心結點,則右邊的子結點可能依附于最右側的并列成分,也可能依附于整個并列結構。
例如,在以最右側并列成分為核心結點的情況下,圖 1中“建立和完善”是一個并列結構,“各地”是并列結構的一個子結點,它依附于整個并列結構,為兩個并列成分所共享,位于父結點的左側;“市場”也是并列結構的一個子結點,它也依附于整個并列結構,為兩個并列成分所共享,位于父結點的右側。在圖 2中,“充滿生機、充滿希望”是一個并列結構,“希望”只是并列結構中的一個并列成分的子結點,而不是整個并列結構的子結點。從依存樹上看,圖 1 中的“市場”和圖 2 中的“希望”均依存于最右側的并列成分,但是在前一個句子中,“市場”事實上依附于整個并列結構,為并列成分所共享;在后一個句子中,“希望”事實上只依附于最右側的并列成分,不為其它并列成分所共享。在轉換到短語結構樹時,僅依存于一個并列成分的子結點與依存于整個并列結構的子結點就會難以區分。以最左側并列成分為核心結點時會有類似的問題,在此不再贅述。
為了解決并列結構的層次歧義問題,本文將并列結構區分為共享并列(COS)和一般并列(COO)。所謂共享并列指的是,兩個或多個并列成分共享右邊的子結點,右邊的子結點從依存樹上看只指向并列結構最右側的結點(即并列結構的核心結點),實際上卻是并列結構中多個并列成分共享的子結點。共享并列之外的并列為一般并列,其中的并列成分不共享右邊的子結點。因此,圖 1中的并列結構為共享并列(COS),圖 2中的并列結構為一般并列(COO)。通過共享并列和一般并列的區分,可以較好地解決將依存樹轉換到短語結構樹時推導并列結構層次時所面臨的歧義。
限于篇幅問題,詳細的層次推導算法將另文敘述。

圖1 含并列結構的依存樹示例1

圖2 含并列結構的依存樹示例2
3.3 支持多視圖的依存語法標注體系
設計支持多視圖的依存語法標注體系的主要工作是發現視圖轉換時的歧義,并通過語法標注體系的設計和約定來消解這些歧義,上文中共享并列與一般并列的區分就是一個典型的例子。根據從中心語和語法角色出發推導層次和短語整體功能信息的需要,本文提出如表2所示的依存語法標注體系,共含有30個語法角色標簽,這些語法角色大體上可以分為三類。

表2 支持多視圖的依存語法標注體系
第一大類是句子的核心結點以及與謂詞中心語具有直接依存關系的結點,稱之為主干成分,共11個。其中“核心、主語、賓語、補語、狀語、時體、連動”等標記與一般語法書中所講的基本一致,“話題”用于標示一般所說的主謂謂語句中的大主語,“強調”用于標示一般所說的客體提前到主語之后、動詞之前的現象,“間接賓語”用于標示雙賓語中的近賓語,“行為賓語”用于標示兼語句。
第二大類是與謂詞中心語的子結點或孫子結點具有直接依存關系的結點,稱之為局部成分,共九個。其中“定語、數字、數量、介賓、同位”與一般語法書中所講的基本一致,“數量補語”用于標示后置的起修飾功能的數量結構,“的字、地字、得字”分別用于標示依附于“的、地、得”充當定語、狀語和補語的成分。
第三大類是一些較為特殊的結點,共十個。其中,“前附加、后附加”用于標示連詞、語氣詞及一些助詞等,“獨立成分、并列式獨立成分”均指獨立于句子的主謂賓結構之外的成分,“重疊”主要指動詞重疊現象,“并列、共享并列”均指并列結構,“小句”用于標示小句的核心結點與另一個小句核心結點之間的關系,“標點、跨句標點”之間的區別在于是否跨一個以上的小句。這些特殊標記的設置也是為了消解視圖轉換時的層次歧義。
根據本文所設計的視圖轉換算法(包括整體功能推導和層次推導),可以將圖1和圖2所示的依存樹分別轉換成圖3和圖4所示的短語結構樹(賓州中文樹庫格式*在圖中沒有顯示由詞類直接上升的短語功能標記。另外,該短語結構樹是嚴格的二叉樹,這也是不同于賓州中文樹庫的地方。如需要,每個短語功能標記上還可以顯示兩個直接成分之間的語法結構關系標記。)。在轉換過程中,通過共享并列和一般并列的區分,可以解決并列結構所帶來的層次歧義問題。例如,圖1中,“建立”和“完善”之間的語法角色是共享并列(COS),“組織”和“引導”之間的語法角色也是COS,所以兩個動詞先組合成VP,然后再帶賓語。圖2中,兩個“充滿”之間的語法角色是一般并列(COO),所以兩個動詞先分別帶一個賓語,組成兩個VP,兩個VP再組合形成一個更大的VP。

圖3 從依存視圖轉換得到的短語結構視圖例1
基于上述體系,我們制定了一部比較完整的句法樹庫標注規范,并開發了一套支持短語結構語法和依存語法兩個視圖的標注工具。該工具的主要功能有: 編輯依存弧和標簽,查詢詞、詞性、語法角色或特定結構,檢測視圖轉換錯誤,檢測標注錯誤,檢測標注不一致現象等。
使用上述規范和工具, 我們已經進行了大規模樹庫的標注實踐。部分語料采用兩個標注人員雙盲標注、第三方校對的標注方式完成;部分語料采用雙遍校對的方式完成。目前已經完成標注的語料為2000年1月份和1998年1月份1~10日10天的《人民日報》語料,共計64 000句140萬詞。我們將該樹庫命名為“北京大學多視圖中文樹庫1.0版”,并于2014年年底發布,其中1998年1月份1~10日10天共計14 000句語料將面向國內學術界免費共享*具體信息發布在http://klcl.pku.edu.cn/上,敬請留意。。該版本樹庫支持短語結構語法和依存語法兩個視圖,其中依存語法視圖使用本文所提出的標注體系,短語結構語法視圖基本采用賓州中文樹庫的標注體系。
在本文中,我們提出了一套以依存語法為核心的多視圖漢語樹庫標注體系,并介紹了基于該體系構建的“北京大學多視圖中文樹庫1.0版”的基本情況。受篇幅所限,本文只做框架性的介紹,文中所提及的整體功能推導方法、層次推導算法(包括算法的可靠性測試)、樹庫標注規范、樹庫標注工具等未詳細說明,將另文介紹。
后續發布的版本將會從以下幾個方面升級: (1)增加視圖類別。陸續提供組合范疇語法視圖、語義角色視圖、篇章結構視圖等;(2)擴展語料范圍。語料涉及的領域將會擴展到微博、產品評論、問答和專利等;(3)擴大語料規模。在2014年年底以前達到300萬詞以上的規模。
[1] M P Marcus, B Santorin, M A Marcinkiewicz. Building a large annotated corpus of English: the Penn Treebank[J]. Computational Linguistics, 1993, 19(2): 313-330.
[2] M Collins. A Statistical Dependency Parser Of Chinese Under Small Training Data[C]//Proceedings of the 34th Annual Meeting of the ACL, 1996: 184-191.
[3] M Collins. Three Generative, Lexicalized Models for Statistical Parsing[C]//Proceedings of the 35th annual meeting of the association for computational linguistics, 1997: 16-23.
[4] H Yamada, Y Matsumoto. Statistical Dependency Analysis with Support Vector Machines[C]//Proceedings of the 8th International Workshop on Parsing Technologies (IWPT), 2003: 195-206.
[5] 黨政法,周強.短語樹到依存樹的自動轉換研究[J].中文信息學報,2005,19(3): 21-27.
[6] 李正華,車萬翔,劉挺.短語結構樹庫向依存樹庫轉化研究[J].中文信息學報,2008,22(6): 14-19.
[7] 朱德熙.現代漢語語法研究[M].北京: 商務印書館,1979: 42-66.
[8] N Xue, F Xia, F D Chiou, et al. The Penn Chinese Treebank: Phrase Structure Annotation of a Large Corpus[J]. Natural Language Engineering, 2005, 11(2): 207-238.
[9] 陳鳳儀,蔡碧芳,陳克健,等. 中文句結構樹資料庫 (Sinica Treebank)的構建[J]. Computational Linguistics and Chinese Language Processing, 1999, 4(2): 87-104.
[10] 周強.漢語句法樹庫標注體系[J].中文信息學報,2004,18(4): 1-8.
[11] 靳光瑾,肖航,富麗,等.現代漢語語料庫建設及深加工[J].語言文字應用,2005(2): 111-120.
[12] 詹衛東.樹庫在漢語語法輔助教學中的應用初探[J]. Journal of Technology and Chinese Language Teaching, 2012, 3(2): 16-29.
[13] W Che, Z Li, T Liu. Chinese Dependency Treebank 1.0[DB]. Linguistic Data Consortium, Philadelphia.
[14] F Xia, O Rambow, R Bhatt, et al. Palmer. Towards a Multi-Representational Treebank[C]//Proceedings of The 7th International Workshop on Treebanks and Linguistic Theories (TLT 2009), 2009: 159-170.
[15] 朱德熙.語法講義[M].北京: 商務印書館,1982: 21.
[16] 陳保亞.20世紀中國語言學方法論[M].濟南: 山東教育出版社,1999: 106-107.
A Multi-view Chinese Treebank Based on Dependency Grammar
QIU Likun1,2, JIN Peng2,3, WANG Houfeng2
(1. Key Laboratory of Language Resource Development and Application of Shandong, School of Chinese Language and Literature, Ludong University, Yantai, Shandong 260045, China; 2. Institute of Computational Linguistics, Peking University, Beijing 100871, China; 3. Lab of Intelligent Information Processing and Application, Leshan Normal University, Leshan, Sichuan 614004, China)
Treebank is an important resource for natural language processing. All the existing dependency treebanks and phrase structure treebanks might be taken as single-view treebanks. This paper proposed a schema for building a multi-view Chinese treebank based on dependency grammar. In this schema, we only need to annotate the head information and syntactic role of a child node, and then could infer the phrase structure function and hierarchy information of the phrase, which can greatly improve the efficiency of the labeling process without losing information. According to this schema, we built the treebank PKU Multi-view Chinese Treebank (PMT) version 1.0, which contains 64 000 sentences and 1.4 million words, and supports the phrase structure grammar view and dependency grammar view.
Multi-view Chinese treebank; phrase structure grammar; dependency grammar
1003-0077(2015)03-0009-07
2013-04-08 定稿日期: 2013-07-24
國家863計劃主題項目(2012AA011101);國家社科基金重大項目(12&ZD227);國家自然科學基金青年項目(61103089);山東省優秀中青年科學家科研獎勵基金(BS2013DX020);魯東大學人文社會科學研究項目(WY2013003)。
TP391
A