周惠巍, 黃德根, 錢志強, 楊元生
(大連理工大學計算機科學與技術學院,遼寧大連 116024)
漢語句法分析一直被認為是中文信息處理的一個重要技術.其可以分為兩種方法:一種是短語結構解析,即將句子劃分成短語,解析句子短語間的層次結構關系[1];另一種是依存結構解析,即解析句子詞語間的依存關系[2、3].依存關系可以明確地表明詞語間的支配關系,并能方便地發展為語義依存描述,近年來越來越受到研究人員的重視.
計算語言學的發展使得人們可以使用機器學習的方法基于大規模的語料庫構建漢語句法解析器.國內外研究人員已經構建完成了各種語言的樹庫,樹庫標注方式各不相同,其結構大體分為兩類:短語結構樹庫和依存結構樹庫.常用的漢語樹庫有短語結構的賓州中文樹庫(Penn Chinese T reebank,CTB)[4]和依存結構的哈爾濱工業大學信息檢索研究室的依存結構樹庫(HIT Chinese Dependency Treebank,H IT-IR-CDT).CTB的創建為漢語句法分析提供了一個平臺,基于CTB的短語結構解析[5]和依存結構解析[6]成為當前研究的熱點.但是CTB是短語結構樹庫,而且沒有標明每個短語的中心子節點,所以必須首先將CTB轉換為依存結構樹庫,然后基于轉換后的CTB才能進行中文依存關系解析.
目前,漢語樹庫資源仍然存在不足,而手工標注樹庫需要大量的時間和人力.短語結構樹庫和依存結構樹庫雖然標注方法不同,但描述的都是句法結構,在深層次上具有一致性,所以人們嘗試在兩種不同類型的樹庫之間進行相互轉換[7~9].Lin提出基于中心子節點表(tree head table)將短語結構樹轉換為依存結構樹的算法[7].轉換采用遞歸算法,將短語結構樹中各短語的非中心子節點依存到該短語的中心子節點上.Xia提出基于中心子節點過濾表(head percolation table)將賓州英文樹庫(English Penn Treebank,PTB)和CTB從短語結構樹轉換為依存結構樹的算法[8].中心子節點過濾表與中心子節點表的概念基本相同,均由短語類型、搜索短語中心子節點的方向以及短語中各類標注的子節點作為中心子節點的優先次序三部分組成.但是Xia構造的漢語中心子節點過濾表非常簡單,表中每種短語包含的子節點類型比實際CTB語料中出現的子節點類型少許多.比如名詞短語(noun phrase,NP)的子節點類型為43種,而Xia構造的中心子節點過濾表的NP子節點類型僅為5種.如果在短語中沒有搜索到中心子節點過濾表中的節點類型,Xia即將搜索起始節點默認為該短語的中心子節點.這種處理方法簡單可行,但是需要完整的中心子節點過濾表,否則會影響轉換效果.黨政法等提出了一種將清華漢語樹庫(TsinghuaChinese Treebank,簡稱TCT)從短語結構轉換成依存結構的算法[9].該算法充分利用了TCT具有的功能、結構雙重標記,轉換得到的依存樹包含了節點間的依存關系以及具體的依存關系類型.CTB是國內外研究人員常用的一個大規模漢語樹庫,將其從短語結構轉換為依存結構有利于人們進行漢語依存關系解析的研究.本文在總結以往研究成果的基礎上,結合CTB標注體系的特點,構造完整的漢語中心子節點過濾表,并基于中心子節點過濾表將CTB從短語結構轉換為依存結構.
中心子節點在短語結構和依存結構中起著非常重要的作用.X-bar理論[10]和管轄約束(GB)理論[11]等語言理論認為,每個短語結構中都有一個中心子節點決定著這個短語的主要性質,短語中的其他節點都是該中心子節點的修飾子節點.而在依存結構中非中心子節點以某種依存關系依存于中心子節點.
依存結構樹庫H IT-IR-CDT標注體系如圖1所示,其標注了句子中詞語之間的依存關系及依存類型.短語結構樹庫CTB中句子的標注如圖2所示,其僅標出每個句子的短語層次結構及短語類型,沒有標明每個短語的中心子節點.確定短語中心子節點最常用的方法是使用中心子節點過濾表.

圖1 H IT-IR-CDT依存結構樹示例Fig.1 A dependency structure in the H IT Chinese Dependency Treebank

圖2 CTB短語結構樹示例Fig.2 A phrase structure in the Penn Chinese Treebank
表1為部分中心子節點過濾表,其每一行都由〈短語類型,搜索方向,優先級〉三項組成.其中,短語類型是非終端節點的短語符號;搜索方向為在非終端節點內部搜索中心子節點的方向,取值為L時從短語左側開始向右搜索,取值為R時從短語右側開始向左搜索;優先級為決定短語內部各類標注子節點作為中心節點的優先次序.例如,根據過濾表中的一個條目〈IP:R,IP/VP/CP/VCD/VRD/VV/VA〉,可以這樣確定IP短語的中心子節點:從右向左觀察IP的每一個子節點,最先找到的標注為IP的子節點即為IP的中心子節點;如果沒有找到IP節點,重新從右向左觀察IP的每一個子節點,最先找到的符號為VP的子節點即為IP的中心子節點;以此類推,如果這個IP內部沒有任何標注為 IP 、VP 、CP 、VCD、VRD、VV 、VA 的子節點,就默認最右側的子節點為中心子節點.

表1 中心子節點過濾表(示例)Tab.1 Head percolation table(examples)
依據中文依存句法制定中心子節點過濾表.本文采用了簡單的依存關系描述體系,其中包含10種依存關系類型,如表2所示.非中心子節點以表中所示依存關系類型依存于中心子節點.
表2舉例說明了各類依存關系的定義.其中“舉例”一列中,標注為[1]的為例句1“城鄉游/首迎式/在/北京/舉行/,市/領導/及/一千多/名/游客/出席/歡慶/活動。”中包含的依存關系.標注為[2]的為例句2“他/背起/沉重/的/行李/,匆匆/地/走出/家門。”中包含的依存關系.句中分詞依照CTB的標注體系.箭頭“※”左側的詞依存于其右側的詞.
列出CTB中每種短語包含的全部節點類型,依據上述依存關系的定義,對各類節點作為中心子節點的優先級進行排序,制定中心子節點過濾表,如表1所示.

表2 依存關系類型Tab.2 The types of dependency relations
制定了中心子節點過濾表,短語結構樹到依存結構樹的轉換就相當直接.轉換采用遞歸算法,將短語結構樹Tree root轉換為依存結構樹Tree deprel的轉換算法Convert(Tree root,Tree deprel)為
(1)若根節點root為葉子節點,返回根節點root并完成轉換;
(2)查找根節點root的中心子節點;
(3)轉換以中心子節點為根的子樹,并返回該子樹的中心子節點headChild;
(4)對于其他非中心子節點
①轉換以非中心子節點為根的子樹,并返回該子樹的中心子節點non-headChild;
②將non-headChild依存于headChild,并填入依存結構樹Tree deprel.
圖3顯示了圖2所示例句從短語結構樹到依存結構樹的轉換.首先轉換以IP為根節點的短語結構樹Tree IP.IP不是葉子節點,查找IP短語的中心子節點.參照表1中心子節點過濾表,從右向左觀察`IP'的每一個子節點,最先找到的標注為`IP'的子節點即為`IP'的中心子節點.因為沒有找到`IP'子節點,重新從右向左查找標注為`VP'的子節點為`IP'的中心子節點(圖中實線所示).然后轉換中心子樹Tree VP,`VP'的中心子節點`VV(成為)'為葉子節點,將其返回.繼續轉換`VP'的非中心子樹Tree NP…依次確定句子每個短語的中心子節點,將短語的非中心子節點依存到其中心子節點上.如短語`NP(NP(NR(中國))NP(NN(外貿)))'的中心子節點為`NN(外貿)',則節點`NN(外貿)'決定了短語`NP(NP(NR(中國))NP(NN(外貿)))'的主要性質,非中心子節點`NR(中國)'依存于中心子節點`NN(外貿)'.其上一層的短語`NP(NP(NR(中國))NP(NN(外貿)))ADJP(JJ(重要))NP(NN(增長點))'的中心子節點為最右側的短語`NP(NN(增長點))',非中心子節點`JJ(重要)'依存于中心子節點`NN(增長點)';同理,另外一個非中心子節點`NP(NR(中國)NN(外貿))'的中心子節點`NN(外貿)'也依存于`NN(增長點)'.最后得到整句的依存關系:“NN(外商)※NN(企業);NN(投資)※NN(企業);NR(中國)※NN(外貿);NN(外貿)※NN(增長點);JJ(重要)※NN(增長點);NN(增長點)※VP(成為);NN(企業)※VV(成為)”.節點`VV(成為)'為整句的中心子節點.

圖3 短語結構樹到依存結構樹的轉換例句Fig.3 An examp le o f converting phrase structure tree to dependency structure tree
本文對賓州中文樹庫(CTB5.0)進行了轉換.CTB5.0是在美國國防部資助下,由語言數據聯盟(Linguistic Data Consortium,LDC)發布的一個語料庫.其由890個文件組成,包含18782個句子,507222個詞,824983個漢字.句子平均長度是27個詞.句子如圖2所示,標注了分詞、詞性和短語結構.文章大部分來自《新華日報》,還有少部分來自香港地區政府和臺灣地區媒體.文章覆蓋政治、經濟和文化等領域.本文將CTB中的短語按類型進行統計,統計結果見表3.因為短語WHNP和WHPP沒有子節點,所以不包含在表1中.

表3 CTB短語類型及數量統計Tab.3 Details of the phrases in the Penn Chinese Treebank
為檢驗轉換效果,隨機地從CTB5.0中取出200句語料進行測試,句子的平均句長同樣是27個詞.對測試語料中出現的短語的轉換結果進行了人工校驗,轉換正確率如表4所示.部分短語類型在測試語料中沒有出現.
由表4可見,大部分短語的轉換正確率接近或達到了100%,測試語料中所有短語的轉換正確率達到99.50%.CP、IP、NP節點轉換依然存在錯誤,其他節點包括大量的VP節點,正確率均為100%.

表4 轉換正確率Tab.4 Conversion p recision
通過對轉換錯誤的短語結構進行觀察發現,大部分是處于外層的具有復雜結構的短語.如圖4所示IP短語包含兩個IP子節點.依據中心子節點過濾表,右側`IP'子節點為外層IP短語的中心子節點,左側`IP'子節點的中心節點`VV(達)'依存于右側`IP'子節點的中心節點`M(美元)'.但是這種依存關系違背了依存文法.造成這種錯誤的原因是右側`IP'短語沒有動詞,所以`M(美元)'成為其中心節點,使得`VV(達)'錯誤地依存于`M(美元)'.如果右側`IP'子節點添加了動詞,改為“投資額/約/達/一千萬/美元”,則其中的`VV(達)'將成為其中心節點.最終,左側`IP'的中心節點`VV(達)'依存于右側`IP'的中心節點`VV(達)',這種依存關系符合依存文法.

圖4 轉換錯誤例句Fig.4 An exam pleof the conversion error
Xia基于中心子節點過濾表將PTB和CTB從短語結構樹轉換為依存結構樹[8].其指出除了具有同位語的名詞短語(NP)外,PTB中其他短語都取得了較好的轉換效果,但是沒有給出具體的轉換正確率.Xia沒有提及CTB的轉換效果.
本文介紹了將CTB從短語結構轉換為依存結構的方法.基于現代中文依存關系文法制定了完整的中心子節點過濾表,依據該表可以確定CTB中所有短語的中心子節點,并將短語結構的CTB轉換為依存結構.抽樣測試結果表明轉換正確率達到了99.50%.本文的工作,使得短語結構的CTB可以用于中文依存關系解析的研究,對于研究句法解析具有一定的參考價值.下一步,將利用轉換得到的依存結構樹庫,進行中文依存關系解析的研究.
[1]周 強,趙穎澤.漢語功能塊自動分析[J].中文信息學報,2007,21(5):18-24
[2]CHENG Yu-chang,ASAHARA M,MATSUMOTO Y.Machine learning-based dependency analyzer for Chinese[C]//M INGHUI D,HA IZHOU L,M IN Z,eds.Proceedings of the International Conferenceon Chinese Computing 2005.Singapore:COLIPS Pub lication,2005:66-73
[3]周惠巍,楊 洋,黃德根.基于遠距離依存關系的中文依存關系解析[J].計算機工程,2007,33(24):212-214
[4]XUE Nian-w en,XIA Fei,CH IOU Fu-dong,etal.The Penn Chinese Treebank:phrase structure annotation of a large corpus[J].Natura l Language Engineering,2005,11(2):207-238
[5]曹海龍,趙鐵軍,李 生.基于中心驅動模型的賓州中文樹庫(CTB)句法分析[J].高技術通訊,2007,17(1):15-20
[6]CHENG Yu-chang,ASAHARA M,MATSUMOTO Y.Chinese determ inistic dependency analyzer:examining effects of global features and root node finder[C]//Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing.Korea:SIGHAN,2005:17-24
[7]LIN De-kang.A dependency-based method for evaluating broad-coverage parsers [J].Natural Language Engineering,1998,4(2):97-114
[8]XIA Fei.Automatic grammar generation from two different perspectives[D].Philadelphia:University of Pennsylvania,1999
[9]黨政法,周 強.短語樹到依存樹的自動轉換研究[J].中文信息學報,2005,19(3):21-27
[10]CHOMSKY N.Remarks on nominalization[C]//JACOBS R,ROSENBAUM P,eds.Reading in English Transformational Grammar.Waltham(MA):Ginn and Co.,1970:184-221
[11]CHOMSKY N.Lectures on Governmentand Binding[M].Dord recht:Foris Publications,1981