面向英、漢跨語言研究的自動依存句法分析工具信度研究*

2021-12-06 09:09:38劉鼎甲張子嬿

外語學刊 2021年6期

劉鼎甲張子嬿

（北京外國語大學中國外語與教育研究中心／國家語言能力發展研究中心，北京 100089）

提要：近年來，句法分析被廣泛應用于語言研究，尤其是隨著語料數據的成倍增長，自動分析方法和工具的運用更顯重要。然而，原本用于自然語言處理研究的自動句法分析方法和工具的適用性、準確性學界尚不了解，尤其在跨語言、跨文體研究中的適用性和特征的顯著性未加檢驗，使得研究者不敢貿然使用，因而自動句法分析在實證語言研究中的信度是問題的關鍵。為此，本文考察和比較當前3 種主流的句法分析工具Stanford Parser，Mate Parser 和Malt Parser 用于英、漢語言自動句法分析的準確性，并在此基礎上以科技、新聞、社會科學和文學文體為例，在依存句法框架下對英語源語、翻譯漢語與原創漢語的差異性進行考察，借以討論依存句法分析方法在跨語言、跨文體研究中的適用性和特征的顯著性。

1 引言

句法是語言研究的核心問題之一（Valin 2001：1），但長久以來缺乏實證研究的傳統（Biber et al. 1998：55）。近年來，上述限制正逐漸被打破。首先，句法在語言本體的研究已在語料庫短語學研究和配價的框架下進行。前者主張詞匯與語法的統一，通過共選產生意義，體現出詞語互選的傾向性（甄鳳超2019：36，許家金2020：1 -10），具體的考察對象包括搭配、語義韻、語義傾向和類連接（Sinclair 2004）。后者以詞匯為切入點，通過“局部描寫”方法來描述詞匯間的潛在結合能力，且這種潛在能力只有在語言使用時被激活（劉海濤2009：23），彌補傳統次范疇化的成分語法割裂句法和語義的不足。其次，復雜性（complexity）是句法研究重要應用領域。當前，復雜性分析已成為歷史（歷時）句法學、語言習得和語言演變3 個主要發展領域的重要問題（Givón 2009：7），研究的焦點在句法復雜度的特征、復雜度計量以及句法復雜度和語言類型、文體學、語言發展、語言習得和跨語言對比等領域（Gibson 1998；Dahl 2004； Crossley， McNamara 2014； Mancilla et al. 2015；雷蕾2017；朱周曄王金銓2020；胡韌奮2021）。目前，已有研究利用自動句法分析方法，通過語句長度、從屬結構數量、并列結構數量和短語復雜度等多個維度的計算，對多達幾十個句法復雜度測量指標進行自動化分析，如Biber Tagger（Biber 1988）、Coh-Metrix 3.0（Graesser et al. 2004）和L2SCA（Lu 2010）， TAASSC（Kyle 2016）。

然而，準確的句法分析需要經專業人員手工進行，耗時費力，效率和準確率都不高（雷蕾2017：2）。此外，人工標注主觀因素影響大，標注結果一致性差。相比而言，采用計算機程序自動標注具有快速、客觀的優勢。尤其是基于語料庫的研究，勢必要對語料庫進行自動詞性賦碼和句法標注（梁茂成等2010：201），但標注的準確性需要細致的實驗和考證。有學者對詞性賦碼的信度進行過考察（梁茂成2006），指出詞性賦碼工具在二語習得研究中具有較高的可靠性，為語料庫研制和語言研究中語法關系的考察掃清障礙，但也同時指出當前句法分析的困境。近年來，自動句法分析方法和技術已取得進展（劉鼎甲王克非2018），對語料庫實施句法標注的障礙正在逐漸被打破，但自動句法分析方法用于語言研究的信度考察仍是一個亟待解決的問題，使得研究者不敢貿然對基于自動句法分析的語料進行深入的闡釋（Hunston， Francis 2000）。有鑒于此，本文旨在對數據分析的準確性進行實證考察，并以翻譯漢語句法特征為例，考察依存句法分析方法在跨語言、跨文體研究中的適用性和特征的顯著性，以期對自動句法分析方法在實證語言研究中的信度做初步探索。

2 研究方法

2.1 研究問題

本研究擬回答以下問題：（1）使用自動依存分析工具對英漢語言的自動句法分析，分析的準確率如何，自動句法分析的準確率與句子形式和文體存在何種關聯；（2）自動句法分析主要呈現何種錯誤類型，是否存在顯著的差異性；（3）句法分析方法及其自動分析工具用于跨語言實證研究的適用性和特征顯著性如何？

2.2 研究數據與句法標注工具

本研究的語料取自“中國英漢平行語料庫”（CECPC），總庫容103，766，292 形符，包括非文學和文學兩個子類。其中非文學部分包含科技、社科和新聞，文學部分包含傳記、散文、小說、戲劇和兒童文學等主題。首先，在自動分析工具的準確性分析部分，為最大程度的驗證自動句法分析在真實語料中的準確度，控制手工分析的難度，本文采用隨機抽樣的方法使用R4.0.3 的sample 函數分別從文學和非文學兩個文類中抽取原創英語和漢語各100 句，共計400 句。

其次，在翻譯漢語句法特征分析中，本文從CECPC 中進行采樣，抽取科技、社科、新聞和文學4 種文體英譯漢語料各20 萬字／詞，并抽取蘭卡斯特現代漢語語料庫（LCMC）中的科學、自傳和議論文與官方文檔、媒體和普通小說作為原創漢語文本與上述各文體中翻譯漢語進行對比分析，具體數據如表1所示。

表1 數據統計

根據劉鼎甲和王克非（2018），本文選取可以免費獲取、使用廣泛且其報告的分析準確率最高的3 種決策式自動句法分析工具，包括：基于機器學習的Malt Parser（Nivre et al. 2006）、Mate Parser（Bohnet， Nivre 2012）和基于神經網絡的Stanford Parser（Chen， Manning 2014）進行對比考察。為最大可能降低訓練集對句法分析精度的影響，提高準確性，實現對漢語的支持，本研究使用Penn2Malt 分別將完整的賓州樹庫和賓州漢語樹庫等價轉換為依存樹庫，并統一使用Universal Dependency 進行依存關系標注，然后對3 個分析器進行完整訓練，分別獲得英語和漢語分析模型。

2.3 語法結構類型分類框架與研究步驟

觀察自動標注工具的錯誤類型和理解導致錯誤的成因，有助于通過預處理提高自動標注的準確性，并在實際研究中有目標地減少自動標注錯誤對研究結果的影響。根據Nivre 等（2006）與Chang 等（2009），分別將英漢主要依存關系按照其語法結構類型劃分為短語結構和句子結構，其中短語結構的中心成分為名詞節點，句子結構的中心成分為動詞節點。短語結構的依存關系按照名詞中心成分所支配成分間關系，可劃分為修飾關系和功能關系。前者表現為支配詞要求在語義上受其支配的從屬詞與之共現，是典型的詞匯配價表現（周國光2011：49）。后者主要受中心節點的語法范疇限定，完成短語結構在句子中的語法關系。根據依存關系在句子結構中的類型來看，可劃分為描述句子內部成分關系和小句關系兩類，前者表示句中成分之間的關系，后者描繪節點詞及其從屬結構與句子內其它節點詞及從屬結構共同構成的句法關系。

本研究分3 步進行：首先，考察自動句法分析工具的準確性。（1）使用3 種工具分別對虛構和非虛構類英漢語句進行自動句法分析，所得結果經PyGraphViz 可視化后，由研究者和經過充分培訓的4 名碩士生進行獨立的錯誤分析，錯誤分析結束后，由研究者組織參與錯誤標記的人員進行一致性校訂，對于有爭議的句法結構，研究者咨詢該方向的同事，直到達成一致。（2）對句法分析的準確性進行統計，考察對象包括：支配節點、依存關系和整句分析。（3）對所得結果進行統計，使用R 通過多元回歸對影響句法標注準確性的因素及其影響的程度進行分析。

其次，考察自動句法分析工具的誤例類型和成因。分別對英、漢語依存關系標注錯誤及其錯誤的類型進行分類統計，考察的依存關系類別包括短語結構類依存關系和句子結構類依存關系，考察的錯誤類型包括詞性標注錯誤和依存關系的標注錯誤，后者包括支配節點及支配關系的錯誤。

最后，以英譯漢平行庫科技、社科、新聞和文學4 類文體為例，通過語際對比和語內類比，對英語源語和漢語翻譯、漢語翻譯語言和漢語原創語言的依存句法特征和以依存距離作為指標的句法復雜度展開對比分析，借此驗證依存句法分析方法在跨語言、跨文體研究中的適用性和特征的顯著性。

3 數據分析

3.1 英、漢句法標注準確性分析

語言研究中信度的最基本保證取決于標注的準確性。本研究分別對經Mate Parser，Stanford Parser 和Malt Parser 句法標注的依存句法結構準確性進行對比考察，結果如表2顯示。

表2 句法分析工具標注的準確性統計

句法標注工具的準確性較之詞性賦碼工具存在較大差距（梁茂成2006）。無論是支配節點還是依存關系的標注，句法分析器的平均精度在78%～93%之間，而整句的完全正確率最高僅36%。此外，數據顯示，語種和文體也影響句法分析的精度。其中，無論是局部的支配節點與依存關系，還是整句準確性，英語的句法標注精度均顯著高于漢語，可能是由于漢語沒有豐富的形態標記系統（石毓智2010：13），而基于形態分析的詞性賦碼是句法分析器的重要參考指標之一。從文體上看，非文學文本語句的局部支配節點和依存關系的分析準確率高于文學文本，而文學文本整句準確率高于非文學語料。本文認為，非文學文本的句子普遍偏短，因此所有依存關系同時標注正確的幾率也越高。相反，非虛構文體的語言較為正式，句法和語義結構相對完整，但句中依存關系數量較多，因此句法分析所得正確的節點較多，但整句所有節點得到正確分析的幾率不高。

本文選擇依存節點分析的準確率（百分比*100）作為因變量，分別將句長、分析器、語種和文體作為解釋變量，采用多元線性回歸進行分析（殘差F＝13. 5，df＝1192，p＜0. 001，R2＝0.0536），考察句長、文體和語種對依存關系分析準確性影響的程度。由于句法分析的復雜性，本研究不考慮在回歸模型中對解釋變量的全面性和模型對因變量的預測性，即不考察擬合優度（R2），也不考慮各解釋變量間的交互效應。結果表明，句長、句法分析工具、語種和文體與句法分析結果的精度均存在不同程度的關系，且上述關系均具有顯著性。其中，句長與依存關系的精度存在負相關的關系（p＜0.05），表明句子越長，句法分析的精度越低。 Stanford Parser 分析器與依存關系的精度存在顯著的正相關關系（p＜0.001），且顯著性高于Mate（p＜0.001）。英語較之漢語更容易獲得較高的精度（p＜0.001），而非文學文體在依存關系分析上具有較高的準確性，但文體對分析準確性影響的顯著性低于前兩者。

3.2 英、漢語句法標注的錯誤分析

本文對英語和漢語的自動句法分析錯誤進行對比分析，結果分別如表3和表4所示。

表3 英語依存關系標注錯誤分析

表4 漢語依存關系標注錯誤分析

由表3和表4可知，各分析器的誤碼呈現出一定的共性：句子結構的分析較之短語結構的分析錯誤更多；Stanford Parser 的錯誤數最少，且顯著低于Mate Parser 和Malt Parser. 較之英語，漢語的句法分析錯誤明顯增多，但錯誤的類型與英語分析結果具有一定的一致性。

首先，就短語結構的分析而言，英、漢語既有共性，也有差異。對于修飾關系，名詞性修飾關系（nmod）是兩種語言中短語結構修飾關系分析錯誤最多的類型，其次是形容詞修飾關系（amod）。其中，英語中導致大量名詞性修飾關系分析錯誤的原因是分析器對“復合型”名詞關系和“修飾性”名詞關系的誤判。根據Quirk 等（1985：313，971），名詞性的復合關系（compound）通常包含兩個以上的基礎成分，且二者具有同位性和并列性，而各類分析器對名詞語義識解的困難造成同位性無法識別的問題。漢語也存在類似情況，但多數誤碼是數量詞詞性賦碼錯誤所致。此外，漢語這類詞匯組成方式與近年來漢語因“雙音化”（王力1988：1 -3）所引起的典型“復合化”（compounding）現象有關，如兩個語素“食”和“材”因削弱或喪失其間的詞匯邊界，成為一個語言單位，是漢語語法化和詞匯化的典型現象（石毓智2002：1 -2）。第二，對于功能型依存關系，各分析器對于名詞短語“格”（case）關系存在一定程度的誤判，且這類關系通常是無法判定介詞的支配節點所致。此外，漢語中還存在限定性修飾語和量詞修飾關系的誤判，多因分析工具無法準確識別指示型限定詞與其所指名詞或量詞與其所指名詞。

其次，在句子結構類關系中，英、漢語也呈現出一定的共性和差異。就成分語法關系而言，句子的中心動詞（root）、名詞性主謂關系（nsubj）和狀語修飾關系（advmod）依次是兩種語言中出現錯誤較多的3 類依存關系，且錯誤數量遠高于其它語法關系。此外，漢語中直接賓語（dobj）的誤碼也呈現一定的顯著性。本文發現，絕大多數中心動詞識解錯誤是句子中心動詞詞性賦碼錯誤引起；名詞性主謂關系的分析錯誤一般出現在復合句（compound sentence）或復雜句（complex sentence）中，這類錯誤通常也會導致中心動詞的誤判。此外，中心動詞的誤判也會造成狀語修飾關系的支配節點的誤判。在漢語中，直接賓語的誤碼一般在謂語動詞與直接賓語跨小句時出現。對于小句關系，英語中描寫連接成分間（conj）和連接成分與連接詞（cc）的依存關系誤判情況最多，其次為狀語從句（advcl）和補語從句關系（comp），一定程度上是長句中狀語從句中心動詞的詞性標注錯誤所致。漢語中只有描寫并列關系的錯誤居多，這是由于漢語傾向于使用流水句式，既出于修辭需要，也是一種表達習慣，用于敘述事件在時間或空間維度上的連續性，但小句間通常不存在顯式的連接詞，部分語句通過“，”分割各子句，因而句法分析過程中缺乏形式上的標記。

3.3 句法分析在跨語言實證研究中的適用性分析

已有研究對比考察漢語和英語在句子擴展手段上的差異（秦洪武周霞2019），從深層次解釋英、漢語言語句長度和句子擴展手段背后的語法成因。不同于原創漢語，在英漢翻譯中，有可能受英語源語的影響，通過多種手段使得翻譯漢語過多的接納源語的語法資源，體現出區別于原創漢語和英語源語的語言特點（夏云秦洪武2017，秦洪武孔蕾2018，蔣躍等2021）。有鑒于此，本文對英漢翻譯中英語源語與翻譯漢語、翻譯漢語和原創漢語的句法關系資源的運用進行對比分析，以此考察依存句法分析方法在跨語言、跨文體研究中的適用性和特征的顯著性。結果如表5所示。本文采取的對比框架均來自Stanford Universal Dependency，研究結論較上述研究更為可靠。

表5 英—漢翻譯和漢語原創文本中依存關系的分布情況

表5 統計Stanford Core NLP 自動句法分析后的文本所使用的依存關系的分布情況。從文體上看，無論是英語源語、漢語翻譯還是作為類比的原創漢語，各文體中短語結構和句子結構的依存關系使用存在較大的差異。對于英語源語，說明性較強的科技文體中，名詞結構的修飾關系出現的頻數最高，描述主謂結構的成分關系和復合型小句關系相對較少。敘事性較強的文學文體則大量運用描述主謂結構的成分關系和小句關系，描寫名詞結構的修飾關系和功能關系則相對較少。此外，社科和新聞文本兼具敘事和議論的特點，對于短語結構和句子結構的使用居中。類比庫中，各文體中描寫句中成分關系的比重較高，這與漢語SVO 型語言密切相關。此外，翻譯漢語依存關系使用的分布呈現出獨立于英語源語和漢語原創語言的特點，在句法關系上呈現出翻譯漢語的特征。各文體中絕大多數語法關系類型的使用介于原創漢語和英語之間，可觀察到翻譯漢語中大量語法資源的異常使用，例如翻譯漢語各文體功能性關系中的限定（det）關系數量遠高于原創漢語，而限定（det）關系是英語源語的典型特征。

本文通過計算句子的平均依存距離來考察各文體中英語源語、翻譯漢語和原創漢語在句法復雜度上的差異性。依存距離指依存關系中支配節點和從屬節點按照其在句子中出現的先后順序所標記的位置的距離（Hudson 1995），依存距離可以測量人類理解或者產出語句的認知負荷，且依存距離越大，句子的復雜度越高。本文分別對科技、新聞、社科和文學4 類文體的英語源語，漢語翻譯和漢語原創語抽樣文本中的句子平均依存距離進行分析，結果如表6所示。

表6 英—漢翻譯和漢語原創文本句子的平均依存距離對比

首先，英、漢語言在平均依存距離上呈現出明顯的差異性。 4 類文體中，漢語原創語言的平均依存距離均大于英語源語的平均依存距離，且句子依存距離的標準差均顯著高于英語源語，呈現出句子平均依存距離的多樣性。此外，秦洪武和周霞（2019：435）也指出，漢語句段的擴展主要依賴修飾成分的前置，形成時間順序上的鋪排，進而導致漢語依存距離較英語短，主從關系少，流水句多，理解上的認知負荷偏小。

其次，翻譯漢語在句子的平均依存距離上呈現出獨立于英語源語和原創漢語的特征。從文體分布上來看，漢語翻譯中科技文體和文學文體的平均依存距離最小，社科最大，新聞居中，表現出與英語源語相類似的分布特征。但從平均依存距離的大小來看，翻譯漢語均高于英語源語，可能是受到漢語母語的影響。此外，翻譯漢語句子平均依存距離的標準差高于原創英語又低于原創漢語，處于二者之間。通過對翻譯漢語和原創漢語的對比分析，本文也發現除科技文體外，翻譯漢語平均依存距離呈現出接近或略高于原創漢語的現象，這是由于英語可通過從屬小句等句法關系將句中動詞中心和名詞中心的修飾成分后置，而漢語難以后置，只能通過修飾成分的大量前置來達到與英語同樣的效果，進而造成翻譯漢語依存距離的增加，是典型的翻譯顯化現象。需要指出的是，對于說明性較強的科技文體，其平均句長較其它文體更長，在漢譯時大量采用增加流水語句或拆分句子的譯法，導致其平均句長降低，是翻譯的簡化現象。

綜上所述，無論是語法資源的運用還是句子的復雜度的考察，翻譯漢語較之原創語言或源語言均呈現出其獨立的特征，且均可通過依存句法的分析來反映較為顯著的特點。因而如果將自動句法分析的結果運用于語言研究，不僅可反應語料庫中文本的語法資源的分布情況，亦可反映句法復雜度特征，因而在實證研究中，具有較為廣泛的適用性。

4 結束語

對語料庫進行句法標注，可進一步提升語料庫的使用價值，有助于開展更深層次的語言研究。語料庫句法分析工具的信度不僅決定語料庫建庫的質量，也對以此開展的實證研究具有重要的影響。信度的考察依賴于對特定理論的完整性、研究單位的可界定性、數據分析的準確性、研究的適用性和所觀察現象與研究目標關系的顯著性的研究（Artstein， Poesio 2008）。劉鼎甲、王克非（2018）的研究已對前兩者做過討論，本研究旨在對當前句法分析方法和工具的準確性進行實證分析，考察句法分析方法在跨語言、跨文體研究中的適用性和特征的顯著性，以期對自動句法分析方法在實證語言研究中的信度做初步探索。本文認為，使用自動分析工具進行句法分析的準確性已可滿足各類實證研究的需求，但應對所分析的語言、文體和句子的長度有針對性的控制，以獲得更為可信的結果。此外，選擇基于深度學習和人工神經網絡的Stanford Parser 分析準確性最好，較之Mate Parser 和Malt Parser 可大大提升研究的精準性。最后，本文認為，使用自動句法分析工具開展實證研究已可滿足基本的需求，且自動分析的結果無論是在語法資源運用的考察，還是句子復雜度的考察，均呈現出可區分性的特征，因而具有較高的適用性。需要指出的是，如果使用自動分析工具進行面向語料庫研制的句法加工，其精度仍有相當程度的欠缺。為保證語料庫的可用性，應根據本文所發現的典型錯誤類型輔以有針對性的人工校對。