蔣聯江,趙 以
(集美大學外國語學院,福建 廈門 361021)
基于樹庫的四六級作文語篇關系分析
蔣聯江,趙 以
(集美大學外國語學院,福建 廈門 361021)
語篇關系作為銜接機制對語篇結構的完整性與連貫性起重要作用,以語料庫語言學方法,收集大學英語四六級作文素材組成小型封閉生語料庫,然后利用RST工具標注作文語篇結構組建RST語篇樹庫,基于樹庫的數據驅動學習提出中國英語學習者偏好使用的語篇關系集合及相關觸發語的選用特征,結論是語篇關系的正誤使用與作文分數等級呈正負相關的線性關系。
語篇關系;觸發語;RST工具;語篇樹庫
作為二語知識產出過程,作文一直是第二語言和外語學習比較難的階段。如果語篇關系處理不當,過渡不自然就會影響語篇的整體連貫。研究四級作文的語篇關系,有助于揭示作文語篇中句子意義之間的聯系。從非結構銜接上講,句子之間由銜接鏈和連接成分聯系起來[1]274。修辭結構理論(rhetorical structure theory,簡稱RST)認為幾乎所有英語語篇中的小句和句子之間都應該有連接成分,并將其定義為修辭關系,即語篇關系 (discourse relation)。語篇關系可以連接詞或觸發語(marker)明確表達出來。語篇關系也可以是隱性的。如果兩個句子或小句以先后順序排列即可表達其意義,連接詞就不必明晰化,否則反而降低語篇的連貫性。
語篇關系是修辭結構理論的核心概念。作為美國功能語言學派的主要代表,RST理論被廣泛運用于自然語言處理以及語篇分析等領域。該理論提出者在詳盡分析上百篇包括廣告、科技、信件、以及新聞等日常英語語篇的基礎上,提出如下結論:日常英語語篇的語篇結構總是由為數不多的、反復出現的語篇關系維系著[2]355。這些語篇關系可以形式化為兩種結構類型,即單核關系 (mononuclear)和多核關系 (multinuclear)。單核關系銜接著核心(nucleus)語段和附屬 (satellite)語段。核心和附屬語段為語篇中不相重疊 (non-overlapping)的連續語段。與附屬語段相比,核心語段的內容對表達作者意圖更為重要。刪除附屬語段,核心語段仍具有語篇意義;反之,刪除核心語段則導致作者意圖的模糊或缺失。如例1所示,語段1和語段2之間以證據 (Evidence)關系銜接。核心語段1表達作者的觀點,附屬語段2陳述支持作者觀點的證據。
例1:[The truth is that the pressure to smoke in junior high is greater than it will be any other time of one’s life.1][we know that 3 000 teens start smoking each day.2]
常見的單核關系可用樹形圖表示如下 (1,2代表兩個語段;語段1為核心部分,語段2為附屬部分;語段間的語篇關系為證據關系)

圖1 證據關系圖解
多核關系,顧名思義,即語篇關系的多個語段都具有核心語篇意義,對作者意圖的表達起同等重要的作用。此類關系有對比關系 (Contrast),序列關系 (Sequence)等,可用樹形圖表示如下:

圖2 系列關系圖解
基于以上樹形圖,RST工具等使得語篇層次上標注語篇結構成為現實。RST理論提出者依據他們的語料提出一套配有詳盡的定義和示例的語篇關系集合。這個集合將小句與小句之間的語義關系歸納為24種類型的語篇關系[1]114-115。這個語篇關系集合無法窮盡所有語篇類型中的語篇關系。不少學者基于不同的語料對其進行豐富和拓展。美國計算語言學家Daniel Marcu等收集了383篇Wall Street Journal的文章組成語料庫,在RST理論框架下對其語篇結構進行標注,開發RST語篇樹庫 (discourse Treebank)并進行數據挖掘,提出一個含有53種單核語篇關系以及25種多核語篇關系的集合。美國語言數據聯盟 (Linguistic Data Consortium)于2002年發布了RST語篇樹庫,為語篇分析提供語篇結構層次上標注的語料庫支持。
RST理論認為語篇關系是語篇中不相重疊的連續語段間的連接成分,其本質上是一種語義概念,是銜接關系。張德祿等[1]101指出語篇內部所有用以組織語篇意義的小句及其以上單位之間的意義關系都應該看作銜接關系,它包括各種結構成分之間的意義關系。根據韓禮德和哈桑的觀點[3],銜接分為結構銜接和非結構銜接。其中非結構銜接又分為成分關系銜接和有機關系銜接。成分關系銜接包括指稱、替代、省略、連接和詞匯銜接。除了指稱、替代和省略以外,篇章中運用較多的銜接手段當數連接。語篇中的連接概念專指相鄰句子 (群)之間的連接關系,即用連詞、副詞、或詞組 (短語)把兩個語段聯系起來的手段,與RST理論框架下語篇關系觸發語的研究有緊密的聯系。通過連接性詞語的運用,人們可以了解句子之間的語義聯系,甚至可經前句從邏輯上預測后續句的語義。韓禮德和哈桑[3]把連接分為四種:增補型、轉折型、原因型和時間型。然而這些分類不能代表中國英語學習者的真實語言使用情況。RST語篇樹庫發布后,關于語篇關系觸發語在語篇分析和文本生成中作用的實證研究已經有了語篇結構層次上標注的實體支持[4]16,方便了語言學家在多種語篇類型中研究觸發語。
RST研究者的工作表明,中國大學英語四六級考試作文可為語篇關系的RST分析提供良好的語言素材,進行語篇樹庫開發,其預期研究結果可作為語篇銜接關系研究的有益補充。
四六級作文的評閱采取整體評分法 (global scoring),即依據書面表達的整體效果進行評分。這與RST理論的語篇解釋不謀而合。RST理論認為在完整連貫的語篇中,其所有語篇組成單位 (unit)須對作者整體語篇意義的表達效果有存在之理據。不同于隨意句子組合的是語篇具有統一性和整體性。確定語篇關系,等同于確定了語篇結構以及語篇連貫的基礎[5]21。如果語篇關系缺失,或者使用不當,那么語篇結構就不健全,語篇連貫由此受影響。
據此,我們得出研究假設,四六級作文質量與RST結構呈正相關。RST結構完整,代表其語篇關系處理恰當,語篇連貫性好,相應作文得分應高;反之,得分則低。
150篇某大學2006年12月大學英語四級考試的作文被收集起來用于組成研究所需的生語料庫,作文題目為一篇競選學生會主席的演講稿 (Write a campaign speech in support of your election to the post of chairman of the Student Union)。為了兼顧樣本代表性和數據推斷有效性,每個分數段 (分2、5、8、11及14共5個分數段)各隨機選取30篇樣本作為生語料來源。語料庫總單詞數為26 037個。最短作文語篇有單詞51個,最長有288個,平均語篇長度為173.58個單詞。
1.語篇結構的樹形表征。小型封閉語料庫建好后需要對其進行語篇結構標注。依據RST理論,文本的語篇結構可以用樹形圖從以下4個方面進行表征:
首先,樹形圖的葉 (leaves)對應語篇最小組成成分,稱基本語篇單位 (elementary discourse u-nit,簡稱 EDU)。
其次,樹內節點 (internal nodes)對應鄰近語段。
再次,節點有其核心屬性。核心點 (a nucleus)代表更為重要的信息單位,附屬點代表支撐或背景信息單位。
最后,節點間有語篇關系相連。兩個或多個不相重疊的、鄰近語段間須由語篇關系銜接。
2.標注工具及語料庫檢索工具。Marcu等人標注其RST語篇樹庫為我們提供了寶貴的經驗。其建庫所用軟件以及標注指南可從網上查詢,網址為http://www.isi.edu/~marcu/discourse。
我們使用的RST工具 (RSTTool)是澳大利亞Mick O’Donnell博士研發的文本分析工具。RST工具包括4個主要操作界面:
首先是文本界面,可進行EDU切分。
其次是文本結構關系界面,可標識語段間語篇關系,建立語篇結構樹形圖。
再次是結構關系編輯界面,用于編輯和定義語篇關系。
最后是數據統計界面,可提供數據統計分析。
3.切分基本語篇單位EDU及建立語篇結構。切分EDU是建立語篇結構的第一步。依據Marcu等人的研究經驗,我們將基本語篇單位鎖定為小句(clause),然后利用詞匯或句法上的提示語等幫助確定語篇單位界限。以下是兩個切分例子,其中<><><>中的阿拉伯數字分別代表語篇樹庫中的樣本序號,生語料庫中的樣本序號,以及該樣本的分數。為了不改變語料風格,我們對例子中的語法錯誤等予以保留。
例2: [If I pick up students chairmen position,][I will take out a lot of good things][and acivit for students][after study in school.]<5> <51> <2>
例3: [I’m full of experience of working in the student union.][I’ve worked in the student union for two years.][So I can do the work in very effective way.]<10> <1042> <14>
EDU切分后便可依據RST語篇關系定義及示例確定EDU間語篇關系,建立語篇結構樹形圖。確定語篇關系是語義判斷的過程,需要利用Marcu等人在創建樹庫時使用的刪除法或替換法檢驗是否分配了正確的核心語段或附屬語段。刪除法指若刪除語篇關系銜接的鄰近語段中的附屬語段,其核心語段仍將充當原本的語篇意義。而刪除了核心語段,其鄰近的核心語段,其附屬語段便會影響到語篇的整體連貫。替換法指附屬語段可用其他多種信息來替換而不改變該鄰近語段的語篇關系以及語篇意義,而核心語段不具有此類可替換性。
語篇關系集合則須等到整個語篇樹庫標注完方可最后確定,是數據驅動式學習的過程。
4.標注順序及檢查。分析語篇及建立相應的樹形圖有著不同的順序??紤]到四級作文語篇相對較短,容易對語段進行前期預測,因此,我們采用以下標注順序:首先,在文本界面完成基本語篇單位切分,然后在語篇關系編輯界面將語篇單位間的語篇關系定義好,最后在文本結構關系界面從左至右增量地將鄰近節點添加到樹形圖上。
樹形圖完成后需要進行句法核實以及語義判斷。句法核實是確保樹形圖有一個單獨的根節點。語義判斷是檢查語篇關系核心或附屬屬性以及語篇關系的選用等是否判斷有誤。
標注后的四級作文語篇樹庫包含3 542個EDU,平均每篇作文的EDU數量為23.613個。最短的語篇結構樹含9個EDU,而最長的有43個EDU。每個EDU的平均單詞數為7.35個。
基于此樹庫,筆者統計出中國英語學習者在四級作文中總共使用的語篇關系可分為三類,即單核關系,多核關系以及圖式 (專指演講中的稱呼語,結束語,以及無法進入語篇的不相關EDU),然后使用非參數檢驗中的Friedman檢驗確定正確使用的所有語篇關系的秩次,得出中國英語學習者在四級作文中語篇關系的使用偏好情況。Friedman檢驗得出秩次統計表如表1所示,該表匯報了每種語篇關系的平均秩次的排列情況。
顯然,學生作文中常用的語篇關系集合包含26種類型的語篇關系 (4-29)。樹庫中使用最多的單核關系,其次是多核關系。具體的語篇關系中使用最多的是單核的原因關系,而最少的多核的原因—結果關系。對這26個語篇關系變量分布之間的差異進行秩次檢驗統計得出本例顯著水平為0.00,小于 0.05的顯著值。其實際卡方值為125.803,遠遠大于當顯著性水平為0.05,自由度為2的臨界值5.99,因此這些變量間存在顯著差異,即遞減之勢變化明顯。

表1 正確使用的語篇關系秩次表
為檢驗語篇關系的使用情況與作文分數兩個變量間的線性關系,偏相關分析被采用。分析所得的零階相關矩陣表明,作文分數與錯誤使用的單核關系和多核關系的簡單相關系數分別為-0.967和-0.9661,在0.05的顯著水平上達到了統計意義。這說明單核關系與多核關系的錯誤使用與作文分數等級負相關,即錯誤使用越多,分數等級越低。
偏相關分析也用來檢驗語篇關系的正確使用與作文分數等級之間的正相關關系。分析所得的零相關矩陣表明,作文分數與正確使用的單核關系和多核關系的簡單相關系數分別為0.9600和0.8639,且在0.05的顯著水平上都達到了統計意義。這說明單核關系與多核關系的正確使用與作文分數等級正相關,即正確使用越多,分數等級越高。
由此,該文的研究假設得到了驗證,即語篇關系的正誤使用分別與作文分數等級呈正、負相關的線性關系。語篇關系正確使用越多,錯誤使用越少,其作文RST結構越是健全,作文語篇更趨于連貫,故而分數等級也會越高,反之亦然。
我們利用語料庫檢索工具統計了學生使用最多的單核語篇關系的觸發語,發現學生喜歡用觸發語“and”來觸發各種語篇關系,其中最為經常觸發的語篇關系為增補關系 (elaboration-additional)。學生也喜歡用不同的觸發語來觸發同一類型語篇關系,如條件關系就有10個觸發語,以“if”居多。另外學生也偏向于使用“because”來觸發原因關系。這些特征分布在不同分數等級的作文中,詳見表2。

表2 觸發語詞項分布
語篇關系觸發語詞項隨著作文分數等級的遞增而逐漸豐富,表明高分作文掌握了更多的觸發語來引導語篇關系。然而,表2無法體現觸發語在語篇關系銜接的鄰近語段之間的位置等特征。RST語篇樹庫為深入揭示觸發語詞項在引領語篇關系構建語篇結構時的作用提供了可能性。具體比較兩個引導原因關系的觸發語“because”和“since”在樹庫中的使用情況表明樹庫中所有出現的觸發語并不必然引導一定的語篇關系。數據驅動的學習顯示存在拼寫錯誤的情況。在引領單核關系時,這兩個觸發語多出現在附屬語段(“because”占 87.5%;“since”占72.72%)。其在語篇關系的鄰近語段中也更多的出現的右邊語段的位置上。
上述基于小型RST語篇樹庫的數據挖掘顯示,語篇關系的正誤使用與作文分數等級呈正負相關的線性關系。正確識別這些語篇關系在學生作文語篇中的運用特征,有助于理解學生的銜接與連貫意識,培養學生宏觀語篇能力。語篇關系觸發語的特征分析是對銜接機制研究的有益補充,有利于揭示觸發語和語篇關系的內在聯系?;赗ST工具的小型封閉語篇樹庫的標注與建立為這些研究提供了可靠的語料基礎和數據支持。當然,用以建立RST語篇樹庫的生語料庫的語類和語域范圍以及語料庫的規模有待進一步擴大。
[1]張德祿,劉汝山.語篇連貫與銜接理論的發展及應用[M],上海:上海外語教育出版社,2003.
[2]MANN W.C.,S.A.THOMPSON.Rhetorical structure theory:toward a functional theory of text organization[J].Text,1988,(3):243 -281.
[3]HALLIDAY M.A.K R.HASAN.Cohesion in English[M].London:Longman,1976.
[4]MARCU D.The theory and practice of discourse parsing and summarization[M].Cambridge,Massachusetts:MIT Press,2000.
[5]MANN W.C.,S.A.THOMPSON.Rhetorical structure theory:a theory of text organization[M].Information Sciences Institute(ISI)Reprint no.ISI/RS-87-190,University of Southern California,1987.
Analysis of Discourse Relation in CET Writings Based on Treebank
JIANG Lian-jiang,ZHAO Yi
(School of Foreign Languages,Jimei University Xiamen 361021,China)
As a cohesive device,discourse relation is critical in unity and coherence of discourse structure.The present study annotated a small-scale corpus of CET-4 compositions and constructed a closed RST discourse Treebank with RSTTool.Taxonomy of discourse relations as well as markers used by Chinese EFL students is proposed after a corpora data-driven study.Statistical data is calculated to advocate an either positive or negative correlation between correct and improper use of discourse relations and grade levels of those CET-4 compositions.
discourse relation;marker;RSTTool;discourse Treebank
G 623.31
A
1671-6493(2012)02-0115-05
2011-02-26
集美大學教育教學改革項目 (JY09248)
蔣聯江 (1980—),男,福建大田人,集美大學外國語學院講師,碩士,主要研究方向為功能語言學。
(責任編輯:吳姝)