趙建軍,楊曉虹,楊玉芳
(1. 遼寧師范大學 文學院,遼寧 大連 116021;2. 中國科學院心理研究所 腦與認知科學國家重點實驗室,北京 100101)
?
記敘文語篇修辭結構對焦點分布影響的研究
趙建軍1,2,楊曉虹2,楊玉芳2
(1. 遼寧師范大學 文學院,遼寧 大連 116021;2. 中國科學院心理研究所 腦與認知科學國家重點實驗室,北京 100101)
該研究讓20名被試對30篇漢語記敘文進行焦點標定,在焦點標定的基礎上,結合文本標注和統計分析,對語篇修辭結構對焦點分布的影響進行了探討。結果主要發現,記敘文語篇中有大約30%的小句沒有獲得焦點;核心性對焦點的分布有重要影響,大約80%的核心句中有焦點,而只有60%的輔助句中有焦點;最高層級的小句焦點數量相對較少;記敘文語篇主要由10種修辭關系構成,聯合關系和闡述關系小句中焦點數量最多,歸屬關系小句中焦點數量最少。
記敘文;語篇修辭結構;焦點分布
焦點是句子中語義上最重要的、說話者著重強調的成分。抓住了焦點,也就抓住了語言理解的核心。因此,焦點是音系學、句法學、語義學、話語分析等語言學各個學科共同感興趣的問題,也是形式語言學、功能語言學等語言學各個學派共同感興趣的問題[1]。在關于焦點的研究中,焦點如何分布是一個重要的理論問題,同時在信息抽取、言語工程等領域也具有重要的應用價值。焦點分布的影響因素有很多,本文主要探討語篇結構對焦點分布的影響。
焦點位于句法、韻律、語義和語用相互作用的交界面上,不同的研究者從各自不同的研究立場出發,給焦點賦予了不同的含義。本研究為了探討文本語篇的語篇結構對焦點分布的影響,對焦點概念作如下操作性界定: 焦點就是閱讀者在語篇理解的基礎上,認為語義上最重要的、作者著重強調的句子成分。
對語篇結構的描述,本文采用修辭結構理論(Rhetorical Structure Theory, RST)。RST是美國學者Mann and Thompson 于20 世紀80年代初創立的,從功能角度對語篇結構進行描述的理論[2]。
RST創立之后,在語言工程應用領域得到了廣泛的應用。由Daniel Marcu博士主持的研究小組以RST為基礎建立了語篇標注語料庫,極大地豐富和發展了RST 理論[3]。Reitter利用RST開發出了文本分析剖析器,對篇章分析和文本處理起到很大的推動作用[4]。在理論研究方面,Hanny den Ouden, Leo Noordman, Jacques Terken 利用RST對新聞報道語篇的修辭結構和韻律結構的關系進行探討,結果發現,小句的層級越高,小句前停頓的時間就越長,同時小句高音點也越高;重要小句的語速慢于不重要的小句;與其他關系的小句相比,因果關系的小句間的停頓時間較短,語速較快[5]。
近年來,國內一些研究者將RST理論用于漢語語篇結構分析也取得了一些成果。樂明對于漢語篇章修辭結構的標注規則進行了深入探索,制定出詳細的標注工作手冊,并對97篇財經評論文章的修辭結構進行了標注,驗證了修辭結構理論在漢語篇章分析中的可移用性[6],孔慶蓓利用修辭結構理論對漢語敘述語篇和描寫語篇進行對比研究,擬構出兩類語篇的修辭結構模型[7],楊曉虹、楊玉芳對漢語語篇修辭結構邊界的韻律表現進行分析,發現小句邊界處無聲段和高音點重置是語篇修辭層級結構的主要聲學線索[8],胡苑艷、陳莉萍通過實例分析證明,漢語語篇也應由基本語篇單位構成,其抽象結構也應為樹型圖,對漢語語篇的修辭關系進行分析時可以套用修辭關系理論的關系集[9]。
一系列研究表明,RST能很好地刻畫語篇中小句之間的語義關系。而焦點是小句中語義的核心,因此采用RST能很好的反映出語篇結構對焦點分布的影響。
RST主要從核心性、修辭關系和層級3個角度對語篇中小句之間的關系進行描述。核心性主要反映小句之間的相對重要性;修辭關系主要用來刻畫小句之間的語義關系;層級性反映了建立在修辭關系基礎之上的小句之間的層級關系。本文將從核心性、修辭關系和層級3個角度分別考察語篇結構對焦點分布的影響。
本研究所使用的語料為30篇自然敘事語篇,每個語篇平均約50個小句,600個漢字。這些語篇包括文化教育、科普和歷史3類題材,每類題材各10篇。首先對每個語篇進行自動切分和詞性標注(利用北京大學計算語言學研究所開發的“漢語詞語切分與詞性標注軟件”),本文作者對自動分詞結果進行人工校對。在此基礎上,進行焦點標定。參加焦點標定的是14名在校大學生和6名研究生,均具有較好的語文基礎。文本語篇以打印材料呈現給被試。請被試認真閱讀每個語篇至少兩遍,確保對語篇準確理解。在理解的基礎上,請被試逐句找出自己認為每個句子中在語義上最重要的、作者著重強調的詞項,并在詞的下方劃一橫線。告訴被試,每個句子中所劃出的詞項可以是一個,也可以是兩個或更多個;如果認為整個句子的語義在語境中不重要,可以不作任何標記。對理解和標定的時間均沒有限制。
語篇修辭結構由一名博士研究生利用RSTTool軟件進行標注。對標注結果中有爭議的地方由本文作者和該標注者討論后確定最終結果。
最后利用SPSS15.0對數據進行統計分析,探討語篇修辭結構對焦點分布的影響。
3.1 語篇修辭結構標注結果
本文對修辭結構的標注,參照Mann and Thompson提出的修辭關系集,同時考慮到漢語的特點,提出了一個針對漢語的修辭關系集。該修辭關系集把修辭關系分為兩大類別: 主次關系和并列關系,也即單核(Mononuclear)關系和多核(Multinuclear)關系。主次關系包括29種;并列關系包括10種。主次關系的兩個小句,一個是核心句,一個是輔助句;并列關系的兩個小句都是核心句。
本文對小句的修辭關系和層級作如下界定: 小句的修辭關系只考慮每個小句的最底層的修辭關系,不考慮更高層的修辭關系;把小句到語篇最高節點所經歷的節點數作為小句的層級數。這樣,每個小句就獲得了唯一的修辭關系和層級。
30個語篇的核心性標注的結果為: 共有966個核心句,466個輔助句。核心句的數量是輔助句的兩倍多。這主要是因為所有并列關系的小句都是核心句,而記敘文語篇中有大量序列關系或聯合關系的并列小句。
30個語篇的層級標注的結果如表1所示。

表1 各RST層級的小句數
由于高層級和低層級的小句數量較少,不便于統計。因此,把1、2、3層級合并為一級,稱為1級,即最高層級,共213個小句;原始層級中的4、5、6、7級各減去2,變成合并后的第2、3、4、5級;把8、9、10、11、12合并為一級,稱為6級,即最低層級,共282個小句。層級的高低反映了小句在語篇結構中的內嵌深度,層級數越大,內嵌越深,層級越低。
30個語篇的修辭關系標注的結果如表2所示。

表2 各種修辭關系的小句數
從表2可以看出,30篇記敘文的1 432個小句主要包括10種修辭關系,其中8種是主次關系,兩種是并列關系。這10種修辭關系的小句占所有小句數量的85.3%。這10種修辭關系的小句數量,從高到底的排序依次為: 聯合關系>因果關系>闡述關系(序列關系)>轉折關系>背景關系>環境關系>條件關系>目的關系>歸屬關系。這個結果跟孔慶蓓對漢語敘述語篇的研究結果基本一致。該研究發現,漢語敘述語篇中,出現概率較高的修辭關系為: 序列關系、環境關系、并列關系(即本研究中的聯合關系)、闡述關系、原因關系、結果關系[7]。說明漢語中同一種文體的語篇的修辭關系具有較高的一致性,文體對修辭關系具有較強的約束和選擇功能。
本文考察修辭關系對焦點分布的影響時,主要分析這10種修辭關系對焦點分布的影響。
3.2 焦點個數的確定
對每個被標定為焦點的詞進行統計,20個被試的標定一致性高于70%(至少14個被試都標為焦點)的詞最終被確定為焦點詞。通過焦點標注實驗,確定出了30個語篇中共2 027個焦點詞。但一個焦點詞不等于就是一個焦點。焦點有寬焦點和窄焦點之分。寬焦點包括謂語焦點和句子焦點,這兩類焦點通常是由一個短語或者一個句子構成。因此,焦點的個數一定會少于焦點詞的數量。要考察語篇修辭結構對焦點數量分布的影響,首先要確定出各個焦點。
本文把小句中連續的句子成分充當的焦點確定為一個焦點;把小句中不連續的句子成分充當的焦點確定為兩個焦點。例如,“秦王令趙王彈瑟”(著重號表示被標注為焦點)。這個小句被看作是一個焦點,即句子焦點。“北京人孝心最強;上海人孝心最弱”。這兩個小句被確定為各包括兩個窄焦點。
30個語篇的2 027個焦點詞最終被確定為1 034個焦點。平均每個小句有0.72個焦點。說明語篇中有大量的小句沒有獲得焦點。這一點跟孤立句有很大的差別。通常情況下,一個孤立小句有一個焦點,是該句的語義重心所在,是說話者向聽話者傳遞的新信息。但當小句進入語篇之后,由于受到語篇結構的影響,在語篇中的功能和地位有很大差異。有些小句在語篇中承擔著語義和結構上的重要功能,對語篇的連貫和理解起著重要作用;而另外一些小句在語篇中只是用來提供背景性信息或者補充說明性的信息,對語篇連貫和語篇理解的貢獻相對較小,在語篇中只起輔助功能。這些起輔助功能的小句很可能會由于語境的影響而失去焦點,成為語篇中的無焦點句。
3.3 層級和核心性對焦點分布的影響
焦點在層級及核心句、輔助句中的分布結果如表3所示。

表3 焦點在層級及核心句、輔助句中的分布
從表3可以看出,焦點在核心句中的數量遠多于輔助句中的數量。但在層級之間的分布沒有太大差異。但僅僅從焦點數量來比較,不能準確的看出層級和核心性對焦點數量分布的影響,因為各個層級中小句的數量分布是不均衡的。因此,要考察層級和核心性對焦點數量分布的影響,需要求出各個層級中焦點在小句中分布的平均數。
本文采用焦點比率來描述各個小句中焦點的平均數。焦點比率=焦點數 /小句數。各層級及核心句、輔助句中的焦點比率如表4所示。

表4 各層級及核心句、輔助句中的焦點比率
首先,對核心性對焦點比率的影響進行分析。從表4中可以看出,核心句中平均每個小句有0.78個焦點,輔助句中平均每個小句只有0.60個焦點。通過雙比率檢驗發現,核心句的焦點比率要顯著高于輔助句(p<0.01)。這說明,核心性對焦點數量的分布有顯著的影響。大量的輔助句由于在語篇中的重要性較低而失去焦點。
從表4中也可以看出,有大約20%的核心句沒有焦點。核心句沒有焦點主要有兩個方面的原因。第一個原因跟本文對小句的界定有關。本文把插入語、引語成分、附加成分均視為獨立的小句。一些引語成分往往會成為歸屬關系或闡述關系的核心句,這種小句基本上沒有焦點。例如,“武帝對一位劉姓的大臣說,夫人肯定非常傷心。”。這兩個小句的修辭關系是歸屬關系。“武帝對一位劉姓的大臣說”是歸屬關系中的核心句,該小句沒有焦點。這是無焦點核心句的一個重要來源。第2個原因是,核心句充當更高層次結構的輔助成分。這也會造成這種核心句沒有焦點, 這種情況如圖1所示, 這3個小句都是核心句,第一個小句整個句子都是焦點,后面兩個小句都沒有焦點。因為后面兩個小句構成一個聯合關系的結構段,這個結構段又是更高層目的關系結構段的輔助成分。由于這兩個聯合關系的小句在整體結構中的重要性相對較低,造成這兩個小句沒有焦點。這是無焦點核心句的另一個重要來源。

圖1 核心句無焦點的情況
然后,對層級對核心句的焦點比率的影響進行分析。通過雙比率檢驗發現,層級1的焦點比率要顯著低于層級2、3、4、5(p<0.05);層級4的焦點比率要顯著高于層級1、3、5、6(p<0.05);其他各層級之間沒有顯著差異(p>0.05)。這說明,最高層級的核心句的焦點數量相對較少,中間層級的焦點數量相對較多。
最后,對層級對輔助句的焦點比率的影響進行分析。通過雙比率檢驗發現,層級1的焦點比率要顯著低于層級4(p<0.05),其他各層級之間沒有顯著差異(p>0.05)。這表明,最高層級的焦點數量要少于中間層級。
綜合上述層級對核心句、輔助句中的焦點比率的影響可以看出,在最高層級中,無論是核心句還是輔助句,焦點數量都相對較少。在本研究的30篇記敘文中,最高層級的小句通常有以下幾個方面的功能: ①提供敘事的背景信息。大部分語篇的起始段落,或某些段落的起始句,會介紹事件或人物的背景信息。這些提供背景信息的小句,雖然不是語篇的核心成分,不是整個事件的主線,但這些小句的層級一般都比較高;②引出后文。引語成分往往也在語篇中處于比較高層級的位置。例如,“據記載”、“事實表明”、“楚懷王說”等;③總結性描述。在一個事件結束后,在段末的位置,經常會有對整個事件的總結性描述。例如,“由此形成了七夕節”、“這就是赤條蜂”。這種總結性描述也處于比較高層級的位置。這3種功能的小句,在語篇中的層級都很高,但在語篇中的重要性都相對較低,句子中往往沒有焦點。這是高層級中焦點數量相對較少的主要原因。
3.4 修辭關系對焦點分布的影響
各種修辭關系中焦點數量的分布如表5所示。從表5可以看出,10種主要修辭關系中焦點的數量占總焦點數量的85%。不同修辭關系的焦點數量的分布有很大差異。考慮到各種條件下句子數量不同, 下面仍然用焦點比率對各種修辭關系中焦點的分布進行分析。主要修辭關系的焦點比率如表6所示。

表5 各修辭關系中焦點數量的分布

表6 主要修辭關系中的焦點比率
從表6可以看出,并列關系的兩種修辭關系中,聯合關系的焦點比率要顯著高于序列關系(p<0.01)。結合表4的結果可以看出,序列關系的焦點比率要顯著低于核心句的焦點比率的平均值0.78(p<0.01)。記敘文中的序列關系的小句通常用來描述一系列連續的行為或事件。這些序列小句雖然在語篇的連貫性上很重要,是整個事件中不可或缺的情節之一。但這些小句描述的事件往往在整個事件中的重要性并不高,只是一些重要性事件之間的過渡性的事件,語篇中也沒有對這些事件進行詳細的描述。因此,序列關系的小句雖然在語篇連貫性上很重要,但在語義上并不是很重要,所以小句中的焦點數量要顯著少于其他核心句。
接著,對主從關系中的八種修辭關系的焦點比率的差異進行分析。通過雙比率檢驗發現,闡述關系的焦點比率顯著高于其他各種修辭關系(P<0.05),歸屬關系的焦點比率顯著低于其他各種修辭關系(P<0.001),其他6種修辭關系的焦點比率相互之間沒有顯著差異(P>0.05)。
綜上所述,不同類型的修辭關系中,焦點分布的規律不一致。聯合關系和闡述關系小句中焦點數量明顯多于其他各種修辭關系小句。歸屬關系小句中焦點數量明顯少于其他各種修辭關系小句。
本研究讓20名被試對30篇漢語記敘文進行焦點標定,在焦點標定的基礎上,結合文本標注和統計分析,對語篇修辭結構對焦點分布的影響進行了探討。結果主要發現,(1)記敘文語篇中有大約30%的小句沒有獲得焦點。這一點跟孤立句有很大的差別。通常情況下,一個孤立小句有一個焦點。但當小句進入語篇后,很多小句由于語境的影響而失去焦點,成為語篇中的無焦點句;(2)核心性對焦點的分布有重要影響。大約80%的核心句中有焦點,而只有60%的輔助句中有焦點;(3)在最高層級的小句中,無論是核心句還是輔助句,焦點數量都相對較少;(4)記敘文語篇主要由10種修辭關系構成。聯合關系和闡述關系小句中焦點數量明顯多于其它各種修辭關系小句。歸屬關系小句中焦點數量明顯少于其它各種修辭關系小句。
本文只對記敘文語篇中修辭結構對焦點分布的影響進行了初步探討,后續還將從以下方面進行深入的研究: (1)不同體裁的語篇的修辭結構有何異同?對焦點的分布有何影響?(2)除了語篇修辭結構之外,其它語篇結構對焦點分布的影響如何?例如,語篇的意圖結構。對語篇焦點分布規律的探討不僅有重要的理論價值,而且對提高自動文摘系統的精度(傅間蓮)[10]和文本信息抽取的有效性都有一定的應用價值(袁毓林)[11]。
[1] 徐烈炯, 潘海華. 焦點結構和意義的研究[M]. 北京: 外語教學與研究出版社. 2005:34-47.
[2] Mann William C, Sandra A. Thompson. Rhetorical structure theory: toward a functional theory of text organization [J]. Text, 1988, 8(3):243-281.
[3] Marcu D. The Theory and Practice of Discourse Parsing and Summarization [M]. Cambridge, Massachusetts: MIT Press, 2000.
[4] Reitter D, Manfred S. Step by step: Under-specified markup in incremental rhetorical analysis[C]//Proceedings of EACL 4th International Workshop on Interpreted Corpora. Budapest, Hungary, 2003.
[5] Hanny den O, Leo N, Jacques T. Prosodic realizations of global and local structure and rhetorical relations in read aloud news reports [J]. Speech communication, 2009,51:116-129.
[6] 樂明. 漢語篇章修辭結構的標注研究[J]. 中文信息學報, 2008,22(4):19-23.
[7] 孔慶蓓. 從修辭結構理論看敘述語篇和描寫語篇的區別[J]. 南開語言學刊, 2008,2:92-104.
[8] 楊曉虹,楊玉芳. 漢語語篇修辭結構邊界韻律表現[J]. 清華大學學報(自然科學版), 2009,49(S1):1375-1379.
[9] 胡苑艷,陳莉萍. 修辭結構理論與漢語篇章結構[J]. 長春大學學報, 2011,21(1):39-43.
[10] 傅間蓮,陳秀群. 基于規則和統計的中文自動文摘系統[J]. 中文信息學報, 2006,20(5): 10-16.
[11] 袁毓林. 信息抽取的語義知識資源研究[J]. 中文信息學報, 2002,16(5):8-14.
An Analysis of Discourse Rhetorical Structure Influence on Focus Distribution in the Narrative Discourse
ZHAO Jianjun1,2,YANG Xiaohong2, YANG Yufang2
(1. The School of Chinese Language and Literature, Liaoning Normal University, Dalian, Liaoning 116021, China;2. State Key Laboratory of Brain and Cognitive Science, The Institute of Psychology, Chinese Academy of Sciences, Beijing 100101, China)
Based on 30 narrative texts of mandarin Chinese with the sentence focus annotated by 20 subjects, a statistical analysis is conducted to examine the influence of discourse rhetorical structure on focus distribution. The result shows that about 30% of the sentences in the narrative discourse have no focus. It is further revealed that the nuclearity has remarkable influence on focus distribution: about 80% of the nucleus sentences had focus but only 60% of the satellite sentences had focus. The sentences of the highest hierarchy have less focus. The narrative discourses consist of ten main rhetorical relations, in which the conjunction relation and the elaboration relation have the most sentences with focus and the attribution relation has the least sentences with focus.
narrative discourse; discourse rhetorical structure; focus distribution

趙建軍(1976—),博士,主要研究領域為韻律學,認知語言學。E?mail:zhaojianjun768@163.com楊曉虹(1984—),博士,助理研究員,主要研究領域為言語認知。E?mail:yangxh@psych.ac.cn楊玉芳(1950—),博士,研究員,主要研究領域為心理語言學。E?mail:yangyf@psych.ac.cn
1003-0077(2015)01-0038-06
2012-06-21 定稿日期: 2012-09-27
國家社會科學基金(14BYY147);教育部人文社會科學青年基金(11YJC740153);中國博士后科學基金(20110491445);江蘇省博士后科研資助計劃(1002068C)
TP391
A