儲小靜
(華中師范大學 文學院,湖北 武漢 430079)
復句作為漢語語法重要的實體單位,它表達的語義信息豐富復雜,因而在信息處理領域有很多方面值得研究。但是,復句層次和關系的自動分析中,關系詞語的省略及嵌套是較難處理的問題。事實上,這兩大問題都與復句關聯標記的離析度有關[1]。離析度(Separation Degree)本指具有相似性質微粒間發生集聚,進而引起物料的相互分離的程度,這一概念被廣泛應用于化學工程學、土木工程學、冶金學、藥學等領域。本文中復句關聯標記離析度是指固定搭配成對的關聯標記相互依存、聯系的緊密程度——相互間依存度高意味著關聯標記的離析度低,反之則離析度高。
依據分句間關系的不同,復句分為因果類復句、并列類復句、轉折類復句三大類[2]。因果復句屬于因果類復句的一小類,它由原因分句和結果分句兩部分構成,兩種分句的語序差異則構成兩種類型的因果復句。一類為原因分句在前結果分句在后,稱作“因一果”復句,其典型句式為“因為……所以”,如例(1);另一類為結果分句在前原因分句在后,稱為“果一因”復句,其典型句式為“之所以……是因為”,如例(2)。
(1)因為兩扇大門敞開,又向陽,所以光亮些罷。
(2)作者指出,中國之所以能夠創造奇跡,是因為遵循了獨立自主、熱愛祖國、反腐倡廉、遵紀守法和富民強國的原則。
從語感上看,兩兩匹配的關系詞語“因為”與“所以”、“之所以”與“是因為”分離的能力都較強,相互依存度都不高,既可嵌套也可省略。那么,這兩種格式的離析能力完全相同嗎,是否存在差異呢?本文擬在劉云基礎上,對這兩種典型的有標因果句式展開關于關系詞語離析能力的對比研究,將從8個方面分析,以期發現更多新的語言現象、規律,運用于中文信息處理中。
省略能力指因果句式“因為……所以”“之所以……是因為”中配對使用的關聯標記是否可以省略的能力。如果能夠省略,省略一個還是兩個都可以省略。如果省略能力越強,則離析程度越高。
儲澤祥認為,復句中如果只在前分句用了因果關聯標記,則屬于居端依賴式(簡稱居端式),如例(3);如果只在后分句用了因果關聯標記,屬于居中粘接式(簡稱居中式),如例(4);如果前后分句都用了因果關聯標記,則屬于前后配套式(簡稱配套式),如例(5)[3]。據此,本文將語料中關聯標記使用情況分為“居端式”“居中式”和“配套式”三種,統計結果見表1。

表1 因果句式關聯標記使用頻數統計
(3)他因為太累,沒吃飯便倒在床上睡去了。
(4)捕拿外國交涉代表最初也是他提議的,所以他也是屬于剿夷派的。
(5)因為它抗拒改變,所以形狀一直不變。
“因為……所以”和“之所以……是因為”兩種因果句式中關系詞語的省略力都很強,且居中式和居端式出現的頻次遠遠多于配套式。不同的是,“因為……所以”句式中,居端式的頻次明顯多于居中式和配套式,分別是居中式的2.3倍、配套式的41.9倍,即居端式>居中式、配套式。“之所以……是因為”句式中,居中式的頻次略微多于居端式和配套式,分別是居端式的1.06倍、配套式的4.33倍,即居中式>居端式、配套式。
我們引入MI值(mutual information value)這一概念來計算因果句式中前后關系詞語的搭配強度。MI值(又稱“互信息值”)代表共現的兩個變量中一個變量對另一個變量的影響程度,表現在復句格式中,即為關系詞語A在語料庫中出現包含的關于關系詞語B出現的概率信息。互信息值愈大,節點詞對其詞匯環境影響愈大,共現詞由于節點詞的出現進而減少不確定性。其計算公式為:
(1)
P(a)代表a在語料庫中各個位置的平均出現的概率,P(b)代表b在語料庫中各個位置的平均出現的概率,P(a,b)代表搭配詞a與節點詞b的共現概率,統計中設定的搭配距離值為18[4]。它們的計算公式如下:
(2)
(3)
(4)
其中,W代表總詞容,為10 429 653詞次,f(a)代表a在語料庫中出現的頻次,f(b)代表b在語料庫中出現的頻次,f(a,b)代表搭配詞a與節點詞b在設定的搭配距離內共現的頻次。
在“因為……所以”句式中,設定a=“因為”,b=“所以”,其MI值為7.11。在“之所以……是因為”句式中,設定a=“之所以”,b=“是因為”,其MI值為12.14。由計算結果可知,“因為……所以”句式中MI值小于“之所以……是因為”句式中MI值,即“因為……所以”的省略能力強于“之所以……是因為”。
當然,“之所以……是因為”的居端式雖然省略了后面的關系詞語“是因為”,但多數情況下需要和“主要是”“主要原因是”“是……決定的”“歸因于”等表原因的詞語或構式組合搭配成句。這也從側面證明了“之所以……是因為”省略能力是受限制的。
擴展能力指因果句式“因為……所以”“之所以……是因為”中能否加入相同的關系詞語的能力,還有如“由于……因而”可以擴展為“由于……也由于……因而”,“不是……而是”可以擴展為“不是……也不是……而是”。這些關系詞語的擴展能力都較強。而有的關系詞語卻不能擴展,如“與其……不如”不能擴展為“與其……不如……不如”,也不能擴展為“與其……與其……不如”。可以擴展的復句關系詞語的離析能力要強于不能擴展的復句關系詞語。
對比“因為……所以”、“之所以……是因為”兩種句式,它們都可以進行擴展,也都可以和其他類型的關系詞語連用。前者可以擴展為 “(正)因為……(正)因為……所以、因為……也因為……所以、因為……所以……所以”,后者可以擴展為“之所以……之所以……(就是)因為、之所以……是因為……也因為、之所以……是因為……是因為”等。請看如下例句:
(6)正因為群眾路線是我國刑法的巨大力量的源泉,正因為群眾路線是為了誰、依靠誰的關乎革命的根本問題,所以在政法工作中要不要群眾路線是社會主義和資本主義兩條道路的斗爭問題。
(7)哦,因為失戀,所以消極悲觀,所以要自殺么?
(8)在中國,共產黨領導的無產階級革命之所以能吸引千千萬萬的勞動人民的參加,之所以有那么多工農群眾不怕流血犧牲,堅定地跟著共產黨走,就是因為人民群眾懂得共產黨是為了謀求勞苦大眾的解放,是為勞動人民爭民主的。
(9)春天之所以為人喜歡,是因為姹紫嫣紅的繁花,是因為青翠欲滴的綠芽。
我們設定搭配距離為18,對語料庫窮盡檢索,發現,“因為……所以……”向前擴展130例,向后擴展30例;“之所以……是因為”向前擴展20例,向后擴展100例。當“之所以……是因為”句式向后擴展時,表原因的后分句多嵌套一個遞進、選擇或并列關系復句,原因標“因為”常規出現在并列標、選擇標或遞進標的后面。當“因為……所以”句式向前擴展時,表原因的前分句多嵌套并列、遞進關系復句,此時并列標或遞進標可出現,亦可不出現。如若出現,原因標的位置大多在后面。
總的來說,句式“因為……所以”和“之所以……是因為”都有一定的擴展能力,都可以豐富句法結構及語義內容。兩種句式擴展能力相差不大。
嵌套能力指因果句式“因為……所以”“之所以……是因為”中能否嵌套其他關系詞語的能力。有些配對使用的復句關系詞語結合很緊密,幾乎不能嵌套其他關系詞語[5],例如表推斷關系的“與其說……不如說”,窮盡語料難以發現中間嵌套其他關系詞語的例子。而有些配對使用的復句關系詞語結合較自由,中間能夠嵌套其他關系詞語[6],如表轉折關系的“雖然……但是”或表因果關系的“多虧……因此”。
觀察語料可以將“因為……所以”“之所以……是因為”句式的嵌套情況歸納如表2所示。①

表2 “因為……所以”和“之所以……是因為”句式嵌套情況總結
(10)因為他不愿去加重那個社會的黑暗,所以他寧愿去討飯,也不拿那五斗米的薪俸。
(11)因為國家為了鼓勵擴大再生產,規定建筑部門的利潤較低、稅負較少,所以建筑部門職工生產的價值較低。
(12)你之所以選擇了我,是因為我是我,還是因為我正好是這個類型的女人?
(13)黨在漫長的歲月中,之所以歷經磨難而不衰,不管遇到多么大的狂風暴雨,都能巍然挺立,就是因為深深扎根于人民群眾之中。
“因為……所以”可以嵌套假轉關系之外的10種關系,幾乎囊括了所有復句關系類型。嵌套方式上既可以由前分句嵌套,也可以由后分句嵌套。相比之下,句式“之所以……是因為”中可嵌套的關系詞語種類數量較少,并且大多數是后分句嵌套,可以放在前后分句中間的情況很少。如例(13)是表因果關系的“之所以……是因為”前后分句之間嵌套表讓步關系的“不管……都”,其他各例多是表原因的后分句嵌套各類關系詞語。總之,“之所以……是因為”句式嵌套不夠自由,其嵌套能力不如“因為……所以”。
停頓能力是指因果句式“因為……所以”、“之所以……是因為”中配對使用的關系詞語之間能否停頓的能力。停頓越長,離析能力越高;反之,則離析能力較弱。來看下面的例子:
(14)“瑞表”是一種可大量生產的塑料廉價石英表,內部零件因為微型技術的充分運用,元件使用數目比傳統石英表減少約44%,也就是由原來的91個減為51個,表的厚度也減薄至8毫米,再加上元件是以超音波焊接,沒有一顆螺絲,表面玻璃也是嵌鑲在表殼里的,所以它是絕對防水避震的。
(15)當時北平的老百姓,因為對過去日本搞什么戶口、良民證、身份證,恨透了,所以對國民黨又來搞戶口登記,很反感,都不去上戶口。
例(14)中,“因為……所以”之間使用的雖然全是逗號,但停頓距離為88個字符,停頓長。例(15)中,“因為……所以”之間使用的有停頓能力很弱的頓號,但停頓的距離是23個字符,停頓較長。
(16)他之所以能夠捱了多少年,沒有逃開那個烏煙瘴氣的工廠,是因為那里有好幾個他的患難的伙伴。
(17)張某進一步透露,他們之所以能一次用一大疊發票去換購物券及用一大疊購物券在收銀臺處與顧客交換等額現金,是因為與店內人士“有關系”、“有分成”。
窮盡語料發現“之所以……是因為”句式之間不能用句號、分號停頓,多數用逗號,且停頓距離較短,最長的停頓距離不超過40字符,如例(16)的22個字符、例(17)的37個字符。
由上可知,“因為……所以”內部不僅可以插入各種獨立語等語用成分,也可以插入句法成分;不僅可以使用分號、逗號等句內點號,也可以使用句號句末點號;果標甚至可以成為篇章關聯標記。與之相比,“之所以……是因為”的停頓能力較弱。
管控能力是指因果句式“因為……所以”“之所以……是因為”中關系詞語能否位于主語前面管控整個小句的能力。置于主語前面的關系詞語比僅位于主語后面管控述語部分的關系詞語的離析度高。
例如并列復句“一面……一面”,當主語相同時,關系詞語“一面”既可以位于主語后;也可以位于主語前;當主語不同時,關系詞語“一面”則位于主語后。像例(18)、(19)這種用法的非常少見,搜集到的例句僅幾十例。現代漢語中“一面……一面”格式連接的兩個分句主語大多數是相同的,且關系詞語“一面”位于主語后。也就是說“一面”的管控能力較弱。
(18)一面他不愿和桂秋講什么,一面他切盼樹人們回來。
(19)他一面脫上衣和背心,我一面告訴他一切安排都推遲了,等他來決定。
那么,“因為……所以”“之所以……是因為”的管控能力如何?分析語料,“因為……所以”句式中“因為”既可以位于主語前面也可以位于主語后面,位置較自由,離析能力強,如例(20)、(21)。“之所以……是因為”句式中“之所以”全都位于主語后,管控后面述語部分,離析能力大為減弱,如例(22)。
(20)因為他沒有文化父親,所以才叫私生子,單憑這一條,就足以使他永生難見天日。
(21)皇帝因為不相信他的臣子,怕他們反他,所以要他們直接向他負責。
(22)絕對理念之所以成為絕對理念,就是因為它在精神上講是發展到了極點。
由于管控能力強的關系詞語控制小句能力較強,有時中間可以嵌套其他關系復句或關聯詞語,使用頻率也隨之升高。
對應能力是指因果句式“因為……所以”“之所以……是因為”中關系詞語是否為一對一,能否一對多的能力。可以一對多的關系詞語的離析能力強于只能一對一的關系詞語。
邢福義[7]先生把因果類復句分為說明性因果、推論性因果、目的性因果、假設性因果和條件性因果五種,是廣義的因果關系。狹義的因果復句即說明性因果復句,按照語序的前后可分為由因溯果句——“因—果”復句和由果溯因句——“果—因”復句[8]。“因為……所以”“之所以……是因為”分別作為“因—果”復句和“果—因”復句的典型形式,各自的對應能力是不同的。
“因為……所以”中,前分句關系詞語“因為”可以跟多個表結果的關系詞語配對(如“因此才、就、因而、便、故此、故而、以至、以致”)而不影響語義表達,同理,后分句關系詞語“所以”也有多個表原因的關系詞語“多虧、鑒于、由于、幸虧、可惜、好在、虧得”與之配對。
再來看“之所以……是因為”句式,與前分句關系詞語“之所以”配對的表原因的關系詞語,和與后分句關系詞語“是因為”配對的表結果的關系詞語都各只有一個,分別是“由于”和“所以”。雖非只能一對一,但對應能力也非常弱。顯然,“因為……所以”對應能力強于“之所以……是因為”。這也從側面驗證了相較于“之所以……是因為”,因果式“因為……所以”更為常用、具有普適應。
換位能力是指因果句式“因為……所以”“之所以……是因為”中合用的關系詞語能否互換位置的能力。可以換位的復句關系詞語的離析度高于不能換位的復句關系詞語。
例如“唯有……才”不能換位成“才……唯有”;“是……還是”不能換位成“還是……是”,它們的換位能力弱,離析度低。又如“不是……而是”可以換位成“(而)是……不是”;“盡管……但是”可以換位成“(但是)……盡管”,換位后它們的語義并未發生變化,離析度高。
復句作為語法實體,具有嚴密的邏輯語義關系,一般情況下前后分句的句序是相對固定的。但由于語用因素或上下文銜接原因,“分句句序逆置”現象時有發生:
(23)a.一名記者表示,他與同事每天早上都是“閉著眼工作”,因為他們都通宵看球。
b.一名記者表示,因為他們都通宵看球,所以他與同事每天早上都是“閉著眼工作”。
(24)a.黨的基層組織之所以重要,因為它是訓練、教育黨員的特殊學校。
b.因為它是訓練、教育黨員的特殊學校,所以黨的基層組織重要。
從例句(23)和(24)可知,“因為……所以”“之所以……是因為”是兩種語序完全相反的因果復句,毫無疑問,它們是可以互換的,互換能力都很強。因此本節不贅述。
位置因素指同樣的關系詞語處于不同的位置時會影響其離析能力。例如“或者……或者”如果需要省略,一般省略前一個“或者”保留后一個“或者”。諸如此類表并列關系的句式“既……又、既……也、又……又、也……也、一邊……一邊、一面……一面和一方面……另一方面”都可以省略前一個關系詞語而不影響理解。這同樣是離析度高的表現。
關系詞語“因為”“所以”“之所以”“是因為”作為顯赫關系標記,幾乎在任何句法語義環境下都能充當關系標記,并且都能明確標示其因果復句關系類型,它們的位置能力是不容置疑的。“因為……所以”不論是前省略還是后省略,多數情況下都不影響理解,復句自動分析時可以輕松識別。而“之所以……是因為”句式中“是因為”省略時,多數情況下“之所以”要和“原因就是、重要的原因是、由……決定、根本原因是、導致、原因在于、在于”等表原因的詞語或構式組合搭配成句,復句信息化處理時需要考量這些詞語參數。
綜上,可將上述八個標準比較結果列表如下②:

表3 “因為…所以”和“之所以…是因為”離析度對比
相較于“因為……所以”,“之所以……是因為”的省略、嵌套、停頓、管控、對應和位置都受到極大的制約。同屬因果關系的“因為……所以”的離析能力比“之所以……是因為”強得多。我們認為,省略和嵌套能力是影響關聯標記離析度的重要的因素,等級序列優先于換位、停頓、擴展、管控、對應和位置因素。當然,這八種因素共同作用于復句關聯標記,不可或缺。
自中文信息處理研究邁入“句處理”階段以來,短語結構分析及單句的自動句法分析都取得了不俗的成績。然而要進一步實現中文信息處理研究的跨越式發展,推動人工智能的深化,并最終讓計算機理解自然語言,依然還有很長的路要走。不論利用什么樣的研究方法,采用何種研究路數,在這個過程中,復句信息處理都是無法繞開的重要議題[9]。
對復句的理解與分析起著重要作用的關聯標記,其離析度的高低自然影響著復句信息工程的發展。首先在復句自動分析方面,關聯標記的離析度可以為復句的層次劃分提供參考。例如,一般嵌套能力強的關聯標記所在分句多為第一層次,包孕著嵌套能力弱的關聯標記引領的分句。同樣,一般停頓能力強的關聯標記引領的分句多為第一層次,包孕著停頓能力弱的關聯標記所在分句。其次在機器翻譯方面,省略能力弱的關聯標記若缺少與之配對的關系詞,語義表達的準確度易受影響。來看假設關系復句“如果我哭了,你就給我遞紙巾”百度翻譯為“If I cry, you hand me the tissue”;若省略掉假設標“如果”,則翻譯為“When I cry, you hand me the tissue”。可見,關聯標記的省略與否會影響翻譯的句式及其意義。最后在詞典編纂、漢語教學、詞性標注、信息檢索及自然語言生成方面,關聯標記離析度的研究都對此有一定幫助。
“因為……所以”和“之所以……是因為”作為常用的表因果關系的句式,從離析能力角度將兩種句式的特點加以形式化,供計算機使用,有助于精準、系統化的機器學習,相信能夠解決層次關系自動識別過程中遇到的一些難題,也能夠對以往詞典中關系詞詞條加以更新、補充或糾正。當然,關聯標記即使屬于同一語義類型,但離析能力仍然存在個體差異,因而在復句關聯標記研究過程中需細化分析,不可籠統劃類。
注 釋:
①本節關于嵌套情況的考察以嚴格意義上的復句關系標記為依據,不考慮非充盈態復句。所謂非充盈態是指一定分句數目的復句里,各分句中關系標記的隱現形式不能顯式地標示復句層次結構及其語義關系。可參考[6]。
②文中語料來自漢語有標復句語料庫、國家語委平衡語料庫和CCL等,語料規模為20 716 525字。分析方法采用實證性研究和規范性研究相結合的手法,在進行全面描寫的同時解釋封閉樣本。