【摘要】語料庫間多特征相似性比較可采用的統計方法包括卡方檢驗、秩相關檢驗和卡方相似性檢驗。以350個常用詞匯為例的語料庫統計實驗研究表明,在較大樣本的多特征語言研究中,卡方檢驗很容易得出語料庫之間具有顯著性差異的結論,秩相關檢驗同樣容易得出參與比較的文體具有顯著相關的結論,而卡方相似性檢驗采用統計量相對值作為推斷的根據,可得到較為細致的語料庫之間相似程度的研究結果。
【關鍵詞】語料庫;多特征相似性比較;卡方相似性檢驗
【中圖分類號】G420【文獻標識碼】A 【論文編號】1009—8097(2010)08—0083—05
“語料庫語言學是一種方法論,它幾乎可以應用于語言學研究的所有領域”[1],而語料庫研究離不開統計方法。目前,國內基于語料庫的語言研究大多是對某一項特征或者多個特征中的每一項在不同語料庫之間的比較研究,采用的統計方法主要是卡方檢驗[2][3],很少涉及多個特征或者說一組特征作為一個整體在不同語料庫之間的比較。單項特征的分析可以發掘出不同語體中某個語言點的異同,但只有把多項特征作為一個整體來研究,才可能發現不同語體在某一個較大方面的總體差異,從而在更宏觀的層次上進行語言研究。本研究通過語料庫統計的實驗研究,探討語料庫之間多特征相似性比較的不同統計方法,并分析其各自的優勢和不足。
一 文獻綜述
語料庫之間多個特征的比較,首先可用的是通過卡方檢驗(Chi-square test),觀察數據之間分布的擬合狀況,從而判斷是否存在差異;第二個可選方案是Spearman秩相關檢驗(Rank correlation analysis),觀察兩組數據間的相關性如何,高相關意味著兩組數據分布相似度較高;另外一個方法是Kilgarriff[11]在語料庫比較研究中提出的卡方相似性檢驗,即CBDF(chi by degrees of freedom)檢驗,結合語料庫中的詞頻信息比較多特征之間的相似度[4]。
1 卡方檢驗
卡方檢驗是利用隨機樣本對總體分布與某種特定分布擬合程度的檢驗,也就是檢驗測量值與理論值之間的緊密程度[5]。語料庫研究中經常采用的是兩語料庫中某特征是否存在差異的2×2列聯表檢驗。2×2列聯表可推廣到具有r行c列的列聯表,即r×c列聯表,用以檢驗不同語料庫中多項特征總體分布是否具有顯著性差異。
但卡方檢驗用于語言研究存在一個問題,就是隨著樣本量的增大,零假設會越來越容易推翻,即卡方檢驗的樣本量相關性[4]。一個比較極端的例子就是,兩個對比的語料庫容量加倍,如果所研究的詞匯數量在兩個庫中同時加倍,得到的統計量就近乎加倍。這樣,原來不具有顯著性差異的可能就有差異了,原來差距較小的變得顯著了,但實際上該詞匯在兩個語料庫中的使用并沒有變化。雖然真實語料中的詞匯數量并不會隨語料量的增長而同比增長,但二者之間確實是有聯系的,研究[6]表明,某個詞匯一旦在文檔中出現,那么它再次在該文檔中出現的可能性就較大,即詞匯的出現并不是完全隨機或者是獨立的,而觀察獨立性是卡方檢驗必要的前提條件之一[7][8]。由于該條件的違反,我們應該對卡方檢驗結果的解釋持謹慎態度。
2 Spearman秩相關檢驗
相關檢驗用于發掘數據中的關系模式[9],是一種應用廣泛的測定變量關聯程度的方法。最常用的相關系數是簡單相關系數,即Pearson相關系數,其計算需要變量為定距或定比變量[10],而且變量中的所有特征值均需獨立,并呈正態分布[4]。雖然語言研究中以計數數據為多,能夠符合定距數據的標準,但詞匯等語言現象出現卻并不是獨立的;另外,語言中很多特征的分布不符合正態分布,這都會對相關系數的計算產生一定的影響。Pearson相關系數在語言研究應用中的另外一個比較嚴重的問題就是極端值的影響,一個嚴重的極端值甚至能夠改變整個相關的方向,對Pearson相關系數產生極強的破壞力。
因此,在語言現象研究中,往往不能直接使用簡單相關系數,而是使用秩相關檢驗,即Spearman相關系數rs,通過把變量進行排序,然后利用變量的秩次大小作線性相關分析。該檢驗可以較好地解決極端值影響的問題,因為原始數據轉換為秩以后,其影響就小得多。一個變量中的最大值可能比第二大的值要高很多,但從秩而言,只不過高一個等級而已。另外,秩相關檢驗對原始變量的分布不作要求,屬于非參數統計方法,更適用于語言研究。
McEnery[1]利用Spearman秩相關系數研究了一定時間段內人工標注詞性的速度與準確率的關系,表1是其研究數據的一個片段,X欄是每個研究對象在2小時內標注詞性的詞匯數量,Y欄是準確率(%)。

利用公式或者統計軟件計算可得到Spearman相關系數rs為0.26。該結果顯示兩個變量存在較弱的正相關。但這僅是樣本的相關系數,要據此判斷抽樣總體中兩個變量之間的相關關系,需要在確定的顯著性水平上,以樣本容量n查找統計表格,確定關鍵值。在5%的顯著性水平上,n=6時,關鍵值為0.886。由于樣本相關系數遠小于該關鍵值,因此,在5%的顯著性水平上,目前的數據難以說明詞性標注速度與標注準確率有相關關系。
Spearman相關系數的計算簡單,對樣本量沒有要求。但是,有研究者指出,該方法用于多詞匯特征相似性研究存在一定的問題。Kilgarriff[11]認為,對于非常高頻的詞匯,如在不同文本間有著不同的秩,這個差異就是非常顯著的。比如the在語料庫X中是用得最多的詞匯,但在語料庫Y中排第3,這表明了兩種體裁的高度差異。但是對于尺度的另一端,情況卻完全相反。比如bread在語料庫X中排號為400,在Y中為500,從中看不出文體的差異。然而,Spearman相關系數中后者的分量遠大于前者。因此,Kilgarriff[11]提出了基于卡方和語料庫詞匯信息的相似性檢驗(CBDF)方法,用以檢驗語料庫之間的相似性。該方法同樣可用于語料庫間多特征相似性比較研究。
3 CBDF檢驗
CBDF的提出是為了比較語料庫的異同,而語料庫之間的相似程度是相對的,參照的標準就是語料庫自身的情況。因此,Kilgarriff[11]首先界定了語料庫的相似性(similarity)和一致性(homogeneity)兩個概念,并指出相似性的度量只能通過一致性來解釋,而且這兩個概念都是通過語料庫距離來衡量的。表2(Kilgarriff [11)列出了相似性和一致性的關系。

在表2中,“高”分意味著某語料庫內部距離較大或者兩語料庫之間的距離較大,因此,某語料庫是異質的或者兩語料庫不相似;“低”分意味著距離較小,因此,某語料庫是同質的或者兩語料庫是相似的。“高”、“低”和“相等”是相對于同一行其他列來說的。如在第一行,所有三個分值都是“相等”,意味著兩個語料庫是同一文本類型。第二行,前兩列的“相等”說明語料庫1的內部距離(一致性)與語料庫2的內部距離大致相等,而“距離”一列的“高”說明兩個語料庫之間的距離顯著地高于兩個語料庫的內部距離。因此,兩個語料庫之間的對比可以得到很直觀的解釋:由于兩個語料庫各自在內部一致性方面沒有根本性的差異,而二者比較的結果說明它們之間明顯屬于不同的語言變體。
第3和第4行展示了一個相對異質的語料庫(語料庫1)與一個相對同質的語料庫(語料庫2)比較的兩種可能的結果。兩個語料庫之間的距離不可能比相對異質的語料庫1的內部距離低很多。如果這個距離(兩語料庫之間的距離)大致等于語料庫1的內部距離,其解釋就是語料庫2居于語料庫1的范圍內;如果這個距離較大,(語料庫2)就居于(語料庫1的范圍)之外。
最后兩行展示了通用語料庫與專用語料庫之間的差異。前兩列中高和低的分值是相對于語言規范來解釋的。特別是語料庫內部距離的高分值表示了包括多種語言變體的通用語料庫。通用語料庫之間的相似性展示的實際上是各自語料庫所代表的語言變體是否相同,以及在多大程度上相同。語料庫內部距離分值較低的比較典型的情況是:語料庫只包含單獨一種語言變體。因此這里的分值可以解釋為兩種語言變體之間距離的度量。
Kilgarriff的距離度量是通過計算兩個語料庫中N個詞匯特征的卡方值,然后除以自由度得到的。因為自由度等于所研究詞匯的數量N加上剩余詞匯(reminder)減一,因此,實際上就等于要研究的詞匯特征數量N。Kilgarriff[11]的實驗表明,采用320個到640個詞匯特征,比較的效果較為理想。語料庫一致性度量步驟如下:1)語料庫切分成“塊”;2)把所有的塊隨機地分派到兩個集合,構成兩個子語料庫;3)測量兩個子語料庫的相似性;4)重復2和3;5)計算所有測量的均值和標準差。語料庫相似性的計算方法類似,只是第2)步的兩個子語料庫分別由語料庫1隨機分出的一半和語料庫2隨機分出的一半構成。
Kilgarriff[11]通過相似度已知的語料庫集合的比較證明,該方法比其他方法都更適用于語料庫差異性的比較。這里所謂的“語料庫差異性”比較的實際上就是代表語料庫性質的特征集合的差異性,因此,可以直接用以衡量語料庫之間的多個特征的相似程度。
二 研究設計
1 研究問題
本研究以詞匯特征為研究對象,力圖回答下列兩個問題:
(1)卡方檢驗、秩相關檢驗和CBDF檢驗對語料庫之間多特征差異的統計結果有什么區別?
(2)在語料庫之間多詞匯特征差異比較方面,三種方法哪一種更適合?其優勢是什么?各種方法的局限性有哪些?
2語料來源及預處理
本研究使用的語料庫是中國學習者語料庫CLEC(Chinese Learners English Corpus)[12]。為了確保統計方法評測的準確性,本研究僅統計文本中的詞形(token),不對詞匯做任何變換,所有縮寫都保持原形。編程過濾掉所有標注和標點(保留縮寫標點)之后,統計語料庫詞匯數量列于表3。

桂詩春、楊惠中[12]對CLEC詞匯的統計數量為1,070,602個,與本研究稍有差別,其原因可能是本研究對漢語拼音和英語縮寫詞的處理不夠精細,但這些詞匯顯然不屬于常用詞匯,數量也較少,對本研究不會構成較大的負面影響。
為了采用CBDF方法,編程對五個子語料庫進行切塊處理,每塊包含2000至2100個詞匯。切塊首先以每篇作文為單位,但如果加入一篇作文超過上限,不加入又低于下限,則拆散該篇作文,以句子為單位加入,剩下的句子加入下一個切塊。最后得到527個切塊。各子語料庫的切塊情況見表4。

3 統計數據收集
根據Kilgarriff[11]的研究和本研究所用語料庫的情況,確定選取的詞匯特征為350個,即選取CLEC中最常用,并且在各子庫中的出現均不低于5次的詞匯350個,作為本研究中的高頻詞匯,其他詞匯作為非高頻詞匯。
對于卡方統計,編程統計5個子語料庫中高頻詞匯各自出現的次數,并結合子語料庫詞匯總數,計算非高頻詞匯總數,最后計算5個子語料庫兩兩之間的卡方擬合統計量。
秩相關統計所需數據與卡方檢驗基本相同,只是不需要非高頻詞匯數量。編程計算5個子語料庫兩兩之間的秩相關統計量。
對于CBDF統計方法,按照Kilgarriff[11]的算法,編程進行計算。首先把每個子庫的所有切塊隨機分為兩部分,然后計算兩部分之間的卡方相似度,最后每個子庫各取一部分計算兩兩之間的卡方相似度。該過程進行30次,得到的結果計算均值和標準差。
三 結果與討論
對CLEC五個子庫兩兩之間的350個常用詞匯的卡方擬合統計數據列于表5。

表5中所有檢驗的自由度均為350,經估算,在p為0.95時,關鍵值為394.34,在p為0.99時,關鍵值為413.70。表中所有數值均遠遠超過這兩個關鍵值。這說明由卡方統計量來看,所有CLEC的5個子庫在350個常用詞的使用上,在0.99的顯著性水平上均存在差異。但各個子庫之間差異的大小卻是不盡相同,這可以從卡方統計量的數值大小看出。這其中最明顯的如st6與其他幾個子庫之間的統計數據。st6與st5之間的卡方統計量最小,與st4、st3、st2之間的統計量逐漸增大。這從一定程度上說明了英語專業高年級英語的代表子庫st6在這350個基本詞匯的使用上與英語專業低年級子庫st5最相像,盡管它們之間也存在顯著性差異,而與高中英語的st2差異最大,非專業的大學英語子庫居于二者之間。st3和st4有著同樣的規律,即與其相鄰的子庫間卡方統計量較小,距離越遠,統計量逐漸增大。這說明st3和st4與其相鄰子庫較為相像,距離越遠,差異越大。這都比較符合人們的預期。
但是到了st2和st5情況就復雜的多了。對于st5,它與st6和st4的統計量差異不大,說明英語專業低年級子庫在這350個詞匯的使用上可能居于非英語專業高年級與英語專業高年級之間,而與非英語專業低年級的st3子庫差異較大。這都比較容易理解。但是st5與st2之間的統計量卻是所有卡方統計量中的最小值,該統計量的解釋就需要對語料庫進行詳細的探究。對于st2,它與st5有著最小的卡方統計量,但與其他3個子庫有著最大的三個卡方統計量。這說明在這350個常用詞匯的使用上,高中英語子庫st2與英語專業低年級子庫st5最是相近,但與其他子庫差距甚遠。對CLEC語料庫的深入檢索發現,st2和st5主要是以學生日常寫作,如日記和信件為多,而其他子庫均以議論文為主。這也從一個側面說明,雖然有研究[13]表明,英語學習者書面語存在較強的口語化傾向,但這些書面語之間語體差異在一定程度上存在的。
雖然從表5可以得到更多結論,但如上所述,由于詞匯特征并非隨機出現,卡方檢驗應用于語言現象的統計檢驗時,具有一定的局限性,所以對表5中的統計結果的解釋需持謹慎態度。為確保檢驗的科學性,以下是其他統計方法進行同樣的檢驗的結果。首先是秩相關檢驗結果,列于表6。

表6列出的是CLEC中5個子庫之間350個常用詞匯的秩相關統計量rs(350),并且檢驗結果顯示,在0.01的顯著性水平上,所有統計量均具有顯著性。即所有5個子庫之間在這350個詞匯的使用上都具有顯著相關。這里是對350個常用詞匯的統計,即特征量為350。由于大特征量使得相關性統計更容易變得顯著,即使統計量的絕對值并不是很大(Cohen 2008:271),所以對這種相關性的解釋,意義不是很大。然而,我們可以通過不同子庫間相關性的比較,看出哪些子庫之間在常用詞匯的使用上更加相近。
在這一點上,秩相關檢驗結果與卡方檢驗結果較為類似,即除了最明顯的st2和st5之間,各子庫基本上都是與其相鄰的子庫較為相似,距離越遠,相關性越低。當然,這其中還存在一個特例就是st4與st6比st4與st5更為相近,但是其差異的絕對值(0.05)并不是很大,所以這個反例不能夠否定總體的趨勢。
最后再看CBDF的檢驗結果。

表7是采用Kilgarriff[11]的方法對CLEC的5個子庫一致性和相似性的比較。比較進行了30次,表中所列結果為30次的平均值,括號中的數字是30個測量結果的標準差。參照表2可以看出,所有測量結果基本都屬于表2第二行的情況,即各子語料庫的內部距離大致相等,各子庫之間的距離顯著地高于各子庫的內部距離。因此,各子庫之間的對比可以得到很直觀的解釋:由于各子庫在常用詞匯的使用上,各自在內部一致性方面沒有根本性的差異,而相互之間比較的結果說明它們之間在這些詞匯的使用上明顯屬于不同的語言變體。
當然,這種相同或不同存在程度上的差異。在內部一致性方面,5個子庫中,st2最高,st6、st5、st4逐漸降低,st3內部一致性最低。但所有子庫的內部一致性均屬于一個數量級,并且與各個子庫之間對比,差異不大,所以我們認為各個子庫內部一致性沒有根本性的差異。但是各子庫之間的相似性度量差異較大,差異最小的st2與st5CBDF統計量為24.90,差異最大的st2與st6高達62.93。
表7的總體趨勢類似于表5和表6,都是子語料庫與其相鄰的子庫較為相近或相似,距離越遠,相似度越低,而且st2與st5的關系較為特殊。仔細觀察表7可以發現,各子庫與其相鄰子庫的CBDF統計量基本上都是30多,每隔一個子庫,統計量會增加10點左右。這種變化較為符合我們的預期,即中國英語學習者在350個常用詞匯的使用上,在各個學習階段有所不同,并且這種不同會隨著學習階段的提高有所增加。但是這里也有例外,即st2與st3和st2與st4。按照規律,前者應該是30余點,后者應該是40余點,但實際上后者超過50點,前者更是高達60點。對這個例外的解釋一方面涉及到語體的差異,其原因類似于st2與st5的較高相似度,即st2主要是日常寫作,以日記和信件為主,而st3和st4的大部分文章都是考試作文,這就使得口語化詞匯,如I、was、my、the等在st2中更為頻繁地出現。另一個更重要的方面是st3和st4兩個子庫的作文題目較為集中,使得涉及作文題目的常用詞使用頻度極高,但卻很少在st2中出現。
四 結論與建議
采用3種不同統計方法對中國學習者語料庫(CLEC)中5個子庫在350個常用詞匯使用差異的統計分析得到以下結論:
1)傾向于測量樣本間差異的統計方法,如卡方檢驗,對于多特征差異性檢驗,由于特征數量較大,以及詞匯特征獨立性要求難以滿足,統計量很容易超過較高顯著性標準上的關鍵值,從而得出樣本所代表的語言變體之間在這些特征方面存在顯著性差異。
2)傾向于測量樣本間相關性的統計方法,如秩相關檢驗,對于多特征差異性檢驗,同樣由于特征數量較大,統計量很容易超過較高顯著性標準上的關鍵值,從而得出樣本所代表的語言變體之間在這些特征方面存在顯著相關。
3)由于多特征差異性檢驗的特殊性,上述兩種統計方法所得到的統計量相對于關鍵值的解釋(即在某一顯著性水平上存在差異)意義不大,而統計量之間相對數量差異的解釋卻能夠說明一定的問題。這也是CBDF統計檢驗所采用的策略。
4)CBDF檢驗實際上是卡方檢驗的變形,去除了統計量絕對值與關鍵值的比較,代之以樣本內部和樣本之間統計量的相對值比較得出統計結論。該方法從設計上就比較符合樣本間多特征差異性比較。但卡方和秩相關檢驗統計量的相對解釋基本也可以達到同樣的檢驗效果。
對比卡方、秩相關和CBDF檢驗的結果可以看出,前兩者統計量的相對解釋與CBDF檢驗結果非常相似,只是后者得到的數據更為整齊,規律性更強,從而能夠揭示樣本間較為細微的差異。這主要是由于CBDF檢驗需要拆散樣本、隨機組合、多次檢驗,所以其結果更細致。其代價就是設計更復雜、操作難度較大,而前兩者都屬于常用統計方法,可以利用很多統計軟件包,如SPSS,輕易地實現。因此,在語言研究中,可視情況采用不同的統計方法。如果樣本量足夠大,并且要求的檢驗結果較為細致,研究人員有編程實現文本操作的能力,采用CBDF檢驗效果較好;如果粗略的檢驗即可達到要求,或者研究人員不具有這方面的能力,常用統計方法基本上也可以達到研究目標。
參考文獻
[1] McEnery, T. Wilson, A. Corpus Linguistics [M]. Britain: Edinburgh University Press, 1996.
[2] 王春艷. 基于語料庫的中國學習者英語近義詞區分探討[J].
外語與外語教學,2009(6): 27-31.
[3] 王立非,錢娟. 我國學生英語演講中的語塊特點:基于語料庫的考察[J]. 外語學刊,2009(2):115-120.
[4] Oakes, M.P. Statistics for Corpus Linguistics Edinburgh Textbooks in Empirical Linguistics [M]. Edinburgh: Edinburgh University Press, 1998.
[5] 劉漢良. 統計學教程[M].上海:上海財經大學出版社,1999.
[6] Church, K. and Gale, W. Poisson mixtures [J]. Journal of Natural Language Engineering, 1995, 1(2): 163–190.
[7] Larson, R Farber, B. 基礎統計學[M]. 北京:清華大學出版社,2003.
[8] Cohen, B.H. Explaining Psychological Statistics [M]. NJ: John Wiley Sons, 2008.
[9] Larson-Hall, J. A Guide to Doing Statistics in Second Language Research Using SPSS [M]. New York: Taylor Francis, 2009.
[10] Boslaugh, S. Watters, P.A. Statistics in a Nutshell: A Desktop Quick Reference [M]. CA: O’Reilly Media, Inc., 2008.
[11] Kilgarriff, A. Comparing Corpora [J]. International Journal of Corpus Linguistics, 2001, 6(1): 97–133.
[12] 桂詩春,楊惠中. 中國學習者英語語料庫[M]. 上海:上海外語教育出版社,2002.
[13] 文秋芳,丁言仁,王文宇. 中國大學生英語書面語中的口語化傾向—高水平英語學習者語料對比分析[J]. 外語教學與研究,2003,35(4): 268-274.