搭配、搭配提取與運用

2010-08-15 00:49:10謝家成

長江大學(xué)學(xué)報(社會科學(xué)版) 2010年3期

關(guān)鍵詞：語言

謝家成

(長江大學(xué)外國語學(xué)院,湖北荊州434023)

搭配、搭配提取與運用

謝家成

(長江大學(xué)外國語學(xué)院,湖北荊州434023)

搭配是語言中習(xí)慣性的結(jié)伴使用,在統(tǒng)計上具有顯著性;搭配具有語言學(xué)特征,在詞類、位置和句法結(jié)構(gòu)上相對固定。搭配提取正是基于上述特征,有針對性地選擇自建語料,利用語料庫工具提取諸如詞類間搭配、詞串、兩個詞之間的搭配等多種形式的搭配,能更有針對性地揭示特定語域的語言表達規(guī)律及其蘊含的文化信息。

搭配;搭配提取;詞串提取

一、搭配簡介

搭配是語言中常見的現(xiàn)象,但學(xué)界迄今對其沒有統(tǒng)一的界定。視角不同,人們對搭配的認識也就不同。[1]

從語言的橫組合看,搭配即“詞項的習(xí)慣性結(jié)伴使用”[2](P14),詞項間的搭配選擇具有有限性和可預(yù)見性。搭配組合一般在句內(nèi),但也可以超越句子,屬于更大的語篇,如“Ben serves…That’s his fifth ace of the match”中“serve”與“ace”的搭配。雖然韓禮德(Halliday)[3](P75)將搭配擴展到常出現(xiàn)于共同語境、語義相關(guān)、具有篇章銜接作用的詞語,如“doc2 tor”和“nurse”,但這種定義太過寬泛。搭配可以是連續(xù)的,也可以是非連續(xù)的;可以是兩個詞,也可以是多個詞乃至整個句子。

從語言的縱聚合看,搭配也指詞與語法范疇的共現(xiàn),即“詞語在語法上的結(jié)伴關(guān)系”,如“con2 scious”的一個典型語法結(jié)構(gòu)便是“be+否定詞+ conscious+of+名詞”。另外,從縱聚合看,詞類間的搭配很有規(guī)律,詞語的詞類往往決定了其搭配模式。如常見的名詞類搭配模式有:“名詞+動詞”(dog bark),“動詞+名詞”(fly a kite),“形容詞+名詞”(warm greetings),“名詞+名詞”(crop fail2 ure)等。綜上所述,搭配可以理解為詞與詞或詞與語法結(jié)構(gòu)的經(jīng)常性共現(xiàn)。

語料庫的興起則為搭配研究開創(chuàng)了新的局面。從語料庫視角,人們對搭配關(guān)注的重點是搭配的自動提取。筆者通過運用多種有針對性的自建語料,實證地展示語料庫檢索軟件的搭配提取功能在語言教學(xué)與研究中的運用。

二、搭配提取

雖然語料庫檢索行功能結(jié)合使用者直覺有助于獲得搭配資源,但是,從語料庫視角,人們更關(guān)注的是如何從大規(guī)模語料庫中自動提取詞語搭配。搭配自動提取(collocation extraction)在理論上有三種途徑:基于統(tǒng)計、基于規(guī)則和基于統(tǒng)計與規(guī)則相結(jié)合。不過,在實踐中純粹基于規(guī)則的方法很少見。現(xiàn)有的搭配自動提取方法多是以統(tǒng)計為主,輔之以詞性、句法等語言學(xué)規(guī)則。

較早對搭配自動提取進行嘗試的Choueka等人認為,搭配是重復(fù)出現(xiàn)的相鄰的詞匯序列。[4]基于這一理念,Choueka等人提出的搭配自動提取方法主要是基于對相鄰詞語序列實際出現(xiàn)頻率的統(tǒng)計。這一方法也稱為“N2gram”(指二字詞“bigram”、三字詞“trigram”等多字詞串,相關(guān)文獻中也稱之為詞叢)。雖然理論上“N2gram”可指任意長度的詞語序列,但一般指二字詞到六字詞。這種早期的單純基于出現(xiàn)頻數(shù)的方法比較簡單,但存在不少缺陷。一是只能提取相鄰的詞匯所構(gòu)成的搭配,無法提取非連續(xù)性的搭配。二是由于搭配提取主要取決于實際出現(xiàn)頻數(shù),因而受語料庫規(guī)模的影響太大。后來,人們也提出了一些基于概率統(tǒng)計的詞串提取方法,但依然不能提取非連續(xù)性的搭配。

對搭配自動提取的重大改進來自Church和Hanks。[5]他們秉承弗斯的理念,認為搭配就是經(jīng)常性共現(xiàn)的詞語,但在技術(shù)層面上提出了利用統(tǒng)計學(xué)中的互信息值(mutual information)這一基于相關(guān)性測量的方法來計算兩個詞之間(pairs)的可預(yù)見程度(association ratio)。該方法主要通過對比共現(xiàn)的兩個詞語的期望頻率和實際頻率(compare the probability with what actually happens),測量兩個共現(xiàn)詞匯的搭配強度。該方法實現(xiàn)了非連續(xù)性搭配的自動提取。在此基礎(chǔ)上人們還提出了一些類似的提取搭配的統(tǒng)計測量方法,如 T值、Z值等。這些方法所基于的理念大致相同,即測量兩個詞在文本中共現(xiàn)的概率是否顯著,是否非偶然性共現(xiàn)。但在統(tǒng)計時側(cè)重點有所不同,因此在實踐中可嘗試用多種方法進行搭配提取。

基于概率統(tǒng)計提取搭配的最大優(yōu)點是能夠提取非連續(xù)性的詞語搭配。不過,這種方法只能測量兩個詞語間的搭配強度,無法提取由多個詞語構(gòu)成的搭配。另外,基于概率提取的搭配也容易出現(xiàn)所提取的搭配從統(tǒng)計上相關(guān)性很高,如“doctor、nurse”,但并非真正意義上的詞語搭配。為克服這些缺點,人們在自動提取搭配時開始巧妙地運用語言學(xué)知識進行篩選,因為詞語搭配具有結(jié)構(gòu)性,在組合關(guān)系上,詞與詞之間位置相對固定,且搭配詞之間在詞類和句法關(guān)系上也很有規(guī)律。

在結(jié)合統(tǒng)計測量和語言學(xué)知識提取搭配方面做得最成功的要數(shù)Smadja的“Xtract”系統(tǒng)和 Kilgarriff的“Word Sketch”引擎。Smadja[6](P151)的“Xtract”系統(tǒng)基于對搭配的兩個基本假設(shè):搭配詞必須是非偶然性地經(jīng)常共現(xiàn),受句法約束,搭配詞之間的位置相對固定。該系統(tǒng)首先通過統(tǒng)計測量方法(Z值)提取關(guān)鍵詞在一定范圍內(nèi)的符合非偶然性共現(xiàn)的所有搭配候選詞,然后運用語言學(xué)特征,通過位置分布信息和句法結(jié)構(gòu)信息等過濾其中不符合相應(yīng)語言學(xué)特征的搭配候選詞。如利用位置信息過濾那些在位置上平均分布的搭配候選詞,僅保留那些至少在一個位置上出現(xiàn)較高頻率(即峰值)的搭配詞。另外,也利用詞類信息過濾那些不符合典型的詞類間搭配特征的搭配候選詞。這些過濾提高了搭配提取的準確率。不僅如此,在過濾不符合語言學(xué)特征的搭配候選詞的同時,該工具還對符合條件的兩個搭配詞進行擴展,以提取更有用的多字詞搭配,如“blue、stocks”被擴展替換為“blue chip stocks”,這樣大大提高了搭配提取的適用性和召回率。Kilgarriff的“Word Sketch”引擎也充分利用了語料的詞類標記信息和搭配的句法特征,能提供基于句法關(guān)系的分類搭配詞。以“heavy”為例,其提供的主要搭配有:該詞做系表結(jié)構(gòu)時的名詞主語搭配(adj.subject),如“traf2 fic、air、eyes、heart、legs”;做限定詞時的名詞搭配(modifies),如“smoker、drinker”等。這種基于典型句法特征分類的搭配更為實用,對詞典編纂和語言教學(xué)等具有極大的促進作用,是目前最適用的搭配提取系統(tǒng)。

三、搭配提取的運用

搭配自動提取極大地提高了搭配研究的效率,提供了大量豐富而客觀的信息,也提升了搭配研究的深度,使人們獲得了一些憑借直覺或傳統(tǒng)方法無法獲得的認識,有助于彌補主觀直覺之不足。雖然搭配提取技術(shù)還有待進一步完善,所提取的搭配還需適當輔之以直覺判斷,但搭配自動提取所獲得的豐富信息已被廣泛運用于詞典編纂、語言研究和教學(xué)等多個方面。

目前大型通用語料庫提供了豐富的搭配資源,如學(xué)習(xí)者詞典、專門搭配詞典、網(wǎng)上語料庫(如Word Sketch Engine)等。雖然目前能免費獲得的語料庫工具的搭配提取功能還遠不夠完善,但利用更有針對性的特定語料,如教材語料、口語語料和期刊論文語料等,通過語料庫工具提取搭配,對于外語教學(xué)和研究依然十分有用,也是上述現(xiàn)有的搭配資源所無法替代的。下文將通過實證運用來探討和展示如何利用免費語料庫工具(此處指AntConc)和更有針對性的自建語料來提取搭配,輔助語言教學(xué)與研究。

通過語料庫技術(shù)提取搭配主要有兩種方法:一是通過軟件的檢索行功能,人工提取搭配;二是通過軟件的統(tǒng)計功能,自動提取搭配,不過也需要輔之以直覺選擇。在搭配提取的對象上,又可分為基于特定關(guān)鍵詞/結(jié)構(gòu)和無特定關(guān)鍵詞/結(jié)構(gòu)兩種情況。

(一)基于檢索行人工提取搭配

直接觀察檢索行獲得搭配是最為直接的方法,一般針對特定的關(guān)鍵詞或結(jié)構(gòu),通過排序觀察與其共現(xiàn)的詞語及出現(xiàn)頻數(shù),再結(jié)合直覺判斷。檢索行方法比較適合較小的語料,如教材語料。以人教版的新課標初中和高中英語教材為例,通過檢索關(guān)鍵詞“heavy”,可以展示該套教材中所呈現(xiàn)的該詞的所有典型搭配,如作為限定詞所搭配的典型名詞有“box/clothes/coat/traffic/fog/food”,作為系表結(jié)構(gòu)所搭配的典型主語有“he/she/legs”,這些典型搭配也是典型的語境,往往體現(xiàn)了不同的語義。這種調(diào)查將有助于教師對教材的全面掌握,在課堂上的直接呈現(xiàn)則無疑會有助于學(xué)生對教材的全面復(fù)習(xí)和掌握,而結(jié)合大型通用語料庫所提供的搭配資源則能使教師更有針對性地進行講解和補充。

如果語料進行了詞性標注(網(wǎng)上可免費下載詞性標注軟件,如Brill Tagger),則可以檢索不同詞類間的搭配,大大擴展語料庫對搭配的提取能力。如“名詞+名詞”類搭配非常有助于語言表達的精煉和地道,但常常被學(xué)習(xí)者忽視。因此,有針對性地選擇特定語料,以上述人教版的初中英語教材為例,對經(jīng)過詞性標注后的教材語料提取所有的“名詞+名詞”搭配,這種采用語料庫手段集中呈現(xiàn)的方式,可以通過突顯大量的相關(guān)搭配和語境以引起學(xué)習(xí)者的關(guān)注,從而提升學(xué)習(xí)者對這類搭配的敏感度。鑒于搭配對語言學(xué)習(xí)的重要性(搭配是語言表達流利和地道的基礎(chǔ))和艱巨性(易受忽視且數(shù)量眾多),利用語料庫方法在課堂上進行顯性的講授無疑是值得的。

(二)基于統(tǒng)計自動提取搭配

基于統(tǒng)計的搭配自動提取包括兩類,一是通過簡單的詞頻統(tǒng)計(也可通過概率)提取連續(xù)的詞串,二是通過概率統(tǒng)計提取非連續(xù)的兩個詞的搭配。

1.提取連續(xù)的詞串

詞串的提取分為無具體關(guān)鍵詞和有具體關(guān)鍵詞兩種情況。

對于無具體關(guān)鍵詞的詞串提取,不少人認為意義不大。這種說法有一定道理,因為語料庫工具提取的這類組合中不少似乎沒有明顯的意義,以二字詞串為例,所提取的高頻詞串中包含大量的類似于“I am,on the”這樣的組合。仔細探究,提取詞串還是具有一定的意義的,但應(yīng)注意以下兩點:一是選取的語料應(yīng)高度同質(zhì),如均為口語化很強的電影劇本語料。以流行美劇《老友記》為例,提取所有的二字詞串,雖然其中不少表達缺乏明顯的意義,但從中還是可以獲得地道的口語表達詞塊,如“I mean,I know,You know,My God,You guys”等。二是一些表面上似乎價值不大的組合,如“are you”,觀察語境則發(fā)現(xiàn)它能構(gòu)成許多有用的更大詞串,如“are you ready(for),are you okay/all right,are you se2 rious,are you crazy,are you sure,are you kidding (me)/joking,are you scared/upset,are you gonna be ok(call her)”等。可見,較小的詞串通常是更大詞串的一部分,小詞串的語言生成能力不容忽視。

而基于具體關(guān)鍵詞所提取的詞串則往往更有價值。如為了調(diào)查英文期刊論文寫作的表達規(guī)律,建設(shè)了小型期刊論文語料庫。語料來自應(yīng)用語言學(xué)類的國外頂級期刊,規(guī)模約為20萬詞。以論文中的常用詞匯“study”為例,提取其二字詞串就獲得了許多有用的搭配,如表示研究類別和性質(zhì)的常見搭配“case/descriptive/explorative/comparative/empirical/ experimental/laboratory/pilot/longitudinal study”;表示過去、現(xiàn)在和將來研究的常見搭配,如“previ2 ous/recent studies,the present/current study,fur2 ther studies”;典型的動詞搭配則有“investigate/ex2 amines/compare/show/suggest/demonstrate/indicate”等,進一步觀察這些動詞的時態(tài)還能有更多發(fā)現(xiàn)。另外,對提取的搭配進一步觀察也發(fā)現(xiàn),一些表面上意義不大的搭配從更大的語境看表達力很強,如“no study”和“few studies”常被用來指出現(xiàn)有研究之不足,如“no(published)study/few studies has/ have directly/systematically tested/looked at…”;而“our study”的大量出現(xiàn)(詞串提取沒有得到my study這樣的搭配)則反映了論文作者的表達視角傾向于用第一人稱的復(fù)數(shù)形式,以避免體現(xiàn)個人的主觀性。

2.提取非連續(xù)的兩個詞的搭配

和檢索行相比,提取非連續(xù)的兩個詞的搭配主要是基于概率統(tǒng)計,這更適用于大規(guī)模語料。大規(guī)模語料來源廣,代表性強,不僅能較好地體現(xiàn)語言表達方面的規(guī)律,也能在一定程度上體現(xiàn)使用該語言的人群對某事物的集體看法,因為語言不僅建構(gòu)社會,而且體現(xiàn)社會。因此,通過對語言的調(diào)查能夠揭示文化信息,而從搭配角度揭示人們對事物的集體認識則是一種較為高效的手段。

以自建的英美文學(xué)作品語料庫為例(約1500萬詞),通過檢索“dog”的常用搭配,可以探究英美民族對于狗的一些集體認識。由于搭配提取的參數(shù)可以靈活選擇,此處選擇關(guān)鍵詞左邊跨度為2,右邊為3,最低頻率為3,按互信息值排列。通過觀察發(fā)現(xiàn),語料庫自動提取的一些搭配體現(xiàn)了英美民族對于狗這一動物的多維度且較為復(fù)雜的認識,如:狗的典型行為動作為“yelp、bark、wag、bay、howl、bite、lick、bound、chase、sniff、guard、save”;狗可以分為“hun2 ting、prairie、farm、puppy、pet、wild、stray”;常常與狗一同出現(xiàn)的事物有“sledges、cats、master、goats、sheep、fox、horse”;對狗的常見修飾語,又可分為褒義類“faithful、friendly、clever、obedient、little、great”,貶義類“fierce、mad、cunning、hungry”和中性類“black、big、old、sleeping”等。其中有些表面上顯得意義不大的搭配詞,如“old、eat、living”等,實際上可能體現(xiàn)了較為固定的習(xí)俗表達,如“can’t learn an old dog new tricks;it’s dog eat dog;a living dog is better than a dead lion”。最能體現(xiàn)英美民族對狗的認識的搭配詞則是介詞“l(fā)ike”。通過比喻,人們充分地展示了對狗的不同特性的不同看法,因此通過觀察該搭配的具體語境能有許多發(fā)現(xiàn)。如英美民族對“dog”的表達中許多含有消極語義,如“slay/ hang/kill/beat you like a dog;be treated like a dog;die like a dog;lived like dogs in a kennel;quar2 rel like dogs and cats;like a cornered/angry/hun2 gry/mad dog;like the dog in the manger”等。表達積極語義的則大多與忠實、溫順有關(guān),如“l(fā)ike a faithful/pet dog;(he cringed along at my compan2 ion’s side)like a dog with its master”。另外也有一些中性的比喻表達,非常形象生動,如“ran round, like a dog who is picking up a scent;follow you a2 bout like a dog;pant/bark like a dog”等。這些發(fā)現(xiàn)可能與語料來源有關(guān),該語料大多為19世紀和20世紀上半葉的文學(xué)作品。

四、結(jié)語

綜上所述,搭配對于語言學(xué)習(xí)與研究均非常重要。搭配提取充分利用了搭配的特性,即搭配是語言中習(xí)慣性的結(jié)伴使用,因此在統(tǒng)計上具有顯著性。搭配具有語言學(xué)特征,在詞類、位置和句法結(jié)構(gòu)上相對固定。搭配提取提高了搭配研究的效率和深度,而基于大規(guī)模通用語料庫的搭配提取則為語言學(xué)習(xí)與研究提供了豐富的資源。但這并不排除更有針對性地選擇自建語料,使用語料庫檢索工具提取諸如詞類間搭配、詞串、兩個詞之間的搭配等多種形式的搭配。上述大量的實證運用則充分證明了其對于語言教學(xué)與研究的應(yīng)用價值,能更有針對性地揭示語言表達規(guī)律及其蘊含的文化信息。

[1]謝家成.搭配的多視角透視[J].解放軍外國語學(xué)院學(xué)報,2008 (2).

[2]Firth,J.R.Papers in Linguistics[M].London:Oxford University Press,1957.

[3]Halliday,M.A.K.,Hasan,R.Cohesion in English[M].London: Longman,1976.

[4]Choueka Y.,Klein T.Neuwitz E.Automatic Retrieval of Fre2 quent Idiomatic and Collocational Expressions in a Large Corpus [J].Literary and Linguistic Computing,1983(1).

[5]Church,K.W.,P.W.Hanks.Word Association Norms,Mutual Information,and Lexicography[J].Computational Linguistics, 1990(1).

[6]Smadja,F.Retrieving Collocations from Text:Xtract[J].Compu2 tational Linguistics,1993(1).

責任編輯強琛 E2mail:qiangchen42@163.com

book=860,ebook=860

H314

1673-1395(2010)03-0065-04

20100312

謝家成(1969—),男,湖北荊州人,副教授,主要從事語料庫語言學(xué)研究。

搭配、搭配提取與運用

一、搭配簡介

二、搭配提取

三、搭配提取的運用

(一)基于檢索行人工提取搭配

(二)基于統(tǒng)計自動提取搭配

四、結(jié)語

搭配、搭配提取與運用

一、搭配簡介

二、搭配提取

三、搭配提取的運用

四、結(jié)語