李華勇
(四川文理學院外國語學院,四川達州 635000)
GloWbE語料庫 (the Corpus of Global Web-Based English)是一個由來自20個國家的180萬個網頁收集到的19億詞組成的英語語料庫,由美國楊百翰大學的Mark Davies教授創建,并于2013年4月在國際互聯網上發布供語言研究者免費使用。GloWbE語料庫的庫容是COCA的4倍、BNC的20倍。大庫容GloWbE語料庫的好處在于能夠檢索到更多數量的低頻字符串的形符(Token)數,理論上而言,一個字符串的形符數量在BNC如果只有10~12次的話,在COCA有50~60次,那么在19億詞的GloWbE中就有250~300次,這些更多數量的低頻字符串的形符數能更全面地反映出它們的詳細變化規律和過程。GloWbE最主要的功能是能觀察到任何一個詞、短語或語法結構在20個不同英語方言區國家的頻率分布情況,同時也可以比較任何兩組方言變體在不同國家的變化情況,還可以將檢索范圍限定在20個英語方言國家所在的一個或幾個國家范圍之內。
GloWbE語料庫里的語料根據建設要求按不同比例選自不同的網站和博客頁面,同時采用不同的技術手段進行詳細處理以盡量減少重復文本(duplicate texts),因此其收集到的語料基本能真實反映出所在國的英語方言實際使用狀況。
方言是語言的一種變體,一個國家的某個地區使用或特定階級的人使用,在有些單詞、語法及發音上不同于同一形式的其他語言[1]。英語方言(English dialects)是英語語言的一種變體,它在發音、詞匯、語法方面與標準英語(Standard English)有所不同;語言學家將世界范圍內使用的英語劃分成6大英語方言區:歐洲方言區(英國),北美方言區(美國、加拿大),大洋洲方言區(澳大利亞、新西蘭),拉丁美洲方言區(圭亞那、伯利茲城),亞洲方言區(新加坡、菲律賓)和非洲方言區(南非)。①http://en.wikipedia.org/wiki/List_of_dialects_of_the_English_language這六大方言區使用的英語在發音、詞匯、語法上各有區別,有自己的特點和存在相應的變體,對這些特點和變體的研究,能進一步了解英語在這些地區的變化特征和使用規律。以前對英語方言變體的比較研究主要限于美國和英國兩個主要方言區進行,這些研究既有內省式的理論探討也有基于語料庫的實證研究,但是,要想同時對世界上幾十個說英語的國家的英語方言進行基于各自真實語料的詳細比較和研究,在GloWbE發布以前幾乎是不可能完成的任務。下面就以具體的例子來詳細說明GloWbE對這20個國家英語方言中的詞匯、短語、語法、語義和文化比較研究的作用。
由于GloWbE語料庫所收集的語料是來自20個主要說英語的方言區國家,并且這些語料是按比例均衡分布在語料庫中的,因此,從檢索GloWbE得到的特定詞匯可以看出其在這20個國家的頻率分布情況,從而為觀察該特定詞匯在這20個方言區的使用情況提供詳細語料支持,避免內省式研究所得出的不適合的結論。我們以詞fortnight為例,它在《牛津高階英漢雙解詞典(第七版)》中被解釋成:“(BrE)two weeks 兩星期”[2]803。從其中的說明“(BrE)”可以看出該詞典認為fortnight是一個主要在英國英語中使用的詞匯,而較少使用在美國英語(AmE)中。我們在GloWbE檢索界面的入口WORD(S)處輸入被檢索詞“fortnight”,顯示方式(DISPLAY)選圖標(CHART),檢索范圍選忽略(Igore)即默認這20個國家。然后運行檢索引擎,檢索結果如圖1所示。

圖1 fortnight在GloWbE中20個英語方言國中的使用頻率分布情況
圖1中的第一行,是這個20個國家名字的縮寫,第二行是該詞在語料庫所在國子庫中出現的總頻數,第三行是該詞經過標準化處理的對應的每百萬詞的頻率(/MIL),第四行是第三行數據的圖標化顯示,后面類似表格含義與此相同。由圖1可見,fortnight一詞在澳大利亞(AU)使用的頻率最高達9.73/MIL,排在第二和第三的分別是愛爾蘭(Ireland)7.76/MIL 和英國(GB)7.48/MIL,使用頻率最低的兩個方言區國家分別是美國(US)0.85/MIL和加拿大(CA)0.63/MIL。這一檢索結果與《牛津高階英漢雙解詞典(第七版)》把fortnight標注成主要是在英國英語中使用有一定出入:如果主要在英國英語中使用的結論是與美國英語相對而言,是對的;但如果是與20多個主要英語方言使用國而言則是錯的。因而,詞典對該詞條使用的范圍最好表述為“主要使用在澳大利亞英語和英國英語中,很少使用在美國英語中”,才符合fortnight的實際使用情況。
GloWbE可以對短語進行檢索對比研究。例如,我們在GloWbE的檢索入口WORD(S)處輸入“on holiday”這一短語,顯示方式選圖標,檢索范圍選忽略即默認這20個國家。然后運用檢索引擎,檢索結果如圖2所示。

圖2 on holiday在GloWbE中20個英語方言國中的使用頻率分布情況
從圖2可以看出,on holiday這一短語在英國英語和南非(ZA)英語中的使用頻率最高,分別為為 12.21/MIL 和 7.12/MIL,使用頻率最低的兩個國家是美國和加拿大,分別為0.99/MIL和1.32/MIL。《牛津高階英漢雙解詞典(第七版)》指出“holiday一詞是英式英語,很少使用在美國英語中”[2]796,從這一說明可以推理出 on holiday 這一短語也主要使用在英式英語中,很少使用在美式英語中。但是,經過對GloWbE檢索后發現,on holiday不僅在英式英語中使用頻率最高,在南非(ZA)和愛爾蘭(IE)中的頻率也相當高,分別達7.12/MIL和6.89/MIL。可見,《牛津高階英漢雙解詞典(第七版)》對on holiday使用范圍的表述是不準確的:on holiday在美式英語中使用得極少這是事實,但是其不僅在英式英語中使用得相當多,在南非英語和愛爾蘭英語中的使用也相當頻繁。
同理,我們對on holiday的對應短語on vacation在GloWbe里也進行了類似的檢索,結果如圖3所示。

圖3 on vacation在GloWbE中20個英語方言區中的使用頻率分布情況
由圖3可見,on vacation使用頻率最高的應該是拉丁美洲的牙買加(JM),其次是加拿大(CA),再次才是美國(US)。在英國使用得比較少,僅1.26/MIL。因此,我們不能認可《牛津高階英漢雙解詞典(第七版)》“on vacation,是美式英語,很少在英國英語中使用”的表述。
GloWbE可以對英語相關句法/語法結構進行檢索對比和研究。比如我們想要觀察英語stop+someone+V-ing這一句法結構在20個英語方言區國家的使用頻率的分布情況,只要在GloWbE中的檢索入口 WORD(S)處輸入[stop][p*][v?g*],顯示方式選圖標,檢索范圍選忽略即默認這20個國家。然后運行檢索引擎,檢索結果如圖4所示。

圖4:stop+someone+V-ing在GloWbE中的使用頻率分布情況
由圖4可以看出,stop+someone+V-ing這一句法結構在英國(GB)英語中使用頻率最高,達11.45/MIL,其次主要使用在愛爾蘭(IE)、澳大利亞(AU)和新西蘭(NZ)這3個英語方言國,在美國和加拿大英語中使用的頻率很低,分別為1.16/MIL和0.65/MIL。實際上 stop+someone+V-ing這一句法結構是由stop+someone+from+V-ing結構省略了其中的介詞from得到。對這一句法結構中的from能不能省略,相關語法書明確指出from可以省略,并且語義和用法沒有什么差別,比如在《英語常見問題解答大詞典》中就說“現代語言學家們認為stop sb.doing與stop sb.from doing兩個結構意思是相同的,其中的from是可有可無的”[3]。事實果真如此嗎?我們用同樣的方法在GloWbE中檢索輸入WORD(S)輸入[stop][p*]from[v?g*]這一檢索語法,得到stop+someone+from+V-ing這一句法結構在GloWbE中的使用頻率分布情況,如圖5。

圖5 stop+someone+from+V-ing在GloWbE中的使用頻率分布情況
由圖5可見,stop+someone+from+V-ing這一句法結構在英國(GB)、愛爾蘭(IE)、澳大利亞(AU)和新西蘭(NZ)的使用頻率差異不大,波動范圍在5.67/MIL~8.56/MIL。這與圖4反映的stop+someone+V-ing主要使用在英國(GB)英語方言中形成了鮮明的對比。因此,從在20個英語方言區使用頻率來講,這兩個結構中的from省略與否是有所區別的:省略from的使用情況主要是在英國英語方言中,頻率達到11.45/MIL,在愛爾蘭、澳大利亞和新西蘭英語方言國中使用頻率約在6/MIL左右,在其他的方言國中使用頻率很低;而不省略from的情況,在英國(GB)、愛爾蘭(IE)、澳大利亞(AU)和新西蘭(NZ)使用頻率相差不大。我們認為相關英語語法書在對這兩個結構進行比較和解釋時,最好能將其在不同方言區使用頻率情況的差異告訴學習者,以利于學習者認識這兩個句法結構在不同方言中的使用差異。
GloWbE可以對英語方言中語義進行相關對比和研究。通過語料庫觀察詞的語義差異的傳統方法是通過檢索該詞的所有形符(token)或隨機抽樣(randomized)形符,然后研究其用法模式以考察其語意差異,耗時費力[4]。但是如果使用架構合理的語料庫,就能簡明和快速實現對詞語語義差異的考察。語料庫語言學中的一個核心觀念是“我們可以通過一個詞的伴隨詞知其語義”[5]。如果我們檢索找到一個詞的所有搭配(collocates)的歷史變化情況,這些搭配就能表明其語義的歷史變化情況。我們在GloWbE中的檢索入口WORD(S)處輸入[trunk].[nn* ],同時雙擊打開搭配選框 (COLLOCATES),在里面輸入[nn*]和限定范圍為前后4個詞,顯示方式選列表(LIST),檢索范圍選United States和Great Britain,這樣就能檢索到美式英語和英式英語方言中所有與trunk搭配并與結點詞相距4個詞之內的相關名詞,檢索結果如表1所示。
由表1可見,在美國英語中,與trunk搭配最多的名詞是club、release和cars等8個詞,進一步觀察這8個詞所在的語境(KWIC),可以得出trunk在這8個搭配中的語義是“汽車”或“汽車后備箱”;而在英國英語中,與trunk搭配最多的是roads、rotation和strength等8個詞,進一步觀察這8個詞所在的語境,可以得出trunk在這8個搭配中的語義是“(公路)主干道”。由此可見,同一個詞trunk在英國英語和美國英語這兩個方言區中的語義是有很大差異的。

表1 在美國英語方言和英國英語方言中,與trunk搭配的名詞對比
GloWbE還可以對這20個英語方言國家中的英語方言進行文化方面的比較研究。一個國家的語言是該國文化的反映,因此,通過觀察一個國家的語言中的詞匯、搭配和表達方式就可以考察該國的特定文化現象、宗教信仰和國民的文化觀念等。GloWbE提供的這20個英語方言區國家,雖然英語是它們最主要的交流語言,但是它們使用的英語方言是有差異的,通過對它們使用的英語方言進行相關檢索,可以發現這些國家在文化現象、宗教信仰和文化觀念方面的差異。可見,GloWbE實現了由單獨對英語詞匯、短語、句法和語義的研究拓展到語篇和文化方面的研究,還實現了同時對這20個英語方言區國家的文化現象、文化觀念的對比,這是BNC、ANC、COCA和COHA等語料庫不能現實的,因為這些語料庫只以英式英語或美式英語為語料來源。在GloWbE中的檢索入口 WORD(S)處輸入[sex].[nn* ],同時雙擊打開搭配選框,在里面輸入[j*]和限定范圍為前后4個詞,顯示方式選列表,檢索范圍Section A選 the United States、Great Britain 和 Canadian,檢索范圍Section B選 India、Pakistan和 Malaysia,分類方式(Sorting)選然“頻率”(Frequency),后運行搜索引擎后得到結果如表2。

表2 與sex搭配的形容詞在核心英語方言區與非核心方言區的差異① 運行搜索引擎得到的結果,在GloWbE中真實的顯示方式是以列表的形式分左右兩大欄,每欄表格中包括與sex搭配最緊密、最常見的形容詞按Ration順序大小排列,共計各100個;表中還分別顯示了這些形容詞在“美國/英國/加拿大”和“印度/巴基斯坦/馬來西亞”的形符頻數Token 1和Token2,以及它們對應的標準化頻率PM1和PM2。限于篇幅,在表2中只列舉了兩類方言區中與sex搭配最頻繁的前8個詞。
由表2可見,在美國、英國和加拿大這些西方發達國家(即本文所說的英語核心方言區),國民對性(sex)的態度與非核心方言區的國民對性的態度差異很大,如同性性交(gay sex)和隨意性關系(casual sexual)等,這些搭配方式反映出西方核心英語方言區國民對性的開放程度和對非正常性交的接受程度。核心方言區這種獨特的性觀念和文化與20世紀60年代“性解放思潮”在美國風行并擴散到西方其他發達國家有密切的關系。性解放思潮是一種要求性行為絕對自由的資產階級思潮,②http://baike.baidu.com/view/1977647.htm否認兩性關系的社會性,把肉體感官特別是性感官的快樂視為人生最大的快樂和幸福,視為自我解放和謀求幸福的唯一途徑。從倫理學上看,性解放思潮是極端利己主義和自由化在兩性關系方面的非道德化的表現,其核心是享樂主義。而在印度、巴基斯坦和馬來西亞(即英語非核心方言區),從非法性交(illicit sex)、雙方同意條件下的性交(consensual sex)和美好的性(good sex)等的搭配可以看出他們對性的態度和觀念仍然比較傳統,把性看成是一種男女雙方神圣的、私密的事。盡管在非核心方言區也出現了諸如“anal sex”之類的搭配,但是這樣的搭配使用頻率是排在后面的,是居次要位置的,這可能是受西方性解放觀念和現在網絡媒體宣傳的影響,西方的一些開放的性觀念逐漸向這些非核心英語方言區滲透的結果。盡管在核心方言區和非核心方言區人們對性的觀念存在著很大的差異,但是也有共同的東西:美好的性(great sex),這是人類共享的認知——性是美好的、令人愉悅的和給人帶來享受的。可見,通過在GloWbE中對與sex搭配的形容詞的檢索,可以幫助人們從語言層面來觀察和認識不同方言區的國民對性等相關文化觀念的差異,從而為從語料庫角度來研究文化現象打開了一個新的窗口。
GloWbE語料庫的建立為英語方言變體的全面比較研究提供了新的工具和視角,實現了基于真實語料對英語變體從詞匯、短語、句法、語義到語言文化的各層面的跨國和跨區域比較研究。由于GloWbE語料庫中的語料基本真實地反映了這20個英語方言國家的語言實際使用情況,因此,基于GlowWbE的實證研究得出的結論能夠反映這20個國家的英語方言使用的實際情況和變化規律,比內省式研究得出的結論更可靠,更符合語言變體使用的實際情況。
[1] [英]理查茲.語言教學及應用語言學辭典[M].北京:外語教學與研究出版社,2002:133.
[2] Hornby A S.牛津高階英漢雙解詞典[M].7版.北京:商務印書館,2009:803.
[3] 趙振才.英語常見問題解答大詞典[M].哈爾濱:黑龍江人民出版社,1999:1098.
[4] Davies,M.Expanding horizons in historical linguistics with the 400-million word Corpus of Historical American English[J].Corpora,2012(2):121 -157.
[5] Firth J R.Papers in Linguistics 1934-1951[M].Oxford:Oxford University Press,1957:179.