一、語料庫的基本知識
語料庫通常是指為語言研究收集的、用電子形式保存的語言材料,由自然出現的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。
語料庫已經成為語言學理論研究、應用研究和語言工程不可缺少的基礎資源,這是因為經過科學選材和標注、具有適當規模的語料庫能夠反映語言的實際使用情況,人們可以通過語料庫觀察和把握語言事實,分析和研究語言系統的規律。語料庫是以電子計算機為載體承載語言知識的基礎資源,其語言材料是在語言的實際使用中真實出現過的,真實的語料需要經過加工、分析和處理才能成為有用的資源。
二、語料庫在英語詞匯教學中的應用
1、詞頻統計
根據大學英語教材語料庫的統計結果可以看出,如果能夠掌握頻率表中出現頻率最高的詞匯,在閱讀時就可識別出整篇文章詞匯的一半左右。而在英語詞匯的教學過程中,應著重講授這些頻率最高的詞匯。掌握詞頻統計表中的常用的大約8000個詞匯,就可以覆蓋語料的90%以上。
所謂的高頻詞匯,就是一個文本中出現頻率較高的詞匯,是根據語料庫中的語料統計研究得出的高頻詞匯,并不是憑感覺或主觀經驗來確定的詞匯。只有通過語料庫中的詞頻統計研究得到的詞匯,即高頻詞匯才是真正的常用詞匯。通過英語詞匯的高頻詞匯表,可以確定英語詞匯學習的主要內容,找出詞匯學習的重點,為學習者提供參考,因此,在學習英語詞匯時,應該首先學習出現頻率較高的常用詞匯,把與詞匯有關的語言規律作為學習的重點從而減輕詞匯學習中的不必要的負擔。
2、詞類分布
在英語中,詞類分為開放詞類和封閉詞類兩大類。開放詞類指各種實義詞,包括名稱、形容詞、副詞和動詞。封閉詞類指所有的功能詞或結構詞,包括介詞、代詞、限定詞、連詞和助動詞。此外還有基數詞、序數詞、感嘆詞是介乎“封閉”與“開放”之間的詞類。
在詞匯研究中,可以利用標注后的語料對哪些詞類是經常使用和語料庫中詞類的出現頻率和分布情況進行研究,從而在英語學習中選擇合適的內容和學習的先后次序,找出學習的重點,避免由于選擇過時的表達方法而造成學習的滯后性。通過語料庫研究可以得出,開放詞類比封閉詞類分布性廣,開放詞類如名詞、動詞、形容詞的使用詞次數都超過了千次,而封閉詞類如限定詞和量詞的使用詞次數只有幾十個詞次,另外,從統計的數據中還可以看出,語料庫中出現在句首和句尾的最常用的詞類搭配中頻率最高的三個分別是形容詞+名詞,定冠詞+名詞,介詞+名詞,從語法的角度來看句尾的詞類搭配比句首的詞類搭配更容易檢測。因此,基于語料庫的詞匯研究對進一步的句法研究有很大程度上的借鑒作用。
3、詞匯復雜度
詞匯復雜度即詞匯的變化程度是用文本中的詞形和詞次的比例來表示的。詞形是文本中使用到的詞匯,詞次是這些詞匯在文本中出現的總次數。同一詞形在真實的文本中可能被多次使用,因而詞次一般要比詞形多,語料庫的總次數是指語料庫所含的總詞次。詞匯復雜度可以通過以下兩種方法進行計算:詞匯復雜度 = 詞形/詞次
把文本分成層次或分成段落,然后將結果平均,得出文本的詞匯復雜度,這樣詞匯的變化程度也是比較準確的。詞形/詞次的比值越高,表明文本中使用的詞越多,重復詞相對越少。另外,詞匯復雜度與文本的長度有關,因此,文本越短,詞匯重復少,詞匯復雜度越高;文本越長,詞匯重復使用越嚴重,詞匯復雜度會降低。
通過大學英語教材語料庫研究可以得出,一般英語教材中的詞匯復雜度較低,文本長度大致相同,所以詞形大約都在300-500個之間,詞次,也就是這些詞匯在文本中出現的總次數大約在3000-6000次之間,所以詞匯復雜度 = 詞形/詞次,大約為0.1左右。而學生在寫作中,文本使用到的詞匯也就是詞形,大約在200-400個之間;詞次,也就是這些詞匯在文本中出現的總次數大約在2500-5000之間,所以詞匯復雜度也是大約為0.1左右。由此可見,英語教材中的詞匯復雜度與學生的寫作中的詞匯復雜度較為接近,學生完全可以在平常的學習中,通過背誦教材中的課文,而沒有必要閱讀過多的課外讀物來加強自己的詞匯量。
4、詞匯密度
詞匯密度是指文本中所含的實詞和功能詞的百分比。所謂實詞是指內容性詞匯,包括用以傳達信息的名詞、動詞、形容詞、副詞等開放類性詞匯;功能詞主要包括助動詞、冠詞、介詞、連詞等。一般情況下,稱實詞為TW,功能詞為FW,則 LD = "TW/FW。 實詞與功能詞的比例越高,則詞匯密度越大。根據研究表明,LD取決于文本的類型,與文本長度無關。
一篇文章中所含有的信息量的高低是可以通過句子的詞匯密度來進行比較的。如果語篇的詞匯密度大,這就說明,這篇文章中使用的實詞比較多,含有較多的信息量,即信息含量大;如果語篇的詞匯密度小,則說明該語篇虛詞使用的較多,而實詞使用的少。大學英語教材語料庫中語料句子的詞匯密度比學生寫作中句子的詞匯密度高,也就是說,大學英語教材語料庫中使用的實詞較多,含有較多的信息量,而學生寫作語料庫中的虛詞使用的較多,而實詞使用的少,所含的信息量較少。
參考文獻:
[1]王建新.計算機語料庫的建設與應用[M].北京:清華大學出版社,2005
[2]汪榕培.英語詞匯學教程讀本[M].上海:外語教育出版社,2005
[3]穆惠峰.基于語料庫的詞匯教學研究與英語詞匯教學[J].宿州教育學院學報,2007,04
作者簡介:張晨(1982.3-),女,山東聊城人,甘肅政法學院人文學院助教,研究方向:外國語言學及應用語言學。
(作者單位:甘肅政法學院)