韓冬嬌
(黑龍江大學 黑龍江 哈爾濱 150086)
詞匯豐富性是二語詞匯研究的重要領域,涉及詞匯變化性、詞匯密度、詞匯復雜性和詞匯錯誤數量四個維度,英語新聞詞匯的豐富性直接影響著新聞質量。本研究選取主流媒體人民網的英文版作為觀察語料,將CNN原生新聞作為參照語料,自建兩個小型語料庫,并借助軟件wordsmith 6.0、Range 32和Antconc 3.4.4,對國內媒體英語新聞詞匯豐富性展開分析。
20世紀80年代以來,二語詞匯研究備受國內外專家學者的關注,研究領域主要為詞匯廣度和詞匯深度。
詞匯豐富性是反映二語寫作水平的一個重要指標。Laufer&Nation指出,詞匯豐富性主要由四個維度構成,分別是密度、變化性、復雜性及新穎性。[1]Engber在前者的研究基礎上,將詞匯錯誤作為詞匯測量的另一個重要維度納入其中,指出詞匯豐富性的考察必須將有錯誤的詞匯變化性、無錯誤的詞匯變化性、錯詞比例等考慮在內。[2]Read指出,一篇好文章應具備以下詞匯特征:詞匯豐富,非重復使用有限的單詞;使用符合話題和文體的低頻詞;相對高比例的實詞和較少的詞匯錯誤。[3]這幾個特點被定義為評估詞匯豐富性的四個要素,即詞匯多樣性、詞匯復雜性、詞匯密度和詞匯錯誤的數量。
有關國內媒體英語新聞的研究多集中于新聞標題、導語、詞匯、文體特征等方面,對詞匯豐富性的研究較少,而英語新聞的詞匯豐富性直接影響著新聞質量。本研究基于Read的理論,將詞匯豐富性的維度界定為詞匯多樣性、詞匯密度、詞匯復雜性和詞匯錯誤數量,通過自建語料庫,對國內媒體英語新聞的詞匯豐富性進行研究。
本研究選取國內主流媒體人民網的英文版作為觀察語料,將CNN原生新聞作為參照語料,自建兩個小型語料庫;其中觀察語料庫7237詞,參照語料庫7178詞,新聞內容主要涉及政治、經濟、文化三個方面。
本研究借助語料庫分析工具,分析人民網英文版新聞的詞匯豐富性,并將其與CNN英語原生新聞進行對比,發現國內媒體英語新聞與原生英語新聞之間在詞匯使用上差距較大。由于本研究選取的人民網英語新聞是國內主流媒體,文章質量較高,因此詞匯錯誤數量不作為本文的研究內容。本研究主要從以下三個方面展開討論:詞匯多樣性、詞匯復雜度和詞匯密度。
本研究借助wordsmith 6.0,通過計算標準類符和形符比(STTR)測量語料庫的詞匯多樣性;將《英語通用詞表》作為詞匯頻率檔案,運行Range 32測量詞匯的復雜度;通過軟件Antconc3.4.4檢索語料庫中實義詞數,計算詞匯密度。
1.詞匯多樣性
詞匯多樣性可看作詞匯的廣度,是詞匯豐富性的多維特征之一。詞匯多樣性傳統上采用類符和形符比(type token ratio,TTR),但該方法受文本長度影響較大。因此,一般采用標準化類符/形符比(standardized type/ token ratio,STTR)作為衡量標準,以減少文本中功能詞詞頻過高造成的誤差。[4]因此本研究借助wordsmith 6.0,采用Scott(2008)介紹的標準化類符和形符比(STTR)來測量國內媒體英語新聞詞匯多樣性,測量結果更穩定。STTR值越高,說明文章中使用的類符數越多。兩個語料庫的類符數和形符數,以及標準類符和形符比見表1。

表1 人民網語料庫和 CNN 語料庫標準化類符、形符比
表1顯示,人民網語料庫的TTR值為27.36,而CNN語料庫為31.66;從穩定性更強的STTR值看,人民網語料庫是44.21,CNN語料庫為48.14,兩組數值均說明國內媒體英語新聞的詞匯多樣性低于原生英語新聞。
2.詞匯復雜度
詞匯復雜度是評估詞匯豐富性的指標之一,所謂復雜度指的是文本中能夠適當使用與主題、文體相關的低頻詞,而非只使用常用的高頻詞。[5]本研究通過運行Range 32測量詞匯的復雜度[6],所用詞匯頻率檔案是《英語通用詞表》(GLW),其中最常用1000詞和次常用1000詞為高頻詞,學術詞匯和表外詞為低頻詞。[7-8]低頻詞比例越高,說明語料庫詞匯復雜度越高。兩個語料庫的詞匯復雜度見表2。

表2 人民網語料庫和 CNN語料庫詞匯復雜度
詞匯復雜度指標主要看的是低頻詞,即學術詞匯和表外詞。表2顯示,對于學術詞匯,人民網為14.94%,CNN為12.19%,人民網高于CNN;對于表外詞,人民網為28.86%,CNN為33.54%,人民網低于CNN。低頻詞指的是學術詞匯與表外詞匯,人民網的學術詞匯與表外詞之和為43.80%,CNN為45.73%,人民網低于CNN,說明人民網的詞匯復雜度低于CNN。
3.詞匯密度Read(2000)認為,詞匯密度是詞匯豐富性的一個重要參數。在詞匯密度測量上,本研究計算的文本中實詞數與總詞數之比[8-9],其計算公式為:

本研究借助Antconc3.4.4檢索兩個自建語料庫的實義詞數。通過以上公式,分別計算人民網語料庫和CNN語料庫中實詞總數與總詞量的比例,從而得出兩個語料庫的詞匯密度。該比值越高,說明語料庫詞匯密度越大。兩個語料庫的詞匯密度見表3。

表3 人民網語料庫和 CNN語料庫詞匯密度
表3顯示,兩個語料庫的詞匯總數相近,人民網語料庫的詞匯密度為59.66%,CNN語料庫的詞匯密度為57.59%,人民網語料庫的詞匯密度高于CNN語料庫。
人民網語料庫和CNN語料庫詞匯豐富性的相關數據表明,人民網英文版的詞匯多樣性和詞匯復雜度均低于CNN原生新聞;但人民網的詞匯密度高于CNN,說明國內媒體英語新聞重復使用相同詞匯處多,詞匯的廣度和復雜度較低。這與表2兩個語料庫中高頻詞匯的使用情況相吻合:對于《英語通用詞表》中最常用1000詞,人民網語料庫為45.79%,CNN語料庫為43.79%,人民網高于CNN;對于次常用1000詞,人民網語料庫為10.40%,CNN語料庫為10.48%,兩個語料庫相差不大,即國內媒體英語新聞更多地使用高頻詞。
本研究通過自建語料庫分析了國內媒體英語新聞的詞匯豐富性,并與原生新聞進行對比,結果顯示:國內媒體英語新聞的詞匯多樣性和詞匯復雜度均低于原生新聞;但詞匯密度較高,說明國內媒體英語新聞多處重復使用高頻詞匯。為提高我國新聞外宣能力,國內媒體應提高英語新聞的詞匯多樣性和復雜度,注重低頻詞匯的運用,以提高英語新聞的文本質量。本研究只是對國內媒體英語新聞的詞匯豐富性進行初步分析,雖然在一定程度上揭示了國內媒體英語新聞與原生新聞之間詞匯使用差距,但仍有不足之處,如選取的語料范圍較小、語料庫規模有限。因此,今后需建立更大庫容的語料庫,開展更加深入且全面的研究。