英語實詞動態增長與重復分析

2013-01-31 05:01:08趙小東胡賽兒

大連海事大學學報(社會科學版) 2013年4期

趙小東，胡賽兒

(大連海事大學外國語學院，遼寧大連 116026)

國內外許多學者，如Baayen［1］、Brunet［2］、Fan［3－5］、Tuldava［6］等都研究過詞匯量與篇章長度的關系。他們或設計不同的量化模型來描述詞匯量與語篇長度的關系，或運用不同的語言數據去驗證這些模型。也有學者對實詞進行了研究，如Francis等［7］、Johansson 等［8］通過計算LLC、Brown 和LOB語料庫中的實詞比率對實詞進行了靜態的分析。對詞匯重復率的研究主要為國內學者，如Fan［4－5］、羅衛華等［9－10］。但目前卻沒有對各類實詞的動態的詞匯量與篇章長度關系的研究。因此本文擬利用計量的方法，對普通英語和科技英語中的實詞按4000詞切分，對其進行詞匯增長的動態分析，對比研究兩個語料庫中實詞的詞匯增長、詞匯重復情況。

一、基本定義

本文中實詞包括名詞、動詞、形容詞和副詞。對介詞、連詞、冠詞、代詞等虛詞不作研究，這是因為英語中虛詞總量非常有限，增長模式不明顯。實詞詞匯增長是通過各實詞詞類的累積類符數除以該詞類的累積形符數計算的。

許多語言學家都注意到類符/形符比(Type/Token Ratio，簡稱TTR)跟形符總數的關系。而且類符/形符比還通常用來測算詞匯多樣性(lexical variation 或lexical diversity)［11－12］。但計算TTR 的方法不盡相同。本文采用公式“TTR =各詞類累積類符數/各詞類累積形符數”來計算隨著英語篇章長度，即累積形符數(4000)的增加，普通英語和科技英語的各類實詞TTR 的變化規律;各類實詞標準類符/形符比采用每4000 詞(形符數)的TTR:每4000 詞時各類實詞的類符數除以4000。

本研究中，英語單詞的形符包括以空格斷開的英文單詞、字母、縮略等，但不包括標點符號。形符數也稱詞次。總詞數即總詞次。類符指單詞的詞元(lemma)形式，即把詞類相同、意義相同，但詞尾變化不同的詞歸納為同一詞元。如think、thinks、thought 和thinking 統一歸并為一個詞元think。本文中的詞匯即為詞元或類符，詞匯數或詞匯量即為詞元數或類符數。歸并詞元時，剔除標點符號、阿拉伯數字以及其他各種非字母字符。

二、研究設計

本文中科技英語語料采用JDEST 語料庫，JDEST 為上海交通大學建立的國內權威科技英語語料庫，總容量為1 079 649;普通英語語料采用BNC(英國國家語料庫)的筆語部分抽樣。在對BNC 進行抽樣時，先運用FoxPro 程序將BNC 筆語語料庫的所有賦碼文本(tagged texts)中的標注碼去掉。然后運用另一FoxPro 程序從BNC 筆語庫中隨機抽取28個文本，總詞次為1 136 347。以下將此抽樣文本稱為SBNC。接著運用CLAWS4 對JDEST 和SBNC 兩個語料庫進行詞類(POS)標注。然后運用另一FoxPro程序對兩個語料庫進行分詞處理，并根據POS 賦碼，即以N(名詞)、V(動詞)、J(形容詞)和R(副詞)開頭的標注碼，提取各類實詞。接著將各類實詞中的詞類標注、標點符號、特殊符號以及其他非字母字符去除。

然后再運用兩個FoxPro 程序分別處理經過分詞處理的SBNC 和JDEST 語料庫。這兩個程序分別將SBNC 隨機分為284個4000 詞(形符)的文本塊(chunks)，共113 600 詞次;JDEST 分為247個4000詞的文本塊，共988 000 詞次。由于Biber［13］認為2000 至5000 詞的抽樣文本(text samples)足以代表文本范疇(text categories)，因此本文按4000 詞對SBNC 和JDEST 進行切分。接著，程序會分別計算出各語料庫的每4000 詞文本塊的各類實詞類符數以及隨著兩個語料庫按4000 詞(形符)增長時累積形符總數、累積各類實詞類符數、累積各類實詞形符數、各類實詞的TTR 及各類實詞的累積重復數、累積重復率等。

其中，累積各類實詞類符數即各類實詞的累積詞匯量。下面以名詞為例說明累積實詞重復數及重復率的計算。累積名詞重復數的計算公式為:累積名詞重復數=累積名詞數－累積名詞量。公式中累積名詞數為各4000 詞的文本塊的名詞類符數，即名詞詞匯數之和。比如科技英語JDEST 語料中前兩個4000 詞文本塊各自名詞詞匯數為760 和767，則累積名詞數為1527。但如果將這兩個文本塊相加，變為8000 詞，這兩個文本塊的名詞詞匯數760 和767中就會有重復的名詞，將重復的名詞合并，這樣就可計算出累積名詞量，為1221。因此，JDEST 中前兩個文本塊的累積名詞重復數為1527－1221 =306，名詞累積重復率為0.1268。而第一個文本塊的名詞重復數和重復率都為0。表1為JDEST 語料庫中名詞部分數據。

表1 JDEST 語料庫中累計詞次32 000 詞前名詞部分數據

表1中，t_cu 表示累積形符總數(累計詞次)，n_type 為每4000 詞中名詞類符數，n_cu 為累積名詞類符數(累積名詞量)，n_cutok 為累積名詞形符數，n_ttr 為名詞類符/形符比，n_curep 為累積名詞重復數，n_cureprate 為名詞累積重復率。

三、結果分析

1.實詞增長分析

結果顯示:284個SBNC 文本塊的名詞、動詞、形容詞和副詞累積詞匯量分別為24 440、4601、9050和1632;247個JDEST 文本塊的各類實詞累積詞匯量依次為14 754、3481、8961 和1152。SBNC 的284個文本塊各實詞的平均詞匯量依次為851、284、245、118，JDEST 的247個文本塊各實詞平均詞匯量依次為756、250、292、110。表明普通英語各文本塊的名詞、動詞和副詞詞匯量大于科技英語。普通英語的累積形容詞詞匯量在第247個文本塊時為8441，形容詞總詞量小于科技英語，而且普通英語各文本塊的平均形容詞詞匯量245 也遠小于科技英語各文本塊的平均形容詞詞匯量292。觀察科技英語語料庫發現，除少量常用形容詞外，如other、high、large、small 等，其中有大量的科技方面的形容詞，用于正式或客觀的學術表達，描寫事物的特征，如magnetic(475)、hermal(406)、nuclear(375)、chemical(356)、conventional(331)、mechanical(314)、electric(297)、vertical(216)等。圖1為SBNC 和JDEST實詞增長曲線。

圖1顯示，在SBNC 和JDEST 中，四種實詞的累積詞匯量呈類似增長態勢:開始都急劇增長，隨后變緩。只是名詞累積詞匯量增長得最快、最急劇;形容詞次之;動詞的累積詞匯量增長幅度位于第三;副詞累積詞匯量的增長最不明顯，其增長曲線幾乎與x軸平行。同時，圖1表明兩個語料庫中，詞匯量大多集中于名詞，然后是形容詞、動詞和副詞。

2.實詞TTR 分析

程序運行結果顯示SBNC 的名詞、動詞、形容詞和副詞的平均標準TTR 依次為0.2128、0.0709、0.0613和0.0296，JDEST 的各類實詞平均標準TTR依次為0.1889、0.0626、0.0731 和0.0275。這說明普通英語各4000詞(形符)文本塊的名詞和動詞多樣性大于科技英語，但其形容詞多樣性卻低于科技英語，副詞多樣性大體相當。換言之，科技英語的某語篇內名詞和動詞重復較多，即形符數較多，類符數較少;但普通英語的篇內(每4000 詞次)形容詞重復性大，0.0613 ＜0.0731。下面分析兩個語料庫的累積TTR 曲線，如圖2所示。

圖1 SBNC 和JDEST 實詞增長曲線

圖2 SBNC 和JDEST 中各類實詞TTR 下降曲線

圖2中實線為SBNC 的TTR 曲線，虛線為JDEST 的TTR 曲線。圖2顯示SBNC 的名詞、動詞和形容詞累積TTR 都高于JDEST。說明隨著總詞次以每4000 詞增加，普通英語的名詞、動詞和形容詞的詞匯多樣性一直高于科技英語。即普通英語的名詞、動詞和形容詞(形符)篇際(累積語篇)重復性較小，科技英語的名詞、動詞和形容詞的篇際重復性較大。兩者的副詞TTR 曲線大體相同。

因此可得出如下結論:普通英語中名詞和動詞的篇內和篇際重復性都小于科技英語;但其形容詞的篇內重復性大，篇際重復性則小于科技英語。

3.實詞重復分析

計算出兩個語料庫的累積實詞重復數后發現，兩個語料庫中的累積實詞重復數都呈類似線性的增長模式。SBNC 中名詞、動詞和副詞的累積重復數一直高于JDEST。SBNC 中名詞累積重復數在0 ～210 000 之間，動詞累積重復數在0 ～76 000 之間，副詞累積重復數在0 ～32 000 之間。而JDEST 中的名詞、動詞和副詞累積重復數分別在0 ～170 000、0～58 000 和0 ～26 000 之間。不同之處在于SBNC的形容詞累積重復數一直小于JDEST，兩者的最終重復數相當。為進一步揭示各類實詞累積重復數和其累積形符數的關系，算出了兩個語料庫中各類實詞的累計重復率，如圖3所示。

圖3 SBNC 和JDEST 中各實詞累積重復率

圖3顯示SBNC 語料庫中的名詞累積重復率最高，達到68.49%，其次是SBNC 中的形容詞累積重復率。而且在曲線末端，形容詞的累積重復率甚至超過了名詞累積重復率，為68.72%。JDEST 中形容詞累積重復率最高，達到64.69%，其次為名詞，為58.58%。在SBNC 和JDEST 兩個語料庫中，副詞累積重復率都位于第三位;最后是動詞，其累積重復率最低，分別為38.49%和36.48%。進一步觀察發現，SBNC 的名詞、形容詞、副詞和動詞累積重復率都高于JDEST。

四、結語

通過對SBNC 和JDEST 中的實詞對比分析，得出如下結論:(1)普通英語和科技英語的名詞、形容詞和動詞呈類似的增長態勢:先是急劇增加，然后變緩。(2)普通英語的名詞和動詞多樣性大于科技英語，但其形容詞多樣性卻低于科技英語。(3)普通英語中名詞和動詞的篇內重復性以及名詞、動詞和形容詞的篇際重復性都小于科技英語，但其形容詞的篇內重復性較大。(4)普通英語和科技英語中累積實詞重復數都呈類似線性的增長模式。普通英語中名詞累積重復率最高，科技英語中形容詞累積重復率最高。但科技英語的名詞、形容詞、副詞和動詞累積重復率都低于普通英語。本研究結果有利于對英語語篇、英語學習者的實詞詞匯量進行評估。由于英語中虛詞數量十分有限，英語語篇的復雜度和多樣性主要依賴于語篇中的實詞詞匯量。只要能估計某語篇的實詞詞匯量，就可預測其詞匯多樣性。這在教材編撰及選擇不同層次水平的閱讀材料時有重要意義。

［1］BAAYEN R H.Word frequency distribution［M］.Dordrecht:Kluwer Academic Publishers，2001.

［2］BRUNET E.Le vocabulaire de Jean Giraudoux.Structure et évelution［M］.Genève:Slatkine，1978.

［3］FAN Fengxiang.Models for dynamic inter-textual type-token relationship［J］.Glottometrics，2006，12(1):1－10.

［4］FAN Fengxiang.A corpus-based study on random textual vocabulary coverage［J］.Corpus Linguistics and Linguistic Theory，2008，4(1):1－17.

［5］FAN Fengxiang.An asymptotic model for the English hapax/vocabulary ratio［J］.Computational Linguistics，2010，36(4):631－637.

［6］TULDAVA J.Methods in quantitative linguistics［M］.Trier:WVT，1995.

［7］FRANCIS W N，KUCERA H.Frequency analysis of English usage:lexicon and grammar［M］.Boston:Houghton Mifflin，1982.

［8］JOHANSSON S，HOFLAND K.Frequency analysis of English vocabulary and grammar 2 vols［M］.Oxford:Clarendon Press，1989.

［9］羅衛華，鄧耀臣.基于BNC 語料庫的英語篇際詞匯重復模式研究［J］.外語教學與研究，2009(3):224－229.

［10］羅衛華，佟大明.篇際零重復詞分布和增長模式實證研究［J］.中國外語，2011(6):59－64.

［11］MALVERN D，BRIAN R，NGONI C，et al.Lexical diversity and language development:quantification and assessment［M］.New York:Palgrave Macmillan，2004.

［12］READ J.Assessing vocabulary［M］.Cambridge:Cambridge University Press，2000.

［13］BIBER D.Methodological issues regarding corpus-based analyses of linguistic variation［J］.Literary and Linguistic Computing，1990，5(4):261.