摘 要:英語高頻詞匯研究屬詞匯分析的一部分,在語言研究和教學實踐中極具實用意義。本文介紹高頻詞匯的概念、采集原理及使用《英語詞匯分析工具》軟件采集英語高頻詞匯的方法。
關鍵詞:英語;詞匯分析;高頻詞匯;英語詞匯分析工具
一、 引言
詞匯在英語語言研究和教學工作中是重要的組成部分,高頻詞匯因使用頻繁而受到普遍重視。根據關注目標不同衍生出各類英語高頻詞匯,如考試類的高考高頻詞匯和托福高頻詞匯,技術專業類的如商務英語高頻詞匯、新聞英語高頻詞匯、化工英語高頻詞匯等等。這些英語高頻詞匯面向對象不同,詞匯組成差異明顯,研究高頻詞匯可以幫助教師更多地關注這類詞匯的相關信息、更好地把握教學重點和更高效地訓練學生應對能力,提升教學質量。
二、 高頻詞匯概念和采集一般步驟
高頻詞匯通常是指在語言交流中使用率較高的詞匯,或某領域使用較普遍的詞匯。它是以交流材料為計數單位,經過對許多批次材料詞匯詞頻統計,篩選出由頻數較高詞匯組成的一批詞匯。一份材料無論某詞匯出現多少次,其詞頻計數僅算1次,而頻數為100的詞匯是指在所有統計材料中有100份材料含有該詞匯。高頻詞匯共同特征是對材料的較高總體覆蓋率,如商務英語高頻詞匯對各種商務文書類具較高的覆蓋率,考試高頻詞匯考到的概率較大。因此,僅對一篇材料進行詞頻統計或將所有材料組成一個大文件做詞頻統計均不適合用于高頻詞匯采集。本文以考試高頻詞匯的采集為例,介紹采集的技術要點和一般步驟。
考試高頻詞匯指在特定考試中按考試批次統計出現頻數較高的詞匯(覆蓋率較高)。如對20批次考試試卷進行詞頻統計,某詞匯在14批次考試試卷中含有,則該詞匯的統計頻數為14,考試覆蓋率70%,該詞匯應屬于考試高頻詞匯。考試高頻詞匯的采集首先要收集足夠批次考試試卷(統計學稱之為采樣的樣本量)。受考試時長和篇幅的限制,每次考試所含詞匯數量十分有限,如果用于統計的試卷批次數量過少則高頻詞匯采集將失去意義,考試批次越多,高頻詞匯采集工作就價值越高。采集的主要工作是制作詞頻統計數據表和各頻數段詞匯表,該工作一般用專用軟件在計算機上完成,詞頻統計數據可幫助快速框定高頻詞匯的范圍,合并框定范圍內各頻數段詞匯表就完成了高頻詞匯的初始采集工作。高頻詞匯范圍框定一般有兩種方式,一種方式是以詞匯數量規模進行框定,如根據詞頻數由高到低選取2000個詞匯;另一種方式是按考試覆蓋率框定,如超過半數考試含有的詞匯(考試批次覆蓋率50%)。
經上述工作形成的高頻詞匯初始詞表的后處理是除去(Excluded Words)一些不應包含在其中的詞匯,包括專有名詞(如U.S.A./Mrs./April)、數詞(如three/second/nineteenth)、感嘆詞(如yeah/oh/ha)、無法歸類詞(如er/th/wh)、字母符號(如a/b/l)、計量詞(如km/vol./p.)、縮寫(如b.c./a.m./ie)、代詞(如your/her)、介詞(如of/as)等等,最終完成高頻詞匯詞表。
三、 采集工具與操作
《英語詞匯分析工具》是南通大學李冬研制的英語詞匯數據采集工具,該軟件功能十分豐富,2017版除了對原有功能優化外,首次推出了小程序功能,為以后功能不斷地豐富創造了條件。目前含有的小程序已達10余種,其中“txt多試卷”小程序是專門為高頻詞匯采集設計,可以完成多批次材料的詞頻統計和對應詞匯表生成工作。該小程序通過連續、多次導入各批次試卷(或材料),采集詞匯進行詞頻統計,生成包含各頻數段詞匯數據及對應的詞匯表,操作十分便捷。它也適用于各專業類高頻詞匯采集(如商務英語、化工英語、醫學英語等等)。
軟件操作:啟動軟件后(見圖1)在小程序調用輸入框直接輸入小程序名“txt多試卷”,點擊“運行”按鈕啟動該程序。
圖1
進入該小程序操作界面后循環進行下面4個步驟完成多批次試卷數據采集:1在彈出的窗口中點擊“打開文件”;2選擇導入試卷;3勾取“繼續導入試卷”復選框準備下一輪采集;4回到采集初始界面(完成一份試卷數據采集循環)。經過N次循環完成N份試卷的數據采集后點擊“完成”按鈕結束循環,顯示統計數據和各頻數段詞匯表。
圖2
打開程序生成的數據文件,只要根據自身情況框定高頻詞匯范圍、去除上述少量無關詞,高頻詞匯表就完成了。
四、 結語
高頻詞匯(highfrequency word)一直是英語學習者詞匯學習關注的焦點。英語教師往往希望根據自身教學情況獲得適合自己教學需要的特定高頻詞匯表,但是,高頻詞匯清晰的概念、采集方法及輔助工具均未見報道。本文通過介紹高頻詞匯采集及相關技術,以期推動各類高頻詞匯研究,滿足相關人士的需要。
參考文獻:
[1]何華清,陳文存.大學生英語高頻詞匯水平實證研究[N].西華師范大學學報:哲學社會科學版,2008(2):43-47.
[2]苗麗霞.非英語專業學生基礎階段高頻詞匯水平發展研究[N].寧波大學學報:教育科學版,2010(2):116-210.
作者簡介:
李夢圓,江蘇省泰州市,江蘇泰州學院外國語學院。