劉宇紅 殷銘



摘 要:通過對56萬余字的語言學語料用AntConc 3.5.8等軟件進行統計,創建了包括469個詞的語言學學術詞匯表(Linguistic Academic Word List,LAWL)和包括338個詞的語言學術語詞匯表(Linguistic Terminological Word List,LTWL)。LAWL是排除了通用詞匯表(GSL)和通用學術詞匯表(AWL)之后的專門學科詞匯。LTWL不必排除通用詞匯表和通用學術詞匯表,所以除了與LAWL有265個詞交叉之外,還包括GSL和AWL的73個詞。
關鍵詞:通用詞匯表;通用學術詞匯表;語言學學術詞匯表;語言學術語詞匯表
中圖分類號:H083;H08 ?文獻標識碼:A ?DOI:10.12339/j.issn.1673-8578.2022.02.007
Abstract: By using a linguistic corpus of over 560 thousand words which is processed by softwares including AntConc 3.5.8, we constructed a 469-word Linguistic Academic Word List (LAWL) and a 338-word Linguistic Terminological Word List (LTWL). LAWL, constructed by excluding General Service List (GSL) and Academic Word List (AWL), is discipline-specific and overlaps substantially with LTWL. LTWL does not have to exclude GSL or AWL and thus consequently comprises 73 words coming from GSL and AWL besides 265 words shared with LAWL.
Keywords: General Service List (GSL); Academic Word List (AWL); Linguistic Academic Word List (LAWL);Linguistic Terminological Word List (LTWL)
收稿日期:2021-08-07 ?修回日期:2021-09-11
基金項目:國家社會科學基金一般項目“語言學語域的釋義元語言研究”(19BYY003)階段性成果
詞匯組合成句子并最終構成文本,所以詞匯是文本的基本要素。通用文本、通用學術文本和專門學科學術文本,都有一批在各自領域使用頻率更高的詞匯,如果把它們歸納為有邊界的詞匯集,就可以構成通用詞匯表、通用學術詞匯表和專門學科學術詞匯表。專門學科學術詞匯表的大部分詞匯同時屬于專門學科術語詞匯表,即兩者有較大的交叉部分;專門學科術語詞匯表除了與學術詞匯表有較大交叉之外,還包含部分通用詞匯和通用學術詞匯。
通用詞匯表和通用學術詞匯表,由于研究內容相對封閉,所以已經有了較充分的研究。相反,專門學科的學術詞匯表和術語詞匯表,由于所涉及的學科門類眾多,遠未充分研究,所以本文擬在這一領域展開研究,研制出適度規模的語言學學術詞匯表(Linguistic Academic Word List, LAWL)和語言學術語詞匯表(Linguistic Terminological Word List, LTWL)。
本文將學術詞匯表與術語詞匯表研究拓展到語言學領域,對于了解語言學的知識基因圖譜,解釋英漢語言學的知識體系差異具有重要意義。在實用層面,本文的研究可以用于改進語言學教材和語言學詞典,規范和優化教材與詞典的釋義用詞和釋義句型,降低教材難度,增加課堂講解的用詞規范和句型多樣性、準確性。
另外,學術詞匯表與術語詞匯表的研制在學科定位上屬于語言學研究,語言學學科在自己學科領域率先開展本學科的元語言研究,對于引領其他學科的類似研究不僅有方法論上的借鑒意義,而且在實踐領域的具體操作上也可以為其他學科提供指引[1-2]。本文的研究在語料上選用的是英文語料,但是對于其他學科語際借用的隔閡較小,因為學術詞匯表與術語詞匯表屬于概念層面,受特定語種的影響較小,而且科學無國界說的也是這個道理。
1 詞匯表的研制歷史
詞匯表的研制歷史,我們分四類來評述,即按照通用詞匯表、通用學術詞匯表、專門學科學術詞匯表和專門學科術語詞匯表的順序來說。
1.1 通用詞匯表
通用詞匯表主要用于詞典釋義和教材編寫。最早的通用詞匯表是1928年Ogden開列的850個“基礎英語”詞匯,用于詞典釋義,1932年出版的《基礎英語詞典》[3]全部用這850個詞匯來解釋20 000個英語詞匯。West[4]編制了2000個英語詞匯的“通用詞匯表”(General Service List,GSL),是一個被廣泛應用的通用詞匯表,《朗文當代英語詞典》[5]就是采用這2000個基礎詞匯來解釋了5.6萬個詞條。英語以外的語言也致力于研制通用詞匯表。比如,法國學者Gougenheim[6]研制了包括1475個法語詞匯的通用詞匯表,《基礎法語》課本沒有超出這些詞匯。
國內的通用詞匯表研究始于張津和黃昌寧[7]的《從單語詞典中獲取定義原語方法的研究及現代漢語定義原語的獲取》,是漢語通用詞匯研究的第一篇文獻。后來,安華林[8-9]、蘇新春[10-11]等學者在通用詞匯表研制方面取得了更大的成就,他們研制的通用詞匯表數量都在3000左右。gzslib2022040312491.2 通用學術詞匯表
通用學術詞匯表是詞匯表研制的第二個階段。二戰結束后學術迅猛發展,學術文本的數量也空前增加,研制出基于學術英語(English for Academic Purposes, EAP)的通用學術詞匯表成為當時的急切任務。從20世紀70年代開始,不同版本的通用學術詞匯表相繼問世,美國大學詞匯表(American University List, AUL)[12]、大學詞匯表(University Word List, UWL)[13]、學術詞匯表(Academic Word List, AWL)[14]、學術詞匯庫(Academic Vocabulary List, AVL)[15]等都是通用學術詞匯研究的重要成果。在這些詞匯表中,以Coxhead[14]的AWL影響最大,自問世以來一直是英語教育領域主要的詞匯參照表[15]。
國內的通用學術詞匯研究成果不多,檢索可見程齊凱等[16]的《領域無關學術文獻詞匯功能標準化數據集構建及分析》,所謂的“領域無關”是指“通用學術領域”,但是幾位作者并沒有致力于通用學術領域的詞匯表制作。
1.3 專門學科學術詞匯表
專門學科領域的學術詞匯表研制,大多以通用學術詞匯表為基礎。比如,有學者[17]把AWL應用于應用語言學著作,或者應用于應用語言學的研究性論文[18-19],或中學的理科課本和大學英語課本[20-23],或醫藥與農業領域的研究性論文[24-25],他們的研究檢驗了AWL在各自領域的詞匯覆蓋率:在高年級的專業課本中占2.1%;在中學的理科課本中占5.98%;在農業領域的研究性論文中占9.06%;在醫學領域的研究性論文中占10.7%;在應用語言學文本中占13.1%[17],或11.7%[19],或11.96%[18]。但是,上述學者都沒有著力于研制各自領域的專門學科學術詞匯表。
至于國內的專門學科學術詞匯表的研制,知網項目負責人董振東等人[26]認為知網(Hownet)只關注“通用的知識”,“專門領域的知識只能留待專門領域的專家來研究和建設”,所以只關注通用詞匯和通用學術詞匯的歸納與應用,專門學科的學術詞匯不在他們的關注之列。王世杰等[27]自建小型的中醫英語語料庫,總結了1000詞的高頻英譯詞匯,這是專門學科學術詞匯表研制的有益嘗試,對于中醫領域的英漢翻譯有一定的指導意義,但它不是中醫領域的專門學科學術詞匯表。
1.4 專門學科術語詞匯表
專門學科的術語詞匯表(glossary)與學術詞匯表緊密關聯,術語詞匯表的大部分詞匯同時屬于學術詞匯表,但是前者也包括部分的通用詞匯和通用學術詞匯,所以對于特定學科來說,術語詞匯表與學術詞匯表必須分開來研制。
在術語詞匯表研制方面,國外學者偏重于分析術語的重要性和提煉方法,比如Heatley等 [28]對術語詞匯表的重要性進行了專題研究,認為術語詞匯表是制定科學標準、明確科學規范、描述科學方法的前提,Augenstein等[29]、Frantzi等[30]和Astrakhantsev[31]對術語表研制的語料方法、語境方法和語料對比方法等分別進行了探討。
在國內,朱偉華[32]、鄭述譜[33]、黃忠廉[34]和馮志偉[35]等對術語表的制訂原則和方法進行了探討。但是在實踐層面,各學科的術語詞匯表往往只是舉例性的術語羅列,或者是在教材附錄中把正文中出現過的術語做一種簡單的再現,沒有對一個整體學科的術語進行窮盡性的語料提煉和研制方法的總結。
從上面的回顧可以看出,專門學科的學術詞匯表和術語詞匯表的研制是國內外同行沒有足夠關注的領域,更沒有建立起相對完整的專門學科學術詞匯表和術語詞匯表。所以,本文以語言學語域的學術詞匯表和術語詞匯表作為研究對象,既要探討兩種詞匯表的研制方法與研制過程,也要提煉出相對完備的學術詞匯表和術語詞匯表,還可以彌補語言學作為詞匯研究的學科母體在兩類詞匯表研制方面的缺陷。
2 學術詞匯表和術語詞匯表的研制過程
2.1 研究工具和研究方法的優勢
我們使用的語料庫檢索軟件是AntConc 3.5.8[36],它由日本早稻田大學的Laurence Anthony教授于2002年研制,具有詞語檢索、詞頻統計和詞表生成等功能。
AntConc 3.5.8在詞頻統計和詞匯表生成方面具有明顯的優勢,下面分別予以介紹。
先看在詞頻統計方面的優勢。學習任何一門語言,不管是母語還是外語,掌握關鍵詞匯都極為重要。在語料庫產生之前,判斷詞匯的重要性主要依靠教師的經驗和直覺。但是,任何一個語言使用者,他在詞頻、搭配等方面的經驗和直覺都是不怎么可靠的[37],把英語作為外語來學習,中國英語教師和英語學習者更是如此。經過多年的研究, Nation[38]發現,有一小部分高頻詞,它們在口語和書面語材料中都占有很大比例,它們出現在語言運用的各個領域。因此,這些高頻詞往往是教學和學習的重點。所以,借助 AntConc的詞條分析,可以非常有效地找出高頻詞,比如張四紅等[39]運用AntConc的統計發現,在《大學英語》共6本書的課文文本中,雖然有110 974個形符(tokens),但是在去除漢語以后,不同的單詞,即類符(types),只有10 841個,其中相當一部分單詞只出現了1次,出現5次以上的只有2726個,這也驗證了 Kennedy[40]96的研究成果的正確性,即英語中有 2000~3000 個高頻詞覆蓋了各種文體的90%。
再看生成詞表(Wordlist)方面AntConc的功能。生成詞表功能對教學大綱的制定、課本內容的編排起著非常重要的作用。AntConc對比不同的語料庫、不同文本即不同的語言群體的詞匯使用狀況提供可靠的語料依據。AntConc不但可以生成單獨的詞匯列表,還可以生成詞塊(cluster)列表。而且,由于計算機只能切分統計詞塊的頻率,在此基礎上還需要進行后期的語義分析,去除詞塊表中沒有意義的部分。王春艷[41]的研究表明,把AntConc基于語料庫 Brown生成的詞表和 WordSmith的詞表進行對比,兩個詞表前1000個中有 959個重疊詞。把 959個重疊詞在 Brown中出現的頻次進行統計計算,兩者相關值為 0.977, 結果表明兩者在 0.01的水平上呈現顯著相關。可見,AntConc在詞匯表制作方面具有明顯的優勢。gzslib2022040312492.2 語料準備與處理
為了研制語言學語域的學術詞匯表和術語詞匯表,我們設計了一個自建語料庫,包括四本語言學著作:①Bussmann[42]的Routledge Dictionary of Language and Linguistics;②Kracht[43]的Introduction to Linguistics;③Saussure[44]的Course in General Linguistics;④胡壯麟[45]的《語言學教程》(第5版)。
我們首先將四本語言學著作進行掃描、文本轉換和人工校對后制作成語言學學術語料庫(Linguistic Academic Corpus, LAC)。通過AntConc的wordlist功能得到一個基于LAC的詞頻表,形符(token)數為567 327詞,類符(type)為23 880個單詞①。為了方便,我們把它們分別稱為LWL-567327和LWL-23880,其中LWL是語言學學術詞匯表(Linguistic Word List)的縮寫。所有單詞均標記頻率、基本詞形和詞族情況,如表1。
在表1中,詞匯(lemma)linguistic是基本形式,它有兩種變體形式,一種是它自身,頻次是1620,另一種是linguistics,頻次是1315,兩種變體形式的頻次之和是linguistic的總頻次,即2935次。
2.3 語言學學術詞匯表(LAWL)的研制
語言學語域的學術詞匯表(LAWL)必須排除通用詞匯和通用學術詞匯,我們選擇了通用詞匯表GSL(2284詞)[4]和學術詞匯AWL(570詞)[14]作為停止詞表(stop list),即可以把不符合要求的詞匯加以排除的過濾詞表。由于要歸納的是LAWL,所以針對日常文本的通用詞匯表和針對科普類的跨學科領域的通用學術詞匯是可以排除的“停止詞”。
具體的操作方法是,將LWL-23880和詞頻數據導入excel文本,利用公式查找重復詞匯,通過與GSL(2284詞) [4]和AWL(570詞)[14]進行對比,把兩個詞庫作為停止詞表進行共現過濾,發現在GSL和AWL中有2556個詞匯出現在LWL-23880中,所以它們是被過濾詞匯。我們選擇詞頻最高的10個被過濾詞匯作為例子,見表2。
在LWL-23880中淘汰2556個共現詞之后,詞匯數量仍然非常龐大(具體數量是21 324),所以必須進行二次淘汰。為了提高二次淘汰的效率,同時控制潛在學術詞匯表和術語詞匯表的規模,我們把詞頻邊界確定為40,即只把詞頻高于或等于40的詞匯保留下來成為潛在的學術詞匯和術語詞匯,被選中的詞是838個,只占21 324個詞的約3.92%。
我們確定詞頻邊界的依據是:在56萬余個形符(token)的語料中,把詞頻確定為40次,詞頻比例是十萬分之七,我們認為這個比例可以遴選出比較充分和比較全面的學術詞匯與術語詞匯。
觀察838個詞,我們發現了較多的非詞匯符號(如單一字母l、v、w、b等)、縮略詞(如ed、vol等)、專有名詞(如cambridge、 chomsky、john等),對其進行人工剔除,剩下的 469個詞形成語言學語域的高頻學術詞匯表,即排除了通用詞匯(GSL)、通用學術詞匯(AWL)和各種偽詞與專名之后的詞表,在此暫不舉例,文末附錄1(204個)和附錄2(265個)進行了部分呈現。
2.4 語言學術語詞匯表(LTWL)的研制
上面說到,469個詞分為兩類,附錄1是學術詞匯表的一部分(204個),附錄2是學術詞匯表的另一部分(265個),同時也是語言學語域術語詞匯表的一部分,但它并不是術語詞匯表的全部,還有一部分術語詞匯被GSL和AWL所構成的停止詞表過濾了,為了體現語言學術語詞匯表的完整性,我們在GSL和AWL中又找回了73個被過濾的術語詞,見附錄3,其中51個屬于GSL,22個屬于AWL。所以,語言學的術語詞匯表是附錄2的265個加上附錄3的73個,總數為338個。
學術詞匯表與術語詞匯表的比較,可以表示為圖1。圖1中有兩個圓,它們的交叉部分是學術詞匯表和術語詞匯表的共現部分,即附錄2的265個詞。大圓表示語言學語域的學術詞匯(LAWL),總數是204+265,表示為附錄1和附錄2;小圓是語言學語域的術語詞匯表(LTWL),總數是265+73,表示為附錄2和附錄3。
3 結語
語言學語域的學術詞匯表和術語詞匯表,是在通用詞匯表、通用學術詞匯表、專門學科學術詞匯表和術語詞匯表這四種詞匯表先后出現的背景下在語言學語域的深化研究,不僅是對一個完整學科學術詞匯表(包含469個詞)的嘗試性歸納,也總結了一個完整學科的術語詞匯表(包含338個詞),這種研究不僅是詞匯表研制在語言學語域的新嘗試,也彌補了語言學在學術詞匯表和術語詞匯表研制上的空缺。
注:本文3個完整附錄見本刊網站:http://www.term.org.cn/CN/news/news235.shtml。
注釋
① 在我們此前對同一批語料進行統計時,通過Collocate 1.0檢索出來的LAC的形符數(token)為568 138詞,類符數(type)為27 828詞,與本研究中運用AntConc軟件的統計結果存在一定出入,這是不同軟件的分詞(parse)與統計機制不同導致的,數據的出入對于最終結論的形成不造成太大影響。
② 該詞表沒有排除一詞多義現象,這里的germans以及下一頁的latins、greeks等詞超越了單數形式的意義,但為了保持選詞標準的一致性,我們沒有排除這些復數形式。
參考文獻
[1]劉宇紅. 術語表研制的四個步驟[J]. 中國科技術語, 2021,23(2):11-19.gzslib202204031250[2]劉宇紅. 語言學語域的釋義元語言研究[J]. 浙江外國語學院學報, 2010(2):25-32.
[3]WEBSTER M. Dictionary of Basic English[M]. Merriam Webster Inc,1932.
[4]WEST M. A general service list of English words[M]. London: Longman, Green & Co,1953.
[5]Longman Dictionary of Contemporary English[M]. Oxford University Press,1978.
[6]GOUGENHEIM G. Le franais élémentaire. étude sur une langue de base[J]. International Review of Education, 1955, 1(4):401-412.
[7]張津,黃昌寧.從單語詞典中獲取定義原語方法的研究及現代漢語定義原語的獲取[R]. 提交給國家自然科學基金的研究報告,1996.
[8]安華林. 現代漢語釋義基元詞研究[M]. 北京:中國社會科學出版社,2005.
[9]安華林.漢語釋義元語言理論與應用研究[M].上海:學林出版社,2009.
[10]蘇新春. 元語言研究的三種理解及釋義型元語言研究評述[J]. 江西師范大學學報(哲學社會科學版), 2003, 36(6):93-102.
[11]蘇新春. 漢語釋義元語言研究[M].上海:上海教育出版社. 2005.
[12]PRANINSKAS J. American University word list[M]. London: Longman,1972.
[13]XUE G,NATION I S P. A university word list[J]. Language Learning and Communication,1984, 3:215-229.
[14]COXHEAD A. A new academic word list[J]. TESOL Quart 2000, 34(2):213-238.
[15]GARDNER D,DAVIES M. A new academic vocabulary list[J]. Applied Linguistics,2013, 35: 1-24.
[16]程齊凱,李信,陸偉. 領域無關學術文獻詞匯功能標準化數據集構建及分析[J]. 情報科學, 2019,37(7): 41-47.
[17]CHUNG T M,NATION I S P. Technical vocabulary in specialized texts[J]. Read Foreign Lang (online), 2003, 15(2):103-116.
[18]KHANI R,TAZIK K. Towards the development of an academic word list for applied linguistics research articles[J]. RELC Journal, 2013, 44(2):209-232.
[19]VONGPUMIVITCH V,HUANG J,CHANG Y. Frequency analysis of the words in the Academic Word List (AWL) and non-AWL content words in applied linguistic research papers[J].English for Specific Purposes,2009,28(1):33-41.
[20]HSU W. College English textbooks for general purposes: a corpus-based analysis of lexical coverage. Electronic Journal of Foreign Language Teaching,2009,6(1):42-62.
[21]GREENE J. Academic vocabulary and formulaic language in middle school content area textbooks[D]. Unpublished doctoral dissertation. Atlanta: Georgia State University,2008.
[22]MATSUOKA W,HIRSH D. Vocabulary learning through reading: Does an ELT course book provide good opportunities?[J]. Read Foreign Language (online). 2010, 22(1): 56-70.
[23]MILLER D. ESL reading textbooks vs. university textbooks: Are we giving our students the input they may need?[J]. Journal of English for Academic Purposes. 2011, 10(1):32-46.
[24]CHEN Q, GE G C. A corpus-based lexical study on frequency and distribution of Coxheads AWL word families in medical research articles (RAs)[J]. English for Specific Purposes, 2007, 26(4):502-514.gzslib202204031250[25]MARTNEZ I A,BECK S C,PANZA C B. Academic vocabulary in agriculture research articles: A corpus-based study[J]. English for Specific Purposes, 2009, 28(3):183-198.
[26]董振東, 董強, 郝長伶. 知網的理論發現[J]. 中文信息學報, 2007, 21(4):3-9.
[27]王世杰, 趙玉華, 武永勝,等. 基于語料庫的醫學英語基礎詞匯遴選及其教學[J]. 甘肅中醫藥大學學報, 2019, 29(3):86-91.
[28]HEATLEY A, NATION I S P,COXHEAD A. RANGE and FREQUENCY[CP]. https://www.victoria.ac.nz/lals/about/staff/paul-nation,2002.
[29]AUGENSTEIN I, MAYNARD D, CIRAVEGNA F. Relation Extraction from the Web Using Distant Supervision[J]. EKAW,2014, 8876: 26-41.
[30]FRANTZI K, ANANIADOU S,MIMA H. Automatic recognition of multi-word terms: the c-value/nc-value method [J]. International Journal on Digital Libraries,2000, 3(2): 115-130.
[31]ASTRAKHANTSEV N. ATR4S: Toolkit with State-of-the-art Automatic Terms Recognition Methods in Scala[J]. Language Resources & Evaluation, 2016(4):1-20.
[32]朱偉華. 談談術語的特性[J]. 外語教學與研究,1987(2):49-51.
[33]鄭述譜.俄羅斯當代術語學[M]. 北京:商務印書館,2005.
[34]黃忠廉. 我國外語界術語學研究綜述[J]. 辭書研究, 2010(2):100-110.
[35]馮志偉. 語言學中一個不容忽視的學科: 術語學[J]. 山東外語教學,2012(6):31-39.
[36]ANTHONY L. AntConc (Version 3.5.8) [CP]. Tokyo: Waseda University, https://www.laurenceanthony.net/software,2019.
[37]HUNSTON S. Corpora in Applied Linguistics[J]. Journal of English Language Teaching, 2003, 57(4): 416-420.
[38]NATION I. Learning Vocabulary in Another Language[J]. Klett, 2001, 56(1):91-93.
[39]張四紅, 江莉, 程玲,等. 基于AntConc的英語詞匯教學研究:以《大學英語(精讀)》課文文本為例[J]. 長江大學學報(社會科學版), 2011, 34(12):93-96.
[40]KENNEDY G. An Introduction to Corpus Linguistics[M]. Longman, 1998.
[41]王春艷. 免費綠色軟件AntConc在外語教學和研究中的應用[J]. 外語電化教學, 2009(1): 45-48.
[42]BUSSMANN H. Routledge Dictionary of Language and Linguistics[M]. 北京:外語教學與研究出版社,2000.
[43]KRACHT M. Introduction to Linguistics[J/OL].(2008). https://www.pdfdrive.com/introduction-to-linguistics-e5989391.html.
[44]SAUSSURE F. Course in general linguistics[M]. Translated and annotated by HARRIS R. London: Duckworth,1916/1983.
[45]胡壯麟. 語言學教程[M]. 5版. 北京:北京大學出版社,2017.
作者簡介:劉宇紅(1966—),男,博士,2003 年畢業于復旦大學外文學院,獲文學博士學位,同年破格晉升為教授。 現任南京師范大學外國語學院教授、博士生導師。 2005—2006 年在美國休斯敦 Rice University 訪學。 主要研究方向涉及認知語言學、功能語言學、語言哲學、語義學、語用學、神經語言學,發表論文100余篇,出版專著15種。 通信方式:liuyuhong@njnu.edu.cn。