摘要:基于語料庫的詞典釋義新型途徑是對傳統釋義方式的一種重要補充。本文對基于語料庫進行詞典釋義的歷史和現狀研究進行分析,在此基礎上闡述此類研究存在的優勢和局限性。
關鍵詞:語料庫;詞典釋義;優勢;局限
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2013)30-0118-02
近年來,隨著認知語言學的發展和各語言數據庫的構建,基于語料庫揭示語詞的語義特征和詞匯關系的研究受到學界的廣泛關注,隨之而興起的是基于語料庫進行的詞典學編纂研究。語料庫在現代被認為是詞典編纂過程的必要組成成分,基于語料庫的詞典釋義新型途徑是對傳統釋義方式的一種重要補充。本文對基于語料庫進行詞典釋義的歷史和現狀研究進行分析,在此基礎上闡述此類研究的優勢和局限性。
一、語料庫研究概述
語言研究中的語料庫是指以分析語言特征為目的而收集起來的文本集合。(Landau 2005:298),有一定的結構,有代表性,可被計算機程序檢索,具有一定規模。(馮志偉 2009)。Sinclair(1991)認為,語言描述只有以自然語境中的真實語言為基礎才能進行準確客觀的描述。Biber等人(Biber,Conrad Reppen 1998:3)認為,語料庫分析研究的目的不是為了判斷語言語法的正確性,而是為了通過大規模的語言現實數據來揭示語言使用的典型模式。Leech(1993:107)認為語料庫語言學有如下特點:以語言的應用而不是語言能力為中心;以語言描寫而不是語言普遍性為中心;以語言的定量及其定性模型為中心;以經驗主義而不是理性主義的科學研究方法為中心。目前國際主流英語詞典均采用語料庫進行編纂,如Collins Cobuild詞典采用Sinclair主持的COBUILD語料庫,朗文ESL詞典使用朗文語料庫進行詞典編纂,《牛津高階學習詞典》使用BNC語料庫,《劍橋國際英語詞典》使用劍橋國際語料庫。此外,詞典編纂也開始使用一些具有先進的檢索分析工具和語法自動標注體系的語料庫,如word sketch engine等語料庫為語詞提供了較為精確的詞匯描述。
二、利用語料庫進行詞典釋義編纂的優勢
語料庫應用于詞典編纂研究主要存在以下幾點優勢:
1.提供更客觀的語言事實。語料庫能夠用來發現相關的、核心的、典型的事實(如例證、搭配等),它全面展現了母語者使用語詞的自然語境,而這種語境恰好是非母語者所缺乏的語感。語料庫還可顯示某一語詞主要用于哪些語言變體或類別中,并給詞典和語法書提供了語法信息的寶貴資源,更好地對每個義項進行釋義,提供真實可信的合適例證。此外語料庫提供的定量和定性分析也展示了更加直觀、更加可靠和更加令人信服的辨析結果,有效避免了基于傳統語義學理論視野的詞典對詞條語義分析與描述的片面性和主觀性問題。
2.建立使用頻率。語料庫的詞頻統計可以輔助詞典選詞立目,幫助詞典編者決定是否收錄某個語詞及其詞形。常用詞在大型語料庫中的高頻出現為詞典編纂者收錄高頻詞提供了現實依據。語料庫還能凸顯兩個詞的共現頻率,確定常用的語詞搭配和慣用法。
3.提高詞典編纂效率。在計算機語料庫建立之前,人們編纂詞典往往采用卡片的方式費時、費力,低效地采集語料。一本大型詞典往往要耗費多年才能出版。如今,計算機語料庫的建立及便捷搜索工具的使用使得詞典編纂者們得以在海量語料中提取詞典所需的各種有效語言數據,縮短了詞典編纂和出版的時間,提高了語料使用和詞典編纂的效率。(章宜華 2012:1)
三、基于語料庫進行詞典釋義編纂存在的局限和問題
1.共時語料庫選取時段的問題。目前語料庫的建設主要以共時為主。這里就存在一個共時語料庫選取時段的問題。如果不能確定共時的時段,對詞典編纂將會產生諸多問題。比如語詞的時代標簽的問題。某些語詞多長時間被定義為過時?多長時間被定義為舊,都應該有一個標準。此外,隨著時間的變化,某些語詞的標簽也會發生變化,如方言進入共同語詞匯,經過一段穩定期,成為共同語的一部分。拿《現代漢語詞典第5版》作為例子來說。該詞典將“忽悠”一詞標注為<方言>,然而筆者認為,該詞標為<口>更合適。詞典的標簽要考慮到歷史的演變而及時進行更新,就要參考語料庫。而語料庫則存在一個時限的問題。如果收錄50年以上的語料庫,能否還被當成共時語料庫?“忽悠”一詞在50年中以方言的形式出現的頻率多于共同語,而10年間以共同語的形式出現頻率則更高。如果在50年以上的語料庫中進行詞典標簽的標注,則會出現標注不準確的問題。
2.詞典編纂選用真實語料的問題。詞典編纂究竟是采用自撰例還是語料庫的真實例子歷來就有紛爭。Landau認為,自撰例不是人們在實際生活中說的話,很多自撰例甚至從未使用過,對二語習得者來說更達不到習得真實語言的目的。因此,他提出在詞典中采用真實語料比自撰例要好。然而真實語料也有缺陷。其一,真實語料受具體語境的限制,往往無法概括詞義。其二,真實語料往往以語篇為單位,內容過長,對詞條釋義尤其是紙質詞典的釋義來說存在篇幅限制問題。第三,真實語料中的很多語詞比被釋義詞難,學習者難以接受。因此,筆者認為使用修改后的真實語料更適合詞典編纂實際。
3.語料庫的代表性問題。即便是大型語料庫,其所選的語料仍然有限,僅能反映某一時刻,大多數地區語言的真實情況。在選取體裁和文本類型時,也容易出現文本類型不均衡的情況,如沒有早期文本的語料,書面語語料比例大大高于口語語料比例,語法標注不精確等局限性,樣本的大小和數量以及時間跨度和地域分布的不均衡等等,不能完全真實地反映語言的千變萬化的使用情況,甚至不具備某一語言的代表性。
語料庫的發展為詞典編纂提供了新的研究范式和途徑,但也存在不足,只有結合現代語言學及釋義理論對基于語料庫的詞典編纂自動化進行深入研究,才能提高詞典編纂速度和質量,提供二語學習者切實需要的語義信息。
參考文獻:
[1]Biber D,Conrad S Reppen S.Corpus Linguistics:Investigating Language Structure and Use,Cambridge Approaches to Linguistics[M].Cambridge University Press,1998.
[2]Sinclair,J.Corpus,concordance,collocation:Describing English language[M].Oxford:Oxford University Press,1991.
[3]Landau,Sidney I.,章宜華.詞典編纂的藝術與技巧 第二版[M].夏立新,譯.商務印書館,2005.
[4]馮志偉.《語料庫語言學與計算語言學研究叢書》序[C].北京:世界圖書出版公司,2009.
[5]章宜華.國際辭書現代化技術的新理念:辭書語料數據化[M].辭書研究,2012,(2):1-9.
基金項目:廣東省教育廳高校優秀青年創新人才培育項目(WYM10033)
作者簡介:黃芳(1975-),女,湖南長沙人,博士生,廣東外語外貿大學,講師,詞典學。