□文│李仕春
釋義是詞典的靈魂,多義詞的釋義更是重中之重,古今中外辭書最大的差別就在多義詞的釋義方面。文章主要在漢英語文詞典的視角下,以多義詞的釋義為切入點,研究漢語中型語文詞典的出版狀況。
在中國辭書史上,一詞多義的現象首先見于漢代《說文解字》,其釋義特點是據形釋義、一詞一義,偶爾涉及一詞多義,多義詞和單義詞的區分并不明顯。此后,經歷代字書、韻書的發展,漢語辭書中多義詞和單義詞的區分越來越明顯,清代《康熙字典》則已收錄了大量多義詞。古代詞典對多義詞的釋義基本是隨文釋義性質的,很不科學。20世紀以后,中國出現了以《現代漢語詞典》(下文簡稱《現漢》)為代表的一批具有現代意義的詞典,這一時期多義詞義項的劃分比較科學、合理,缺點是由于靠語感確定多義詞的義項,因此詞典中多義詞義項存在收錄不全的情況。以上便是漢語多義詞義項劃分在中國歷代詞典中的縮影,也可以說它是20世紀80年代以前,世界各國詞典對多義詞義項劃分從無到有、從釋義不科學到釋義科學的一個縮影。然而,世界語言學自20世紀五六十年代進入語料庫時代后,詞典編纂發生了革命性的變化。
張志毅先生指出:“ 語料庫理念萌生于1959年倫敦大學語言學教授夸克(R. Quirk),幾年間建起涵蓋多種語體的上百萬字的‘英語用法語料庫’。1961年美國布朗大學建起第一個機讀的逾百萬字的‘布朗語料庫’。從20世紀80年代起,柯林斯等出版社和伯明翰等大學合作,創建了‘CO-BUILD(資源共建)語料庫’,由此開發了《柯林斯COBUILD英語詞典》。《牛津高階英語學習詞典》《朗文當代高級英語辭典》《錢伯斯基礎英語詞典》等的最新版本,也都是以語料庫為依托編寫而成。”[1]語料庫的重要作用就在于可以讓詞典編纂者在短時間內占有大量語料,進而通過對海量語料的窮盡性分析使詞典中多義詞義項的收錄更加全面、科學、合理,因此語料庫的誕生使20世紀的詞典編纂明顯分為兩個時期:靠語感編纂的時期和運用語料庫技術編纂的時期。20世紀80年代以前,由于沒有大型語料庫,詞典編纂者占有的語料有限,因此英語中型語文詞典中常用詞的義項劃分往往比較粗疏、存在漏收的情況;20世紀80年代以后,由于詞典編纂者能夠占有足夠的語料,英語中型語文詞典中常用詞義項的收錄往往比較全面、基本不存在漏收的情況,這種現象可以用數據來證明。為了便于操作,筆者以100核心詞在英語多部中型語文詞典中的平均義項為例做說明。
《牛津高階英語詞典》(本文簡稱《牛津》)1948年發行第1版,此后,分別在1963年、1974年、1989年、1995年、2000年、2005年、2012年出了修訂版,共有8個版本。從歷時角度看,《牛津》第1~8版中100核心詞的平均義項分別是7.55個、7.91個、7.03個、8.25個、8.47個、10.2個、10.47個、10.61個,這表明《牛津》第1~8版的修訂者20世紀八九十年代把用語料庫技術豐富補充常用詞的義項作為重點修訂對象,其標志是出版于1974~2000年的第3、4、5、6版中100核心詞的平均義項數目變化較大,而這段時間正是語料庫技術運用于詞典編纂中的時間段。以此作為分界線,出版于1948~1974年的第1、2、3版中100核心詞的平均義項數目基本沒有變化,這是由于這段時期大型英語語料庫還沒有建成,所以這三版中多義詞義項的劃分還處在靠語感編纂的階段。2000~2012年的第6、7、8版中100核心詞的平均義項數目基本穩定下來,這說明經過20多年的修訂,《牛津》詞典編纂者在2000年就已經完成了用語料庫技術豐富并補充英語語文詞典中多義詞義項劃分的任務。
從共時的角度看,其他英語中型語文詞典的編纂也大致經歷了與《牛津》同樣的過程。例如,在最新出版的英語類中型語文詞典中,100核心詞的平均義項分別是:《牛津簡明英語詞典》(第10版)12.81個,《麥克米倫高階英語詞典》(第2版)11.68個,《韋氏高階英語詞典》(2009年)11.43個,《郎文當代英語詞典》(第4版)10.35個。這說明,目前占據英語辭書主要市場的牛津、韋氏、朗文與麥克米倫等英語詞典的最新版本都是在語料庫的基礎上編成的。
與傳統憑借語感編纂的詞典相比,建立在語料庫技術基礎上的英語類中型語文詞典在多義詞義項劃分方面更加細化、義項收錄更加全面,在詞典編纂史上實現了里程碑式的跨越發展。
20世紀90年代以來,中國相繼建設了一批漢語語料庫,最有代表性的如北京大學中國語言學研究中心研制的語料庫(Center for Chinese Linguistics PKU,簡稱“CCL語料庫”),截止到2016年9月6日規模已達7.83億字;北京語言大學漢語國際教育技術研究中心研制的北京語言大學現代漢語語料庫(Beijing Language and Culture University Chinese Corpus,簡稱“BCC現代漢語語料庫”),規模已達100億字。可以說,目前我國的語料庫已經初步具備了詞典編纂所需要的規模,盡管如此,在當今中國,用語料庫技術發現漢語多義詞新義項的方法還沒有引起漢語詞典編纂者的足夠重視。為了說明這種情況,筆者以與英語100核心詞相對應的漢語100核心詞在有代表性的漢語中型語文詞典中的平均義項為例做說明。
《現代漢語詞典》是一部中型語文詞典。該詞典1956年由國家立項,1958年6月正式開編,1960年印出“試印本”征求意見,1965年印出“試用本”送審稿,1973年內部發行,1978年正式發行第1版。《現漢》正式出版后,分別在1983年、1996年、2002年、2005年、2012年出了修訂版,共有6個版本。從歷時的角度看,《現漢》第1~6版中100核心詞的平均義項分別是4.85個、5.20個、5.18個、5.18個、5.20個、5.42個,上述數字說明《現漢》第1~6版中100核心詞的平均義項數目基本沒有變化,這表明《現漢》第1~6版的詞典修訂者并沒有把豐富補充多義詞的義項作為重點修訂對象。
此外,進入21世紀以來,中國先后出版了幾部有代表性的漢語中型語文詞典,主要有由李行健主編,外語教學與研究出版社、語文出版社聯合出版的《現代漢語規范詞典》(2004),先后出版3版;商務印書館辭書研究中心編,商務印書館出版的《現代漢語學習詞典》(2010)等。從共時的角度看,在最新出版的漢語類中型語文詞典中,100核心詞的平均義項分別是:《現代漢語規范詞典》(第3版)5.68個,《現代漢語學習詞典》(2010版)5.7個。由此可見,在漢英100核心詞中,漢語中型語文詞典中每個核心詞的平均義項比英語中型語文詞典少5或6個。這說明,在最新出版的漢語中型語文詞典中,100核心詞乃至更多多義詞義項的劃分并沒有建立在大型語料庫的基礎上進行成規模地系統修訂,從而導致漢語中型語文詞典義項的劃分比較粗疏、存在漏收的情況。
目前英美等辭書強國已經完成了用語料庫技術研究英語常用詞義項分布情況的工作,而中國的語文詞典還沒有展開這項工作,因此,這是一項亟待展開的工作。與以往憑借語感,劃分多義詞義項不同,用語料庫技術劃分多義詞義項有以下優點。
用語料庫技術研究常用詞義項分布的最大貢獻就在于把語料庫技術也即把上百億倍的搜集語料的方法引進到詞匯學、詞典學研究中來,這在中國詞典學史、詞匯學史乃至語言學史上具有里程碑式的、劃時代的方法論意義。
以“黑”為例:用語料庫檢索的方法可以在16毫秒的時間內得出“黑”在北京大學CCL現代漢語語料庫中有130831條。假設用人工閱讀的方法查找1條含有“黑”字的語句需要用1個小時(實際上有時候不止1個小時),那么要找130831條“黑”字語料則要用130831小時。經過計算可以知道查找同樣多的語料,用語料庫技術的方法約是人工閱讀的290多億倍,簡直是神速。
已有漢語類中型語文詞典的釋義基本依靠語感通過做卡片的方式編纂,每個詞占有的語料非常有限,而用語料庫技術的方法可以在極端的時間內獲得海量語料。對大多數常用詞義項的考察,可以根據具體情況的不同,分類下載語料。例如,對于諸如像走、跑、跳、紅、黃、綠等使用頻率高、構詞能力強、義項豐富的核心詞,我們只有在下載3萬條共計160多萬字語料的基礎上進行研究,才能研究清楚其義項分布情況;而對于像思、抓、咬、講、緊等使用頻率較高、構詞能力較強、義項較豐富的常用詞,可以在下載2萬條共計100多萬字語料的基礎上進行研究,就可以發現其全部義項了;對于像豬、牛、羊、芽、樹等常用詞,只要下載1萬條共計50多萬字的語料進行研究就可以了。
李仕春《基于語料庫的現代漢語“黃”字義項分布研究》[2]等系列論文就介紹了運用語料庫技術研究現代漢語常用詞義項分布的具體方法。總之,我們的系列論文證明漢語類中型語文詞典核心詞的平均義項與英語類中型語文詞典核心詞的平均義項基本一致。
新理論新方法是推動一門學科進步的兩大引擎,正因為用語料庫技術研究常用詞義項分布具有劃時代的方法論意義,所以把語料庫技術和詞典編纂結合起來成規模地、系統地研究現代漢語常用詞的義項分布,是一項亟待展開的重大基礎應用研究項目。只有這樣,才能盡快完成豐富并補充漢語中型語文詞典中多義詞義項的目的。
相對于以往漢語詞典靠語感確定多義詞義項的情況來講,充分利用語料庫資源和計算機強大的計算功能研究現代漢語中常用詞的義項分布情況,是一座非常誘人的學術富礦,有著巨大的挖掘潛力。張志毅先生指出:“今天的語料庫已經成為能量巨大的語言樣本集。它正在印證、充實、修訂、改寫甚至顛覆以往的辭書釋語。它也正孕育出、孕育著更現代,更可信的辭書。”[3]真正建立在語料庫技術基礎上的漢語詞典,必將會在中國辭書史上留下濃重的一筆,成為中國辭書史上具有里程碑式性質的辭書。