章宜華
以前,“辭書現代化技術”使人聯想最多的是借助語料庫編詞典,或者是把紙質詞典裝進計算機或芯片。在國內,以語料庫為代表的辭書現代化技術的研究方興未艾,檢索“中國知網”發現,近五年來有關語料庫的論文有2341篇,與詞典或辭書相關的有1011篇,僅《辭書研究》就刊登有關辭書語料庫的論文20余篇。在近年召開的中國辭書學會辭書編纂現代化專業委員會歷次年會上,語料庫的功能、特色、建設和管理,以及語料應用等個案研究都是重要議題之一。而在國際詞典學的會議上,有很多新理念已經取代了這類語料庫的話題,其中之一就是語料庫的深加工或數據化研究及開發。
在語料庫發展的初級階段,信息數字化程度很低,語料完全靠人工錄入,建設成本很高,因此語料庫的規模都不大。但人們對語料的評價和期望都十分高,似乎有了語料庫,詞典的一切問題都解決了:釋義和義項劃分有了依據、例證的采集可以變得輕松、詞典的編纂效率可以大大提高,等等。而實際情況是,每天都會產生大量的電子信息,其數量越來越龐大,語料庫的建設變得很容易;而另一方面,在大規模語料庫環境下,海量語料往往會讓詞典編者無從下手,甚至會大大增加其工作量,影響辭典編纂的進度。因此,西方詞典學家早在上世紀八九十年代就開始了語料的數據化加工,早期的有WordNet、MindNet、FrameNet等,近期有Word Sketch Engine(詞匯特性速描)、DANTE(英語詞匯數據庫)和Corpus Pattern Analysis(CPA:語料庫模式分析)等。這些詞匯數據庫大多是在語料庫的基礎上,利用數據挖掘技術從海量的語料中提取有用的詞匯數據,以描述詞匯的各種語言屬性。下面將對近期的幾個語料數據化項目做一介紹。
詞匯特性速描(Word Sketch Engine)是建立在語料庫基礎上的詞匯語言屬性的處理和描述平臺,對詞匯語法和搭配特征進行全面、詳盡的歸納和展現。主要功能有:
(1)一定分布模式中的詞匯語料檢索。用戶可以查詢語詞、短語、搭配和語法模式,并根據各種規則區分出不同文本來源(口語、書面語等)的相關索引行。
(2)詞匯的處理和特征速描,如詞位化處理、詞類標注、數據輸入格式、搭配結構和搭配特征、語法關系的定義與表述等。
(3)同義詞或近義詞的檢索和顯示。根據語料庫中大量的語法關系結構,利用統計分析和結構相似性的方法,自動生成近義詞集合,譬如根據〈object,drink,beer〉,〈object,drink,wine〉,即可以把“beer”和“wine”看作近義詞。
(4)詞匯速描的對比。當你查詢近義詞時,可以通過對比其釋義和不同的語言屬性來發現它們的區別特征,達到語義消歧的作用,以便正確理解和使用。
(5)語詞搭配顯著性的計算和描述。利用搭配詞在語料庫中各自出現的頻率和共現頻率及其關系來計算語詞搭配關系的顯著性。后來又吸收了互信息(MI,即mutual information)的計算方法(Church&Hanks 1989),把語詞搭配關系的顯著性視為互信息I和頻數對數(log joing frequency)之積,這種算法既便于詞典編者發現互信息較高的語詞搭配,同時也便于他們發現高頻語詞的搭配方式。
速描系統包含多個語料庫,各個語料庫可單獨運行。當進入查詢界面后,首先選擇語料庫,然后在查詢窗口輸入要查詢的詞,如選擇BNC(英國國家語料庫),輸入deliver,就會彈出主顯示頁面,分頁顯示出deliver所有6368條索引行(每百萬56.8條)。在顯示框左邊有一排功能鏈接鍵,包括“索引、詞匯列表、詞匯速描、同近義詞、詞匯速描對照”等。點擊“詞匯特性速描”,再次輸入deliver,選擇詞類(動詞),點擊“顯示詞匯特性速描”便得到圖1所示結果[1]。
圖1顯示出deliver的各種屬性速描數據,共計17種關系,全面描述了詞目詞的語義角色,包括共現賓語(object)、主語(subject)、限定詞(modifier)、and/or并列成分、接賓語小品詞(part trans)、不接賓語小品詞(part intrans)、一元關系(unary rels)、介詞詞組(PP)、介詞with in短語(pp within-p)、介詞to短語(pp to-p)、介詞by短語(pp by-p)、介詞at短語(pp at-p)、介詞on短語(pp on-p)、介詞in短語(pp in-p)、介詞of短語(pp of-p)、小品詞up接賓語(part up-a obj)、賓語帶形容詞補語(np adj comp)、形容詞補語(adj-comp)等。這些與被釋義詞共現的成分按照特定的語法規則形成不同的橫聚合關系,而且各種關系的詞項后都提供了共現頻率及其搭配的顯著度,這為詞典編纂者提供了極具操作性的數據支持。

圖1 英語動詞deliver的詞匯特征速描數據
該詞匯特性速描網站有49個大型語料庫支持,覆蓋30多種語言;最大的enTenTen英語語料庫有32.68億個詞例(token),27.59億個詞形(type)。值得一提的是,Kilgarriff在2006年與我國臺灣研究機構合作,推出基于漢語語料庫的詞匯特性速描平臺,語料庫有4.55億詞例。現以“傳遞(傳遞)”為例做一說明:

圖2 漢語動詞“傳遞(傳遞)”的詞匯特性速描
詞匯特性速描中各種共現角色是根據對語詞的語法結構及分布位置的統計歸納出來的,它過分強調搭配項的語法結構和詞的屈折形式,對搭配項的語義限制考慮不足,因此出現了一些“噪音”信息,譬如在“主語”和“介詞by短語”的共現成分中出現了“L.j”、“J.”等外國人名縮寫,而在“修飾詞”中甚至出現了“to,than,then”等介詞和連接詞。而在漢語中,這種情況就顯得更加突出,因為漢語沒有屈折形式,詞在句子中的位置比較靈活,難以根據語詞的形式特征和分布位置確定其共現成分的性質。譬如:在“傳遞(傳遞)”的“賓語”中出現了“路程、英里、白冰冰、路線、行程、幅員”等,在“修飾語”中出現了“能夠、能、要、來”等;特別是在“主語“中,所列成分大多不是主語,而“傳遞(傳遞)”在這樣的結構中往往也不是動詞,“接力、微博、軍情、公文”等都是“傳遞(傳遞)”的修飾語。
英語詞匯數據庫(DANTE Database)是建立在語料庫基礎上的一種新型詞匯知識庫。它提供了9.2萬詞和短語的粒度精細的綜合性語言特征記錄,其中包括4.2萬單詞、2.7萬習語或短語、2.05萬復合詞、2500個短語動詞、62.2萬從語料庫中提取的例句。英語核心詞匯的特性分析都建立在17億詞的用戶語料庫上,系統地描寫了英語詞匯的意義、語法、搭配特征及文本特性。從語料庫中提取的語言實例分為40個數據類型,每一語言屬性都與詞目詞的某一義項相關聯,并有兩個以上的原始例證支持,用戶可以按需摘取。
英語詞匯數據庫有40種基本數據類型,此外還有詞目類型、拼寫變體、屈折變化、句法模式、搭配結構、翻譯對等詞、語用說明、語法說明和功能說明等內容。這些類型都是用來描寫詞目詞的語言屬性的,在數據庫中都有詳細的標注。該數據庫采用的是XML格式,而數據類型和注釋內容都是通過文件類型定義(Document Type Definition—DTD)來描述的。下面是DTD定義的數據庫信息項,共94項。由于信息項數量太多,這里僅列出其中的部分屬性,以資說明。

表1 DTD定義的數據庫信息項

(續表1)
數據庫的數據信息大致是按詞典宏觀和微觀結構體例組織并構建起來的。詞目,包括單詞、復合詞、短語和縮略語詞頭,組織起宏觀結構的框架,同形異義詞目按序號排列;詞頭有拼寫變體、屈折變化形式,然后是義項及句法結構、搭配詞項、語塊、例句等。中間還穿插各種類型的注釋和說明,最后是用法說明、短語和習慣表達等內容。圖3就是measure詞條的語料數據結構(部分截圖)。

圖3 measure的語料數據結構(部分截圖)
measure下列出了18個義項和近10個短語(部分內容參見圖3),而且每個義項都有詳細的屬性注釋和豐富的例句(略)。這個數目高于一般的詞典義項,如著名的《牛津高階英漢雙解詞典》總共只有11個義項,其中名詞8個,動詞3個。在這個信息結構中,除為每個義項提供語義解釋外,對句法結構和搭配的描述尤為詳細;此外,還給出了不少語塊。數據庫的顯示頁面是XML文本,內容超過一頁的界面右邊會自動出現滾動條,滑動滾動條即可查看全部內容。
語料庫模式分析(Corpus Pattern Analysis)是一種把詞匯意義投射到特定語詞文本的一種方法,旨在構建英語動詞的模式數據,用于計算語言學、語言教學和語言認知方面的研究。該方法的倡導者是《新牛津英語詞典》的主編Patrick Hanks,其理論基礎是“常態與拓展理論”(Theory of Norms and Exploitations)(Hanks 2004;Hanks&Pustejovsky 2005)。該理論吸收了生成詞庫(Generative Lexicon)(Pustejovsky 1995)和生成語義學(frame semantics)(Fillmore&Atkins 1992)等理論。常態與拓展理論認為,孤立的詞其意義是十分含糊的,或者說是沒有“意義”的,它只有“意義潛勢”(meaning potential)。人類大腦中存儲的不是孤立的詞項,而是詞的各種使用模式或短語模式(phraseological pattern)以及與該模式密切相關的原型特征。要理解一個詞在語言交際中的意義,關鍵是要知道其模式,并要區分常規模式(norms)和拓展模式(exploitation)。要想了解語詞如何獲得意義,就要分析語詞的分布位置及語境:配價和搭配。
模式分析的標注工作一直在進行當中,凡標注完成的條目會立即入庫,并上網供用戶免費查詢。模式分析庫的顯示結構共三層:第一層是詞表,第二層是用法模式,第三層是相關語料。表2為第一層。

表2 語料庫模式分析查詢詞表
在表2中,從左至右分別是動詞表、模式數、OEC詞頻、BNC詞頻、成稿時間。用鼠標點擊左邊的詞項,便可以進入語詞的模式分析界面。如點擊bite,便彈出第二層界面(如圖4所示):

圖4 bite的22個用法模式截圖
動詞bite共22個用法模式(義項),截圖只顯示出8個。在圖4中,左側數字是序號,百分數是每一個模式占該詞總用法(或詞頻)的百分比。每一個義項上方的粗體單詞標示的是語料模式,其下是該模式的釋義。最右邊的是模式類型:conc為常規模式,exploit為拓展模式;用鼠標點擊相關模式可以進入第三層語料界面(圖略)。
通過分析可以看出,語料庫模式的分析有以下方法和步驟:
—語料分析:以統計的方法整理語詞用法實例,根據目的詞的搭配項以索引行為單位分類,抽象出每一句子類型的模式,并把意義投射到相應的用法模式;分析工具是詞匯特性速描(Word Sketch Engine)。
—模式分析:語言交際中的原型被視為常規用法模式,而常規模式通過新的隱喻、轉喻和非常規措辭,或在特定的語境中都會獲得具有個性的特色意義,這就被視為擴展模式;而同一模式要分析出不同變體結構(包括句法結構交替、詞匯交替和語義交替),同時還要區別偏誤用法(error)。
—為每一動詞模式配置一個語義結構(implicature),它用不同的動詞和短語表達與詞目詞相同的意義,而且該模式相關的論元或語義角色都要出現在這個結構中。
—挑選例句:從語料庫(BNC)中為每一個目的詞挑選出一定數量的索引行,一般為250~500個例子。這些句子按不同的模式放在被釋義詞的各個義項中,以強化其分布結構。下面舉例說明:
(1)translate[8]

當一個動詞有兩個或兩個以上論元,且這些論元語義類型相同、形式相同但語義角色不同時,可以用數字編碼加以區分;而一個模式有兩個義項的,則按序列出:
(2)bite[22]

有一些動詞的語義角色在某些模式中要求有特有的語義類別,可以用注釋的方法在模式中標示出來;對釋義的補充說明,則可以直接放在語義解釋下方:
(3)abate[5]

(4)abuse[5]


例(3)模式1和模式2中的主語語義類型分別是[事件=暴風雨]和[事件=洪水],這種注釋使釋義更加具體化:處于危險狀態的水位下降了。例(4)中的主語語義類型是[人類=壞家伙],賓語的語義類型是[人類=受害者],后面的注釋說明該結構并不總是用于性侵犯,有時也用于表示主語角色羞辱或侮辱受害人。
在信息化時代,辭書現代化的關鍵是計算機技術和數字化技術的應用,其實質就是文字處理與傳輸的智能化和信息化;辭書的編纂、編輯、出版和發行都必須充分利用這些技術,以適應信息時代的需要。國內辭書界早已意識到現代化技術在詞典編纂和出版中的重要性,但由于種種原因主要研究仍集中在是否建立或如何建立語料庫的問題上;而實際上,由于現代網絡無時無刻不在產生大量的電子文本,語料庫的建設已變得十分容易,況且國際互聯網上出現了越來越多免費使用的大型語料庫(特別是英語語料庫),因此語料庫的建立和使用已經不存在技術和資源問題。鑒于此,辭書現代技術的應用應該多關注語料庫數據化的研究和開發,利用數據挖掘技術在語料的基礎上建立漢語、英語、法語、日語等語種的詞匯數據庫,研究和開發辭書編纂、編輯、出版專用的文字處理平臺和數據庫。這些內容才是辭書走向載體電子化、檢索智能化、發行網絡化的核心問題,這些問題解決好了自然會加快我國辭書現代化的進程。
附 注
[1]由于顯示內容很多,難以在一個截屏中全部顯現,故歸納成此表。
[2]OEC指Oxford English Corpus(牛津英語語料庫)。
1.Church K,Hanks P.Word Association Norms,Mutual Information,and Lexicography.∥Computational Linguistics,1990(1):22 -29.
2.Fillmore C J.et al.Towards a Frame-based Organization of the Lexicon:The Semantics of RISK and Its Neighbors.∥Lehrer A,Kittay E F.(eds.).Frames,Fields,and Contrasts.Mahwah:Lawrence Erlbaum Associates,1992.
3.Hanks P.The Syntagmatics of Metaphor and Idioms.International Journal of Lexicography,2004(3).
4.Hanks P,Pustejovsky J.A Pattern Dictionary for Natural Language Processing.Revue Francaise de linguistique appliquée,2005(2).
5.Pustejovsky J.The Generative Lexicon.Cambridge:MIT Press,1995.