摘要 計算機與古籍整理的結合帶來了古漢語電子語料庫建設的繁榮。文章在對古漢語電子語料庫的建設情況進行充分調查的基礎上,提出古漢語電子語料庫的概念和類型,并指出古籍數據庫與古漢語電子語料庫之間的關系。
關鍵詞 古漢語電子語料庫 計算機 古籍數據庫
與現代漢語語料庫的開發建設相比,古漢語電子語料庫的建設顯得相對薄弱。究其原因,除了開發古漢語電子語料庫技術上存在的諸多難題外,與古漢語電子語料庫理論研究的滯后關系甚大。迄今,關于古漢語電子語料庫的概念描述、建庫歷史回顧以及語料庫類型劃分等方面均鮮有人論述。本文通過對古漢語電子語料庫建設情況的調查,嘗試提出古漢語電子語料庫的概念,并將古漢語電子語料庫分為字詞索引型語料庫、工具書型語料庫和標記型語料庫三種類型。
一、古漢語電子語料庫的概念,
語料庫通常是指大量電子化了的、原始或者添加了語言信息標記的文本集合。語料庫是一個龐大的語言素材集合體,主要用于觀察、分析和研究目標語的各種特征。我國語料庫的建設始于20世紀80年代,當時的主要目標是漢語詞匯統計研究。20世紀90年代以后,語料庫方法在自然語言信息處理領域得到了廣泛的應用,建立了各種類型的語料庫。
所謂古漢語電子語料庫是指經過深度加工,標注了各種語言學屬性以便進行語言學研究的古籍數據庫,又稱漢語古籍語料庫(楊建軍2006:103—109)或古文獻數字語料庫(王東海2005:117—121),建立古漢語電子語料庫的目的是要運用計算機技術,通過語料庫來研究古代漢語的語言規律。古漢語電子語料庫已經成為漢語史研究不可缺少的基礎資源。
古漢語電子語料庫能夠提供大量的古漢語自然語言材料,有助于研究者據其得出可驗證的結論。在計算機技術的支持下,古漢語電子語料庫可以應用于詞匯、語法、語義、語用、語體研究,也可應用于詞典編纂、古漢語教學以及人工智能、機器翻譯等領域。古漢語電子語料庫的應用還處于起步階段,主要用于字、詞頻率統計或是對詞匯、語法現象進行歸納統計等。
近年來在古漢語電子語料庫的支持下,從信息處理的角度研究古漢語詞匯、語法和語義問題的成果也日漸增多。除了詞語自動切分、詞性自動標注等語料加工技術以外,古漢語電子語料庫在開發信息抽取系統、信息檢索系統、文本分類和過濾系統方面正逐漸朝著智能化方向發展。事實上,古漢語電子語料庫開發建設的過程也正是古漢語語料的利用過程,即從簡單的字詞索引和工具書的利用,到詞性自動標注這一過程。
二、字詞索引型語料庫
字詞索引是指將古代文獻中的字句或詞語分別摘錄、注明出處,并按一定排檢方法編排起來的檢索工具。長期以來,編撰字詞索引是漢語史研究與利用的重要工作,字詞索引也是漢語史研究者的必備參考工具書。
字詞索引型語料庫是古漢語電子語料庫建設的早期試驗性成果,重在對單一古籍文獻或某類型古籍文獻進行字、詞頻率統計或對詞匯、語法現象進行歸納統計。
古漢語電子語料庫的開發首先從計算機輔助字詞索引編制中取得突破。使用計算機進行古漢語電子語料庫開發的實踐源于國外計算機語料庫的建設。20世紀五六十年代,以N.Francis和H.Kucera為首的一批語言學家和計算機專家在美國布朗大學開始了機讀布朗語料庫(Brown Corpus)的建設(于亭2000:66—70)。其后,計算機用于古漢語電子語料庫的探索也開始了。1978年美國人P.J.Ivanhoe運用計算機編制了“朱熹《大學章句》《中庸章句》索引”、“王陽明《大學》《傳習錄》索引”等,開始了古漢語電子語料庫開發的實踐。
臺灣與香港對古漢語電子語料庫的開發實踐早于大陸。臺灣地區古漢語電子語料庫的早期開發主要集中于漢字系統和數據庫系統的設計與探索上。20世紀80年代,臺灣相繼推出了“《說文解字》和《玉篇》資料庫”、“善本書影像資料庫”、“《二十五史》資料庫”等。香港中文大學中國文化研究所開發了“先秦兩漢一切傳世文獻電腦化資料庫”。大陸地區對古漢語電子語料庫的開發稍晚于臺灣。1983年3月,“計算機與古籍整理研究會議”召開后,中國社會科學院語言研究所、山東社會科學院語言文學研究所、蘭州大學等單位積極參與計算機與古籍整理研究項目,“《論衡》逐詞索引”、“《兒女英雄傳》虛詞索引”、“《朱子語類輯略》虛詞引得”等相繼研制成功。這三個計算機處理軟件除了具有索引功能外,還具有統計、排序、輔助劃詞、版式設計等功能。隨后,國內對古漢語電子語料庫的開發逐步走向深入。經過艱難探索,中國社會科學院文學研究所出版了使用計算機編制的“《論語》數據庫”。其后,深圳大學開發了“《紅樓夢》多功能檢索數據庫”;東北師范大學古籍整理研究所對《貞觀政要》進行了文獻標引,實現了隨意檢索符號、字、詞、句和句式等功能;1999年,在經過10年的辛苦工作后,廣西大學電子版《古今圖書集成索引》研制成功(毛建軍2007:21—29)。
需要指出的是,隨著計算機技術的發展;大量功能強大的全文檢索型古籍數據庫問世,字詞索引型語料庫的建設逐漸受到冷落。事實上,字詞索引型語料庫具有全文檢索型古籍數據庫所不具備的諸多優勢,主要表現在以下幾個方面:(1)有明確的索取范圍。字詞索引型語料庫的索取范圍可以是單一一部古籍,如《詩經》《史記》;可以是古籍叢書,如《十三經》《二十五史》;也可以設定某一類主題為檢索范圍,這種明確的索取范圍極大地方便了漢語史研究者。(2)有明確的索引途徑。字詞索引型語料庫可進行字詞檢索、分類檢索、標題檢索以及組合檢索。(3)索取結果可注明原文出處、提供原文文字或圖像,有些字詞索引型語料庫還具有頻率統計、自動檢索、自動排序、匯編輸出等功能。正是基于以上認識,2008年華東師范大學中國文字研究與應用中心將該中心已掃描的文字學類電子工具書開發成字詞索引型語料庫,以求最大限度方便研究者和普通使用者。如“《說文解字》檢字系統”,該系統提供了中華書局版《說文解字》、上海古籍出版社《說文解字注》、中華書局《說文解字義證》、中華書局《說文解字詁林》、上海教育出版社《古文字詁林》等的字詞索引,并提供字詞在以上書籍中的頁碼。
更多字詞索引型語料庫參見下表:

三、工具書型語料庫
以古代語言文字為主要內容的字書、辭書、韻書等工具書是漢語史研究必不可少的參考資料。工具書型語料庫的開發與建設略晚于字詞索引型語料庫。1998年深圳大學與北京大學聯合研制了“《廣韻》電子檢索系統”,將《廣韻》的字頭和訓釋分別切分出來,并最終開發成多功能的檢索系統?!啊稄V韻》電子檢索系統”的研制成功標志著工具書型語料庫技術的成熟。但近十余年開發建設的工具書型語料庫,不僅數量十分有限,而且數據庫格式和數據庫檢索途徑也很不統一。
工具書型語料庫主要是對已存在的古籍工具書或重新整理編撰的、以古代語言文字為內容的工具書進行數據加工,從而生成新的計算機檢索系統。一般而言,工具書型語料庫應具有多種功能,包括單字查詢、批字查詢、按碼查詢、按頻查詢、指定外部字符子集文件查詢等功能。早期的工具書型語料庫多由紙質工具書轉換而來,這類語料庫具有很強的實用性和針對性。如北京書同文數字化技術公司研制的電子版《康熙字典》。其所用底本為同文書局石印本,并附有王引之的字典考證,可實現繁體、簡體、異體、舊字、訛字檢索,系統具有單字查詢、部首查詢、筆畫查詢、筆順查詢、拼音查詢、注音查詢功能。電子版除提供原《康熙字典》中文字條目信息外,還提供漢字的部首,部首外筆畫數,總筆畫數,筆順筆形,拼音,注音,Unicode、GBK、Big5編碼等屬性信息。除《康熙字典》電子版外,書同文數字化技術公司還開發了具有數億字古籍語料統計分析功能的“古籍字頻統計工具”系統。該系統支持自定語料庫范圍的多條件檢索,提供模式檢索、高級查詢表達式,可進行詞性查詢、組合查詢、短語查詢、句式查詢、指定距離查詢等。該系統還可實現查詢結果的進階處理,包括關鍵字統計、互信息統計、詞頻統計、組合排序等。
隨著計算機技術和數據庫技術的發展,整合多種工具書從而構建更大容量的數據庫日益受到重視。北京時代瀚堂科技有限公司制作的“小學工具庫”可謂這一理想的代表性數據庫。“小學工具庫”由多個各具特色的分庫組成,分庫包括《古今圖書集成字典》《異體字字典》《康熙字典》《說文解字》等300余種工具書,形成的記錄條目近300萬條。數據庫自帶的檢索引擎可以在一秒鐘內提供檢索結果,檢索到的所有內容可以在Word等編輯工具中編輯、復制。
大規模的語料庫用統計語言模型的方法處理自然語言的基礎資源。漢語史研究同樣也需要大規模的、可擴容的工具書型語料庫。華東師范大學中國文字研究與應用中心在可擴展性語料庫方面做了重要嘗試。其為順應中國文字數字化發展趨勢,開發研制了規模龐大的“古文字資源庫”,資源庫主要包括“商周金文檢索”、“戰國楚文字檢索系統”、“《說文解字》電子檢索”、“《古文字詁林》電子檢索”等數據庫系統,系統目前只提供GBK編碼范圍內通用字頭的檢索,下一步將不斷擴展檢索功能。古文字資源庫包括兩種形式的檢索結果:一是只提供原書的頁碼號;二是在原書頁碼號的基礎上直接提供該頁面的鏈接。
更多字詞索引型語料庫參見下表:



四、標記型語料庫
語料的標記與語料的應用可說是相輔相成的。所謂標記就是針對文本進行詞性碼、語法碼、語義碼的標注。標記型語料庫是語料庫建設的重要階段?,F代漢語標記型語料庫的開發已經取得相當成熟的經驗。由于漢語詞類的分類有其時代性,古代漢語、近代漢語的語法與現代漢語的語法有很大不同,現代漢語文獻所使用的標記無法直接套用在古代與近代漢語的文獻內容上。因此,古漢語標記型語料庫的開發目前還處于探索階段。
標記型語料庫是較高層次的古漢語語料庫。從語料庫的開發層次來看,語料庫可依是否經過斷詞及加標詞類而分成兩類,即未加標的素語料庫以及有標注的標記語料庫。以上字詞索引型語料庫和工具書型語料庫應視為未加標的素語料庫。標記型語料庫的代表性成果當為臺灣“中央研究院”開發的“古漢語標記語料庫”,該語料庫是應漢語史研究需求而建構的。“古漢語標記語料庫”的建置目標是利用它來建構出一套近代漢語到現代漢語語言變遷的知識系統,為前此的語言提供一個具有相當價值的研究工具,從而最終實現在文獻上進行斷詞、標注詞類和多種統計功能。目前古漢語標記語料庫已完成上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以后)等大部分的數據建設,并已陸續開放。
北京大學漢語語言學研究中心建置的CCL(Center for Chi-nese Linguistics)語料庫也很有特色。CCL語料庫包括現代漢語語料和古代漢語語料兩大部分。截至2010年2月,CCL語料庫規模已達4.77億字(1.06GB)。CCL語料庫支持復雜檢索表達式,比如不相鄰關鍵字查詢,指定距離查詢等等,同時也支持對標點符號的查詢,比如查詢“?”可以檢索語料庫中所有疑問句。CCL語料庫可根據用戶需要,定制查詢結果的顯示方式(如左右長度,排序等),且用戶可從網頁上下載查詢結果。
五、結語
除了上述利用計算機編制的古漢語電子語料庫外,計算機用于古籍整理的實踐還體現在開發建設了大量可檢索的古籍全文數據庫。從這些數據庫所具有的檢索功能來看,也應視為一種古漢語電子語料庫。尤其是全文檢索型的古籍數據庫,更具有古漢語電子語料庫的某些特征。進入21世紀后,古籍全文檢索系統的開發與建設已成為海內外中國古籍數據庫工作的主流。如臺灣“中央研究院”史語所的“漢籍全文電子資料庫”、臺灣故宮博物院的“古典文獻全文檢索數據庫”均可提供全文檢索。在大陸,參加古籍全文數據庫研發的單位既有科研院所,也有部分企業,出現了大量高質量的古籍全文數據庫,如北京大學的“中國基本古籍庫”、首都師范大學等高校與國學公司合作開發的“中國古代文學史電子史料庫”以及北京龍戴特信息技術有限公司開發的“龍語瀚堂典籍數據庫”等大型古籍全文數據庫均實現了全文檢索功能。這些古籍全文數據庫可進行全方位的快速海量檢索,可實現分類檢索、條目檢索、全文檢索、高級檢索和模糊匹配。有些數據庫如“中國古代文學史電子史料庫”,還可自由確定檢索范圍和條件,其檢索范圍既可是一卷書,也可是一部書或若干部書,真正達到了逐字索引的效果。還有些數據庫具有智能化分析和標注功能,如北京大學“《全宋詩》分析系統”就具有重出詩提取、格律詩標注、字及字組的頻率、分布統計、格律分析等功能。
古漢語電子語料庫的開發和研究目前仍處于探索階段,還面臨很多亟待解決的問題,如語料庫資源的共建共享、語料庫規范與標準的制定、語料庫的知識產權及技術更新、技術遷移等。與現代漢語語料庫的開發建設相比,古漢語電子語料庫的資源建設、人才建設也都不是很充分,對古漢語電子語料庫的理論研究也還不夠深入。希望這篇小文能夠起到拋磚引玉的作用。

(責任編輯 郎晶晶)