圖書館古籍數字資料庫建設與質量評價新論——以資料庫建設與語文詞典編纂的結合為例

2011-03-19 05:27:15王麗英王東海

圖書館理論與實踐 2011年2期

關鍵詞：文本

●王麗英，王東海

（魯東大學 a.圖書館；b.文學院，山東煙臺 264000）

數字資源庫建設是圖書館工作的核心之一，而承載中國文化與文明的古籍資料的數字化建設與智能化使用又是工作重心。古籍數字資料庫建設既可減少古籍整理、保護、使用方面的財力、人力、物力成本，又可為用戶提供更方便、智能的檢索和輸出功能，提高了效率，更好地體現出圖書資源服務社會的功能。

我們認為，古籍資料庫資源的建設必須緊跟用戶的需求，在充分開展用戶需求分析后，再有的放矢地建設，這樣才能提高古籍資料庫的針對性和應用價值。隨著計算機技術及古籍整理工作的發展，古籍數字資料庫建設的目標和原則都發生了很大變化，要滿足不斷發展變化的使用需要，就要進行改革與創新；另外，當前古籍資料庫的重復建設情況比較嚴重，互相抄襲拷貝文本數據的情況大有泛濫之勢，在這方面需要建立明確的評價鑒定標準，以防止這種低水平的重復建設。我們擬從數字資料庫輔助工具的特性出發，以語文詞典的編纂對古籍資料庫的需求為解剖對象，探討當前圖書館古籍數字資料庫建設和質量評價的八個要求。

1 服務于詞典編纂的古籍數字資料庫定位

歷史語文詞典的編纂需要什么樣的語料庫？

首先要區別開第一代語料庫和第二代語料庫。第一代語料庫主要是生語料庫，即將紙制印刷文本電子化，提供各種全文搜索功能。第二代語料庫是利用計算機給生語料自動加上分詞、詞性、語義特征、句法、語篇、語用等屬性標記（目前做得最成熟的是詞性標注），基于這些語言學標記，可進行各種數理統計、形式分析。例如自動統計文本字頻、詞頻，對詞語搭配進行數據挖掘和知識發現，自動提取文本常用句樹（句型形式樹）、句型（常用搭配角度）、句模（句義角度）、句類（語用角度）等。當前流行的古籍數字資料庫屬于第一代語料庫。

詞典編纂是一項實用性很強的工作。當代詞典由于所編纂的內容都是活生生的使用態的語言，所以對語言事實和規律的描寫要求細致全面，因此有各種語言屬性標記賦碼的第二代語料庫就是首選。而歷史性語文詞典的編纂核心是詞義的引申變化，對語料庫的要求有所不同。

第一，目前在古籍語料庫計算機技術方面，除了少數古文今譯方面的應用需要建立古今漢語對齊平衡語料庫（即文言文本和白話翻譯的對齊）外，其余資料庫的開發重心都集中在古籍資料文本化、版面還原、文本版面與原籍版面的對應保真、檢索關鍵詞異體字關聯、大型數據庫索引與檢索技術五大方面，并沒有向二代語料庫過渡。這一思路是對的。對于中文信息處理技術來講，古籍歷史文本歷時跨度大，綿延幾千年，難以用一套定型的分詞和詞性標注標準進行統一標注，所以進行賦碼的難度較高，可操作性較弱。

第二，歷史語文詞典的編纂中，詞義和詞用信息的厘定和釋義主要依靠詞典編纂者的主觀經驗，即使在語料庫大行其道的今天，人們也不能否定主觀經驗在詞典編纂中不可替代的作用。歷史詞典的編纂要求主觀推斷和客觀驗證緊密結合，“語料庫至上論”在歷史性語文詞典編纂中是行不通的。

第三，歷史詞典編纂要歸納詞義的引申變化，最關心的是詞用語境的時間性屬性，而這一屬性是靠資料文本中的書證進行標記的，編纂者對于文本分詞、詞性標注等賦碼沒有太多要求。

第四，即使有人做過古籍文本的賦碼工作，也只適合個別詞的個案分析，不適用于大范圍的詞典編纂工作，因為隨著語料庫文本賦碼的增多，有時不但不會引導形成正確的結論，反而會形成很多不必要的干擾信息，而且還影響到檢索效率以及檢索結果呈現的簡明性。

結合以上四點意見，作為第一代語料庫的古籍資料庫基本能滿足歷史詞典編纂需要，目前無必要也無可能將歷史語文詞典的編纂所依據的古籍資料庫提升到二代語料庫水平，但這并不意味著現在的古籍資料庫就能很好滿足歷史語文詞典編纂的需要。

國內歷史性語文詞典編纂中使用比較多的是四大綜合性數字資料庫——“四庫全書”“四部叢刊”“國學寶典”“中國基本古籍庫”。一些新的文本化數據庫工程還在不斷開發過程中，舊有的數據庫工程也在不斷完善與擴容。這些數據庫工程在為文史哲的研究和應用方面提供了重要的材料支撐，根本性地改變，甚至顛覆了傳統史料學的存在形態及使用機制。不過也存在不少問題，如重復性建設、互相抄襲數據等，但這并不是最大的不足。

數字資料庫最大的價值體現在兩方面：一是內容，二是服務，以上這些資料庫的建立定位并不是為語文詞典編纂服務，而是以服務于知識主題檢索為主，所以大都追求擴大收錄文獻的篇目數量和文字字數，而在內容的平衡性和服務的多樣化方面做得還有所欠缺，特別是用戶需求分析不夠，缺少明顯的針對性，同質化現象嚴重，這些才是最大的問題。

古籍資料庫的建設工程浩大，僅為詞典編纂這一單一用戶服務的思路是不切實際的，但將資料庫的建設與詞典編纂需求緊密結合，適當增加功能，在技術上是完全可行的。

2 內容平衡性分析

數字資料庫建設在資料收錄方面追求“人無我有，人有我優，人優我特”的目標，這是無可厚非的。但對于詞典編纂來講，必須優先考慮語料庫內容的平衡性。庫內文本沒有平衡性就沒有代表性，歷史語文詞典的編纂要基于平衡性的資料庫，其釋義才能準確客觀，符合歷史語言事實和語言規律的原貌，否則就會犯以偏概全的錯誤。具體的建設原則和要求如下：

（1）語篇內容要盡量保持主題類別的平衡（語域平衡）。語文詞典的編纂對義項的語域使用情況比較關注，例如“保辜”一詞是法律術語，如果法律語域的語篇數量不足，則其釋義難免偏頗，因此，建立一個庫中語篇的主題分類知識本體（Ontology）至關重要。建庫者從主題分類樹上即可觀察：哪些分支的語篇量不足，哪些葉子節點出現空位等，然后進行適當的補充。

當前的古籍分類主要依據的是“經史子集”四部法，例如“四庫全書”電子版。從保真性、還原性的原則看，這一分類是必須的。但這一傳承自古代的分類體系顆粒度比較大，相對粗疏。例如，在“四庫全書”電子版中，很多“四部”總目下只有一二個分類層次，而更多語篇的主題內容則沒有做類別標記，這直接導致定向檢索范圍過大，檢索結果過多，冗余數據影響詞典編纂的效率；另外，分類標準混雜，集部下層分類分為“楚辭”類和“別集類”，而二者的下位，一個是直接列專書，一個是按照時代標準再次分類，不同的分類標準存在于一個分類體系中，這不利于觀察平衡性。

可以適當借鑒現代圖書館分類索引使用的敘詞表、主題詞表的分類模式來建構古籍分類體系，但由于古今差別，具體內容不能照搬，如果能夠建立一個古籍主題詞知識本體，各類文獻都可以根據這一分類體系進行比附，形成語篇分類樹，即可評價各語篇所占比重，較易實現語篇內容的基本平衡。

（2）成書年代屬性要盡量保持平衡。歷史語文詞典編纂的一項基礎工作是根據提取書證的源語篇的年代屬性來確立義項的排列順序，因此資料庫中語篇的成書年代屬性是最為關鍵的影響因子；另外，歷史語文詞典一般需要列出首出書證，這也需要對語篇的年代屬性進行準確認定。缺少一個時代的資料，義項的引申義列中可能就會出現缺環，同時也無法保證例證的首見性，所以，標注語篇的年代屬性對于古籍資料庫建設尤為重要。要根據年代屬性進行語篇類聚，衡量哪些年代的古籍資料會有所缺欠，然后積極開展搜集、文本化等工作，對其進行完善。

古籍資料庫年代屬性的確定不同于現代語篇，這要求做好兩方面工作：

第一，在浩瀚的古籍資料中，古籍的偽造、損毀、亡佚等現象都會直接影響到成書年代的確定，所以文獻資料索引入庫前，一定要仔細鑒偽。可結合已有《四庫總目提要》、各種藏書索引等資料對成書年代進行考證，做到資料庫中的每一古籍語篇的成書年代都有確考，還要將時代屬性落實到具體朝代年號上，并換算成具體的公元紀年。

第二，對古籍的內容文本的時代屬性進行鑒別。這主要是針對一些類書、政書、資料長編等輯佚類古籍，其中輯錄的文本本身就是泛時性的，并非都是一個時代，如果根據類書的成書年代來判斷文本或書證的年代，只能是貽笑大方。另外，還要關注訓釋類文本的時代屬性鑒別。原文和注釋的作者并非同一時代的人，所以成文年代不同，但在語篇中，它們卻是共現的，提取書證時極易出錯。很多已有資料庫已經關注到訓釋類語篇的特點，將原文和注文用大小字或單雙行排版的方式進行區分并分別檢索，如果能進一步標記原文與一度訓釋、再度訓釋材料的時代屬性，效果更好。如果無法對語篇內泛時文本進行全面的時間屬性標注，一定要對這種類型的古籍語篇設置提醒標記，以防止國學基礎薄弱者將文本年代屬性與成書年代相等同，從而誤用語料導致詞典內容錯誤。

做好這兩方面工作，還有助于完善資料庫檢索功能。根據年代屬性測查是每個歷史性語文詞典編纂者使用最多的基礎檢索，但現在的資料庫大多沒有提供這一功能。

（3）語篇典型性要盡量保持平衡。當前已有的資料庫大多崇尚收錄經典文獻，甚至追求經典版本，有的資料庫將所有能夠找到的版本都進行錄入，因而產生資料同質化、相似性過高的問題，這將古籍資料庫的建設囿于文獻學研究的范圍。

詞典編纂對資料庫的要求是詞義的使用語境要有豐富的類型，詞匯語用特征要有多樣性，經典文獻并不都能全面準確地反映當時的主流語言現象，一些非經典文獻可能對當時的語言事實和重要規律反映得更加明顯。因此詞典編纂要求的資料必須是全面的，要將經典文獻與非經典文獻、主流文獻與非主流文獻的收錄按照一定的比例初步平衡起來。

可以根據文獻的影響面、流通度、知曉度、重要性等因素建立一個評價標注體系，最好等級化和參數化，這樣可以允許用戶根據語篇重要性的閾值設置檢索參數，進行對比檢索，以保證被釋詞的義域的廣度、釋義的豐度以及例證的代表性。

（4）語體色彩要盡量保持平衡。很多資料庫排斥古白話作品，認為其不登大雅之堂，這種做法是不可取的。

歷史語文詞典側重描寫歷史詞匯歷時發展演變或歷史上某一時期的詞匯情況，觀察和描寫的范圍應該包括所有的詞匯，文言詞（雅言）、口語詞、方言詞、語法功能詞等類型都應按照一定的收詞標準進行適當收錄，這是詞典收詞平衡性的體現，這就要求使用這些詞的古籍文本不能在資料庫中失衡。如果只收錄經典文言作品，由于其以模仿上古語體風格為榮（如唐朝的古文運動文風、乾嘉學派文風、清朝桐城派文風莫不如此），文言詞居多，與當時的共時語言現象疏離，如果僅依靠文言語體風格的文本，歷史詞典就無法準確、客觀地反映出詞義的全面發展狀況。

（5）難易度要盡量保持平衡。詞匯學中測量現代語篇傳播度和難易度的常用方法是詞匯密度法。語篇的詞匯密度是通過一個語篇或語句中實詞數量占整個語篇或語句總單詞數的百分比來表示，［1］如果比值高，說明其所含信息豐富，如果比值低，則信息量較低。一般信息密度高的文本較難解，而信息密度低的較易懂。現代文本中，科技語篇的詞匯密度是最高的，而日常交際口語語篇的詞匯密度則最低。

仿照這種方法，也可對資料庫語篇的難易度進行測查并標記。由于古代漢語中很多字、詞有同形同體的特點，所以可用每個古代語篇所用的生僻字字數除以全文總字數的比值來標記語篇的難易度。如果僻字占比大，文字密度就高，文章難解度就高，使用面就比較窄；而生僻字占比少，文字密度小，則較易解讀，流通面也就相對廣泛。

詞典編纂需要的資料庫要求難易度平衡，也就是文字密度屬性平衡，這可以輔助考察詞典被釋詞在平易性文獻、中等難度文獻、高難度文獻的分布度，提供更多的詞匯信息。例如一個詞在難度高的文獻中分布度過高，說明這個詞的文雅度比較高，一般可以設為雅詞；而一個詞在平易性文獻中分布度高，說明此詞可能更為通用，有可能是當時的基本詞匯中的一員。

這項工作可利用計算機自動完成，在索引每個語篇入庫時，系統可自動提取字表，并提供字種與字頻、總字種數與總字數等方面的信息，最后計算出每個語篇的文字密度。所有的語篇進行文字密度標注后，還可以衡量古籍資料庫整體內容難易度，成為評估資料庫的一個重要的參數。

3 服務性分析

資料庫的服務不是指產品的售前或售后服務，而是功能服務。詞典編纂需要古籍資料庫能提供多樣化的定向檢索服務。大一統的檢索模式只能造成檢索結果的混亂蕪雜，給人工排檢、聚類帶來麻煩。當前資料庫大多將古籍以文本數據存儲，輔以主流的關鍵詞檢索，有些提供表達式檢索功能，但這些檢索服務同質化現象比較嚴重，也沒有關照到應用的個性需求，還需要做好定向檢索技術的開發。定向檢索技術可分為主動型檢索和自動型檢索兩種。

在檢索方面要注意三方面的開發原則和要求。

3.1 滿足主動性檢索服務需求與立體語篇特征標注法

主動型檢索由用戶主導，按自己感興趣的關鍵詞檢索。這種檢索也是一種主動創造。因為檢索結果不是預期的，當出現大量檢索結果超出自己的預期，就將產生“發現”的喜悅。在詞典編纂中，這些檢索結果將極大地超出其原有經驗，大量的語言事實不斷豐富完善詞典編纂者的經驗，同時也使詞典的釋義信息不斷豐化。

基本的主動定向檢索服務就是關鍵詞檢索，這是資料庫提供的基本功能。有些數據庫，提供了一些可選擇的定向檢索服務，如允許用戶在指定作者、指定著作、指定分類中進行定向檢索，這是非常符合用戶需要的，能使檢索的指向更集中，檢索結果更具針對性，但能提供的定向條件太少了，這也成了當前資料庫的最大應用“短板”。

衡量一個資料庫檢索服務的水平，很重要的標準是其定向檢索條件的多樣性，這需要建立語篇屬性的多維度、多角度、多特征的立體標記法。

多維度主要指的是用戶維度。要建立多用戶觀念，分清文獻研究用戶、古代文學研究用戶、古代史研究用戶、漢語史研究用戶、文字學研究用戶、歷史性詞典編纂用戶等，這樣可以保證一庫多用，在增強資料庫用戶群的適用面的同時，又不影響其服務的針對性。維度在檢索時可由用戶自主選擇，而各維度中和用戶無關的角度和屬性標記則忽略不計，這樣可以實現檢索的精確化。

每個用戶還可根據需要，設定語篇標注角度和具體的語篇屬性特征群，如語篇載體角度，要建好語篇名、內容的主題分類、文體類型、版本、總字數、字種數、難易度與文字密度、語體風格屬性、文獻典型性等特征群；時間角度要建好成書年代、朝代及年號、公元紀年、文本內容年代屬性等特征群；作者角度要建好作者名、作者時代、性別、籍貫等特征群……這些屬性特征要以關鍵詞的形式確定，最后形成關鍵詞表。有了詞表，就能初步體現主動型檢索的定制性和多樣性的特點。例如根據基于內容主題分類標記就可以類聚同語域文獻，如選擇“立法文獻”，則《法經》《唐律疏議》《宋刑統》《通制條格》《大明律》《大清律例》等材料就會自動類聚成一個小型立法法律資料庫；選擇“司法文獻”，則《龍筋鳳髓判》《棠陰比事》《折獄龜鑒》等材料就會自動類聚成一個古代司法資料庫，為歷史語文詞典中的法律百科詞的編纂提供了幫助。

有了語篇屬性的立體標記群，還可進行跨類系聯檢索。例如查找“凌遲”一詞時，除了在前面所說的法律文獻子庫中進行查詢，也可自動跨庫系聯二十四史中的“刑法志”、類書《文苑英華》中的判詞等材料進行擴展測查，提供這些法律詞語在司法語境中的使用情況。目前，“北大法寶”［2］最新的技術就是開發了法規條文和相關案例、裁判文書、法學文獻等信息之間的關聯功能，不僅能直接查找到目標關鍵詞，還可鏈接與此相關的其他法律、法規、司法解釋、案例、裁判文書、法律釋義、實務指南和法學論文，能快速、全面、準確地提供使用者所需要的相關法律知識。但在古籍數字資料庫中，這種自動的跨類檢索還沒有做過探索和嘗試。

另外，有了多維度的特征標注集，還可以實現自由的組合檢索，不同的組合檢索將產生不同的檢索結果，從而以材料的獨特發現保證詞典內容的新穎性，這樣編纂出來的詞典與同類詞典相比創新性更為突出，更具競爭優勢。

3.2 滿足自動型檢索需求與語義聯想

主動檢索是檢索的主要方式，但畢竟是有目的的檢索，需要用戶有充足的預備知識，而且有既定思路。這一思路有時會因檢索者知識儲備的不足或盲區，遺漏一些重要的語言事實和語言現象，自動型檢索可很好地彌補這一缺陷。

詞語在一種語言中都是處于一個復雜的語義網絡中，詞和詞之間通過類義、同義、反義等最多達幾十種語義關系進行復雜的線性和非線性聯系。近些年已經建立了很多大型的“語義網”知識庫，如詞網、知網等。基于語義網的檢索在詞典編纂中尤其重要。

詞典編纂是一個系統工程，詞條的釋義并非是個體獨立的，詞和詞義都處于一個復雜的網絡中，任何一個人都不可能憑個人力量掌握所有的已有詞匯信息。而有了語義網，就可以對海量文本數據進行自動的知識挖掘和數據挖掘，將與搜索關鍵詞有語義關系的其他詞的用例全部類聚出來，從而使檢索擁有了“語義聯想”的功能。這一自動型聯想機制所形成的擴展檢索不是由用戶控制的，而是由計算機自動提供的，既可為用戶提供重要的二次檢索的線索，也可為用戶提供大量知識儲備以外的檢索線索，從而彌補用戶知識面的不足。如果與主動檢索的方式相結合，效果更好。

對于古籍資料庫，建立這樣的語義網絡是有基礎的，因為現在已經有大量的紙媒知識庫，如人名詞典、地名詞典、職官名詞典、文化詞典以及雅書等類型資料匯編和辭書，如果能用現代知識本體理念整合這些已有的歷史語言知識工程，建立一個全面的、層次清晰的古代詞匯語義網是可能實現的。誰先擁有這樣一個知識工程，誰將領導下一代古籍數字資料庫的發展方向，同時對詞典編纂者的吸引力也就最大。

目前，李鐸在這方面做了一些研究，［3］如在《資治通鑒》中，結合擴充的正史、墓志、地方志、家譜、年譜、筆記等文獻，可以要求計算機自動報告唐代皇族世系關系，生成一個以李淵為根的一個大型樹狀結構，不僅如此，再由母系“戚”的關系聯絡到李氏以外的人物，一個唐代社會結構圖也會由此而產生。這一研究為服務于詞典編纂的古籍數字資料庫的建設提供了借鑒的樣板。

3.3 滿足全面的輔助檢索需求——以生僻詞和常用詞的檢索為例

主動型和自動型檢索可以稱為用戶的主檢索行為，要提高一個古籍語料庫對詞典編纂的服務水平，還要設計全面的輔助檢索功能。例如，歷史語文詞典收詞包括常用詞和偏僻詞，這兩種詞的處理對資料庫的檢索功能的要求是不同的。

在資料庫中檢索生僻詞時，結果不會太多，處理起來較容易。但要保證兩方面目標的實現：

第一，查全率。即資料要全，詞典所收錄的生僻詞盡量都能在資料庫中檢索到用例。

第二，查準率。古漢語字、詞多同形，生僻詞在文字層面很多時候指的是生僻字，生僻字的最大特點是異體字多，與其他字之間的“通”“同”等字際關系比較復雜，所以常出現查錯現象。為此，我們曾經做過專門的研究。［4］很多資料庫在檢索時都建好了字際關系整理表，查找一個關鍵字時，其異體關系也都在檢索范圍之內，這是一個很好的解決思路。

但字際關系是很復雜的，現在的系聯工作還不夠全面和細致。其中有一點至關重要，那就是一個字往往是多音、多義、多用字，而字際關系往往發生在某一個具體的義項上，所以系聯時不能簡單化地以詞位來對應，而應該落實到詞項，即以音帶義，以義定用，嚴格按照這一原則建立一個字際關系網絡，對于提高古籍檢索的查準率和查全率都有裨益。為實現這一目標，我們正在研制基于Unicode大字符集的“字網”。

古漢語常用詞的數目大體是固定的，幾千年來基本詞匯因其穩定性特點，詞種變化不是太大。在一個巨型資料庫中檢索常用詞，常會出現幾萬甚至幾十萬條的數據，而一般人手工處理檢索結果的數目最高閾值在2000條左右，這使常用詞語例的利用反而更困難。這種不足主要是由兩種原因造成：

第一，重復用例。例如后世古籍經常會引用前世古籍，就會產生大量重復的例句，即使不是原句的重復，固定搭配字串的重復率也非常高，所以檢索結果重復率的控制以及重復檢索結果的有效過濾一直是資料庫所要面對的重要問題。

第二，呈現方式。當前資料庫檢索結果的呈現方式一般是采用篇目呈現，而不是例句。使用檢索結果時需要逐一打開才能看到例句及其上下文，這種呈現方式當然也就無法應用“關鍵詞居中”技術。另外，這種顯示方式整體性差，無法對檢索結果產生直觀的印象，而詞典編纂有時特別倚重語感，語感往往就是由這些直觀印象觸發的。

可有針對性地采用以下措施對檢索結果進行限制：

第一，過濾重復結果。如果古籍文獻有句讀，可以順利地過濾掉完全重復的例句，如果沒有句讀，根據古文獻短句多的特點，將檢索跨距設置為5—8個字符（5字串以下詞匯單位所占比例較大），然后類聚相同的詞匯串，最后過濾重復的詞匯串用例。

第二，抽樣提取。如果檢索結果數量過大，用戶可設定例句提取的間隔行，如每n行提取一條例句，這樣雖可能有遺漏，但便于詞典編纂者總體了解一個常用詞的大體使用情況，根據一些抽樣出來的線索，再進行二次定向檢索。

第三，二次檢索。可根據語篇屬性的立體特征群對海量檢索結果進行二次檢索。二次檢索常用到組合檢索方式。詞典編纂者大多是文科出身，所以最好將多特征組合檢索所要用的表達式直觀化，設置好窗口界面的編程控件，讓用戶通過簡單的點擊操作就可完成合取、析取、排除檢索、跨距等方面的設置。

第四，檢索結果以例句的形式顯示。例句及其前后語境是詞典編纂的第一關注點，一屏顯示多個例句并減少操作步驟，這本身也是約束常用詞過多檢索結果的便捷處理方式。

綜上所述，我們提出了圖書館古籍數字資料庫服務于語文詞典編纂的建設方向，即內容方面要滿足五個方面的平衡性要求，服務方面要滿足主動檢索、自動檢索、輔助檢索的功能需要。圍繞這一建設方向進行圖書館古籍數字資料庫的開發和應用，才能形成開發者和用戶多贏的局面。同時這八方面的要求也會成為評價圖書館古籍數字資料庫質量的重要參數或參考標準。

［1］ Eggins Suzanne.An Introduction to Systemic Functional Linguistics［M］.London：Pinter，1994：61.

［2］“北大法寶——中國法律檢索系統”能幫我們做什么［EB/OL］.［2010－11－23］.http://www.chinalaw info.com/bdfb/Lib_02.asp.

［3］李鐸.從檢索到分析——計算機知識服務的時代［J］.文學遺產，2009（1）：135－137.

［4］王東海.古文獻數字語料庫的異形字處理［J］.語言文字應用，2005（4）：116－120.