王詠梅,高 宇,任書俊,劉新宇,馬巍巍,鄧 勇,宋 莉
(1.合肥師范學院 計算機與人工智能學院,安徽 合肥 230601;2.安徽中醫藥大學 圖書館,安徽 合肥 230038)
書目提要是文獻的重要信息。提要又稱為“解題”,日本文獻學家小見山壽海曾言:“解題是一書比較詳細的記載,也就是對每一種圖書的品題解說?!盵1]梁啟超曾言:“載籍浩博絕非一人之力所能盡藏、所能盡讀。瀏覽諸錄,可以知古人著作之大凡。有題解者,讀其解題,雖未睹其原書,亦可知梗概?!盵2]“提要”不僅為讀書人指引治學門徑,也為“辨章學術,考鏡源流”提供了巨大的幫助,能夠達到讓讀者未目睹其原書也可知梗概的目的,提要的有無與好壞直接關系著文獻的質量與價值[3]。中醫藥古籍除了具有一般古籍的特點外還有著極強的專業價值,通?;逎y懂,因而,中醫藥古籍書目提要信息數字化建設對深入研究中醫藥古籍歷史和學術價值有著重要意義。
國內已建好的書目提要數據庫普遍存在以下問題:
一是書名著錄規則不統一,導致以題名途徑檢索時容易出現偏差。很多古籍在封面、版心、內封、書衣、書根等處都可能會有書名,而且名字往往不同,因而在著錄時會因所取題名位置不同而產生較大差異,導致以題名途徑檢索時出現差錯。二是分類法不統一,導致數據庫共享困難。在古籍文獻分類方面,現有的書目數據庫采用的分類法普遍不一,常見的有“四部法”“四庫法”“中圖法”“人大法”和“種次序號”等,分類方法的不統一導致古籍書目數據庫難以共享[4-6]。三是主題標引欠缺?,F有的《漢語主題詞表》不能滿足中醫藥古籍主題內容的要求,其主題標引差異明顯。四是子目無法檢索。中醫藥古籍,尤其是合訂本古籍,都包含有很多子目,目前大部分書目數據庫都未能實現子目檢索。五是無法提供不同版本在不同單位的收藏線索。同一種古籍,在千百年的流傳過程中形成了不同的版本,這些版本的使用價值和文物價值均不同,不同讀者的使用要求也不同。同一種書的不同版本可能分散在不同的收藏單位,各收藏單位多以自己收藏的版本創建書目數據庫,無法有效地為讀者提供不同版本在不同收藏單位的線索。六是目前在用的中醫藥古籍書目數據庫基本不提供提要信息[4]。
國內中醫藥古籍主要集中在中醫藥院校、科研機構及其圖書館,收藏機構多建有書目數據庫。如北京中醫藥大學的“中醫藥古籍書目數據庫”、天津中醫藥大學的“中醫古籍珍善本圖書目錄”、上海中醫藥大學圖書館的“中醫古籍善本書目提要”等[7]。安徽中醫藥古籍在省外的收藏信息,散落在這些數據庫中。由于各數據庫標準不統一,揭示文獻的深度和廣度也不一樣,要查找安徽中醫藥古籍的收藏情況,只能分別查找各館的書目數據庫,效率十分低下。
安徽省內有五家古籍收藏單位建立了古籍書目數據庫,收藏安徽中醫藥古籍較多的兩個單位分別是安徽中醫藥大學圖書館和安徽省圖書館[8]。安徽中醫藥大學圖書館的館藏安徽中醫藥古籍與其他古籍、普通文獻按照統一標準建在一個數據庫內。安徽省圖書館則把安徽中醫藥古籍相關的書目分建在“安徽省歷代皖人書目數據庫”[9]、“安徽省善本書目數據庫”[10]和“普通古籍書目數據庫”[11]中。用戶檢索時不能進行跨庫檢索,降低了檢索效率。同時,安徽中醫藥古籍流落海外的部分較少而且地域分散,目前國內外均沒有專門的安徽中醫藥古籍書目提要數據庫。由于安徽中醫藥古籍一方面具有自身的專業特色,另一方面又肩負著一部分徽文化傳承的重任,因而創建專門的安徽中醫藥古籍書目提要數據庫有重要意義。
書目提要信息數字化,是指利用現有的科學技術把中醫藥古籍編目紙質信息轉化為可在計算機中存儲和傳播的資源的過程。考慮到共享與交換,書目提要必須規范化。我國目前唯一機讀目錄格式CNMARC是在UNIMARC基礎上修訂的,是針對現代文獻研發的,對古籍文獻并不適用。為了在計算機中合理規范地描述中醫藥古籍書目提要信息,本文使用制定元數據規范的方式來描述古籍文獻信息。與古籍有關的元數據相關標準有《專門元數據設計指南》《專門數字對象描述元數據》《古籍元數據規范》《基本元數據著錄規則》和《都柏林核心元數據集》(DC)[12]等。其中DC定義了Web資源通用的核心標準,包含了15個描述資源對象的核心元素,是國際上通用的元數據解決方案,已成為Internet的正式標準和美國國家信息標準。其他元數據標準基本都兼容DC并在其基礎上進行了擴展?!秾iT元數據設計指南》復用了DC中15個核心元素并提出了復用原則,指出了元數據規范的基本組成元素和擴展原則。《古籍元數據規范》由科技部重大項目“我國數字圖書館標準規范建設”提出,用于規范地描述古籍的內容和外觀特征。本文提出的元數據規范從著錄者、使用者、著錄對象三方面入手,充分考慮前兩者的需求和著錄對象的特性并加以平衡,遵循《專門元數據設計指南》的設計原則,以DC和《中華人民共和國文化行業標準·古籍元數據規范》(WH/T66-2014)為基礎,在采集樣本的基礎上針對安徽中醫藥古籍書目提要的特點設計而成。樣本取自《安徽中醫古籍總目提要》和《中國中醫古籍總目》。元數據規范schema結構如圖1所示,該元數據規范在滿足著錄者錄入中醫藥古籍書目信息要求的基礎上,涵蓋了資源的重要檢索點,不僅可以滿足使用者的要求,其中的數據項還可以作為信息抽取依據,滿足安徽中醫藥古籍款目的信息存儲要求。

圖1 安徽中醫藥古籍元數據規范結構示意圖
信息抽取簡稱IE(information extraction),即從自然語言文本中抽取出特定的事件或事實信息,以便將海量內容進行分類、提取和重構。安徽中醫藥古籍信息抽取的目標是將紙質書目提要信息抽取出來,形成符合圖1的半結構化數據。信息抽取可以通過基于規則和基于統計的兩種方法實現[13]。以《安徽中醫古籍總目提要》中的基本款目《傷寒類證便覽》為例(圖2)[14],可以將文本內容歸納為:正題名、卷數、附錄附注、別名、主要責任者、其他責任者、責任者附注、出版時間、成書附注、內容提要、版本附注、版本及收藏單位。由以上款目可以看出,《安徽中醫古籍總目提要》構成相對簡單,相關詞有限,有明顯的規律性,更適合采用基于規則的方法對書目提要進行信息抽取。由于正則表達式對于字符串匹配的功能強大,得到大多數編程語言支持,安徽中醫藥古籍書目的抽取規則可以采用正則表達式來描述。

圖2 傷寒類證便覽款目
將抽取的記錄信息放入XML文檔中,形成描述安徽中醫藥古籍書目提要的XML文檔。為了保證XML文檔的有效性,先要根據圖1中元數據規范設置文檔數據模式定義。XML的數據模式可以通過DTD或者XML Schema的形式定義,由于DTD是XML標準的一部分且較成熟,本文使用DTD定義安徽中醫藥古籍書目提要的款目信息。DTD的模式管理機制包括DTD_DocType、DTD_Element、DTD_Attribute、DTD_ElementScope四部分,安徽中醫藥古籍書目提要信息的DTD定義如圖3所示。

圖3 安徽中醫藥古籍書目提要信息的DTD
DTD規定了安徽中醫藥古籍書目提要信息XML文檔中使用的標記、父元素包含的子元素、各子元素的出現順序及各元素包含的屬性等?;谠撃0?以《傷寒類證便覽》為例,可以得出描述安徽中醫藥古籍書目提要的XML文檔(圖4)。編程人員可以根據DTD了解XML的邏輯結構,并編寫相應的應用程序。

圖4 安徽中醫藥古籍書目提要的XML文檔
文檔對象模型(Document Object Model,DOM)是W3C推薦的用來管理XML文檔信息或數據的模型,它采用樹型數據結構表示XML數據,基于DOM查詢的實現方法相當于對DOM結構樹的遍歷。XML DOM 定義了所有XML元素的對象、屬性以及訪問方法(接口),這些接口以Document、Processing Instruction、Element、Attribute等類型的形式出現。DOM對XML文檔的訪問以結點訪問為基礎,從XML數據樹型結構的根結點開始,每一個下層元素都作為處理節點。安徽中醫藥古籍書目提要信息XML文檔對應的DOM結構樹如圖5所示。

圖5 安徽中醫藥古籍DOM結構樹
安徽中醫藥古籍書目提要信息數字化后,利用DOM編寫服務器端腳本程序,可以實現在客戶端遠程添加、修改或查詢服務器端XML文檔的數據,從而實現XML文檔的在線交互。由于DOM是一種與平臺和語言無關的應用程序編程接口,其對于各種語言展現的都是統一的對象、屬性、方法和事件,因而可以使用各種計算機語言和解決方案編寫服務器端腳本。例如,可以使用JavaScript創建XML DOM對象實例TCMAbook.xml文檔,加載書目提要信息:
Var xmldoc=new ActiveXobject(“MSXML.DOMDocument”);
xmldoc.async=”false”;
xmldoc.load(“TCMAbook.xml”);
創建安徽中醫藥古籍書目提要信息對象實例后,可以利用ASP編程通過該實例創建、遍歷XML文檔,添加、修改、查詢XML數據等,實現對XML數據的存儲和管理,工作過程如圖6。

圖6 DOM方式工作過程
基于XML的數據庫系統分為NXD(Native XML Database)和XEDB(XML Enable Database)兩類。NXD是以XML文檔為基礎的數據庫管理系統,XEDB則是在傳統的RDBMS中增加了支持XML技術的功能,需要結構映射或者模型映射才能允許傳統數據庫訪問XML。在安徽中醫藥古籍書目提要信息的存儲方面,由于需要保存中醫藥古籍的層次型結構信息,同時,針對書目提要信息數據庫的操作主要是查詢和存儲,而對數據進行修改更新的需求較少。因此,可以選擇專門為處理XML數據設計的NXD系統,如eXist、BaseX等。
XML是用于新一代網絡數據表示、傳遞和交換的標準。用XML可以清楚地描述和儲存中醫藥古籍書目提要的層次型結構特征,解決目前CNMARC格式對古籍文獻并不適用的問題。引入XML處理機制DOM,可以利用ASP編程,實現XML文檔的在線交互,在不同應用平臺之間傳遞和共享數據。利用XML數據庫技術,構建安徽中醫藥古籍書目信息資源管理系統,對半結構化的中醫藥古籍書目信息進行管理并提供檢索,在有效解決現有古籍書目數據庫問題的基礎上,實現安徽中醫藥古籍書目提要信息的數字化。