,,
中醫古籍是中醫學術研究成果的載體之一,記載了數千年積累的中醫藥學理論知識以及臨床治療經驗,因此開發和利用中醫古籍具有重要意義。然而中醫古籍因書名繁雜、語言晦澀、版本眾多、分類獨特等特點,導致其不易被研究人員使用。
計算機技術及網絡技術發展迅猛,中醫古籍的數字化處理為其更高效率使用開辟了新的道路。目前我國的中醫古籍數字化建設工作的研究成果很多,但從選題控制、版本選擇、質量標準與規范、數字化技術等方面來看,仍然存在許多弊端。
我國古籍數字化工作起步于20世紀80年代。1984年,錢鐘書先生就曾提出古典文獻整理和研究應盡早與計算機聯姻[1],隨后史睿、李運富、彭江岸、毛建軍等學者從不同角度對古籍數字化的性質、要素、特征等進行了深入研究。國內專家針對中醫古籍的特殊性對其數字化工作模式進行了探討[2],如吉聰指出要以善本古籍作為工作重點,分析比較了“全文版”和“圖像版”兩種錄入方式;柳長華通過分析古文獻中的信息,對若干語句進行知識結構和語義分析,提出“知識元”的概念; 裴麗對中醫古文獻中的書名、文字信息障礙進行分析,通過解析全文和逐級標引實現智能化的高級檢索,構建中醫古籍信息平臺系統;王振國分析了中醫藥古籍的信息結構,提出了一種開發方式為自底向上的信息構建方法IA[3]。此外,還有部分專家學者探討了古籍文字的處理、數據加工方式、信息平臺的構造模式以及知識發現等,但這些研究沒有達成共認,還有許多見解需要通過具體的實踐來驗證。
20世紀90年代以來,中醫古籍數字化實踐成果與日俱增,如由中國中醫藥學會、湖南電子音像出版社、嘉鴻科技開發有限公司合作編制的《中華醫典》,由北京愛如生數字化技術研究中心開發制作的《愛如生醫書集成》,由北京龍戴特信息技術有限公司開發的《龍語瀚堂中醫藥文獻數據庫》,由臺灣漢珍數位圖書股份有限公司開發制作的《本草綱目》等。這些中醫古籍大多通過大字符集錄入、OCR識別、掃描等方法實現數字化實踐,屬于表層加工。
隨著數字化工作不斷深入,出現了諸如中國中醫科學院開發的“中醫藥古文獻知識庫”、“中醫藥珍善本古籍多媒體庫”、“溫病大成數據庫”、“中醫古籍資源數據庫及閱覽系統”,北京中醫藥大學所開發的“方劑數據庫”、“中醫古籍養生數據庫”、 “消渴古代文獻數字資源庫”等中醫古籍數字化成果,這些中醫古籍知識庫通過對古籍內容進行多級標注,可基于網絡進行檢索操作或實現超文本閱讀環境。
中醫古籍始于秦漢,鼎盛于明清,其數目不勝枚舉。但是國內的研究者在選擇數字化加工對象時卻有失偏頗,熱門古籍重復建設,冷門古籍無人問津。一般出版社、IT公司等商業機構常常選擇熱門古籍進行重復建設,忽略研究院等學術科研機構的需求,完全以盈利為目的,導致資源浪費,耗費不必要的人力物力和財力。此外,中醫古籍流傳千年,后人不斷的校對、整理、翻刻,導致版本繁多。不同的版本具備不同特點與優勢,需要對每一版本的價值做出客觀評判,應盡量選擇善本作為數字化處理對象,使該種數字化古籍成果為最優。
當前國內的中醫古籍數字化產品的質量參差不齊,有一小部分數字化產品口碑較高,得到了廣大用戶好評。然而有相當一部分產品的質量不盡如人意,在質量標準和規范制定上沒有統一標準。主要原因有:中醫古籍數字化工作的認知度差,開發團隊素質較低,導致開發時沒有認清動機及終極目標,忽略了數字化工作的重要部分;對中醫古籍的版本選擇過于隨意,注釋、校點不嚴謹;部分產品對古籍數字化工作的要求停留在影印和大字符輸入初級階段,沒有考慮更高階段的逐級標引和高級檢索;開發團隊為了保護版權,隨意設定自己數字化產品的格式,導致相同或相近的古籍產品沒有統一固定格式,給讀者利用帶來諸多不便。
中醫古籍數字化初始階段的大多成果主要以單機版為主,資源有限、不能共享,極大地限制了用戶的使用。隨著網絡技術的發展,網絡版中醫古籍數字化產品應運而生,不同用戶可以在不同地點同時使用這些產品。但是大多數中醫古籍數字化成果的后臺數據庫不能升級和改造,共享性差,在建設過程中沒有考慮信息平臺未來的升級、淘汰等問題,因此需要找到適合中醫古籍數字化的最優框架和模式解決產品的擴展性問題。
中醫古籍數字化工作的意義除了保護古文獻外,主要是為了學者和專家充分揭示和利用中醫古籍,因此實用性是中醫古籍數字化建設應遵循的重要原則。若要使產品充分發揮實用性,需要考慮以下兩點:一是保真度,將中醫古籍原貌展示出來充分揭示古籍中蘊含的信息;二是版本的選擇,一般原則是以善本作為中醫古籍數字化的加工對象。
中醫古籍數字化建設是一項全國性的工作,從事這項工作的群體主要包括古籍收藏機構、學術研究機構、出版機構、IT企業等。由于各機構間的性質差異,其數字化建設的動機和目的也不盡相同。認知上的偏差必然會影響到數字化產品的策略和側重點,缺乏統一標準,容易導致資源重復建設[4-5]。因此,相關研究機構應事先進行溝通和協調,從中醫古籍數字化工作中的具體環節出發,制定出相關的評價體系和工作標準,嚴格控制不同機構在數字化建設中產生的數據垃圾,真正意義上實現中醫數字化產品資源共享。
可擴展性是評價成果優劣的重要原則。為了使其流通時間更長,范圍更廣,不被淘汰,需要從技術角度選擇一個最適用的模式進行數字化處理。
目前比較推崇的模式為B/S,其易用性好,用戶使用統一的瀏覽器入口進行閱覽;工作人員容易維護,方便數據的添加、刪減及更新;信息資源共享程度高,可多地點同時段使用某數字化產品;通過配備防火墻、網絡安全協議使數字化產品具有較高安全性;使用的TCP/IP協議,具有較高的擴展性。
平臺建設的總體思路主要參考已有的中醫古籍數字化建設成果,根據現有相關技術以及古文獻信息資料特點,將滿足用戶的不同需求作為出發點進行平臺設計。
首先,選擇適合的系統框架結構,使平臺實現兩種界面瀏覽滿足用戶基本閱讀需求,一般為古籍圖像掃描界面和文字錄入界面;其次,設定框架中的系統及子系統中各模塊,考慮各模塊中的功能設計;再次,鑒于中醫古籍數字化信息量大及平臺需要處理海量數據,平臺服務器模式應該基于B/S。此外,還需要保證平臺系統安全及數據的完整性,平臺與主流操作系統相兼容。本文以《本草經集注》為例介紹中醫古籍數字化信息平臺的建設。
4.2.1 框架及開發模式設計
《本草經集注》為南朝本草名著,其體例統一,各條藥文的格式固定,其數字化平臺的系統框架是可重復使用的設計構件。通過框架進行平臺系統和子系統的設計,提供基本模塊功能,進行實例化操作,滿足用戶需求。該系統平臺的框架為應用型框架,這種框架結構使用廣泛,注重軟件設計的重復性和系統的可擴展性,該平臺的系統框架結構設計分為用戶界面層、業務處理層和數據存貯層。這種三層結構不是指物理上的三層,而是指邏輯上的三層。
用戶界面層是用戶和管理員進入《本草經集注》系統平臺的窗口,包括類目導航、檢索服務,還提供注冊、登陸、修改資料、后臺管理、退出系統等鏈接。業務處理層是數字化系統框架體現核心價值的部分,它處于用戶界面層和數據存儲層之間,起到了數據交換承上啟下的作用,業務處理層遵循相關的業務規則來響應用戶和管理員通過界面層發出的所有請求,并在數據存儲層抓取相關數據,再將匹配的數據傳送給界面層;數據存儲層中存儲了經過整理后的所有數據,在保證數據完整性和安全性的前提下進行數據的維護,如添加、刪除、修改等操作。
4.2.2 模塊設計
系統模塊是具有一定功能的子程序,是整個程序的一部分。一個模塊可以實現單個功能,也可以實現有緊密聯系的多個功能。根據《本草經集注》數字化系統平臺的需求,我們把整個系統分為原版古籍模塊、數據庫模塊、輔助功能模塊、用戶模塊、系統管理模塊等5個模塊。其中,核心模塊為原版古籍模塊和數據庫模塊,包括《本草經集注》原書圖像以及后臺錄入古籍全部文字;輔助功能模塊是此系統的輔助模塊,主要實現使用者和設計者相互交流和類似工具書功能;系統管理模塊和用戶模塊服務于核心模塊。系統模塊設計的最大特點為多個系統管理員按照系統應用框架提供統一的數據加工平臺,可同時在不同IP地址對古籍進行數字化加工,并且保證了數字化工作規劃統一,提高了工作效率。此外,所有用戶均可從任意地點或者時間通過瀏覽器訪問該系統平臺,實現真正意義上的資源共享。
4.2.3 功能設計
《本草經集注》數字化系統平臺主界面中設計了原版及現代版古籍的瀏覽功能、檢索加工功能和輔助功能等三大功能。《本草經集注》原版圖像版的圖像均為.jpg格式,該圖片內嵌入主界面中,用戶無需返回就可以隨時應用或進入其他功能。現代版本是重新經過整理加工錄入到系統平臺中的,其文字內容與檢索加工平臺中所檢索到的相關藥文是一致的。因此將古籍現代版鏈接到檢索加工平臺中的藥文示范中,不僅節省了空間,而且簡化了系統界面,使其應用界面更加友好。檢索加工平臺是《本草經集注》整個數字化平臺的核心部分,是實現管理員的數據加工、修改、維護等功能的平臺,還是實現用戶訪問、檢索等操作的平臺。
《本草經集注》數字化平臺的輔助功能包括古漢語詞典、平臺使用幫助和論壇功能。古漢語詞典是古籍系統平臺輔助功能中的“外掛軟件”,給閱讀者掃除了基本的語言障礙,極大地方便了讀者的閱讀與研究。此外,用戶通過該模塊中的“論壇”功能,既可發表評論,也可與系統管理員或者平臺其他用戶隨時溝通,從而完善系統平臺。
中醫古籍數字化的宗旨是為了深入挖掘中醫古籍的信息價值,它不僅起到保護中醫古籍的作用,更為使用者利用古籍開辟了廣闊空間。