梁琳
摘 要:文章闡述了古籍數字化的涵義、分類、發展現狀,介紹了古籍書目數據庫的建立,指出了古籍數字化工作的重要性和其面臨的問題。
關鍵詞:古籍數字化 發展 歷程 現狀 問題
中文古籍數字化起始于20世紀70年代末80年代初,至今已走過了30年的歷程。古籍數字化將中國最古老的文獻與世界最先進的數字化技術完美地結合在一起,蘊載著中華數千年之文明,彰顯著現代信息技術之優勢,成為互聯網時代中華文化展現和傳播的一道亮麗風景。
一、古籍的涵義
古籍是指辛亥革命(公元1911年)之前歷朝的寫本、刻本、稿本、活字本、石印本、鉛印本、拓本等等。辛亥革命以后影印的線裝古籍(如《四部備要》、《四部叢刊》)都屬于古籍。古籍可以分為普通古籍和善本古籍,善本古籍更為珍貴。
二、古籍數字化的理論
(一)古籍數字化的涵義
古籍數字化,是指利用現代信息技術對古籍文獻進行加工處理,使其轉化為電子數據形式,通過光盤、網絡等一切虛擬介質保存和傳播。數字化是古籍再生性保護的重要手段,代表著古籍整理的未來發展方向。
(二)古籍數字化的分類
我國古籍數字化經歷了數據庫版、光盤版、網絡版三個建設階段。數據庫版古籍包括書目數據庫和全文數據庫兩種形式。光盤版古籍一般有圖像版、全文版和圖文版三種類型。網絡版古籍主要是將數字化的古籍資源在網絡上有償或無償發布,供互聯網用戶使用,這是目前古籍數字化的主要目標。
古籍數字化是對古籍或古籍內容的再現和加工,屬于古籍整理的范疇,是古籍整理的一部分。
三、古籍數字化的發展現狀
隨著數字圖書館的發展,網絡的普及,越來越多的讀者習慣于使用電子版的資料庫以及網絡上的信息資源。古籍的數字化最早是從計算機技術發達的美國開始的。我國古籍數字化始于20世紀80年代,但是研究和成果較少。直至進入90年代以后,隨著我國計算機的普及網絡技術的介入,才有了古籍數字化的雛形。90年代中期以后,國家圖書館制訂了一個龐大的古籍特藏文獻數字化計劃,如碑砧菁華、西夏碎金、敦煌遺珍、數字方志、中華再造善本、永樂大典等。
古籍數字化是保護與傳承珍貴古籍的重要手段之一,通過拍照掃描等現代技術將古籍以數字方式加以再現??梢哉鎸崱⑶逦姆从吵龉偶?,并借助互聯網等媒介提供大眾使用。江蘇科學院的專家首次研制出的《紅樓夢》檢索系統翻開了我國古籍數字化的新一頁。國家古籍整理出版規劃領導小組制定了《中國古籍整理出版十年規劃和“八五”計劃》,其中確定的任務之一就是擴大整理典籍輸入微機工作的試點工作,最好做出能夠發型的古籍電子版。20世紀末,文淵閣《四庫全書》電子版的出現標志著我國古籍數字化進入了一個新的階段。經過幾十年的探索與開發,古籍數字化的規模得以擴展,最具代表性的有《四部叢刊》電子版、《康熙字典》電子版、《古籍圖書集成》電子版、《史記》全文檢索系統、文淵閣的《四庫全書》電子版等等不勝枚舉。
四、古籍書目數據庫建立
(一)古籍書目數據庫。我國最早建立古籍書目數據庫的有國家圖書館、遼寧圖書館、南京圖書館等。目前,擁有古籍館藏的機構大部分都建立了古籍書目數據庫,提供古籍的收藏信息和版本情況。至少有幾十個公共圖書館網站能夠提供古籍書目檢索。如:南京圖書館的古籍書目數據庫,收錄范圍古籍線裝書,數據量有十幾萬條;大連圖書館的善本數據庫,數據量一千余條等;這些數據庫方便廣大讀者和研究學者對古籍典藏的應用。
(二)古籍聯合目錄數據庫。聯合目錄(union catalogue)是指一種聯合兩所以上圖書館館藏目錄的數據庫。使用者從單一窗口網站來檢索國內多所圖書館的館藏,其能提供給使用者知道哪個圖書館有收藏他所需要的館藏資訊。古籍館藏書目數據庫只反映了某一圖書館的古籍特藏情況,無法全面系統地反映某一地區的古籍收藏狀況。我國開始嘗試著建立古籍聯合目錄數據庫,解決古籍資源的共建共享問題。如:1989年東北三省近60家圖書館聯合編撰的《東北地區古籍線裝書聯合目錄》、1998年武漢華中理工大學出版社出版的《中南、西南地區省市圖書館館藏古籍稿本提要(附抄本聯合目錄)》、1985年中華書局出版的《中國地方志聯合目錄》,著錄中國各省、市、自治區的公共、科研單位、大專院校圖書館、博物館、歷史館、檔案館等190個單位所收藏的自南朝宋至1949年的方志8200余種。1994年四川大學出版的《四川省高校圖書館古籍善本聯合目錄》。
現代信息技術的發展為聯合編目的實現提供了強大的技術支持。我國及海外一些收藏機構為此做出了積極的努力,開始了實現聯合編目的歷程?,F主要的古籍聯合編目項目有:中國古籍善本書目聯合導航系統(http://202.96.31.45)、全國高等教育文獻保障系統(CALIS)的古籍聯合目錄數據庫(http://opac.calis.edu.cn/)等等。
(三)古籍全文數據庫。古籍全文數據庫指對古籍的全文進行數字化處理,直接為用戶提供古籍的全文閱讀或全文檢索等服務。由于全文檢索的實現,極大地提高了查全率。古籍全文檢索數據庫幾乎涉及中國古籍的各種類型,包括史書系列、編年體史書系列、文學古籍系列、宗教等各個方面。
1998年上海人民出版社與香港迪志文化出版有限公司以及書同文公司共同合作開發了文淵閣《四庫全書》電子版。北京大學劉俊文教授組織編纂的中國基本古籍庫光盤系統,收集了上起先秦,下迄民國,共薈萃重要典籍1萬余種,每種典籍有一個通行版本的全文信息,另附1—2個珍貴版本的圖像資料,總計20億字,版本圖像2000萬頁。所收書籍涵蓋全部中國歷史與文化,其內容總量相當于3部《四庫全書》。截止 2004 年底,網上可見的中文古籍數據庫約70多個。北京大學主持的 CALIS 項目及南京大學圖書館 CANAL項目古籍子項目已取得階段性成果。endprint
五、古籍數字化工作
古籍數字化工作是一項系統化工程,技術含量較高,涉及多學科知識。古籍數字化主要應用于古籍整理與學術研究、古籍保護與傳承等方面。古籍數字化的兩大關鍵要素是古籍和數字化。古籍是數字化的對象,是數字化工作的核心內容,而數字化是技術手段,是古籍內容的表現形式。在整個數字化過程中,古籍內容專家負責古籍的遴選、鑒定與整理,完成古籍數字化版本鑒別和古籍內容校勘。計算機和數字化技術專家通過信息處理技術,將古籍內容付諸實踐,經過內容轉化,開發數字產品。因此,在古籍數字化工作中,古籍內容專家和技術專家缺一不可,二者相互協調和配合,才能將古籍文獻通過數字形式展現出來。
古籍數字化的另一個重點工作是古籍數字化標準和規范。由于古籍文獻的復雜性,比如文獻版本的選擇,古籍的分類,古籍的用字等,數字化工作將用到統一的數字資源描述,數據格式編碼等一系列標準規范。數字化建設者應立足于古籍保存、內容服務的長遠規劃,建設標準體系,有利于古籍數字化工作的可持續發展。從2008年開始,國家圖書館數字圖書館工程進行研制符合現實要求又具備前瞻性的標準規范,包括字符編碼、古籍用字規范、生僻字與避諱字處理規范、專門元數據規范、對象數據加工標準、管理元數據規范、數字資源長期保存規范等20余個標準規范。標準規范項目的研制成果在實踐中有效地指導古籍數字資源的建設和應用系統的研制開發,進一步提高古籍數字化建設水平,促進古籍數字資源建設與服務的共建共享。
六、古籍數字化建設面臨的主要問題
古籍數字化工作從最初的摸索嘗試、零星制作到當前的規模開發,己經取得令人矚目的成就,一批基礎性的古籍文獻被開發為真正意義上的數字化產品,并成功走向市場。雖然如今古籍數字化正欣欣向榮發展,但是發展中遇到的新問題也需要我們重視并加以解決。
我國的古籍數字化雖然取得了一定的成績,但問題仍然凸顯,還存在著一些問題有待解決,主要表現在:
(一)缺乏統一規劃,重復建設嚴重。古籍數字化尚處在發展的初級階段,我國古籍數量龐大,且分散收藏各地。從全國古籍數字化工作來看,基本處于一種缺乏宏觀管理和調控的狀態。出版界和圖書館界各方缺乏合作,從而造成古籍數字化產品的重復建設和質量、內容格式等方面的標準不統一。一些機構會首選讀者需求量高、社會影響巨大、經濟效益明顯的產品,造成了古籍數字化產品的雜亂無序、重復投入。如文淵閣《四庫全書》就先后有3家制作單位對其進行過影像的數字化出版,電子版的《二十五史》也有不下4種。這造成資源的重復開發,浪費了巨大的人力、物力和財力。文淵閣《四庫全書》至少已有三家進行過影像的數字化(上海人民出版社與迪志文化出版有限公司的光盤版,武漢大學出版社的光盤版,“中美百萬冊書數字圖書館”的網絡版等)。
(二)缺乏統一標準,阻礙資源共享。由于信息技術的快速發展和商業機構發展利益的需要,古籍數字化對象數據格式在選擇上也面臨繁多和復雜的局面,這其中有國際標準、事實標準,也有商業標準。
古籍著錄大部分采用繁體字著錄,但也有采用簡體字著錄的。由于選擇字庫不同,使得數據的交換無法直接進行,而只能通過專門的軟件作為中介,進行格式和文字的統一。由于著錄標準上的差異,今后即便能將這些數據匯入統一的數據庫進行檢索或跨庫檢索,也會給讀者的使用帶來諸多不便,導致無法真正實現國家乃至世界范圍內的資源共享。
(三)缺乏經費支撐,區域發展不均。近年來包括國家圖書館、上海圖書館、北京大學圖書館、浙江大學CADAL管理中心等在內的古籍收藏機構已啟動了一批古籍數字化工程項目,憑借資金、資源、人才上的優勢,各自取得了十分顯著的成果。但大多數圖書館由于經費匱乏、技術力量薄弱,古籍數字化工作仍然比較落后,一般還停留在圖書掃描、部分普通書目數據庫建設等簡單數字化階段,還有一些公共圖書館這方面的工作至今尚未啟動。
(四)無統一發布平臺,不利用戶查詢。由于古籍數字化成果沒有統一的發布平臺,各單位、各系統按照自己的規則發布,存在光盤版、網絡版、局域網發布等多種方式,其中局域網發布又占了很大比例,因此雖然已有大量古籍數字化產品,但讀者能夠看到的卻不多。從國家古籍保護中心對全國圖書館進行的調研中發現,古籍書目數據庫大部分對外開放,而絕大部分圖書館的全文影像數字化產品只提供在館閱覽,不提供互聯網服務,用戶利用非常不便。
上述問題的存在,嚴重阻礙和制約了古籍數字化工作的深入開展。古籍數字化工作迫切需要統一規劃,統一標準,合作共建,資源共享。五千年的存世古籍,肩負著厚重的中華文明,凝聚著民族智慧,是祖先留給我們的一筆龐大的精神遺產,傳承文明是時代賦予我們每一個古籍工作者義不容辭的責任,古籍數字化任道重遠。
參考文獻:
[1]王桂平.我國古籍數字化的現狀及展望.圖書情報知識,2000年第4期
[2]陳秉仁.古籍善本數字化的嘗試.現代圖書情報技術,1998年第1期
[3]潘德利.中文古籍數字化進程和展望. 圖書情報工作,2002年第7期
[4]錢律進.我國古籍數字化發展策略探析. 中國科技信息.2012年第9期
[5]葉莉.對古籍數字化進程中若干問題的思考.圖書館界, 2010年4期
[6]單傳花.淺談古籍整理工作的意義及末來發展趨勢.佳木斯教育學院學報.2012第12期
[7]王玲玲.利用計算機進行古籍整理的方法分析.大眾文藝,2010年第5期
[8]梁斌. 關于古籍數字化建設的思考和建議. 重慶圖情研究. 2014年第3期endprint