馮紅娟 張文靜 梁蕙瑋
(國家圖書館,北京 100081)
中文古籍資源統一檢索系統初探?
馮紅娟 張文靜 梁蕙瑋
(國家圖書館,北京 100081)
通過對古籍書目數據庫和古籍全文數據庫的調查分析、比較研究,分析目前中文古籍數據庫的建設現狀及存在的問題,提出中文古籍統一檢索系統建設的設想,并對其未來進行展望。
古籍數字化 統一檢索 共建共享
中文古籍是具有中國特色的文獻資源,對其進行數字化是圖書館的重要工作之一。所謂古籍數字化,就是從古籍利用和保護的角度出發,采用計算機、信息處理技術,對古籍文獻進行加工、處理,建設成古籍書目數據庫和古籍全文數據庫,以揭示古籍文獻信息資源的一項系統工作[1]。中文古籍數字化系統的建設既需要計算機、信息處理的技術,也需要古籍整理研究的知識和技能,是一個綜合性、跨學科的課題。
中文古籍數字化系統的建設一方面方便公眾使用古籍,研究中國古代文史;另一方面也起到了保護古籍的作用。隨著計算機技術的發展,中文古籍數字化系統的建設已初具規模,涌現出了一大批優秀的中文古籍數字化系統及數字化的古籍資源,主要分書目數據庫和全文數據庫兩種。其中,古籍書目數據庫通過對古籍進行元數據編目,可以為用戶提供書目內容的檢索查詢。古籍全文數據庫以古籍內容為揭示對象,為用戶提供全文閱讀、全文檢索等服務。由于古籍資源建設過程中還缺少統一的規劃、標準及建設規范等原因,導致資源重復建設、數據建設與系統建設水平參差不齊,難以實現共建共享及統一檢索。
筆者對現有的古籍數字化資源及系統進行調研,尤其側重于元數據及數據檢索系統部分,并選取其中較具代表性的建設案例進行比較分析,進而提出中文古籍資源統一檢索平臺的設想,探索中文古籍數字資源整合檢索之路。
2.1 古籍書目數據庫建設實例[2]
①中華古籍善本國際聯合書目系統[3]
“中華古籍善本國際聯合書目系統”項目中心設在國家圖書館,由其進行管理和維護,共有30余家圖書館參與建設,包含了除美國國會圖書館以外的北美圖書館幾乎全部藏書以及中國圖書館的部分藏書,該系統收錄清乾隆六十年(1796年)以前在中國印刷或抄寫的中文古籍,數據量達到兩萬多條。
該系統根據《中文善本書類目表》,提供經、史、子、集、叢部的分類瀏覽。支持簡體中文、繁體中文、漢語拼音檢索。著錄內容包含著錄編號、題名、責任者、版本類型、版本信息、裝幀形式、載體形態、行款版式、存卷及補配情況、題跋鈐印、附注、四部分類、收藏單位和典藏號等14項。設置了題名、人名、機構名稱、版本類型、出版地、版本年代、裝幀形式、鈐印文字、四部分類、典藏號、收藏單位11個檢索點。
②CALIS 古籍聯機目錄[4]
“CALIS古籍聯機目錄”項目中心設在北京大學,由國內藏有古籍的高校圖書館聯合建設。CALIS古籍聯機目錄系統由 Z39.50 古籍編目客戶端、Z39.50 服務器、古籍聯合目錄數據庫、管理客戶端及 OPAC 組成[5]。CALIS Z39.50 古籍編目客戶端是為古籍聯合編目制作的通用客戶端,分查詢、編目兩個模塊。
CALIS 古籍編目系統支持公共檢索、館際互借、文獻傳遞、資源導航、集團采購等信息資源共享功能。提供古籍四庫分類類目的瀏覽服務,可查詢CALIS聯合目錄中的古籍數據,CALIS古籍聯合目錄采用CNMARC格式著錄文獻,可繁、簡體統一檢索。對同品種、同版本的書,僅收錄一條記錄,以先提交的記錄為主,其他收錄的圖書館,只需在該記錄下添加館藏即可。
③上海圖書館-古籍書目查詢[6]
“上海圖書館古籍書目查詢系統”收錄上海圖書館收藏的中文古籍12萬余條,其中包含普通古籍約8萬條,叢編子目近3萬條,善本古籍約1萬條。古籍類型涵蓋了刻本、抄本、校本等多種類型。該平臺采用四庫分類法,標準繁體字著錄,著錄項包含文獻題名、責任者與責任方式、寫刻出版地、寫刻出版者、寫刻出版年、版本類型、叢書名、批校題跋、存佚、補配、附件責任者、館藏號等項。
④北京師范大學圖書館古籍目錄[7]
北京師范大學圖書館古籍書目數據庫共包含2.5萬余條數據,支持繁體字對題名、編撰者的檢索,并具有二次檢索功能。檢索結果簡要顯示頁顯示字段包含題名、出版年及索書號。檢索結果詳細顯示頁顯示字段包含題名、出版年、索書號,詳細顯示頁包含題名、責任者、出版項、版本類別、載體形態、裝訂形式、附注、索書號、收藏地址及服務形式等字段。
2.2 古籍書目數據庫對比研究
上述各系統平臺在收錄資源內容、檢索方式、描述字段、分類、數據量等方面都存在差異,對其進行比較分析見表1。
通過表1可以看出,各系統平臺包含的內容多為某組織或某機構的資源,收錄古籍資源各不相同,部分系統資源存在交叉;編目字段自成體系,還缺乏統一的元數據編目標準;檢索功能和瀏覽功能的設置也存在差異;但分類方式較統一,多選用四庫分類法;各古籍數字化系統的數據量因內容不同而存在著較大差異。
3.1 古籍全文數據庫建設實例
①《文淵閣四庫全書》原文及全文檢索版
《四庫全書》是清代乾隆年間官修的規模龐大的百科叢書。它匯集了從先秦到清代前期的歷代主要典籍,分為經、史、子、集四部,共 44 類、70 屬。《文淵閣四庫全書》電子版是由香港迪志文化出版有限公司和上海人民出版社合作出版。
《文淵閣四庫全書》原文及全文檢索版在保持原書真跡的基礎上,提供檢索主頁、分類檢索及進階檢索3種檢索方式。其中,檢索主頁檢索適用于快速檢索主題明確但材料分散的情況。分類檢索根據四庫分類法,將書目按經、史、子、集四部進行劃分。分類檢索適用于熟悉四庫分類法,對所查書目的部、類、屬歸屬非常明確的情況。進階檢索,也稱高級檢索,包括全文、書名、著者檢索,還可利用布爾運算,通過邏輯組配進行檢索。
②《四部叢刊》原文及全文檢索版
《四部叢刊》是上個世紀由張元濟先生匯集多種中國古籍經典纂輯而成。纂輯者專選宋、元、明代的舊刊(間及清本者,則必取其精刻)及精校名抄本,故該書具有較高版本價值,常被用作古籍整理的底本,分初編、續編、三編3部分,共收書504種。
《四部叢刊》原文及全文檢索版采用國際標準字符集ISO/ IEC 10646-1,保有紙本的全部內容,并可實現書名、著者、全文檢索、分類檢索及組配檢索,具有簡繁體、異體漢字關聯的查詢功能。該系統還提供了拼音、部首及筆畫輸入等簡便的漢字輔助輸入法,適用于不熟悉鍵盤輸入法的用戶。
③《國學寶典》
《國學寶典》由北京國學時代文化傳播有限公司組織國內文史專家,歷經6年時間精心整理、校勘制作而成,是一套面向圖書館、科研機構及文史研究人員的中華古籍全文資料檢索系統。《國學寶典》采用國際通用的 Unicode 漢字編碼,收錄先秦至民國兩千多年間的中文歷代典籍,并收錄了清代至當代古籍研究的重要成果,共4000余種作品。分為經、史、子、集、叢、通俗小說6部分。該庫將古代典籍與中國知網的期刊、報紙、論文、工具書等進行知識資源的整合,具有CNKI知網節的功能。
④《中國基本古籍庫》
《中國基本古籍庫》是由北京大學劉俊文教授任總策劃、總編纂、總監制,由北京愛如生數字化技術研究中心研發制作而成的綜合型古籍數據庫。《中國基本古籍庫》收錄先秦至民國年間的歷代典籍,包含哲學、史地、文藝、綜合4個子庫,共20大類、1萬種、17萬卷。

表1 古籍書目數據庫比較分析
《中國基本古籍庫》采用支持 Unicode編碼的 ABT 格式,提供4種檢索方式:分類檢索、條目檢索、全文檢索及高級檢索,支持二次檢索和模糊匹配功能。分類檢索是通過庫、類、目進行定向檢索;條目檢索是通過書名、作者、版本等條件進行檢索;全文檢索是通過輸入字詞或字符串進行檢索;高級檢索是組合字詞進行邏輯檢索或綜合選項進行關聯檢索。
⑤《高校古文獻資源庫》
《高校古文獻資料庫》的建設于2004年6月正式啟動,由北京大學、南京大學、北京師范大學等24家高校圖書館共同建設,是我國第一個高等院校校際合作建設的古文獻數據庫。該資料庫不僅包括書目記錄,有的還配有書影或圖像。其古文獻類型目前為各館所藏古籍和輿圖,今后還會增加金石拓片等類型,該庫元數據總量達到 60 余萬條[8]。
《學苑汲古—高校古文獻資源庫》發布服務平臺,提供簡單檢索、高級檢索、瀏覽、索引等功能。其高級檢索功能提供責任者、出版年代、出版地、出版者、版本類別、裝幀方式等10余種單一檢索途徑并支持任意字段進行組配檢索,及檢索結果的二次檢索。用戶通過瀏覽功能可按照古籍版本類別、出版年代、出版地進行瀏覽,并提供題名和責任者的索引功能。
3.2 古籍全文數據庫對比研究
上述古籍全文數據庫在資源內容、檢索方式上面都存在較大差異,對其進行比較如表2所示。
通過表2可以看出,各庫資源已達一定規模,檢索方式靈活多樣,一般都具有簡單檢索和高級檢索功能,分類法大多采用四庫分類法。值得注意的是,《中國基本古籍庫》根據實際需要使用ASM分類法,高校古文獻資源庫主導機構制定出了一套包括古籍、輿圖、拓片的完整的著錄標準規范,供參建館使用。
通過以上古籍數據庫的比較分析,可看出隨著計算機、信息處理技術的不斷發展,中文古籍數字化系統的建設發展迅速,有較多組織或機構已建有古籍資源的書目檢索系統或全文檢索系統,為用戶提供多種資源揭示服務,這為實現中文古籍資源統一檢索奠定了基礎,但也還存在以下問題亟待解決。
①古籍數字化成果碩果累累,但尚未形成完整的中文古籍普查報告。古籍加工機構較分散,包含政府機構、科研單位、典藏機構及商業組織等各方面,且溝通交流機制不健全,是尚未完成古籍普查的主要原因。
②古籍系統建設缺乏統一標準和規劃,存在重復建設問題,資源共享性差。由于機構間缺少溝通合作和統一規劃,其內容選取標準通常只出于機構自身需要,古籍內容的重復選取與建設在所難免。統一標準的缺乏又會造成數據共享性和互通性差的問題,古籍數字化系統建設需要耗費極大的人力物力,不同機構古籍的重復建設和難以共享問題,將造成資源的極大浪費。
③古籍資源尚未實現統一檢索,用戶查詢不便。由于各古籍數字化系統具有獨立性,且系統架構不同,共建共享和互通性差,存在著“信息孤島”的問題,亟須實現統一檢索,以方便用戶的檢索使用,提升資源的利用率。
古籍數字化系統發展迅速,但發展過程中存在的瓶頸,主要是缺乏統一規劃標準,未進行統一的資源整合檢索所致。針對古籍數字化系統存在的問題,可采取以下對策:第一,通過建立統一的協調規劃機構,對古籍數字化整體工作進行協調,制定中長期規劃;第二,制定古籍數字化的相關規范標準,提高資源的共享性和互通性;第三,對所有古籍資源通過多種途徑進行整合發布,提供統一檢索。

表2 古籍全文數據庫比較分析
多樣化的中文古籍數字化系統為用戶提供了豐富的古籍資源,但由于各系統分別獨立,系統架構、數據格式和檢索功能等存在異構性,用戶查詢某一古籍時,需要檢索多個古籍平臺才能得到較完善的查詢結果,所以亟需建設中文古籍資源統一檢索平臺,提升讀者的檢索效率。
中文古籍資源統一檢索平臺可以通過建立古籍資源的元數據倉儲的模式來實現,也就是基于元數據抽取的整合方式。基于元數據倉儲的統一檢索平臺建設,不會改變原有數據庫的結構和訪問方式,只需將每個數據庫的元數據進行加工整合,可通過收集元數據、元數據字段映射、元數據清洗、轉換、整合等工作,實現古籍資源元數據倉儲的建設,進而實現中文古籍資源統一檢索功能。其具體建設工作可以從以下幾方面著手。
5.1 建立統一協調機構
通過確定統一的中文古籍數字化協調管理機構,開展中文古籍數字化系統平臺的調研,做好普查摸底登記工作。確定古籍數字化系統的標準規范,為新建古籍數字化系統提供參考和借鑒。
5.2 制定中長期規劃
制定中文古籍資源統一檢索系統的中長期建設規劃,確立其共建共享體系及相應合作制度。通過制定規劃,一方面可以避免古籍數字化系統的重復建設,另一方面也使古籍數字化工作得以有序開展,起到保護古籍、傳承文明的作用。
5.3 建設中文古籍資源元數據倉儲
確定中文古籍元數據倉儲的建設規范,通過多種渠道盡可能多地收集各類中文古籍數字化系統的元數據,建立元數據更新長效機制,并對收集到的元數據進行字段映射、格式轉化等加工處理,導入元數據倉儲平臺。
5.4 建立中文古籍資源統一檢索系統
基于元數據倉儲系統,建立中文古籍資源的一站式檢索系統,為用戶查詢和利用中文古籍提供便利。統一檢索平臺根據古籍類別的不同,提供相應類別的檢索字段和瀏覽方式,并提供多種檢索結果優化服務,使系統由資源檢索向知識檢索方向轉化。
在中文古籍資源統一檢索平臺建設過程中,應通過對已建古籍數字化系統全面細致的調研,制定出資源整合的解決方案,運用現代化技術手段將已建資源進行加工轉化,納入統一的中文古籍數字化系統元數據倉儲中,進而實現一站式的古籍數字化資源檢索發布服務。各古籍數字化平臺元數據的規范化加工,是實現共建共享和統一檢索的前提和基礎,將有助于統一檢索平臺建設的順利開展。合作共建共享是其發展趨勢,通過合作共建,一方面減少了建設成本,另一方面也可以將更多的古籍資源進行統一檢索發布,有利于提高查全率和檢索效率。
[1] 毛建軍.古籍數字化的概念和內涵[J].圖書館理論與實踐,2007(4):82-84.
[2] 高娟,劉家真.中國大陸地區古籍數字化問題及對策[J].中國圖書館學報,2013(7):110-119.
[3] 中華古籍善本聯合書目系統[EB/OL].[2014-05-29]. http://mylib.nlc.gov.cn/web/guest/zhonghuagujishanbenlia ?nheshumuxitong.
[4] CALIS 聯合目錄公共檢索系統-古籍四部類目瀏覽[EB/ OL].[2014-05-29].http://opac.calis.edu.cn/opac/classNum?ber.do?subact=enterpage&type=sklm.
[5] 吳永萍.CALIS 古籍編目與文獻資源共享[J].圖書館界,2009(1):79-81.
[6] 上海圖書館-古籍書目查詢[EB/OL].[2014-04-11].http:// search.library.sh.cn/guji/.
[7] 北京師 范 大學 圖 書館 古 籍目錄 [EB/OL].[2014-04-14]. http://digi2.lib.bnu.edu.cn:8080/digilib/search?channelid= 36687.
[8] 姚伯岳,沈蕓蕓.“高校古文獻資源庫”的擴大建設及其意義[J].大學圖書館學報,2012(3):54-58.
馮紅娟女,1983年生。碩士,館員。
張文靜女,1976年生。碩士,館員。
梁蕙瑋女,1974年生。碩士,副研究館員。
G255.1
2014-06-25;責編:張欣。)
*本文系國家社科基金重大項目“中國古籍數字化工程研究”(批準號:12@ZH016)成果之一。