基于元數據的古籍數字化探究

2018-11-23 11:30:22劉小杰

卷宗 2018年31期

關鍵詞：圖書館

摘要：本文古籍元數據的相關內容入手，首先對我國古籍數字化的建設現狀進行了描述，緊接著通過對比我國現有的古籍元數據，對基于MARC和基于DC的古籍元數據標準對比分析，最后對我國現行的古籍元數據標準建設中的問題提出自己的建議和想法。

關鍵詞：元數據；圖書館；古籍；古籍數字化；古籍元數據

Digital Exploration of Ancient Books Based on Metadata

Xiao-jie liu

（zhengzhou library， zhengzhou 450000）

Abstract： In this paper， the related contents of ancient books metadata， first of all to our country ancient books digitization construction situation are described， and then by comparing the existing ancient metadata， based on ancient books of MARC and DC metadata standard comparison and analysis， the last of our current problems in ancient books metadata standard construction put forward his own Suggestions and ideas.

Keywords： Metadata；The library；Ancient books；Digitization of ancient books；Metadata of ancient books

古籍文獻作為圖書館文獻資源的一種形式，其不同于其他文獻資源的本質特性，它記錄著我國五千年的歷史文化精髓，是我國悠久文化的文字記錄材料。而古籍文獻的文物特性也導致其保存難度大，甚至有些孤本、珍本的紙張已經變質變脆，大大影響了古籍的史料參考價值和閱讀價值，如何有效的保護好圖書館這些珍貴的古籍文獻，并將其提供給讀者使用，擴大古籍文獻的影響和魅力，是我們圖書館這些古籍收藏單位所面對的共同難題，而古籍文獻數字化就是一種保護和傳承古籍文獻的有效解決方法。

1 我國的古籍數字化建設現狀

我國古籍數字化取得的成果主要集中于古籍資源數據庫的建設，主要包括古籍書目數據庫和古籍全文數據庫兩種。目前大部分古籍收藏單位都建立了古籍書目數據庫，同時還合作建立了一些古籍聯合目錄數據庫，如中國高等教育文獻保障系統古籍聯機編目、中國科學院古籍聯合書目數據庫等。古籍全文數據庫的建設，大部分是各個圖書館依靠自己的特色古籍資源來建設古籍全文數據庫，同時還有一些研究機構、出版機構以及數據庫商業機構在近幾年在不斷的探索和研究，建造了一批高質量的古籍數字化全文數據庫，如中國基本古籍庫、漢籍全文數據庫、漢達文庫等。隨著科技的進步和古籍數字化的不斷發展，我國的古籍數字化已經從簡單的文本轉換轉為信息的重組和發掘，而且從國家層面上開始建設中華古籍數字資源數據庫，2012年底，國家古籍保護中心啟動建設“中華珍貴典籍資源庫”，立足于《國家珍貴古籍名錄》，從中遴選出1115部珍貴古籍進行數字化，并積極研究推進資源的網上發布使用；同時著手加強與國際間的合作，以國際合作項目的模式來將流失海外的我國古籍文獻進行數字化，來增進國內外古籍數字化的交流與合作，取得了一系列的成果如海外圖書館所藏古籍善本項目、中華古籍善本國際聯合書目數據庫等。

2 我國現有的古籍元數據標準及對比分析

元數據格式有很多種，在圖書館和Internet上廣泛應用的元數據格式主要是機讀目錄格式（MARC）和都柏林核心元數據（Dublin Core），而且這兩種元數據格式在我國的古籍元數據建設中得到了廣泛應用。

2.1 我國的古籍元數據標準

MARC機讀目錄格式可以對圖書、連續出版物、電子資源、樂譜、視聽資料等格式的文獻進行著錄，經過不斷發展廣泛應用于圖書館的編目著錄。中國機讀目錄格式（CNMARC）是我國常用的機讀目錄格式，其中具體有關古籍的應用標準有：1）國家圖書館制定的《漢語文古籍機讀目錄格式使用手冊》；2）中國高等教育文獻保障系統（CALIS）制定的《CALIS古籍聯機合作編目規則》，CALIS古籍機讀目錄格式基本上和國圖的格式一致，二者一脈相承，都是MARC機讀目錄格式在古籍文獻著錄上的延伸和發展。

都柏林核心（DC）元數據是一種結構化格式的元數據，由標題、作者、主體、出版者、描述、其他參與者、日期、類型、格式等15個元素組成，具有簡易性、通用性、可重復性和可擴展性等優點。鑒于DC元數據的通用性和適用性，我國的一些機構也在積極推進基于DC的古籍元數據建設工作，并制定了相關的元數據著錄規范，使用范圍比較廣的主要有：1）《我國數字圖書館標準與規范建設》項目（CDLS）；2）中科院古籍數據庫的DC元數據格式，二者都是在DC元數據的基礎上進行了本地化修改，以適應各自的古籍文獻著錄需求。

2.2 都柏林元數據與CNMARC對比分析

基于CNMARC和基于DC的古籍元數據在實際應用中各有優缺點，而哪一種格式在未來古籍元數據的發展中更有優勢呢？我們通過橫向對比的方式來將DC元數據、CDSL的古籍元數據、中科院的古籍元數據和CNMARC的各個核心元素字段進行對比，列出表1所示的對照表如下：

聯系各種元數據的標準規范，我們可以進行DC元數據和CNMARC在古籍元數據應用標準上的一些差異分析：

2.2.1 數據信息的描述能力分析

數據信息的描述能力主要從元數據的字段劃分和應用來分析，只有字段劃分和應用的科學合理，數據信息詳細明了才能體現出元數據的信息描述能力。從字段和元素劃分上看，CNMARC有9個大的字段塊，同時各個字段下可以劃分很多子字段，有些字段還可以重復，從這方面看CNMARC的數據信息描述能力應該非常強大，幾乎給人一種無所不容無所不能的感覺；反觀DC元數據，僅僅十幾個核心元素，各元素下的子集相對于MARC也很有限。但是從實際應用方面來看，在使用中CNMARC格式的書目記錄只使用了很少的一部分字段，通過對國圖數據的抽樣分析顯示，使用字段多于30個字段的書目記錄只有0.09%，而且80%以上的常用字段大概只有20個左右；DC元數據格式的元素數量雖說比較少，但是使用率非常高，基本上都是必備字段，在數據信息的描述能力上不輸于CNMARC。由此可以看出，雖說CNMARC的字段比較多，但是真正對讀者和館員有用的字段和方便資源檢索利用的字段卻很少，很多字段屬可有可無字段，在對古籍元數據應用上，DC元數據要優于CMARC元數據。

2.2.2 數據信息的內容描述方式分析

從表1的對比中我們可以看到，在CNMARC中對資源信息的某個特征描述多在不同字段重復，比如200的$f$g字段和7xx字段都是關于責任者和責任方式的字段；或者是某一特征分散在多個字段描述，比如200字段和51x字段都是題名相關信息。這就會產生兩方面的問題，一方面是元數據對同一描述特性冗余著錄，易導致元數據字段對某一特征的描述產生矛盾，數據通用性差，影響數據交換；另一方面相同的信息在不同的字段里被重復著錄，增加了著錄人員的工作量，更不便于用戶對有用信息的獲取。而DC元數據的同類信息全部集中在一個元素內，沒有這方面的影響。由于古籍著錄的特殊性，同類信息集中著錄更適合古籍著錄的要求，因此從數據信息的內容描述方式上看，DC元數據的元素分類比較科學和人性化。

2.2.3 數據格式的可擴展性分析

擴展性分析方面，CNMARC和DC元數據的數據格式設計時都預留的有相關字段的擴展空間，如CNMARC的9xx字段就是館藏信息自定義字段，館員可以根據自己的需要自定義館藏字段；DC元數據的擴展也很簡單，就是在15個核心元素外，根據需要制定相應的其他元素，CDLS的古籍元數據采用的就是這種做法，但是DC元數據基于先進的網絡技術和XML網絡傳輸語言，數據格式簡單易學，可擴展性比CNMARC更好。

通過以上三方面的對比分析，我們可以看出DC元數據在對信息對象的描述能力和方式上都優于CNMARC，在可擴展性和使用上也比CNMARC更好用，在進行古籍數字化建設時，DC元數據應當是首選的數字技術標準。

3 圖書館古籍的元數據標準建設的問題及對策

目前，我國古籍數字化進程發展了將近30年的時間，取得了相當大的成績，這點我們都有目共睹，但是不可否認的是，在元數據標準建設方面，與國外相比我們仍存在著比較大的差距和問題，需要我們盡快解決。

3.1 統一元數據標準，加快DC元數據本地化

DC元數據已經在我國一些圖書館和企業得到了應用，但是DC元數據本地化的問題一直沒有解決。本地化的問題主要體現在兩個方面：一方面體現在沒有標準化的DC元數據中文版本，現有的圖書館使用的基于DC元數據的標準規范主要是CDLS和中科院兩個版本，這些版本在古籍元數據規范上的定義差異性也很大，在具體應用上存在很多空白；另一方面就是元素名稱及注釋的翻譯和理解不準確，沒有規范統一的譯名，會對館員和用戶造成使用上的困擾，從側面說明了我國DC元數據在本地化的規范標準沒有很好地重視。這就需要我們盡快地制定統一的DC元數據相關標準規范，形成內容全面的古籍數字化元數據標準，讓古籍元數據更好用、更實用，統一協調DC元數據本地化的標準規范建設，統一元素譯名和定義注釋，從根本上解決DC元數據本地化的問題。

3.2 形成系統化的古籍元數據標準體系

我國現有的古籍數字化元數據標準的系統化程度比較低，主流的元數據標準數量少，且屬于各自為政各自發展自己的元數據標準，相互之間缺乏有效的溝通交流，特別是MARC格式和DC格式的元數據通用問題，缺乏必要的骨架標準體系支撐。在這一方面，我國需要加快古籍數字化標準建設的同時積極推動古籍數字化元數據的標準體系建設，加強溝通交流，同時鼓勵企業參與標準規范體系的建設實施，推動古籍元數據標準系統化規范化發展。

3.3 重視古籍元數據專業人才的培養

古籍元數據標準的建設是一項工作量浩大且技術繁雜的工作，需要大量專業人才保證古籍元數據標準體系的構建和古籍數字化資源的建設。人才培養主要有兩個方面，一方面是學術研究人才培養，應當在學校設立專門從事古籍數字化及古籍元數據標準研究的學科，開設古籍文獻學、數字化技術、計算機數據庫設計等課程；另一方面是專業的崗前職業培訓，從事古籍數字化及元數據加工地工作人員必須接受崗前培訓，在短期或中長期之內通過指導培訓掌握必要技能，經考核合格后方可從事具體的實際工作。

4 結語

本文僅從古籍元數據建設的角度對古籍數字化工作進行了分析和探討，古籍數字化還有很多方面的工作，如古籍數字資源的共建共享、轉化利用以及宣傳推廣等。但是古籍元數據建設是古籍數字化中的一個重要環節，是古籍數字化的基礎性建設工作，只有做好古籍元數據建設工作，才能將古籍數字化其他工作做得更好。

參考文獻

[1]郭秋福，江匯泉.MARC與DC元數據的對比分析[J].數字圖書館論壇，2008（4）：39-43.

[2]耿秋紅.試論元數據——談DC元數據與MARC[J].現代情報，2004（7）：94-95.

[3]高娟，劉家真.中國大陸地區古籍數字化問題及對策*[J].中國圖書館學報，2013（7）：110-118.

[4]王雁行.以“中華古籍保護計劃”為依托建設國家古籍資源數據庫[J].國家圖書館學刊，2016（3）：82-88.

作者簡介

劉小杰（1990-），女，河南鄭州，學士學位，助理館員，研究方向：圖書館學。