基于元數據的重慶地區電子文獻資源整合研究

2013-04-29 00:44:03彭渝等

現代情報 2013年5期

彭渝等

〔摘要〕通過調查重慶地區高校、公共圖書館、醫院電子文獻資源，發現各單位在資源種類、總量、平均擁有量，特別是外文資源，差距更大，整合與共享勢在必行，通過對各單位元數據的抽取，構建本地區電子資源元數據倉儲，使讀者通過對元數據倉儲的“一站式”檢索，實現對資源的統一訪問，從而達到整合目的。

〔關鍵詞〕元數據；電子文獻資源；整合；高校圖書館；公共圖書館；醫院

DOI：10.3969/j.issn.1008-0821.2013.05.011

〔中圖分類號〕G25076〔文獻標識碼〕A〔文章編號〕1008-0821（2013）05-0047-04

21本地鏡像的商業數據庫資源

由于知識產權的原因，數據廠商一般情況下是不愿意提供資源的元數據的，不過可以通過與數據廠商協商，獲取一些數據庫的元數據資源。對于可以獲取元數據的商業數據庫，可以實施基于數據層的資源整合。對于不能獲取元數據的數據資源，數據廠商可以提供該資源所遵循的協議和訪問許可方式，實現應用層的整合。

22本館自建特色資源

由于這類資源由本館自建，本館擁有該資源的元數據和對象數據，通過元數據收割獲取各館自建資源的元數據。

23隨書光盤資源

各館自建的隨書光盤數據庫，各館擁有元數據及對象數據，可以實施元數據整合。

總之，對于較容易獲取元數據的電子文獻資源都可以通過元數據實現數據整合。

3元數據整合模型分析

基于元數據的區域電子文獻資源整合的中心思想是：通過建立區域內統一的元數據中心，系統通過OAI（Open Archive Initiative for Protocol Meta-data Harvesting）技術，將各校各類型資源收割到臨時的元數據倉儲中，然后通過對臨時元數據倉儲中的數據進行清洗、轉換，將這些數據追加到中心元數據倉儲中。用戶只需要對中心元數據倉儲進行檢索，即可實現對區域內電子文獻資源的統一檢索。

在所調查的高校圖書館、公共圖書館、醫院分別屬于3個不同的系統，所以在模型圖中我們分別設立高校圖書館DC元數據中心、公共圖書館DC元數據中心、醫院DC元數據中心，通過OAI收割各個區域的元數據資源。所謂DC元數據中心，即采用DC元數據標準的元數據中心。3個分中心，分別對各系統內各單位的各類電子文獻資源實施元數據收割，建立系統的元數據中心。

31分布集中系統思想

通過上面的分析，針對重慶地區種類多樣的電子文獻資源，本文提出了基于元數據的集中與分布相結合的區域電子文獻資源整合與共享模型，所謂集中與分布相結合，即元數據的集中存儲，對象數據的集中與分布存儲相結合。在資源整合過程中，數據有兩部分組成，即元數據和對象數據。元數據是描述對象數據的數據，本模型中資源整合與共享的實現主要依靠元數據，通過元數據揭示資源，為讀者提供檢索瀏覽的線索，最終定位對象數據。對象數據是知識的載體，如PDF格式的電子圖書、光盤鏡象文件、音視頻文件等，是我們整合的最終對象。在本模型中，對于元數據采取集中的存儲模式，不同類型數字資源的元數據經過規范化處理，被分別存儲在相應的元數據倉儲數據庫中。而針對對象數據的存儲，本模型采取分布與集中相結合的方式，即系統在整合資源時，對象數據仍保留在各院校的系統中，不會被抽取到中心。當某些院校沒有能力存儲某資源時，可以將這些資源存儲到某資源中心，實現相對集中的存儲[1]。

32整合流程

在模型中，整合系統被分為了3層，第一層：重慶地區DC元數據中心。第二層：高校圖書館DC元數據中心、公共圖書館DC元數據中心、醫院DC元數據中心。第三層：每一個分中心下面的高校。所以系統運行的流程是：

（1）高校DC元數據中心、公共圖書館DC元數據中心、醫院DC元數據中心分別將所屬的圖書館的元數據收割到分中心，形成分中心的元數據倉儲。

3個分中心分別構建自己的DC元數據倉儲（電子圖書DC元數據倉儲、電子期刊DC元數據倉儲、自建資源DC元數據倉儲等），然后對所屬的高校的元數據進行收割，將收割的元數據存儲到臨時元數據倉儲中。

（2）元數據ETL（Extract-Transform-Load）

ETL，即數據抽取（Extraction）、數據轉換（Transfonnation）、數據裝載（Loading）。ETL是數據倉庫體系結構當中的一個重要過程，也是數據倉庫建設過程中最復雜、費時的環節，ETL開發通常會占整個數據倉庫項目時間的60%～80%，ETL是實現異構資源集成的關鍵環節。

數據抽取：數據抽取是從異構數據源中采集原始數據，這些數據可以是元數據據，也可以是對象數據。在本模型中只采集元數據資源，對象數據仍保留在各系統中。

數據轉換：數據轉換包括數據的清洗和轉換兩部分功能。各系統中元數據的數據表現形式存在差異，所以必須消除這些差異，第一，數據標準化，數據的標準化主要表現在數據格式的規范化和數據表達方式的同一化。舉例說明：對于“語種”字段，不同的系統著錄方式是不一樣的，如中文、CN、CHN、China等，面對這些差異，必需制定中心元數據標準，規定著錄方式，系統依據該標準，對各個異構的元數據進行標準化。第二，數據解析，由于各系統元數據字段所概括的內容不一，某系統中其中一個元數據字段可能對應別的系統中的兩個字段，數據存在不同的細節級別，稱之為粒度。粒度越高，所表示的綜合程度越高。在中心數據倉儲中的查詢涉及到不同的細節，不同的數據圖1基于元數據的重慶地區電子文獻資源整合模型

源對信息的描述可能具有不同的粒度，這使得對來自不同數據源的數據很難做相應的比較。所以本模塊的任務就是消除各系統元數據粒度不一致的問題，對該拆分的字段進行拆分，該合并的字段進行合并。第三，數據增強，數據增強的任務是對原始數據進行補充，實現系統數據的完整性。數據中心所制定的元數據標準中，并非所有的系統都擁有標準中所擁有的元素或者修飾詞，這時候就要增加字段，使被整合的系統的元數據信息更加完整。第四，重復記錄歸并，在中心元數據倉儲中，每一條記錄都對應一篇文獻，不允許重復記錄的存在，必須保證數據的惟一性。但從各系統抽取的元數據，不可避免的存在重復，所以記錄的去重與歸并成為必然。通過數據清洗，對各系統中采集的原始數據進行有效性檢查，對不規范、重復的記錄進行規范化處理，使采集的各系統的原始信息統一化，標準化，即完成元數據的標準化，將異構的元數據轉換成為標準一致、著錄規范的元數據，從而提高了數據的質量[2]。

數據裝載：在數據清洗完畢之后，即可以將清洗后的標準元數據加載到中心元數據倉儲中，數據裝載的功能是將采集、清洗、轉換過后的標準元數據加載到目標數據倉庫中，該功能是對經過清洗和轉換的數據進行匯總、保存，以達到數據級整合的目的[3]。

（3）收割高校圖書館、公共圖書館、醫院三系統中心元數據，形成重慶地區總的DC元數據倉儲。之所以會設立3個分中心，是三系統分別屬于不同的系統，本系統內實施起來更加容易，系統較易管理，也具有較強的擴展性。但系統最終的目的是實現重慶地區電子文獻資源共享，所以還要將3個分中心的元數據追加到重慶地區DC元數據倉儲中，建立重慶地區總的DC元數據倉儲[4]。

（4）反向收割重慶地區DC元數據倉儲，高校圖書館、公共圖書館、醫院三系統中心元數據反向收割重慶地區DC元數據倉儲，三系統與中心系統實現元數據的同步，這樣做的好處，第一，元數據的安全性。第二，系統性能提升，各系統只需要對本系統的元數據中心進行訪問即可實現對資源的訪問。

（5）通過OpenURL實現原文獲取。

用戶通過對重慶DC元數據倉儲進行檢索，系統通過OpenURL建立原文的鏈接。OpenURL規定鏈接源不直接指向鏈接對象，而是由第三方鏈接服務器作為用戶與所需求資源之間的中介。鏈接服務器接收鏈接源傳送到的OpenURL，通過惟一的標識符（如DOI）解析其內容，建立對上下文對象的描述，以動態選擇合適的鏈接目標，從而使鏈接源和鏈接對象處于一個開放式互聯框架內，不同資源系統中各類資源，只要符合OpenURL框架，均可很方便地實現多種資源的鏈接[5]。

4系統優點

本文提出的基于元數據的區域電子文獻資源整合模型，與基于數據倉庫，檢索代理的整合技術相比，具有如下的優點：

（1）檢索速度快。基于檢索代理的資源整合，其整合的數據資源非常有限，當數據庫較多時，其檢索速度非常慢。與檢索代理技術相比，由于用戶是對實現了元數據的物理集中與規范的長株潭DC元數據倉儲進行檢索，所以速度非常快[6]。

（2）系統中心存儲壓力小。基于數據倉庫技術的資源整合，在集成元數據的同時，還要集中各系統的對象數據，這樣系統中心將面臨非常大的存儲壓力。本模型中，系統中心僅僅存儲元數據資源，對象數據仍保存在各館中，所以系統中心沒有存儲壓力。

（3）系統管理容易，具有擴展性。在本模型中，我們在重慶DC元數據中心下面，分設了高校圖書館DC元數據中心、公共圖書館DC元數據中心、醫院DC元數據中心，實現了分層管理，不至于系統較大造成管理混亂。同時當新的區域加入整合與共享建設中時，只需要對新增加的區域的元數據進行收割與清洗，然后追加到重慶DC元數據倉儲中去就可以了，系統具有較強的擴展性。

（4）實現了元數據的物理集中與對象數據的分布管理。通過對各系統元數據的清洗、轉換，實現了各系統中元數據的一致，構建了區域內統一的元數據倉儲，從而實現區域內各系統資源的整合。而對象數據仍保存在各館原來的系統之中，這樣在實現資源整合的同時，各館仍可獨立的開展各項服務。

（5）可以在統一的規范的元數據倉儲的基礎上開展各項服務。可以以重慶元數據中心為核心，提供統一檢索、元數據的聯合編目、數據挖掘、數據分析等個性化服務。這是其它整合模型無法實現的。

同時系統也有如下缺點：

（1）由于涉及知識產權問題，元數據的獲取較為困難，對于中文數據庫，可以通過與數據商協商解決。對于外文數據庫，基本上無法獲取元數據。

（2）由于各系統沒有遵循統一的元數據標準，在構建統一元數據倉儲時，必須對元數據進行清洗，這是構建統一元數據倉儲的關鍵。而對元數據清洗是非常不容易的。

（3）系統中心必須對元數據倉儲進行維護，保證系統正常運行。

5小結

電子文獻資源整合及共享的目標是提高文獻信息資源的可獲知能力和可獲得能力。構筑重慶地區的電子文獻資源的整合與共享體系的根本目的，就是通過圖書館協作的規模效益來提高三地區開發和利用電子文獻信息資源的綜合能力，提高電子文獻資源的可獲知能力和可獲得能力[7]。

參考文獻

[1]張建中，陳松喬，方正.基于數據倉庫與數據挖掘技術的信息檢索體系[J].高校圖書館工作，2007，（5）：1-3.

[2]王愛麗.高校圖書館數字資源整合及其實現[J].江西圖書館學刊，2007，（4）：26-28.

[3]王穎霞.論數字圖書館的資源整合[J].現代圖書情報技術，2004，（S1）：106-107.

[4]熊擁軍，歐鵬杰.圖書相關文獻資源發現與獲取系統構建——基于預索引元數據倉儲[J].圖書情報知識，2011，（6）：101-106.

[3]陳良.高校圖書館數字資源整合分析[J].河北科技圖苑，2008，（1）：81-83.

[6]袁小一，張建中.檢索代理及其在資源整合中的應用[J].圖書館論壇，2007，（5）：31-33.

[7]劉其云.基于數字信息資源整合的研究[J].現代情報，2008，（6）：125-126.

（本文責任編輯：馬卓）