鄭燃 唐義 戴艷清


摘 要:圖書館、檔案館和博物館作為社會重要的公共文化基礎設施,在公共文化服務體系中具有舉足輕重的地位,如何對圖書、檔案和博物數字資源進行整合,為用戶提供更深層次的、一體化的信息資源服務,成為近年來各國圖書館、檔案館和博物館十分關注的課題。關聯數據的出現極大地促進了數字資源整合的進程。文章簡要介紹了關聯數據的概念,探討了關聯數據在圖書館、檔案館和博物館數字資源整合中的作用和發展現狀,嘗試著構建出基于關聯數據的圖書館、檔案館和博物館數字資源整合模式,并提出了應注意的問題。
關鍵詞:關聯數據 圖書館 檔案館 博物館 數字資源整合
中圖分類號: G250.73文獻標識碼: A 文章編號: 1003-6938(2012)01-0071-06
Digital Resources Convergence of Libraries, Archives and Museums Based on Linked Data Applications
Abstract Libraries, archives and museums as important public cultural infrastructures in the society play a decisive role in the public cultural service system. In recent years, libraries, archives and museums in the world focused on how to converge digital resources and provided users with a deeper level and the integration of information resources service. The emergence of linked data promoted the digital resources convergence process greatly. This paper pointed out the concept of linked data and discussed the application and development of linked data in the digital resources convergence of libraries, archives and museums. And also the paper tried to construct the digital resources convergence model of libraries, archives and museums based on linked data, and put forward issues that needed to pay more attention.
Keywords linked data; libraries; archives; museums; digital resources convergence
圖書館、檔案館和博物館(Libraries,Archives,Museums,以下簡稱LAM)作為社會重要的公共文化基礎設施,在公共文化服務體系中具有舉足輕重的地位。隨著我國經濟的持續高速增長,社會物質財富迅速增加,人民群眾對精神文化消費提出了越來越高的要求。LAM如何向社會公眾提供豐富的文化信息資源,如何讓社會公眾方便快捷地獲取這些資源,成為新的歷史條件下這些公共文化服務機構必須面對的問題。
隨著數字信息技術的發展和網絡環境的形成,LAM等信息資源收藏系統,正在將大量館藏轉換為數字形態,通過網絡為用戶提供超越時空的服務。然而,這種各自為政的資源管理和分散多頭的服務,不僅造成了數字資源的重復建設,而且阻礙了這些文化信息資源的有效利用和廣泛共享。因此,如何創建一個整合圖書、檔案、博物數字資源內容的基礎結構,在一個更加寬泛的框架內配置資源,提供用戶所希望的深層次的、一體化的信息資源服務,成為近年來各國LAM十分關注的課題。
1 關聯數據及其應用于LAM數字資源整合的意義
1.1 關聯數據概述
關聯數據這個術語是由“萬維網之父”Tim Berners-Lee在其萬維網體系架構筆記《關聯數據》中于2006年首次提出。但對于什么是關聯數據,學術界仍未達成一致。開放連接軟件的創建者及CEO 金斯利·艾得恩對其定義為“關聯數據是一種網絡上的富鏈接機制,將超文本鏈接變為超數據鏈接,也就是由文件指向文件變為由數據指向數據”[1]。維基百科將其定義為“一種推薦用來在語義網中運用URI和RDF發布、分享、鏈接各類數據、信息和知識的最佳實踐”[2]。簡而言之,關聯數據就是一種數據的發布方式,通過URI、HTTP協議和RDF等技術將一個個數據對象(而不是網絡文檔)連接起來,最終構建機器能夠理解的異構化和富含語義的數據網絡(web of data),以構建更智能的應用。關聯數據須遵循四個原則:①使用URI作為任何事物的標識名稱;②使用 HTTPURI使任何人都可以訪問這些標識名稱;③當有人訪問某個標識名稱時,提供有用的信息;④盡可能提供相關的URI,以使人們可以發現更多的事物[3]。
越來越多的機構青睞關聯數據這種新的數據發布方式。大型媒體公司,如美國紐約時報,從2009年開始以關聯開放數據發布權威的新聞詞匯,到2010年已經上載了10,467個主題表目,其中4978個人物的主題表目[4]。CKAN關聯數據中心的一個組是關聯的開放數據LOD組, 云圖中現含二百多個數據集[5]。 此外,CKAN關聯數據中心還有46個其他的組,比如圖書館關聯數據組(含38個數據集,大多數聯接都是與非圖書館數據的聯接)[6]、氣象數據組(含58個數據集)[7]、能源數據組[8](含21個數據集)等。其中被頻繁聯結的主要的數據集有DBpedia、DBLP Bibliography、GeoNames、Riese、UMBEL、GeoSpecies Knowledge Base以及BBC Music等。政府利用關聯數據技術也很積極,歐盟統計局的RIESE項目以“為了人和機器著想”為原則創建關聯數據,將統計局的數據集映射為RDF格式,提供了大約3億個RDF三元組,數百萬個高質量的互鏈接[9]。圖書館主要利用關聯數據發布資源、擴展資源發現服務、實現數據整合與語義檢索服務、促進學術研究和學術交流、實現異構關聯數據的開放與復用、實現圖書館與教學系統之間的集成等[10]。到2010年,圖書館的關聯數據集已超過20個[11](見圖1)。
1.2 關聯數據在LAM數字資源整合中的發展現狀
眾所周知,圖書館行業有著無與倫比的“規范控制”實踐經驗和不斷積累的數據優勢,而且近幾年國外圖書館界對關聯數據的研究與應用十分的重視。2010 年 5 月 28 日,萬維網協會W3C 宣布成立圖書館關聯數據孵化小組(Library Linked Data Incubator Group),該小組的目標是通過匯集圖書館界內外參與語義網活動(重點在關聯數據)的人、基于現有創新舉措、確定未來的合作軌跡,幫助提高圖書館數據在互聯網上的全球互操作。
圖書館關聯數據孵化小組創始成員來自國家圖書館、大學圖書館及研究單位、圖書館供應商及其他感興趣的利益相關人。其范圍不僅限于圖書館,也有意包括其他文化遺產機構、出版業的合作伙伴及其他相關領域[12]。由此可以看到,LAM正在逐步參與到圖書館關聯數據孵化小組的各項活動中,發揮著各自獨特的作用。
2011年6月2~3日,在美國舊金山舉辦了國際圖書館、檔案館和博物館關聯開放數據峰會(The International Linked Open Data in Libraries,Archives,and Museums Summit)簡稱“LOD-LAM”[13]。超過85個團體參加了本次峰會[14]。LOD-LAM 峰會的宗旨是:“促進關聯開放數據公布途徑的實用性和可行性”。包括為公布有效的關聯開放數據草案提供工具和技術支持,為有關LAM元數據的公布提供許可和版權的法律保障,以及發布定義并且推廣,使用實例向LAM的工作人員提供工具,在機構中倡導開發關聯數據的應用。在有關權利和開放數據的主題討論時,專家們提出了一個“開放關聯的文化元數據4星級分類計劃”[15]:
★★★★ 公共領域(CC0 / ODC PDDL / Public Domain Mark)
★★★ 署名許可證 (CC-BY / ODC-BY) (當許可方考慮到滿足歸屬要求的回溯連接時)(when the licensor considers link backs to meet the attribution requirement)
★★ 署名許可證 (CC-BY / ODC-BY)(其他形式的歸屬)( with another form of attribution)
★ 署名-相同方式分享許可證 (CC-BY-SA/ODC-ODBL)
在本次峰會上,與會的專家學者們圍繞LOD-LAM這一主題,針對不同的問題展開了激烈的討論,關注點主要集中在工具、用戶、版權、詞匯及其匹配、長期保存、標識符(生成、辨別、匹配、查重等)、數據來源和歷史、界面設計、自動獲取數據、出版、數據的再利用和重新定位、科學數據描述工具、機器學習加速匹配的過程、關聯數據相關概念的歷史、聯接特殊數據庫中的內容、普及和說服、改革檔案的描述方式等方面。峰會雖然已經落下了帷幕,但有關LAM在關聯數據方面的發展問題仍然備受矚目,LOD-LAM主頁上不斷地有專家學者發表相關的博文,越來越多的LAM領域的專家學者開始關注該領域,關聯數據在LAM的應用正在如火如荼地展開。
1.3 關聯數據應用于LAM數字資源整合的意義
LAM都有極其豐富的數字資源,并且對其元數據都進行了規范化控制。但由于行政體制等方面的問題,LAM的元數據采用的標準、遵循的協議不太一致,這就導致LAM的數字資源不能實現整合,不能實現一站式檢索,造成重復勞動和資源的利用率較低等問題。為了解決這些問題就要對LAM的數字資源進行整合。
對LAM的數字資源進行整合的第一步就是要對其元數據進行整合,都以關聯數據的形式發布本機構的資源。若LAM都能以關聯數據的形式發布本機構的資源,公眾就可以通過網絡檢索到更多更豐富的資源。比如用戶輸入“魯迅”進行檢索,通過關聯數據可以查到哪些圖書館收藏有魯迅的書,哪些博物館收藏有魯迅的遺物,哪些檔案館收藏有魯迅的相關檔案資料。這不僅極大地提高了LAM資源的利用率,而且可以更大程度上滿足社會公眾的文化需求,提升全社會文化生活的品質。
2 基于關聯數據的LAM數字資源整合模式探討
要實現基于關聯數據的LAM數字資源整合必須面臨著一個重要挑戰,即互操作和數據共享問題。如何將LAM分布結構的系統和資源有機的整合起來?如何向用戶提供一個高效、統一的數據發現機制?這些問題需要通過利用OAI-PMH協議基于LAM原有的系統,集成LAM的元數據,構建一個基于關聯數據并向用戶提供統一的信息服務得到解決。關聯數據把API(應用程序接口)統一為HTTP,經過簡單的擴展比如通過Hash或Slash方式轉發。運用關聯數據對數據訪問方式進行標準化,用戶或是代理無需知道某具體關聯數據發布網站的體系架構、存儲方式等任何技術細節,只需要知道Web服務器地址,就能夠直接用SPARQL進行訪問[16]。
在采集LAM的元數據時會存在以下兩個問題:①OAI-PMH協議規定可以使用 identifier 等參數限定采集范圍,但是目前不支持用戶自行設定采集參數,如按作者或語種采集,雖然這正是用戶所需要的;②在一個OAI倉儲中,每個Item(元數據條目)都有一個標識符,如oai:arXiv.org: quant-ph /9604021,但是這種標識符不是HTTP URI形式,是不能夠直接通過它來采集相應的元數據的[17]。
因此,要利用關聯數據實現LAM數字資源整合,首先需要實現OAI-PMH元數據的關聯數據化,即將OAI倉儲中的元數據轉換為關聯數據,以解決用戶在按傳統方式采集這些元數據時所遇到的問題。
2.1 OAI-PMH元數據的關聯數據化
要實現OAI-PMH元數據的關聯數據化,需要按照關聯數據四原則的要求,來明確URI的分配方法、描述關聯數據的元數據元素、關聯規則和關聯信息所使用的生成方法;選定合適的OAI倉儲,利用baseURL采集元數據,并且把結果保存在本地元數據庫;利用D2R等發布工具,將結果生成映射文件,根據上述過程,將本地元數據庫中的數據轉換為關聯數據。
LAM可以通過上述原理將OAI-PMH元數據轉換為關聯數據,然后通過URI直接訪問記錄的元數據,同樣可以按照 SPARQL 協議任意設定查詢條件,從而實現對元數據的批量檢索。但是需要注意的是LAM一定要建立各自的OAI倉儲,其數字資源要有標準的元數據,這樣才能擁有豐富的LOA-LAM,實現LAM元數據的關聯數據化。
2.2 基于關聯數據的LAM數字資源整合模式
在關聯開放數據(LOD)項目的推動下,目前有超過130億條傳統網頁上的數據,例如維基百科、地理數據集和政府數據集等,已經自動半自動地轉換成了關聯數據,構建了龐大的數據網絡[18]。關聯數據的出現使得LAM和其他組織機構之間進行數據的識別和交換越來越容易。越來越多的LAM對數據數字資源整合十分重視,并意識到有責任承擔起創建LAM關聯數據的任務。LAM需要儲存相關的關聯數據,來滿足社會的需求。LAM之間,LAM和數據存儲機構之間的合作將越來越緊密,LAM在發布關聯數據方面發揮更大的作用。
歐洲數字圖書館(Europeana)是歐洲國家圖書館的數字資源門戶[19],該網站提供了多國語言支持,以方便各地用戶使用。歐盟委員會2010年11月18日發表公報說,歐洲數字圖書館中書籍、地圖、繪畫、照片、檔案、電影和音樂等電子版藏品超過1400萬件,這些藏品已向公眾開放。Europeana非常重視門戶的互操作性,采用了SKOS和其他一些元數據模式。其大多數資源來自歐盟27個成員國的1000多個圖書館和博物館。它整合了LAM等組織機構電子版藏品的元數據。
LOA-LAM的不斷豐富,為實現LAM數字資源的有效整合打開了便利之門,LAM可以根據關聯數據的基本原理和關聯數據驅動的Web應用框架,在不同的數據間通過URI建立關聯。筆者嘗試著構建出基于關聯數據的LAM數字資源整合模式(見圖3)。基于關聯數據的LAM數字資源的整合模式從下往上可以分為數據發布層、數據關聯層和數據集成應用層三個層次[20]。數據發布層是指來自LAM的信息資源,如書籍、檔案、照片、地圖、繪畫、電影和音樂等。對應的LAM三個資源主體,可以將它們的數據按照“關聯數據四原則”發布在網絡上,使用戶可以通過網絡對三館的資源進行瀏覽。但是在該框架下發布的各種LAM資源不同于傳統的LAM資源發布形式,都是利用資源描述框架進行描述的。數據關聯層是指由于LAM的資源內部可能存在特定的關聯關系,如一部電影對應一家或若干家公司,一個人可以有多部著作等,將這些關系通過RDF鏈接聯系起來,形成一個數據的網絡,不同類型的資源通過關聯數據建立鏈接。數據集成應用層指的是關聯數據瀏覽、SPARQL檢索等基于各種關聯數據的網絡應用。例如,歐洲數字圖書館目前正在開發數字資源門戶的語義檢索服務。這項服務通過將檢索詞匹配到地點、名字、題名和概念,為用戶提供更有意義的檢索結果。此外,Europeana Connect項目為了能夠實現在對象之間建立語義鏈接,正在將語義層引入Europeana[21] 。
要實現基于關聯數據的LAM數字資源整合模式既需要運用傳統網絡的URI(統一資源標識符)和HTTP(超文本傳輸協議)這兩項技術,還要涉及一些語義網的技術,例如RDF、SPARQL和OWL等。
3 LAM在利用關聯數據時需要注意的問題
對于LAM來說,關聯數據最大的優點是對于來自不同數據源的同一個對象通過提供多個分布式異構數據源整合的關聯訪問,對其進行數據整合,將該對象的所有相關信息進行統一視圖,然后再反饋給用戶。目前的關聯數據瀏覽器,用戶可以在不同數據源之間進行瀏覽。但是在數據整合的基礎上,運用適當的用戶交互模式依舊十分困難。因此,LAM在利用瀏覽器和搜索引擎時,應對當前的用戶交互模式進行優化,提供和互聯網瀏覽器類似的前進和后退功能,使用戶能在數據網絡中自由的暢游,而且關聯數據瀏覽器應當提供一個有效的機制允許用戶增加或刪除當前視圖中的數據資源。
雖然關聯數據應用前景良好,但也存在著很多問題。它最大的阻礙就是封閉。在封閉系統中,LAM基本無法利用關聯數據對數字資源進行連接和整合。當前,LAM通過各種渠道(購買、租用或者開發)獲得的大量資源庫是需要通過訪問接口才能獲取的,如果這些資源庫的接口都是不開放,關聯數據也就會無計可施。在數據網絡中,需要鼓勵更多的數據提供者參與進來,并且保證數據的用戶能夠規范使用這些數據。目前,在LOD-LAM 項目中圖書館的關聯數據集發展較快,但比較缺乏檔案館和博物館的關聯數據集。因此,有關LOD-LAM的研究就顯得很有必要。LOD-LAM的開放許可標準需要全面考慮到各種不同類型的數據和平衡各方利益,既要為數據提供者發布關聯數據提供便利,也要為他們帶去一定的利益,同時還要遵循相關法律法規。
LOD-LAM是開放的,不斷更新的,允許任何人在互聯網上發布LOD-LAM。如果LOD-LAM源被修改或者刪除,數據源之間的關聯很可能發生斷鏈現象,從而使得基于LOD-LAM的應用程序發生錯誤。因此,為了有效利用關聯數據,必須保證URI的完整性、準確性和可靠性。LAM應用關聯數據時,必須提供關聯數據源的監控插件,以監測發生問題的關聯,并有效幫助數據源發現和維護網絡中數據源與數據源之間的關聯。為了降低應用層對關聯數據斷鏈的處理,LAM應當保證關聯數據源關聯集成的高可用性,建立起有效的監測和修正機制,以維護關聯數據的參照完整性和數據更新的同步性。
4 結語
關聯數據為LAM提供了一種數字資源之間的關聯和鏈接機制,有利于LAM中不同類型的數據、信息和知識的發現和共享。關聯數據在數據層建立了富鏈接機制,較為完善地描述了數據的結構信息。由于關聯數據運用了URI,保證了計算機能夠自動鏈接各種數據,奠定了資源整合的智能化和自動化基礎。LAM應該充分利用關聯數據源中的關聯關系,利用關聯數據強大的連接功能,有序地組織、集成和關聯本館資源,進行資源內容的互聯和深層展示,整合LAM中多種類型數字資源,為用戶提供全方位、多層次的數字資源集成服務。在社會公眾對文化信息需求越來越強烈、越來越廣泛,在信息技術對社會發展的影響越來越深刻、越來越全面的時代背景下,LAM數字資源的整合是時代的要求、是歷史的趨勢。關聯數據應時代而生,它必定會在LAM數字資源整合過程中發揮極其重要的作用。
參考文獻:
[1]Idehen K.Creanting,Developing and Exploiting Linked Data[EB/OL].[2011-10-22]. http://virtuoso.openlinksw.com/presentations/Creanting_Developing_Exploiting_Link
ed_Data2/Creanting_Developing_Exploiting_Linked _Data2_TimBL_v3.html#%281%29.
[2]維基百科.LinkedData[EB/OL].[2011-10-22].http://en.wikipedia.org/wiki/Linked_Data.
[3]Berners-Lee T.Linked data[EB/OL].[2010-10-17].http://www.w3.org/DesignIssues/LinkedData.html.
[4]The New York Times.Linked Open Date[EB/OL].[2011-10-17].http://data.nytimes.com/.
[5]The Data Hub.LOD Cloud[EB/OL].[2011-10-17].http://ckan.net/group/lodcloud.
[6]The Data Hub.Library Linked Data[EB/OL].[2011-10-17].http://ckan.net/group/lld.
[7]The Data Hub.Climate Data[EB/OL].[2011-10-17].http://ckan.net/group/climatedata.
[8]The Data Hub.Energy Data[EB/OL].[2011-10-17].http://ckan.net/group/energy-data.
[9]婁秀明.用關聯數據技術實現網絡知識組織系統的研究[D].上海:華東師范大學,2010.
[10][21]黃永文.關聯數據在圖書館中的應用研究綜述[J].數字圖書館,2010,(5):6-7.
[11]Singer R.The Linked Library Data Cloud[EB/OL].[2011-10-17].http://code4lib.org/conference/2010/singer。
[12]W3C.W3CLibrary Linked Data Incubator Group[EB/OL].[2011-10-17].http://www.w3.org/2005/Incubator/lld/.
[13]LOD-LAM.Home[EB/OL].[2011-10-17]. http://lod-lam.net/summit/.
[14]LOD-LAM.Participants[EB/OL].[2011-10-17]. http://lod-lam.net/summit/participants/.
[15]MacKenzie S. Proposed: a 4-star classification-scheme for linked open cultural metadata[EB/OL].[2011-10-17].http://lod-lam.net/summit/2011/06/06/proposed-a-4-star-classification-scheme-for-linked-open-cultural
-metadata/.
[16]劉煒.關聯數據:概念、技術及應用展望[J].大學圖書館學報,2011,(2):6-9.
[17]郭少友.OAI-PMH元數據的關聯數據化方法研究[J].圖書情報工作,2011,(1):107-108.
[18]潘有能,張悅.關聯數據研究與應用進展[J].情報科學,2011,(1):124.
[19]Concordia C.Gradmann S.Siebinga S. Not (just) a Repository, nor (just) a Digital Library, nor(just) a Portal:A Portrait of European as an API[EB/OL].[2011-10-16].http://www.ifla.org/files/hq/papers/ifla75
/193-concordia-en.pdf.
[20]馬費成等.基于關聯數據的網絡信息資源集成[J]. 情報雜志,2011,(2):168.
作者簡介:鄭燃,女,武漢大學信息管理學院圖書館學博士研究生;唐義,男,武漢大學信息管理學院碩士研究生;戴艷清,女,武漢大學信息管理學院博士研究生。