關聯數據:概念、技術及應用展望

2011-01-27 01:42:22□劉煒

大學圖書館學報 2011年2期

□劉煒

關聯數據:概念、技術及應用展望

□劉煒

概述了關聯數據概念的提出、基本內涵、技術實現和當前國內外的研究應用狀況,對其在圖書館行業的應用作了簡要介紹,點評了國內該領域的研究開發情況,重點闡述了對于圖書館在Web上發布書目數據和規范數據的重要意義,認為關聯數據與網絡時代的圖書情報工作關系密切,是互聯網發展到語義網時代,對網上資源和數字對象進行“編目”和“規范控制”的基礎性技術,是數字圖書館進行信息資源發布和服務的核心技術之一。最后作者呼吁我國圖書情報界重視這一技術,及早投入一定的資源和人力進行研究開發和應用推廣,使圖書館大量的權威數據在互聯網上占據一席之地。

關聯數據 Linked Data 規范控制語義網

引言:一個有序的知識世界

哲學家波普爾的心中存在一個超然世外、遺世獨立的知識世界,負載卻不依賴于具體的物質世界,依靠卻不附屬于個體的精神世界。這個世界總體上依賴于信息網絡和各類載體而存在,具體上卻不依附于任何個體的硬件設施;理解或解讀這個世界需要人類大腦的參與,但它卻有其自身的發展規律。遺憾的是在波普爾1994年去世前,這個世界還沒有像現在這么具體、形象和幾乎就要實現。這就是語義網的世界。

試想,如果每一本書都有一個獨立的網址,每一個作者都有一條可以公開訪問的記錄,每個刊物、出版社,每個主題詞、每個分類號……每個“知識點”,在網絡中都有一個唯一標識,所有這些“資源”之間的關系都能從其標識所指引的地址里找到詳盡的說明;甚至萬事萬物,不論是自然的、社會的或精神的,都有一個標識符,都建立起豐富的關聯,計算機能夠自動通過網絡推理和挖掘知識,那將是一個多么有序的知識世界!

1 什么是關聯數據?

“關聯數據”所提出的技術架構,為實現這個有序的知識世界帶來了曙光。

關聯數據是國際互聯網協會(W3C)推薦的一種規范,用來發布和聯接各類數據、信息和知識,它希望在現有的萬維網基礎上,建立一個映射所有自然、社會和精神世界的數據網絡,通過對大千世界萬事萬物及其相互之間關系進行機器可讀的描述,使互聯網進化為一個富含語義的、互聯互通的知識海洋,從而使任何人都能夠借助整個互聯網的計算設施和運算能力,在更大范圍內,準確、高效、可靠地查找、分享、利用這些相互關聯的信息和知識。

從技術上看,關聯數據是在萬維網上發布任何“資源”的一種方式。語義萬維網將資源定義為“任何有URI標識的東西”,分為信息資源和非信息資源兩類,信息資源用以表達任何信息,通常以某種編碼的文件形式而存在;非信息資源用以指代大千世界中的各類實體對象,可以是自然界、人類社會以及人類意識所創造的精神世界(概念、觀念、抽象實體等)的所有對象。

關聯數據通過HT TP URI方式表示和存取“資源”。如果這個資源是信息資源,則可以直接通過傳統的Web方式獲取;如果是非信息資源,則鏈接到一個以RDF/XML編碼的、用以指代該“非信息資源”的數據文件,而不是其他任何格式的文檔。這個RDF/XML編碼的文件包含了關于這個“非信息資源”的元數據描述和與其他相關實體對象的關聯關系描述。對象之間的關聯關系通常可以用本體語言來編碼,許多領域應用的知識體系都有規范的、可重用的本體,可用來建立實體對象之間的關聯關系。

關聯數據的 URI除了能夠在萬維網范圍內唯一標識資源對象之外,還能起到定位的作用,從而能夠用以“關聯”數據。具體的關聯是依靠RDF文件中的大量資源鏈接來實現的,這些鏈接不僅決定了數據的語義,也通過“屬性”而關聯到其所能鏈接到的、大量的相關資源實體。這些“屬性”本身也是資源,也應該有唯一標識符 URI加以定義和描述,我們通常所稱的“元數據方案”就是這類屬性的集合,規定了所需進行描述的語義及其相互關系,其本身就可以看成是描述某些特定對象的本體。

關聯數據的發明人蒂姆·伯納斯-李(Tim Berners-Lee)為關聯數據總結了四個原則,很好地概括了上述關聯數據的諸多特性:

(1)使用URI作為任何事物的標識名稱,不僅是標識文檔;

(2)使用 HT TP URI,使任何人都可以參引①注:這里的“參引”(dereference),意指“為了獲取引用資源的相關信息,在萬維網上查找U RI的過程”。下同。(dereference)這一全局唯一的名稱;

(3)當有人訪問名稱時,以RDF形式提供有用的信息;

(4)盡可能提供鏈接,指向其他的URI,以使人們發現更多的相關信息。

其中第三和第四點要求RDF文件包含有用信息以及盡可能多的URI,這就要求關聯數據的RDF文件盡可能不使用“空白節點(blank nodes)”和少使用普通“文字(literal)”。在這里,“空白節點”是沒有全局ID的本地資源(沒有定義命名域的 URI,如ISBN,DOI),“文字”指一個字串值(可以有類型以及語言屬性),由于這兩種描述方式都不能用來指代“資源”,因此過多地使用“空白節點”和“文字”不能起到數據(即資源)關聯的作用,實現關聯數據的目的。

總之,可以認為關聯數據是一組最佳實踐的集合,它采用RDF數據模型,利用URI(統一資源標識符)命名數據實體,來發布和部署實例數據和類數據,從而可以通過 HTT P協議揭示并獲取這些數據,同時它強調數據的相互關聯、相互聯系和有益于人機理解的語境信息。

2 關聯數據能做什么?

關聯數據可以看成是語義萬維網的一種簡化實現,作為一種語義信息的編碼、發布和利用方式,它的作用是基礎性的和多方面的。從目前的研究開發項目來看,對關聯數據的應用主要體現了兩個方面的作用:一、提供“可信網絡”的語義要素;二、作為跨網域數據整合的通用API。它最終是為了用戶更準確地、從更大范圍、適時適地(just-in-time和just-incase)地獲取信息而服務的,但最終用戶無需知道這些服務背后的技術細節,因此關聯數據的“用戶”,目前還主要是指圖書館、網站、信息提供商之類的機構組織,常被稱為“信息中介”。

“可信網絡”意為其信息資源的來源可追蹤或可通過一定算法計算其“信度”的網絡。關聯數據的技術架構不僅提供了信息資源可以追蹤來源(具有URI)的RDF語義描述,而且為各類對象實體以及所涉及的大量概念術語提供了規范控制。例如對每個作品、表達、表現,或作者、機構、家庭等實體提供一個唯一的URI參引,或對每個主題、概念、術語、事件、分類詞或屬性詞等,提供一個唯一的出處。這實際上就是傳統圖書館學中“書目控制”(又稱權威控制)的擴展:當人們提及某一實體,或某一概念術語時,系統能夠給予自動的歸并或參照。這種機制,就是規范控制。規范控制的結果,就是信息在一定程度上更加可信。

若要進行跨網域的數據整合,關聯數據把API(應用程序接口)統一為HT TP一種,只不過經過了簡單的擴展而已(指Hash或Slash方式轉發)。也就是說關聯數據對數據訪問方式進行了標準化,用戶或代理無需知道某具體關聯數據發布網站的體系架構、存儲方式等任何技術細節,只要知道Web服務器地址,都可以直接用SPARQL進行訪問。

據此,目前的關聯數據應用系統的開發,基本上也可分為兩類:“關聯數據倉儲系統”和“關聯數據服務系統”。前者關心的是將數據發布為面向網絡的關聯數據倉儲,后者關注不同倉儲的整合應用和互操作。當然,這兩者也不是截然分開的,某些應用兼而有之,是這兩者的聯合。

目前把各類數據發布為關聯數據是一個熱點,圖書館行業在這方面已成為先鋒,不僅將本行業歷久彌新的各類概念體系受控詞表發布出來(即將各類知識組織體系發布成SKOS),越來越多的元數據方案、本體,乃至圖書館傳統的各類規范檔(如書目記錄、人名、地名、機構名等)都在探索以關聯數據的形式發布,而且在發布過程中探索了領域本體(如FRBR)的應用。下一步我們可以期待,重點將會逐漸轉移到跨應用的語義整合服務,例如各類術語體系或元數據的映射等。

當然,關聯數據也不是萬能的,它最大的敵人就是封閉,無法對封閉系統中的資源進行整合。目前圖書館購買或租用的大量資源庫需要遠程訪問才能獲得,如果這些資源庫不提供一定的開放接口,關聯數據就無計可施,最多利用本體和術語規范的關聯數據,從服務整合的角度,提供一定的資源導航或術語規范的支持。

總之,關聯數據相比于語義萬維網技術來說,其實現更加簡單,但背后同樣有數學和邏輯學的支持,具有規范性和可靠性。作為一種數據發布技術,由于支持了語義描述,同時提供標準的服務接口,有效地提高了數據的可查找性和可重用性,其影響力正在日益顯現,潛力十分巨大,已成為影響互聯網基礎結構的關鍵技術之一。

3 關聯數據是如何實現的?

關聯數據是建立在Web技術之上的,Web技術主要涉及三個內容:HT TP、URL和HTML。

·HTTP是服務器操作的指令,規定了遇到各種請求(如GET/PUT/POST/DELETE)服務器如何響應,怎么處理;

·HTML是存儲在服務器端的網頁文件,將根據請求傳送給瀏覽器,HTML的標準規定了文件的結構,允許包含豐富的超文本鏈接,并能嵌套各類其他文件格式,如果瀏覽器一端有相應的資源或程序就能夠調用或運行。正是由于H TML,使整個萬維網上布滿了相互鏈接的文件,成為一個巨大的、不斷膨脹的文件宇宙,這就是為什么說目前的萬維網是文件的萬維網(Web of Documents)的原因。

·URL本來是作為在這個文件宇宙中定位具體的文件而用的,后來演變成兼具名稱作用,從而連同URN一起,統一作為URI的子類。

關聯數據把上面三個技術作了進一步的限定和擴展,用URI同時解決命名和定位問題。在具體實現URI命名和定位時,由于該名稱有永久性和易實現的要求,路徑作為某個資源名稱的一部分,不允許隨意發生改變,并且在不同的軟硬件平臺和技術環境下都需要能夠正確編碼,這就需要作為關聯數據標識的URI符合CoolURI規范。

同時對于同一個對象,必須允許有不同的描述與表達方式,例如對于“http://www.kevenlw.name/about/index.php” 中關于 kevenlw 的FOAF①FOAF是個人信息描述的一種 RDF格式,參見:http://www.foaf-project.org/。描述,既要有html文件(php可以認為是動態生成的html文件),通過瀏覽器顯示給人看,又要有rdf文件描述kevenlw的各種性狀屬性以便機器獲取相關元數據信息,如foaf文件:http://www.kevenlw.name/kevenfoaf.rdf。這兩個文件其實描述的是同一個“東西”,因此不應該有不同的ID標識(注意:在這里是兩個不同的URI,這是不規范的),必須在一個URI中區分這兩類數據,同時讓服務器有一種機制,能夠自動地根據請求方的不同,傳送不同格式的數據。

關聯數據的具體實現方式解釋如下:

一、對于來自客戶端的對任何非信息資源的所有URI“參引”請求,均采用HTT P協議中的“內容協商”規則,返回其所請求的信息資源描述文件(對于非信息資源的請求是無法返回具體實物對象的,只能以描述該對象的代碼文件代替)。一般信息資源描述文件有兩類:即如果請求來自于普通瀏覽器(頭信息中包含text/html請求,其他MIME文件類型,如圖像文件、音視頻文件等,可歸入此類),則返回HTML文件的網頁;如果請求為application/rdf+xml,則返回負責該對象語義描述的RDF文件。

二、具體的“內容協商”方式,通常有兩種方案達成:

(1)采用 HT TP協議的303指令重定向功能(如圖1所示②示意圖來自BBC關聯數據項目報告,原圖地址:http://www.bbc.co.uk/blogs/radiolabs/s5/linked-data/ui/images/slash303conneg.png。)。客戶端(瀏覽器)的URI請求由于不存在“東西”(非信息資源),服務器就會發送一個303See Other給客戶端,再由客戶端根據重定向規則發送請求,具體根據客戶端是H TML瀏覽器還是支持RDF的瀏覽器,決定HT TP文件頭請求何種類型的文件(HTML或者RDF)。

該過程的具體流程如圖2所示③原圖來自參考文獻14,地址:http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/deref-ont-uri-rdf.png:

圖1 HTTP協議303指令重定向示意圖

圖2 HTTP協議303指令重定向流程示意圖

圖3 采用“#”進行“內容協商”定位資源描述的示意圖

URI重定向通常采用以下慣例:

(2)采用帶“#”號(hash)的 URI方式(如圖 3所示①示意圖來自BBC關聯數據項目報告,原圖地址:http://www.bbc.co.uk/blogs/radiolabs/s5/linked-data/ui/images/hashconneg.png。)。“#”號前面的 URI能夠便于瀏覽器進行解析定位,而與后面帶“#”號的片段標識符共同用來標識非信息資源,該片段標識符同時起到了類似于重定向的功能,允許支持RDF的瀏覽器參引到信息資源文件(在這里是靜態的RDF文件)的所需位置。這種方式要求該片段標識符必須在RDF文件中是唯一的,且整個RDF文件不可過大,否則非常影響查詢效率。

采用“#”號方式作為URI的例子如:

由于關聯數據從技術上看只是一種簡單的數據發布規范,規模較小的應用只需要對現有的Web服務器軟件進行一定的設置,設定好資源對象的URI命名規范(以如上所述的各種方式),并將這些資源的RDF描述以靜態文件的形式發布出來。對于海量數據倉儲,則后臺必須有支持關聯數據規范發布方式的數據庫管理平臺,目前開源軟件已經有著名的內容管理平臺Drupal②參見:http://drupal.org/全面支持關聯數據,Ruby on Rails③參見:http://www.rubyonrails.org/據說也已開發了完整的支持模塊。另一個做法是利用關系型數據庫系統的管理功能,編制映射文件,實時地將數據表、行、列、值映射為RDF數據中的類、屬性、資源、屬性值(文本與連接)等。這種方式通常被稱為D2R方式,即從數據庫到RDF數據轉換的方式。這樣等于在原有的Web數據庫三層應用架構基礎上增加了語義構建層(即生成RDF數據以供SPARQL查詢),大大簡化了語義內容的構建難度,發布速度快,但也帶來了語義標注一致性差、質量不高的問題。目前LOD④參見:http://linkeddata.org/(即開放關聯數據LOD:Linked Open Data)中有很多大型數據集都采用了這種方式發布。關于關聯數據發布的詳細解釋,可以參考 Chris Bizer、Richard Cyganiak和Tom Heath合著的How to Publish Linked Data on the Web一文⑤參見:Chris Bizer,Richard Cyganiak,Tom Heath.How to Publish Linked Data on the Web.[2011-01-18].http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/。

4 關聯數據在國外的研發應用現狀

2006年7月蒂姆·伯納斯-李提出關聯數據,由于其主要是一套應用規范,而不是難度很高的技術開發,很快成為互聯網研究和應用的一個熱點領域。在2007年開放關聯數據運動的推動下,不久便出現一大批實驗性的應用,表示關聯數據應用范圍的云圖不斷增大①參見:http://richard.cyganiak.de/2007/10/lod/,關聯的開放數據呈幾何級數飛速增長,截止2010年11月,LOD中的數據集合已有100多個,其中RDF三元組數據已達131億。其內容也逐步擴展,從早期的地理信息、生命科學數據、百科詞條等,發展到目前涉及媒體、出版、政府信息、圖形圖像等,幾乎無所不包。

除了關聯數據專題會議之外,2007年以來幾乎每個互聯網國際會議都以關聯數據作為主題或最重要的分主題,如全球互聯網大會(WWW)、語義萬維網年會(ISWC)、AAAI年會、DCMI國際元數據年會等。自從W3C的2007年年會(即WWW2007)之后,關聯數據就開始作為一個專門的分會場——LDOW:Linked Data On the Web,于每年召開。該會議已成為關聯數據領域最重要的會議,會上所探討的主題代表了最新的研究和開發動向,目前已從最初的關聯數據的發布和瀏覽,到關聯數據的應用架構、關聯算法、Web數據融合、關聯數據的消費和關聯服務等諸多方面。

關聯數據領域的一個鮮明特點是邊研究邊應用,在實踐中不斷得到檢驗和完善。目前涌現出一批非常知名的應用,如美國和英國政府的政府信息、英國廣播公司(BBC)、紐約時報、路透社、百思買等。

以下以BBC為例,簡要介紹關聯數據對于組織機構內部數字資產管理和利用所帶來的變化。

BBC是世界上最大的廣播電視公司之一,創立于1920年,目前有32種語言的國際服務,8個全國電視頻道,1個高清頻道,大量的地方頻道,10個國家電臺,40多個地方電臺等,積累了難以想象的資料和素材,管理、發現和重用這些資源都是巨大的挑戰,更別說開放出來給公眾使用。

BBC矢志成為業界翹楚。它的網站bbc.co.uk開設于1994年,是同行業中最早的網站,語義網技術使它燃起了新的希望,它希望建立先進的語義媒體庫,不僅利用網站進行節目推廣,而且可以發布、推送、組織和存檔節目,支持知識搜索,使其積累的大量內容成為儲存人類記憶的腦庫。于是它利用關聯數據技術,給每個節目(每一集)都建立了自己專屬的網頁和靜態地址(CoolURL),每個知識單元都有自己的結構化描述和永久地址,而且每個網頁都可以由所有這些知識單元根據模版自動生成,同時以同樣的方法建立了455465位藝術家的信息,682473個播出節目,7851093個音軌,以及31112個Labels的完整資料。BBC還采用了鼓勵用戶貢獻信息和糾錯的機制,用戶的參與使信息庫的完整性和準確性不斷得到提高。BBC認為關聯數據技術使其網站和數據的可用性得到大大增強,用戶的體驗得到巨大提升,搜索引擎的查詢效果得到優化,資源的可查找性、可點擊性和可傳播性都得到很大提高。現在BBC的整個網站同時又是一個API平臺,它采用了RESTful發布,與Web無縫集成,保證了鏈接的永久性和數據的開放性,并且其系統的各組成部分松散耦合,互有聯系卻互不干擾,整個系統進入可持續發展的良性軌道。

5 圖書館行業的關聯數據應用

自從2008年瑞典國家圖書館首家以關聯數據的形式發布了LIBRIS國家書目,并將其中的數據與DBPedia相關聯之后,到2010年,已有逾20個圖書館的關聯數據集②來自Ross Singer2010年Code4Lib報告http://code4lib.org/conference/2010/singer中的圖書館關聯數據云圖。。

圖4 2010年已有的圖書館領域關聯數據集

其中至少有以下5個國際、國家級的書目數據/規范數據開放了關聯數據服務:

·美國國會圖書館及其主題標目(LCSH)(id.loc.gov)

·德國國家圖書館的聯合權威檔(Gemeinsame Normdatei)(d-nb.info/gnd/)

·法國國家圖書館(BnF)的RAMEAU主題標目(stitch.cs.vu.nl/rameau/)

·OCLC的杜威分類法及國際虛擬權威檔(VIAF)(dewey.info/和viaf.org/)

·匈牙利國家圖書館的目錄和敘詞表(oszkdk.oszk.hu/resource/DRJ/404)

另外DC元數據、應用了FRBR的RDA詞表、BIBO書目本體(http://bibliontology.com/)、SKOS知識組織編碼模式和OAI-ORE對象重用和交換模型都可作為數據關聯的語義工具。

目前這類詞表和KOS已經如雨后春筍一般涌現出來。較著名的有:

·STW經濟學敘詞表(zbw.eu/stw)

·社會科學敘詞表(lod.gesis.org)

·GEMET環境敘詞表(eionet.europa.eu/gemet)

·Agrovoc(聯合國糧農組織敘詞表)(aims.fao.org/)

·紐約時報主題標目(data.nytimes.com/)

·科學出版物詞表(dblp.rkbexplorer.com)

因為有了如此進展,Antoine把2010年稱為圖書館關聯數據元年①參見:http://talis-linkeddata-libraries.s3.amazonaws.com/I-saac-LLD10.pdf slide 6:“2010,Year 1of Library Linked Data”。。

圖書館行業所具有的經年累積的高質量數據,包含了大量的、值得揭示和參照復用的內容實體,只是這些東西都隱藏在書目記錄內部,沒有獨立標識,也缺乏結構化描述,特別是其相互之間的隱含關系尤其值得揭示,但工作量浩大,必須開發一定的規則算法,由機器進行批處理。

IFLA也注意到了關聯數據與圖書館的密切聯系,于2010年6月發布了《關聯數據與圖書館》的專題報告[1],由德國國家圖書館的Jan Hannemann和Jürgen Kett執筆。文章介紹了德國國家圖書館在應用關聯數據技術方面的進展,包括三個具體的實例:德國作家Bertolt Brecht的規范數據、國際圖聯(IFLA)海牙總部的機構規范數據和主題“Führungskraft” (英語 :“Executive”)的標目 ,探討了關聯數據對于圖書館的意義和應用前景,對于全球圖書館如何互通互聯數據、并在此基礎上探索新的服務內容和方式,進行了全面深入的思考。

由于圖書館行業有著獨特的“規范控制”經驗和長期積累的數據優勢,萬維網協會W3C專門成立了“圖書館關聯數據孵化小組(Library Linked Data Incubator Group)”②參見:http://www.w3.org/2005/Incubator/lld/,由 DCMI的元老 Thomas Baker領銜,匯集語義網、特別是關聯數據方面的高手,集思廣益,充分挖掘現有圖書館領域的相關專業知識,如元數據模型、元數據模式、標準和協議等,重新定義需求、編制指南、開發新的標準,鼓勵圖書館界將它們的各類數據和規范檔以關聯數據的形式發布到互聯網上,提高圖書館數據在萬維網上的互操作性,使圖書館行業成為萬維網上最重要的語義數據提供者,并探索和尋求與其他相關領域的數據和應用進行協同的可能性。

孵化小組目前已完成了約50多個用例(Use Cases)的收集和編寫③參加:http://www.w3.org/2005/Incubator/lld/wiki/UseCases,內容涉及書目數據、規范控制、詞表發布、檔案和異構數據、參考引文、數字對象、資源集合、社會性應用等各個方面,還在不斷增加,涵蓋非常廣泛,幾乎包括了圖書館行業數據可能想到的所有方面。

盡管已經取得了不小的進展,圖書館界應用關聯數據的困難也十分明顯,主要表現在以下4個方面:一是缺乏可資利用的、公認的術語詞表,各類KOS、本體尚未經過嚴格的編碼應用檢驗,而且目前也不夠用、不統一;二是缺乏成熟的方法和可以立即上手的工具;三是數據的版權屬性不明朗,有時可能有法律風險;四是做這個事情還是缺乏經驗,需求掌握也不是很充分,為什么做?有什么用?能不能達到預期目的?還都是未知數。

6 國內的研究與應用

國內最早引介關聯數據,應該是2008年12月在上海召開的“數字環境下圖書館前沿問題研討班”上,劉煒所作的“語義互操作與關聯數據”介紹①參見:http://www.lib.sjtu.edu.cn/adls/download/12-18/1218AM-C2.pdf,當時是為了宣傳次年在韓國召開的DC-2009國際元數據會議主題,希望國內同行關注這一新的技術動向。美國著名圖書情報學家曾蕾教授在同一個會上所作的題為“術語注冊和網絡服務系統當前技術和應用”②參見:http://www.lib.sjtu.edu.cn/adls/download/12-17/1217PM-A7.pdf的報告,更為詳細地介紹了關聯數據技術及其應用現狀。隨后曾蕾教授前往中國國家圖書館和中國人民大學圖書館,又作了兩場同題報告,傳播了正在國外興起的“關聯數據”研究和應用。

關聯數據與元數據具有天然的聯系,從某種程度上可以說關聯數據是元數據語義表達和實現其功能需求的最佳方式,就像業界普遍認為RDF是當然的“元數據格式”一樣,RDF作為一種數據表達方式(三元組),其在Web上開放發布的最簡單便捷的形式,就是“關聯數據”的一整套被稱為“最佳實踐”的規范。盡管這些說法可能不是非常嚴格準確,但還是從某種程度上揭示了這些概念之間的關系。

DCMI的國際元數據年會從2008年柏林會議就有大量的關聯數據討論,這時已經經歷了國外2007年關聯數據的持續升溫。在美國雪城大學秦健教授的推薦下,劉煒為《現代圖書情報技術》組織了一個DC-2008年會會議錄中有關語義網應用的翻譯文章專輯,其中有兩篇涉及關聯數據,分別介紹了瑞典國家圖書館以關聯數據形式發布書目數據[2],以及美國國會圖書館主題標目的關聯數據應用[3]。這兩個應用可以說是圖書館行業在這一領域應用的先驅和樣板。

由武漢華中科技大學主辦的2009年“數字環境下圖書館前沿問題研討班”③參見:http://202.114.9.60/dl6/又一次涉及了關聯數據主題。這次會議上由于有曾蕾教授的強烈推薦,引起了大家對關聯數據的高度重視和強烈興趣,開始認識到這是代表發展方向的一個技術領域,將對未來的網絡信息資源組織和應用產生重大影響。這次會議上曾蕾和劉煒分別作了“關聯的圖書館數據”④參見:http://202.114.9.60/dl6/pdf/26.pdf和“關聯數據:意義及其實現”⑤參見:http://202.114.9.60/dl6/pdf/24.pdf的報告。

2010年8月上海市圖書館學會在普陀區圖書館召開了一年一度的“圖書館前沿技術論壇”,主題定為“關聯數據與書目數據的未來”⑥參見:http://www.libnet.sh.cn/tsgxh/list/list.aspx?id=6604,參加會議交流的除了上海市在該領域從事研究開發的一些專業人員之外,遠在大洋彼岸的曾蕾教授也通過遠程會議系統為會議作了第一個報告,會議特別邀請了新西蘭奧克蘭大學圖書館的資深技術專家林海青先生、中國科技信息研究所的白海燕女士和嘉興學院的黃田青先生,一共進行了8場專題報告⑦參見:http://www.kevenlw.name/archives/2199,最后還進行了討論和互動,全國各地約有近20位對關聯數據感興趣或正在從事研究的同行也參與了網絡直播和交流。上海圖書館學會學術委員會主任范并思教授在開幕致辭和閉幕總結中對這次會議給予了高度評價。

從國內見諸專業刊物的文章來看,關聯數據的研究尚不普及。除了上面提到的兩篇翻譯文章之外,總共只有不超過10篇論文,其中有兩篇是綜述文章,黃永文的綜述[4]主要側重圖書館應用的角度,沈志宏、張曉林的綜述[5]則從技術發展所提供的可能性角度,介紹得更為全面系統。

其他文章也都較為詳盡地介紹了關聯數據技術的內容和發展[6][7]以及國外有關項目的應用開發情況[8],白海燕[9][10]和范煒、鄒慶的論文[11]涉及了項目開發和技術實現。這些論文的作者單位也反映出國內對關聯數據感興趣的機構集中在中國科技信息研究所、中科院文獻情報中心等少數幾家。另外已經有兩篇學位論文涉及了這一主題[12][13]。

中國科技信息研究所是國內較早跟蹤關聯數據技術,并積極探索其應用可能性的單位,曾經有多個項目與此有關,最早的項目可以追溯到2008年在國家科技圖書文獻中心立項的“NSTL聯合目錄的分層組織與關聯構建”,該項目主要探討了FRBR在NSTL應用的可能性,提出了NSTL書目本體,并在DC-2009上發表了一篇短文(掛圖Poster)。后來該所又立項了“基于關聯數據的信息組織深度序化”,并成功申請2010年度國家社科基金項目“圖書館資源組織語義化研究”,全面研究了關聯數據的實現技術,并進行了基本開發試驗。目前基于上述成果又開展了資源整合和服務整合的研究開發,分別立項了“基于關聯數據的服務融合與資源擴展”和“基于DOI的科研資源整合研究”等項目,該所在十二五規劃中也打算基于關聯數據技術,全面調研關聯數據在NSTL服務系統中的應用場景,探討利用該技術進行知識組織系統的構建、知識關系抽取、海量文獻自動標引、檢索結果的擴展、異類資源整合檢索、多維分面信息資源的組織與檢索、數據融合與混搭等前沿領域應用的可能性。

7 問題與展望

關聯數據是一項與圖書情報工作密切相關的技術,是互聯網發展到語義網時代、提供對任何網上資源和數字對象進行“編目”和“規范控制”的基礎性技術,是數字圖書館進行信息資源發布和服務的核心技術之一。可能囿于技術障礙,我國圖書情報界還沒有充分認識到這一點,甚至還沒有引起一些大型的、肩負指引行業發展方向的機構的充分重視,未能投入足夠的人力和資源進行跟蹤研究和開發試驗。目前僅有的一些研究由于缺乏必要的交流而很難達成一致理解,甚至無法避免謬誤和彎路。關聯數據從技術上看是非常簡單的,但要應用得好,必須要有領域專家、內容管理專家和網絡應用開發人員共同參與,仔細調研需求,同時需要對于標準規范有深刻的理解,在模型和架構方面達成一致,即使可以邊摸索實踐邊服務推廣,也需要有一個基本的研究團隊和交流環境,這些是制約目前國內關聯數據研發和應用的主要問題。希望通過本文的回顧、總結和呼吁,能夠使大家認識到關聯數據的價值、內涵和意義,并引起一些相關機構和專家的重視。

1 Jan Hannemann,Jürgen Kett.Linked Data and Libraries.[2011-01-18].http://www.ifla.org/files/hq/papers/ifla76/149-hannemann-en.pdf

2 Martin M almsten.將圖書館目錄納入語義萬維網.李靜雯譯.現代圖書情報技術,2009,3(3):2-8

3 Ed Summers,Antoine Isaac,Clay Redding,Dan K rech.LCSH,SKOS和關聯數據.姚小樂、劉煒譯.現代圖書情報技術,2009(3):8-14

4 黃永文.關聯數據在圖書館中的應用研究綜述.現代圖書情報技術,2010(5):1-7

5 沈志宏,張曉林.關聯數據及其應用現狀綜述.現代圖書情報技術,2010(11):1-9

6 黃永文.關聯數據驅動的Web應用研究.圖書館雜志,2010(7):55-59

7 李亞婷,曹潔,彭洋,鮑瑩.Web環境下關聯數據的應用.情報理論與實踐,2010(11):122-125

8 白海燕.關聯數據及DBpedia實例分析.現代圖書情報技術,2010(3):33-39

9 白海燕,朱禮軍.關聯數據的自動關聯構建研究.現代圖書情報技術,2010,26(2):44-49

10 白海燕,喬曉東.基于本體和關聯數據的書目組織語義化研究.現代圖書情報技術,2010.9.18-27

11 范煒,鄒慶.詞表資源關聯化.情報理論與實踐.2010(5):21-25

12 寧小敏.語義關聯數據模型及其檢索機制的研究[博士學位論文].武漢:華中科技大學,2008

13 婁秀明.用關聯數據技術實現網絡知識組織系統的研究[碩士論文].上海:華東師范大學,2010

Overview on Linked Data:Concept,Technology and Implementation

Liu Wei

The paper outlined the initiation of Linked Data,introduced its concept,implementation and current status of applications at home and abroad,and put emphasis on its deployment in library and information area.It also foresaw the impact on the library information services through the Web,and reviewed the related research and development in China.It concluded that,with the help of Linked data,it will be brought back the authority control to the Web at a certain level as bibliographical data and authority files in legacy library system transformed and uploaded onto the Web.Chinese librarianship has the responsibilities to catch up with the new achievement of the development of linked data technology.

Linked Data;Authority Control;Semantic Web;Bibliographic Record

上海圖書館,上海,200031

2011年2月8日