范煒 胡春暉
知識(shí)組織
書(shū)目資源的開(kāi)放關(guān)聯(lián)化實(shí)現(xiàn)研究
范煒 胡春暉
(四川大學(xué)公共管理學(xué)院信息管理技術(shù)系,成都 610064)
雖然關(guān)聯(lián)數(shù)據(jù)在國(guó)內(nèi)圖書(shū)情報(bào)領(lǐng)域的認(rèn)知已普及,但在書(shū)目資源上的應(yīng)用推進(jìn)仍較緩慢。本文引介聯(lián)合國(guó)糧食及農(nóng)業(yè)組織發(fā)布的《書(shū)目數(shù)據(jù)開(kāi)放關(guān)聯(lián)化指南》(LODE-BD),通過(guò)借鑒國(guó)外書(shū)目資源的關(guān)聯(lián)數(shù)據(jù)實(shí)踐經(jīng)驗(yàn),以期促進(jìn)國(guó)內(nèi)信息資源序化理論與實(shí)踐的融合。本文重點(diǎn)辨析了基于RDF的三對(duì)基本概念,解讀了M2B概念模型,分析了元數(shù)據(jù)模式的通用屬性組設(shè)計(jì),介紹了LODE-BD的決策樹(shù)選擇流程創(chuàng)新做法。最后在分析LODE-BD的基礎(chǔ)上,提出書(shū)目資源開(kāi)放關(guān)聯(lián)化的5圈層結(jié)構(gòu),為國(guó)內(nèi)書(shū)目資源的開(kāi)放關(guān)聯(lián)化提供系統(tǒng)化實(shí)施參考。
書(shū)目資源;LODE-BD;關(guān)聯(lián)數(shù)據(jù)
2001年,Berners-Lee等[1]在《科學(xué)美國(guó)人》上發(fā)表《語(yǔ)義網(wǎng):一種對(duì)計(jì)算機(jī)有意義的網(wǎng)絡(luò)內(nèi)容新形式將引發(fā)一場(chǎng)新革命》,系統(tǒng)化闡述語(yǔ)義網(wǎng)理念與發(fā)展愿景,至今已有20年。語(yǔ)義網(wǎng)與關(guān)聯(lián)數(shù)據(jù)為各行業(yè)數(shù)據(jù)資源的開(kāi)放、互訪、關(guān)聯(lián)、集成提供了技術(shù)路線與規(guī)范。開(kāi)放只是第一步,開(kāi)放的數(shù)據(jù)需要進(jìn)一步通過(guò)特定的“聯(lián)系”,關(guān)聯(lián)在一起,進(jìn)而為檢索、分析、發(fā)現(xiàn)提供現(xiàn)實(shí)基礎(chǔ)。在中文語(yǔ)境中,LOD(Linked Open Data)的理解與表述應(yīng)為“關(guān)聯(lián)化的開(kāi)放數(shù)據(jù)”,不宜將兩者隨意并列和顛倒詞序。在LOD的實(shí)現(xiàn)動(dòng)作上,“關(guān)聯(lián)化的開(kāi)放數(shù)據(jù)”,需要先開(kāi)放數(shù)據(jù),再對(duì)開(kāi)放數(shù)據(jù)進(jìn)行關(guān)聯(lián)化處理,這個(gè)過(guò)程就是“數(shù)據(jù)的開(kāi)放關(guān)聯(lián)化”。開(kāi)放化與關(guān)聯(lián)化是逐步遞進(jìn)和加成的,使得數(shù)據(jù)更具智能化分析潛質(zhì),即智慧數(shù)據(jù)概念所倡導(dǎo)的大數(shù)據(jù)深化方式[2]。
以關(guān)聯(lián)數(shù)據(jù)發(fā)布的各領(lǐng)域數(shù)據(jù)集逐年增多,規(guī)模效應(yīng)逐漸體現(xiàn)。McCrae等開(kāi)發(fā)并維護(hù)的關(guān)聯(lián)數(shù)據(jù)云圖(LOD Cloud)為關(guān)聯(lián)數(shù)據(jù)發(fā)布情況提供了一個(gè)可視化概覽[3]。關(guān)聯(lián)數(shù)據(jù)云圖收錄的數(shù)據(jù)集需要符合關(guān)聯(lián)數(shù)據(jù)發(fā)布原則且有一定數(shù)量和格式要求。截至2020年12月,關(guān)聯(lián)數(shù)據(jù)云圖包含1?255個(gè)數(shù)據(jù)集和16?174個(gè)數(shù)據(jù)集鏈接[4]。書(shū)目資源數(shù)據(jù)集在關(guān)聯(lián)數(shù)據(jù)云圖中占有一定比例,涉及國(guó)外各個(gè)圖書(shū)館書(shū)目及相關(guān)詞表,是關(guān)聯(lián)數(shù)據(jù)技術(shù)賦能書(shū)目資源的現(xiàn)實(shí)應(yīng)用,為書(shū)目資源打開(kāi)了更加開(kāi)放與潛在關(guān)聯(lián)的新局面。不過(guò),目前尚未出現(xiàn)中文書(shū)目資源的關(guān)聯(lián)數(shù)據(jù)集連入關(guān)聯(lián)數(shù)據(jù)云圖。
在數(shù)據(jù)智能廣泛流行的當(dāng)下,數(shù)據(jù)是生產(chǎn)要素,數(shù)據(jù)是基礎(chǔ)性資源[5],各種應(yīng)用服務(wù)都依賴于廣泛而堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。長(zhǎng)期以來(lái),圖書(shū)情報(bào)領(lǐng)域在書(shū)目資源建設(shè)方面積累了大量高度結(jié)構(gòu)化的優(yōu)質(zhì)數(shù)據(jù),關(guān)于書(shū)目資源描述的國(guó)家標(biāo)準(zhǔn)也已出臺(tái),作為推薦性標(biāo)準(zhǔn)使用[6]。書(shū)目資源不僅支撐文獻(xiàn)檢索與知識(shí)發(fā)現(xiàn),還為新興的數(shù)字人文提供研究數(shù)據(jù)。國(guó)內(nèi)對(duì)數(shù)據(jù)基礎(chǔ)設(shè)施的這一提法[7],應(yīng)景且及時(shí)。書(shū)目資源要發(fā)揮更大的數(shù)據(jù)價(jià)值,需要在原有結(jié)構(gòu)化基礎(chǔ)上,借助關(guān)聯(lián)數(shù)據(jù)的語(yǔ)義化特征,加強(qiáng)結(jié)構(gòu)化的表征形式,增強(qiáng)開(kāi)放化的關(guān)聯(lián)集成。
隨著數(shù)字化到數(shù)據(jù)化的進(jìn)程深化,文獻(xiàn)編目、網(wǎng)絡(luò)元數(shù)據(jù)、語(yǔ)義網(wǎng)技術(shù)等實(shí)踐應(yīng)用越來(lái)越豐富。在國(guó)內(nèi)圖書(shū)情報(bào)領(lǐng)域,關(guān)聯(lián)數(shù)據(jù)理念已得到廣泛普及,相關(guān)技術(shù)與方法討論眾多,但國(guó)內(nèi)書(shū)目資源的開(kāi)放關(guān)聯(lián)化仍未見(jiàn)到有影響力和規(guī)模化的實(shí)質(zhì)推進(jìn),目前發(fā)布成關(guān)聯(lián)數(shù)據(jù)的書(shū)目資源數(shù)量和規(guī)模相對(duì)有限。究其原因,很重要的一個(gè)現(xiàn)實(shí)鴻溝是:懂關(guān)聯(lián)數(shù)據(jù)技術(shù)的工程師不懂書(shū)目工作理論,書(shū)目工作者對(duì)如何駕馭關(guān)聯(lián)數(shù)據(jù)有技術(shù)障礙。“如何做”的問(wèn)題依然是業(yè)務(wù)與技術(shù)結(jié)合的難點(diǎn)所在。雖然信息資源描述工作標(biāo)準(zhǔn)化與語(yǔ)義網(wǎng)技術(shù)工具應(yīng)用各自相對(duì)成熟,但是將二者結(jié)合起來(lái),應(yīng)用層面的具體步驟指引資料相對(duì)缺乏。相比之下,國(guó)外書(shū)目資源的關(guān)聯(lián)數(shù)據(jù)項(xiàng)目則非常活躍,總結(jié)和積累了大量實(shí)踐經(jīng)驗(yàn)。國(guó)內(nèi)要解決這一問(wèn)題,在理解關(guān)聯(lián)數(shù)據(jù)技術(shù)本質(zhì)的基礎(chǔ)上,需要跟蹤和汲取國(guó)外實(shí)踐經(jīng)驗(yàn),并結(jié)合本土化實(shí)際,設(shè)計(jì)適合中國(guó)國(guó)情的書(shū)目資源開(kāi)放關(guān)聯(lián)化方案。
LODE-BD(Linked Open Data Enabled Bibliographical Data)是聯(lián)合國(guó)糧食及農(nóng)業(yè)組織(FAO)在多年關(guān)聯(lián)數(shù)據(jù)項(xiàng)目實(shí)踐基礎(chǔ)上發(fā)布的一份面向書(shū)目數(shù)據(jù)擁有者或提供者的實(shí)踐指南。它給出了書(shū)目資源發(fā)布成關(guān)聯(lián)數(shù)據(jù)的指導(dǎo)原則與推薦做法,強(qiáng)調(diào)將書(shū)目數(shù)據(jù)發(fā)布成“有意義的(meaningful)且有用的(useful)”開(kāi)放關(guān)聯(lián)化書(shū)目數(shù)據(jù)[8]。其中,Enabled有“賦予…作用/功能…實(shí)現(xiàn)”的含義,一定程度上具有“賦能”意味。為便于中文理解,將LODE-BD意譯為“書(shū)目數(shù)據(jù)的開(kāi)放關(guān)聯(lián)化”,賦能動(dòng)作與實(shí)現(xiàn)結(jié)果蘊(yùn)含在開(kāi)放化為前提的關(guān)聯(lián)化動(dòng)作序列之中。
LODE-BD從書(shū)目資源概念模型、元數(shù)據(jù)描述方案、取值編碼等逐步遞進(jìn),其本質(zhì)上是一套經(jīng)項(xiàng)目實(shí)踐檢驗(yàn)的書(shū)目資源開(kāi)放關(guān)聯(lián)化實(shí)現(xiàn)方案。LODE-BD首個(gè)版本發(fā)布于2011年。2.0版本發(fā)布于2015年,主要變化是增加了LODE-BD與Schema.org的元數(shù)據(jù)映射。2020年,LODE-BD發(fā)布了3.0版,基于聯(lián)合國(guó)糧食及農(nóng)業(yè)組織一站式信息系統(tǒng)AGRIS的示范項(xiàng)目,集成了美國(guó)農(nóng)業(yè)部數(shù)據(jù)集元數(shù)據(jù),增加了科學(xué)數(shù)據(jù)資源元數(shù)據(jù),參考了萬(wàn)維網(wǎng)聯(lián)盟W3C于2020年2月更新的數(shù)據(jù)目錄詞匯(Data Catalog Vocabulary,DCAT)第2版,同時(shí)根據(jù)都柏林核心元數(shù)據(jù)倡議(Dublin Core Metadata Initiative,DCMI)2020年DC元數(shù)據(jù)的修訂變化做出相應(yīng)更新調(diào)整。其中,M2B概念模型、元數(shù)據(jù)模式與決策樹(shù)選擇流程具有鮮明特點(diǎn),值得深入研究與推廣借鑒。本文通過(guò)對(duì)LODE-DB 3.0進(jìn)行全貌式解讀分析與觀點(diǎn)性討論,以期為國(guó)內(nèi)書(shū)目資源開(kāi)放關(guān)聯(lián)化從理念認(rèn)識(shí)走向?qū)嶋H應(yīng)用提供參考。
自2010年起,聯(lián)合國(guó)糧食及農(nóng)業(yè)組織開(kāi)展了虛擬開(kāi)放存取農(nóng)業(yè)與水產(chǎn)倉(cāng)儲(chǔ)(Virtual Open Access Agriculture & Aquaculture Repository,VOA3R)項(xiàng)目,項(xiàng)目成員包括13個(gè)國(guó)家/地區(qū)的17個(gè)機(jī)構(gòu),共建共享書(shū)目數(shù)據(jù),討論元數(shù)據(jù)項(xiàng)和標(biāo)準(zhǔn)詞匯集用于農(nóng)業(yè)、食品及環(huán)境相關(guān)主題的科學(xué)數(shù)據(jù)交換與共享,目前已建成8個(gè)開(kāi)放倉(cāng)儲(chǔ)庫(kù)。
VOA3R在元數(shù)據(jù)交換與采集上使用了兩種元數(shù)據(jù)方案,一種是DC元素集,另一種是元數(shù)據(jù)對(duì)象描述模式(Metadata Object Description Schema)。VOA3R提供了《元數(shù)據(jù)編碼指南》,為數(shù)據(jù)提供者如何編碼書(shū)目數(shù)據(jù)給出實(shí)踐參考。《元數(shù)據(jù)編碼指南》包括來(lái)自標(biāo)準(zhǔn)化命名空間的屬性,通過(guò)規(guī)范文檔與受控詞表作為關(guān)聯(lián)中介,發(fā)布RDF三元組,提交RDF數(shù)據(jù)集到VOA3R。
VOA3R實(shí)際扮演了服務(wù)提供者角色,在傳播渠道和可獲取方面進(jìn)行擴(kuò)展,同時(shí)也是書(shū)目數(shù)據(jù)發(fā)布為RDF的提倡者,促進(jìn)了農(nóng)業(yè)與水產(chǎn)領(lǐng)域的關(guān)聯(lián)數(shù)據(jù)應(yīng)用。VOA3R項(xiàng)目的長(zhǎng)期實(shí)踐孕育了LODE-BD,LODE-BD可看作VOA3R項(xiàng)目的成果分享與推廣。雖然LODE-BD產(chǎn)生自VOA3R項(xiàng)目的農(nóng)業(yè)與水產(chǎn)相關(guān)主題書(shū)目資源,但其本身不涉及農(nóng)業(yè)和水產(chǎn)專指概念,而是適用于各種主題領(lǐng)域的書(shū)目資源描述與數(shù)據(jù)生成,可為各類文獻(xiàn)(期刊論文、專著、學(xué)位論文、會(huì)議論文、研究報(bào)告、學(xué)習(xí)對(duì)象等)提供書(shū)目數(shù)據(jù)結(jié)構(gòu)化的推薦做法。
在書(shū)目資源開(kāi)放關(guān)聯(lián)化目標(biāo)下,LODE-BD著力于如何復(fù)用廣為接受的元數(shù)據(jù)元素集和取值詞匯表,生成開(kāi)放關(guān)聯(lián)化的書(shū)目數(shù)據(jù),從而促進(jìn)數(shù)據(jù)共享與再利用,提升資源發(fā)現(xiàn)。LODE-BD以具體問(wèn)題為導(dǎo)向,首先提出5個(gè)問(wèn)題:①什么樣的元數(shù)據(jù)標(biāo)準(zhǔn)提供將書(shū)目資源發(fā)布成關(guān)聯(lián)數(shù)據(jù)的描述基礎(chǔ);②要實(shí)現(xiàn)有意義的數(shù)據(jù)分享,需要的最小屬性集是什么;③是否存在可直接利用的元數(shù)據(jù)模式和應(yīng)用綱要來(lái)生成數(shù)據(jù);④已發(fā)布成關(guān)聯(lián)數(shù)據(jù)的受控詞表有哪些;⑤本地?cái)?shù)據(jù)庫(kù)如何轉(zhuǎn)換成關(guān)聯(lián)數(shù)據(jù)集。然后,在這5個(gè)問(wèn)題引導(dǎo)下,通過(guò)決策樹(shù)方式提供書(shū)目資源描述所需常用屬性的選擇策略。每棵決策樹(shù)給出各類行動(dòng)點(diǎn)及其匹配的編碼建議,漸進(jìn)式回答以上5個(gè)問(wèn)題。LODE-BD允許數(shù)據(jù)提供者根據(jù)開(kāi)發(fā)階段、內(nèi)部數(shù)據(jù)結(jié)構(gòu)和現(xiàn)實(shí)情況,選擇具體可行的做法。
下文將由內(nèi)及外,從概念建模、元數(shù)據(jù)模式的通用屬性組設(shè)計(jì)、決策樹(shù)選擇流程等對(duì)LODE-BD展開(kāi)分析。
目前,書(shū)目資源的開(kāi)放關(guān)聯(lián)化討論一般是在關(guān)聯(lián)數(shù)據(jù)語(yǔ)境下開(kāi)展的。無(wú)論是數(shù)據(jù)概念建模還是后續(xù)的元數(shù)據(jù)描述,都需要有明確一致的基本概念認(rèn)識(shí)。LODE-BD在RDF圖模型的三元組結(jié)構(gòu)上明確了資源與實(shí)體、屬性與元數(shù)據(jù)元素、字符串與URI的關(guān)系。以下結(jié)合語(yǔ)義網(wǎng)與關(guān)聯(lián)數(shù)據(jù),對(duì)三對(duì)基本概念進(jìn)行辨析。
(1)資源與實(shí)體(主)。在信息資源描述中,資源也就是事物(thing)的含義,是最抽象的概念化存在,能夠代表任何形式的對(duì)象,始終是描述的主體,處在RDF三元組的主語(yǔ)位置上。用資源的抽象性引出對(duì)概念模型的根本性認(rèn)識(shí),這是使用“資源”一詞的初衷。在概念模型中,抽象的資源被定義為實(shí)體。雖然實(shí)體也是抽象概念,但與資源相比,其是資源的具象化。在概念建模中,兩者都是概念化的存在,資源比實(shí)體更抽象。基于此解釋,書(shū)目資源內(nèi)涵最廣,代表著應(yīng)用場(chǎng)景與領(lǐng)域。書(shū)目資源中包含不同的實(shí)體,這些實(shí)體自身有其特有的屬性刻畫(huà),實(shí)體之間有著各種關(guān)系存在。LODE-BD將資源作為起始的分析對(duì)象,隨著決策樹(shù)流程而逐步具象化。
(2)屬性與元數(shù)據(jù)元素(謂)。語(yǔ)義網(wǎng)對(duì)元數(shù)據(jù)產(chǎn)生了非常重要的影響。DCMI在推進(jìn)DC元數(shù)據(jù)發(fā)展進(jìn)程中,XML與RDF作為數(shù)據(jù)交換的編碼序列化格式對(duì)元數(shù)據(jù)產(chǎn)生了重要的影響,也是抽象到具體的有形表征。RDF是當(dāng)前元數(shù)據(jù)討論與使用的主要技術(shù)語(yǔ)境,元數(shù)據(jù)本身定位在RDF三元組的謂語(yǔ)位置上。資源的屬性(property)對(duì)應(yīng)具象化為元數(shù)據(jù)元素(element),屬性與元數(shù)據(jù)元素是一對(duì)多的關(guān)系。也就是說(shuō),一個(gè)屬性根據(jù)需要可以選擇不同的元數(shù)據(jù)元素,通過(guò)元數(shù)據(jù)的命名空間(namespace)前綴進(jìn)行區(qū)分。例如,版權(quán)屬性可以使用dc:rights或dcterms:rights,以及其他元數(shù)據(jù)(如schema.org)的版權(quán)有關(guān)屬性,選擇靈活性較高。
在中文翻譯中,英文property與attribute都可以被翻譯為屬性一詞。但是,作為元數(shù)據(jù)專門(mén)術(shù)語(yǔ),兩者之間有差異,需要明確區(qū)分。根據(jù)Johnston對(duì)DC元數(shù)據(jù)元素限定的解釋[9],property是資源的描述,不僅包含attribute(特性),還包括aspect(方面)、characteristic(特征)以及relation(關(guān)系)等。元數(shù)據(jù)中的property定義突出兩點(diǎn):一是property內(nèi)涵大于attribute;二是談及property,包含對(duì)關(guān)系的認(rèn)識(shí),這也符合RDF賓語(yǔ)位置的定位,屬性與關(guān)系的位置一致性。在中文元數(shù)據(jù)討論中具體區(qū)分時(shí),可將attribute譯為特性,與property(屬性)區(qū)分開(kāi)。
(3)字符串與URI(賓)。字符串(string)與URI是取值的兩種重要類型,對(duì)應(yīng)的是RDF三元組的賓語(yǔ)位置。字符串是文本的一種表示,對(duì)應(yīng)RDF的文字(literal)類型。用字符串表示取值,意味著鏈接的終點(diǎn),不具有可關(guān)聯(lián)性。URI是資源的唯一識(shí)別符,對(duì)應(yīng)RDF的非文字(non-literal)類型,是實(shí)現(xiàn)HTTP可持續(xù)一致性訪問(wèn)的保障,也是形成鏈接的基礎(chǔ)。書(shū)目資源開(kāi)放關(guān)聯(lián)化的操作核心就是實(shí)現(xiàn)盡可能多的URI表示,單純字符串文本無(wú)法進(jìn)一步實(shí)現(xiàn)自動(dòng)鏈接。在關(guān)聯(lián)語(yǔ)境中,取值弱化字符串的文本化表象,強(qiáng)化作為事物的實(shí)體化內(nèi)涵。結(jié)合書(shū)目工作來(lái)說(shuō),編目中的主題標(biāo)引一般取自受控詞表(如敘詞表、規(guī)范文檔等),若受控詞表本身已進(jìn)化發(fā)布為關(guān)聯(lián)數(shù)據(jù),則直接賦予主題對(duì)應(yīng)概念的URI即可。該概念URI在標(biāo)引中被多次賦值,通過(guò)該概念URI自動(dòng)匯集關(guān)聯(lián)起與該概念相關(guān)的書(shū)目資源。舉例來(lái)說(shuō),LODE-BD給出大米概念的URI賦值是http://aims.fao.org/aos/agrovoc/c_6599.html,就用到了已經(jīng)開(kāi)放關(guān)聯(lián)化的聯(lián)合國(guó)糧食及農(nóng)業(yè)組織的AGROVOC敘詞表。
以上三對(duì)概念的明確一致化是書(shū)目資源開(kāi)放關(guān)聯(lián)化基礎(chǔ)的一般認(rèn)識(shí),也是概念建模的基礎(chǔ)要素。
長(zhǎng)期以來(lái),編目規(guī)則、元數(shù)據(jù)標(biāo)準(zhǔn)等信息資源描述方案是數(shù)據(jù)結(jié)構(gòu)化編碼的直接參考依據(jù)。全面詳盡的著錄項(xiàng)、元數(shù)據(jù)元素、字段制定背后是有一定概念模型作為基礎(chǔ)的。換句話說(shuō),信息資源描述方案的形成是通過(guò)自上而下方式,從概念模型的抽象設(shè)計(jì)開(kāi)始,再逐步具象化展開(kāi)形成的。信息資源描述需要解決這些問(wèn)題:需要描述的對(duì)象是什么;需要描述對(duì)象的哪些方面(屬性);需要揭示對(duì)象的哪些關(guān)系。要有效使用編目規(guī)則、元數(shù)據(jù)標(biāo)準(zhǔn)開(kāi)展資源描述和結(jié)構(gòu)化數(shù)據(jù)編碼,應(yīng)避免一開(kāi)始就陷入眾多屬性與關(guān)系的細(xì)節(jié)糾纏中,因此對(duì)概念模型的認(rèn)識(shí)尤為重要。
LODE-BD提出的概念模型被命名為“有意義的書(shū)目元數(shù)據(jù)”(Meaningful Bibliographic Metadata,M2B)。該概念模型基于IFLA的FRBR家族模型,并與最新的整合鞏固模型LRM保持一致[10]。M2B是對(duì)書(shū)目資源的高度抽象化,具備通用性與簡(jiǎn)約性特點(diǎn)。M2B僅定義了3個(gè)基本實(shí)體,即資源(resource)、行為者(agent)與希瑪(thema)。在3個(gè)基本實(shí)體中,希瑪是thema的中文直譯,僅是方便其有一個(gè)中文稱謂,沒(méi)必要刻意翻譯。希瑪有主題(subject)的含義,但又不僅僅是主題。FRSAD標(biāo)準(zhǔn)制定者特意選取希臘文thema是將主題上升到與資源等同的抽象層面,開(kāi)拓出概念實(shí)體與其命名詞語(yǔ)(命名法)的關(guān)系空間,涵蓋主題詞表、本體、知識(shí)組織體系等[11]。
M2B不對(duì)資源實(shí)體進(jìn)行例化式的子實(shí)體劃分,而是將其作為不同類型的資源實(shí)體,如期刊論文、會(huì)議報(bào)告等。關(guān)系定義主要分為兩類。一類是不同實(shí)體間的關(guān)系。例如,特定資源實(shí)體與行為者、希瑪實(shí)體兩兩之間的關(guān)系。根據(jù)上下文,結(jié)合中文理解,這里的特定資源實(shí)體即上面提及的不同類型的資源實(shí)體。另一類則是同一實(shí)體內(nèi)部之間的關(guān)系。例如,資源與資源、行為者與行為者、希瑪與希瑪?shù)年P(guān)系。
M2B概念模型對(duì)規(guī)范控制的強(qiáng)化是其突出特點(diǎn),體現(xiàn)在取值部分。例如,行為者的名稱規(guī)范約束,希瑪?shù)闹黝}規(guī)范等。需要注意的是,M2B對(duì)規(guī)范控制的實(shí)施前提是受控詞表的開(kāi)放關(guān)聯(lián)化。開(kāi)放關(guān)聯(lián)化詞表(Linked Open Vocabularies,LOV)平臺(tái)匯集了已發(fā)布成關(guān)聯(lián)數(shù)據(jù)的受控詞表、規(guī)范文檔、本體以及元數(shù)據(jù)等,是M2B規(guī)范控制實(shí)施的取值參考來(lái)源。截至2020年12月,LOV平臺(tái)已收錄738個(gè)受控詞表相關(guān)詞匯集[12]。
在LODE-BD版本修訂中,M2B概念模型的基本實(shí)體定義沒(méi)有發(fā)生大的變化,而在關(guān)系定義的細(xì)化與擴(kuò)展上有所變化。概念模型新版本在關(guān)系定義上進(jìn)一步抽象,增加了同一實(shí)體內(nèi)的關(guān)系定義。這里對(duì)LODE-BD3.0中M2B概念模型進(jìn)行中文對(duì)照展示(見(jiàn)圖1)。

經(jīng)過(guò)充分研究已有開(kāi)放倉(cāng)儲(chǔ)庫(kù)實(shí)踐,LODE-BD精心設(shè)計(jì)了9個(gè)屬性組及其對(duì)應(yīng)的若干通用屬性。關(guān)系單獨(dú)作為第9組,處理書(shū)目資源實(shí)體之間和行為者之間的關(guān)系。
在屬性設(shè)計(jì)成型后,對(duì)屬性所對(duì)應(yīng)的元數(shù)據(jù)復(fù)用情況進(jìn)行明確,主要復(fù)用了7個(gè)元數(shù)據(jù)標(biāo)準(zhǔn)。具體元數(shù)據(jù)標(biāo)準(zhǔn)包括DC元數(shù)據(jù)元素集(dc)、DCMI元數(shù)據(jù)術(shù)語(yǔ)(dcterms)、書(shū)目本體(bibo)、澳大利亞政府定位服務(wù)元數(shù)據(jù)(agls)、預(yù)印本術(shù)語(yǔ)(eprint)、溯源本體(prov)及數(shù)據(jù)目錄詞匯(dcat)。以上括號(hào)里是各自的命名空間前綴。
LODE-BD切實(shí)貫徹了元數(shù)據(jù)復(fù)用思想,為開(kāi)放關(guān)聯(lián)化的自動(dòng)鏈接打下基礎(chǔ)。表1對(duì)LODE-BD 9組屬性、M2B屬性推薦和元數(shù)據(jù)復(fù)用進(jìn)行了翻譯與概要介紹。

表1中,屬性一欄“++”號(hào)表示必備屬性,“+”號(hào)表示強(qiáng)烈推薦屬性。需求一欄分為兩種情況,一種是分析性描述、另一種是非分析性描述。對(duì)應(yīng)描述的粒度需求程度分為4種:M表示必備,HR表示強(qiáng)烈推薦,R表示推薦,O表示可選。取值控制一欄包含以下幾種情況:無(wú)是指不受限制、自由取值;名稱規(guī)范是指包括人名、團(tuán)體與會(huì)議等;語(yǔ)法編碼規(guī)則是指標(biāo)準(zhǔn)化或特定的數(shù)據(jù)格式,如日期格式的ISO 8601;受控列表是指有限的取值選項(xiàng);受控詞表是指從各類知識(shí)組織體系中取值,分類法是受控詞表的一種類型;受控資源ID專門(mén)用于資源之間的關(guān)系。通過(guò)表1可以了解LODE-BD從屬性組到具體屬性,再到具體元數(shù)據(jù)的復(fù)用選擇。
LODE-BD創(chuàng)新性地采用決策樹(shù)方式,以作用點(diǎn)(acting point)作為選擇性分支引導(dǎo),從抽象到具象逐步細(xì)化,最終得到適合的屬性與取值推薦。決策樹(shù)從資源實(shí)體出發(fā),根據(jù)不同選擇分支,得到具體元數(shù)據(jù)元素及其取值類型的步驟,符合認(rèn)知與選擇的漸進(jìn)流程。這一方式是可實(shí)施的編碼策略風(fēng)格的體現(xiàn),在當(dāng)下眾多標(biāo)準(zhǔn)規(guī)范、技術(shù)推薦文檔之中,開(kāi)辟出一條高效可行的書(shū)目資源開(kāi)放關(guān)聯(lián)化的實(shí)現(xiàn)路徑。
LODE-BD對(duì)9組屬性分別進(jìn)行了詳細(xì)介紹,每個(gè)屬性按照決策樹(shù)流程圖與決策過(guò)程表相結(jié)合的方式展開(kāi),決策樹(shù)流程圖側(cè)重直觀過(guò)程,決策過(guò)程表更具形式化,兩者應(yīng)結(jié)合使用。
運(yùn)行上,制訂激勵(lì)措施,營(yíng)造編纂氛圍,努力調(diào)動(dòng)牽頭處室和參與部門(mén)(單位)的積極性,眾手成志,齊心協(xié)力,分工負(fù)責(zé),相互配合,每個(gè)階段及時(shí)召開(kāi)運(yùn)行會(huì)議,共同商討志稿問(wèn)題,創(chuàng)先爭(zhēng)優(yōu),督促落后,保證了編纂工作有序推進(jìn)、平穩(wěn)運(yùn)行。正確處理繼承與創(chuàng)新、前志與續(xù)志、實(shí)際與理論的關(guān)系,在篇目設(shè)置符合發(fā)展實(shí)際、記述內(nèi)容隨事業(yè)發(fā)展拓展范圍、圖文并茂直觀反映現(xiàn)實(shí)等方面進(jìn)行了有益探索,取得了一定成效。
決策樹(shù)流程圖一般以資源(圓角矩形)為起點(diǎn),通過(guò)一步步條件判斷(菱形),最終給出可供選擇的元數(shù)據(jù)元素及其對(duì)應(yīng)的取值推薦。此處選取創(chuàng)建者的屬性選擇進(jìn)行示例說(shuō)明,以便直觀了解決策樹(shù)做法(見(jiàn)圖2)。對(duì)創(chuàng)建者信息的描述中,分為是否使用規(guī)范文檔兩種情況。在不使用的規(guī)范文檔(具體指人名規(guī)范)情況下,建議使用dc:creator,取值為字符串(1a)。在使用規(guī)范文檔情況下,若規(guī)范文檔沒(méi)有無(wú)可用的關(guān)聯(lián)數(shù)據(jù),建議使用dc:creator,取值為字符串(2a);若規(guī)范文檔有可用的關(guān)聯(lián)數(shù)據(jù),建議使用dcterms:creator,取值推薦使用URI(實(shí)心圓圈)或字符串(虛線圓圈)(2b)。決策過(guò)程表是決策樹(shù)流程圖的表格化再現(xiàn),由步驟(序號(hào)數(shù)字)、條件、判斷、行動(dòng)、取值類型、元數(shù)據(jù)元素、取值示例7列組成,是對(duì)決策樹(shù)流程圖的步驟說(shuō)明,并提供元數(shù)據(jù)元素不同取值類型(規(guī)范化、非規(guī)范化、字符串、URI)對(duì)應(yīng)的取值示例。

決策樹(shù)是LODE-BD的創(chuàng)新所在,M2B概念模型、通用屬性組和元數(shù)據(jù)復(fù)用三者都是實(shí)現(xiàn)決策樹(shù)的要件。有關(guān)決策樹(shù)的內(nèi)容占LODE-BD一半篇幅以上,極盡詳細(xì)地給出所有屬性落實(shí)到元數(shù)據(jù)元素和對(duì)應(yīng)取值的做法,適合作為案頭常備查閱之用。
關(guān)聯(lián)數(shù)據(jù)已有多年發(fā)展,以LODE-BD為代表的國(guó)外書(shū)目資源關(guān)聯(lián)數(shù)據(jù)實(shí)踐已經(jīng)走出了一條發(fā)展道路,提供了切實(shí)可行的參考指南。LODE-BD以LOD打底,將概念模型M2B、RDF圖模型和元數(shù)據(jù)模式復(fù)用等,通過(guò)決策樹(shù)選擇流程有機(jī)集成在一起。決策樹(shù)做法具有創(chuàng)新性,值得肯定與大力推廣。
由于篇幅所限,本文對(duì)LODE-BD僅做了概要性、原理性分析解讀,屬性選擇與取值的決策樹(shù)詳細(xì)內(nèi)容參見(jiàn)指南全文,有關(guān)元數(shù)據(jù)標(biāo)準(zhǔn)、受控詞表關(guān)聯(lián)數(shù)據(jù)化、序列化編碼、關(guān)聯(lián)數(shù)據(jù)利用以及與schema.org的映射轉(zhuǎn)換內(nèi)容并未專門(mén)展開(kāi)討論。
通過(guò)LODE-BD的分析可以看出,目前關(guān)聯(lián)數(shù)據(jù)聚集效應(yīng)的形成主要是遵照開(kāi)放世界假設(shè),借助RDF三元組結(jié)構(gòu)上的開(kāi)放互訪性,“主-謂-賓”三者盡可能URI化,實(shí)現(xiàn)自動(dòng)鏈接識(shí)別與聯(lián)系建立的HTTP訪問(wèn)技術(shù)基礎(chǔ),其技術(shù)路線成熟,實(shí)現(xiàn)難度不高。書(shū)目資源開(kāi)放關(guān)聯(lián)化的具體做法是,在RDF中盡量將謂語(yǔ)位置的屬性(property)和賓語(yǔ)位置的文字(literal)兩處,充分利用資源描述規(guī)范和各類詞表資源,通過(guò)已有命名空間的元數(shù)據(jù)標(biāo)準(zhǔn)/應(yīng)用綱要的URI及受控詞匯的URI表示,在資源描述與數(shù)據(jù)結(jié)構(gòu)化編碼階段建立起鏈接的自動(dòng)識(shí)別與關(guān)聯(lián)基礎(chǔ)。進(jìn)一步通過(guò)映射變換(crosswalk)、對(duì)齊(alignment)及互操作(interoperability)等語(yǔ)義化處理手段,增強(qiáng)關(guān)聯(lián)的黏度與廣度。
書(shū)目資源擁有良好的數(shù)據(jù)化實(shí)施基礎(chǔ),但也因諸多因素未能見(jiàn)到成熟穩(wěn)定的中文書(shū)目關(guān)聯(lián)數(shù)據(jù)項(xiàng)目和數(shù)據(jù)集發(fā)布。除開(kāi)放的政策與利益有關(guān)問(wèn)題外,僅就數(shù)據(jù)而言,主要還是缺乏對(duì)書(shū)目資源開(kāi)放關(guān)聯(lián)化的系統(tǒng)思考和漸進(jìn)式落地。LODE-BD所帶來(lái)的啟示是,書(shū)目工作中的編目規(guī)則、概念模型、元數(shù)據(jù)、數(shù)據(jù)格式、數(shù)據(jù)庫(kù)等都是走向開(kāi)放關(guān)聯(lián)化的重要組成部分,要有系統(tǒng)化的集成認(rèn)識(shí),將這些方面有機(jī)聯(lián)系在一起,共同實(shí)現(xiàn)書(shū)目資源的開(kāi)放關(guān)聯(lián)化。
在LODE-BD的啟發(fā)下,進(jìn)一步系統(tǒng)化思考書(shū)目資源的開(kāi)放關(guān)聯(lián)化,可以構(gòu)建出由內(nèi)及外的5層結(jié)構(gòu),分別由概念模型、邏輯模型、元數(shù)據(jù)模式、序列化編碼、開(kāi)放關(guān)聯(lián)組成,如圖3所示。

(1)概念模型。書(shū)目資源的概念模型既是資源描述的認(rèn)識(shí)起點(diǎn),也是自上而下地形成概覽式框架。概念模型位于書(shū)目資源開(kāi)放關(guān)聯(lián)化圈層的核心位置,體現(xiàn)出基礎(chǔ)重要性。一個(gè)穩(wěn)固且開(kāi)放的概念模型從根本上決定了后續(xù)實(shí)現(xiàn)的走向。
概念模型在書(shū)目工作中的重要性顯現(xiàn),是從編目規(guī)則細(xì)節(jié)制定到數(shù)據(jù)建模的關(guān)注,特別是對(duì)實(shí)體-關(guān)系(Entity-Relationship,E-R)方法論在書(shū)目資源描述上的運(yùn)用。書(shū)目資源的概念模型是運(yùn)用E-R方法論,圍繞書(shū)目資源,定義相關(guān)的實(shí)體、屬性與關(guān)系。書(shū)目資源的概念模型不止一種,除FRBR之外,美國(guó)國(guó)會(huì)圖書(shū)館提出了BIBFRAME,還有來(lái)自開(kāi)放網(wǎng)絡(luò)社區(qū)的各種書(shū)目模型,如BIBO本體、schema.org的書(shū)目描述內(nèi)容等。
概念模型作為頂層設(shè)計(jì),獨(dú)立于計(jì)算機(jī)實(shí)現(xiàn)環(huán)境,是一種認(rèn)知分析成果,可作為標(biāo)準(zhǔn)、推薦進(jìn)行推廣。但是,要發(fā)揮概念模型的作用,需要在應(yīng)用場(chǎng)景中考慮計(jì)算機(jī)處理環(huán)境,往往與邏輯模型直接綁定進(jìn)行分析。邏輯模型作為概念模型進(jìn)入計(jì)算機(jī)處理域的直接中介,在現(xiàn)實(shí)應(yīng)用中常常被當(dāng)作概念模型的替代或兩者一體化論述。
(2)邏輯模型。邏輯模型是在數(shù)據(jù)處理技術(shù)語(yǔ)境中,對(duì)概念模型的具象化翻譯、映射或轉(zhuǎn)換。參照數(shù)據(jù)庫(kù)設(shè)計(jì)的三級(jí)模式,關(guān)系型數(shù)據(jù)庫(kù)的邏輯模式是表定義。以關(guān)聯(lián)數(shù)據(jù)集為目標(biāo),書(shū)目資源數(shù)據(jù)化的邏輯模型對(duì)應(yīng)的則是RDF圖(Graph)[13]。RDF圖較之屬性圖、UML類圖、OWL等,其三元組結(jié)構(gòu)簡(jiǎn)單且開(kāi)放關(guān)聯(lián)性易于建立,是關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)的主流方式。值得注意的是,目前邏輯模型和RDF的有關(guān)認(rèn)識(shí)與表述存在模糊和不一致,需要進(jìn)一步明確認(rèn)識(shí)。
(3)元數(shù)據(jù)模式。在概念模型與其對(duì)應(yīng)的邏輯模型基礎(chǔ)上,元數(shù)據(jù)模式(Schema)是對(duì)如何描述書(shū)目資源進(jìn)行具體設(shè)計(jì)與約定。通用元數(shù)據(jù)標(biāo)準(zhǔn)、各種行業(yè)元數(shù)據(jù)標(biāo)準(zhǔn)以及網(wǎng)絡(luò)社區(qū)元數(shù)據(jù)方案(事實(shí)性標(biāo)準(zhǔn))為有效的規(guī)范化描述提供豐富的參考資源。充分復(fù)用已有元數(shù)據(jù)標(biāo)準(zhǔn)來(lái)定義屬性與取值是發(fā)揮元數(shù)據(jù)作用與價(jià)值的主要手段。元數(shù)據(jù)模式的形成是書(shū)目資源數(shù)據(jù)化的實(shí)現(xiàn)核心,起到承上啟下的作用。
(4)序列化編碼。書(shū)目資源數(shù)據(jù)化的成果要以數(shù)據(jù)記錄、數(shù)據(jù)集和數(shù)據(jù)庫(kù)等形式存在。數(shù)據(jù)編碼是數(shù)據(jù)化實(shí)現(xiàn)階段的關(guān)鍵一步。序列化(serialization)編碼是對(duì)數(shù)據(jù)存儲(chǔ)、交換與共享有相應(yīng)要求,以元數(shù)據(jù)模式為編碼具體依據(jù),具體格式對(duì)應(yīng)邏輯模型RDF圖的各種數(shù)據(jù)格式,如RDF/XML、RDFa、Turtle、N-Triples以及最新推薦標(biāo)準(zhǔn)JSON-LD等[14]。序列化編碼得到既定設(shè)計(jì)要求的結(jié)構(gòu)化與語(yǔ)義化數(shù)據(jù),為下一步開(kāi)放關(guān)聯(lián)做好準(zhǔn)備。
(5)開(kāi)放關(guān)聯(lián)。開(kāi)放關(guān)聯(lián)是數(shù)據(jù)化最外圍的一層,其主要作用是將序列化編碼后的數(shù)據(jù)通過(guò)關(guān)聯(lián)數(shù)據(jù)發(fā)布機(jī)制開(kāi)放到網(wǎng)絡(luò)上,進(jìn)入開(kāi)放關(guān)聯(lián)數(shù)據(jù)環(huán)境中,與其他開(kāi)放的數(shù)據(jù)集建立起關(guān)聯(lián),促進(jìn)關(guān)聯(lián)數(shù)據(jù)云圖的形成與壯大。開(kāi)放關(guān)聯(lián)主要涉及三個(gè)方面:一是技術(shù),W3C已推出關(guān)聯(lián)數(shù)據(jù)平臺(tái)推薦標(biāo)準(zhǔn)[15],因此技術(shù)實(shí)現(xiàn)上目前沒(méi)有障礙;二是已有命名空間元數(shù)據(jù)元素與受控詞匯的復(fù)用,它形成關(guān)聯(lián)的基礎(chǔ),是由第三圈層元數(shù)據(jù)模式?jīng)Q定;三是數(shù)據(jù)開(kāi)放政策與許可方式,由數(shù)據(jù)擁有者和提供者決定,這是開(kāi)放關(guān)聯(lián)最難以控制的人為方面。這三方面的共同作用,才能夠達(dá)成開(kāi)放關(guān)聯(lián)目的。
書(shū)目資源開(kāi)放關(guān)聯(lián)化5圈層是一種圖示化的理論抽象,有助于理解書(shū)目資源開(kāi)放關(guān)聯(lián)化的內(nèi)在邏輯層次。5圈層是方法論意義的頂層認(rèn)識(shí),LODE-BD則在行動(dòng)層面提供了實(shí)踐指導(dǎo),希望本文能為國(guó)內(nèi)中文書(shū)目資源發(fā)布成關(guān)聯(lián)數(shù)據(jù)提供行動(dòng)參考,期待未來(lái)有更多中文書(shū)目資源的示范性關(guān)聯(lián)數(shù)據(jù)集發(fā)布。
[1] BERNERS-LEE T,HENDLER J,LASSILA O. The semantic web[J]. Scientific American,2001,284(5):34-43.
[2] 曾蕾,王曉光,范煒. 圖檔博領(lǐng)域的智慧數(shù)據(jù)及其在數(shù)字人文研究中的角色[J]. 中國(guó)圖書(shū)館學(xué)報(bào),2018,44(1):17-34.
[3] The Linked Open Data Cloud Maintainers[EB/OL].[2020-12-23]. https://lod-cloud.net/#about.
[4] The Linked Open Data Cloud Diagram[EB/OL].[2020-12-23]. https://lod-cloud.net/#diagram.
[5] 中共中央 國(guó)務(wù)院關(guān)于構(gòu)建更加完善的要素市場(chǎng)化配置體制機(jī)制的意見(jiàn)[EB/OL].[2020-12-23]. http://www.gov.cn/zhengce/2020-04/09/content_5500622.htm.
[6] 宋文,朱學(xué)軍. 《資源描述》國(guó)家標(biāo)準(zhǔn)及對(duì)我國(guó)信息資源描述標(biāo)準(zhǔn)體系的思考[J]. 數(shù)字圖書(shū)館論壇,2016(12):21-27.
[7] 夏翠娟. 面向人文研究的“數(shù)據(jù)基礎(chǔ)設(shè)施”建設(shè)——試論圖書(shū)館學(xué)對(duì)數(shù)字人文的方法論貢獻(xiàn)[J]. 中國(guó)圖書(shū)館學(xué)報(bào),2020,46(3):24-37.
[8] SUBIRATS I,ZENG M L. Linked Open Data Enabled Bibliographical Data(LODE-BD)3.0-A practical guide on how to select appropriate encoding strategies for producing Linked Open Data Enabled Bibliographical Data. Rome,F(xiàn)AO[EB/OL].[2020-12-23]. https://doi.org/10.4060/cb2209en.
[9] JOHNSTON P. Element Refinement in Dublin CoreTM Metadata[EB/OL].[2020-12-23]. http://www.dublincore.org/specifications/dublin-core/dc-elem-refine.
[10] IFLA圖書(shū)館參考模型[EB/OL].[2020-12-19]. https://www.ifla.org/files/assets/cataloguing/frbr-lrm/ifla-lrm-august-2017_rev201712-ch.pdf.
[11] Functional Requirements for Subject Authority Data,A Conceptual Model(FRSAD)[EB/OL].[2020-12-19]. https://www.ifla.org/files/assets/cataloguing/frbr/frbr_2008.pdf.
[12] Linked Open Vocabularies[EB/OL].[2020-12-19]. https://lov.linkeddata.es/dataset/lov.
[13] RDF 1.1: On Semantics of RDF Datasets[EB/OL].[2020-12-19]. https://www.w3.org/TR/2014/NOTE-rdf11-datasets-20140225/.
[14] RDF Syntax[EB/OL].[2020-12-19]. https://www.w3.org/wiki/RdfSyntax.
[15] Linked Data Platform 1.0[EB/OL].[2020-12-19]. https://www.w3.org/TR/ldp/.
Publishing the Bibliographic Resources as Linked Open Data
FAN Wei HU ChunHui
( Department of Information Management Technology, School of Public Administration, Sichuan University, Chengdu 610064, China )
While the notion of linked data is popular in China, the application development of linked data for Chinese bibliographic resources is lacking. This article introduces the Linked Open Data Enabled Bibliographical Data (LODE-BD) which proposed by FAO. It’s helpful to introduce the practical experience of linked data for foreign bibliographic resource which promote the integration of information resource ordering theory and practice. It discusses the three pairs of basic concepts based on RDF, interprets the M2B conceptual model, analyzes the design of general attribute group of metadata schema, and introduces the innovative approach of decision tree selection process of LODE-BD. Finally, it proposes a 5-circle framework with a systematic thinking, in order to provide the linked open data implementation strategy for the Chinese bibliographic resources with LODE-BD.
Bibliographic Resources; LODE-BD; Linked Data
G254.0
10.3772/j.issn.1673-2286.2021.01.002
范煒,胡春暉. 書(shū)目資源的開(kāi)放關(guān)聯(lián)化實(shí)現(xiàn)研究[J]. 數(shù)字圖書(shū)館論壇,2021(1):10-17.
范煒,男,1981年生,博士,碩士生導(dǎo)師,副教授,通信作者,研究方向:信息存儲(chǔ)與檢索,E-mail:fanw@scu.edu.cn。
胡春暉,男,1997年生,碩士研究生,研究方向:信息檢索與情報(bào)服務(wù)。
(收稿日期:2020-12-24)