施艷萍 李陽



摘要:[目的/意義]當前人文社科專題數據庫之間存在資源分散獨立、難以互操作的問題,關聯數據模型的提出能夠建立人文社科專題數據庫之間的聯系,深度揭示資源實體的語義關系,促進互操作。[方法/過程]構建了面向人文社科專題數據庫的關聯數據模型,模型包括數據采集層、資源描述層、本體構建層、關聯數據層以及綜合應用層,并以相關文獻數據平臺為實例對該模型進行了實證分析。[結果/結論]關聯數據模型是人文社科專題數據庫建設規范化管理的重要內容,人文社科專題數據庫關聯數據模型的實踐與應用可有效推進相關資源整合、數據共享等工作的展開。
關鍵詞:人文社科;專題數據庫;關聯數據模型;元數據規范;本體
DOl: 10 .3969/j .issn .1008 -0821 .2019 .12 .003
[中圖分類號] G250. 74 [文獻標識碼]A [文章編號]1008-0821( 2019) 12-0019-09
專題數據庫是面向特定主題的數據資源集成平臺,具有類型多樣、專業性強、內容專深的特點。在人文社科領域,專題數據庫是人文社會科學數據資源開發與利用的創新手段和重要途徑,在學術資料提供、戰略決策支持、傳統文化傳承等方面發揮著重要作用。然而,由于建庫導向的差異,目前各級各類人文社科專題數據庫建設彼此之間相互割裂,形成了一個個知識孤島。一方面,現有的專題數據庫種類繁多,各類建庫主體彼此從各自的情況和需要出發構建了內部的數據模型和服務架構,缺乏統一公認的規范標準體系;另一方面,專題數據庫本身作為一種系統性、“標識性”的數據資源集成,其數據資源量多龐雜、異質多元。因此,以傳統方式來進行數據和信息組織并不能解釋資源之間的內在邏輯關系,無法形成語義上的勾連,也不便于服務端用戶的檢索利用。
隨著開放科學、協同創新等理念的興起,傳統的以機構、資源為導向的專題數據庫建設方式已經不能滿足社會對資源共享互通的需求,特別是在大數據、智慧數據等理念的影響下,人文社科專題數據庫亟需序化組織建設,以規避信息迷航等問題。關聯數據作為數據庫序化建設的基本技術,能夠有效進行信息組織,促進數據的關聯共享。為此,需要應用關聯數據及其相關技術將不同領域、不同類型的專題數據庫關聯起來,推動其整合復用,實現知識的共享共建。具體來說,就是通過構建人文社科專題數據庫關聯數據模型,整合碎片化信息資源,揭示資源實體的語義特征,建立資源間的深度互聯,提高信息資源的利用、共享和管理效率。有鑒于此,本文擬構建面向人文社科專題數據庫的關聯數據模型并對其進行實證,以期為人文社科專題數據庫的關聯數據實踐提供示范參考。
1 相關文獻綜述
數據資源作為專題數據庫建設的基石,其組織聚合至關重要,在這一過程中關聯數據及其相關技術發揮著重要作用。關聯數據由語義網的創始人Berners-Lee T于2006年首次提出,是一種在語義網上發布、共享和聯接各類型數據資源的方式[1]。經過十余年的發展,關聯數據已有較高的接受度與使用率,應用領域也在不斷擴大,相關研究從概念探討、技術介紹發展到實踐應用層面。
在關聯數據技術介紹層面,沈志宏等在Bem-ers-Lee T制定的關于內容描述的關聯數據發布的“四大基本原則”的基礎上,提出了關聯數據技術體系,包括關聯數據的數據內容與組織技術、創建與發布技術、瀏覽與檢索技術、互聯與維護技術[2],該技術體系揭示了關聯數據技術的中心工作為生產數據和消費數據。其中,關聯數據的創建與發布技術、瀏覽與檢索技術可視為核心,主要包含關聯數據互聯技術、發布技術、可視化技術與自動化問答技術。研究者們在介紹關聯數據技術的同時,嘗試將這些技術融入相關數據資源、數據庫的建設之中,如沈志宏等指出,關聯數據互聯技術的基石是HTTP與RDF,瑞典聯合目錄(LIBRIS)作為全球第一個關聯數據化的聯合目錄,可被視為圖書館界關聯數據互聯的示范應用[3]。夏翠娟等介紹了關聯數據發布技術的支撐平臺Drupal,并通過該平臺將“中國歷史紀年和公元紀年對照表”發布為關聯數據[4]。歐石燕等提出了一種面向圖書館關聯數據的自動問答新技術[5]。陳濤等以家譜知識庫為例,列舉了一些適用于關聯數據系統中不同形式數據資源的可視化技術和實現方法,如通過JSON數據格式進行可視化等[6]。
在關聯數據實踐應用層面,小范圍且較為表層的數據關聯實現依然是主流。研究者們主要以案例分析的方法展開相關研究,如大多基于關聯數據的基本規則,提出特定類型資源的關聯數據模型,或通過使用D2R、Drupal等知識組織平臺構建并發布特定領域數據庫/知識庫資源的關聯數據集。如劉美杏等構建了古道線性文化遺產的關聯數據模型[7];張樂等以民國建筑知識庫為例,設計了相關關聯數據本體,并通過Drupal平臺實現了民國建筑關聯數據的發布[8];董坤等構建了MOOC資源本體描述模型,并借助D2RQ關聯數據發布平臺實現了MOOC資源主體及其之間關聯關系的語義化揭示[9];上海圖書館則發布了家譜關聯數據集[10]等等。以上研究中涉及資源所屬范圍或領域有一定程度的狹隘性,且這些關聯數據并沒有直接的聯系,處于分散獨立狀態。
綜上所述,現有文獻的關注點聚焦于關聯數據技術的開發與應用,但是研究止步于對特定領域、特定資源類型關聯數據的探索,而鮮有面向整個人文社科領域的專題數據庫關聯數據的研究。作為知識資源的集散地,人文社科專題數據庫數據資源具有多種類、高價值的特征,然而目前人文社科專題數據庫內的資源趨于分散、斷面,數據資源的關聯數據也聯系薄弱,同時庫與庫之間也是相互孤立的。此外,隨著數字人文、社會計算等領域的發展,數據資源在人文社科研究中的地位不斷提升,人文社科的研究范式和研究問題發生變革,科研工作者等主體對跨領域數據的需求增加,因而人文社科專題數據庫建設也應該以相關主體對數據資源的融合需求為導向,與時俱進。
有鑒于此,進一步挖掘與關聯人文社科專題數據庫數據資源,構建面向人文社科專題數據庫的關聯數據模型具有重要價值。在此背景下,如何打破各人文社科專題數據庫孤立、異構且只將重點放在本庫數據關聯組織的局面,實現專題數據庫之間、專題數據庫與外部資源的互聯互通,成為一個值得關注的議題。
2 人文社科專題數據庫關聯數據模型框架
目前,人文社科專題數據庫數量眾多,政府部門、高校、研究機構、企業單位、非政府組織(NGO)以及非營利組織(NPO)等不同主體在不同的需求導向下紛紛建立了各種專題網站和數據庫平臺。然而,不同領域、不同類型的專題數據庫的數據資源之間缺乏統一的描述與組織方法,整體之間缺乏知識的關聯和流動,因此亟需建立一種通用的、與領域無關的關聯數據框架,鏈接單庫或多庫的數據資源。
基于此,本研究擬構建一個面向人文社科專題數據庫的關聯數據模型,該模型以元數據為基礎,對采集到的數據資源進行語義化描述,而后采用本體、關聯數據技術進行知識組織,以實現多源異構數據之間的共享互聯。如圖1所示,該關聯數據模型共有5個層次,分別為:
1)數據采集層,主要工作為專題數據庫基本數據資源實體及其屬性的采集與清洗;
2)資源描述層,基于數據采集層采集并清洗的數據,選用合適的元數據規范描述各類資源實體的屬性特征,并借助資源描述框架( RDF)工具呈現資源實體的語義內容;
3)本體構建層,在元數據語義描述的基礎上,選擇適用的本體構建方法構建目標資源本體,以實現各類元數據的語義互操作;
4)關聯數據層,本層將根據關聯數據的標準對上述元數據本體進行關聯,形成一個資源聚合網絡,以揭示資源實體間的隱性關系;
5)綜合應用層,主要工作為發布關聯數據并為用戶提供瀏覽、檢索、共享等服務。
以抗日戰爭與近代中日關系文獻數據平臺(以下簡稱案例平臺)為參照實例對上述模型進行實證,驗證該模型的可行性。該案例平臺是一個對外開放使用的專題數據庫,擁有文獻、圖片、音頻等多類型資源,便于關聯數據的構建。
3 數據采集層
如圖1,數據采集層為構建人文社科專題數據庫關聯數據模型奠定了基礎,成為推進人文社科專題數據庫資源組織與利用的源動力。在數據采集時,在保證常見的數據資源實體及其基本屬性數據獲取的同時,需要兼顧到人文社科專題數據庫資源異構多元的特征,以便在基本人文社科專題數據庫資源架構的基礎上,擴充領域特色資源實體及其屬性數據,為后續的特色化關聯數據構建提供數據支撐。數據采集完成以后,還需要進行數據清洗、數據分類、數據整合等數據處理步驟,為之后的元數據描述以及最終的關聯數據發布做基本數據準備。表1為案例平臺資源實體類型及其屬性特征,關聯數據模型中其他環節工作的展開均依托于該表揭示的內容。
4 資源描述層
資源描述層即元數據描述層,該層基于數據采集層中整合的資源實體屬性,通過運用特定的元數據規范并結合RDF工具,來描述數據采集層中整合的資源實體,從而揭示其結構特征和內容特征,以便識別、追蹤、評價目標數據資源,并達成高效管理的目的。
為了能夠對不同領域、不同類型、不同形式、不同時期的數據資源進行充分描述和處理,來自不同領域的專業人員研究并制定了應用于特定領域或特定場合的元數據規范。如表2所示,不同類型資源適用的元數據規范不同。通過閱讀和總結國內外研究,篩選出表2中目前在國內外應用較為廣泛、較有影響力的8種元數據規范,分別為DC(都柏林核心元數據)、MARC(機讀編目格式標準)、VRA(視覺資料核心類目)、CDWA(藝術作品)、EAD(編碼檔案描述)、FGDC(地理空間元數據內容標準)、GILS(政府信息定位服務)以及TEI(電子文本編碼與交換)[11],不同的元數據規范中有數量不等的描述元素以揭示資源實體的屬性。
以案例平臺中的音頻資源為例,使用XML語言結合RDF工具定義的通用三元組(資源一屬性一屬性值)對其屬性以及對應的屬性值進行描述,運行結果如圖2所示。使用簡明、可擴展的DC元數據規范(即Dublin Core,是目前全球應用最廣泛、頻繁的一種元數據標準)即可較為清晰完整地描述該音頻資源的各項屬性特征。
然而,人文社科專題數據庫內的資源類型繁多、內容屬性復雜,同時一種元數據規范中的元素可能不能詳盡描述一種資源實體的全部屬性,即元數據規范不可直接全盤復用,需要重新定義元素以描述最初選擇的元數據規范不可直接描述的屬性,因而面向人文社科專題數據庫資源的元數據語義化描述工作需要嚴格依照以下流程:
1)確定關系,即明確資源實體內容及其屬性特征:
2)選擇規范,即根據資源實體內容及其屬性特征,選擇適用的元數據規范;
3)基本描述,即使用已選元數據規范內的基本元素對資源實體基本屬性進行描述:
4)完善描述,即復用其他元數據規范元素或重新定義元素,以描述已選元數據規范不可描述的實體屬性,完善語義描述;
5)檢查核驗,即檢查在上述描述過程中是否有屬性遺漏未描述,同時核驗描述語句是否有誤,若有誤,則進一步修正完善。
綜上,同一人文社科專題數據庫內一般采用多種元數據規范,且不同人文社科專題數據庫應用的元數據規范更是大相徑庭,造成這些元數據規范即便擁有相同的核心元素,也無法完全兼容。此外,元數據規范是人為設計的,元素的語義內涵缺乏統一明確的標準,對其理解往往因人而異,所以即使依托計算機的強大功能也無法對元數據進行直接處理。因此,使用元數據規范進行資源描述雖然建立了人文社科專題數據庫的語義基礎,但卻無從解決資源描述的異構性與語義性的問題[12]。
5 本體構建層與關聯數據層
由于本體構建和關聯數據是知識組織過程的關鍵環節,所以本體構建層和關聯數據層可視為人文社科專題數據庫關聯數據模型的核心。
5.1 本體構建層
所謂本體,即關于共享概念模型的明確、形式化的規范說明[13].此概念模型可理解為概念與概念之間的關系。本體構建層便是彌補上述元數據描述局限性的關鍵環節,該層基于元數據語義描述,主要任務是設計一種機制以實現不同元數據間的語義互操作。目前主流的本體構建方法有二:一為多本體模式,一為混合型模式。前者的主要步驟為采用本體描述語言(一般為OWL語言)對每種元數據規范進行本體化描述,且以構建的元數據本體為基礎,將目標元數據轉變為RDF形式,而后基于不同元數據本體之間的映射關系實現不同語義的RDF元數據之間的語義互操作。使用后者構建本體,首先需要整合不同元數據規范中的概念和屬性:繼而采用本體描述語言構建相應的集成元數據本體,最后轉化成統一的具有相同語義的RDF形式,實現不同類型元數據的語義轉化[14]。二者的主要區別為構建過程中使用的元數據規范是相互獨立或相互融合的。這兩種方法各有利弊,前者的靈活性較強,語義互操作則較為復雜;而后者的語義互操作相對簡單,但靈活性較差。
考慮到人文社科專題數據庫內的資源類型多樣、體系龐雜的特征以及本體建設對易用性、通用性的基本要求,本研究選取多本體模式來構建一個各領域通用的、集成的核心元數據本體。由于DC元數據是資源描述的通用元數據規范,能夠比較全面地揭示數字資源的主要屬性特征,且應用廣泛,因此本核心元數據本體構建擬采用以DC元數據為主的元數據規范.DC元數據具有15個核心元素,可表示為“DCTERMS:元素名稱”的形式,并輔以FOAF等其他元數據本體。各領域、各類型人文社科專題數據庫一般擁有文檔、圖片、音頻和視頻4種組織形式的資源,因而在該核心元數據本體中,按照組織形式將數據資源分為文檔( Docu-ment)、圖片(Image)、音頻(Audio)和視頻(Video)4種類型。文檔(Document)部分擬整合復用歐石燕構建的數字圖書館文獻資源核心元數據本體[14]。一方面,現有領域本體較為成熟,可以提高語義的精確性:另一方面,復用已有領域本體可以在一定程度上降低人文社科專題數據庫資源本體的構建難度,支撐之后的關聯數據構建。對于人文社科專題數據庫資源涉及人員信息,本研究選擇復用現有本體FOAF中的Agent類及其相關屬性進行描述,主要屬性有Name、Title、Gender等。因此,人文社科專題數據庫核心元數據本體中相關類和屬性如圖3所示。
5.2 關聯數據層
關聯數據層的主要目標是構建相關資源的關聯數據框架,在元數據語義描述和本體構建環節初步實現人文社科專題數據庫資源語義層面上的描述和關聯關系的揭示的基礎上,更進一步地揭示不同資源間的隱性語義關系,使得表面、單一、薄弱、狹窄的關聯關系能夠得到深化完善。因此,本層將以關聯數據形式將RDF語義元數據進行相互關聯,揭示不同資源間隱含的關系,使資源之間能通過RDF鏈接進行相互訪問,將人文社科專題數據庫繁雜的資源集成一個相互關聯的有機聚合網絡,以促進資源的共享共建。
構建關聯數據的基本步驟如下:
1)創建統一資源標識符( URI),即給予每個資源實體一個永久的標識符,使之得以被區別和精確檢索;
2)資源實體RDF化,即以RDF的格式去描述各個實體,從而為關聯數據的發布奠定基礎;
3)資源實體關聯化,即使用RDFlink來描述各個實體之間的深層關系,這也是數據如何進行關聯的依據。
同樣以第4節中案例平臺中的音頻資源——《志愿軍在友邦》為例,按照以上步驟構建其相關本體語義關聯數據。首先,創建資源實體的URI,通用結構為域名+實體類型+實體序號。平臺網址http://www. modernhistory. org.cn可以直接被確定為案例平臺資源管理的網址,即URl中的域名部分;資源實體類型包括文檔( Document)、圖片(Im-age)、音頻(Audio)和視頻(Video)4種類型。因此,案例音頻資源的URI便可假定為http://www. modernhistory. org. cn/Audio/20191105。其次,參考圖2中的元數據描述框架以及圖3的核心元數據本體,構建該音頻資源本體間的語義關聯框架,具體內容參見圖4。
根據案例平臺中各類資源實體之間的深度語義聯系,可以更進一步地擴展上述語義關聯。例如,平臺內以“陳田鶴”為主要責任者的資源類型,除了音頻,還有圖書,如《陳田鶴音樂作品選》和《陳田鶴音樂專輯手稿》等。同時,以抗日戰爭為主題的資源,除陳田鶴的相關音頻之外,還有圖書、紅色文獻、期刊。按照URI的創建規則,依次賦予以上資源實體唯一的資源標識符,則拓展的關聯數據示意圖如圖5所示。
需要注意的是,本研究雖然僅以單個案例平臺為實證對象,驗證構建的人文社科專題數據庫關聯數據模型的可行性,但是該模型是面向整個人文社科專題數據庫的,同樣適用于多個專題數據庫關聯數據的構建。即多個專題數據庫在關聯數據構建過程中嚴格遵循模型基本步驟,包括數據的采集與整合、元數據規范化語義描述、核心元數據本體的構建以及關聯數據語義互聯,最終可以以資源實體間的共同屬性特征為橋梁,建立關聯關系,形成關聯數據網絡,最終實現多庫資源間的語義互操作。
6 綜合應用層
在對人文社科專題數據庫資源序化組織并構建了相應的關聯數據后,需要發布關聯數據,以便后續的消費。在發布關聯數據時,需要同時將數據的體量、儲存方式以及更新頻率納入考慮范圍,根據不同的實際情況選擇不同的發布方式以及發布平臺。目前,應用較為廣泛的關聯數據發布工具主要有Pubby、D2R、Linked Media Framework、LinkedData API、Virtuoso和OAI2LOD Server等6種,各有優劣。由于人文社科專題數據庫資源體量大、種類多,同時需要實時定期更新,因而選擇能夠將全球范圍內的關系型數據庫快速發布成關聯數據的D2R平臺作為最終關聯數據的發布平臺恰如其分。
在關聯數據發布之后,后續還需要依托相關技術為用戶提供相應的瀏覽、檢索和共享服務,以體現其價值與意義。同時,將關聯數據投入消費和應用,有助于發現問題,及時矯正與完善。提升關聯數據相關服務質量可以從兩個方面人手:其一,根據資源實體之間的關系特征,為用戶智能推送個性化資源,提高資源的利用率;其二,基于資源實體的屬性特征,加強資源實體的語義分析與推理,以提高資源關鍵詞與檢索詞之間的文本相似度,優化檢索結果。
7 總結與展望
人文社科專題數據庫資源類型多元,內容豐富,但存在異構、無序、斷聯等問題。因此,本研究構建了一個面向人文社科專題數據庫的關聯數據模型,該模型共有5個層次,分別為:數據采集層、資源描述層、本體構建層、關聯數據層以及綜合應用層,模型的核心是知識組織層面的本體構建層和關聯數據層。同時,本研究以抗日戰爭與近代中日關系文獻數據平臺為例,對構建的關聯數據模型進行了實證。
未來,人文社科專題數據庫關聯數據模型的相關研究與實踐需要深入思考以下問題:
1)關聯數據模型的普適性。關聯數據模型中的關鍵——核心元數據本體雖然能保證使用的靈活性、共享性,便于后續關聯數據的構建,但核心元數據本體一般不能容納各種元數據規范的所有元素,對于一些特定的資源實體類型,需要自主添加屬性元素到核心元數據本體中。除了特殊資源實體類型之外,其他普通資源實體中的屬性元素也有更多的展開空間,在注重核心屬性元素的同時也要兼顧這些屬性元素。后續的研究應該根據資源實體特征,完善核心元數據本體,提升關聯數據模型的普適性。
2)關聯數據模型的客觀性。關聯數據構建工作中不可避免地存在著一些主觀環節,如資源實體的分類、屬性的自定義、URI的構建等,這些工作還有諸多可商榷之處,需要在扎實的調研分析中查檢核驗,以提升關聯數據模型的科學性與客觀性。
3)關聯數據模型的時效性。人文社科專題數據庫是一個持續生長的有機體,存在實時動態更新的特征,且關聯數據的相關技術也是不斷發展進步的,因此關聯數據模型的時效性也需要深入探討。由于在實踐中,不能實時展開跟進、更新工作,因而更新的周期、頻率以及技術的選擇將是后續探討的方向。
綜上所述,后續的研究應圍繞提升人文社科專題數據庫關聯數據模型的普適性、客觀性和時效性展開,以完善相關標準、提升相關技術,推進人文社科專題數據庫建設規范化管理。
參考文獻
[1] Berners-Lee T.Linked Data Personal Notes on Design Issues forthe World Wide Web[ EB/OL]. https://www. w3. orqDesignls-sues/.2019- 10-24.
[2]沈志宏,張曉林.關聯數據及其應用現狀綜述[J].現代圖書情報技術,2010,(11):1-9.
[3]沈志宏,黎建輝,張曉林,關聯數據互聯技術研究綜述:應用、方法與框架[J].圖書情報工作,2013,57( 14):125- 133.
[4]夏翠娟,劉煒,趙亮,等.關聯數據發布技術及其實現——以Drupal為例[J].中國圖書館學報,2012,38(1):49-57.
[5]歐石燕,唐振貴,面向圖書館關聯數據的自動問答技術研究[J].中國圖書館學報,2015,41 (6):44-60.
[6]陳濤,夏翠娟,劉煒,等.關聯數據的可視化技術研究與實現[J].圖書情報工作,2015,59( 17):113-119.
[7]劉美杏,徐芳.古道線性文化遺產信息資源關聯數據模型構建及其實證研究[J].圖書館學研究,2019,(14):40-50.
[8]張樂,常娥.基于Drupal的民國建筑知識庫關聯數據的組織與發布研究[J].圖書館學研究,2018,(19):66-72.
[9]董坤,謝守美.基于關聯數據的MOOC資源語義化組織與聚合研究[J].情報雜志,2016,35 (6):177-182.
[10]夏翠娟,劉煒,陳濤,等,家譜關聯數據服務平臺的開發實踐[J].中國圖書館學報,2016,42 (3):27-38.
[11]許鑫,張悅悅.非遺數字資源的元數據規范與應用研究[J].圖書情報工作,2014,58 (21):13-20,34.
[12]劉煒,李大玲,夏翠娟.元數據與知識本體[J].圖書館雜志,2004,(6):50-54,49.
[13] Studer B, Benjamins V R, Fensel D.Knowledge Engineering:Principles and Methods[J].Data and Knowledge Engineering,1998, 25 (1/2): 161-197.
[14]歐石燕.面向關聯數據的語義數字圖書館資源描述與組織框架設計與實現[J]中國圖書館學報,2012,38( 6):58- 71.
(責任編輯:陳媛)
收稿日期:2019-10-14
基金項目:國家社會科學基金重大項目“人文社科專題數據庫建設規范化管理研究”(項目編號:18ZDA326)。
作者簡介:施艷萍(1993-),女,博士研究生,研究方向:知識管理與學術評價。李陽(1989-),男,助理研究員,研究方向:競爭情報與信息資源管理。