999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BIBFRAME的數(shù)字圖書館語義搜索框架研究

2017-04-19 13:56:27齊云飛趙宇翔朱慶華
圖書與情報(bào) 2017年1期

齊云飛 趙宇翔 朱慶華

摘 要:為滿足數(shù)字圖書館語義化資源整合與發(fā)現(xiàn)需要,文章提出了基于書目框架(BIBFRAME)的數(shù)字圖書館語義搜索框架,并對(duì)資源的語義化描述、組織和搜索過程以及各模塊的功能進(jìn)行了設(shè)計(jì)和說明。最后,通過搭建實(shí)驗(yàn)系統(tǒng)對(duì)框架功能進(jìn)行測試,實(shí)驗(yàn)結(jié)果表明,系統(tǒng)滿足了預(yù)期的功能需求,提出的數(shù)字圖書館語義搜索框架具有較好的科學(xué)性和有效性。

關(guān)鍵詞:書目框架;數(shù)字圖書館;關(guān)聯(lián)數(shù)據(jù);資源整合;語義搜索

中圖分類號(hào):G250.76 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.11968/tsyqb.1003-6938.2017010

Abstract This paper proposes the semantic search framework in digital library to meet the needs of resource integration and discovery. On the basis, the author introduces the process of semantic description, organization, and search, as well as the function of each module. Furthermore, an experiment system is constructed to verify the function of the framework. The results show that the system meets the functional requirements, and the semantic search framework of digital library is scientific and efficient.

Key words BIBFRAME; digital library; linked data; resource integration; semantic search

隨著分布式存儲(chǔ)、云計(jì)算等信息技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為用戶發(fā)布、獲取信息的主要渠道,以知識(shí)服務(wù)為核心的圖書館正面臨著用戶流失的風(fēng)險(xiǎn)[1]。數(shù)字圖書館作為數(shù)字資源的存儲(chǔ)、組織和傳播中心,實(shí)現(xiàn)了圖書館功能向互聯(lián)網(wǎng)的延伸,代表了圖書館未來的發(fā)展方向。然而,在網(wǎng)絡(luò)信息高速發(fā)展的今天,數(shù)字圖書館仍然無法真正融入開放的互聯(lián)網(wǎng)絡(luò),且面臨著多個(gè)方面的發(fā)展困境,如:核心資源主要來源于長期的館藏積累,數(shù)據(jù)量少,更新慢,且不完整;資源組織方面仍然采用圖書館特有的MARC元數(shù)據(jù),編目信息缺少通用性和可讀性,無法適用互聯(lián)網(wǎng)多來源異構(gòu)、多類型、多粒度資源的整合需要;仍然采用基于關(guān)鍵詞的檢索方式,缺少對(duì)檢索語句的語義解讀,無法發(fā)現(xiàn)深層的用戶需求。

語義搜索是基于語義網(wǎng)技術(shù)提出的全新的資源搜索方法,其能夠從語義層面識(shí)別用戶的檢索請(qǐng)求[2],以機(jī)器可理解的方式對(duì)資源及資源間的關(guān)系進(jìn)行語義描述和組織,并通過邏輯推理實(shí)現(xiàn)資源的語義檢索[3]。本體是實(shí)現(xiàn)語義搜索的基礎(chǔ),其與關(guān)聯(lián)數(shù)據(jù)的結(jié)合可以有效解決多來源、多領(lǐng)域、多類型資源的整合問題[4]。書目框架(BIBFRAME)是美國國會(huì)圖書館提出的新一代編目本體。與MARC元數(shù)據(jù)不同,BIBFRAME采用本體的方式對(duì)資源進(jìn)行描述,并通過關(guān)聯(lián)數(shù)據(jù)進(jìn)行發(fā)布。本文基于BIBFRAME提出了一種數(shù)字圖書館的語義搜索框架,該框架融合了關(guān)聯(lián)數(shù)據(jù)、自然語言處理、SPARQL搜索等相關(guān)技術(shù),實(shí)現(xiàn)了信息的語義整合、需求的語義識(shí)別和資源的語義搜索。以為解決數(shù)字圖書館語義整合和搜索提供了經(jīng)驗(yàn)。

1 數(shù)字圖書館語義搜索分析

1.1 語義搜索概述

語義搜索的出現(xiàn)源于語義網(wǎng)這一概念的提出[2]。根據(jù)蒂姆·伯納斯·李的構(gòu)想,語義網(wǎng)環(huán)境下所有的資源具有唯一的URI,資源之間通過語義關(guān)系進(jìn)行關(guān)聯(lián),整個(gè)互聯(lián)網(wǎng)被聚合成為一個(gè)巨大的數(shù)據(jù)庫,通過語義搜索為各個(gè)領(lǐng)域提供知識(shí)發(fā)現(xiàn)和決策支持服務(wù)[5]。語義搜索作為語義網(wǎng)環(huán)境下新一代的知識(shí)獲取方式,涉及信息檢索、人工智能、語義網(wǎng)挖掘等眾多研究領(lǐng)域[6],許多研究者將本體、關(guān)聯(lián)數(shù)據(jù)、自然語言處理等技術(shù)應(yīng)用于語義搜索,取得了豐碩的研究成果[3]。

在資源組織方面,本體是語義搜索的基礎(chǔ)[2],本體中的抽象概念可以對(duì)資源進(jìn)行聚類,屬性可以描述資源間豐富的語義關(guān)系,基于本體構(gòu)建的概念模型是結(jié)構(gòu)化、語義化資源組織的重要工具。目前,許多研究者探索了本體在非結(jié)構(gòu)化信息描述[7] 、元數(shù)據(jù)轉(zhuǎn)換[8]和移動(dòng)語義搜索中的應(yīng)用[9-10]。在語義編碼方面,關(guān)聯(lián)數(shù)據(jù)是本體發(fā)布和映射的主要方式,其采用三元組對(duì)語義關(guān)系進(jìn)行描述,通過RDF對(duì)概念模型進(jìn)行編碼,并支持以RDF圖的形式進(jìn)行基于推理的關(guān)系發(fā)現(xiàn)和語義檢索[11-16]。在自動(dòng)化處理方面,自然語言處理技術(shù)提供了高效和智能的語義處理,可以解決搜索過程中的語義標(biāo)注[17-18]、語義識(shí)別[19-21]、語義排序[22]和搜索評(píng)價(jià)[23]等問題。

1.2 數(shù)字圖書館語義搜索

語義搜索具有廣闊的發(fā)展前景,許多研究者從互聯(lián)網(wǎng)、生物、醫(yī)療、旅游等眾多領(lǐng)域探索了其在網(wǎng)絡(luò)內(nèi)容監(jiān)管[24-25]、極地?cái)?shù)據(jù)分析[26]、用戶生成內(nèi)容挖掘[27-28]、學(xué)科知識(shí)服務(wù)[29]等方面的應(yīng)用。在數(shù)字圖書館領(lǐng)域,我們認(rèn)為語義搜索同樣具有重要的價(jià)值:(1)在海量資源管理方面,基于本體的資源描述可以更好的實(shí)現(xiàn)數(shù)字圖書館資源的組織與整合;(2)在編目數(shù)據(jù)序列化方面,基于關(guān)聯(lián)數(shù)據(jù)的編目信息具有更好的通用性和可讀性。通過關(guān)聯(lián)數(shù)據(jù)云技術(shù),數(shù)字圖書館可以更方便的分享館藏信息,提高互聯(lián)網(wǎng)環(huán)境下的資源可見度;(3)在資源語義檢索方面,基于語義的檢索方式可以更有效的發(fā)掘資源內(nèi)涵、理解用戶需求,提供更全面、更準(zhǔn)確的知識(shí)發(fā)現(xiàn)服務(wù)。

同時(shí),筆者也認(rèn)為數(shù)字圖書館在實(shí)現(xiàn)語義搜索方面存在著巨大的優(yōu)勢:(1)數(shù)字圖書館采用結(jié)構(gòu)化的資源描述和組織方式,專業(yè)人員編輯的書目數(shù)據(jù)提供了豐富的語義信息,這些信息在揭示資源內(nèi)涵方面發(fā)揮著重要的作用;(2)語義網(wǎng)一直是圖書館領(lǐng)域的研究熱點(diǎn),許多受控詞表、本體模型已經(jīng)通過關(guān)聯(lián)數(shù)據(jù)進(jìn)行發(fā)布。BIBFRAME是美國國會(huì)圖書館基于關(guān)聯(lián)數(shù)據(jù)發(fā)布的新一代編目本體,其代表了編目格式未來的發(fā)展趨勢。通過上述分析,筆者認(rèn)為BIBFRAME作為圖書館領(lǐng)域的編目本體,具有強(qiáng)大的語義描述和組織功能,如果將其與語義搜索技術(shù)結(jié)合將可以有效的推動(dòng)數(shù)字圖書館知識(shí)服務(wù)的創(chuàng)新與變革。

2 BIBFRAME概述

2.1 BIBFRAME的產(chǎn)生與發(fā)展

2011年5 月,美國國會(huì)圖書館開始了“書目框架轉(zhuǎn)換活動(dòng)”計(jì)劃,旨在解決傳統(tǒng)MARC數(shù)據(jù)向關(guān)聯(lián)數(shù)據(jù)的轉(zhuǎn)化問題。次 年11月,又發(fā)布了書目框架的模型草案(BIBFRAME1.0),隨后陸續(xù)修訂、完善了元數(shù)據(jù)、轉(zhuǎn)換工具、測試數(shù)據(jù)集等相關(guān)內(nèi)容。BIBFRAME提出后受到了業(yè)界極大的關(guān)注,美國國會(huì)圖書館聯(lián)合英國國家圖書館等機(jī)構(gòu)對(duì)BIBFRAME的功能性和交互性進(jìn)行了大量研究和測試,并于2016年1月提出了最新的修訂版本BIBFRAME2.0。

2.2 BIBFRAME的特點(diǎn)

BIBFRAME作為新一代的圖書館編目標(biāo)準(zhǔn),其目標(biāo)是打破傳統(tǒng)OPAC系統(tǒng)的封閉性,實(shí)現(xiàn)互聯(lián)網(wǎng)資源與圖書館資源的整合與共享,使圖書館真正融入以互聯(lián)網(wǎng)為核心的現(xiàn)代信息社會(huì)[1]。對(duì)此,BIBFRAME采用了全新的資源描述和組織方式。

(1)構(gòu)建層次化的概念模型。BIBFRAME2.0將資源統(tǒng)一抽象為作品、實(shí)例和單件三個(gè)核心類,其他的類和屬性均與這三個(gè)類進(jìn)行關(guān)聯(lián)(見圖1)。作品是對(duì)資源本質(zhì)的概念化描述,與其相關(guān)的是主題、責(zé)任者、事件等內(nèi)容。實(shí)例反映的是作品的一個(gè)具體版本,與其相關(guān)的是作品的出版信息。單件反映的是作品的一個(gè)具體副本,與其相關(guān)的是副本的館藏信息。本文通過構(gòu)建層次化的概念模型,BIBFRAME對(duì)圖書館編目數(shù)據(jù)進(jìn)行了層次劃分,實(shí)現(xiàn)了不同主題的資源描述。

(2)明確定義實(shí)體類型和屬性。BIBFRAME明確規(guī)定了作品、實(shí)例支持的實(shí)體類型,并以子類的形式進(jìn)行規(guī)范。如明確規(guī)定作品支持的實(shí)體為文本、地圖、音頻等11種類型。實(shí)例支持的出版物為印刷版、手稿、電子版等5種類型。在實(shí)體關(guān)系方面,BIBFRAME在描述的通用性和專業(yè)性上作出了平衡,制定了合理的屬性用于描述實(shí)體內(nèi)部和實(shí)體間的關(guān)系。

(3)采用語義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)技術(shù)。BIBFRAME接受了語義網(wǎng)的思想,采用實(shí)體-關(guān)系的方式構(gòu)建概念模型,實(shí)現(xiàn)了編目數(shù)據(jù)的層次化組織。在概念模型和內(nèi)容規(guī)則方面,BIBFRAME充分借鑒了已有的RDA、Schema.org等標(biāo)準(zhǔn),堅(jiān)持復(fù)用已有的本體術(shù)語,從而保持了數(shù)據(jù)的兼容性;在編碼方式方面,采用RDF/RDFS、OWL等關(guān)聯(lián)數(shù)據(jù)和本體描述語言進(jìn)行編碼和發(fā)布,為基于關(guān)聯(lián)數(shù)據(jù)的資源整合和SPARQL搜索提供了支持。

2.3 BIBFRAME的應(yīng)用

為推動(dòng)BIBFRAME的發(fā)展,美國國會(huì)圖書館開發(fā)了BIBFRAME的編輯、比較和轉(zhuǎn)化工具,并聯(lián)合英國國家圖書館等機(jī)構(gòu)發(fā)布了BIBFRAME的數(shù)據(jù)集。此外,美國國會(huì)圖書館還開通了針對(duì)BIBFRAME的應(yīng)用注冊(cè)服務(wù),目前已經(jīng)有15家機(jī)構(gòu)參與其中。BIBFRAME的快速發(fā)展同樣引起了國內(nèi)圖書館領(lǐng)域?qū)W者的關(guān)注。劉煒[20]、夏翠娟[1]等國內(nèi)較早開展相關(guān)研究的學(xué)者詳細(xì)介紹了BIBFRAME的內(nèi)涵和特點(diǎn),并對(duì)其在語義網(wǎng)和家譜本體方面的應(yīng)用進(jìn)行了深入的研究;安小麗等[33]研究了BIBFRAME對(duì)圖書館工作帶來的變革;婁秀明和危紅[34]介紹了從MARC到BIBFRAME編目格式的發(fā)展歷程,并對(duì)BIBFRAME的實(shí)踐進(jìn)行了探索;胡小菁[35]深入分析了BIBFRAME模型變化的原因,并對(duì)其發(fā)展方向進(jìn)行了研究;李勇文[36]對(duì)BIBFRAME的數(shù)據(jù)模型、應(yīng)用規(guī)則等進(jìn)行分析,提出了BIBFRAME的實(shí)踐策略。目前,關(guān)于BIBFRAME的研究主要集中在圖書館資源描述和組織方面,而將其應(yīng)用于資源語義整合和搜索的研究還很少,尤其是在具體的系統(tǒng)設(shè)計(jì)方面還沒有實(shí)際的研究案例。

3 基于BIBFRAME的數(shù)字圖書館語義搜索框架

3.1 功能需求

本研究提出的數(shù)字圖書館語義搜索主要實(shí)現(xiàn)三個(gè)方面的功能:(1)實(shí)現(xiàn)互聯(lián)網(wǎng)資源的語義化描述與整合。互聯(lián)網(wǎng)環(huán)境下,數(shù)字圖書館需要面對(duì)網(wǎng)絡(luò)用戶、數(shù)字出版商和圖書館同行等的信息交互與共享需求,為了提供完整、準(zhǔn)確的知識(shí)服務(wù),語義搜索系統(tǒng)要能夠適應(yīng)不同的資源描述方式,實(shí)現(xiàn)異構(gòu)資源組織與整合;(2)實(shí)現(xiàn)用戶需求的語義化解讀。用戶在訪問數(shù)字圖書館時(shí)通常采用自然語言進(jìn)行檢索,語義搜索系統(tǒng)要能夠識(shí)別檢索語句中的實(shí)體對(duì)象和深層語義,理解用戶真正的檢索需求;(3)實(shí)現(xiàn)資源的語義化搜索。語義搜索系統(tǒng)要支持對(duì)語義關(guān)系的描述和基于推理的檢索,提供全面、準(zhǔn)確的知識(shí)發(fā)現(xiàn)服務(wù)。

3.2 系統(tǒng)架構(gòu)

針對(duì)上述需求,本研究提出了基于BIBFRAME的數(shù)字圖書館語義搜索框架(見圖2),該框架主要包括七個(gè)核心模塊,實(shí)線箭頭顯示了資源的構(gòu)建過程,虛線箭頭顯示了資源的檢索過程。資源的構(gòu)建過程主要通過模型構(gòu)建、模型映射、模型編碼和語義存儲(chǔ)四個(gè)模塊實(shí)現(xiàn)。首先,模型構(gòu)建模塊負(fù)責(zé)基于BIBFRAME構(gòu)建資源描述的概念模型。模型映射模塊則負(fù)責(zé)對(duì)外部數(shù)據(jù)進(jìn)行整合。由于外部數(shù)據(jù)通常采用不同的描述格式,所以需要采用差異化的映射方式;然后,模型編碼模塊對(duì)上述模塊生成的描述信息進(jìn)行關(guān)聯(lián)數(shù)據(jù)編碼,生成機(jī)器可理解的RDF文件;最后,語義存儲(chǔ)模塊將生成的RDF數(shù)據(jù)存入三元組數(shù)據(jù)庫,并提供添加、刪除、查找等數(shù)據(jù)管理功能。資源的搜索過程主要通過檢索語句處理、檢索語句轉(zhuǎn)換和SPARQL搜索三個(gè)模塊實(shí)現(xiàn)。首先,檢索語句處理模塊對(duì)用戶檢索式進(jìn)行語義分析,通過自然語言處理技術(shù)提取其中的本體術(shù)語和命名實(shí)體;然后,檢索語句轉(zhuǎn)換模塊對(duì)提取到的本體和實(shí)體詞匯進(jìn)行標(biāo)注,并將其轉(zhuǎn)化為SPARQL檢索語句;最后,SPARQL搜索模塊對(duì)數(shù)據(jù)庫進(jìn)行檢索,并將結(jié)果返回用戶。

3.3 系統(tǒng)模塊

(1)模型構(gòu)建模塊。該模塊主要負(fù)責(zé)基于BIBFRAME構(gòu)建概念模型對(duì)圖書館本地資源進(jìn)行描述,具體功能包括:本體模型構(gòu)建和實(shí)體構(gòu)建。本體模型構(gòu)建主要根據(jù)BIBFRAME構(gòu)建概念描述模型。因?yàn)锽IBFRAME已經(jīng)進(jìn)行了較為詳細(xì)的類和屬性定義,所以構(gòu)建過程中主要對(duì)類的約束、關(guān)系(等價(jià)、互斥)和屬性特性(功能、傳遞、對(duì)稱、反身)等進(jìn)行定義。實(shí)體構(gòu)建主要定義實(shí)體所屬的類,以及實(shí)體之間的屬性關(guān)系。

(2)模型映射模塊。模型映射模塊主要負(fù)責(zé)從結(jié)構(gòu)和內(nèi)容兩個(gè)方面對(duì)外部異構(gòu)信息進(jìn)行整合。BIBFRAME提供了作品、實(shí)例、單件構(gòu)成的層次模型,每個(gè)核心類分別對(duì)應(yīng)了不同的描述主題(見表1),能夠?qū)崿F(xiàn)不同粒度的資源描述。

①整合策略。系統(tǒng)需要根據(jù)外部資源類型選擇合適的概念層次對(duì)信息進(jìn)行整合。對(duì)于海量的網(wǎng)絡(luò)用戶生成內(nèi)容(User Generated Content,UGC)由于缺少明確的出版和館藏信息可以在作品層進(jìn)行描述,通過添加標(biāo)題、作者、主題等信息實(shí)現(xiàn)數(shù)字圖書館對(duì)網(wǎng)絡(luò)資源的整合。對(duì)于出版機(jī)構(gòu)可以在作品層和實(shí)例層進(jìn)行描述,實(shí)現(xiàn)數(shù)字圖書館與出版機(jī)構(gòu)資源的交互與共享。對(duì)于圖書館同行之間的信息整合可以在作品、實(shí)例、單件三層進(jìn)行,實(shí)現(xiàn)完整的書目信息整合;②整合方法。在結(jié)構(gòu)方面,對(duì)于非結(jié)構(gòu)化的外部信息,系統(tǒng)需要根據(jù)整合策略為其補(bǔ)充相應(yīng)的描述信息。對(duì)于基于不同本體的異構(gòu)信息,系統(tǒng)首先需要設(shè)置本體之間的等價(jià)關(guān)系(等價(jià)類、等價(jià)屬性、等價(jià)實(shí)體),然后通過推理實(shí)現(xiàn)本體模型和實(shí)體數(shù)據(jù)的整合。在內(nèi)容方面,利用BIBFRAME提供的主題、事件、集合等抽象概念,從內(nèi)容上對(duì)資源信息進(jìn)行整合。

(3)模型編碼模塊。模型編碼模塊主要通過關(guān)聯(lián)數(shù)據(jù)的方式對(duì)之前構(gòu)建的概念、實(shí)體模型進(jìn)行編碼,生成機(jī)器可識(shí)別的RDF文件。概念、實(shí)體模型的關(guān)聯(lián)數(shù)據(jù)編碼主要包括兩項(xiàng)內(nèi)容:①為所有的類、屬性和實(shí)體定義全網(wǎng)唯一的URI,從而實(shí)現(xiàn)資源的唯一定位。URI由前綴和對(duì)象名兩部分組成;②生成RDF編碼。資源描述框架(Resource Description Framework,RDF)是W3C組織發(fā)布的語義網(wǎng)資源描述標(biāo)準(zhǔn),其采用三元組的方式(主語、謂語、客體)對(duì)資源間的關(guān)系進(jìn)行描述,生成機(jī)器可理解的關(guān)系模型。目前,DC、DCTERMS、BIBFRAME等元數(shù)據(jù)和本體詞匯集都已經(jīng)通過RDF進(jìn)行發(fā)布。

(4)語義存儲(chǔ)模塊。語義存儲(chǔ)模塊負(fù)責(zé)對(duì)生成的RDF數(shù)據(jù)進(jìn)行存儲(chǔ)和管理。由于RDF特殊的數(shù)據(jù)結(jié)構(gòu),傳統(tǒng)的關(guān)系數(shù)據(jù)庫無法對(duì)其進(jìn)行有效管理,所以需要專門的三元組數(shù)據(jù)庫進(jìn)行存儲(chǔ)。三元組數(shù)據(jù)庫主要采用SPARQL語言進(jìn)行管理,能夠提供對(duì)RDF數(shù)據(jù)的插入、刪除、修改和查詢操作。區(qū)別于傳統(tǒng)數(shù)據(jù)庫的處理方式,三元組存儲(chǔ)器主要通過圖模式匹配的方式執(zhí)行SPARQL操作。

(5)檢索語句處理模塊。檢索語句處理模塊負(fù)責(zé)檢索句的命名實(shí)體提取和本體標(biāo)注[37]。因?yàn)榫幠啃畔⒅幸呀?jīng)包含了完整的本體和實(shí)體定義,所以系統(tǒng)主要采用基于規(guī)則和用戶詞典方式進(jìn)行分詞。具體方法是將全部的命名實(shí)體和本體詞匯存入用戶詞典,以優(yōu)化用戶檢索語句的分詞。分詞后所有的命名實(shí)體和本體詞匯將被單獨(dú)切分,對(duì)此還需要構(gòu)建實(shí)體索引和本體索引。實(shí)體索引以類為單位進(jìn)行構(gòu)建,索引表的名稱為類的名稱。本體索引主要包括本體名稱和URI兩個(gè)關(guān)鍵字段,分別存儲(chǔ)類和屬性的相應(yīng)信息。通過對(duì)分詞結(jié)果進(jìn)行實(shí)體和本體檢索,系統(tǒng)就可以識(shí)別檢索語句中的命名實(shí)體和本體詞匯。

(6)檢索語句轉(zhuǎn)化模塊。SPARQL轉(zhuǎn)化主要負(fù)責(zé)將提取的命名實(shí)體和本體標(biāo)注結(jié)果轉(zhuǎn)化為SPARQL語句進(jìn)行語義搜索。SPARQL是W3C針對(duì)RDF提出的查詢標(biāo)準(zhǔn)和數(shù)據(jù)訪問協(xié)議,主要由PREFIX、SELECT、FROM和WHERE四部分構(gòu)成。PREFIX用于設(shè)置前綴,SELECT用于設(shè)置檢索的對(duì)象,F(xiàn)ROM用于設(shè)置檢索的位置,WHERE用于設(shè)置檢索的條件。檢索語句的轉(zhuǎn)換涉及較為復(fù)雜的句法分析,目前本研究僅針對(duì)簡單句提出了若干轉(zhuǎn)換規(guī)則,對(duì)于復(fù)雜句的處理還需要更深入的研究。

(7)SPARQL搜索模塊。SPARQL搜索模塊主要負(fù)責(zé)對(duì)構(gòu)建的SPARQL檢索式進(jìn)行語義檢索。區(qū)別于傳統(tǒng)的檢索方式,SPARQL檢索的對(duì)象是RDF三元組。檢索過程中,SPARQL搜索引擎首先將數(shù)據(jù)庫存儲(chǔ)的三元組數(shù)據(jù)轉(zhuǎn)化成RDF圖,然后通過圖搜索算法進(jìn)行檢索。目前,常用的SPARQL搜索引擎是Apache開發(fā)的fuseki。另外,也可以通過調(diào)用JeanAPIs對(duì)JenaTDB進(jìn)行檢索。為了提高系統(tǒng)檢索質(zhì)量,還可以采用推理機(jī)提高系統(tǒng)的語義發(fā)現(xiàn)能力。目前,JeanAPIs主要支持基于規(guī)則的推理,而RACER、FaCT++、Pellet等則可以在OWL2 RL規(guī)則的約束下進(jìn)行更專業(yè)的推理。

4 語義搜索框架測試

為了驗(yàn)證上述語義搜索框架的效果,本研究搭建了基于該框架的驗(yàn)證系統(tǒng),并設(shè)計(jì)了多個(gè)實(shí)驗(yàn)對(duì)系統(tǒng)的運(yùn)行效果進(jìn)行檢驗(yàn)。

4.1 驗(yàn)證系統(tǒng)的搭建

(1)本體模型的構(gòu)建及序列化。采用protege5.0對(duì)概念模型進(jìn)行構(gòu)建,并在模型的基礎(chǔ)上進(jìn)行實(shí)體和實(shí)體屬性的定義。概念模型主要基于BIBFRAME進(jìn)行構(gòu)建,除此以外還復(fù)用了DC、EVENT、FOAF等常用的本體詞匯集;根據(jù)實(shí)驗(yàn)需要,選取了網(wǎng)絡(luò)用戶、圖書館和出版機(jī)構(gòu)等多個(gè)來源的信息,如書籍的出版信息、館藏信息和用戶評(píng)論等;構(gòu)建完成后系統(tǒng)生成RDF格式的序列化文件。

(2)檢索語句處理及轉(zhuǎn)換。采用NLPIR2016進(jìn)行檢索語句的分詞,用戶字典采用系統(tǒng)自帶的UserDict文件;命名實(shí)體索引和本體索引采用MySQL5.7.14數(shù)據(jù)庫進(jìn)行存儲(chǔ)和檢索;SPARQL轉(zhuǎn)換通過JAVA代碼實(shí)現(xiàn)。

(3)RDF存儲(chǔ)與檢索。采用JenaTDB+Fuseki+Tomcat的架構(gòu)。JenaTDB主要負(fù)責(zé)RDF數(shù)據(jù)的存儲(chǔ);Fuseki是開源的SPARQL搜索引擎,提供RDF查詢服務(wù);Tomcat主要提供WEB服務(wù),在使用前需要先導(dǎo)入Fuseki的WAR文件。

4.2 實(shí)驗(yàn)測試

為了驗(yàn)證系統(tǒng)效果,本研究設(shè)計(jì)了三個(gè)實(shí)驗(yàn)分別對(duì)系統(tǒng)的語義描述、語義整合和語義檢索功能進(jìn)行測試。

(1)語義描述功能測試。為了驗(yàn)證系統(tǒng)的語義描述功能,本研究從豆瓣、中國圖書網(wǎng)、中國國家圖書館等網(wǎng)站獲取了與書籍相關(guān)的書評(píng)、出版和館藏信息,然后采用基于BIBFRAME的概念模型對(duì)上述資源進(jìn)行了描述。具體描述了采用的類和屬性(見表2),生成了書評(píng)和書籍RDF數(shù)據(jù)(見圖3)。

實(shí)驗(yàn)結(jié)果表明,BIBFRAME提供了豐富的類和屬性定義,Work、Instance和Item三個(gè)核心類能夠較好的滿足書評(píng)信息、出版信息和館藏信息的描述需要。同時(shí),測試也顯示BIBFRAME具有適度的描述彈性,在描述責(zé)任者、分類標(biāo)記、作品名稱時(shí),允許使用者自己定義需要的類型。如BIBFRAME設(shè)置了Contribution類和role屬性,通過定義Contribution實(shí)體和該實(shí)體role屬性的值,使用者可以定義需要的貢獻(xiàn)者類型。此外,VarientTitle、Source也都采用了類似的定義方法,能夠?qū)σ延械臉?biāo)題和標(biāo)記類型進(jìn)行擴(kuò)展。

(2)語義整合功能測試。為驗(yàn)證系統(tǒng)語義整合功能,本研究收集了多個(gè)來源的圖像、視頻、報(bào)告、期刊等資源的描述信息,每種信息均采用了不同的本體描述結(jié)構(gòu)。為解決異構(gòu)信息整合問題,筆者采用owl:equivalentClass 、owl:equivalentProperty和owl:sameAs對(duì)異構(gòu)本體進(jìn)行映射,并通過FaCT++推理機(jī)和BIBFRAME中的事件類實(shí)現(xiàn)了資源在結(jié)構(gòu)和內(nèi)容上的整合。為了驗(yàn)證整合效果,筆者以“2001年7月13日北京申奧成功”為事件進(jìn)行檢索,結(jié)果顯示了所有與該事件相關(guān)的資源信息(見圖4)。測試結(jié)果表明基于等價(jià)關(guān)系的本體映射和BIBFRAME的概念、屬性能夠?qū)Ξ悩?gòu)資源進(jìn)行有效的整合。

(3)語義檢索功能測試。為了驗(yàn)證系統(tǒng)的語義檢索功能,本研究采用了多條檢索語句進(jìn)行實(shí)驗(yàn)(見表3),以測試系統(tǒng)各個(gè)環(huán)節(jié)的運(yùn)行效果。

系統(tǒng)通過對(duì)檢索語句分詞實(shí)現(xiàn)了實(shí)體和本體詞匯的單獨(dú)分割(見表3)。系統(tǒng)對(duì)檢索語句的轉(zhuǎn)換結(jié)果(見表4),通過對(duì)SPARQL搜索結(jié)果進(jìn)行驗(yàn)證(見圖5),確認(rèn)系統(tǒng)獲取了較為準(zhǔn)確的結(jié)果,達(dá)到了預(yù)期的語義檢索效果。

上述實(shí)驗(yàn)結(jié)果表明,本研究基于BIBFRAME提出的數(shù)字圖書館語義搜索框架具有較好的科學(xué)性和有效性,根據(jù)其構(gòu)建的驗(yàn)證系統(tǒng)能夠較好的實(shí)現(xiàn)數(shù)字圖書館資源的語義描述、組織和檢索,滿足了預(yù)期的資源整合和發(fā)現(xiàn)需求。同時(shí),測試也顯示驗(yàn)證系統(tǒng)在深層語義發(fā)現(xiàn)和復(fù)雜語句識(shí)別方面存在不足,這主要由于兩個(gè)方面的原因:①驗(yàn)證系統(tǒng)主要針對(duì)實(shí)體間的顯性關(guān)系構(gòu)建概念模型,對(duì)資源深層語義的發(fā)現(xiàn)存在不足;②系統(tǒng)雖然能夠處理常見的簡單句查詢,但是由于缺少句法分析導(dǎo)致系統(tǒng)對(duì)復(fù)雜語句的識(shí)別存在不足。

5 結(jié)語

為提高數(shù)字圖書館對(duì)互聯(lián)網(wǎng)資源的整合與發(fā)現(xiàn)能力,本文提出了基于BIBFRAME的數(shù)字圖書館語義搜索框架,實(shí)驗(yàn)結(jié)果表明,本研究提出的數(shù)字圖書館語義搜索框架具有較好的科學(xué)性和有效性,能夠有效解決數(shù)字圖書館面臨的資源整合和發(fā)現(xiàn)難題。目前,本文提出的框架還存在深層語義發(fā)現(xiàn)和復(fù)雜語句處理兩個(gè)方面的不足。后續(xù)研究中,我們將繼續(xù)對(duì)框架進(jìn)行細(xì)化,并嘗試采用推理、概率統(tǒng)計(jì)的方法提高系統(tǒng)對(duì)潛在語義的發(fā)現(xiàn)能力;在檢索語句處理方面,將嘗試增加句法分析功能,提高系統(tǒng)對(duì)復(fù)雜語句的處理能力。

參考文獻(xiàn):

[1] Pesch O,Miller E.Using BIBFRAME and library linked data to solve real problems:an interview with eric miller of zepheira:edited by oliver pesch[J].The Serials Librarian,2016,71(1):1-8.

[2] 蘇明明,宋文.基于本體的語義搜索引擎解決方案研究新進(jìn)展[J].現(xiàn)代圖書情報(bào)技術(shù),2008(11):24-28.

[3] 郭衛(wèi)寧,司莉.國外語義搜索引擎調(diào)查與分析[J].圖書情報(bào)工作,2013,57(23):121-129.

[4] 王碩,周華琳.基于語義搜索引擎的數(shù)字圖書館服務(wù)優(yōu)化研究[J].圖書館學(xué)研究,2012(14):41-45.

[5] 文坤梅,盧正鼎,孫小林,等.語義搜索研究綜述[J].計(jì)算機(jī)科學(xué),2008,35(5):1-4.

[6] Wei X,Zeng D D.Exna:an efficient search pattern for semantic search engines[J].Concurrency and Computation:Practice and Experience,28(15):4107-4124.

[7] Hu Y,Janowicz K,Prasad S,et al.Enabling Semantic Search and Knowledge Discovery for ArcGIS Online:A Linked-Data-Driven Approach[M].Agile 2015.Switzerlan:Springer,2015:107-124.

[8] Koutsomitropoulos D A,Solomou G D,Kalou A K.Herding linked data:semantic search and navigation among scholarly datasets[J].International Journal of Semantic Computing,2015,9(4):459-482.

[9] Shin S,Ko J,Eom S,et al.Keyword-based mobile semantic search using mobile ontology[J].Journal of Information Science,2015,41(2):178-196.

[10] Song M,Eom S,Shin S,et al.Enriching Mobile Semantic Search with Web Services[C].Semantic Computing (ICSC),2015 IEEE International Conference on Image Process.Quebec:IEEE,2015:452-455.

[11] Stanchev L.Semantic Search Using a Similarity Graph[C].Semantic Computing (ICSC),2015 IEEE International Conference on Image Process.Quebec:IEEE,2015:93-100.

[12] Stanchev L.Fine-tuning an algorithm for semantic search using a similarity graph[J].International Journal of Semantic Computing,2015,9(3):283-306.

[13] Tablan V,Bontcheva K,Roberts I,et al.Mímir:an open-source semantic search framework for interactive information seeking and discovery[J].Web Semantics:Science,Services and Agents on the World Wide Web,2015(30):52-68.

[14] Cohen T,Widdows D,Rindflesch T.Expansion-by-Analogy:A Vector Symbolic Approach to Semantic Search[C].International Symposium on Quantum Interaction.Filzbach:Springer,2015:54-66.

[15] Fatima A,Luca C,Hobbs M.Free-Text User Queries for Semantic Search[C].2015 IEEE 13th International Conference on Industrial Informatics (INDIN).Cambridge:IEEE,2015:838-843.

[16] El-gayar M M,Mekky N,Atwan A.Efficient proposed framework for semantic search engine using new semantic ranking algorithm[J].International Journal of Advanced Computer Science and Applications,2015,6(8):136-143.

[17] Berlanga R,Nebot V,Pérez M.Tailored semantic annotation for semantic search[J].Web Semantics:Science,Services and Agents on the World Wide Web,2015(30):69-81.

[18] 楊麗姣,肖航.漢語深層語義理解與知識(shí)表示-面向語義搜索的語料庫語境信息標(biāo)注研究[J].語言文字應(yīng)用,2015 (1):107-116.

[19] Davelaar E J.Semantic search in the remote associates test[J].Topics in Cognitive Science,2015,7(3):494-512.

[20] Hong K J,Kim H J.A Semantic Search Technique with Wikipedia-Based Text Representation Model[C].2016 International Conference on Big Data and Smart Computing (BigComp).Hong Kong:IEEE,2016:177-182.

[21] 陳國華,湯庸,許玉贏,等.基于詞向量的學(xué)術(shù)語義搜索研究[J].華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,48(3):53-58.

[22] Shabbir U,Kanwal T,Malik R,et al.Comparison between SSTC and LINGO Algorithms in Clustered Based Semantic Search for Browsing Scholarships[C].International Conference on Frontiers of Information Technology.Islamabad:IEEE Computer Society,2015:53-58.

[23] Elibedweihy K M,Wrigley S N,Clough P,et al.An overview of semantic search evaluation initiatives[J].Web Semantics Science Services & Agents on the World Wide Web,2015,30(C):82-105.

[24] Laura L,Me G.Searching the web for illegal content:the anatomy of a semantic search engine[J].Soft Computing,2015(534):1-8.

[25] Ma B,Zhang N,Liu G,et al.Semantic search for public opinions on urban affairs:a probabilistic topic modeling-based approach[J].Information Processing & Management,2015,forthcoming(3):430-445.

[26] Li W,Bhatia V,Cao K.Intelligent polar cyberinfrastructure:enabling semantic search in geospatial metadata catalogue to support polar data discovery[J].Earth Science Informatics,2015,8(1):111-123.

[27] Ma B,Zhang N,Liu G,et al.Semantic search for public opinions on urban affairs:a probabilistic topic modeling-based approach[J].Information Processing & Management,2016,52(3):430-445.

[28] 柯葉青,馬志柔,伍海江,等.一種簡歷語義搜索系統(tǒng)的實(shí)現(xiàn)方法[J].計(jì)算機(jī)科學(xué),2015,42(12):56-59.

[29] 盛東方,孫建軍.基于語義搜索引擎的學(xué)科知識(shí)服務(wù)研究—以GoPubMed為例[J].圖書情報(bào)知識(shí),2015 (4):113-120.

[30] 劉煒,夏翠娟.書目數(shù)據(jù)新格式BIBFRAME及其應(yīng)用[J].大學(xué)圖書館學(xué)報(bào),2014,32(1):5-13.

[31] 夏翠娟.面向語義網(wǎng)的書目框架(BIBFRAME):功能需求及實(shí)現(xiàn)[J].大學(xué)圖書館學(xué)報(bào),2014,32(6):61-69.

[32] 夏翠娟,劉煒,張磊,等.基于書目框架(BIBFRAME)的家譜本體設(shè)計(jì)[J].圖書館論壇,2014(11):5-19.

[33] 安曉麗.BIBFRAME圖書館工作的變革[J].圖書館建設(shè),2015(10):40-42.

主站蜘蛛池模板: 美女被操91视频| 小说 亚洲 无码 精品| 亚洲第一页在线观看| 91精品福利自产拍在线观看| 女人一级毛片| 免费无码AV片在线观看中文| 人妻精品全国免费视频| 亚洲男人天堂2018| 国产精品午夜福利麻豆| 亚洲国产AV无码综合原创| 亚洲精品无码人妻无码| 91精品啪在线观看国产| 国产成人a在线观看视频| 99久久99这里只有免费的精品| 国产精品久线在线观看| 麻豆国产精品| 久久国产精品无码hdav| 亚洲无码不卡网| 五月天久久婷婷| 欧美亚洲国产日韩电影在线| 国产女人爽到高潮的免费视频| 91精品国产自产在线老师啪l| 日韩高清无码免费| 欧美区国产区| 日韩精品成人在线| 欧美精品一二三区| 日韩A级毛片一区二区三区| 久久精品这里只有国产中文精品| 99视频精品在线观看| 国产精品性| 国产精品网拍在线| 亚洲AV无码久久精品色欲| 青草视频网站在线观看| 亚洲免费成人网| 国模极品一区二区三区| 18禁高潮出水呻吟娇喘蜜芽| 欧美人人干| 五月天天天色| 97国产成人无码精品久久久| 在线中文字幕日韩| 一级毛片免费播放视频| 91视频青青草| 国产青青草视频| 国产99久久亚洲综合精品西瓜tv| 欧美人人干| 国产精品丝袜视频| 欧洲成人在线观看| 日日碰狠狠添天天爽| 久久精品日日躁夜夜躁欧美| 国产欧美中文字幕| 黑人巨大精品欧美一区二区区| 国产主播一区二区三区| 色亚洲激情综合精品无码视频 | 国产福利免费在线观看| 美女一区二区在线观看| 欧美亚洲国产日韩电影在线| 色综合中文综合网| 超碰精品无码一区二区| 国产激情无码一区二区免费| 国产主播在线观看| 欧美精品亚洲精品日韩专| 久久情精品国产品免费| 亚洲成人精品在线| 色综合国产| 四虎影视无码永久免费观看| 午夜激情婷婷| 久久伊伊香蕉综合精品| 色噜噜综合网| 丁香婷婷激情综合激情| 欧美日韩成人在线观看| 日本午夜影院| 首页亚洲国产丝袜长腿综合| 国产精品久久久久久久久| 中文字幕伦视频| 久久久久久久久亚洲精品| 一本大道东京热无码av| 久久天天躁狠狠躁夜夜躁| 精品99在线观看| 日本三级欧美三级| 成年人福利视频| 五月激情婷婷综合| 伊人婷婷色香五月综合缴缴情 |