基于語(yǔ)義的數(shù)字圖書(shū)館檢索模型研究

2016-05-14 21:12:48陳巧玉

現(xiàn)代電子技術(shù) 2016年9期

陳巧玉

摘要：隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展，數(shù)字圖書(shū)館已經(jīng)成為信息傳播和獲取的重要途徑。而現(xiàn)階段的數(shù)字圖書(shū)館缺乏具有語(yǔ)義性的匹配，同時(shí)沒(méi)有提供計(jì)算機(jī)可讀的語(yǔ)義信息。結(jié)合圖書(shū)館的具體應(yīng)用，構(gòu)建了基于本體語(yǔ)義技術(shù)的數(shù)字圖書(shū)館檢索模型，并設(shè)計(jì)實(shí)現(xiàn)了一個(gè)檢索系統(tǒng)原型，然后綜合分析并利用 DC 元數(shù)據(jù)，建立了描述圖書(shū)元數(shù)據(jù)的本體，同時(shí)結(jié)合圖書(shū)館的具體應(yīng)用，構(gòu)建了基于本體語(yǔ)義技術(shù)的擴(kuò)展檢索模型。最后，根據(jù)上述擴(kuò)展檢索模型設(shè)計(jì)了檢索系統(tǒng)原型，并通過(guò)三組實(shí)驗(yàn)對(duì)比，驗(yàn)證了構(gòu)建的檢索模型的有效性和實(shí)用性。

關(guān)鍵詞：數(shù)字圖書(shū)館；語(yǔ)義檢索；本體；語(yǔ)義擴(kuò)展

中圖分類號(hào)： TN911?34； TM417 文獻(xiàn)標(biāo)識(shí)碼： A 文章編號(hào)： 1004?373X（2016）09?0103?04

Abstract： With the rapid development of network technology， the digital library has become an important way of information transmission and acquisition. The digital library at this stage lacks the semantic matching， and can′t provide the semantic information with computer readable. The digital library retrieval model based on ontology semantic technology was constructed. A retrieval system prototype was designed and implemented. And then， the ontology to describe the book metadata was established by synthetically analyzing and using DC metadata， and the extension retrieval model based on ontology semantic technology was constructed in combination with the specific application of the library. Finally， according to the extension retrieval model， the retrieval system prototype was designed. The effectiveness and practicability of the constructed retrieval model was verified with the experimental comparison of three groups.

Keywords： digital library； semantic retrieval； ontology； semantic extension

0 引言

對(duì)于數(shù)字圖書(shū)館的形式可以概括為以下兩種：高校的圖書(shū)館檢索系統(tǒng)，它將圖書(shū)信息數(shù)字化，并提供了一個(gè)檢索系統(tǒng)，方便學(xué)生進(jìn)行借閱；類似超星數(shù)字圖書(shū)館、中國(guó)知網(wǎng)或是中國(guó)國(guó)家數(shù)字圖書(shū)館等數(shù)字圖書(shū)館網(wǎng)站，不僅提供圖書(shū)、期刊、專利等信息資源的檢索，還提供在線試讀和下載、相關(guān)學(xué)術(shù)的新聞視頻等一系列綜合信息[1]。

數(shù)字圖書(shū)館實(shí)現(xiàn)數(shù)字化的兩個(gè)關(guān)鍵技術(shù)就是資源的數(shù)字化以及檢索系統(tǒng)，而這兩個(gè)關(guān)鍵技術(shù)目前存在缺乏語(yǔ)義性的表現(xiàn)，直接導(dǎo)致用戶檢索效果不佳，影響了用戶的閱讀體驗(yàn)[2]。傳統(tǒng)的搜索引擎沒(méi)有處理任何學(xué)科領(lǐng)域的知識(shí)，所以他們不能理解用戶的搜索請(qǐng)求以及文章的內(nèi)在聯(lián)系，沒(méi)有傳統(tǒng)圖書(shū)館的用戶挑選過(guò)程，即包含語(yǔ)義性的過(guò)程[3]。

1 圖書(shū)館學(xué)本體構(gòu)建

1.1 必備條件

基于作者的專業(yè)，本文所選取的研究學(xué)科領(lǐng)域?yàn)椤皥D書(shū)館學(xué)”，且目前這一學(xué)科領(lǐng)域的本體沒(méi)有被提出。根據(jù)“圖書(shū)館學(xué)”相關(guān)書(shū)籍以及專家學(xué)者的建議，將“圖書(shū)館學(xué)”的相關(guān)概念進(jìn)行提取、歸類，并比較各個(gè)數(shù)據(jù)庫(kù)中的相關(guān)圖書(shū)期刊，充實(shí)該學(xué)科領(lǐng)域本體[4]。

（1）工具語(yǔ)言的選擇階段。系統(tǒng)均采用OWL本體語(yǔ)言，Protégé本體構(gòu)建工具。

（2）需求分析。涉及學(xué)科領(lǐng)域?yàn)椤皥D書(shū)館學(xué)”，目的就是提高“圖書(shū)館學(xué)”相關(guān)圖書(shū)檢索的語(yǔ)義性，從而提高圖書(shū)的查全率以及查準(zhǔn)率，所以需要給出“圖書(shū)館學(xué)”領(lǐng)域的專業(yè)概念以及相互之間的關(guān)系、實(shí)例等。系統(tǒng)設(shè)計(jì)的用戶主要有兩類：一類是圖書(shū)館的普通用戶即讀者，他們只是需要檢索這個(gè)功能，這部分也是這個(gè)系統(tǒng)研究的重要部分；另外一類是圖書(shū)館管理人員，他不僅需要檢索，而且需要負(fù)責(zé)本體的整個(gè)維護(hù)工作。為了保證本體的持久性，本文選擇使用MySQL數(shù)據(jù)庫(kù)對(duì)本體文件進(jìn)行存儲(chǔ)[5]。

（3）領(lǐng)域?qū)＜业膮⑴c。領(lǐng)域本體構(gòu)建的結(jié)果是獲得這一領(lǐng)域的共同認(rèn)識(shí)，所以應(yīng)該在領(lǐng)域?qū)＜业膸椭拢餐⑦@一學(xué)科的本體[6]。

1.2 圖書(shū)館學(xué)本體構(gòu)建過(guò)程

參考中國(guó)知網(wǎng)對(duì)圖書(shū)館學(xué)這一學(xué)科的圖書(shū)分類，將圖書(shū)館學(xué)分為：普通圖書(shū)館學(xué)、比較圖書(shū)館學(xué)、專門(mén)圖書(shū)館學(xué)、應(yīng)用圖書(shū)館學(xué)、相關(guān)學(xué)科這五大類。這五大類又分別按照下面的體系結(jié)構(gòu)進(jìn)行了分類，如圖1所示。

從圖1的體系結(jié)構(gòu)可以看出，有的概念需要進(jìn)行實(shí)例擴(kuò)展，以便達(dá)到更好的檢索效果。這五大類中，專門(mén)圖書(shū)館類似中圖分類號(hào)中的各種類型圖書(shū)館，從中圖分類號(hào)的分類可以看出，屬于窮舉類型，因此在本體的結(jié)構(gòu)體系中，利用實(shí)例對(duì)其進(jìn)行擴(kuò)充；相關(guān)學(xué)科是指與圖書(shū)館學(xué)相交叉的學(xué)科，由于學(xué)科的發(fā)展，相關(guān)學(xué)科也是不斷的變化，所以使用實(shí)例對(duì)其進(jìn)行擴(kuò)展，而沒(méi)有運(yùn)用子類的形式[7]。

具體介紹構(gòu)建“圖書(shū)館學(xué)”領(lǐng)域本體中使用owl-sameAs具體實(shí)例：

（1）圖書(shū)館現(xiàn)代化：圖書(shū)館信息化、圖書(shū)館網(wǎng)絡(luò)化；

（2）圖書(shū)館工作者：館員；

（3）數(shù)字圖書(shū)館：電子圖書(shū)館；

（4）題跋：書(shū)評(píng)根據(jù)上述體系結(jié)構(gòu)，利用Protégé工具，“圖書(shū)館學(xué)”本體如圖2所示。

2 圖書(shū)元數(shù)據(jù)本體構(gòu)建

2.1 構(gòu)建圖書(shū)元數(shù)據(jù)本體的必備條件

學(xué)科領(lǐng)域本體的構(gòu)建有助于基于用戶檢索詞進(jìn)行推理或是學(xué)科層級(jí)的判斷，但是真正要實(shí)現(xiàn)語(yǔ)義性，應(yīng)該對(duì)描述圖書(shū)的DC元數(shù)據(jù)進(jìn)行語(yǔ)義性的描述。結(jié)合DC元數(shù)據(jù)簡(jiǎn)單、靈活的特點(diǎn)，加之本體OWL語(yǔ)言的語(yǔ)義、智能的檢索，使檢索結(jié)果更加有效。實(shí)際上，RDF等語(yǔ)義Web和OWL的描述語(yǔ)言都有自己對(duì)于DC的使用方法，本文采用了OWL語(yǔ)言下對(duì)本體的描述辦法。DC元數(shù)據(jù)共有15個(gè)基本元素，將這15個(gè)基本元素分為三組，在創(chuàng)建描述DC元數(shù)據(jù)的本體時(shí)，借鑒DC元數(shù)據(jù)對(duì)圖書(shū)信息的描述，這些元素在本體中可以以屬性的方式存在。在本體的構(gòu)建過(guò)程中，可以引用DC屬性的命名空間，以達(dá)到使用DC屬性的目的。具體引用如下：

本模型共有5大模塊：用戶檢索、結(jié)果查看模塊，語(yǔ)義擴(kuò)展排序模塊，Lucene檢索模塊，圖書(shū)資源建立模塊，本體構(gòu)建模塊。各模塊的作用如下：

本體構(gòu)建模塊，這一部分包括領(lǐng)域本體以及圖書(shū)元數(shù)據(jù)的本體。

圖書(shū)資源建立模塊，本模塊主要用于提供檢索數(shù)據(jù)。

語(yǔ)義擴(kuò)展排序模塊，本模塊主要是對(duì)用戶的檢索詞進(jìn)行語(yǔ)義的擴(kuò)展，也是本體系的重要模塊部分。

Lucene檢索模塊，將語(yǔ)義擴(kuò)展排序模塊擴(kuò)展排序之后的檢索詞提交到Lucene檢索，Lucene檢索對(duì)之前建立起來(lái)的文檔索引進(jìn)行檢索，根據(jù)用戶選擇的檢索范圍進(jìn)行檢索，返回給用戶檢索結(jié)果。

用戶查看、結(jié)果查看模塊，本模塊提供用戶進(jìn)行檢索詞的輸入以及檢索結(jié)果的查看，用戶檢索提供兩種方式，分別為輸入檢索詞和樹(shù)形結(jié)構(gòu)的檢索。

3.2 語(yǔ)義擴(kuò)展排序模塊

（1） SPARQL查詢

利用SPARQL查詢語(yǔ)言進(jìn)行本體文件的查詢時(shí)，需要利用Jena的com.hp.hpl.jena.rdf.model包對(duì)本體文件進(jìn)行處理，在對(duì)本體文件進(jìn)行處理時(shí)要注意亂碼問(wèn)題。本模型的構(gòu)建是對(duì)用戶的檢索詞進(jìn)行更為精準(zhǔn)全面的匹配擴(kuò)充，所以首先需要對(duì)用戶的檢索詞進(jìn)行擴(kuò)充，之后進(jìn)行排序。利用SPARQL查詢語(yǔ)言查詢用戶檢索詞的上下級(jí)學(xué)科以及實(shí)例擴(kuò)充。

（2） Jena推理子系統(tǒng)

使用JenaAPI中的com.hp.hpl.jena.reasoner包實(shí)現(xiàn)基于OWL語(yǔ)言的規(guī)則集推理，同時(shí)可以創(chuàng)建自己的使用規(guī)則。實(shí)際上，就是利用com.hp.hpl.jena.reasoner包中的ModelFactory類把推理機(jī)同本體或是數(shù)據(jù)關(guān)聯(lián)起來(lái)，以達(dá)到推理的目的。Jena進(jìn)行推理有以下兩種方式：OWLReasoner和自定義推理。針對(duì)領(lǐng)域本體進(jìn)行推理，在構(gòu)建“圖書(shū)館學(xué)”領(lǐng)域本體中，定義了OWL：sameAs 表示具有相同涵義的類以及個(gè)體，以解決同義詞查詢的問(wèn)題。

（3）語(yǔ)義相似度算法

本文將相似度算法與本體語(yǔ)言的特性相結(jié)合，提出了一個(gè)綜合的排序算法：將用戶輸入的檢索詞進(jìn)行分析處理之后，將與檢索詞的有關(guān)概念（包括子類、同義類等）歸結(jié)到一個(gè)概念集合，利用上述基于語(yǔ)義距離的算法將概念集合進(jìn)行建模，根據(jù)相似度值的大小進(jìn)行排序，最后利用Lucene進(jìn)行檢索。

同義詞之間的相似度值為1，實(shí)例擴(kuò)充的相似度大于子類之間的相似度，子類的相似度大于子子類的相似度。故排序應(yīng)該是為匹配用戶輸入詞的文章、匹配同義詞的文章、實(shí)例擴(kuò)充的文章、子類的文章、子子類的文章。那么子類的文章具有同父類相同的相似度，對(duì)于具有相同層級(jí)的文章默認(rèn)按照查閱量或是下載量等進(jìn)行排序。

3.3 Lucene檢索模塊

根據(jù)之前定義的底層圖書(shū)元數(shù)據(jù)的屬性對(duì)其進(jìn)行檢索，針對(duì)一本圖書(shū)需要構(gòu)建24 個(gè)Field文檔的屬性，即Title，Subtitle，NonChineseTitle，Subject，Description，Source，Language，Relation，Coverage，Name，Age，Native，Email，Organization，Sex，Publisher，Contributor，Rights，Date，Type，F(xiàn)ormat，CLC，IndexNum，ISBN（均省略has）。

為了創(chuàng)建一個(gè)較為完整的圖書(shū)元數(shù)據(jù)的本體結(jié)構(gòu)，將DC 元數(shù)據(jù)的15 個(gè)基本元素都涉及到了。為了簡(jiǎn)化著錄項(xiàng)目，DC 元數(shù)據(jù)只要確保7個(gè)基本元素：Title，Publisher，F(xiàn)ormat，Type，Identifier，Date和Subject即可。為了解決作者重名的問(wèn)題，建立了如下Field 文檔屬性：Title，Subtitle，NonChineseTitle，Subject，Name，Age，Native，Email，Organization，Sex，Publisher，Date，CLC，IndexNum，ISBN，Type，F(xiàn)ormat（均省略has）。

首先，對(duì)數(shù)據(jù)庫(kù)中的底層圖書(shū)元數(shù)據(jù)本體數(shù)據(jù)document 建立索引，其中對(duì)本體數(shù)據(jù)中的主題Subject，將其按照分號(hào)進(jìn)行分詞存儲(chǔ)。

其次，對(duì)上述擴(kuò)展之后的檢索詞建立indexSearcher對(duì)檢索詞進(jìn)行檢索。對(duì)同作者的文章推薦，對(duì)作者的擴(kuò)展屬性進(jìn)行判斷。

最后，將檢索結(jié)果返回用戶。

4 實(shí)驗(yàn)分析及功能評(píng)估

硬件環(huán)境CPU：Intel 3.40 GHz，2.99 GB的內(nèi)存；操作系統(tǒng)為Windows XPSP3；實(shí)驗(yàn)平臺(tái)：Eclipse +Jena2.6.3+Lucene3.5.0；服務(wù)器：Tomcat 6.0。

4.1 功能演示

之前介紹過(guò)本系統(tǒng)有兩種用戶：學(xué)生和教師（管理員）。提供了六種檢索方式：基于關(guān)鍵字?jǐn)U展查詢、基于關(guān)鍵字普通查詢、基于題目擴(kuò)展查詢、基于題目普通檢索、基于作者查詢、基于樹(shù)形目錄的查詢。其中基于關(guān)鍵字?jǐn)U展查詢以及基于關(guān)鍵字的普通查詢可以提供對(duì)比。教師角色除了可以提供查詢功能外，創(chuàng)新性的提供給了修改領(lǐng)域本體的功能界面，減免了操作領(lǐng)域本體的復(fù)雜性。

（1）樹(shù)形目錄檢索：當(dāng)用戶點(diǎn)擊樹(shù)形目錄進(jìn)行查詢時(shí)，可將圖書(shū)館的領(lǐng)域本體按照樹(shù)形的結(jié)構(gòu)進(jìn)行顯示，用戶可點(diǎn)擊各個(gè)節(jié)點(diǎn)進(jìn)行查詢。

（2）擴(kuò)展檢索與不擴(kuò)展檢索進(jìn)行對(duì)比，針對(duì)“題目”屬性，以“實(shí)例擴(kuò)充檢驗(yàn)”為例進(jìn)行敘述。輸入檢索詞“圖書(shū)宣傳”，在“圖書(shū)館學(xué)”領(lǐng)域本體中構(gòu)建了圖書(shū)宣傳的實(shí)例：圖書(shū)展覽、圖書(shū)館講座、圖書(shū)館報(bào)告會(huì)、讀者座談會(huì)、圖書(shū)館閱讀輔導(dǎo)。對(duì)概念的擴(kuò)充，檢索結(jié)果界面如圖5，圖6所示。

由表1～表3可以看出三組檢索詞的具體檢索情況。數(shù)據(jù)庫(kù)中錄入了300篇與上述三個(gè)檢索詞相關(guān)的文章，且案例采用的是基于題目的檢索，故當(dāng)題目中含有上述關(guān)鍵字且文章含義也為上述關(guān)鍵字的文章的正確率都具有良好的效果。且目前的檢索算法是將用戶的關(guān)鍵字進(jìn)行本體匹配，然后本體進(jìn)行擴(kuò)展，對(duì)于子類、子子類以及實(shí)例都進(jìn)行了擴(kuò)展，故查全率能夠有很好的提高。對(duì)于擴(kuò)充之后的檢索詞仍是采用Lucene對(duì)field進(jìn)行匹配，所以對(duì)查準(zhǔn)率的提高有限。但是從上述案例可以看到，查全率以及查準(zhǔn)率都有所提高，本體構(gòu)建的基于本體的語(yǔ)義數(shù)字圖書(shū)館檢索模型的語(yǔ)義擴(kuò)充以及檢索是合理的。

5 結(jié) 論

傳統(tǒng)數(shù)字圖書(shū)館的信息表達(dá)以及基于關(guān)鍵字的檢索機(jī)制均存在缺乏語(yǔ)義性的問(wèn)題，導(dǎo)致用戶的體驗(yàn)度以及滿意度不高。為提高數(shù)字圖書(shū)館的檢索效果，將語(yǔ)義本體技術(shù)與數(shù)字圖書(shū)館技術(shù)相結(jié)合，提高數(shù)字圖書(shū)館的檢索效果，這也是目前數(shù)字圖書(shū)館的發(fā)展方向。本文針對(duì)數(shù)字圖書(shū)館缺乏語(yǔ)義性的兩種表現(xiàn)，提出了學(xué)科領(lǐng)域本體以及描述圖書(shū)元數(shù)據(jù)的本體，并在此基礎(chǔ)上構(gòu)建了基于語(yǔ)義的數(shù)字圖書(shū)館檢索系統(tǒng)。本文的研究成果對(duì)于下一代語(yǔ)義數(shù)字圖書(shū)館具有一定的科學(xué)意義。

參考文獻(xiàn)

[1] 楊萌.圖書(shū)館防盜系統(tǒng)漏洞的研究[J].現(xiàn)代電子技術(shù)，2014，37（5）：94?96.

[2] 董慧，杜文華.基于本體和多代理的數(shù)字圖書(shū)館信息檢索模型[J].中國(guó)圖書(shū)館學(xué)報(bào)，2004（2）：65?67.

[3] 袁穎，趙捧未.基于語(yǔ)義網(wǎng)的數(shù)字圖書(shū)館信息檢索模型研究[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì)，2010（7）：1?3.

[4] 盧勝軍，真溱.本體匹配基本理論框架研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù)，2007（11）：28?32.

[5] 鞠彥輝，劉宏偉，牟冬梅，等.國(guó)外典型語(yǔ)義數(shù)字圖書(shū)館系統(tǒng)的比較研究[J].圖書(shū)館論壇，2009（3）：68?71.

[6] 馬費(fèi)成，羅志成，曾杰，等.知識(shí)相關(guān)度的計(jì)量研究[J].情報(bào)科學(xué)，2008，26（5）：641?646.

[7] 余正濤，宋面，樊孝忠.基于本體的個(gè)性化領(lǐng)域信息服務(wù)[J].計(jì)算機(jī)工程，2005（5）：22?24.

[8] 谷琦.對(duì)語(yǔ)義網(wǎng)格及其在數(shù)字圖書(shū)館信息檢索中應(yīng)用的探討[J].現(xiàn)代情報(bào)，2009（1）：68?72.

現(xiàn)代電子技術(shù)2016年9期

現(xiàn)代電子技術(shù)的其它文章: 基于組態(tài)軟件的電梯遠(yuǎn)程監(jiān)控系統(tǒng)的設(shè)計(jì); 基于計(jì)算機(jī)視覺(jué)的實(shí)時(shí)車輛運(yùn)動(dòng)速度檢測(cè)算法研究; 基于投影特征值的交通信號(hào)燈檢測(cè)與識(shí)別方法; 基于拓?fù)浣Y(jié)構(gòu)的變電站網(wǎng)絡(luò)型防誤閉鎖系統(tǒng)研究; 基于絕緣平臺(tái)的綜合帶電作業(yè)新技術(shù)研究及應(yīng)用; 基于嵌入式的車載多媒體軟件開(kāi)發(fā)