基于本體的課程資源語(yǔ)義檢索系統(tǒng)

2016-11-09 16:47:29俞婷鄭軻

科技與創(chuàng)新 2016年19期

俞婷　鄭軻

摘要：構(gòu)建了基于本體的課程資源語(yǔ)義檢索模型，并設(shè)計(jì)實(shí)現(xiàn)了相應(yīng)的語(yǔ)義檢索原型。在綜合分析相關(guān)課程資源后，建立了課程資源本體。在構(gòu)建基于本體的課程資源語(yǔ)義檢索模型過(guò)程中，研究已有的語(yǔ)義關(guān)聯(lián)度計(jì)算方法，結(jié)合用戶(hù)檢索敏感度提出了查詢(xún)?cè)~權(quán)重度量元。通過(guò)實(shí)例對(duì)語(yǔ)義檢索原型進(jìn)行了驗(yàn)證，結(jié)果表明，相比于基于關(guān)鍵字的檢索方法，該語(yǔ)義檢索系統(tǒng)在查全率和查準(zhǔn)率上都有明顯的優(yōu)勢(shì)。

關(guān)鍵詞：課程資源；相似度算法；語(yǔ)義關(guān)系；檢索意圖

中圖分類(lèi)號(hào)：TP391.3 文獻(xiàn)標(biāo)識(shí)碼：A DOI：10.15913/j.cnki.kjycx.2016.19.035

信息的增長(zhǎng)速度的數(shù)量級(jí)為每年億級(jí)，信息檢索的難度隨之增長(zhǎng)。目前的檢索方式主要是基于關(guān)鍵字的檢索，這類(lèi)檢索方式忽略了詞語(yǔ)之間的語(yǔ)義關(guān)系以及用戶(hù)真實(shí)的檢索意圖，返回的信息多是無(wú)用的，無(wú)法為用戶(hù)提供精準(zhǔn)的資源。

近年來(lái)，建立在語(yǔ)義網(wǎng)基礎(chǔ)上的本體語(yǔ)義檢索技術(shù)得到了人們的廣泛關(guān)注。相比于傳統(tǒng)的檢索技術(shù)，其在檢索精度和覆蓋率上都有明顯的優(yōu)勢(shì)。本體論最早起源于哲學(xué)領(lǐng)域，古希臘的亞里士多德通過(guò)對(duì)事物存在的本質(zhì)進(jìn)行了研究，得出了本體的概念。在較早時(shí)期，本體沒(méi)有一個(gè)統(tǒng)一的定義，Studer等人對(duì)本體進(jìn)行了一系列的深入研究后，提出了一個(gè)在當(dāng)今被廣泛采用的定義。對(duì)于共享概念模型而言，本體就是一種明確的形式化規(guī)范的說(shuō)明。

1 課程資源本體構(gòu)建

傳統(tǒng)的基于關(guān)鍵字的搜索方法由于缺少語(yǔ)義，常造成檢索信息的錯(cuò)檢和漏檢。由于受到了本體庫(kù)的支持，基于語(yǔ)義的檢索能很好地彌補(bǔ)這一缺陷。如果要進(jìn)行基于本體的語(yǔ)義搜索，首先要構(gòu)建規(guī)范的課程資源知識(shí)庫(kù)本體。

本文以課程資源知識(shí)點(diǎn)作為領(lǐng)域本體進(jìn)行構(gòu)建。課程資源知識(shí)點(diǎn)本體的構(gòu)建主要分為兩點(diǎn)，即確定規(guī)范和基于規(guī)范構(gòu)建本體。以計(jì)算機(jī)網(wǎng)絡(luò)課程為例，本體存儲(chǔ)的是相關(guān)知識(shí)點(diǎn)，其中包括計(jì)算機(jī)網(wǎng)絡(luò)性能、因特網(wǎng)、計(jì)算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu)、計(jì)算機(jī)網(wǎng)絡(luò)類(lèi)別、網(wǎng)絡(luò)安全五大類(lèi)。這五大類(lèi)的子類(lèi)分別有：①計(jì)算機(jī)網(wǎng)絡(luò)性能。速率、寬帶、吞吐率、往返率、可擴(kuò)展性、時(shí)延、利用率、可靠性。②因特網(wǎng)。因特網(wǎng)發(fā)展階段、因特網(wǎng)組成、下一代因特網(wǎng)。③計(jì)算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu)。五層協(xié)議體系結(jié)構(gòu)、TCP/IP體系結(jié)構(gòu)、OSI體系結(jié)構(gòu)。④計(jì)算機(jī)網(wǎng)絡(luò)類(lèi)別。廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、接入網(wǎng)。⑤網(wǎng)絡(luò)安全。數(shù)字簽名、密碼體制、安全協(xié)議、防火墻。

課程本體所包含的對(duì)象屬性有蘊(yùn)含關(guān)系、依賴(lài)關(guān)系、兄弟關(guān)系、平行關(guān)系、參考關(guān)系和游離關(guān)系。在構(gòu)建完本體之后，本文采用MySQL數(shù)據(jù)庫(kù)對(duì)本體文件進(jìn)行存儲(chǔ)，達(dá)到持久化。

2 語(yǔ)義關(guān)聯(lián)度算法

用戶(hù)在輸入相關(guān)查詢(xún)?cè)~進(jìn)行檢索后，語(yǔ)義檢索系統(tǒng)對(duì)查詢(xún)?cè)~進(jìn)行形式化處理，并對(duì)形式化后的查詢(xún)?cè)~進(jìn)行語(yǔ)義關(guān)聯(lián)度計(jì)算。語(yǔ)義關(guān)聯(lián)度包括語(yǔ)義相似度和語(yǔ)義相關(guān)度。

2.1 語(yǔ)義相似度

本文提出元概念的定義，指在領(lǐng)域本體中存在的概念集合C，設(shè)其中任一概念為Cx，如果集合Q中存在可以與概念C中的Cx匹配的查詢(xún)?cè)~，則稱(chēng)為Cx為元概念，即將元概念作為查詢(xún)映射到的概念來(lái)進(jìn)行資源查詢(xún)。

本文以知識(shí)點(diǎn)為單位構(gòu)建教育資源本體，所以，從知識(shí)點(diǎn)的角度擴(kuò)展了語(yǔ)義。知識(shí)點(diǎn)之間的關(guān)系有同義、平行、包含等，本節(jié)對(duì)本體概念之間的相似度所考慮的因素主要有以下6個(gè)。

2.1.1 語(yǔ)義距離

語(yǔ)義距離對(duì)語(yǔ)義相似度的影響可以表示成：

/* MERGEFORMAT. （1）

概念節(jié)點(diǎn)之間的距離表示為len（ei），是彼此之間相連的通路邊所有對(duì)應(yīng)的距離，比如父類(lèi)和子類(lèi)之間的距離為1.

2.1.2 語(yǔ)義重合度

語(yǔ)義重合度對(duì)于語(yǔ)義相似度的影響主要表示為：

/* MERGEFORMAT. （2）

式（2）中：NodeSet（X）為節(jié)點(diǎn)到根節(jié)點(diǎn)經(jīng)過(guò)的節(jié)點(diǎn)數(shù)目的幾盒；NodeSet（X） NodeSet（Y）為X節(jié)點(diǎn)到根節(jié)點(diǎn)經(jīng)過(guò)的節(jié)點(diǎn)數(shù)和Y節(jié)點(diǎn)數(shù)到根節(jié)點(diǎn)經(jīng)過(guò)的節(jié)點(diǎn)數(shù)之間的交集；NodeSet（X） NodeSet（Y）為X節(jié)點(diǎn)到根節(jié)點(diǎn)經(jīng)過(guò)的節(jié)點(diǎn)數(shù)和Y節(jié)點(diǎn)到根節(jié)點(diǎn)經(jīng)過(guò)的節(jié)點(diǎn)數(shù)之間的并集。

2.1.3 節(jié)點(diǎn)密度

節(jié)點(diǎn)密度對(duì)于語(yǔ)義相似度的影響可以表示為：

/* MERGEFORMAT. （3）

式（3）中：degree（P）為概念節(jié)點(diǎn)X與概念節(jié)點(diǎn)Y之間最近的公共祖先P的度；degree（T）為概念樹(shù)的度。

2.1.4 節(jié)點(diǎn)深度

兩個(gè)節(jié)點(diǎn)X與Y之間的概念深度對(duì)于語(yǔ)義相似度的影響可以表示成為：

/* MERGEFORMAT. （4）

式（4）中：dep（X）和dep（Y）分別為概念X和概念Y的深度。

2.1.5 層次順序

層次的順序?qū)Ω拍钕嗨贫鹊挠绊憺椋?/p>

/* MERGEFORMAT. （5）

式（5）中：lyr（X）和lyr（Y）分別為X和Y節(jié)點(diǎn)所在的層次，根節(jié)點(diǎn)的層次為1；lyr（G）為領(lǐng)域本體中層次的最底層。

2.1.6 查詢(xún)?cè)~權(quán)重

在進(jìn)行最后的語(yǔ)義相似度階段計(jì)算時(shí)，對(duì)概念之間相似度的計(jì)算是受查詢(xún)?cè)~權(quán)重的影響。領(lǐng)域本體之間的概念與概念節(jié)點(diǎn)之間的相似度的計(jì)算公式如下：

/* MERGEFORMAT.（6）

2.2 語(yǔ)義相關(guān)度

語(yǔ)義的相關(guān)度指的是詞語(yǔ)與詞語(yǔ)之間的相互有聯(lián)系的程度，它是一個(gè)隨主觀(guān)意愿變動(dòng)比較強(qiáng)的概念。相關(guān)度的取值也在0～1，一般是兩個(gè)詞語(yǔ)在相同語(yǔ)境之中能夠替換的程度。領(lǐng)域本體概念之間的相關(guān)度公式如下：

/* MERGEFORMAT. （7）

式（7）中：rel（ei）為概念與概念之間相連的關(guān)系邊所對(duì)應(yīng)的權(quán)值。

本文中概念與概念之間的相關(guān)度定義如表1所示。

綜上所述，得出概念之間的關(guān)聯(lián)度的計(jì)算公式如下：

/* MERGEFORMAT. （7）

3 語(yǔ)義檢索模型

本文以教育資源的知識(shí)點(diǎn)為基礎(chǔ)，對(duì)基于本體的教學(xué)資源的語(yǔ)義檢索系統(tǒng)建立了原型。本文構(gòu)建的語(yǔ)義檢索是對(duì)教育資源進(jìn)行本體推理來(lái)實(shí)現(xiàn)教育資源的語(yǔ)義檢索，其中，還對(duì)向量空間模型進(jìn)行了結(jié)合。語(yǔ)義檢索主要包含了兩個(gè)核心，即語(yǔ)義查詢(xún)擴(kuò)展和語(yǔ)義數(shù)據(jù)的檢索算法。

圖1為語(yǔ)義檢索的模型圖。

系統(tǒng)采用VPN、SNMP等詞語(yǔ)進(jìn)行測(cè)試，求得基于本體教學(xué)資源語(yǔ)義檢索算法的查全率和查準(zhǔn)率。同時(shí)，計(jì)算基于關(guān)鍵字的檢索系統(tǒng)的查全率和查準(zhǔn)率，結(jié)果如表2所示。

4 結(jié)束語(yǔ)

本文提出并研究了基于本體的課程資源信息語(yǔ)義檢索問(wèn)題。文中通過(guò)課程資源知識(shí)庫(kù)本體的構(gòu)建、本體相似度計(jì)算的研究，建立了基于課程資源的語(yǔ)義檢索系統(tǒng)的原型，在一定程度上提高了對(duì)課程資源信息檢索的查全率和查準(zhǔn)率。下一步工作為課程資源本體的完善、探索更加精確的語(yǔ)義相似度計(jì)算方法，以提供給用戶(hù)更好的檢索支持。

參考文獻(xiàn)

[1]代曉宇.基于本體的教學(xué)資源語(yǔ)義檢索應(yīng)用研究[D].哈爾濱：哈爾濱工程大學(xué)，2012.

[2]花開(kāi)明，陳家訓(xùn)，楊洪山，等.基于本體與元數(shù)據(jù)的語(yǔ)義檢索[J].計(jì)算機(jī)工程，2007，33（24）.

[3]欒艷，丁二玉，駱斌.基于Ontology的語(yǔ)義檢索技術(shù)[J].計(jì)算機(jī)工程與應(yīng)用，2005，41（28）.

[4]Studer R，Benjamins V R，F(xiàn)ensel D.Knowledge engineering：Principles and methods[J].Data & Knowledge Engineering，1998，25（02）.

[5]張功杰，趙向軍，陳克建，等.面向本體的語(yǔ)義相似度計(jì)算及在檢索中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用，2010，46（29）.

〔編輯：張思楠〕

科技與創(chuàng)新2016年19期

科技與創(chuàng)新的其它文章: 色彩心理學(xué)的研究現(xiàn)狀及其發(fā)展趨勢(shì); 中國(guó)傳統(tǒng)鄉(xiāng)村建筑的復(fù)興; 產(chǎn)教融合下江西省大學(xué)生創(chuàng)新能力現(xiàn)狀及對(duì)策; 公共圖書(shū)館在青少年信息素質(zhì)教育的作用分析; “營(yíng)改增”政策對(duì)地鐵施工企業(yè)的影響及改善措施; 基于用戶(hù)體驗(yàn)剖析提高社交網(wǎng)絡(luò)中用戶(hù)黏度的方法