俞婷 鄭軻



摘 要:構(gòu)建了基于本體的課程資源語(yǔ)義檢索模型,并設(shè)計(jì)實(shí)現(xiàn)了相應(yīng)的語(yǔ)義檢索原型。在綜合分析相關(guān)課程資源后,建立了課程資源本體。在構(gòu)建基于本體的課程資源語(yǔ)義檢索模型過(guò)程中,研究已有的語(yǔ)義關(guān)聯(lián)度計(jì)算方法,結(jié)合用戶(hù)檢索敏感度提出了查詢(xún)?cè)~權(quán)重度量元。通過(guò)實(shí)例對(duì)語(yǔ)義檢索原型進(jìn)行了驗(yàn)證,結(jié)果表明,相比于基于關(guān)鍵字的檢索方法,該語(yǔ)義檢索系統(tǒng)在查全率和查準(zhǔn)率上都有明顯的優(yōu)勢(shì)。
關(guān)鍵詞:課程資源;相似度算法;語(yǔ)義關(guān)系;檢索意圖
中圖分類(lèi)號(hào):TP391.3 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.15913/j.cnki.kjycx.2016.19.035
信息的增長(zhǎng)速度的數(shù)量級(jí)為每年億級(jí),信息檢索的難度隨之增長(zhǎng)。目前的檢索方式主要是基于關(guān)鍵字的檢索,這類(lèi)檢索方式忽略了詞語(yǔ)之間的語(yǔ)義關(guān)系以及用戶(hù)真實(shí)的檢索意圖,返回的信息多是無(wú)用的,無(wú)法為用戶(hù)提供精準(zhǔn)的資源。
近年來(lái),建立在語(yǔ)義網(wǎng)基礎(chǔ)上的本體語(yǔ)義檢索技術(shù)得到了人們的廣泛關(guān)注。相比于傳統(tǒng)的檢索技術(shù),其在檢索精度和覆蓋率上都有明顯的優(yōu)勢(shì)。本體論最早起源于哲學(xué)領(lǐng)域,古希臘的亞里士多德通過(guò)對(duì)事物存在的本質(zhì)進(jìn)行了研究,得出了本體的概念。在較早時(shí)期,本體沒(méi)有一個(gè)統(tǒng)一的定義,Studer等人對(duì)本體進(jìn)行了一系列的深入研究后,提出了一個(gè)在當(dāng)今被廣泛采用的定義。對(duì)于共享概念模型而言,本體就是一種明確的形式化規(guī)范的說(shuō)明。
1 課程資源本體構(gòu)建
傳統(tǒng)的基于關(guān)鍵字的搜索方法由于缺少語(yǔ)義,常造成檢索信息的錯(cuò)檢和漏檢。由于受到了本體庫(kù)的支持,基于語(yǔ)義的檢索能很好地彌補(bǔ)這一缺陷。如果要進(jìn)行基于本體的語(yǔ)義搜索,首先要構(gòu)建規(guī)范的課程資源知識(shí)庫(kù)本體。
本文以課程資源知識(shí)點(diǎn)作為領(lǐng)域本體進(jìn)行構(gòu)建。課程資源知識(shí)點(diǎn)本體的構(gòu)建主要分為兩點(diǎn),即確定規(guī)范和基于規(guī)范構(gòu)建本體。以計(jì)算機(jī)網(wǎng)絡(luò)課程為例,本體存儲(chǔ)的是相關(guān)知識(shí)點(diǎn),其中包括計(jì)算機(jī)網(wǎng)絡(luò)性能、因特網(wǎng)、計(jì)算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu)、計(jì)算機(jī)網(wǎng)絡(luò)類(lèi)別、網(wǎng)絡(luò)安全五大類(lèi)。這五大類(lèi)的子類(lèi)分別有:①計(jì)算機(jī)網(wǎng)絡(luò)性能。速率、寬帶、吞吐率、往返率、可擴(kuò)展性、時(shí)延、利用率、可靠性。②因特網(wǎng)。因特網(wǎng)發(fā)展階段、因特網(wǎng)組成、下一代因特網(wǎng)。③計(jì)算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu)。五層協(xié)議體系結(jié)構(gòu)、TCP/IP體系結(jié)構(gòu)、OSI體系結(jié)構(gòu)。④計(jì)算機(jī)網(wǎng)絡(luò)類(lèi)別。廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、接入網(wǎng)。⑤網(wǎng)絡(luò)安全。數(shù)字簽名、密碼體制、安全協(xié)議、防火墻。
課程本體所包含的對(duì)象屬性有蘊(yùn)含關(guān)系、依賴(lài)關(guān)系、兄弟關(guān)系、平行關(guān)系、參考關(guān)系和游離關(guān)系。在構(gòu)建完本體之后,本文采用MySQL數(shù)據(jù)庫(kù)對(duì)本體文件進(jìn)行存儲(chǔ),達(dá)到持久化。
2 語(yǔ)義關(guān)聯(lián)度算法
用戶(hù)在輸入相關(guān)查詢(xún)?cè)~進(jìn)行檢索后,語(yǔ)義檢索系統(tǒng)對(duì)查詢(xún)?cè)~進(jìn)行形式化處理,并對(duì)形式化后的查詢(xún)?cè)~進(jìn)行語(yǔ)義關(guān)聯(lián)度計(jì)算。語(yǔ)義關(guān)聯(lián)度包括語(yǔ)義相似度和語(yǔ)義相關(guān)度。
2.1 語(yǔ)義相似度
本文提出元概念的定義,指在領(lǐng)域本體中存在的概念集合C,設(shè)其中任一概念為Cx,如果集合Q中存在可以與概念C中的Cx匹配的查詢(xún)?cè)~,則稱(chēng)為Cx為元概念,即將元概念作為查詢(xún)映射到的概念來(lái)進(jìn)行資源查詢(xún)。
本文以知識(shí)點(diǎn)為單位構(gòu)建教育資源本體,所以,從知識(shí)點(diǎn)的角度擴(kuò)展了語(yǔ)義。知識(shí)點(diǎn)之間的關(guān)系有同義、平行、包含等,本節(jié)對(duì)本體概念之間的相似度所考慮的因素主要有以下6個(gè)。
2.1.1 語(yǔ)義距離
語(yǔ)義距離對(duì)語(yǔ)義相似度的影響可以表示成:
/* MERGEFORMAT. (1)
概念節(jié)點(diǎn)之間的距離表示為len(ei),是彼此之間相連的通路邊所有對(duì)應(yīng)的距離,比如父類(lèi)和子類(lèi)之間的距離為1.
2.1.2 語(yǔ)義重合度
語(yǔ)義重合度對(duì)于語(yǔ)義相似度的影響主要表示為:
/* MERGEFORMAT. (2)
式(2)中:NodeSet(X)為節(jié)點(diǎn)到根節(jié)點(diǎn)經(jīng)過(guò)的節(jié)點(diǎn)數(shù)目的幾盒;NodeSet(X) NodeSet(Y)為X節(jié)點(diǎn)到根節(jié)點(diǎn)經(jīng)過(guò)的節(jié)點(diǎn)數(shù)和Y節(jié)點(diǎn)數(shù)到根節(jié)點(diǎn)經(jīng)過(guò)的節(jié)點(diǎn)數(shù)之間的交集;NodeSet(X) NodeSet(Y)為X節(jié)點(diǎn)到根節(jié)點(diǎn)經(jīng)過(guò)的節(jié)點(diǎn)數(shù)和Y節(jié)點(diǎn)到根節(jié)點(diǎn)經(jīng)過(guò)的節(jié)點(diǎn)數(shù)之間的并集。
2.1.3 節(jié)點(diǎn)密度
節(jié)點(diǎn)密度對(duì)于語(yǔ)義相似度的影響可以表示為:
/* MERGEFORMAT. (3)
式(3)中:degree(P)為概念節(jié)點(diǎn)X與概念節(jié)點(diǎn)Y之間最近的公共祖先P的度;degree(T)為概念樹(shù)的度。
2.1.4 節(jié)點(diǎn)深度
兩個(gè)節(jié)點(diǎn)X與Y之間的概念深度對(duì)于語(yǔ)義相似度的影響可以表示成為:
/* MERGEFORMAT. (4)
式(4)中:dep(X)和dep(Y)分別為概念X和概念Y的深度。
2.1.5 層次順序
層次的順序?qū)Ω拍钕嗨贫鹊挠绊憺椋?/p>
/* MERGEFORMAT. (5)
式(5)中:lyr(X)和lyr(Y)分別為X和Y節(jié)點(diǎn)所在的層次,根節(jié)點(diǎn)的層次為1;lyr(G)為領(lǐng)域本體中層次的最底層。
2.1.6 查詢(xún)?cè)~權(quán)重
在進(jìn)行最后的語(yǔ)義相似度階段計(jì)算時(shí),對(duì)概念之間相似度的計(jì)算是受查詢(xún)?cè)~權(quán)重的影響。領(lǐng)域本體之間的概念與概念節(jié)點(diǎn)之間的相似度的計(jì)算公式如下:
/* MERGEFORMAT.(6)
2.2 語(yǔ)義相關(guān)度
語(yǔ)義的相關(guān)度指的是詞語(yǔ)與詞語(yǔ)之間的相互有聯(lián)系的程度,它是一個(gè)隨主觀(guān)意愿變動(dòng)比較強(qiáng)的概念。相關(guān)度的取值也在0~1,一般是兩個(gè)詞語(yǔ)在相同語(yǔ)境之中能夠替換的程度。領(lǐng)域本體概念之間的相關(guān)度公式如下:
/* MERGEFORMAT. (7)
式(7)中:rel(ei)為概念與概念之間相連的關(guān)系邊所對(duì)應(yīng)的權(quán)值。
本文中概念與概念之間的相關(guān)度定義如表1所示。
綜上所述,得出概念之間的關(guān)聯(lián)度的計(jì)算公式如下:
/* MERGEFORMAT. (7)
3 語(yǔ)義檢索模型
本文以教育資源的知識(shí)點(diǎn)為基礎(chǔ),對(duì)基于本體的教學(xué)資源的語(yǔ)義檢索系統(tǒng)建立了原型。本文構(gòu)建的語(yǔ)義檢索是對(duì)教育資源進(jìn)行本體推理來(lái)實(shí)現(xiàn)教育資源的語(yǔ)義檢索,其中,還對(duì)向量空間模型進(jìn)行了結(jié)合。語(yǔ)義檢索主要包含了兩個(gè)核心,即語(yǔ)義查詢(xún)擴(kuò)展和語(yǔ)義數(shù)據(jù)的檢索算法。
圖1為語(yǔ)義檢索的模型圖。
系統(tǒng)采用VPN、SNMP等詞語(yǔ)進(jìn)行測(cè)試,求得基于本體教學(xué)資源語(yǔ)義檢索算法的查全率和查準(zhǔn)率。同時(shí),計(jì)算基于關(guān)鍵字的檢索系統(tǒng)的查全率和查準(zhǔn)率,結(jié)果如表2所示。
4 結(jié)束語(yǔ)
本文提出并研究了基于本體的課程資源信息語(yǔ)義檢索問(wèn)題。文中通過(guò)課程資源知識(shí)庫(kù)本體的構(gòu)建、本體相似度計(jì)算的研究,建立了基于課程資源的語(yǔ)義檢索系統(tǒng)的原型,在一定程度上提高了對(duì)課程資源信息檢索的查全率和查準(zhǔn)率。下一步工作為課程資源本體的完善、探索更加精確的語(yǔ)義相似度計(jì)算方法,以提供給用戶(hù)更好的檢索支持。
參考文獻(xiàn)
[1]代曉宇.基于本體的教學(xué)資源語(yǔ)義檢索應(yīng)用研究[D].哈爾濱:哈爾濱工程大學(xué),2012.
[2]花開(kāi)明,陳家訓(xùn),楊洪山,等.基于本體與元數(shù)據(jù)的語(yǔ)義檢索[J].計(jì)算機(jī)工程,2007,33(24).
[3]欒艷,丁二玉,駱斌.基于Ontology的語(yǔ)義檢索技術(shù)[J].計(jì)算機(jī)工程與應(yīng)用,2005,41(28).
[4]Studer R,Benjamins V R,F(xiàn)ensel D.Knowledge engineering:Principles and methods[J].Data & Knowledge Engineering,1998,25(02).
[5]張功杰,趙向軍,陳克建,等.面向本體的語(yǔ)義相似度計(jì)算及在檢索中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(29).
〔編輯:張思楠〕