袁 輝 李延香
(1.陜西工業(yè)職業(yè)技術(shù)學(xué)院,陜西咸陽 712000;2.咸陽師范學(xué)院信息工程學(xué)院,陜西咸陽 712000)
目前短查詢法是最為常用的知識(shí)庫搜索方法,不過在進(jìn)行檢索過程中,由于用戶輸入的關(guān)鍵詞帶有一定歧義性,再加上文檔權(quán)重設(shè)置上的影響,很容易造成搜索結(jié)果無法完全滿足人們信息檢索需求。作為一種技術(shù)手段,查詢擴(kuò)展是解決這一問題的有效途徑。基于初始查詢基礎(chǔ)上的查詢擴(kuò)展采取有效措施將相關(guān)詞添加入其中,從而為判斷文檔相關(guān)性提供更多的信息服務(wù)。語義擴(kuò)展查詢的基本原理就是將原始查詢映射至概念,并通過相關(guān)技術(shù)對(duì)查詢語義及與之相關(guān)聯(lián)的語義實(shí)施提取,進(jìn)而得到更高精準(zhǔn)度的查詢語義,并對(duì)知識(shí)庫中的文檔進(jìn)行與之相對(duì)應(yīng)的檢索。包括全局分析、局部分析、基于關(guān)聯(lián)規(guī)則和用戶查詢?nèi)罩镜牟樵償U(kuò)展等在內(nèi)的幾種方法是當(dāng)下普遍使用的查詢擴(kuò)展法。其中全文分析的對(duì)象為整個(gè)文獻(xiàn)集,該方法的系統(tǒng)計(jì)算量較為繁重,對(duì)海量信息進(jìn)行檢索時(shí)不適合采用該方法。局部分析法則對(duì)初檢文檔有相當(dāng)高的依賴性,初檢文檔與原查詢的相關(guān)度會(huì)對(duì)檢索效果起決定性作用。詞間關(guān)聯(lián)規(guī)則質(zhì)量的高低則會(huì)直接影響到基于關(guān)聯(lián)規(guī)則的查詢擴(kuò)展結(jié)果的高低。大量用戶查詢?nèi)罩镜拇嬖谑菍?shí)現(xiàn)基于用戶日志的查詢擴(kuò)展的不可或缺的重要條件。本文從知識(shí)庫語義擴(kuò)展搜索和相關(guān)度分析這兩方面為出發(fā)點(diǎn),提出了一種新的語義擴(kuò)展搜索方法,即基于本體的知識(shí)庫語義WEB擴(kuò)展搜索方法。
擴(kuò)展查詢條件、映射本體知識(shí)庫以及相關(guān)度分析是構(gòu)建本文所設(shè)計(jì)的本體知識(shí)庫擴(kuò)展搜索模型的主要三個(gè)部分。具體步驟是:首先,對(duì)用戶輸入查詢條件進(jìn)行采集并通過領(lǐng)域知識(shí)詞典對(duì)其進(jìn)行擴(kuò)展;其次,通過關(guān)鍵字匹配法完將擴(kuò)展查詢條件向知識(shí)庫本體實(shí)例進(jìn)行映射;再次,對(duì)映射后的本體實(shí)例實(shí)施相關(guān)度分析;最后將擴(kuò)展查詢結(jié)果反饋給用戶。下面就模型重點(diǎn)部分進(jìn)行詳細(xì)說明。
語義擴(kuò)展查詢必須建立在完成領(lǐng)域知識(shí)詞典的構(gòu)建基礎(chǔ)上,與此同時(shí),在領(lǐng)域?qū)<业拇罅ε浜舷聵?gòu)建起本體知識(shí)庫。
(1)本體的定義
本體在計(jì)算機(jī)領(lǐng)域中的定義有好多種,其中“基于組建相關(guān)領(lǐng)域詞語的基本術(shù)語及其相互關(guān)系基礎(chǔ)上對(duì)其進(jìn)行優(yōu)化整合,以便能夠?qū)υ~語派生規(guī)則進(jìn)行規(guī)定的定義[3]”能夠獲得大家普遍認(rèn)同。
本體的表示主要包括個(gè)體、類、屬性和關(guān)系這四個(gè)部分。其中個(gè)體指的是具體的實(shí)例,對(duì)知識(shí)的抽象概念說明指的是類,個(gè)體或類的特征指的是屬性,個(gè)體或類之間的關(guān)聯(lián)則為關(guān)系。
(2)本體構(gòu)建方法
本體構(gòu)建步驟主要分為三部分:第一,獲得與領(lǐng)域相關(guān)的知識(shí)實(shí)體,同時(shí)構(gòu)建起知識(shí)鏈;第二,對(duì)知識(shí)鏈進(jìn)行概念化以及對(duì)現(xiàn)有本體進(jìn)行整合并編碼等是建立本體結(jié)構(gòu)化的重要環(huán)節(jié),這些環(huán)節(jié)都是通過中間表達(dá)集合實(shí)現(xiàn)的;第三,開展本體評(píng)估工作。
語義知識(shí)詞典在包括機(jī)器翻譯和詞義消岐等在內(nèi)的多個(gè)領(lǐng)域有著較為廣泛的應(yīng)用,它的出現(xiàn)能夠使計(jì)算機(jī)對(duì)自然語言有著更為深入的理解,同時(shí)也是實(shí)現(xiàn)計(jì)算機(jī)智能化的物質(zhì)保障。
(2)領(lǐng)域知識(shí)詞典的構(gòu)建
作為語義知識(shí)詞典的子集,領(lǐng)域知識(shí)詞典的構(gòu)建有著重要意義。在一些特定領(lǐng)域,語義知識(shí)詞典無法全部滿足其需求,基于此,必須針對(duì)特定領(lǐng)域知識(shí)構(gòu)建起與其相對(duì)應(yīng)的詞典空間。
構(gòu)建領(lǐng)域知識(shí)詞典必須以領(lǐng)域?qū)<业膮⑴c為前提,通過全局分析法對(duì)與領(lǐng)域有關(guān)的詞進(jìn)行抽取。構(gòu)建領(lǐng)域知識(shí)詞典的具體步驟為:首先通過全局分析法的關(guān)鍵字分離、語義相關(guān)詞義集檢索及領(lǐng)域不相關(guān)同義詞集剪這三個(gè)環(huán)節(jié)對(duì)領(lǐng)域文檔中的詞或詞組進(jìn)行相關(guān)分析和處理,其次對(duì)處理后的詞或詞組間的關(guān)聯(lián)程度進(jìn)行相關(guān)計(jì)算;最后以語義知識(shí)詞典網(wǎng)狀結(jié)構(gòu)為基礎(chǔ),完成領(lǐng)域語義詞典的創(chuàng)建任務(wù)。
擴(kuò)展查詢的實(shí)質(zhì)就是將與用戶查詢相關(guān)聯(lián)的詞添加到原始查詢中,形成比原始查詢更長更精準(zhǔn)的的查詢,從而提高查詢效率。其計(jì)算方法為:
(1)對(duì)用戶輸入的查詢條件進(jìn)行接收,并對(duì)其進(jìn)行句法分析和句法語義關(guān)聯(lián)分析。
(2)提取語義關(guān)鍵字的同時(shí)將聽用詞去除,以便消除歧義,從而獲得集合
(3)按照語義關(guān)聯(lián)規(guī)則對(duì)獲得的集合U進(jìn)行處理,并通過領(lǐng)域知識(shí)詞典完成同義詞的擴(kuò)展任務(wù)即f(U)=V′,可獲得集合存在著集合,其中g(shù)(ui,vi,j)是用來對(duì)ui和vi,j之間的相關(guān)度進(jìn)行計(jì)算,β為閾值。V為擴(kuò)展后的查詢條件集合。
(1)相關(guān)度的定義
相關(guān)度指的是兩個(gè)對(duì)象間存在的關(guān)聯(lián)程度[8],其計(jì)算公式為:

在上述公式中,S(PCi,TCj)代表的含義為概念PCi和TCj的相關(guān)度,[0,1]是其值域;α代表的含義為可調(diào)節(jié)參數(shù);dis代表的含義是整數(shù),采取以下策略進(jìn)行取值:
1)當(dāng)PCi=TCj時(shí),則dis取值為0,此時(shí)S(PCi,TCj)的值為1;
2)當(dāng)PCi≠TCj,則dis的取值為,當(dāng)dis=∞的條件下,則S(PCi,TCj) = 0 ,其中wp代表的是路徑權(quán)值;
3)P代表PCi的特征集合,T代表TCj的特征集合,當(dāng)(P∩T)≠φ的條件下,則可使dis的取值為1,此時(shí)相關(guān)度的計(jì)算公式為:

在上式中,λ所代表的含義為非公共特征的相對(duì)重要程度。
(2)相關(guān)度分析算法
在進(jìn)行相關(guān)度分析計(jì)算過程中,同時(shí)加入擴(kuò)展查詢和映射相關(guān)度尤為重要。用戶輸入查詢條件與擴(kuò)展查詢條件間的關(guān)聯(lián)程度即為擴(kuò)展查詢相關(guān)度;擴(kuò)展查詢條件向本體實(shí)例進(jìn)行映射的關(guān)聯(lián)程度則用映射相關(guān)度來表示[5]。其計(jì)算方法為:

在上式中,S(ui,vi.j)代表的含義為ui和vi.j之間存在的語義相關(guān)聯(lián)程度。
2)采用最短距離算法在語義知識(shí)詞典的網(wǎng)狀結(jié)構(gòu)中,由ui點(diǎn)為出發(fā)點(diǎn),通過有限步數(shù)到達(dá)vi,j點(diǎn),在此過程中,路徑的權(quán)值疊加和可用dis=u∑→vwp進(jìn)行計(jì)算,通過公式(1)可知S(u,v)= α 。為確保擴(kuò)展i具i,j有較高的合理性,對(duì)各個(gè)查詢條ii,jdis+α件的相關(guān)度作出如下要求:S(ui,vi,j)≥β,其中β代表的是閾值,其取值為0≤ β ≤1[6]。
3)將擴(kuò)展查詢條件集合V向本體知識(shí)庫f(vi,j)=Ti,j中進(jìn)行映射后可得到本體實(shí)例集合,即Ti,j={ti,jk1≤i,j,k≤n} 。
4)通過對(duì)各個(gè)本體實(shí)例集的交集進(jìn)行計(jì)算可得T1,j∩T2,j∩…∩Ti?1,j∩Ti,j=T′ ,T′ ={ti′,jk(h)1≤i,j,k,h≤n},其中實(shí)例ti′,jk屬于h個(gè)互異本體實(shí)例集共同擁有。
5)對(duì)各個(gè)本體實(shí)例的綜合相關(guān)度進(jìn)行計(jì)算,其計(jì)算公式為:

在上式中,Q(vi,j,ti,j,k)指的是用來對(duì)vi,j映射到ti,j,k的相關(guān)度進(jìn)行計(jì)算的函數(shù);μ,δ代表的含義為可變系數(shù);h應(yīng)大于等于1。
采用Java編程語言對(duì)博物館知識(shí)庫系統(tǒng)進(jìn)行構(gòu)建,Protege3.1.1為本體構(gòu)建工具;SQLServer2000為本文進(jìn)行實(shí)驗(yàn)所采用的數(shù)據(jù)庫;運(yùn)用Jena2.6.2對(duì)本體進(jìn)行相關(guān)操作;支持中文的知網(wǎng)是本次試驗(yàn)過程中所使用的語義知識(shí)詞典。博物館領(lǐng)域知識(shí)本體的創(chuàng)建工作是在領(lǐng)域?qū)<业膮⑴c下完成的。
本次實(shí)驗(yàn)內(nèi)容主要涉及到博物館知識(shí)庫的9個(gè)方面。其中公式(4)中各參數(shù)取值為 :μ = 0 .005,δ =0.4,β =0.9。表一為用戶輸入“中國”和“兵馬俑”這兩個(gè)關(guān)鍵詞組后所得到的查詢結(jié)果片段。

表1 實(shí)驗(yàn)數(shù)據(jù)片斷
通過實(shí)驗(yàn)可知,本文所提出的語義擴(kuò)展搜索方法能夠使查全率和查準(zhǔn)率獲得大幅提升。
為有效提升檢索效率,滿足人們信息檢索需求,筆者結(jié)合語義網(wǎng)本體技術(shù)和查詢擴(kuò)展技術(shù)提出了一種新的檢索手段。該方法中所運(yùn)用的領(lǐng)域知識(shí)詞典以及對(duì)擴(kuò)展查詢和映射相關(guān)度的計(jì)算能夠確保搜索查全率和查準(zhǔn)率。但由于各權(quán)值的設(shè)定會(huì)對(duì)相關(guān)度計(jì)算結(jié)果造成一定影響,所以還應(yīng)繼續(xù)進(jìn)行完善。
[1]ShihCW,ChenMinyen,ChuHuichuan.EnhancementofDomain OntologyConstructionUsingaCrystallizingApproach[J].ExpertSystemswithApplications,2011,38(6):7544-7557.
[2]RahmanMM,AntaniSK,ThomaGR.AQueryExpansionFramewor kinImageRetrievalDomainBasedonLocalandGlobalAnaly sis[J].InformationProcessingandManagement,2011,47(5):676-691.
[3]施雅賢,李璞,肖寶.面向旅游領(lǐng)域的語義查詢擴(kuò)展方法[J].計(jì)算機(jī)工程 ,2010,(36)(18):43-45.
[4]白如江,于曉繁,王效岳.國內(nèi)外主要本體庫比較分析研究[J].現(xiàn)代圖書情報(bào)技術(shù),2011,1(7):3-13.