999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

全局分析和本體技術(shù)相結(jié)合的查詢擴展算法

2015-11-01 09:19:04創(chuàng)新者
中國科技信息 2015年9期
關(guān)鍵詞:詞匯概念分析

創(chuàng)新者:張 磊

全局分析和本體技術(shù)相結(jié)合的查詢擴展算法

創(chuàng)新者:張 磊

查詢擴展可以彌補用戶初始查詢請求語義信息不明晰的缺陷,提高搜索性能。首先,對用戶查詢模式進行分析,根據(jù)查詢模式的不同特點給出相應(yīng)的查詢擴展方法與策略,然后,提出一種全局分析和本體技術(shù)相結(jié)合的查詢擴展算法,有效解決各類查詢模式的查詢擴展問題。仿真實驗的結(jié)果表明,該算法的綜合性能比全局分析的查詢擴展算法的綜合性能提高了12.9%,比基于本體技術(shù)的查詢擴展算法的綜合性能提高了9.8%。

研究發(fā)現(xiàn),兩個人使用相同詞匯描述同一事物的概率小于20%。必須對用戶查詢請求進行改進處理,以提高檢索性能。查詢擴展QE(Query Expansion)是在初始查詢的基礎(chǔ)上加入與用戶檢索詞相關(guān)聯(lián)的新詞,生成更準(zhǔn)確的查詢請求,彌補用戶查詢信息不足的缺陷,改善信息檢索的性能。查詢擴展對短查詢尤為有效,因為查詢越短,查詢本身表達的信息就越模糊。常用的查詢擴展技術(shù)有全局分析、局部分析、基于關(guān)聯(lián)規(guī)則的方法以及基于本體的方法等。

全局分析對全部文檔中的詞或詞組進行相關(guān)分析,計算每對詞或詞組間的關(guān)聯(lián)程度,將詞或詞組按共同發(fā)生的頻率先行聚類,其后根據(jù)詞或詞組的不同集合對查詢進行擴展。全局分析需要對整個文獻集進行處理,過程復(fù)雜,計算量大。局部分析較好地解決了全局分析的缺陷。局部分析利用初次檢索得到的與查詢最相關(guān)的top-k篇文章作為擴展用詞的來源,而非全部文檔。常用的局部分析技術(shù)有局部聚類、用戶相關(guān)反饋(如用戶日志、歷史查詢信息等)和局部上下文分析等。局部分析依賴初次檢索文檔的質(zhì)量,當(dāng)初檢文檔與原查詢相關(guān)度不高時,會把大量無關(guān)詞加入到查詢中,降低查詢性能。

基于關(guān)聯(lián)規(guī)則的查詢擴展則是通過數(shù)據(jù)挖掘技術(shù)挖掘詞間關(guān)聯(lián)規(guī)則,將關(guān)聯(lián)規(guī)則的結(jié)論作為擴展用詞的來源。該方法雖然在一定程度上克服了全局分析和局部分析的不足,但是查詢擴展的效果受詞間關(guān)聯(lián)規(guī)則質(zhì)量影響較大。

基于本體的查詢擴展利用本體中的同義詞和特定的子類進行擴展,收到了很好的效果。查詢擴展中常用的本體有兩類,一類是通用的詞匯本體,如WordNet、HowNet等。這類本體在各個領(lǐng)域廣泛使用,缺乏專業(yè)領(lǐng)域的詞匯間的語義聯(lián)系,擴展性能不穩(wěn)定;另一類是領(lǐng)域本體,這類本體針對特定領(lǐng)域,本體概念所表達的語義信息明確,對該領(lǐng)域內(nèi)的查詢請求進行語義擴展非常有效。

全局分析、局部分析和基于關(guān)聯(lián)規(guī)則的查詢擴展在關(guān)鍵詞匹配層次上進行的查詢擴展,難以充分表達和擴展用戶查詢的語義信息,不能從根本上消除用戶查詢意圖與檢索結(jié)果之間的語義偏差問題。基于本體的查詢擴展忽略了用戶查詢關(guān)鍵詞存在多樣性,查詢詞匯可能位于本體之外這一事實,假設(shè)查詢詞匯都來源于本體。一旦假設(shè)不成理,如何找到與查詢詞匯語義相關(guān)的本體概念就變得非常關(guān)鍵。

本文首先對用戶查詢模式進行分析,針對不同查詢模式的特點給出不同的查詢擴展方法與策略,然后提出一種全局分析和本體技術(shù)相結(jié)合的查詢擴展方法,該方法在兼顧二者優(yōu)點的同時避開各自的缺點。

用戶查詢模式分析

分析發(fā)現(xiàn),用戶查詢請求往往遵循一些典型模式。針對查詢模式的不同特點,可以采用不同的方法進行擴展處理。

(1)C模式查詢

C模式即概念詞匯模式(Concept Word Model)。此模式的查詢詞匯由本體概念組成,能夠根據(jù)本體概念判斷查詢語義,獲知用戶查詢意圖。在此模式下,可以利用本體概念中的父子和同義等關(guān)系進行擴展,準(zhǔn)確表達用戶的查詢目的,提高搜索性能。本文對C模式查詢采用三種擴展方式,即同義替換、概念泛化和概念細(xì)化。

1)同義替換。本體概念的同義關(guān)系表示概念表達的語義信息相同,可以替換使用。這種利用概念間的同義關(guān)系進行擴展的方式叫同義替換。比如,用戶輸入了“計算機”這一本體概念,可以將具有同義關(guān)系的“電腦”概念作為語義擴展的目標(biāo)。

2)概念泛化。本體中的某些概念可能同時出現(xiàn)在多個概念分支下面。比如,ACM本體(http:∥www.acm. org/about/class/1998)中,“Fault Tolerance”位于“B.1 Microprogramming”、“B.4 Data Communication”和“D.4 Operating System”等多個概念分支下面。概念泛化的基本思想是確定概念所屬分支,將分支上的父概念和概念本身組合起來表達查詢的具體語義。比如,將“Fault Tolerance”與其父概念“B.1 Microprogramming”組合起來后,表達的語義比單個“Fault Tolerance”更為精確。概念泛化可以通過自然語言理解及上下文分析等技術(shù)實現(xiàn),也可以通過用戶交互實現(xiàn)。

3)概念細(xì)化。概念細(xì)化的基本思想是將子概念與概念本身組合起來表達查詢的具體語義。比如,概念“C.2.3 Network Operations”分支下面有子概念“NetworkManagement”和“Network Monitoring”。將“C.2.3 Network Operations”與其子概念“Network Management”或“Network Monitoring”組合起來后,表達的語義比單個“C.2.3 Network Operations”更為精確。在概念細(xì)化過程中,可以將分支上的全部子概念作為細(xì)化對象,也可以通過用戶交互選擇其中某一個或幾個子概念作為細(xì)化對象。

(2)O模式查詢

O模式即普通詞匯模式(Ordinary Word Model)。此模式的查詢詞匯非本體概念,而是位于本體之外的普通單詞。該模式無法借助本體技術(shù)進行擴展,只能使用全局分析或局部分析等擴展技術(shù)。為了避免局部分析中的二次搜索,本文選擇全局分析進行O模式查詢擴展。

統(tǒng)計發(fā)現(xiàn),普通詞匯和特定的本體概念間往往有很強的相關(guān)性。比如,“QoS”詞頻比較高的文檔資源一般和本體概念“Network Measure”有關(guān)。如果借助全局分析技術(shù)計算普通詞語和本體概念間的相關(guān)性,就可以根據(jù)計算結(jié)果選擇合適的本體概念作為擴展的目標(biāo)。在O模式查詢擴展中,詞語-概念相關(guān)度計算是進行語義擴展的關(guān)鍵環(huán)節(jié)。

(3)混合模式查詢

混合模式查詢指查詢詞匯中同時包含C模式詞匯和O模式詞匯。此模式的查詢詞匯既有本體概念,又有位于本體之外的普通單詞。對于本體概念,采用C模式處理方法進行擴展;對于普通詞匯,則按照O模式處理方法進行擴展。

詞語-概念相關(guān)度計算

隨著語義Web和本體技術(shù)的發(fā)展,人們借助本體為越來越多的文檔資源添加語義信息,把資源標(biāo)注到1個或者多個本體概念下作為概念實例是最常見的操作。此時,文檔資源到概念間存在所屬關(guān)系,文檔資源中的詞語到概念也存在所屬關(guān)系,這種所屬關(guān)系蘊涵著詞語-概念的相關(guān)關(guān)系。

如圖1所示,一個詞語可能存在于多個文檔中,而每個文檔又屬于1個或多個概念類。詞語與概念通過文檔建立聯(lián)系,可以利用詞匯與概念間的共現(xiàn)性計算詞匯-概念相關(guān)度。通過統(tǒng)計包含詞語的文檔資源所屬的概念,就可以統(tǒng)計出這個詞語對不同概念的所屬程度,即是詞語-概念相關(guān)度。

詞語-概念相關(guān)度計算應(yīng)滿足下面3個基本準(zhǔn)則。

(1)一個詞語通過文檔資源映射到的本體概念的個數(shù)越多,它對單個概念的相關(guān)度越低。

(2)一個詞語在某一概念對應(yīng)文檔資源中的詞頻越高,它對這個概念的相關(guān)度越高。

(3)一個詞語在某一個概念對應(yīng)的越多文檔資源中存在,它對這個概念的相關(guān)度越高。

準(zhǔn)則1是從詞語在概念空間中的分布情況來分析。一個詞語與越多的概念關(guān)聯(lián),它對概念的區(qū)分性就越不明顯,它與概念的相關(guān)度也就越低。

準(zhǔn)則2是從詞語在一個概念對應(yīng)的文檔資源中出現(xiàn)的頻率來分析。選擇詞頻作為統(tǒng)計量而不選擇文檔資源數(shù)量作為統(tǒng)計量,原因在于前者屬于細(xì)粒度,區(qū)分性強,可以更準(zhǔn)確地刻畫詞語對概念的相關(guān)度。

圖1 詞語-文檔-概念關(guān)系

準(zhǔn)則3是從詞語在一個概念對應(yīng)的文檔資源中的分布情況來分析。詞語在一個概念對應(yīng)的越多文檔資源中出現(xiàn),說明它在這個概念中分布的越均勻,它與概念的所屬關(guān)系被越多的文檔承認(rèn),因而它與這個概念的相關(guān)度也就越高。

本文基于上述3個基本準(zhǔn)則,并借鑒文獻中的部分思想,給出詞語-概念相關(guān)度計算公式。

定義1. 假設(shè)文檔資源集為D ,共有m 個文檔資源,dj(j=1,...,m)表示第j 個文檔資源;本體概念集為C ,共有n 個概念,ci(i=1,...,n)表示第i 個概念,詞語集為T ,共有p 個詞匯,tk(i =1,...,p)表示第k 個詞匯。詞語tk和概念ci的相關(guān)度為

式(1)中,nk表示tk根據(jù)文檔-概念關(guān)系映射到概念上的概念數(shù)目,numi表示概念ci對應(yīng)的文檔數(shù)目,numk,i表示概念ci對應(yīng)的文檔資源中出現(xiàn)詞語tk的文檔數(shù)目,表示詞語tk通過文檔映射到概念ci的詞頻統(tǒng)計量。

式(2)中,Di表示概念ci對應(yīng)的文檔集合,即Di={dj|dj∈D∧dj是ci的 實例},count (tk,dj)表示詞語tk在文檔資源dj中出現(xiàn)的次數(shù),len(dj)表示dj的長度。

利用公式(1)可以計算詞語和本體概念間的語義相關(guān)度,從而構(gòu)建詞語-概念相關(guān)度詞典(Association Thesaurus),用于語義查詢擴展。

查詢擴展算法

算法1. 全局分析和本體技術(shù)相結(jié)合的查詢擴展算法

輸入:查詢請求Q(q1,q2,…,ql)

輸出:擴展后的查詢請求Q′

算法描述:

1.Q′=Q ;

2.Q查詢模式分析;

3.IFQ 為混合模式

圖2 查詢擴展算法流程圖

4.查詢請求Q 分組為Q1和Q2;//Q1為C模式詞匯,Q2為O模式詞匯

5.For Each qiIn Q1

6.C模式查詢擴展;

7.End For;

8.For Each qiIn Q2

9.O模式查詢擴展;

10.End For;

11.ELSE

12.IF Q為C模式

13.For EachqiIn Q

14.C模式查詢擴展;

15.End For;

16.End IF

17.IF Q為O模式

18.For EachqiIn Q

19.O模式查詢擴展;

20.End For;

21.End IF

22.End IF

23.擴展結(jié)果合并;

24. 返回擴展后的查詢請求Q′。

全局分析和本體技術(shù)相結(jié)合的查詢擴展算法流程如圖2所示。

仿真實驗

本節(jié)通過仿真實驗分析查詢擴展算法的性能。本體采用計算機科學(xué)領(lǐng)域的領(lǐng)域本體ACM。文檔資源從ACM數(shù)據(jù)庫下載(http://porta.acm.org/portal.cfm),資源規(guī)模為19030。本文對比三種不同查詢擴展算法的性能:基于全局分析的查詢擴展算法、基于本體技術(shù)的查詢擴展算法、全局分析和本體技術(shù)相結(jié)合的查詢擴展算法。三種查詢擴展算法分別簡稱為:全局分析、本體技術(shù)、全局分析+本體技術(shù)。

在信息檢索領(lǐng)域,查準(zhǔn)率(precision )、查全率(recall )和F值是評價系統(tǒng)性能的主要指標(biāo)。查全率為搜索結(jié)果中符合查詢條件的資源數(shù)量占總符合查詢條件資源數(shù)量的比例。查準(zhǔn)率為搜索結(jié)果中符合查詢條件的資源數(shù)量占返回資源數(shù)量的比例。F 值為查全率和查準(zhǔn)率的加權(quán)幾何平均。F值將查全率和查準(zhǔn)率結(jié)合在一起進行評價,防止出現(xiàn)查準(zhǔn)率很高而查全率很低或者查全率很高而查準(zhǔn)率很低的現(xiàn)象。F值反映系統(tǒng)的綜合性能,該值越接近1越好。

搜索性能評價指標(biāo)的計算公式分別為:

式(3)和(4)中,resourcerelevant為符合查詢條件的總資源數(shù)量,resourceretrieval為返回資源數(shù)量,resourcerelevant∩resourceretrieval為返回結(jié)果中符合查詢條件的資源數(shù)量。

仿真實驗共發(fā)起了20次查詢請求,其中C模式查詢請求4次,O模式查詢請求4次,混合模式查詢請求12次,概念泛化和概念細(xì)化的層數(shù)均設(shè)定為1層。圖3顯示了上述三種算法20次查詢請求的查全率,查詢編號1至4為C模式查詢請求,5至8為O模式查詢請求,9至20為混合模式查詢請求。從圖3可以看出:前4個請求為C模式詞匯,可借助本體進行查詢擴展,本體技術(shù)的查全率明顯優(yōu)于全局分析的查全率。由于請求不包含O模式詞匯,此時全局分析+本體技術(shù)的性能無法充分體現(xiàn),查全率和本體技術(shù)的查全率持平;5至8為O模式查詢詞匯,無法借助本體進行查詢擴展,全局分析的查全率明顯優(yōu)于本體技術(shù)的查全率。由于請求不包含C模式詞匯,此時全局分析+本體技術(shù)的性能無法充分體現(xiàn),查全率和全局分析的查全率持平;9至20為混合模式查詢詞匯,全局分析與本體技術(shù)各有優(yōu)勢,查全率基本持平,本體技術(shù)的查全率略高于全局分析的查全率。混合模式查詢請求能充分發(fā)揮全局分析+本體技術(shù)的性能,因此查全率明顯提高。在實際應(yīng)用中,大多數(shù)搜索請求都為混合模式查詢。

圖3 三種算法的查全率

圖4 三種算法的查準(zhǔn)率

圖5 三種算法的F值

圖4顯示了上述三種算法20次查詢請求的查準(zhǔn)率。從圖4可以看出,三種算法的查準(zhǔn)率性能表現(xiàn)與圖3的查全率性能表現(xiàn)基本一致。全局分析+本體技術(shù)的查準(zhǔn)率最高,另外兩種算法次之。單獨比較全局分析和本體技術(shù)兩種算法發(fā)現(xiàn):由于本體在精確語義表達方面的優(yōu)勢,使得無論是C模式查詢,還是混合模式查詢,本體技術(shù)的查準(zhǔn)率都優(yōu)于全局分析的查準(zhǔn)率,而且差距比較明顯。

圖5顯示了上述三種算法20次查詢請求的F值。全局分析和本體技術(shù)相結(jié)合的查詢擴展算法在兼顧二者優(yōu)點的同時避開各自的缺點,因此全局分析+查詢擴展的綜合性能最好,比只采用全局分析的綜合性能提高了12.9%,比只采用本體技術(shù)的綜合性能提高了9.8%。

然后,再通過仿真實驗分析概念泛化和概念細(xì)化的層數(shù)對本文提出的查詢擴展性能的影響。將概念泛化和概念細(xì)化的層數(shù)分別設(shè)定為0、1、2、3、4,考察基于全局分析和本體技術(shù)的查詢擴展算法的F值,結(jié)果如圖6所示。0層表示不進行概念泛化或概念細(xì)化。從圖6可以看出,進行1層、2層的概念細(xì)化和概念泛化可以明顯提高查詢擴展的性能,但是當(dāng)概念泛化或概念細(xì)化的層數(shù)過多(大于2層),查詢擴展的性能不但不會提高,反而下降,并且概念泛化的性能受層數(shù)影響較概念細(xì)化明顯。主要原因是當(dāng)概念泛化或概念細(xì)化的層數(shù)過多后,擴展出的概念與原始查詢詞匯的語義差距明顯增大,概念泛化尤為明顯。因此,在進行概念泛化,以1層為最佳,在進行概念細(xì)化時,最佳層數(shù)為1~2層。

圖6 概念泛化和概念細(xì)化層數(shù)對查詢擴展性能影響

結(jié)語

查詢擴展可以生成更準(zhǔn)確的查詢請求,彌補用戶查詢信息不足的缺陷,提高搜索性能。用戶查詢請求往往遵循一些典型模式。本文首先對用戶查詢模式進行分析,根據(jù)查詢模式的不同特點給出相應(yīng)的查詢擴展方法與策略,在此基礎(chǔ)上,提出一種全局分析和本體技術(shù)相結(jié)合的查詢擴展算法,該算法在兼顧二者優(yōu)點的同時避開各自的缺點。仿真實驗的結(jié)果表明,該算法的綜合性能比全局分析的查詢擴展算法的綜合性能提高了12.9%,比基于本體技術(shù)的查詢擴展算法的綜合性能提高了9.8%。

全局分析和本體技術(shù)相結(jié)合的查詢擴展算法的性能受多種因素影響。這些因素包括:(1)本體自身的合理性與完備性;(2)詞匯-概念詞典的準(zhǔn)確度;(3)和用戶交互過程中所獲得信息的有效性。下一步將從這些影響因素入手,進一步提高全局分析和本體技術(shù)相結(jié)合的查詢擴展算法的性能。

10.3969/j.issn.1001-8972.2015.09.024

猜你喜歡
詞匯概念分析
Birdie Cup Coffee豐盛里概念店
本刊可直接用縮寫的常用詞匯
隱蔽失效適航要求符合性驗證分析
一些常用詞匯可直接用縮寫
幾樣概念店
本刊可直接用縮寫的常用詞匯
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
學(xué)習(xí)集合概念『四步走』
聚焦集合的概念及應(yīng)用
電力系統(tǒng)及其自動化發(fā)展趨勢分析
主站蜘蛛池模板: 在线观看国产精美视频| 欧美色视频日本| igao国产精品| 亚洲第一天堂无码专区| 亚洲精品国产综合99| 素人激情视频福利| 免费人成在线观看成人片| 国产精品蜜臀| 九九免费观看全部免费视频| 欧美成一级| 亚洲成网777777国产精品| 国产乱论视频| 精品免费在线视频| 国产噜噜噜| 久久亚洲AⅤ无码精品午夜麻豆| 五月婷婷综合网| a亚洲天堂| 91麻豆精品国产高清在线| 伊人查蕉在线观看国产精品| 免费国产福利| 欧美一级99在线观看国产| 99久久国产综合精品女同 | 欧美成a人片在线观看| 欧美激情综合| 国产精品香蕉| 99久久精品国产麻豆婷婷| 亚洲视频一区| 极品国产在线| 国产一区二区网站| 她的性爱视频| 国精品91人妻无码一区二区三区| 天天躁夜夜躁狠狠躁图片| 91成人免费观看在线观看| 欧美精品v| 精久久久久无码区中文字幕| 亚洲人成网站日本片| 人人妻人人澡人人爽欧美一区 | 免费看一级毛片波多结衣| 国产视频大全| 国外欧美一区另类中文字幕| 欧美一区二区三区香蕉视| 天天综合网色| 久久国产精品无码hdav| 72种姿势欧美久久久大黄蕉| 国产综合网站| 这里只有精品国产| 日韩成人在线网站| 在线观看亚洲天堂| 国产免费自拍视频| 国产又黄又硬又粗| 乱色熟女综合一区二区| 久久久亚洲国产美女国产盗摄| 国产成人永久免费视频| 国产黄网永久免费| 色老头综合网| 又大又硬又爽免费视频| 亚洲全网成人资源在线观看| 欧美成人综合视频| 一级全免费视频播放| 欧美伊人色综合久久天天| 亚洲成人在线网| 看国产一级毛片| 成人欧美日韩| 青青网在线国产| 在线欧美a| 四虎成人精品| 亚洲av日韩av制服丝袜| 亚洲精品人成网线在线 | 精品少妇人妻一区二区| 嫩草影院在线观看精品视频| 波多野结衣在线一区二区| 国产幂在线无码精品| 99视频在线免费看| 久久99国产综合精品女同| 国产精品va免费视频| 亚洲a级在线观看| 青青草一区| 亚洲精品波多野结衣| 国产超薄肉色丝袜网站| 98超碰在线观看| 国产www网站| 91久久国产综合精品|