王 敏,周竹榮
西南大學 計算機與信息科學學院 計算機科學與技術系,重慶 400715
基于面本體的情境搜索研究
王 敏,周竹榮
西南大學 計算機與信息科學學院 計算機科學與技術系,重慶 400715
搜索引擎從1994年第一次被提出以來,經歷了幾代的發展,從簡單的關鍵字匹配技術,發展到了廣泛使用鏈接分析和相關度反饋等技術[1]。當前的搜索引擎發展趨勢是增加搜索結果的覆蓋面和提高用戶的相關度。
目前已有將用戶情境引入信息搜索的研究,這些研究的目標是從某一特定方面反映用戶當前情境,從而貼近用戶需求。常用的方法通常是按領域進行分類搜索,或者通過對用戶的瀏覽歷史進行用戶的特征分析來表示用戶情境等。但是,當前的情景搜索研究,還不能夠充分考慮用戶的當前狀態,全面體現用戶的即時情境信息,同時搜索的查全率和查準率都有待提高。為了解決這些問題,本文提出了基于面本體的情境搜索,將用戶的搜索過程與用戶當前情境關聯起來。根據情境本體對用戶輸入的關鍵詞進行語義擴展,生成相應的搜索本體。通過面本體標注各類異構文檔,最后利用洪泛相似度算法進行搜索本體與面本體的本體匹配,從而實現情境搜索。本文的工作可以較全面地利用用戶的當前情境信息,從各個“面”,返回用戶情境相關聯的搜索結果。
目前,國內已經有把情境因素應用于信息搜索的嘗試,比如騰訊公司推出的騰訊搜搜,它認為情境搜索是綜合考慮用戶情境的一種智能化搜索[2]。通過對用戶意圖的深入理解,在用戶使用互聯網服務的各種場景下提供給用戶的最貼切的搜索服務,強調“以人為本”,也就是以用戶為中心,根據其搜索行為的時間、地點、輸入、需求、習慣、背景等因素,通過情境匹配得到最適合的搜索結果,再將這一結果通過用戶的搜索情境因時因地地呈現給用戶。騰訊搜搜采用的技術主要是針對龐大的用戶數據進行海量的Hidden Web數據挖掘,通過龐大的用戶關聯來表示用戶情境。
同時,國外已經出現了基于情境因素的信息搜索研究,只是每種研究對情境的定義與表示都是不一樣的。Lawrence[3]通過用戶選擇搜索信息的類別,把詳細的信息
CNKI出版日期:2011-11-14 http://www.cnki.net/kcms/detail/11.2127.TP.20111114.0939.028.html分類作為情境信息提交給搜索引擎,返回的結果跟提交的信息密切相關。另外一些工具通過自動地分析用戶桌面上的文檔,將用戶常用的文檔內容生成情境信息提交給搜索引擎[4]。還有一種方法是將用戶之前的瀏覽信息和歷史操作作為用戶的情境數據,根據用戶的瀏覽與操作習慣,通過一種個性化定制的方法來搜索信息[5]。此外,還有一些常用的方法是通過鏈接分析[6]或者啟發式搜索[7]來表示用戶的情境信息。與這些方法不同的是,本文使用本體來表示用戶的情境信息,本體擁有良好的概念層次結構,能夠支持邏輯推理,非常適合信息檢索中的基于要領的檢索的需求。
2.1 總體思想
在信息搜索中,用戶輸入的查詢信息往往是未經語法和語義規范化處理的關鍵詞,由于這些查詢詞語有多義性和片面性,它們不能準確表達出用戶的搜索需求,所以需要對用戶輸入用來查詢的關鍵詞進行語義擴展。語義擴展技術是在原來查詢的基礎上加入與用戶用詞相關聯的詞,組成新的更長的,語義上更準確的查詢詞,這樣可以在一定程度上彌補用戶查詢信息不足的缺陷。
情境是對當前環境持續變化的狀態表示,這種環境既包括用戶環境,也有當前搜索的物理環境和計算環境,因此,基于情境對用戶查詢關鍵詞進行語義擴展能更貼近用戶基于自身環境的需求。情境可以用面來表示,因為面是一種表達領域知識的元數據,通過面將領域知識的整體信息分解為含有具體意義的部分信息,生成面本體,使領域知識的表達更為體系化,結構化。因此,提出一種基于面本體的情境搜索模型(Faceted Ontology-based Context Search,FOCS),FOCS模型結構如圖1所示。

圖1 基于面本體的情境搜索
FOCS模型的總體思想是:首先構建情境本體,利用情境本體對用戶輸入的查詢詞進行語義擴展,生成與當前用戶情境相關聯的搜索本體,再通過標注各類異構文檔形成基于不同領域的面本體;然后搜索本體與面本體通過相似度洪泛算法進行本體匹配,在面本體中匹配出與搜索本體最相似的面本體的子本體,最后通過相關函數將子本體轉換成由標題,日期,鏈接,內容這幾個關鍵字段組成的數據信息,形成搜索結果,返回給用戶。本文主要的研究重點是在情境本體和面本體的基礎上構造情境搜索模型,由于將本體轉換為數據信息的技術比較成熟,這部分內容本文不作詳細介紹。
2.2 相關定義
2.2.1 情境搜索
定義1(情境搜索(Faceted Ontology-based Context Search,FOCS))基于面本體的情境搜索可抽象為四元組的概念模型,表示為FOCS=<SO,FO,UI,map(SO,FO),res(RO,Doc)>。
SO表示搜索本體,是由用戶輸入的查詢關鍵詞通過情境本體進行語義擴展生成;FO表示相關領域的面本體,通過文檔標注生成;情境本體和面本體都是領域本體。UI是用戶接口,它的作用是通過函數Vq:INquery→RCsetin將用戶輸入的關鍵詞進行語義擴展生成相應的搜索本體;map(SO,FO)是匹配搜索本體和面本體的相似度洪泛映射,通過map(SO,FO)實現本體匹配;res(RO,Doc)函數將匹配的結果本體轉換成相應的數據信息,形成搜索結果,返回給用戶。
2.2.2 領域本體
領域本體是用于描述特定領域知識的一種專門本體,它由概念,屬性,對象,關系和子領域本體組成。本文對領域本體的形式化定義如下。
定義2(領域本體(Domain Ontology,DO))表示為一個五元組,即DO=<C,Ac,Hc,R,f>。
其中,C={c1,c2,…,cn}表示特定領域概念集合;Ac表示概念屬性的集合;Hc(Arc)?C×C是一個有向關系,表示為一個有向無環圖;R表示概念之間的非層次關系;f表示概念的實例集合。
下文定義的面本體和情境本體是領域本體的實例化表示,本身屬于自身特定領域的一種領域本體。面本體用來規范不同領域的搜索數據,情境本體用來規范用戶的情境信息數據。面本體可以包含情境本體,情境本體是面本體的子集,可以通過本體匹配來篩選取出面本體中與由情境本體擴展形成的搜索本體最相似的部分,以此來實現情境搜索。
2.2.3 面本體
在面搜索里,各個不同領域的文檔信息以面為單位被標注,文檔根據不同的面,按概念的層次結構進行分類,通過與不同的領域本體進行索引形成相關領域的面本體,在基于共享一系列面本體的基礎上,系統能語義的搜索信息,提供給用戶更智能的搜索內容。
定義3(面(Facets,FS))一種為信息空間定義的可供選擇的,可按相應概念進行層次劃分的元數據。對于每一個領域,可按以下五個面進行劃分[8],即,領域(Discipline),實體(Entity),性質(Property),活動(Action),修正(Modifier)。

圖2 計算機領域的面本體
定義4(面本體(Facet Ontology,FO))領域本體的實例化表示,將事物的各個面按概念層次進行表示的數據模型。面本體的形式化定義為:FO={FC,Ac,Hc,R,f}。FC表示在領域,實體,性質,活動,修正五個面上相應的概念。圖2表示了一個計算機領域的面本體。
2.2.4 情境本體
情境表示對可執行環境持續變化的狀態表示,可執行環境包括計算環境,用戶環境和物理環境。情境需要表明的信息需要符合一個4W1H原則,即誰(Who),時間(When),地點(Where),內容(What),方式(How)。本文對情境的定義如下:
定義5(情境(Context))用來描述一個實體特征的相關信息,基本的屬性有四個,位置,身份,活動,時間。這四個屬性是對特定情境實體的一種初始化特征描述屬性,這些屬性不僅符合了4W1H原則,同時也提供了其他情境信息的線索。
定義6(情境本體(Context Ontology))領域本體的一種實例化,表示與之相關聯的事情的各種層次分類,包括當前的場景,事件,社會等。其形式化定義為:CO={CC,Ac,Hc,R,f},其中CC={cc1,cc2,…,ccn}表示各個情境的概念集合。
情境本體[9]可以分為上層本體(Upper Ontology)和特定領域本體(Domain-Specific Ontologies)。上層本體是一個高層本體,描述了基本情境屬性的通用特征,包括位置,身份,活動,時間。特定領域本體是一個本體集,定義了相關子領域的通用概念和特征。情境本體的通用描述圖和一個具體的情境本體描述圖如圖3、圖4所示。
2.3 關鍵算法
2.3.1 基于情境本體的語義擴展算法
定義7(用戶接口(User Interface,UI))用二元組表示UI=<INquery,vq:INquery→Csetin>。
將用戶輸入的查詢關鍵詞通過情境本體進行語義擴展是情境搜索的一個重要步驟,在FOCS模型中用函數vq:INquery→RCsetin來實現語義擴展。INquery表示用戶輸入的查詢詞。vq表示用戶需求生成函數,將用戶輸入的查詢詞,通過情境本體進行語義擴展生成相應的搜索本體。

圖3 情境本體的通用描述圖

圖4 具體的情境本體
本文所提出的基于情境本體的語義擴展就是建立在利用子類關系進行擴展的方法之上的,其基本思想是利用本體中的路徑來進行用戶查詢的擴展,本文所用到的本體是一種表示情境概念的領域本體,它能夠充分地表達出用戶的角色,環境等當前的情境信息。情境本體作為情境概念的組織方式,概念之間的關系主要是層次關系,可以把情境本體通過IMO規格轉換成相應的情境圖。上下層次關系與平行層次關系用情境圖來表示即父子關系和兄弟關系,語義擴展可以從上下層次或平行層次進行擴展,用情境圖來表示即是從父節點,孩子節點,兄弟節點進行擴展。
本文基于情境本體的語義擴展算法(Context Ontologybased Semantic Expansion,COSE),以用戶輸入的關鍵詞為基本節點,通過情境圖進行相應的兄弟節點,父節點,孩子節點的擴展。為了控制擴展范圍可以參照文獻[10],定義語義集合SRC(c,r),SRP(c,r),SRS(c,r),分別表示情境圖中孩子概念集合,父概念集合和兄弟概念集合,其中語義半徑r(r>1),表示概念與其相關概念之間的距離,c∈A表示待擴展的語義概念。
基于情境本體的語義擴展算法(COSE):

2.3.2 基于本體映射的情境搜索算法
在本文中,搜索本體映射面本體的基本思想是,將搜索本體和面本體通過IMO規格轉換成為相應的有向無環圖,稱為搜索圖和面圖。搜索圖中的每一個元素映射其在面圖中最相似的子圖,搜索本體到面本體的映射就轉換成了搜索圖在面圖中獲得最佳的子圖的圖匹配問題。
Melnik等人在2002年的時候,提出了一種多功能的圖匹配算法SF[11]。該方法的基本思想是將要匹配的模型轉換為帶標記的有向圖,這些圖用來做迭代不動點計算,由計算結果可知一個圖里的哪些節點和另一個圖的節點相似。相似度的計算的基本思想為:如果兩個節點是相似的,當它們的鄰接元素也是相似的。兩個元素的相似性部分傳播給了它們的鄰居,這種傳播方式類似于IP廣播。在FOCS模型中,假設有搜索本體S1,面本體S2,首先將S1和S2轉換成相應的搜索圖G1和面圖G2,圖中的每條邊,用一個三元組表示(s,p,o),分別是 源點,邊名,目的點。
定義8(相似度傳播圖(Pairwise Connectivity Graph,PCG))由搜索圖和面圖中具有相同權值的邊的節點組成的新的節點的有向圖。用三元組((x;y);p;(x′;y′))表示。其中,PCG(A;B)<==>(x;p;x′) €A and(y;p;y′) €B。關鍵是p要相同。
如圖5所示,模型A、B從兩個有向圖中建立起它們的PCG。圖中的每個節點,都是A和B中的元素構成的2元組,叫做匹配對(map pairs)。

圖5 相似度傳播圖
定義9(傳播推導圖(Induced Propagation Graph,IPG))從PCG推導而來,加上了反向的邊,邊上注明了傳播系數(Transmission Coefficient,TC),其值為1/n,n為相應的相同權值的邊的數目,如圖6所示。

圖6 傳播推導圖
定義10(映射對)經過相似度洪泛計算后的匹配對的結果稱作映射對(mapping),記作ó(x;y), 其值大于0,代表了節點x∈A和y∈B的相似度,是在整個A×B的范圍上定義的。
相似度的計算就是基于ó-values的迭代計算。假設ói代表了第i次迭代后的結果,ó0代表初始相似度,由初始匹配的字符串相似度得出,通常與情境本體所在的領域相關。在下面的例子里,設ó0=1。每次迭代中,ó-values都會根據其鄰居節點對的ó-values乘以相應節點對的傳播系數來增加。例如,在第一次迭代ó1(a1;b1)=ó0(a1;b1)+ ó0(a;b) ×0.5=1.5。類似地,ó1(a,b)=ó0(a,b)+ó0(a1;b1)× 1.0+ó0(a2,b1)×1.0=3.0。接下來,所有ó值進行正規化,比如除以當前迭代的ó的最大值,保證所有ó都不大于1。所以在正規化以后,ó1(a;b)=1.0,ó1(a1,b1)=1.5/3.0=0.5。
本文提出的情境搜索模型用面本體標注各類異構文檔,因此,基于上面相似度洪泛的計算過程,給出一個基于面本體的相似度洪泛算法(Faceted Ontology-based SFJoin,FOSFJohin),算法的輸入是由搜索本體和面本體,搜索本體屬于面本體。算法的輸出是由映射對表示的結果本體,結果本體是面本體中與搜索本體最相似的部分,是面本體的子集。基于面本體的相似度洪泛算法表示如下:


本文提出的基于面本體的情境搜索模型(FOCS)用一個中等規模的數據集在一個實驗性的原形系統里實現。為了測試加入情境因素的基于本體的信息搜索系統與沒有相關技術的信息搜索系統的差異,用下面三種信息搜索的技術來進行比較:(1)通用的使用關鍵字匹配的信息搜索;(2)使用本體作為知識表示的信息搜索[12];(3)加入了情境因素的使用本體作為知識表示的信息搜索(FOCS)。
實驗采用從CNN科技頻道下載的相關電子文檔進行測試,用Ontotext實驗室開發的基于KIM平臺[13]的本體知識庫(Knowledge Base,KB)提供的領域本體對CNN科技頻道的數據進行標注,該領域KB包含278個類,131種屬性,34 689個實例和462 848個句子,總共包括705 MB的RDF文本格式。在一個原型系統上進行實驗[14]。采用信息檢索領域廣泛使用的查準率(Precision)和查全率(Recall)來評價實驗結果。
查準率=檢索到的相關文檔數/檢索到的全部文檔數
查全率=檢索到的相關文檔數/系統全部相關文檔數
在基于KIM平臺的基礎上,用七組假設的數據進行檢測,結果對比如表1示。

表1 關鍵字搜索法,本體模型搜索與FOCS比較
表1展示了七個關鍵詞分別輸入關鍵字搜索,本體模型搜索與FOCS模型得出的查全率與查準率,三個信息搜索系統的查全率與查準率對比如圖7,圖8所示。

圖7 關鍵字搜索,本體模型搜索與FOCS模型的查準率對比圖

圖8 關鍵字搜索,本體模型搜索與FOCS模型的查全率對比圖
從實驗結果生成的表與圖提供的分析數據可以看出,較之于傳統的關鍵字匹配的搜索,采用了本體作為知識表示的信息搜索系統,不僅規范了用戶的查詢輸入,還能識別檢索語義,因此,采用本體作為知識表示的搜索模型較于僅用關鍵字匹配的搜索模型,可以提高用戶搜索的查準率與查全率。
本文所提出的FOCS模型在戶接口部分增加了基于情境本體的語義擴展,在搜索過程中,FOCS模型用面本體進行異構文檔標注,使用面本體與搜索本體進行本體匹配,更全面,更準確地匯集了相關的信息數據。因此FOCS模型比僅用本體作為知識表示的信息搜索系統的查準率更高。
本文將本體技術融合到信息檢索中,首先利用情境本體中的概念詞匯,對用戶在客戶端輸入的關鍵詞進行語義擴展,規范用戶自然語言的查詢輸入,提取有檢索意義的概念詞組;同時,利用情境本體中定義的概念關系來識別和擴展用戶檢索的語義,將其與用戶特定的情境信息相關聯。其次將異構數據庫中的文檔按領域進行標注生成相應的面本體,規范了數據庫的信息表示;最終通過本體匹配從用戶的情境角度,返回用戶的查詢信息,實現情境搜索。
[1]Sherman C.Inkomi inside[EB/OL].[2010-08-15].Http://websearch.about.com.
[2]孫良.用情境搜索開啟未來之路[J].程序員,2010(3).
[3]Lawrence S.Context in web search:data engineering[J].IEEE Computer Society,2000,23(9):25-32.
[4]Duda R O,Hart P E.Patter classification and scene analysis[M]. New York:John Wiley and Sons,1973.
[5]Bharat K.SearchPad:explicit capture of search context to support web search[C]//Proceedings of the 9th International World Wide Web Conference.Amsterdam:[s.n.],2000.
[6]Sherman C.Link building strategies[EB/OL].[2010-08-15].http:// websearch.about.com.
[7]Finkelstein L,Gabrilovich E,Matias Y,et al.Placing search in context:the concept revisited[C]//Proceedings of the 10th International World Wide Web Conference.Hong Kong:[s.n.],2001.
[8]Giunchiglia F,Dutta B.Faceted lightweight ontologies[D]. Italy:University of Trento,2009.
[9]Gu T.An ontology-based context model in intelligent environments[C]//Proc Communication Networks and Distributed Systems Modeling and Simulation Conf.San Diego,California,USA:[s.n.],2004.
[10]張磊.基于語義Ontology聚類研究[J].應用科學學報,2007,25 (1):74-80.
[11]Giunchiglia F,Shvaiko P.Semantic matching[J].Knowledge Engineering Review Journal,2004,18(3):265-280.
[12]Vallet D,Fernandez M.An ontology-based information retrieval model[C]//2nd European Semantic Web Conference (ESWC 2005).Berlin:Springer-Verlag,2005:455-470.
[13]Kiryakov A,Popov B.Semantic annotation,indexing,and retrieval[J].Journal of Web Semantic,2004,2(1):47-49.
[14]Castells P,Fernandez M.Self-tuning personalized information retrieval in an ontology-based framework[C]//1st International Workshop on Web Semantics(SWWS2005).Berlin:Springer-Verlag,2005:977-986.
WANG Min,ZHOU Zhurong
Department of Computer Science and Technology,Institute of Computer and Information Science,Southwest University, Chongqing 400715,China
This paper describes a new model based on the faceted-ontology,FOCS,for performing search in context.In the model, the keywords inputted by users are semantic expansion by context-ontology and the related search-ontology is produced.And it annotates all kinds of heterogeneous documents by faceted-ontology.The realization of context search is mapping search-ontology and faceted-ontology by the similarity flooding algorithm.The experimental results show the FOCS is better than the traditional search in the facets of recall and precision.
faceted ontology;context ontology;context search;similarity flooding algorithm
為了將用戶的搜索過程與用戶當前情境相關聯,提出一種基于面本體的情境搜索模型(Faceted Ontology-based Context Search,FOCS)。FOCS根據情境本體對用戶輸入的關鍵字進行語義擴展,生成相應的搜索本體。通過面本體標注各類異構文檔,利用洪泛相似度算法進行搜索本體與面本體的本體匹配,實現情境搜索。實驗結果表明,提出的方法應用于搜索引擎,與傳統的信息搜索比較,具有更好的查全率與查準率。
面本體;情境本體;情境搜索;相似度洪泛算法
A
TP391
10.3778/j.issn.1002-8331.1107-0474
WANG Min,ZHOU Zhurong.Context search based on faceted ontology.Computer Engineering and Applications,2013, 49(5):127-131.
王敏(1987—),女,碩士研究生,主要研究方向:語義網與面向服務計算;周竹榮(1970—),男,博士,副教授,碩士生導師,主要研究方向:語義網與面向服務計算。E-mail:creaking@swu.edu.cn
2011-07-25
2011-10-19
1002-8331(2013)05-0127-05