摘 要:根據(jù)文檔處理方式的不同,將基于本體的信息檢索系統(tǒng)分為基于知識庫的語義檢索系統(tǒng)和基于語義網(wǎng)文檔的信息檢索系統(tǒng)兩類。對這兩個(gè)模型的實(shí)現(xiàn)原理和關(guān)鍵步驟進(jìn)行了闡述;探討了基于本體的信息檢索模型中的關(guān)鍵技術(shù),并指出當(dāng)前研究中存在的不足;最后對基于本體的信息檢索系統(tǒng)的研究熱點(diǎn)和方向進(jìn)行了展望。
關(guān)鍵詞:本體; 信息檢索; 語義標(biāo)注; 知識庫; 語義網(wǎng)文檔
中圖分類號:TP391.3 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2008)08-2241-04
Research on ontology-based information retrieval system models
ZHANG Yu-ming1,2, NAN Kai1, MA Yong-zheng1
(1.Computer Network Information Center, Chinese Academy of Sciences, Beijing 100080, China; 2.Graduate School, Chinese Academy of
Sciences, Beijing 100049, China)
Abstract:According to manners in which documents were processed, divided the systems into two categories: knowledge-based semantic information retrieval model and information retrieval model based on semantic Web documents . Then, discussed how the two models operate and realize implementations and approaches. Further, studied the technologies involved in the models and claimed four research problems. In the end,predictedthe hot research topics and developing trend.
Key words:ontology; information retrieval; semantic annotation; knowledge base; semantic Web documents(SWD)
本體作為一種能在語義和知識層次上描述信息系統(tǒng)的概念模型建模工具,具有良好的概念層次結(jié)構(gòu)和對邏輯推理的支持。它在計(jì)算機(jī)領(lǐng)域中的應(yīng)用使信息檢索從基于關(guān)鍵詞的層面提高到基于知識(或概念)層面上成為了可能。將本體融合到傳統(tǒng)信息檢索技術(shù)中,不僅可以對文檔中的信息進(jìn)行語義層次上的處理,還可以結(jié)合用戶的檢索條件利用Web上的語義信息進(jìn)行推理,進(jìn)而得到較為準(zhǔn)確的結(jié)果。
1 基于本體的信息檢索系統(tǒng)的分類
近年來,美國、歐盟等語義網(wǎng)研究機(jī)構(gòu)和大學(xué)實(shí)驗(yàn)室相繼設(shè)計(jì)和提出了不少有代表性的基于本體的信息檢索系統(tǒng),如基于語義網(wǎng)檢索的Metalog[1];最早基于頂層本體設(shè)計(jì)的WebKB[2];基于XML表示的Quest[3]、Elixir[4]、XIRQL[5]等。這些系統(tǒng)開發(fā)的設(shè)計(jì)理念和側(cè)重點(diǎn)不盡相同,沒有明確的分類方法對這些系統(tǒng)進(jìn)行界定。雖然不少信息檢索系統(tǒng)引入了本體的概念,但是不同的信息處理方式導(dǎo)致研究學(xué)者在論述基于本體的信息檢索系統(tǒng)時(shí),經(jīng)常混淆本體在系統(tǒng)中扮演的角色。本文根據(jù)對文檔處理方式的不同,將基于本體的信息檢索系統(tǒng)分為基于知識庫的語義檢索和基于語義網(wǎng)文檔的信息檢索兩類。
基于知識庫的語義檢索系統(tǒng)主要利用自然語言處理技術(shù)根據(jù)領(lǐng)域本體描述將網(wǎng)頁或自然語言文本轉(zhuǎn)換為大量信息實(shí)體。這種信息實(shí)體以某種知識表示語言描述存儲在知識庫中,搜索引擎可以對知識庫進(jìn)行推理和檢索。早期的SHOE項(xiàng)目[6]、歐洲科研信息系統(tǒng)AURIS-MM[7]以及OntoText語義研究實(shí)驗(yàn)室開發(fā)的KIM[8]平臺等都是基于知識庫的語義檢索系統(tǒng)的代表。
基于語義網(wǎng)文檔的信息檢索系統(tǒng)的處理對象主要包含語義標(biāo)注語言的網(wǎng)頁,由語義網(wǎng)語言書寫的語義網(wǎng)文檔能被軟件代理直接訪問。它將語義網(wǎng)文檔中的語義信息轉(zhuǎn)換為搜索引擎能夠處理的統(tǒng)一格式,存儲在一個(gè)RDF文件或OWL文件中。這類系統(tǒng)包括Ontobroker[9]、馬里蘭大學(xué)設(shè)計(jì)和研發(fā)的基于語義網(wǎng)搜索引擎原型系統(tǒng)Swoogle以及UMBC大學(xué)eBiquity實(shí)驗(yàn)室開發(fā)的語義網(wǎng)信息檢索、推理引擎OWLIR[10]等。
從兩類系統(tǒng)的劃分依據(jù)上可以看出,基于知識庫的語義檢索系統(tǒng)采取了向前兼容的策略。所謂向前兼容是指盡可能維持現(xiàn)有Web內(nèi)容的形式,利用知識表示技術(shù)建立龐大的知識庫,在已成熟的互聯(lián)網(wǎng)搜索技術(shù)上進(jìn)行有益的改進(jìn)。基于語義網(wǎng)文檔的信息檢索系統(tǒng)采取向后兼容的策略,即其實(shí)驗(yàn)平臺是Berners Lee等語義網(wǎng)學(xué)者推崇的語義網(wǎng),代表著互聯(lián)網(wǎng)的發(fā)展方向。
2 基于本體的信息檢索模型
2.1 基于知識庫的語義檢索模型
基于知識庫的語義檢索模型(圖1)首先建立基于領(lǐng)域知識的本體庫對文檔進(jìn)行預(yù)處理,建立本體庫中實(shí)例與文檔的鏈接關(guān)系。根據(jù)用戶提交的請求檢索知識庫,對實(shí)例中的隱含信息進(jìn)行推理,返回符合查詢條件的文檔集合。檢索的結(jié)果經(jīng)過排序處理后返回給用戶。
2.1.1 構(gòu)建領(lǐng)域本體庫
本體的目標(biāo)是捕捉相關(guān)領(lǐng)域的知識,提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出詞匯和詞匯間相互關(guān)系的明確定義。通常需要在領(lǐng)域?qū)<业膸椭陆⒒陬I(lǐng)域概念知識的領(lǐng)域本體。
由于本體工程到目前為止仍處于相對不成熟的階段,每個(gè)應(yīng)用都擁有自己獨(dú)立的方法,比如基因?qū)W專家可以根據(jù)本領(lǐng)域的專業(yè)知識建立對基因?qū)W的概念描述。有一些科研機(jī)構(gòu)正致力于領(lǐng)域本體標(biāo)準(zhǔn)的制定工作,通過標(biāo)準(zhǔn)的制定和實(shí)行,促進(jìn)本體定義的規(guī)范及加強(qiáng)本體的可重用性。目前,比較有影響的本體標(biāo)準(zhǔn)包括Dublin core[11]、FOAF[12]、SKOS core、CERIF[13]等。領(lǐng)域本體庫的建立包括人工和自動(dòng)[14, 15]的方式,它為文本抽取和語義標(biāo)注以及查詢請求處理提供參照知識,方便對知識進(jìn)行格式轉(zhuǎn)換和存儲。
2.1.2 文本抽取和語義標(biāo)注
文本抽取和語義標(biāo)注的目的是從非結(jié)構(gòu)化文本信息中提取出文本中有用的信息,并根據(jù)領(lǐng)域本體的概念類型形成具有一定結(jié)構(gòu)的信息實(shí)體。在對文本內(nèi)容進(jìn)行分析處理之前,事先將整篇文本劃分成若干小段文本;然后進(jìn)行分詞與詞性標(biāo)注的處理,并且在分詞過程中進(jìn)行概念的實(shí)體描述和邏輯關(guān)系的提取。
在檢索過程中,查詢接口返回的結(jié)果是本體庫中的元組,而用戶希望得到的是包含關(guān)鍵字的文檔。所以,文本抽取和語義標(biāo)注模塊的另一個(gè)功能就是建立本體庫中元組實(shí)例與文檔的映射關(guān)系。每個(gè)實(shí)例包含一個(gè)標(biāo)簽屬性,標(biāo)簽的值描述了實(shí)例的同義信息。通過啟發(fā)式算法將文檔中的實(shí)體與知識庫中的實(shí)例進(jìn)行匹配。通常使用文檔—實(shí)例關(guān)聯(lián)表來存儲文檔和實(shí)例間的對應(yīng)關(guān)系,有了關(guān)聯(lián)表,通過查詢接口返回的元組實(shí)例就可獲得相應(yīng)的文檔鏈接了。
2.1.3 查詢請求處理
為了更好地讓用戶表達(dá)出他的檢索意圖,查詢接口負(fù)責(zé)將用戶提交的自然語言查詢語句轉(zhuǎn)換為合適的本體查詢語句。用戶以自然語言的方式向系統(tǒng)提出問題;然后利用ontology領(lǐng)域中的知識和一些簡單的自然語言理解技術(shù)對用戶的問題進(jìn)行分析,提取主題詞,得到用戶真正的檢索意圖;最后將檢索請求提交給系統(tǒng)的檢索部分。
在進(jìn)行處理的過程中,首要問題就是建立本體庫,然后對用戶的問題進(jìn)行概念類型識別和問題類型識別。概念類型識別的作用是根據(jù)句法分析的結(jié)果和領(lǐng)域本體中的概念類型模板識別出該問題所描述的概念類型。概念類型識別之后可以知道該問題所關(guān)心的是某個(gè)概念中的某個(gè)類或者屬性。問題類型的識別是指將用戶的問題根據(jù)問題類型庫劃分到一個(gè)指定的類型中。在用戶提交問題后,系統(tǒng)就需要結(jié)合領(lǐng)域本體中所表述的詞匯的語義知識分析判斷問題的類型;得到問題的概念類別和類型之后,系統(tǒng)就可以根據(jù)主題詞庫從用戶問題中提取出檢索關(guān)鍵詞并將它們提交給系統(tǒng)的檢索部分。
2.1.4 索引與檢索
對信息實(shí)體進(jìn)行索引的首要工作就是要進(jìn)行信息實(shí)體特征項(xiàng)的選取。實(shí)體特征項(xiàng)可以是文本中的各種語言單位,對于中文來說可以是字、詞、短語,甚至是句子或者句群等更高層次的單位。因此,特征項(xiàng)的選擇只能由索引文檔類型、處理效率、存儲空間等方面的具體要求來決定。
檢索時(shí),推理模塊能夠?qū)Ρ倔w庫中用RDF、RDFS、OWL等語言書寫的實(shí)例進(jìn)行推理。推理過程還可以根據(jù)一定推理規(guī)則進(jìn)行,系統(tǒng)管理員可以根據(jù)具體需要?jiǎng)?chuàng)建適合的推理規(guī)則。當(dāng)檢索系統(tǒng)返回元組后,通過查找文檔—實(shí)例關(guān)聯(lián)表便可以得到文檔列表。對文檔列表進(jìn)行排序選擇,最終返回給用戶關(guān)聯(lián)度較高的文檔結(jié)果集。
2.2 基于語義網(wǎng)文檔的信息檢索模型
基于語義網(wǎng)文檔的信息檢索模型(圖2)與目前流行的Web搜索引擎模型非常相似,其不同之處在于:a)該模型抓取的網(wǎng)頁主要是帶有語義標(biāo)記的語義網(wǎng)文檔而不是通常所說的HTML網(wǎng)頁;b)索引類型不僅包括單詞、詞組、N-gram等傳統(tǒng)索引類型,還包括SWD的元數(shù)據(jù)類型,如三元組節(jié)點(diǎn)、URI鏈接等。復(fù)合型索引方法使傳統(tǒng)的檢索技術(shù)和基于本體的推理技術(shù)融合成為可能。
2.2.1 抓取語義網(wǎng)文檔
同傳統(tǒng)搜索引擎的爬蟲程序抓取Web中的網(wǎng)頁一樣,該模型也需抓取Web中的SWD。但目前大多數(shù)網(wǎng)站上的網(wǎng)頁仍然是以HTML為主,只有個(gè)別科研或者語義網(wǎng)實(shí)驗(yàn)平臺上的網(wǎng)頁屬于SWD。所以爬蟲程序只需抓取后綴名為.rdf、.owl、.daml、.n3的網(wǎng)頁。需要指出的是,并非所有后綴名為.rdf、.owl的文檔都是SWD。文獻(xiàn)[16]對語義網(wǎng)文檔在語義標(biāo)記文檔中所占的比重進(jìn)行統(tǒng)計(jì)。結(jié)果表明以rdf為擴(kuò)展名的語義標(biāo)記文檔中,SWD占總數(shù)的60%;以owl為擴(kuò)展名的語義標(biāo)記文檔中,SWD占總數(shù)的67%。所以爬蟲程序需要對抓取到的語義標(biāo)記文檔進(jìn)行SWD類型驗(yàn)證。
Web搜索引擎利用網(wǎng)頁間的URL抓取分布在Web上的網(wǎng)頁,語義網(wǎng)文檔爬蟲則通過分析SWD間的語義關(guān)系來遍歷Web。SWD中通常包含大量的URI,這些URI隱含的命名空間通常指向另一篇SWD的URL;OWL的import關(guān)鍵字說明其導(dǎo)入的本體所屬的文檔也是一篇SWD;此外一些本體語言的特征項(xiàng),如rdfs:seeAlso屬性也暗示它指向另一篇SWD。
2.2.2 SWD元數(shù)據(jù)
為了更高效地搜索語義網(wǎng)文檔和對元組進(jìn)行推理,基于語義網(wǎng)文檔的檢索模型從語義網(wǎng)文檔內(nèi)容和語義網(wǎng)鏈接關(guān)系中提取出基本信息組成SWD的元數(shù)據(jù)。元數(shù)據(jù)包括SWD的語言特性、編碼類型、本體描述語言、RDF統(tǒng)計(jì)數(shù)據(jù)、關(guān)系型元數(shù)據(jù)。其中,語言特性、編碼類型、本體描述語言都是用來說明SWD本身的信息;RDF統(tǒng)計(jì)數(shù)據(jù)通過計(jì)算本體率區(qū)分SWD類型,即semantic Web ontologies(SWOs)或者semantic Web databases(SWDBs);關(guān)系型元數(shù)據(jù)用于說明SWD之間的鏈接關(guān)系,計(jì)算PageRank時(shí)使用。
2.2.3 索引和檢索
目前,Web上的語義網(wǎng)文檔通常由純文本與語義標(biāo)記混合構(gòu)成。所以,傳統(tǒng)的基于關(guān)鍵字的索引技術(shù)仍可以應(yīng)用在基于語義網(wǎng)文檔的信息檢索模型中。除了對單詞、短語、句子等類型建立索引外,語義標(biāo)記特征項(xiàng)或者URI也可以成為索引的對象。索引建立好后,搜索引擎便可以進(jìn)行檢索了。在檢索過程中,運(yùn)用本體的推理機(jī)制,具體過程與基于知識庫語義檢索模型的推理功能相似,不過后者提供完整的知識庫。基于語義網(wǎng)文檔的信息檢索模型通常直接對語義網(wǎng)文檔中的語義標(biāo)記進(jìn)行推理或者從文本文檔中抽取出標(biāo)記三元組存儲到一個(gè)RDF或OWL文件中,對文件進(jìn)行推理。
3 基于本體的信息檢索關(guān)鍵技術(shù)
3.1 本體構(gòu)建方法
目前,關(guān)于本體構(gòu)建的方法還不成熟,沒有一套完整、統(tǒng)一的方法論[17]。按照本體的描述對象把本體分為四種類型[18]:領(lǐng)域本體(domain ontology)、通用本體(generic ontology)、應(yīng)用本體(application ontology)和表示本體(representational ontology)。領(lǐng)域本體包含著特定類型領(lǐng)域(如電子、機(jī)械、醫(yī)藥等)的相關(guān)知識;通用本體則覆蓋了若干個(gè)領(lǐng)域,通常也被稱為核心本體(core ontology);應(yīng)用本體包含特定領(lǐng)域建模的全部所需知識;表示本體不局限于某個(gè)特定的領(lǐng)域,它提供了用于描述事物的實(shí)體,如框架本體,其中定義了框架、槽的概念。
由于本體的分類方法很多,目前還沒有能夠被廣泛接受的分類標(biāo)準(zhǔn)。本體設(shè)計(jì)應(yīng)該堅(jiān)持如下幾點(diǎn)原則[19]:a)盡可能使用標(biāo)準(zhǔn)術(shù)語;b)同層次概念保持最小的語義距離;c)可以使用多種概念層次,采用多種繼承機(jī)制來增強(qiáng)表達(dá)能力。所有的本體設(shè)計(jì)原則都非常抽象,沒有明確的可操作的語義,甚至有些原則之間還存在不一致的情況。在實(shí)際的本體構(gòu)建過程中,要根據(jù)實(shí)際情況在不一致的原則中間進(jìn)行權(quán)衡,根據(jù)實(shí)際應(yīng)用的需要靈活掌握。目前還不存在公認(rèn)的本體設(shè)計(jì)和評價(jià)標(biāo)準(zhǔn)以及質(zhì)量保證標(biāo)準(zhǔn),這也是本體理論需要深入研究的原因。
目前,本體的建立基本還采用人工方式,建立本體還是一種藝術(shù)性的活動(dòng)而遠(yuǎn)遠(yuǎn)沒有成為一種工程性的活動(dòng);每個(gè)本體開發(fā)團(tuán)體都有自己的構(gòu)建原則、設(shè)計(jì)標(biāo)準(zhǔn)和不同的開發(fā)階段,所以很難實(shí)現(xiàn)本體的共享、重用和互操作。近幾年被語義網(wǎng)研究者們所廣泛接受的創(chuàng)建ontology方法是斯坦福大學(xué)醫(yī)學(xué)院開發(fā)的領(lǐng)域本體建模七步法[20]。
3.2 排序算法
由于知識庫具有不完備性,某些情況下,對應(yīng)于查詢結(jié)果的本體實(shí)例在知識庫中不存在,基于知識庫的語義排序算法的效率將很低。為了解決此類問題,Vallet等人[22]提出將傳統(tǒng)的排序算法與語義排序算法結(jié)合使用,即cos(Di,Q)=t×sim(Di,Q)+(1-t)×ksim(Di,Q)。其中:ksim(Di,Q)代表基于關(guān)鍵字的傳統(tǒng)排序算法,通常t取0.5。
3.2.2 基于語義網(wǎng)文檔的信息檢索模型的排序算法
PageRank[23]通過網(wǎng)頁間形成的參考、引用關(guān)系來判斷哪些網(wǎng)頁更被人關(guān)注,其重要性更強(qiáng)。雖然語義網(wǎng)中文檔之間也存在類似的鏈接關(guān)系,但這種鏈接不同于HTML間的超級鏈接。Swoogle將SWD間的關(guān)系分為四種:imports代表本體和本體之間的參照引用關(guān)系;uses-term代表定義的部分共享關(guān)系;extends代表本體定義的擴(kuò)展關(guān)系;asserts代表文檔間實(shí)例的聲明關(guān)系。用戶瀏覽語義網(wǎng)文檔時(shí),通過以上四種鏈接關(guān)系繼續(xù)訪問網(wǎng)頁的概率是不同的,所以有必要為四種鏈接分配不同的權(quán)值。基于語義網(wǎng)文檔的PageRank計(jì)算如下:
rawPR(a)=1-d+dΣx∈L(a)rawPR(x)f(x,a)/f(x)
f(x,a)=Σl∈links(x,a)weight(l)
f(x)=Σa′∈T(x)f(x,a′)
其中:L(a)代表指向a的所有語義網(wǎng)文檔集合; f(x,a)代表x指向a的各種類型語義鏈接的權(quán)重之和; f(x)代表x指向其他SWD的各種類型語義鏈接的權(quán)重之和;T(x)代表x指向其他SWD的集合。
3.3 帶有語義標(biāo)注的Web頁面的檢索和推理
當(dāng)今的Web搜索技術(shù)不適合直接對語義標(biāo)記進(jìn)行索引和檢索,大多數(shù)搜索引擎使用詞來對文檔進(jìn)行索引。當(dāng)對HTML文檔進(jìn)行索引時(shí),嵌在里面的標(biāo)記將被大多數(shù)的搜索引擎簡單地忽略掉,即使搜索引擎能夠識別嵌入在Web文檔中的標(biāo)記,它也不能在搜索中有效利用語義標(biāo)記的推理作用,因?yàn)榇蠖鄶?shù)搜索引擎無法根據(jù)普通文本進(jìn)行推理。
一種解決上述問題的方式是將用于文檔標(biāo)注的RDF標(biāo)記從XML命名空間的簡寫形式轉(zhuǎn)換成完整的形式,這個(gè)過程稱做Swangling。例如將三元組(http://example.org/isbn/0-00-651409-X, a:publisher, HarperCollins)轉(zhuǎn)換成(http://example.org/isbn/0-00-651409-X,http://example.org/publisher, HarperCollins)。然后將RDF三元組的完整描述作為附加信息添加到Web文檔中,允許搜索引擎對三元組的三個(gè)部分(subject,predicate,object)的任意組合進(jìn)行索引(除去無意義的空組合)。例如對于上述三元組可以有以下七種索引方式:
(http://example.org/isbn/0-00-651409-X,http://example.org/publisher, HarperCollins)
(http://example.org/isbn/0-00-651409-X,http://example.org/publisher)
(http://example.org/isbn/0-00-651409-X, HarperCollins)
(http://example.org/publisher, HarperCollins)
(http://example.org/isbn/0-00-651409-X)
(http://example.org/publisher)
(HarperCollins)
事實(shí)上,在上述語義標(biāo)注轉(zhuǎn)換過程中需要考慮一個(gè)問題,對于Google等搜索引擎,查詢語句的大小是受限制的,所以不能對所有的RDF三元組進(jìn)行索引,必須挑選有利于檢索和查詢的那些。比如,每個(gè)實(shí)例都是owl:thing類型的,于是聲明中帶有owl:thingness的元組對檢索就沒有多大用處。有必要開發(fā)一個(gè)基于標(biāo)記使用性的統(tǒng)計(jì)模型,了解哪些標(biāo)記常用,哪些標(biāo)記在查詢中經(jīng)常出現(xiàn),哪些對檢索更有幫助。
4 基于本體的信息檢索研究的不足
1)本體評價(jià)缺乏統(tǒng)一的標(biāo)準(zhǔn) 前面已經(jīng)簡單介紹了本體的一些構(gòu)造準(zhǔn)則,但是這些評價(jià)準(zhǔn)則基本是類似定性的描述,還沒有定量、明確可操作的定量評價(jià)準(zhǔn)則。如果不能解決好本體評價(jià)的問題,未來語義網(wǎng)中的本體定義標(biāo)準(zhǔn)繁多,對同一個(gè)概念的描述存在不同版本,這無疑違背了本體論倡導(dǎo)的知識共享的初衷。
2)現(xiàn)有系統(tǒng)對新知識的更新支持不夠 網(wǎng)絡(luò)環(huán)境下,用戶的信息需求很寬泛,特別是時(shí)代感很強(qiáng),關(guān)注的內(nèi)容與社會新聞和事件常常緊密相關(guān)。在基于知識庫的信息檢索系統(tǒng)中,本體庫在領(lǐng)域?qū)<业膸椭峦ㄟ^手工或者自動(dòng)化的方式建立,這在很大程度上依賴于現(xiàn)有的詞匯知識。如果知識庫中沒有查詢對應(yīng)的詞或者實(shí)例,就不可能查到含有它們的文檔。因此,獲得新詞、生成新實(shí)例并將它們及時(shí)加入知識庫中是維護(hù)運(yùn)行信息檢索系統(tǒng)的一項(xiàng)重要工作。遺憾的是,目前基于本體的信息檢索系統(tǒng)還沒有明確提出解決以上問題的有效辦法。一方面,由于基于本體的信息檢索理論還不成熟,本體論與傳統(tǒng)IR技術(shù)的結(jié)合有待進(jìn)一步研究;另一方面,本體庫中的實(shí)例包含眾多的語義關(guān)聯(lián),新知識的加入會增加更新程序的復(fù)雜度,特別是對于目前以手工維護(hù)方式為主的本體存儲系統(tǒng)來說,不是一件容易的事情。
3)語義標(biāo)記與HTML標(biāo)準(zhǔn)不兼容 目前沒有統(tǒng)一的標(biāo)準(zhǔn)創(chuàng)建和管理包含HTML及語義標(biāo)注的文檔。最常用的方式是將語義標(biāo)記直接嵌入到HTML頁面中去,但是考慮用DAML+OIL或OWL來進(jìn)行標(biāo)記時(shí)會發(fā)現(xiàn)它們是用于知識表示的語言而不是直接嵌入到文本中的。同時(shí)在HTML頁面中嵌入基于RDF的標(biāo)記與HTML標(biāo)準(zhǔn)不兼容,W3C的一個(gè)工作組正在研究解決這一問題。
4)缺乏有效的基于本體信息檢索系統(tǒng)的質(zhì)量評估機(jī)制 檢索質(zhì)量評估的目標(biāo)是對不同搜索引擎系統(tǒng)的檢索結(jié)果評估其相對優(yōu)劣次序。目前信息檢索領(lǐng)域最重要的評估工作由TREC組織負(fù)責(zé)。TREC建立了大規(guī)模的評估數(shù)據(jù)集,包括數(shù)據(jù)集、查詢集和相關(guān)結(jié)果集,但是TREC測試集并不適合基于本體的語義檢索系統(tǒng)。測試文檔來自專業(yè)領(lǐng)域也來自通用領(lǐng)域,并且許多文檔帶有語義標(biāo)記,這些都是TREC測試集無法提供的。此外,缺乏合理的評估標(biāo)準(zhǔn)對語義標(biāo)注、基于推理的檢索結(jié)果以及索引和搜索的性能進(jìn)行有效的評測。
5 結(jié)束語
基于本體的信息檢索系統(tǒng)作為本體論與信息檢索技術(shù)結(jié)合的交叉學(xué)科領(lǐng)域,已成為國內(nèi)外學(xué)者的研究熱點(diǎn)[24],并取得了許多研究成果。但也應(yīng)注意到,很多關(guān)鍵技術(shù)和問題亟待解決,如針對中文的實(shí)體標(biāo)注技術(shù)、實(shí)體識別自動(dòng)工具的開發(fā)、本體復(fù)用技術(shù)、基于軟件工程的本體開發(fā)方法、本體推理引擎與傳統(tǒng)IR檢索引擎的耦合、自然語言查詢優(yōu)化等。為了開發(fā)出實(shí)用性強(qiáng)、影響力廣的應(yīng)用項(xiàng)目,基于多媒體信息的本體設(shè)計(jì)、排序的相關(guān)性算法研究、語義服務(wù)接口、面向用戶興趣的個(gè)性化搜索策略[25, 26]等也是未來研究的熱點(diǎn)和發(fā)展方向。
參考文獻(xiàn):
[1]MARCHIORI M. Towards a people’s Web: metalog[C]//Proc of IEEE/WIC/ACM International Conference on Web Intelligence. Washington DC: IEEE Computer Society, 2004:320-328.
[2] MARTIN P, EKLUND P. Embedding knowledge in Web documents[C]// Proc of the 8th International Conference on World Wide Web New York: Elsevier North-Hou and Inc, 1999:1403-1419.
[3]BAR-YOSSEF Z, KANZA Y, KOGAN Y, et al. Quest: querying semantically tagged documents on the World Wide Web[C]//Proc of the 4th Workshop on Next Generation Information Technologies and Systems. Berlin: Springer, 1999:2-19.
[4]CHINENYANGA T T, KUSHMERICK N. Elixir: an expressive and efficient language for XML information retrieval[J]. Journal of the American Society of Information Science and Technology, 2002, 53(6):438-453.
[5]FUHR N, GROJOHANN K. XIRQL: an extension of XQL for information retrieval[C]//Proc of ACM SIGIR Workshop on XML and Information Retrieval. New York: ACM Press, 2000:172-180.
[6]HEFLIN J, HENDLER J,LUKE S. SHOE: a knowledge representation language for Internet applications, CS-TR-4078[R]. Baltimore: University of Maryland,1999.
[7]LOPATENKO A S, KULAGIN M V. Current research information systems and digital libraries. Need for integration[C]//Proc of Digi-tal Libraries: Advanced Methods and Technologies, Digital Collections. 2001.
[8]POPOV B, KIRYAKOV A, OGNYANOFF D, et al. KIM: a semantic platform for information extraction and retrieval[J]. Journal of Natural Language Engineering, 2004, 10(3):375-392.
[9] FENSEL D,DECKER S,ERDMANN M, et al. Ontobroker: how to enable intelligent access to[C]//Proc of the 11th Banff Knowledge Acquisition for Knowledge-based System Workshop, 1998:663-664.
[10]SHAH U, FININ T, JOSHI A, et al. Information retrieval on the semantic Web[C]//Proc of the 11th International Conference on Information and Knowledge Management.New York: ACM Press, 2002:461-468.
[11]HILLMAN D. Using Dublin core[EB/OL]. (2005-11-07) [2007-08-01]. http://dublincore.org/docu-ments/usageguide.
[12]BRICKLEY D, MILLER L. FOAF vocabulary specification 0.9[EB/OL].(2005-05-24) [2007-08-01]. http://xmlns.com/foaf/0.1/ [13]DG XIII-D.4, European Commission. CERIF 2000 guidelines[EB/OL]. (199-09-30) [2007-08-12]. ftp://ftp.cordis.lu/pub/cerif/docs/cerif2000.htm.
[14]DILL S, EIRON N, GIBSON D, et al. A case for automated large scale semantic annotation[J]. Journal of Web Semantics, 2003, 1(1):115-132.
[15]HANDSCHUH S, STAAB S, CIRAVEGNA F. S-cream: Semi-automatic creation of metadata[C]//Proc of the 13th International Conference on Knowledge Engineering and Knowledge Management, Ontologies and the Semantic Web. London: Springer-Verlag, 2002: 358-372.
[16]DING Li, FININ T, JOSHI A, et al. Swoogle: a search and metadata engine for the semantic Web[C]//Proc of the 13th ACM Conference on Information and Knowledge Management. New York: ACM Press, 2004:652-659.
[17]JONES D,BENCH-CAPON T, VISSER P. Methodologies for ontology development[C]//Proc of the 15th IT KNOWS Conference, IFIP World Computer Congress. London: Chapman Hall Ltd, 1998:62-75.
[18]顧芳,曹存根. 知識工程中的本體研究現(xiàn)狀與存在的問題[J]. 計(jì)算機(jī)科學(xué), 2004, 31(10):1-10.
[19]ABECKER A, BERNARDI A, HINKELMANN K, et al. Towards a technicality for organizational memories[J]. IEEE Intelligent Systems and Their Applications, 1998, 13(3): 40-48.
[20]NOY N F, McGUINNESS D. Ontology development 101: a guide to creating your first ontology[R]. Stanford: Stanford University, 2001.
[21]SALTON G, McGILL M. Introduction to modern information retrie-val[M]. New York:McGraw-Hill, 1983.
[22]VALLET D, FERNNDEZ M, CASTELLS P. An ontology-based stanford: information retrieval model[C]//Proc of the 2nd European Semantic Web Conference. London: Springer-Verlag, 2005:455-470.
[23]PAGE L, BRIN S, MOTWANI R, et al. The PageRank citation ran-king: bringing order to the Web[R]. Stanford:Stanford Digital Library Technologies Project, 1998.
[24]DING Y, OUNIS I, JOSE J. Report on ACM SIGIR workshop on “semantic Web”SWIR.2003[J]. ACM SIGIR Forum, 2003,37(2):45-49.
[25]CASTELLS P, FERnANDEZ M, VALLET D, et al. Self-tuning personalized information retrieval in an ontology-based framework[C]//Proc of the 1st International Workshop on Web Semantics. 2005: 455-470.
[26]GAUCH S, CHAFFEE J, PRETSCHNER A. Ontology-based perso-nalized search and browsing[J]. Web Intelligence and Agent Systems, 2003, 1(3): 219-234.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文