999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于本體的個性化信息檢索研究

2009-04-29 00:00:00劉霞,陽小華
電腦知識與技術 2009年25期

摘要:分析傳統的信息檢索系統存在的不足及其原因,將本體加入到檢索系統中,提出一個基于本體的個性化信息系統的設計思路和系統模型,并對該模型的主要模塊進行了介紹,探討了利用本體的領域知識和用戶的本體模型實現信息檢索的過程,最后對該模型進行的性能評價表明在查全率和查準率方面都有很大改善。

關鍵詞:本體;個性化;信息檢索;用戶模型

中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2009)25-7079-02

Research on Ontology-based Personalized Information Retrieval

LIU Xia, YANG Xiao-hua

(Computer Department, University of South China in Hunan Province, Hengyang 421001, China)

Abstract: Analyzing the problem that the traditional information retrieval system has some weak point, we put forward a ontology-based personalized information retrieval system design ideas and system model, and described the components of the model, introduced how to realize information retrieval with domain knowledge of ontology and user ontology profile. Finally, performance evaluation of the model shows the great improvement of the ratio of recall and precision as expected.

Key words: ontology; personalized; information retrieval; user profile

在當前網絡信息與知識日益膨脹并且呈爆炸性增長的形勢下,信息檢索作為信息社會中人們獲取信息的主要手段,越來越為人們倚重。然而目前的信息檢索技術主要是基于關鍵字的匹配,它主要存在以下四方面的不足:

1)無法根據語義匹配,檢索的結果沒考慮詞的語義,無法獲得與關鍵詞語義一致的其他詞的檢索結果;

2)無法準確獲取用戶意圖,機器無法準確獲取用戶基于自然語言的檢索要求;

3)無法獲取隱含的知識,機器不能智能地發現系統隱含的知識;

4)無法適應用戶多樣化的信息需求。基于關鍵詞的信息檢索對不同知識背景的用戶提供幾乎無差別的檢索界面、檢索方式和檢索結果,缺乏智能和個性。

以上幾方面的因素導致傳統的信息檢索在查全率和查準率兩項指標上難以有質的飛躍。因此,尋找新的方法使之能在web上準確高效的檢索出符合用戶個性化需求的信息也就成為目前研究的熱點。

要提高現有檢索系統的檢索效率,一方面必須將信息檢索從目前基于關鍵詞層面提高到基于知識(或概念)層面,必須基于語義層面組織和表示信息,設計合理的智能信息檢索系統;另一方面還需要建立表示用戶個性特征并能適應用戶興趣變化的用戶模型,使得在向用戶提交信息檢索結果時,自動過濾掉用戶不感興趣的記錄,避免用戶在檢索結果集中繼續大海撈針。

本體的出現使得信息檢索技術有了新的突破。

本體作為一種能在語義和知識層次上描述信息系統的概念模型建模工具,已被廣泛應用于知識工程、系統建模、信息處理、數字圖書館、自然語言理解、語義Web等領域之中。本體具有的良好的概念層次結構和對邏輯推理的支持,因而把本體融合到傳統信息檢索技術中,不僅可以繼承傳統信息檢索技術的優點,還可以利用本體支持邏輯推理的特點,獲取更多更準的知識,提高檢索的查全率和查準率。

另外,引入本體到用戶模型領域能夠更好地表達用戶的個性化信息,從語義層次上為用戶提供個性化服務[1-3]。研究結果表明,本體作為領域概念化模型,能夠明確地描述領域涉及的概念、概念的含義、概念之間的關系,為簡單的術語賦予明確的背景知識,因而利于知識的共享和重用[4],并具有語義擴展和推理功能。

本文針對傳統的信息檢索存在的不足及原因,將本體加入到檢索系統中,提出一個基于本體的個性化信息系統的設計思路和系統模型,并對該模型的主要模塊進行了介紹,探討了利用本體的領域知識和用戶的本體模型實現信息檢索的過程,最后對該模型進行的性能評價表明在查全率和查準率方面都有很大改善。

1 相關背景知識介紹

1.1 信息檢索

信息檢索(information Retrieval,IR)是從數據集中提取相關文檔和信息的過程。

目前最為普遍采用的檢索效果量化評價指標主要有:查全率(Recall Factor)、查準率(Pertinence Factor)、漏檢率(Omission Factor)、誤檢率(Noise Facor)其中查全率是對所需信息被檢出程度的度量,用來表示信息系統能滿足用戶需求的完備程度;查準率是衡量信息系統拒絕非相關信息的能力的度量,查全率的誤差是漏檢率;查準率的誤差是誤檢率。查全率和查準率的數學公式分別如下:

1.2 本體

本體的概念源自于哲學領域,旨在研究客觀事物存在的本質和組成。隨著人工智能及其相關領域的研究發展,本體一詞有了多種新的解釋。

其中獲得普遍認同的定義是Studer等人在1998年提出的“認為Ontology是共享概念模型的明確的形式化規范說明”。這包含4層含義[5]:概念模型(coneptualization)、明確(explicit)、形式化(formal)和共享(share)。

1)“概念模型”指通過抽象出客觀世界中一些現象(phenomenon)的相關概念而得到的模型。概念模型所表現的含義獨立于具體的環境狀態。

2)“明確”指所使用的概念及使用這些概念的約束都有明確的定義。

3)“形式化”指本體是計算機可讀的(即能被計算機處理)。

4)“共享”指本體中體現的是共同認可的知識,反映的是相關領域中公認的概念集,即本體針對的是團體而非個體的共識。

本體的目標是捕獲相關領域的知識,提供對該領域知識的共同理解,確定該領域內共同認可的詞匯,并從不同層次的形式化模式上給出這些詞匯(術語)和詞匯間相互關系的明確定義[6]。

本體在信息檢索中的作用主要體現在5個方面[7]:1)檢索擴展;2)信息抽取;3)自動分類;4)語義形式化表示;5)推理機制。

2 基于本體的個性化信息檢索模型

2.1 設計思想

基于本體的個性化信息檢索的基本設計思想可以總結如下:

1)構建本體庫。 收集訓練文檔,在領域專家的幫助下,建立本體庫。

2)建立用戶本體。從所構建的領域本體庫中選取一個用戶研究領域的本體,以及結合用戶的基本及需求信息,對領域本體進行篩選精化,投影獲取本體,以此作為用戶的初始個性化本體。

3)Web信息收集、組織與存儲。收集信息源中的數據,并參照已建立的本體,把收集來的數據按規定的格式存儲在元數據庫(關系數據庫、知識庫等)中。

4)檢索處理。對用戶檢索界面獲取的查詢請求,查詢轉換器按照本體把查詢請求轉換成規定的格式,在本體推理機的幫助下從元數據庫中匹配出符合條件的數據集合;

5)查詢結果集的處理。結合用戶本體模型的語義擴展和本體推理,對查詢結果進行過濾排序,最終以個性化的方式顯示給用戶。

6)通過挖掘日志文件,根據用戶瀏覽或檢索信息的日志文件構建參考本體,并將參考本體歸并到個性化本體中,完成用戶個性化本體的學習。具有學習功能的用戶本體模型能反映用戶的信息需求和興趣偏好的變化,從而更好地提高信息檢索的查全率和查準率。

2.2 主要模塊

根據個性化信息檢索系統的設計目標和基于本體的信息檢索系統的設計思路,本文提出了基于本體的個性化信息檢索系統的結構(圖1)。該系統共分成了五個模塊:領域本體管理模塊、用戶本體管理模塊、信息獲取模塊、語義標注和抽取模塊、查詢模塊,下面論述其功能和實現流程。

1)領域本體管理模塊的作用主要是負責領域Ontology的建立、存儲和進化。

2)用戶本體管理模塊的作用主要負責用戶本體模型的建立、存儲和學習更新。從所構建的本體庫中選取一個用戶研究領域的本體,以及結合用戶的基本及需求信息,通過用戶對領域本體的修剪精化,刪減掉用戶不感興趣的信息,得到一個用戶視圖的本體,即為用戶的個性化本體。通過挖掘日志文件,根據用戶瀏覽或檢索信息的日志文件構建參考本體,并將參考本體歸并到用戶的個性化本體中,完成用戶個性化本體的本體學習,并實現用戶模型的學習更新。

3)信息獲取模塊的作用是從Web上獲取信息文件存儲在網絡資源文件Cache庫中,以備進一步的處理。

4)語義標注和抽取模塊的作用是將信息獲取模塊抓取的Web文檔進行加工處理,把用HTML、XML描述的無結構、半結構的數據進行標注,然后抽取其中的元數據并進行語義編碼,最后存放在語義元數據庫中。

5)查詢模塊的作用是接受用戶的查詢請求,參照建立的本體,對用戶的查詢請求進行語義映射和語義擴展,實現信息的查詢,獲得初步查詢結果后,再結合用戶本體提供的個性化信息,并在本體推理機的幫助下,對查詢結果進行二次過濾排序,最終以個性化的方式顯示給用戶。

3 系統評價

該模型通過領域本體庫和用戶個性化本體的支持解決了信息檢索中的以下問題:

1)查全率。由于領域本體的引入,增加了概念的同義詞、概念的上下位關系以及概念的多義性等描述,系統可根據用戶提出的檢索詞推理出一組相關或相近的詞,共同組成擴充后的查詢條件。例如用戶查詢“電腦”的相關知識時,有關“計算機”、“微機”和“PC機”的知識也會被檢索出來,這樣就提高了查全率。

2)查準率。基于領域本體的用戶模型將會大大改善傳統用戶模型的語義信息不足的缺陷,在向用戶提供檢索結果時能結合用戶模型,對檢索到的結果進行過濾排序,提供符合用戶個性化需求的檢索結果。例如一個計算機相關領域的用戶查詢“agent”的相關知識時,會將檢索到的與計算機專業無關的“agent”(如:房產經紀人、代理人等)過濾掉,這樣就提高了查準率。

4 總結

本文提出了一個基于本體的個性化信息檢索系統模型。文章首先分析傳統的信息檢索存在的不足及其原因,然后介紹了本體的概念及其在信息檢索領域的作用,在此基礎上提出了基于本體的個性化信息檢索系統的設計思路和系統模型,并對該模型的主要模塊進行了說明,最后對模型進行了性能評價。

該模型由于本體的引入,能通過概念之間的關系來表達概念語義的能力,所以能夠有效地提高信息檢索的查全率和查準率。

參考文獻:

[1] Gaueh S,Chaffee J,Pretsehner A.Ontology-Based Personalized Search Browsing[C].Web Intelligence and Agent system,2003:219-234.

[2] Pretsehner A.Ontology Based Personalized Search[D].Lawrenee,KS:The University of Kansas,1999.

[3] 李勇.智能檢索中基于本體的個性化用戶建模技術及應用[D].國防科技大學,2002.

[4] 李勇,徐振寧,張維.Intemet個性化信息服務研究綜述[J].計算機工程與應用,2002,38(19):183-188.

[5] Studer R,Benjamins V R,Fensel D.Knowledge Engineering Principles and Methods[J].Data and Knowledge Engineering,1998,25(122):161-197.

[6] 李善平,尹奇.本體論研究綜述[J].計算機研究與發展,2004,41(7):1048.

[7] 吳丹.本體在信息檢索中的作用及實例研究[J].情報雜志,2006(6):1.

主站蜘蛛池模板: 一区二区日韩国产精久久| 色哟哟国产精品一区二区| 欧美亚洲第一页| 国产大片黄在线观看| 欧美 国产 人人视频| 日韩毛片基地| 久久青草视频| 中文字幕天无码久久精品视频免费| 国产精品3p视频| 亚洲国产精品国自产拍A| 国产丝袜第一页| 久久99这里精品8国产| 91色国产在线| 亚洲国产欧美国产综合久久| 久996视频精品免费观看| 国产主播福利在线观看| 免费又黄又爽又猛大片午夜| 日韩毛片免费观看| 无码中字出轨中文人妻中文中| 日韩免费成人| 国产精品午夜福利麻豆| 免费看av在线网站网址| 2021亚洲精品不卡a| 久久人妻xunleige无码| 亚洲视频三级| 97国产精品视频自在拍| 五月婷婷伊人网| 无码区日韩专区免费系列 | 幺女国产一级毛片| 久久青青草原亚洲av无码| 国产精品第一区在线观看| 国产一区二区三区日韩精品| 2022国产91精品久久久久久| 亚洲a级在线观看| 找国产毛片看| 国产国产人在线成免费视频狼人色| 新SSS无码手机在线观看| 亚洲欧美另类视频| 亚洲国产精品一区二区高清无码久久| 欧美性猛交一区二区三区| 麻豆精品在线| 亚洲高清中文字幕在线看不卡| 97人妻精品专区久久久久| 99这里只有精品6| 男人天堂亚洲天堂| 国产精品毛片一区| 国产av色站网站| 午夜日b视频| 就去色综合| 真实国产精品vr专区| 亚洲中文精品人人永久免费| 91在线高清视频| 久久免费精品琪琪| 国产第八页| 特级毛片免费视频| 91精品伊人久久大香线蕉| 久草热视频在线| 亚洲色图综合在线| 人妻21p大胆| 老色鬼欧美精品| 久久久波多野结衣av一区二区| 国产波多野结衣中文在线播放 | 国产在线第二页| 色婷婷亚洲十月十月色天| 免费在线播放毛片| 午夜a级毛片| 国产激情在线视频| 欧美日韩国产一级| 欧美日韩成人在线观看| 成年A级毛片| 国产麻豆精品在线观看| 亚洲午夜久久久精品电影院| 亚洲欧美日韩成人在线| 波多野结衣一区二区三区四区视频| 一区二区三区四区精品视频| 欧洲成人在线观看| 国产真实乱了在线播放| 国产精品一线天| 五月婷婷丁香综合| 国内精品小视频福利网址| 午夜无码一区二区三区| 2021国产乱人伦在线播放|