999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于本體和Lucene的語義檢索模型設計與實現

2010-05-13 08:46:00段壽建,夏幼明,甘健侯
現代電子技術 2009年12期

段壽建,夏幼明,甘健侯

摘 要:基于本體的語義檢索利用本體構建概念空間,可以處理概念之間的關系,具有語義處理能力。基于本體的語義檢索符合人類的思維習慣,并且克服傳統檢索方法造成的信息冗余或信息丟失的缺點,其查詢效果更為合理。這里結合本體和Lucene,設計并實現一個語義檢索模型,與傳統的全文檢索系統進行比對分析,說明了其有效性和可行性。

關鍵詞:本體;語義檢索;Lucene;用戶查詢

中圖分類號:TP182文獻標識碼:B

文章編號:1004-373X(2009)12-036-03

Design and Implementation of Semantic Retrieval Model Based on Ontology and Lucene

DUAN Shoujian1,XIA Youming2,GAN Jianhou2

(1.Baoshan Teachers College,Baoshan,678000,China;

2.College of Computer Science and Information Technology,Yunnan Normal University,Kunming,650092,China)

Abstract:Semantic retrieval based on ontology to construct the concept space by using ontology,it has a certain semantic processing power and better natural language interface,and can also deal with the concept of relationship.Semantic retrieval based on ontology more in line with the human habit of thinking,it can overcome the traditional method of retrieval of the information lost or redundant information,the characteristics of their query results can be more reasonable.A semantic retrieval model based on ontology and Lucene is designed and implemented,comparing to traditional full-text retrieval system,its effectiveness and feasibility are shown.

Keywords:ontology;semantic retrieval;Lucene;user query

0 引 言

隨著計算機網絡技術的飛速發展,對計算機信息存儲、傳輸和處理能力的要求迅速增長,對海量信息的檢索與利用成為當前一個重要研究和應用領域。如何解決好諸如信息組織、知識表示、機器理解、人機交互等問題,對于提高信息利用的效率,是非常重要和迫切的。近年來,語義檢索的提出為解決這些問題提供了契機,語義檢索是把信息檢索與人工智能技術、自然語言理解技術相結合進行檢索,它的核心是基于概念的檢索匹配機制。現在普遍認同的觀點是,語義檢索技術將是支撐下一代互聯網的關鍵技術[1]。語義檢索是一種基于知識、語義上的分析檢索,是在理解自然語言、計算語言學發展的基礎上產生的,由知識庫和邏輯推理系統支持,并且在檢索的查準率和查全率上都能較好地滿足用戶的檢索要求,從語義理解的角度分析信息對象與檢索者的檢索請求。基于本體的語義檢索更符合人類的思維習慣,它克服了傳統信息檢索方法造成的信息冗余或信息丟失的缺點,其查詢效果更為合理。

1 基于本體和Lucene的語義檢索模型設計

基于本體的信息檢索的基本設計思想可以總結如下[2]:

(1) 在領域專家的幫助下,建立相關領域的本體;

(2) 選擇專業領域有較高權威性的專業網站作為信息檢索的起點,根據寬度、深度優先或啟發式的信息獲取算法在Web上利用網絡爬蟲循環收集信息(也可以利用本地信息);

(3) 從用戶檢索界面獲取初始查詢集合,通過基于本體的查詢擴展,生成擴展查詢詞及權重集合,提交給檢索引擎;

(4) 檢索的結果通過排序,返回給用戶。

根據語義檢索系統的設計目標和基于本體的信息檢索系統的設計思路,提出一個基于本體和Lucene的語義檢索系統模型,如圖1所示。

基于本體和Lucene的語義檢索系統模型共分成了4個模塊:本體建立與管理模塊、信息獲取模塊、Lucene檢索引擎模塊、用戶查詢擴展和結果反饋模塊。

1.1 本體建立與管理模塊

本體是語義檢索系統的信息組織框架,在查詢擴展和查詢結果排序上都需要以本體為基本依據,因此在構建基于本體的語義檢索系統時,首先需要在領域專家和知識工程師的協助下構建合理的領域本體。

該模型的本體可以是單個常識本體或領域本體,也可以是多個本體的組合。常識本體用來描述在現實世界中公認的詞匯和詞匯間的語義聯系,現在常用的常識本體包括WordNet和知網(HowNet)等。建立領域本體是一個嚴謹的過程,領域專家可以盡可能全面地涵蓋領域內的重要概念和關系,以及如何將這些關系表達清楚;知識工程師則通過本體管理工具,依照領域專家的描述建立本體。本體在建立好之后需根據領域研究的不斷深入而不斷改變,因此在建立了基本的領域本體后要對本體進行維護,這個步驟通常分為5步:資源收集、概念整理、關系整理、精煉、評估[3]。從領域本體的建立過程可以看到,領域本體是建立在領域概念及概念之間抽象關系的基礎上,不依賴于具體的軟件而存在,從而可以成為面向該領域的通用模型,具有極高的可重用性,方便在其之上進行開發和應用。

圖1 基于本體和Lucene的語義檢索系統模型

1.2 信息獲取模塊

文檔信息庫是信息檢索系統的基礎設施之一。在檢索信息時,首先要確保信息庫中存在足夠多的可供檢索的信息,然后才能考慮如何有效的檢索。

在該模型中,除了考慮網絡資料外,還可以把本地資料,如Word,PDF等文件通過處理,可加入到文檔信息庫中。因此,該模型也可以用于本地資源的檢索中,如數字圖書館、企業內部信息等中小規模信息檢索的系統中。

1.3 Lucene檢索引擎模塊

Lucene[4]是一個高性能、可擴展的信息檢索工具庫。人們可以把它融入到應用程序中,以增加索引和搜索功能。Lucene是一個純Java實現的成熟、自由、開源的軟件項目,它用簡單易用的API隱藏了復雜的索引和搜索操作的實現過程,因此可以使用應用程序專注于自身的業務領域。基于Lucene的檢索引擎提供了如下功能:為文檔庫建立索引,生成索引庫,根據用戶的檢索要求對索引庫進行查詢,并將查詢的結果進行排序后返回給用戶。

1.4 用戶查詢擴展和結果反饋模塊

查詢擴展指在本體的支持下,把與原查詢相關的詞語或者與原查詢語義相關聯的概念添加到原查詢,得到比原查詢更長的新查詢;然后檢索文檔,以改善信息檢索的查全率和查準率,解決信息檢索領域長期困擾的詞不匹配問題,彌補用戶查詢信息不足的缺陷。查詢擴展技術是指實現查詢擴展的方法和手段,其核心問題是如何設計和利用擴展詞的來源[5]。在該模型中,語義查詢擴展是通過領域本體實現的,其通過量化本體中概念間的關聯程度,然后按照關聯程度決定擴展范圍。查詢結果處理主要包括查詢結果的排序和顯示方式定制。查詢結果的排序算法對信息檢索系統至關重要,一個好的排序算法是搜索引擎成功的保證,直接決定了查詢結果對用戶的有用性和重要性。

2 基于本體和Lucene的語義檢索系統的實現

為了驗證提出的基于本體和Lucene的語義檢索模型的有效性,本文實現了語義檢索原型實驗系統。原型實驗系統以計算機“軟件開發”領域為例,該系統在計算機“軟件開發”領域本體的支持下,對“軟件開發”相關的“知識”、“圖書”、“軟件”方面的文檔進行檢索。對比語義檢索結果和傳統的信息檢索的結果,證明了基于本體和Lucene的語義檢索模型的有效性。

2.1 系統開發平臺及工具

基于本體的語義檢索原型實驗系統在Windows XP平臺中,利用JBuilder 2006和Microsoft SQL Server 2000開發。開發中使用的開發工具包括:Protégé(用于領域本體的創建與維護),RacerPro(用于領域本體的一致性檢測,類層次關系推理,等價類推理),Jena(用于本體文件的解析與操作)和Lucene(用于基于關鍵字的全文檢索)。

2.2 本體建立與管理模塊的實現

在“軟件開發”創建的本體中,參考了ODP(Open Directory Project)和領域專家的意見,主要考慮了“程序設計語言”、“數據庫”、“軟件開發環境”三個方面。本體描述語言使用OWL-DL,利用Protégé建立“軟件開發”領域本體。“軟件開發”領域本體創建完成后,使用RacerPro對領域本體的一致性進行檢測,并進行類層次推理和等價類推理。

2.3 信息獲取模塊的實現

原型實驗系統實現對“軟件開發”相關的“知識”、“圖書”、“軟件”方面的文檔進行檢索,利用網絡爬蟲在網上收集了與“軟件開發”相關的知識、圖書和軟件介紹文本信息作為檢索系統的文檔庫。

2.4 Lucene檢索引擎模塊的實現

原型實驗系統利用Lucene開發包為文檔庫建立索引。為文檔庫建立索引后,即可利用Lucene檢索引擎對文檔庫進行基于關鍵字匹配的全文檢索。原型系統提供了2種查詢方式:一種是輸入查詢語句,通過分詞得到檢索詞;另一種是直接輸入檢索詞。全文檢索系統支持“AND”,“OR”和“NOT”關鍵詞來表示檢索詞間的邏輯關系。

2.5 用戶查詢擴展和結果反饋模塊的實現

用戶查詢擴展和結果反饋是基于本體語義檢索的關鍵模塊。對用戶的檢索詞進行擴展,需要領域本體的支持,因此在查詢擴展之前需要有量化好的領域本體中概念間相似度和相關度的綜合值。領域本體中概念間相似度和相關度值的量化算法和公式參看參考文獻[6]。原型系統通過使用Jena開發包解析本體結構,計算出了綜合的概念相似度和相關度的值,存儲在SQL數據表中,檢索時,能快速確定需要擴展的詞表。

用戶輸入的初始檢索詞集合通過領域本體中綜合的概念相似度和相關度進行擴展,生成擴展的檢索詞及相應權重集合,并提交給Lucene檢索引擎,實現了語義檢索。基于本體和Lucene的語義檢索系統提供了2種查詢方式,一種是輸入查詢語句,通過分詞得到檢索詞,分詞時可以選擇“本體概念優先”,則在分詞時優先考慮本體中的詞匯,以獲得更多的擴展;另一種是直接輸入檢索詞。語義檢索系統提供擴展閾值參數的設置,在檢索時可以根據實現情況設置,閾值設置參看參考文獻[8]。

如在“軟件開發”本體中定義了“Prolog”和“LISP”是“人工智能語言”的子類。“人工智能語言”是“高級語言”的子類,通過檢索可以看出,當擴展閾值為0.5時,用語義檢索系統檢索“人工智能語言”,可以獲得關于“Prolog”,“LISP”和“高級語言”的相關文檔。

3 結 語

在對傳統信息檢索技術和本體技術研究的基礎上,提出并實現了一個基于本體和Lucene的語義檢索系統模型。該模型在傳統的信息檢索系統中加入本體,為信息檢索系統提供了語義支持。下一步工作是把基于本體和Lucene的語義檢索系統模型推廣應用。

參考文獻

[1]曹茂誠,王英龍,王金棟,等.語義檢索技術研究[J].信息技術與信息化,2007(3):51-52.

[2]聶卉,龍朝暉.結合語義相似度與相關度的概念擴展[J].情報學報,2007,26(5):728-732.

[3]楊曉淼.一種基于本體的語義檢索模型[D].哈爾濱:哈爾濱工程大學,2006.

[4]Lucene[EB/OL].http://lucene.apache.org,2007.

[5]黃名選,嚴小衛,張師超.查詢擴展技術進展與展望[J].計算機應用與軟件,2007,24(11):1-4.

[6]段壽建.基于本體和語義檢索原型系統的設計與實現[D].昆明:云南師范大學,2008.

[7]時念云,楊晨,滕良娟.黃頁檢索的語義實現[J].現代電子技術,2007,30(6):100-101,108.

[8]楊彩蓮,謝福鼎.基于潛在語義索引的中文文本聚類的研究[J].現代電子技術,2005,28(10):58-59.

主站蜘蛛池模板: 成人综合网址| 日韩成人午夜| 亚洲中文字幕手机在线第一页| jizz国产视频| 97色伦色在线综合视频| 国产精品久久久久婷婷五月| 中文字幕欧美日韩高清| 天堂在线亚洲| 成人夜夜嗨| www.youjizz.com久久| …亚洲 欧洲 另类 春色| 无码视频国产精品一区二区| 精品人妻系列无码专区久久| 亚洲精品无码日韩国产不卡| 好紧太爽了视频免费无码| 亚洲视频一区在线| 欧美不卡视频在线观看| 91无码人妻精品一区二区蜜桃| 日韩无码真实干出血视频| 日韩在线中文| 四虎成人精品| 青青草原国产免费av观看| 婷婷久久综合九色综合88| 午夜福利亚洲精品| 亚洲精品视频免费| 99视频全部免费| 激情视频综合网| 亚洲国产精品日韩欧美一区| 久久综合伊人77777| 日本欧美成人免费| 国产免费羞羞视频| 国产微拍一区二区三区四区| 欧美国产三级| 亚洲va欧美va国产综合下载| 激情爆乳一区二区| 亚洲精品黄| 亚洲国产中文精品va在线播放| 99视频精品在线观看| 在线观看国产小视频| 99精品在线看| 夜夜操国产| 久热中文字幕在线| 国产欧美日韩综合一区在线播放| 免费一级毛片在线播放傲雪网 | 欧类av怡春院| 成人毛片免费观看| 亚洲AV无码精品无码久久蜜桃| 国产成人综合日韩精品无码首页| 亚洲成年网站在线观看| 久久久久人妻一区精品色奶水| 成人av专区精品无码国产| 色欲综合久久中文字幕网| 免费一级全黄少妇性色生活片| 国产成人a在线观看视频| 99re在线视频观看| 青青草91视频| 欧美日韩中文国产va另类| 99re经典视频在线| 一区二区三区国产精品视频| 久久精品最新免费国产成人| 9啪在线视频| 2021国产在线视频| 亚洲无码在线午夜电影| 亚洲人视频在线观看| 欧美精品亚洲日韩a| 欧美成人午夜影院| 欧美人与动牲交a欧美精品| 全部免费毛片免费播放 | 欧美日韩一区二区三区四区在线观看 | 国精品91人妻无码一区二区三区| 亚洲综合久久成人AV| 欧美综合中文字幕久久| 亚洲精品视频网| 国产精品毛片一区| 高清无码不卡视频| 亚洲AV一二三区无码AV蜜桃| 黄色网址免费在线| 久久精品日日躁夜夜躁欧美| 亚洲a级毛片| 亚洲成AV人手机在线观看网站| 国产乱子伦精品视频| 巨熟乳波霸若妻中文观看免费|