999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Lucene的語義搜索引擎設計

2008-12-31 00:00:00俞曉舜
電腦知識與技術 2008年32期

摘要:該文在開源全文搜索引擎Lucene的基礎上設計了一個結合本體與自然語言處理技術的語義檢索系統。系統分析了如何對文本進行語義分析,設計了語義索引項以存儲語義信息,并提出了使用語義信息的網頁排序算法。

關鍵詞:本體;語義網;自然語言處理;信息獲取

中圖分類號:TP393 文獻標識碼:A文章編號:1009-3044(2008)32-1197-03

Lucene Based Semantic Search Engine Design

YU Xiao-Shun

(Department of Computer Science Technology, Tongji University, Shanghai 201804, China)

Abstract: This paper designs a semantic information retrieval system based on the open source full text search engine: Lucene. It combines ontology and natural language processing technology. It analyzes how to comprehend web page semantically, designs a semantic index, and proposes a semantic sorting algorithm.

Key words: ontology; semantic web; natural language processing; information retrieval

1 引言

如今,Web頁面每天爆炸式的增長,用戶想找到需要的信息已經變得很困難。目前的Web信息檢索方法主要是基于內容分類目錄和基于關鍵詞搜索的。目錄分類常見于一些門戶網站(如Yahoo!等),主要是通過相關鏈接獲得一些淺層信息。基于關鍵詞搜索是把用戶的查詢請求和Web頁面、文檔中的每一個詞進行比較,只要發現某個網頁中含有這個關鍵字符,就將該網頁作為查詢結果返回給用戶。因此,目前信息檢索的查全率(Recall,也稱召回率,即被找到的信息/全部所需要的信息)和準確率(Precision,即有用的信息/全部查詢結果)難以令人滿意。究其主要原因,是因為對計算機而言,關鍵詞幾乎沒有任何語義,計算機不理解Web頁面中詞語表達的語義及其相互關系,因此檢索的性能還是難以得到本質的提高。

語義檢索是把信息檢索與人工智能技術、自然語言處理技術相結合的檢索技術。它從語義理解的角度分析信息對象與檢索者的檢索請求,是一種基于概念及其相關關系的檢索匹配機制。

對于語義分析技術來說目前正在研究的有多種方法。語義網[2]技術是其中一種,它旨在賦予網頁機器可以理解的語義。在現在的語義萬維網的研究中,機器可理解的語義是通過用本體對數據進行定義、用標準的RDF或OWL語言進行表示、并用邏輯推理的方式進行處理來實現的。這里的核心在于本體。本體是一個來源于哲學領域的概念,它是指關于存在及其規律的學說,后來被引入人工智能領域。一個廣為接受的在人工智能領域中關于本體的定義是:本體是一個關于概念化的明確的規格定義。本體把一組需要處理的概念以及概念之間關系進行了嚴格的邏輯定義。機器因而可以根據這些邏輯定義對概念和關系進行有意義的處理和推理,從而達到機器“理解”了概念和關系符號的目的。自然語言處理技術領域對于文本的語義分析也正在如火如荼的展開。

在信息檢索技術方面已經取得很大進展,著名開源搜索引擎Lucene為研究者提供了一個很好的基礎架構。

本文嘗試Lucene的架構基礎上,使用自然語言處理中的詞類標注技術以及語義網技術進行信息處理,同時相應適當改變Lucene原有的索引結構,從而形成一個具有初步語義信息分析能力的語義信息檢索系統。

在接下來的第二部分中將首先介紹本系統的整體架構,而后在第三部分講述如何對網頁信息進行語義分析,在第四部分討論生成的語義索引的結構。第五部分描述網頁排序算法,最后在第六部分對全文進行總結。

2 系統整體結構

本文設計的語義信息檢索系統的架構如圖1所示。

系統首先對Web頁面進行語義分析。在這個過程當中將使用詞類識別技術及本體技術,中間結果將以owl文件形式表示。而后按照語義索引的格式將語義分析后的頁面文件轉化成索引文件從而形成系統真正需要的索引。在檢索方式上依然采用關鍵字方式的查詢。

3 文本語義分析

對于信息檢索系統來說信息處理是整個系統最核心的部分。在Lucene中只是簡單的將網頁內容分詞,得到了最基本的信息處理單元,但是網頁中大量的語義信息并沒有能夠被系統表示出來,因而在后續的檢索中也無法從語義層面進行檢索。在本文描述的系統中嘗試引入了自然語言處理技術以及本體技術對網頁進行語義分析,本節具體講述如何進行該步。總體的流程如圖2所示,總共分三個步驟:

1)文檔預處理

Web頁面通常含有很多用戶不關心的信息,如廣告鏈接、圖像、版權信息等,通常稱作為噪聲。在建立索引之前,需要將網頁進行清洗,去掉這些噪聲。

2)詞類識別

使用自然語言處理中的詞類識別技術給詞語添加詞類信息,比如原本網頁中有句話:“我的電腦壞”了,那么經過詞類識別之后就可以得到信息:“我/PN,的/DEG,電腦/NN,壞/VA,了/AS”。將原來的詞語序列分割成了5個部分,并分別標注上了詞類。而后將該結果轉化成語義網中的owl格式,這樣做既有利于后續處理,同時與本體推理需要的文件格式相符。

在轉化過程中將每一個分割出來的部分作為一個概念這樣形成一個層次的概念,比如上文中詞類分析后可以提取出“我,的,電腦,壞,了”5個概念,每個概念在文中的一次出現作為該概念的一次實例,每個實例以它在正文中出現的位置為名字,那么就可以形成“我(#0),的(#1),電腦(#2),壞(#4),了(#5)”。而后轉化成owl格式就可以形成

<rdf:RDF>

<owl:Ontology rdf:about=\"\"/>

<owl:Class rdf:ID=\"我\"/>

<owl:Class rdf:ID=\"的\"/>

<owl:Class rdf:ID=\"電腦\"/>

<owl:Class rdf:ID=\"壞\"/>

<owl:Class rdf:ID=\"了\"/>

<電腦 rdf:ID=\"#2\"/>

<壞 rdf:ID=\"#4\"/>

<了 rdf:ID=\"#5\"/>

<的 rdf:ID=\"#1\"/>

<我 rdf:ID=\"#0\"/>

</rdf:RDF>

而詞類作為另一個層面的概念可以按照同樣的方法實例話,那么就可以形成如下的文件片斷:

<rdf:RDF>

<owl:Ontology rdf:about=\"\"/>

<owl:Class rdf:ID=\"PN\"/>

<owl:Class rdf:ID=\"DEG\"/>

<owl:Class rdf:ID=\"NN\"/>

<owl:Class rdf:ID=\"VA\"/>

<owl:Class rdf:ID=\"AS\"/>

<NN rdf:ID=\"#2\"/>

<VA rdf:ID=\"#4\"/>

<AS rdf:ID=\"#5\"/>

<DEG rdf:ID=\"#1\"/>

<PN rdf:ID=\"#0\"/>

</rdf:RDF>

兩者合并,生成文件“http://www.sample.com/sample1.owl“,作為詞類識別處理部分的最終輸出。

3)本體推理

本體是基于本體的語義檢索系統的另一重要部分。它是領域內背景知識的良好表達,通過它可以對已經形式化的實例信息進行推理從而添加更多地語義信息。作為示例本文可以引入簡易的電腦本體,其內容如圖3所示。

在該本體中定義了與電腦有關的6個概念,以及他們的上下位關系,那么通過它可以對第二步詞類識別產生的實例信息進行推理。

在上步產生的實例信息中有這樣一條:

<owl:Class rdf:ID=\"電腦\"/>

<電腦 rdf:ID=\"#2\"/>

定義了“電腦”這個概念有一個名為“#2”的實例。在簡易電腦本體中存在這樣一條公理:

<owl:Class rdf:ID=\"計算機\">

<owl:equivalentClass>

<owl:Class rdf:ID=\"電腦\"/>

</owl:equivalentClass>

</owl:Class>

語義是說“電腦”這個概念與“計算機”這個概念是相等的。那么兩個結合就可以推理得到一條新的陳述

<計算機 rdf:ID=\"#2\"/>

經過該步驟之后最終形成了語義分析的結果。

4 索引結構

在對文本進行語義分析之后,下一步就是利用這些信息生成索引。其基本思想是采用類似lucene的反向索引格式。反向索引是一種以索引項為中心來組織文檔的方式,每個索引項指向一個文檔序列,這個序列中的文檔都包含該索引項。相反,在正向索引中,文檔占據了中心的位置,每個文檔指向了一個它所包含的索引項的序列。你可以利用反向索引輕松的找到那些文檔包含了特定的索引項。在lucene中,最核心的索引文件包括三個:

1)索引項信息文件

這是索引文件里面最核心的一個文件,它存儲了所有的索引項的值以及相關信息,并且以索引項來排序。

2)頻率文件

這個文件包含了包含索引項的文檔的列表,以及索引項在每個文檔中出現的頻率信息。如果lucene在索引項信息文件中發現有索引項和搜索詞相匹配。那么 lucene 就會在頻率文件中找有哪些文件包含了該索引項。

3)位置文件

這個文件包含了索引項在每個文檔中出現的位置信息,你可以利用這些信息來參與對索引結果的排序。它們的關系如圖4所示。

在進行語義分析之后,系統得到的信息比標準的lucene索引結果多了一個詞類,因此,需要修改lucene索引結構,在位置文件中多加入一列信息:詞類。即將位置文件改稱如下表1所示:

5 排序算法

本節講述在接收用戶搜索條件后,系統如何處理并返回檢索結果。

對于搜索引擎來說檢索需要完成兩個工作,首先找到相應于檢索條件的文檔集合,而后要對該集合進行排序。

對于檢索文檔集合可以通過索引項文件中的頻率文件指針找到頻率文件,而后可以在頻率文件中得到文檔集合。

對于排序在lucene中是使用基于頻率的評價標準的,具體的計算方法如式1所示:

式1文檔排序公式其具體解釋如下表2所示:

通過該公式就可以得到每個文檔的得分,從而對文檔集合進行排序。

在進行語義分析之后,系統除了頻率信息,還可以得到每個索引項在文中扮演的角色即詞類。因此可以通過該信息對上面的計算方法進行改進從而提高查準率。

首先,對于用戶輸入的查詢,也同樣做詞類分析,得到待查詢索引項及其詞類。而后將排序公式修改如下:

式2語義文檔排序公式相較于先前的公式,該公式將因子f(tind)修改成了ptf(tind),它代表索引項t在文檔d中以與查詢中相同的詞類出現的頻率。相較于原來公式的索引項t在文檔d中出現的頻率可以更準確地反映文檔的相關度。該值可以通過擴展的頻率文件中的POS字段得到。

6 結束語

語義檢索是把信息檢索與人工智能技術、自然語言處理技術相結合的檢索技術,它從語義理解的角度分析信息對象與檢索者的檢索請求,是一種基于概念及其相關關系的檢索匹配機制。本文嘗試在開源搜索引擎Lucene的基礎上設計了一個語義檢索系統。該設計首先通過使用第三方詞類分析軟件對文本進行分析從而將文本語義化。而后設計了語義索引結構以存儲語義信息。最后在Lucene原有的排序算法基礎之上提出了使用語義信息的排序算法,以期提高查全率和查準率。

參考文獻:

[1] Baader F, Calvanese D, McGuinness L, Nardi D, Fpatel-Schneider P, The Description Logic Handbok Theory, implementation and applications[M].2nd Edition.London:Cambridge University Press,2007.

[2] Eric H, Otis G, Lucene in Action[M], OreillyAssociates, Manning Publishing, 2004.

[3] Jena.A Semantic Web Framework for Java[EB/OL].[2008-08-29].http://jena.sourceforge.net/.

[4] Laclavik M, Seleng M, Gatial E et al..An Ontology - Based Application to Detect, Annotate and Search Web Documents: First results[J].Jawad Bin Husain,2004.

[5] Baeza-Yates R, Ribeiro-Neto B. Modern Information Retrieval[M].北京: 機械工業出版社, 2004.

主站蜘蛛池模板: 国产99免费视频| 99r在线精品视频在线播放| 国产成人av大片在线播放| 久青草国产高清在线视频| 国产高潮视频在线观看| 日本高清视频在线www色| 亚洲天堂区| 久久a级片| 久久精品91麻豆| 午夜视频日本| 77777亚洲午夜久久多人| 国模沟沟一区二区三区| 亚洲Aⅴ无码专区在线观看q| 国产一级在线播放| 91国内在线视频| 亚洲第一黄色网址| 国产欧美日本在线观看| 秋霞午夜国产精品成人片| 欧美日韩国产综合视频在线观看| 欧美日韩精品在线播放| 国产精品第页| 午夜福利网址| 国产全黄a一级毛片| 亚洲第一网站男人都懂| 无码精品国产VA在线观看DVD| 99re这里只有国产中文精品国产精品| 激情综合婷婷丁香五月尤物| 国产综合日韩另类一区二区| 国产毛片不卡| 国产激爽大片高清在线观看| 毛片久久网站小视频| 亚洲综合色在线| 国产99视频精品免费视频7| 无码精品国产dvd在线观看9久| 在线99视频| 丰满人妻久久中文字幕| 九色国产在线| 一级片一区| 国产丝袜第一页| 欧美在线视频不卡| 国产在线八区| 亚洲色图欧美在线| 欧美日韩国产综合视频在线观看| 日韩无码视频专区| 亚洲精品高清视频| 亚洲欧美精品在线| 四虎精品免费久久| 国产福利在线免费观看| 国外欧美一区另类中文字幕| 欧美另类第一页| 在线一级毛片| 久久精品最新免费国产成人| 久久综合丝袜日本网| 香蕉视频在线观看www| 手机成人午夜在线视频| 亚洲清纯自偷自拍另类专区| 国产丝袜丝视频在线观看| 成年午夜精品久久精品| 精品三级网站| 精品自窥自偷在线看| 亚洲日韩精品无码专区97| 激情無極限的亚洲一区免费| 午夜人性色福利无码视频在线观看| 国产手机在线小视频免费观看| 日韩成人在线一区二区| 亚洲天堂日韩在线| 亚洲人成网站在线播放2019| 久久综合国产乱子免费| h网站在线播放| 久久免费精品琪琪| jizz在线观看| 欧美成人在线免费| 在线不卡免费视频| 国产成人h在线观看网站站| 久久久久免费看成人影片| 老司机久久99久久精品播放| 国产精品吹潮在线观看中文 | 国产91精品调教在线播放| 99国产在线视频| 欧美激情首页| 精品成人一区二区三区电影 | 亚洲精品波多野结衣|