999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Lucene.net的檔案垂直搜索引擎的實現

2012-04-29 00:00:00楊文剛
北京檔案 2012年10期

摘要:隨著計算機技術的發展,檔案信息的檢索技術有待提高,垂直搜索引擎作為面向特定主題的搜索引擎,非常適合用來開發專業領域的搜索引擎。介紹了垂直搜索引擎的特點和系統結構,引入了Lucene.net的開源項目,提出了實現基于Lucene.net的檔案垂直搜索引擎的設計方案,給出了搜索引擎系統中采集模塊、索引模塊和檢索模塊的實現方法。

關鍵詞:檔案檢索 垂直搜索引擎 Lucene.net技術

計算機技術和網絡技術的快速發展推動了檔案信息化的發展。但是,我國檔案信息化建設還處于初步發展階段,存在許多問題,一些檔案館只提供檔案目錄的簡單檢索而不能提供智能化或專門用于檔案領域的搜索服務,各類檔案資源成為信息孤島。如何充分利用現有檔案資源,提高檔案利用率成為我們急需解決的問題。搜索引擎作為互聯網發展的核心技術,將互聯網上各種不同格式的網絡資源搜集并整理,挖掘其中大量隱含資源,提供海量數據服務于用戶,在各行各業發揮著重要的作用①。垂直搜索引擎是在普通搜索引擎的基礎上發展而來的,是指專門針對某一特定領域的搜索引擎。檔案垂直搜索引擎就是將搜索引擎技術引入檔案領域,構建面向檔案領域的搜索引擎,該搜索引擎可以大量收集互聯網上檔案相關資源,進行優化整合,提供給用戶具有價值的檔案信息,最大限度的滿足檔案用戶的需求。

一、垂直搜索引擎

搜索引擎一般分為通用搜索引擎和垂直搜索引擎,百度、谷歌、搜狗等均屬于通用搜索引擎,通用搜索引擎是針對互聯網上所有網站的信息進行搜集和檢索,其范圍覆蓋了各個領域和各個行業。垂直搜索引擎是一種特定面向主題的專業搜索引擎,是針對某一特定領域、某一特定人群或某一特定需求,面向某一特定的用戶群體,提供更有價值、更準確的信息服務,是通用搜索引擎的細分和延伸②。與通用搜索引擎相比,垂直搜索引擎具有如下特點:

第一,垂直搜索引擎面向特定的領域,其信息量相對較小,但對其特定領域資源的覆蓋率較高,信息質量較高,保證了搜索引擎對本領域信息搜集的全面性和實時性。

第二,垂直搜索引擎只涉及特定的領域,用語中出現一詞多義的可能性比通用搜索引擎小很多,通過利用特定領域的專業詞庫,可以保證信息檢索的準確性。

第三,網絡爬蟲在采集特定領域的信息后,需要對該信息進行結構化提取,并進行深度處理,這樣就保證了網頁信息抽取的準確性,提高用戶的查詢效率。

二、Lucene.net技術介紹

Lucene.net是一個由c#開發的開源全文索引庫,是從apache的lucene項目移植到.Net平臺上的③。Lucene.net的開源代碼分為核心包和用戶接口包,核心包用來實現搜索功能,用戶接口包來用實現高亮顯示等輔助功能。Lucene.net的核心包是由7個子包組成:

(1) 索引管理包(Lucene.Net.Index):實現索引的建立、刪除和文檔中詞的排序;(2) 檢索管理包(Lucene.Net.Search):利用折半查找進行檢索,返回結果;(3) 數據存儲管理包(Lucene.Net.Store):實現數據存儲等IO操作;(4) 公用算法包(Lucene.Net.Util):封裝了一些常用的函數;(5) 文檔結構包(Lucene.Net.Documents):描述索引存儲中文檔結構的管理和操作;(6) 查詢分析器包(Lucene.Net.QueryParsers):解析查詢串,構成查詢對象,通過檢索器對其調用,返回查詢結果;(7) 語言分析器包(Lucene.Net.Analysis):用于切分放入索引的文檔和查詢詞,可以通過對Analysis進行擴展來實現對自然語言的處理。

三、基于Lucene.net的檔案垂直搜索引擎的設計與實現

1.系統的總體設計

基于Lucene.net的檔案垂直搜索引擎的設計與實現是在windows平臺下進行的,開發工具是Visual Studio 2010和SQL Server 2008數據庫。垂直搜索引擎主要是由采集模塊、索引模塊和檢索模塊組成。系統的總體設計方案如圖1,首先,利用面向檔案的主題爬蟲通過互聯網抓取檔案信息。然后利用分詞工具對抓取的檔案信息進行處理,并建立檔案信息對應的索引。最后,由用戶輸入的關鍵詞,根據已建立的索引進行檢索,并返回查詢結果給用戶。

2.采集模塊

(1)普通的網絡爬蟲是從一些種子站點出發,下載種子URL的網頁,分析網頁中的超鏈接,并遍歷這些超鏈接,在遍歷鏈接下載網頁的同時,提取網頁中有用的信息存儲在本地。這種爬蟲是不適合檔案領域的,因為檔案領域的爬蟲需要搜索的網絡范圍有限,它不需要去搜索整個互聯網,只需要搜索一些指定的檔案網站就可以。所以,數據采集模塊的核心就是建立一個檔案領域的主題爬蟲。該主題爬蟲的實現方法是:(1)預先定義好要從哪些檔案類網站進行信息采集,將要采集檔案網站的URL地址作為初始地址放入到一個專門隊列URL Queue中,該隊列是用來記錄網絡爬蟲需要遍歷訪問的所有URL地址,如上圖(2)。

(2)從爬蟲隊列URLQueue中,提取出隊列的第一個URL地址,并下載該URL地址對應用的網頁。如上圖中的(2)。

(3)網絡爬蟲下載的網頁是以文本格式返回的,文本的內容是含有html標簽的網頁源文件。網頁解析器是將網頁源文件作為字符串,通過定義不同的正則表達式與該字符串進行匹配,并從網頁中提取需要的信息,去掉無關的信息和html標簽。上圖中的(3)就是利用網頁解析器分析下載的網頁,提取網頁中含有的所有超鏈接存入一個用來存儲鏈接地址的列表List中,同時,從網頁中解析出檔案文件的題名、關鍵詞、內容、發布時間、責任者等信息。

(4)將從網頁中解析出的檔案題名、關鍵詞、內容、發布時間、責任者等信息添加到數據采集庫中。在添加數據前,需要對每條檔案數據進行查重,防止相同的數據多次插入數據庫而影響系統的運行效率。如上圖中的(4)。

(5)對于從網頁中提取出來的所有超鏈接,利用Page Rank算法計算每個超鏈接與檔案主題的相關度,鏈接的相關度越高,說明該鏈接指向的網頁越具有較高的價值。通過對每個超鏈接與主題相關度的計算,排除不相關的鏈接,將與主題相關的鏈接加入到網絡爬蟲要訪問的隊列URL Queue中。

循環重復(1)至(5)的步驟,直到爬蟲隊列URLQueue為空的時候,說明網絡爬蟲已經遍歷了所有與檔案主題相關的網頁,同時,相關檔案信息也被采集到了數據庫中。

3.索引模塊

檔案信息被采集到數據庫后,就可以對每條信息建立索引了。建立索引的核心是分詞,分詞的質量會直接影響搜索引擎的搜索速度和搜索精度,由于英文單詞是以空格來分開的,所以英文分詞相對比較容易,而中文分詞就復雜多了,這是因為漢字的排列組合不同,可能使得相同的漢字具有不同的含義,比如“上海”和“海上”雖然由相同的漢字組成,但是其排列方式不同就使得兩個詞匯的含義完全不同。由于Lucene.net提供的中文分詞(CJKTokenizer和ChineseTokenizer)功能較弱,所以應用基于詞庫的分詞方法MMAnalyzer,其分詞原理是建立專業詞庫,并依據詞庫中的詞匯進行分詞處理。這樣做雖然延長了分詞處理時間,卻使得分詞效果更加理想。建立索引的過程如下:

(1)提取采集模塊中采集的數據,返回結構化的數據。如上圖中的(6)。

(2)要對一條數據進行索引,需要將該數據轉化成Lucene.net中的Document格式。如上圖中的(7)。

(3)利用MMAnalyzer分詞工具對Document數據進行分詞,過濾停用詞,建立文檔與關鍵詞的倒排序索引。倒排序索引是相對于正向索引而言的,是指建立關鍵詞到文檔的映射關系,通過單詞來索引文檔。最后,建立文檔的索引到索引庫。如上圖中的(8)。

4.檢索模塊

檢索模塊是根據用戶輸入的關鍵詞,進行分詞處理、過濾處理,并將檢索條件封裝到查詢分析器QueryParse中,通過QueryParse完成檢索,返回查詢結果,查詢結果是與關鍵詞相關的文檔集合,這時文檔的數目可能很大,Lucene.net會按照這些文檔與關鍵詞的相關度由大到小進行排序。,與關鍵詞相關度高的文檔排在搜索結果的前面,所以,在每次檢索的時候,Lucene.net都需要按照關鍵詞對檢索到的所有文檔進行評分,根據分值來判斷文檔與關鍵詞的相關程度。Lucene.net是采用向量空間檢索模型,通過Tf-idf算法來計算關鍵詞與文檔的相關度來給每個文檔進行評分。檢索模塊的具體實現如下:

(1)用戶輸入關鍵詞,如上圖中的(9)

(2)分詞工具對關鍵詞進行分詞切分,停用詞過濾等處理,如上圖中的(10)

(3)將分詞后的詞匯組成查詢條件,封裝到查詢分析器中,如上圖中的(11)

(4)查詢分析器通過與索引庫中的索引進行匹配,檢索得到與關鍵詞匹配的所有文檔,如上圖中的(12)

(5)通過索引模塊中建立的文檔倒排序索引,利用Tf-idf算法對所有匹配文檔進行文檔評分,如上圖中的(13)

(6)按照匹配結果中對每個文檔的評分,對匹配結果進行相關度排序,與關鍵詞相關度高的文檔排在匹配結果的前面,如上圖中的(14)

(7)將經過排序的文檔以Hits對象的方式返回用戶,完成檢索任務,如上圖中的(15)

四、結束語

目前,我國檔案領域的搜索引擎技術還相對滯后,研究和開發檔案垂直搜索引擎意義重大。在Lucene.net全文索引庫的基礎上,開發檔案領域的垂直搜索引擎,有利于快速準確的定位到具有價值的檔案資源,為檔案用戶提供更有效更專業的信息服務。

項目基金:高校青年自然科學基金(52WU1002)基于.Net的電子檔案管理系統開發與利用

注釋:

①王振華.檔案領域垂直搜索技術的研究與實現[D].上海:東華大學,2010

②劉朋.基于lucene的垂直搜索引擎關鍵技術的研究應用[D].武漢:武漢理工大學,2009

③李占波等.基于DotLucene的垂直搜索引擎的研究[J].微計算機信息,2007,23

作者單位:天津師范大學檔案館

主站蜘蛛池模板: 日韩成人在线网站| 欧美一区二区自偷自拍视频| 欧美日韩免费| 天堂网亚洲系列亚洲系列| 秋霞一区二区三区| 亚洲国产精品不卡在线| 免费国产一级 片内射老| 五月激情综合网| 精品国产一区91在线| 日韩东京热无码人妻| 中文字幕人妻av一区二区| 亚洲AⅤ综合在线欧美一区| 青青极品在线| 欧美.成人.综合在线| 好紧好深好大乳无码中文字幕| 99久久精品久久久久久婷婷| 国产亚洲日韩av在线| 亚洲第一成年网| 国产在线一二三区| 2020最新国产精品视频| 91九色视频网| av一区二区人妻无码| 国语少妇高潮| 国产麻豆永久视频| 国产国拍精品视频免费看| 精品成人一区二区三区电影| 一区二区日韩国产精久久| 亚洲精品成人片在线观看| 国内精品免费| 高h视频在线| 国产成+人+综合+亚洲欧美| 久久综合五月| 日韩激情成人| 伊大人香蕉久久网欧美| 久久a毛片| 欧美性色综合网| 国产亚洲欧美在线中文bt天堂| 久久6免费视频| 丝袜国产一区| 91视频99| 免费播放毛片| 欧美日韩第三页| 在线观看视频99| 国产精品永久在线| 国产欧美自拍视频| 久久免费成人| 2020精品极品国产色在线观看| 九九热精品在线视频| 无码丝袜人妻| 婷婷综合亚洲| www中文字幕在线观看| 亚洲香蕉伊综合在人在线| 日本三级精品| 免费在线色| 欧美伦理一区| 美女视频黄频a免费高清不卡| 中日韩一区二区三区中文免费视频| 国产福利免费视频| 国产办公室秘书无码精品| 国产乱子精品一区二区在线观看| AV在线天堂进入| 免费高清a毛片| 67194成是人免费无码| 国产区成人精品视频| 国产精品三级av及在线观看| 欧洲免费精品视频在线| 欧美成人综合视频| jizz亚洲高清在线观看| 无码 在线 在线| 丰满少妇αⅴ无码区| 波多野结衣一二三| 精品欧美一区二区三区在线| 91视频国产高清| 青青热久麻豆精品视频在线观看| 国产电话自拍伊人| 1024你懂的国产精品| 亚洲香蕉在线| 天天色天天操综合网| 亚洲精品第五页| 亚洲精品自在线拍| 狠狠v日韩v欧美v| www.亚洲天堂|