999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Lucene的船員在線考試平臺的搜索引擎開發

2014-04-29 18:49:20余項樹
智能計算機與應用 2014年6期

余項樹

摘 要:在項目開發過程中,站內搜索功能是十分重要的。目前常用的全文搜索主要是由各數據庫本身提供支持的,但是在數據量較大的中文網站和對于全文搜索使用很頻繁的系統中,使用基于Lucene的搜索引擎開發的優勢就會變得十分明顯。本文結合在線考試平臺搜索引擎的開發,研究了搜索引擎中索引的建立和優化、索引目錄的查詢和對查詢結果的展示,以及對查詢結果排序的優化。

關鍵詞:Lucene;試題搜索引擎;索引目錄;查詢分析器;排序算法

中圖分類號:TP301 文獻標識碼:A 文章編號:2095-2163(2014)06-

Abstract: In project development process, it is very important for the site search function. The current commonly full-text searches are mainly provided by the database itself, but in Chinese Web sites with large amount of data and the full-text search system used very frequent, search engine based on Lucene will become the advantage of development. Combined with the online examination platform for search engine development, the paper studies establishment and optimization of index in search engine, indexing catalog query and display the results of a query, therefore optimizes the ranking of query results.

Keyword: Lucene; Item Search Engine; Index Catalog; Query-Analyzer; Sort Algorithm

0 引 言

針對“海員在線考試系統”實際設計開發中試題搜索量大這一重要現象,本文提供了有效解決方案。方案思路為:若采用目前常用的由數據庫提供支持的全文搜索勢將增加搜索難度。而經研究可知,對于全文搜索具有高頻使用需求的系統,若使用基于Lucene[1]的搜索引擎,其研發優勢將十分顯著明確。本文即選用Lucene.NET開展搜索引擎的技術研究,結果表明全文搜索的效率獲得了大幅提升。

1 Lucene與數據庫的比較

關于中文的模糊查詢,應用最多的即是類似于like "%keyword%"的結構;但是由于數據庫在設計過程中引入索引并非為了全文索引,因此在使用like "%keyword%"時,數據庫索引將無法啟用,為全文檢索提供數據也必將不復存在。具體地,當使用like查詢時,搜索過程和并未建立索引的數據庫查詢效率是一樣的,即變成了如同一頁頁翻書、一行一行遍歷的過程了,這就使得對于含有模糊查詢的數據庫服務來說,Like對整個數據庫服務性能將產生重大危害,尤其是如果需要同時對多個關鍵詞進行模糊匹配,對于數據庫系統而言將引發災難性后果。綜上可知,建立一個科學、高效的檢索系統,核心關鍵即在于確立一個與科技索引相同的反向索引機制,將數據源(對于海員在線考試系統而言,則為試題的題干)實現順序存儲的同時,還要配備另外一個具有清晰順序的關鍵詞列表,用來存儲“關鍵詞==>文章”之間的映射關系,其映射關系結構如下:

[關鍵詞==>出現此關鍵詞的文章,關鍵詞出現的次數(根據查詢的邏輯關系,甚至還可以包括更詳細的內容如:關鍵詞出現的位置:起始偏移量,結束偏移量),出現頻率]

構建了上述映射關系后,索引檢索就隨之轉換成對映射關系的邏輯處理過程,模糊查詢也將按照分詞而使用戶要查詢的條件劃分為多個可以精確查詢的子查詢、再進行邏輯組合以獲得實現,從而提高了基于多關鍵詞的查詢效率。由此可知,全文檢索在本質上就是一個排序問題。根據上述分析推得,模糊查詢相對數據庫的精確查詢是一個不確定的問題,這也正是大部分數據庫對全文檢索僅為有限支持的癥結所在[2]。

Lucene的內核技術是其特殊的索引結構,借助其即可實現傳統精確查詢數據庫功能上受限的全文索引機制,而且又提供了豐富的擴展接口,從而便于用戶針對不同應用場景的個性定制[3]。在此,綜合兩者的性能比較則如表1所示。

4查詢結果的排序

Lucene缺省是按照本體的相關度算法(score= tf * idf * boost * lengthNorm)進行結果排序的。該排序算法并未考慮到關鍵詞出現位置的權重,例如,出現在標題和在選項部分的權重就是不同的。對于本系統而言,不同章節的重要性則是不同的,而且不同種類的試題重要性也是不同的,但在此算法中卻無法呈現,因此本系統對查詢結果將可按照用戶的要求進行重新排序。

5 線束語

Lucene是一個開放源代碼的全文檢索引擎工具包,其整體是一個全文檢索引擎的架構,并提供了完整的查詢引擎、索引引擎和部分文本分析引擎。利用Lucene為軟件開發人員提供的工具包進行二次開發,便可以在海員在線考試系統中實現全文檢索的功能,從而大大提高全文檢索的效率。

參考文獻:

[1] 管建和,甘劍峰.基于Lucene全文檢索引擎的應用研究與實現[J].計算機工程與設計,2007(2):489-491.

[2]廖繼東.基于DotLucene網站全文搜索系統的實現[D].鄭州:鄭州大學,2007.

[3]劉加發. EBM網絡搜索引擎的研究與實現[D].大連:大連海事大學.2008.

[4]劉平冰.基于Lucene的Web站內信息搜索系統[D].成都:電子科技大學,2005.

[5]雷豐云.智能搜索引擎的理論分析與應用研究[D].長沙:中南大學,2007.

主站蜘蛛池模板: 亚洲精品在线91| 亚洲一区二区约美女探花| 免费人成又黄又爽的视频网站| 日韩福利在线视频| 国产一级在线播放| 亚洲无限乱码一二三四区| 99手机在线视频| 精品无码日韩国产不卡av| 久久熟女AV| 久久久成年黄色视频| 日本三级精品| 亚洲av无码牛牛影视在线二区| 亚洲国产成人综合精品2020| AV在线麻免费观看网站| 亚洲人成在线精品| 狠狠干欧美| 国产精品一区在线麻豆| 国产精品永久免费嫩草研究院| 98超碰在线观看| 在线国产你懂的| 一级不卡毛片| 婷婷五月在线| 亚洲第一av网站| 一级毛片在线播放| 亚洲一区波多野结衣二区三区| 永久免费av网站可以直接看的 | 欧美影院久久| 亚洲一区二区三区香蕉| 亚洲制服丝袜第一页| 亚洲综合九九| 欧美一区二区福利视频| 国模私拍一区二区| 无码高清专区| 97视频免费看| 国产极品美女在线观看| 激情综合网址| 精品视频在线一区| 99在线视频免费观看| 久久99国产精品成人欧美| 色综合色国产热无码一| 国产精品第| 91精品小视频| 污污网站在线观看| 亚洲天堂精品在线观看| 国产免费久久精品99re丫丫一| 国产免费黄| 亚洲国产欧美国产综合久久 | 国产综合精品日本亚洲777| 国产精品尹人在线观看| 国产一区二区三区精品久久呦| 国产95在线 | 国产成人1024精品| 亚洲第一色视频| 伊人无码视屏| 露脸一二三区国语对白| 久久国产精品影院| 男女性色大片免费网站| 日韩av手机在线| 波多野结衣无码AV在线| 国产精品成| 国产精品私拍在线爆乳| 婷婷午夜影院| 韩国v欧美v亚洲v日本v| 国产一区二区三区精品欧美日韩| 四虎永久在线精品影院| 丁香六月综合网| 精品国产网| 日韩无码视频网站| 国产黄视频网站| 亚洲一级毛片| 日本91在线| 精品一区二区三区四区五区| 亚洲不卡av中文在线| 欧美在线中文字幕| 国内老司机精品视频在线播出| 亚洲无限乱码一二三四区| 国产精品hd在线播放| 免费三A级毛片视频| 黄色网址免费在线| 精品偷拍一区二区| 国产成人综合亚洲欧洲色就色| 国产精品无码影视久久久久久久|