999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于solr的異構(gòu)數(shù)據(jù)融合檢索技術(shù)

2013-04-29 00:04:27梁艷劉雙廣勞定雄
無(wú)線互聯(lián)科技 2013年5期
關(guān)鍵詞:融合

梁艷 劉雙廣 勞定雄

摘 要:針對(duì)企業(yè)異構(gòu)數(shù)據(jù)融合檢索的需求,介紹了異構(gòu)數(shù)據(jù)整合的常用方法和企業(yè)級(jí)搜索服務(wù)器solr的基本功能,結(jié)合xml異構(gòu)數(shù)據(jù)整合、中文分詞技術(shù)和友好的用戶界面搭建了基于solr的異構(gòu)數(shù)據(jù)融合檢索系統(tǒng),實(shí)現(xiàn)了對(duì)xml文件的索引和檢索,為異構(gòu)數(shù)據(jù)融合檢索提供了解決方案。

關(guān)鍵詞:solr;異構(gòu)數(shù)據(jù);XML;融合;檢索

1 背景

互聯(lián)網(wǎng)技術(shù)的發(fā)展,使得信息數(shù)據(jù)爆炸式增長(zhǎng)。特別是在企業(yè)信息中,其非結(jié)構(gòu)數(shù)據(jù)占到了增長(zhǎng)數(shù)據(jù)的80%,包括PDF、word文檔,圖像、音頻和視頻等。企業(yè)在不同的應(yīng)用平臺(tái)擁有不同的檢索系統(tǒng),這給用戶檢索信息帶來(lái)了諸多不便。如何構(gòu)建一個(gè)統(tǒng)一的檢索平臺(tái),使得用戶在海量的異構(gòu)數(shù)據(jù)中實(shí)現(xiàn)統(tǒng)一檢索,一直是研究人員研究的熱點(diǎn)。

2 異構(gòu)數(shù)據(jù)融合技術(shù)

異構(gòu)數(shù)據(jù)是指數(shù)據(jù)格式不同,內(nèi)容不一,描述不同內(nèi)容的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)(如數(shù)據(jù)庫(kù))、半結(jié)構(gòu)化數(shù)據(jù)(如HTML、XML)和非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖片)[1]。數(shù)據(jù)的統(tǒng)一訪問(wèn)的基礎(chǔ)在于數(shù)據(jù)融合集成,目前對(duì)于解決異構(gòu)數(shù)據(jù)融合的研究有數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)抽取和數(shù)據(jù)轉(zhuǎn)換。

數(shù)據(jù)倉(cāng)庫(kù)是指不同來(lái)源的數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,轉(zhuǎn)換為統(tǒng)一的格式為復(fù)雜的查詢提供統(tǒng)一的視圖,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一訪問(wèn)[2]。其代表性的成果是ETL集成工具,ETL[3]允許提取、轉(zhuǎn)換和加載異構(gòu)數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)中和實(shí)現(xiàn)數(shù)據(jù)遷移任務(wù)。但數(shù)據(jù)倉(cāng)庫(kù)主要是針對(duì)不同數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)的整合,很難應(yīng)用于非結(jié)構(gòu)化數(shù)據(jù)的集成、實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一訪問(wèn)[4]。

數(shù)據(jù)抽取是指將無(wú)結(jié)構(gòu)的的文本結(jié)構(gòu)化處理,即輸入原始文本輸出固定格式[5]。部分?jǐn)?shù)據(jù)庫(kù)管理系統(tǒng)自帶有數(shù)據(jù)抽取工具,能夠低成本的解決異構(gòu)數(shù)據(jù)整合問(wèn)題,但在實(shí)際應(yīng)用中有一定的局限性。

XML整合是數(shù)據(jù)轉(zhuǎn)換技術(shù)的代表,即將各種異構(gòu)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的xml文本格式,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)整合。XML(eXtensible Markup Language,擴(kuò)展標(biāo)記語(yǔ)言)是互聯(lián)網(wǎng)下的一個(gè)關(guān)鍵技術(shù),它能很好地實(shí)現(xiàn)來(lái)源極端異構(gòu)的數(shù)據(jù)描述和傳輸。XML能獨(dú)立于應(yīng)用系統(tǒng),不受任何特殊的軟件或者硬件平臺(tái)限制,并且這些數(shù)據(jù)能重復(fù)使用,簡(jiǎn)單易懂,成為交換各種結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化信息的良好方式[6]。因此,采用XML文檔作為底層數(shù)據(jù)的融合與集成技術(shù),實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)源間數(shù)據(jù)共享并且更有效地利用信息資源。XML整合數(shù)據(jù)的一般模型為下圖一所示:

3 solr搜索引擎

3.1 solr簡(jiǎn)介

Solr(Searching on Lucene Replication)[7]是Apache軟件基金會(huì)下的一個(gè)開(kāi)源子項(xiàng)目,它是一個(gè)高性能的、采用java5開(kāi)發(fā)的、基于lucene全文搜索庫(kù)的企業(yè)搜索服務(wù)器。提供了比Lucene更為豐富的查詢語(yǔ)言,同時(shí)實(shí)現(xiàn)了可配置、可擴(kuò)展并對(duì)查詢性能進(jìn)行了優(yōu)化,并且提供了一個(gè)完善的功能管理界面,是一款非常優(yōu)秀的全文搜索引擎。

3.2 solr體系架構(gòu)

Solr的系統(tǒng)結(jié)構(gòu)圖[8]如圖2所示,solr主要分為3層,solr在lucene的基礎(chǔ)上進(jìn)行了大量的改進(jìn),其中solr的底層為對(duì)lucene一些功能的改進(jìn)封裝。中間層為solr的核心層,搜索引擎的主要功能都是在這一層實(shí)現(xiàn)的,包括對(duì)文檔進(jìn)行分析、建立索引、配置solr運(yùn)行文件和保存索引文件等。最頂層包括HTTP接口,負(fù)責(zé)通過(guò)HTTP傳入和返回XML文檔;管理界面和索引更新模塊。另外,索引復(fù)制功能是一個(gè)獨(dú)立的模塊,它是由一個(gè)主索引和多個(gè)從索引構(gòu)成,從索引從主索引復(fù)制索引,主索引負(fù)責(zé)更新索引,從索引復(fù)制同步索引和查詢,一個(gè)主索引可以復(fù)制索引到多個(gè)從索引庫(kù)。索引復(fù)制功能主要用于分布式索引和檢索[8]。

3.3 solr的特性

⑴靈活性。Solr支持從數(shù)據(jù)庫(kù)、web頁(yè)面和文本中直接導(dǎo)入數(shù)據(jù),進(jìn)行索引。它的索引方法非常簡(jiǎn)單,用POST方法向服務(wù)器發(fā)送一個(gè)請(qǐng)求,就可完成索引;并且solr的索引文件與lucene完全兼容;Solr的靈活性還體現(xiàn)在可以根據(jù)需求靈活的修改配置文件,定義字段類型以及是否被索引、存儲(chǔ)。

⑵異構(gòu)性。Solr作為企業(yè)級(jí)搜索服務(wù)器,它最大的特點(diǎn)就是提供了對(duì)異構(gòu)系統(tǒng)的整合,解決了企業(yè)搜索的一大難題。Solr它提供了基于HTTP的標(biāo)準(zhǔn)XML和JSON接口,能對(duì)XML文件直接建立索引。solr還提供了DIH(DataImportHandler),用來(lái)從其他的異構(gòu)系統(tǒng)批量導(dǎo)入數(shù)據(jù)的批處理器。

⑶可擴(kuò)展性。Solr在頂端定義了一些對(duì)外的抽象接口,開(kāi)發(fā)者可以將自己定義的模塊功能添加到solr中,而只需要修改相應(yīng)的配置文件就可以將相應(yīng)的功能添加進(jìn)去。

4 異構(gòu)數(shù)據(jù)融合檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

4.1 系統(tǒng)架構(gòu)

異構(gòu)數(shù)據(jù)融合檢索系統(tǒng)需要實(shí)現(xiàn):

⑴從各數(shù)據(jù)庫(kù)中提取數(shù)據(jù)信息,并轉(zhuǎn)換為相應(yīng)的xml文件,即完成數(shù)據(jù)爬蟲功能;

⑵采用solr對(duì)xml文件創(chuàng)建索引;

⑶友好的用戶界面,實(shí)現(xiàn)響應(yīng)用戶的搜索請(qǐng)求,返回結(jié)果。

異構(gòu)數(shù)據(jù)融合檢索系統(tǒng)框圖如圖3所示,爬蟲模塊完成提取數(shù)據(jù)的xml文件,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的融合;solr索引模塊需加入中文分詞功能,完成對(duì)xml文件的索引;用戶界面模塊需要完成接受用戶的查詢請(qǐng)并且高亮顯示,加上solr查詢結(jié)果默認(rèn)是以xml文件顯示的,還需要實(shí)現(xiàn)xml文件與原數(shù)據(jù)庫(kù)的關(guān)聯(lián)顯示。

4.2 異構(gòu)數(shù)據(jù)抓取

為了實(shí)現(xiàn)異構(gòu)數(shù)據(jù)整合,本文采取將所有異構(gòu)數(shù)據(jù)源轉(zhuǎn)換為xml文件。本文具體采用Dom4j開(kāi)源庫(kù)提供的類和函數(shù)來(lái)生成xml文件。部分代碼如下:

4.3 solr系統(tǒng)實(shí)現(xiàn)

⑴solr的安裝。Solr是apache的開(kāi)源項(xiàng)目,需安裝在JDK和servlet容器(如tomcat)的基礎(chǔ)上。安裝好JDK和tomcat后,在官網(wǎng)下載solr安裝文件,解壓到當(dāng)前目錄。復(fù)制solr的dist目錄下的war文件到tomcat的webapps目錄下,并重命名為solr.war。復(fù)制solr的example目錄下的solr文件到指定目錄下,并把該目錄設(shè)置為solr.home。solr安裝完成后,訪問(wèn)solr的管理界面http://localhost:8080/solr/,如出現(xiàn)solr的系統(tǒng)管理界面,則配置成功。Solr的管理界面如圖4所示。

⑵中文分詞。Solr只能提供簡(jiǎn)單的中分分詞效果,為了提高異構(gòu)數(shù)據(jù)檢索系統(tǒng)的檢索精準(zhǔn)度,需要為solr添加中文分詞器,本文選擇IKAnalyzer作為solr的中文分詞器。在官網(wǎng)下載IKAnalyzer安裝包,解壓到本地目錄,并將IKAnalyzer2012FF_u1.jar、IKAnalyzer.cfg.xml、stopword.dic文件添加到tomcat\webapps\solr\WEB-INF\lib 文件中。最后,修改schema.xml文檔中的內(nèi)容。具⑶元數(shù)據(jù)定義標(biāo)準(zhǔn)。在進(jìn)行xml文件索引之前,需要在schema.xml文件中定義元數(shù)據(jù)字段,包括字段名稱、字段類型和和是否索引、存儲(chǔ)等信息。Solr對(duì)文件索引一定要定義唯一標(biāo)示符uniquekey,一般將id字段設(shè)置為唯一標(biāo)示符。為了實(shí)現(xiàn)不加字段名搜索,還需要配置默認(rèn)搜索字段defaultSearchField,若需多個(gè)默認(rèn)搜索字段,可將其余字段復(fù)制到defaultSearchField設(shè)置的默認(rèn)字段中。具體配置如下:

⑷用戶界面。設(shè)計(jì)用于界面時(shí)要求美觀大方,它的主要功能有接受用戶的查詢輸入,提交給solr,查詢后在返回和顯示查詢結(jié)果。在瀏覽器中輸入http://localhost:8080/search 將顯示系統(tǒng)主頁(yè),如圖5所示,檢索結(jié)果如圖6所示。

5 結(jié)束語(yǔ)

Solr作為一種開(kāi)源的搜索引擎,為企業(yè)搭建融合搜索提供了可能。本文在solr基礎(chǔ)上進(jìn)行二次開(kāi)發(fā),搭建了異構(gòu)數(shù)據(jù)檢索系統(tǒng)。本文的主要工作如下:完成了數(shù)據(jù)融合,將異構(gòu)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的xml格式;對(duì)solr進(jìn)行相關(guān)研究,搭建了solr檢索系統(tǒng);編寫了用戶友好界面。

該系統(tǒng)目前還存在一些問(wèn)題,如對(duì)查詢結(jié)果重排問(wèn)題、分布式索引檢索問(wèn)題,接下來(lái)需要考慮系統(tǒng)存在的不足對(duì)其改進(jìn)優(yōu)化,以提高系統(tǒng)的實(shí)用性和整體性能。

[參考文獻(xiàn)]

[1]柏永斌,許利亞,馮震宇,黃愛(ài)軍.基于XML和WebService的異構(gòu)數(shù)據(jù)整合技術(shù)應(yīng)用研究[J].數(shù)據(jù)庫(kù)與信息管理.2009(8):1796-1797.

[2]趙軍,王國(guó)胤,吳中福,李華.數(shù)據(jù)倉(cāng)庫(kù)及其實(shí)現(xiàn)[J].數(shù)字通信,2000(8):35-38.

[3]A.Albrecht,METL:Managing and Integrating ETL Processes,[C] VLDB09, 6p: 24-28, 2009, August,Lyon, France.

[4]楊岳.非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一訪問(wèn)平臺(tái)及索引技術(shù)研究[D].解放軍信息工程大學(xué)碩士論文,2010:9-11.

[5]劉桂峰.Deep Web數(shù)據(jù)抽取及集成技術(shù)研究[D].蘇州大學(xué)碩士論文.2009:7-9.

[6]魏東平,潘向陽(yáng).基于XML的異構(gòu)數(shù)據(jù)的整合與集成模式探討[J].內(nèi)蒙古科技與經(jīng)濟(jì) 2004:87-88.

[7]http://code.google.com/p/ik-analyzer/.

[8]陳波.基于開(kāi)源全文檢索系統(tǒng)Solr的OPAC分面瀏覽[J].現(xiàn)代圖書情報(bào)技術(shù),2007(11):72-75.

猜你喜歡
融合
一次函數(shù)“四融合”
兩個(gè)壓縮體融合為一個(gè)壓縮體的充分必要條件
村企黨建聯(lián)建融合共贏
融合菜
寬窄融合便攜箱TPFS500
寬窄融合便攜箱IPFS500
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
寬窄融合便攜箱IPFS500
《融合》
“四心融合”架起頤養(yǎng)“幸福橋”
主站蜘蛛池模板: 亚洲欧美日韩成人在线| 亚洲无码电影| 国产精品人成在线播放| 国产一区三区二区中文在线| 丁香婷婷久久| 香蕉eeww99国产精选播放| 2020亚洲精品无码| 欧美另类第一页| 日韩经典精品无码一区二区| 日本三区视频| 久久伊人操| 国产精品一区在线观看你懂的| 久久久久国色AV免费观看性色| 色综合中文综合网| 性色一区| 午夜啪啪福利| 精品综合久久久久久97超人| 国产黑丝视频在线观看| 日韩视频精品在线| 国产欧美精品午夜在线播放| 2021无码专区人妻系列日韩| 久久伊人久久亚洲综合| 亚洲欧洲日产国产无码AV| 亚欧乱色视频网站大全| 五月天天天色| 日本一本正道综合久久dvd| 无码高潮喷水专区久久| 国产欧美高清| 国产精品黄色片| 久久久精品久久久久三级| 欧美性天天| 欧美日韩一区二区在线免费观看| 国产又爽又黄无遮挡免费观看| 亚洲国产成熟视频在线多多| 亚洲欧洲日韩国产综合在线二区| 亚洲午夜18| 九九精品在线观看| 亚洲国产天堂久久综合226114| 亚洲中文制服丝袜欧美精品| 一级做a爰片久久毛片毛片| 国产 日韩 欧美 第二页| 国产精品九九视频| 亚洲一本大道在线| 高清国产va日韩亚洲免费午夜电影| 国产不卡国语在线| 国产成人综合久久| 四虎亚洲精品| 老司机午夜精品视频你懂的| 尤物视频一区| 欧美黑人欧美精品刺激| 欧美综合成人| 国产免费怡红院视频| 国产精品久久久久久久伊一| 国产97视频在线| 国产欧美日韩va| 精品91在线| 91最新精品视频发布页| 日韩专区欧美| 91精品久久久久久无码人妻| 亚洲国产综合精品一区| 久久精品无码一区二区国产区| 成人国产小视频| 亚洲第一区在线| 91精品网站| 免费不卡视频| 国产成人狂喷潮在线观看2345| 欧美色综合网站| 亚洲一区第一页| 人妻丰满熟妇AV无码区| 97国产在线观看| 日本高清有码人妻| 在线无码av一区二区三区| 国产精品无码作爱| 亚洲第七页| 亚洲美女一级毛片| 国产一线在线| 国产午夜无码专区喷水| 精品国产网| 全部免费特黄特色大片视频| 亚洲福利片无码最新在线播放| 国产伦片中文免费观看| 99热国产在线精品99|