999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于solr的異構(gòu)數(shù)據(jù)融合檢索技術(shù)

2013-04-29 00:04:27梁艷劉雙廣勞定雄
無(wú)線互聯(lián)科技 2013年5期
關(guān)鍵詞:融合

梁艷 劉雙廣 勞定雄

摘 要:針對(duì)企業(yè)異構(gòu)數(shù)據(jù)融合檢索的需求,介紹了異構(gòu)數(shù)據(jù)整合的常用方法和企業(yè)級(jí)搜索服務(wù)器solr的基本功能,結(jié)合xml異構(gòu)數(shù)據(jù)整合、中文分詞技術(shù)和友好的用戶界面搭建了基于solr的異構(gòu)數(shù)據(jù)融合檢索系統(tǒng),實(shí)現(xiàn)了對(duì)xml文件的索引和檢索,為異構(gòu)數(shù)據(jù)融合檢索提供了解決方案。

關(guān)鍵詞:solr;異構(gòu)數(shù)據(jù);XML;融合;檢索

1 背景

互聯(lián)網(wǎng)技術(shù)的發(fā)展,使得信息數(shù)據(jù)爆炸式增長(zhǎng)。特別是在企業(yè)信息中,其非結(jié)構(gòu)數(shù)據(jù)占到了增長(zhǎng)數(shù)據(jù)的80%,包括PDF、word文檔,圖像、音頻和視頻等。企業(yè)在不同的應(yīng)用平臺(tái)擁有不同的檢索系統(tǒng),這給用戶檢索信息帶來(lái)了諸多不便。如何構(gòu)建一個(gè)統(tǒng)一的檢索平臺(tái),使得用戶在海量的異構(gòu)數(shù)據(jù)中實(shí)現(xiàn)統(tǒng)一檢索,一直是研究人員研究的熱點(diǎn)。

2 異構(gòu)數(shù)據(jù)融合技術(shù)

異構(gòu)數(shù)據(jù)是指數(shù)據(jù)格式不同,內(nèi)容不一,描述不同內(nèi)容的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)(如數(shù)據(jù)庫(kù))、半結(jié)構(gòu)化數(shù)據(jù)(如HTML、XML)和非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖片)[1]。數(shù)據(jù)的統(tǒng)一訪問(wèn)的基礎(chǔ)在于數(shù)據(jù)融合集成,目前對(duì)于解決異構(gòu)數(shù)據(jù)融合的研究有數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)抽取和數(shù)據(jù)轉(zhuǎn)換。

數(shù)據(jù)倉(cāng)庫(kù)是指不同來(lái)源的數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,轉(zhuǎn)換為統(tǒng)一的格式為復(fù)雜的查詢提供統(tǒng)一的視圖,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一訪問(wèn)[2]。其代表性的成果是ETL集成工具,ETL[3]允許提取、轉(zhuǎn)換和加載異構(gòu)數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)中和實(shí)現(xiàn)數(shù)據(jù)遷移任務(wù)。但數(shù)據(jù)倉(cāng)庫(kù)主要是針對(duì)不同數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)的整合,很難應(yīng)用于非結(jié)構(gòu)化數(shù)據(jù)的集成、實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一訪問(wèn)[4]。

數(shù)據(jù)抽取是指將無(wú)結(jié)構(gòu)的的文本結(jié)構(gòu)化處理,即輸入原始文本輸出固定格式[5]。部分?jǐn)?shù)據(jù)庫(kù)管理系統(tǒng)自帶有數(shù)據(jù)抽取工具,能夠低成本的解決異構(gòu)數(shù)據(jù)整合問(wèn)題,但在實(shí)際應(yīng)用中有一定的局限性。

XML整合是數(shù)據(jù)轉(zhuǎn)換技術(shù)的代表,即將各種異構(gòu)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的xml文本格式,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)整合。XML(eXtensible Markup Language,擴(kuò)展標(biāo)記語(yǔ)言)是互聯(lián)網(wǎng)下的一個(gè)關(guān)鍵技術(shù),它能很好地實(shí)現(xiàn)來(lái)源極端異構(gòu)的數(shù)據(jù)描述和傳輸。XML能獨(dú)立于應(yīng)用系統(tǒng),不受任何特殊的軟件或者硬件平臺(tái)限制,并且這些數(shù)據(jù)能重復(fù)使用,簡(jiǎn)單易懂,成為交換各種結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化信息的良好方式[6]。因此,采用XML文檔作為底層數(shù)據(jù)的融合與集成技術(shù),實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)源間數(shù)據(jù)共享并且更有效地利用信息資源。XML整合數(shù)據(jù)的一般模型為下圖一所示:

3 solr搜索引擎

3.1 solr簡(jiǎn)介

Solr(Searching on Lucene Replication)[7]是Apache軟件基金會(huì)下的一個(gè)開(kāi)源子項(xiàng)目,它是一個(gè)高性能的、采用java5開(kāi)發(fā)的、基于lucene全文搜索庫(kù)的企業(yè)搜索服務(wù)器。提供了比Lucene更為豐富的查詢語(yǔ)言,同時(shí)實(shí)現(xiàn)了可配置、可擴(kuò)展并對(duì)查詢性能進(jìn)行了優(yōu)化,并且提供了一個(gè)完善的功能管理界面,是一款非常優(yōu)秀的全文搜索引擎。

3.2 solr體系架構(gòu)

Solr的系統(tǒng)結(jié)構(gòu)圖[8]如圖2所示,solr主要分為3層,solr在lucene的基礎(chǔ)上進(jìn)行了大量的改進(jìn),其中solr的底層為對(duì)lucene一些功能的改進(jìn)封裝。中間層為solr的核心層,搜索引擎的主要功能都是在這一層實(shí)現(xiàn)的,包括對(duì)文檔進(jìn)行分析、建立索引、配置solr運(yùn)行文件和保存索引文件等。最頂層包括HTTP接口,負(fù)責(zé)通過(guò)HTTP傳入和返回XML文檔;管理界面和索引更新模塊。另外,索引復(fù)制功能是一個(gè)獨(dú)立的模塊,它是由一個(gè)主索引和多個(gè)從索引構(gòu)成,從索引從主索引復(fù)制索引,主索引負(fù)責(zé)更新索引,從索引復(fù)制同步索引和查詢,一個(gè)主索引可以復(fù)制索引到多個(gè)從索引庫(kù)。索引復(fù)制功能主要用于分布式索引和檢索[8]。

3.3 solr的特性

⑴靈活性。Solr支持從數(shù)據(jù)庫(kù)、web頁(yè)面和文本中直接導(dǎo)入數(shù)據(jù),進(jìn)行索引。它的索引方法非常簡(jiǎn)單,用POST方法向服務(wù)器發(fā)送一個(gè)請(qǐng)求,就可完成索引;并且solr的索引文件與lucene完全兼容;Solr的靈活性還體現(xiàn)在可以根據(jù)需求靈活的修改配置文件,定義字段類型以及是否被索引、存儲(chǔ)。

⑵異構(gòu)性。Solr作為企業(yè)級(jí)搜索服務(wù)器,它最大的特點(diǎn)就是提供了對(duì)異構(gòu)系統(tǒng)的整合,解決了企業(yè)搜索的一大難題。Solr它提供了基于HTTP的標(biāo)準(zhǔn)XML和JSON接口,能對(duì)XML文件直接建立索引。solr還提供了DIH(DataImportHandler),用來(lái)從其他的異構(gòu)系統(tǒng)批量導(dǎo)入數(shù)據(jù)的批處理器。

⑶可擴(kuò)展性。Solr在頂端定義了一些對(duì)外的抽象接口,開(kāi)發(fā)者可以將自己定義的模塊功能添加到solr中,而只需要修改相應(yīng)的配置文件就可以將相應(yīng)的功能添加進(jìn)去。

4 異構(gòu)數(shù)據(jù)融合檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

4.1 系統(tǒng)架構(gòu)

異構(gòu)數(shù)據(jù)融合檢索系統(tǒng)需要實(shí)現(xiàn):

⑴從各數(shù)據(jù)庫(kù)中提取數(shù)據(jù)信息,并轉(zhuǎn)換為相應(yīng)的xml文件,即完成數(shù)據(jù)爬蟲功能;

⑵采用solr對(duì)xml文件創(chuàng)建索引;

⑶友好的用戶界面,實(shí)現(xiàn)響應(yīng)用戶的搜索請(qǐng)求,返回結(jié)果。

異構(gòu)數(shù)據(jù)融合檢索系統(tǒng)框圖如圖3所示,爬蟲模塊完成提取數(shù)據(jù)的xml文件,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的融合;solr索引模塊需加入中文分詞功能,完成對(duì)xml文件的索引;用戶界面模塊需要完成接受用戶的查詢請(qǐng)并且高亮顯示,加上solr查詢結(jié)果默認(rèn)是以xml文件顯示的,還需要實(shí)現(xiàn)xml文件與原數(shù)據(jù)庫(kù)的關(guān)聯(lián)顯示。

4.2 異構(gòu)數(shù)據(jù)抓取

為了實(shí)現(xiàn)異構(gòu)數(shù)據(jù)整合,本文采取將所有異構(gòu)數(shù)據(jù)源轉(zhuǎn)換為xml文件。本文具體采用Dom4j開(kāi)源庫(kù)提供的類和函數(shù)來(lái)生成xml文件。部分代碼如下:

4.3 solr系統(tǒng)實(shí)現(xiàn)

⑴solr的安裝。Solr是apache的開(kāi)源項(xiàng)目,需安裝在JDK和servlet容器(如tomcat)的基礎(chǔ)上。安裝好JDK和tomcat后,在官網(wǎng)下載solr安裝文件,解壓到當(dāng)前目錄。復(fù)制solr的dist目錄下的war文件到tomcat的webapps目錄下,并重命名為solr.war。復(fù)制solr的example目錄下的solr文件到指定目錄下,并把該目錄設(shè)置為solr.home。solr安裝完成后,訪問(wèn)solr的管理界面http://localhost:8080/solr/,如出現(xiàn)solr的系統(tǒng)管理界面,則配置成功。Solr的管理界面如圖4所示。

⑵中文分詞。Solr只能提供簡(jiǎn)單的中分分詞效果,為了提高異構(gòu)數(shù)據(jù)檢索系統(tǒng)的檢索精準(zhǔn)度,需要為solr添加中文分詞器,本文選擇IKAnalyzer作為solr的中文分詞器。在官網(wǎng)下載IKAnalyzer安裝包,解壓到本地目錄,并將IKAnalyzer2012FF_u1.jar、IKAnalyzer.cfg.xml、stopword.dic文件添加到tomcat\webapps\solr\WEB-INF\lib 文件中。最后,修改schema.xml文檔中的內(nèi)容。具⑶元數(shù)據(jù)定義標(biāo)準(zhǔn)。在進(jìn)行xml文件索引之前,需要在schema.xml文件中定義元數(shù)據(jù)字段,包括字段名稱、字段類型和和是否索引、存儲(chǔ)等信息。Solr對(duì)文件索引一定要定義唯一標(biāo)示符uniquekey,一般將id字段設(shè)置為唯一標(biāo)示符。為了實(shí)現(xiàn)不加字段名搜索,還需要配置默認(rèn)搜索字段defaultSearchField,若需多個(gè)默認(rèn)搜索字段,可將其余字段復(fù)制到defaultSearchField設(shè)置的默認(rèn)字段中。具體配置如下:

⑷用戶界面。設(shè)計(jì)用于界面時(shí)要求美觀大方,它的主要功能有接受用戶的查詢輸入,提交給solr,查詢后在返回和顯示查詢結(jié)果。在瀏覽器中輸入http://localhost:8080/search 將顯示系統(tǒng)主頁(yè),如圖5所示,檢索結(jié)果如圖6所示。

5 結(jié)束語(yǔ)

Solr作為一種開(kāi)源的搜索引擎,為企業(yè)搭建融合搜索提供了可能。本文在solr基礎(chǔ)上進(jìn)行二次開(kāi)發(fā),搭建了異構(gòu)數(shù)據(jù)檢索系統(tǒng)。本文的主要工作如下:完成了數(shù)據(jù)融合,將異構(gòu)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的xml格式;對(duì)solr進(jìn)行相關(guān)研究,搭建了solr檢索系統(tǒng);編寫了用戶友好界面。

該系統(tǒng)目前還存在一些問(wèn)題,如對(duì)查詢結(jié)果重排問(wèn)題、分布式索引檢索問(wèn)題,接下來(lái)需要考慮系統(tǒng)存在的不足對(duì)其改進(jìn)優(yōu)化,以提高系統(tǒng)的實(shí)用性和整體性能。

[參考文獻(xiàn)]

[1]柏永斌,許利亞,馮震宇,黃愛(ài)軍.基于XML和WebService的異構(gòu)數(shù)據(jù)整合技術(shù)應(yīng)用研究[J].數(shù)據(jù)庫(kù)與信息管理.2009(8):1796-1797.

[2]趙軍,王國(guó)胤,吳中福,李華.數(shù)據(jù)倉(cāng)庫(kù)及其實(shí)現(xiàn)[J].數(shù)字通信,2000(8):35-38.

[3]A.Albrecht,METL:Managing and Integrating ETL Processes,[C] VLDB09, 6p: 24-28, 2009, August,Lyon, France.

[4]楊岳.非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一訪問(wèn)平臺(tái)及索引技術(shù)研究[D].解放軍信息工程大學(xué)碩士論文,2010:9-11.

[5]劉桂峰.Deep Web數(shù)據(jù)抽取及集成技術(shù)研究[D].蘇州大學(xué)碩士論文.2009:7-9.

[6]魏東平,潘向陽(yáng).基于XML的異構(gòu)數(shù)據(jù)的整合與集成模式探討[J].內(nèi)蒙古科技與經(jīng)濟(jì) 2004:87-88.

[7]http://code.google.com/p/ik-analyzer/.

[8]陳波.基于開(kāi)源全文檢索系統(tǒng)Solr的OPAC分面瀏覽[J].現(xiàn)代圖書情報(bào)技術(shù),2007(11):72-75.

猜你喜歡
融合
一次函數(shù)“四融合”
兩個(gè)壓縮體融合為一個(gè)壓縮體的充分必要條件
村企黨建聯(lián)建融合共贏
融合菜
寬窄融合便攜箱TPFS500
寬窄融合便攜箱IPFS500
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
寬窄融合便攜箱IPFS500
《融合》
“四心融合”架起頤養(yǎng)“幸福橋”
主站蜘蛛池模板: 亚洲高清国产拍精品26u| 欧美日韩国产成人高清视频| jizz亚洲高清在线观看| 在线欧美日韩国产| 免费看一级毛片波多结衣| jijzzizz老师出水喷水喷出| 日韩无码视频专区| 国内黄色精品| 天天色综网| 国产主播一区二区三区| 激情视频综合网| 亚洲视频在线观看免费视频| 国产免费a级片| 日韩精品毛片| 东京热高清无码精品| 免费女人18毛片a级毛片视频| 国内精品九九久久久精品| 日韩在线网址| 亚洲国产精品日韩av专区| 亚洲天堂成人| 国产成人久久综合一区| 日韩麻豆小视频| a级毛片免费网站| 日韩美女福利视频| 亚洲无码视频喷水| 日韩在线永久免费播放| 亚洲日韩精品综合在线一区二区| 无码专区第一页| 亚洲天堂伊人| 亚洲色图欧美激情| 天堂岛国av无码免费无禁网站| 精品乱码久久久久久久| 亚洲国产av无码综合原创国产| 大学生久久香蕉国产线观看| 91视频区| 好吊妞欧美视频免费| 欧美国产日韩在线播放| 日韩精品亚洲人旧成在线| 亚洲第一成年免费网站| 亚洲va欧美va国产综合下载| 在线观看免费AV网| 日本成人不卡视频| 精品福利一区二区免费视频| 国产在线无码av完整版在线观看| 热99re99首页精品亚洲五月天| 欧美日韩中文字幕在线| 国产69囗曝护士吞精在线视频 | 亚洲综合色区在线播放2019 | 丝袜久久剧情精品国产| 在线观看的黄网| h网站在线播放| 亚洲愉拍一区二区精品| 欧美精品在线视频观看| 亚洲精品无码日韩国产不卡| 91啪在线| 色欲色欲久久综合网| 精品无码视频在线观看| 欧美午夜在线播放| 国产又粗又爽视频| 99在线观看免费视频| 国产精品综合久久久| 久久国产精品嫖妓| 亚洲精品午夜天堂网页| 国产一在线| 99国产精品一区二区| 欧美午夜视频在线| 久久精品人妻中文系列| 亚洲精品黄| 亚洲综合片| 久久精品亚洲专区| www欧美在线观看| 91无码人妻精品一区| 国产呦视频免费视频在线观看| 99偷拍视频精品一区二区| 欧美乱妇高清无乱码免费| 又粗又大又爽又紧免费视频| 国产噜噜在线视频观看| 日本人妻丰满熟妇区| 国产精品永久在线| 91无码国产视频| 久久一本精品久久久ー99| 99久久无色码中文字幕|