999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SES通用爬行器的設計與實現

2011-06-08 03:35:12文必龍
關鍵詞:搜索引擎內容用戶

文必龍,葉 靜

(東北石油大學計算機與信息技術學院,黑龍江 大慶 163318)

信息社會的快速發展使得信息的容量達到了空前的高度.在大部分行業中,企業內容每年增加一倍以上.重要而敏感的內容遍及各處,它們存在于企業的數據庫中,電子郵件的附件中,專用內容管理服務器中、分布式文件系統或私人工作區中,以及內部網和面向公眾的網站中.用戶需要有效的企業搜索,將分布各處的信息轉化為運營優勢,企業搜索引擎[1]成為研究熱點.企業搜索引擎與因特網搜索引擎比較具有其特殊的特性[2]:企業搜索引擎需要面向企業網,對企業內部的信息資源進行搜索;因特網搜索引擎的搜索對象是網頁和多媒體文件,而企業搜索引擎可以對企業數據庫進行搜索;因特網搜索的內容和展現的信息都是完全開放,不存在安全性問題,但企業的數據涉及企業的核心利益,要求具有很高的保密性;因特網搜索和展現的內容都是網頁和文件的原始形態,但企業數據庫中的數據有的是以編碼形式保存,需要進行專門的語義處理和代碼轉換,變成用戶能讀懂的文字、圖形和報表等方式.

數據采集[3]是搜索引擎工作的第一步,只有相關的信息被爬行器抓取到才能進行下一步的數據分析工作.由于企業搜索引擎素要處理的信息[4]包括了大量的異構數據庫和異構文檔,需要對不同類型的信息書寫不同的處理函數以提取文本.本文根據企業搜索引擎的相關特性,開發出基于SES的通用爬行器.該爬行器可以對 Lotus/Domino的相關內容、基于Microsoft SharePoint Server(SPS)門戶網站、基于Content Management System(CMS)內容管理系統、企業數據庫(Oracle和Sql Server)和FTP上的相關內容進行爬行.從爬行效果上都必須滿足對數據源的完全爬行,對于Domino、FTP的相關內容還應提供增量爬行機制,即采集新增的或有更新情況的文檔,保證了搜索的時效性.

1 SES簡介

Secure Enterprise Search(SES)安全企業搜索,是由Oracle公司針對企業用戶的企業搜索需求推出的一款安全企業搜索產品,并提供了用于二次開發的相應的接口.Oracle搜索解決方案基于Oracle數據庫構建(定期對可靠性和安全性進行檢查),為搜索提供了高度安全的基礎.Oracle與主要的認證機制和庫進行了集成,用戶不僅可以安全有效地查找信息、緩解信息過載,還可以發掘深層內聯網中難以觸及的隱藏信息.

SES提供的搜索器是一個多線程Java應用程序,負責從用戶在配置期間指定的數據源中收集文檔.要搜索其他信息庫,SES搜索器允許用戶定義特定“數據源”.搜索器也可以通過“插件”擴展(插件是Oracle提供的或客戶開發的Java類,與搜索應用程序運行在同一個OC4J容器中).在定義插件后,它們將作為新數據源列出.在進行配置后,插件可以將數據提供給搜索器,并且可以像其他數據源一樣進行索引.從技術上講,插件負責收集指向要索引文檔的URL,它們將這些URL傳遞給搜索器進行索引.用戶可以根據自己的實際需求,利用SES提供的相應接口,按照一定的規范實現自己的插件.

2 系統設計

2.1 總體設計

本系統采用分層設計,結構清晰,可擴展性強.系統的總體結構如圖1所示.

圖1 系統總體結構

數據采集是企業搜索引擎工作的第一步,通過SES提供的相應接口開發出通用爬行器插件,根據需要爬取數據源類型的不同,選擇相應的爬行器類型并填寫好爬行參數,對爬取的數據進行索引,并存儲到索引庫當中.用戶在Web界面中輸入相應的關鍵詞并對其進行簡單的切詞操作后提交到企業搜索引擎當中,將命中的結果的前200條分頁顯示在界面當中.

2.2 爬行器設計

SES提供了相應的接口供用戶開發符合自己需求的爬行器插件,本系統利用了這些接口開發了通用爬行器插件,該爬行器可以對Lotus/Domino的相關內容、基于Microsoft SharePoint Server(SPS)門戶網站、企業數據庫(Oracle和 Sql Server)和FTP上的相關內容進行爬行.從爬行效果上滿足了對數據源的完全爬行和對部分數據源的增量爬行.

圖2為爬行器的系統架構,其中①②③④⑤為爬行器的工作順序,具體工作流程如下.

圖2 爬行器的系統架構

1)通過源類型注冊,系統知道該到哪個jar文件中查找實現CrawlerPluginManager的類名,該類是爬行器程序的入口.

2)創建源時選擇源類型,系統通過調用管理器類的三個成員函數:getPluginParameters、getPluginDescription和 getPluginName,獲取插件名稱、描述和參數表,其中getPluginParameters返回一組類型為List的參數列表,系統根據列表中的參數名、參數描述和缺省值自動生成參數輸入界面.

3)啟動爬行后,調用初始化函數init(ParameterValues params,boolean forceRecrawl,Date last-CrawlTime,GeneralService generalMgr,int thread-Count),即向管理器類傳遞爬行模式、上次爬行時間、線程數等相應參數.此外,將提供一個輔助服務類(GeneralService generalMgr)傳遞給管理器類,管理器類通過輔助服務類可以獲取系統的各種服務.CrawlerCtrl類為各種數據源的連接及獲取相關內容的管理類,例如,getFileList(String path)可獲得ftp服務器上path目錄下包括子目錄的所有文件列表,LotusAttachment(String dominoURL,String username,String password,String DBname,String Form)可獲得domino服務器上某個表單下的所有附件.對實例化CrawlerCtrl類后得到的結果進行處理,得到文檔鏈接,將其和文檔的最后修改時間拼接后作為唯一的DisplayURL放入隊列中,采用修改時間作為文檔修改的主要標志,實現對domimo和ftp數據源的增量爬行.

4)調度系統在通過init完成管理器類的初始化后,然后調用管理器類getCrawlerPlugin函數,從管理器類中獲得爬行器對象.在getCrawlerPlugin函數中,管理器類創建一個爬行器類的對象,并用系統在init中傳過來的參數對其進行初始化.

5)調度系統用管理器類的getCrawlerPlugin方法獲得爬行器對象后,調用爬行器對象的crawler方法,啟動爬行.crawler方法根據系統傳遞過來的源定義參數,如數據服務器地址、用戶名、口令、文件目錄、爬行的域或屬性、關鍵字等內容,完成以下工作.

①從隊列中依次取出DisplayURL,建立與數據服務器的聯接,查詢出對應的文檔.

②對每一個文檔,獲取其屬性(如標題、最后修改時間、文檔的顯示URL、作者等),根據這些屬性建立一個元數據對象(類DocumentMetadata的實例).

③對每一個文檔,建立一個讀取文件的流對象(InputStream類的實例).

④將元數據對象和流對象提交給爬行線程服務器CrawlingThreadService.

爬行線程服務器在接到提交的元數據對象和流對象后,就會調用流對象獲取文檔內容,根據內容格式調用相應的過濾器(如word、PDF、Excel等基本格式)進行格式分析、內容過濾、建立索引、派生線程等.

3 系統實現

本系統分后臺搜索管理模塊和前臺搜索請求模塊兩部分.后臺搜索管理模塊從總體上分為:搜索前準備、搜索過程控制和搜索成果管理等.前臺搜索請求模塊主要負責對已爬行到的結果進行檢索.

3.1 后臺搜索管理模塊設計

后臺管理模塊需要設置所要爬行的數據源的必要信息,包括數據源名稱、服務器地址、用戶名、密碼、所要爬行內容對應的相關實體和屬性.例如,Domino爬行器程序的界面如圖3所示.通過日志模塊可以查看整個爬行的運行狀態,如圖4所示.

圖3 Domino爬行器主界面

圖4 爬行運行狀態

3.2 前臺搜索請求模塊設計

搜索請求界面是企業搜索引擎系統提供的首界面,頁面簡單明了,用戶只需輸入關鍵字,點擊“搜索”按鈕即可.

4 結語

主要實現基于SES的通用爬行器程序以及基于企業搜索引擎的搜索程序.該通用爬行器可以對企業數據庫、門戶網頁、文檔文件、辦公系統內容等進行抓取和分析,提取有用文字信息,并對這些信息建立索引.該爬行器既提升了信息的可訪問性,也保證了企業內部的敏感信息的安全性.用戶通過后臺搜索管理界面填寫相應參數,讓爬行器只爬取特定的數據源,前臺搜索請求模塊可以對已爬行到的數據源進行檢索,通過對用戶的身份進行確認,從而可以給用戶提供安全搜索模式.

[1]文必龍,李 添.企業搜索引擎安全搜索的研究[J].齊齊哈爾大學學報,2010(5):1-3.

[2]李海豐.基于Lucene的企業搜索引擎研究及應用[J].電腦知識與技術,2009(4):926-929.

[3]鄭 偉.數據采集系統的設計研究[J].電腦與信息技術,2010,18(6):33-35.

[4]姜 華.基于Lucene的面向商業應用的搜索引擎研究與實現[D].成都:電子科技大學,2007:48-76.

猜你喜歡
搜索引擎內容用戶
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 亚洲成人高清在线观看| 国产成人乱无码视频| 色综合成人| 久久久久青草线综合超碰| 亚洲国产综合精品一区| 国产凹凸视频在线观看| 久久久久88色偷偷| 国产免费观看av大片的网站| 9啪在线视频| 熟妇丰满人妻| 色综合色国产热无码一| 国产91透明丝袜美腿在线| 成人91在线| 精品亚洲欧美中文字幕在线看| 亚洲欧美日韩动漫| 亚洲欧美日韩另类| 国产免费羞羞视频| 综合亚洲网| 伊人查蕉在线观看国产精品| 国产女主播一区| 一本一道波多野结衣一区二区| 国产日产欧美精品| 一级毛片在线播放| 国产微拍精品| 亚洲最黄视频| 日韩福利在线观看| 久久国产香蕉| 97精品伊人久久大香线蕉| 国产精品欧美亚洲韩国日本不卡| 91九色视频网| 国产精品视频a| 视频二区欧美| 欧美h在线观看| 亚洲国模精品一区| 日本不卡视频在线| 亚洲黄色视频在线观看一区| 午夜不卡福利| 九月婷婷亚洲综合在线| 日韩欧美国产区| 婷婷伊人久久| 亚洲国产精品日韩专区AV| 干中文字幕| 在线视频精品一区| 亚洲伊人久久精品影院| 99在线视频网站| 伊人色综合久久天天| 69视频国产| 国产另类视频| 久久国产精品娇妻素人| 久久精品国产免费观看频道| 国产区精品高清在线观看| 色综合中文| 亚洲精品人成网线在线| 国内精品小视频福利网址| av在线手机播放| 国产精品成人观看视频国产 | 一本大道香蕉久中文在线播放| 91精品国产情侣高潮露脸| 成人毛片免费在线观看| 在线观看亚洲天堂| 日韩第一页在线| 中文字幕有乳无码| 一级一级一片免费| 在线欧美一区| 无码福利视频| 欧美日韩在线成人| 久久精品这里只有国产中文精品| 欧洲极品无码一区二区三区| 欧美五月婷婷| 国产伦精品一区二区三区视频优播 | 激情六月丁香婷婷| 国产制服丝袜91在线| 国产激情无码一区二区三区免费| 黄色免费在线网址| 日韩精品一区二区三区中文无码| 国内精品一区二区在线观看| 亚洲熟妇AV日韩熟妇在线| 亚洲日韩Av中文字幕无码| 国产97公开成人免费视频| 老司机午夜精品网站在线观看| 亚洲精品不卡午夜精品| 69精品在线观看|