999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XML的Web搜索技術研究

2011-08-15 00:48:59
科學之友 2011年20期
關鍵詞:搜索引擎數據庫用戶

房 屹

(山東絲綢紡織職業學院,山東 淄博 255300)

隨著Internet資源的迅速增長,網絡資源愈發豐富,傳統的基于HTML的搜索技術的準確率水平亟待提高。XML標記語言可以明確的標記多樣化的網絡信息,通過內容與標記之間的關系準確定位,查找目標。突破了傳統意義的全文檢索方式,減小了搜索范圍,提高搜索的精度與準確度。

1 XML搜索技術

可擴展標記語言(Extensible Markup Language, XML)是互聯網聯合組織(W3C)創建的一組規范,為了便于網頁信息的組織而設計的。XML是一種元標記語言,它以一種開放的自我描述方式定義數據結構,在描述數據內容的同時能突出對結構的描述,從而體現出數據之間的關系,這樣所組織的數據對于應用程序和人類都是友好的、可操作的。所以,XML是一種優秀的數據打包和數據交換的形式。為分析和轉換 XML文檔,XML還提供了DOM、SAX等技術于實現對XML文檔的解析,并提供Xpath、Xquery等查詢語言實現對XML文檔的有效查詢,形成XML搜索技術。

在基于XML的搜索引擎的設計中,對特定結構的XML文檔存儲網站Web信息,將有關Web頁面的內容或超級鏈接文本以及它們對應的URL分層保存在XML文檔中,并通過對XML文檔的解析實現信息的錄入、更新、修改,最后設計利用XML查詢技術的檢索器,通過對存儲查詢信息的 XML文檔進行檢索,按用戶查詢字找到對應的Web頁面的URL,在用戶瀏覽器端返回其所指的Web頁,從而實現基于XML的Web信息搜索。

2 基于XML的Web搜索引擎的設計

2.1 Web信息的集成

建立Web信息集成平臺的目的就是為用戶提供涉及多個Web信息源的統一查詢機制。現在一般有兩種方法:虛擬(virtual)方法和數據倉庫(warehousing)方法。虛擬方法是基于一個“中間模式”,但數據仍保存在各個參加集成的數據源中,通過各數據源的“包裝程序”(wrappers)將數據虛擬成中間模式,用戶的查詢是基于中間模式,即建立一個虛擬數據庫。數據倉庫法是建立一個數據倉庫,并將參加集成的各個不同的信息源裝入數據倉庫,用戶的查詢是基于數據倉庫的數據。基于 XML和ASP語言的中間層方法能夠從多個不同結構的數據源中集成數據,并以XML文檔的形式把這些數據交付給查詢用戶。

2.2 用戶興趣模型的建立和更新

用戶興趣建模為用戶提供個性化信息服務,是信息推薦系統的核心,它代表每個用戶的不同信息需求。目前普遍采用的建立用戶興趣模型的顯示獲取和隱式獲取方式都存在一定的缺陷:以關鍵字的方式提供用戶興趣的用戶經常不能準確地表達自己的興趣;從目標樣本文檔提取用戶興趣的不能全面發現用戶的興趣;用戶主動方式建立興趣的不能自動更新用戶的興趣。因此本文采用顯示和隱式相結合的方式建立用戶興趣模型。先通過用戶注冊時填寫用戶興趣的信息建立起粗略的用戶興趣模型(此部分是可選擇的,如果用戶認為耽誤時間或怕麻煩等也可以不填),然后系統根據用戶的瀏覽內容和瀏覽行為自動構建準確的用戶興趣模型,并通過對搜索結果的反饋信息更新用戶興趣。這樣可在用戶沒有明確參與的情況下,建立并更新用戶興趣。

2.3 XML數據的查詢處理方法

目前關于XML數據的查詢處理都是針對專門的XML存儲系統,對于底層采用數據庫管理系統的情況,則是通過將XML查詢語言書寫的查詢轉換為關系#K&語言或OK&語言查詢,利用傳統數據庫系統的查詢處理功能來完成用戶的查詢請求。

該方法與傳統數據庫中的查詢處理類似,大致有以下幾個步驟:一是對查詢進行語法分析,并將其轉換為傳統的SQL的形式;二是邏輯查詢計劃性生成器產生一個邏輯查詢計劃;三是這個邏輯查詢計劃可以產生很多的物理查詢執行計劃,而物理計劃由一些物理操作符構成,這些操作符可由查詢執行引擎執行。查詢優化器通過存儲的統計信息和開銷模型,從眾多的物理查詢執行計劃中選出一個最優的;四是提交給查詢計劃執行引擎完成查詢,并返回查詢結果。

3 基于XML搜索的優點

與基于HTML的搜索引擎相比,基于XML的站內搜索引擎適應了計算機技術的發展需要,它的優點是:①由于 XML文檔對內容和結構的良好支持,使搜索引擎脫離了對數據庫的依賴,并較好的支持了非結構信息的處理。②與數據庫文件相比,XML文件存儲容量較小,減小了對存儲空間的占用,并有利于提高查詢速度。③借助于支持XML的API,減輕了數據錄入和管理的人工操作,并易于實現搜索信息的動態更新;實現了Web搜索引擎;實現了對Web站點的全部文本、圖片、音頻三類數據的索引,并且采用了 XML作為數據存儲容器,它能在大量信息的環境下大大節省空間和提高索引的速度。此外,由于 XML文檔結構的可擴展性,通過增加新元素和對檢索器應用程序進行微小調整,既可容易地進一步擴展搜索引擎查詢方式,如按Web頁面建立時間查詢等。并且,在動態擴展方面,基于XML的搜索引擎也具有獨特優勢。

4 結束語

本文對現有的XML搜索技術進行了分析,對Web信息的集成、用戶興趣模型的建立和更新、XML數據的查詢處理方法,給出了索引的數據結構以及查詢的優化算法,使網絡信息查詢更加靈活簡便。

1 陳金森.XML搜索引擎中索引技術的研究[D].燕山大學,2006

猜你喜歡
搜索引擎數據庫用戶
數據庫
財經(2017年2期)2017-03-10 14:35:35
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
數據庫
財經(2016年15期)2016-06-03 07:38:02
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
基于Nutch的醫療搜索引擎的研究與開發
主站蜘蛛池模板: 亚洲天堂免费观看| 国产高清免费午夜在线视频| 丰满人妻一区二区三区视频| 99久久成人国产精品免费| 精品99在线观看| 亚洲国产欧洲精品路线久久| 不卡色老大久久综合网| 五月天福利视频| 国产日韩精品欧美一区喷| 国产在线观看第二页| 国产另类乱子伦精品免费女| 伊人福利视频| 欧美精品啪啪一区二区三区| 欧洲极品无码一区二区三区| 亚洲欧美日韩色图| 亚洲欧美精品日韩欧美| 亚洲欧美精品一中文字幕| 国产Av无码精品色午夜| 日本一区二区三区精品AⅤ| 亚洲中文字幕久久精品无码一区| 免费播放毛片| 亚洲高清无码精品| 女人一级毛片| 四虎AV麻豆| 亚洲一区网站| 欧美国产日韩在线观看| 日韩欧美成人高清在线观看| 国产91线观看| 高清视频一区| 黄色片中文字幕| 美女内射视频WWW网站午夜 | 久久综合干| 高潮毛片免费观看| 久久婷婷色综合老司机| 久久96热在精品国产高清| 国产精品自拍露脸视频| 欧美午夜久久| av大片在线无码免费| 国产精品成| 久久永久免费人妻精品| 国产喷水视频| 一级片一区| 日本影院一区| 狠狠ⅴ日韩v欧美v天堂| 精品久久香蕉国产线看观看gif | 爱爱影院18禁免费| 亚洲综合色区在线播放2019| 国产91麻豆视频| 国产黄视频网站| 天天爽免费视频| 午夜激情婷婷| 日韩毛片免费视频| 又大又硬又爽免费视频| 国产精品毛片在线直播完整版| 91免费观看视频| 久久亚洲国产视频| 亚洲a免费| 国产香蕉国产精品偷在线观看| 在线观看91香蕉国产免费| 国产欧美综合在线观看第七页| 欧美成人精品高清在线下载| 国产美女在线观看| 色九九视频| 国产成人久久777777| 国产91精品久久| 99er精品视频| 久久精品aⅴ无码中文字幕| 日韩欧美国产中文| 国产一级一级毛片永久| 女人18一级毛片免费观看 | 乱人伦中文视频在线观看免费| 精品久久久无码专区中文字幕| 九九热视频在线免费观看| 亚洲成年人网| yjizz视频最新网站在线| 国产美女无遮挡免费视频| 国产黑丝视频在线观看| 国产噜噜噜| 日韩大片免费观看视频播放| 激情爆乳一区二区| 伊人蕉久影院| 久久五月天国产自|