999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

新技術水平下Web數據自動采集與維護技術研究綜述

2014-12-31 00:00:00楊淵林
消費電子·下半月 2014年7期

摘 要:由于互聯網技術的飛速發展,Web信息急劇膨脹,傳統搜索引擎注重查全率而查準率不足,導致Web信息搜索越來越困難。本文通過對Web數據自動采集與維護技術的分析,試圖對用戶身份驗證、導航URL提取、翻頁URL提取、頁面屬性字段的提取、數據去重等Deep Web數據集成關鍵技術做探索性的研究,對各種方案進行了嘗試和比較,然后給出了最優的解決方案,為進一步的研究提供了基礎。

關鍵詞:Web;Deep Web;數據自動采集;數據抽取

中圖分類號:TP391.3 文獻標識碼:A 文章編號:1674-7712 (2014) 14-0000-01

一、web數據采集的研究背景

由于互聯網技術的飛速發展,Web信息急劇膨脹,傳統搜索引擎注重查全率而查準率不足,導致Web信息搜索越來越困難。特定領域的Deep Web網站上蘊藏著豐富的主題信息,但是這些Deep Web網站通常是分散的、不易檢索的,因此,Deep Web數據集成技術逐漸成為研究熱點。它不但可以解決傳統搜索引擎不能索引Deep Web數據的局限,還能把各個孤立的Deep Web數據集成到一起,提供面向主題的一站式搜索服務。用戶難以利用傳統的技術全面快速地收集Deep Web中的企業信息,使用Deep Web數據集成技術對企業黃頁進行集成,提供高效專業化的Web信息服務,能夠讓用戶更快的找到相關信息,不僅促進產業信息化發展,同時,也有利于推動經濟的發展。

通過應用Web數據自動采集技術,可以有效的將某一領域、個性化的信息進行集成。對Web數據自動采集技術的深入研究,可以制定合理的策略在Internet上搜集和發現信息,對信息進行處理和組織,使得用戶能夠更方便、快捷、高效的檢索到自己所需的信息。

二、Web數據自動采集理論基礎

Web可以說是目前最大的信息系統,其數據具有海量、多樣、異構、動態變化等特性。因此給人們要準確迅速的獲得自己所需要的數據越來越難,盡普目前有各種搜索引舉,但是搜索引攀在數據的查全率考慮較多,而查準率不足,而且很難進一步挖掘深度數據。因此人們開始研究如何更進一步獲取互聯網上某一個特定范圍的數據,從信息搜索到知識發現。

(一)相關概念

Web數據自動采集內涵和外延非常廣泛,目前尚無明確定義。Web數據自動采集涉及到Web數據挖掘,Web信息檢索,信息提取,搜索引擎等概念和技術。Web數據挖掘與這些概念密切相關,但又有所區別。

1.Web數據自動采集與挖掘

Web挖掘是一種特殊的數據挖掘,到目前為止還沒有一個統一的概念,我們可以借鑒數據挖掘的概念給出Web挖掘的定義。所謂Web挖掘就是指從大量非結構化、異構的Web信息資源中發現有效的、新穎的、潛在可用的及最終可以理解的知識包括概念、模式、規則、規律、約束及可視化等形式的非平凡過程。包括Web內容挖掘,Web結構挖掘和Web使用挖掘。

2.Web數據自動采集與搜索引擎

Web數據自動采集與搜索引攀有許多相似之處,比如它們都利用了信息檢索的技術。但是兩者側重點不同,搜索引攀主要由網絡爬蟲,索引數據庫和查詢服務三個部分組成。爬蟲在網上的漫游是無目的性的,只是盡量發現比較多的內容。查詢服務盡可能多的返回結果,不關心結果是否符合用戶的習慣專業背景等。而Web數據自動采集主要針對某個具體行業,提供面向領域,個性化的信息挖掘服務。

3.Web數據自動采集與信息提取

信息提取是近年來新興的一個概念。信息提取是面向不斷增長和變化的,某個具體領城的文獻特定的查詢,這種查詢是長期的或者持續的。與傳統搜索引攀是基于關鍵字查詢的不同,信息提取基于查詢。不僅要包含關鍵字,還要匹配各個實體之間的關系。信息提取是從技術上的概念。Web數據自動采集很大程度要依賴于信息提取的技術,實現長期的,動態的追蹤。

4.Web數據自動采集與Web信息檢索

信息檢索即從大量的Web文獻集合C中,找到與給定查詢q相關的,數目相當的文獻子集S,如果將q看作輸人,S看作輸出,那么Web信息檢索的過程就是一個輸入到輸出的映像:

ζ:(C:q)→S

而Web數據自動采集不是直接將文獻集合的子集直接輸出給用戶,還要進一步的分析處理,查重去噪,整合數據等。盡量將半結構化甚至非結構化的數據變為結構化的數據,然后以統一的格式呈現給用戶。

因此,Web數據自動采集是Web數據挖掘的一個重要組成部分,它利用了Web數據檢索,信息提取的技術,彌補了搜索引擎缺乏針對性和專業性,不能實現數據的動態跟蹤與監測的缺點,是一個非常有前景的領域。

(二)研究意義

1.解決信息冗余下的信息迷航

隨著互聯網信息的急劇增長,網上存在越來越多的對用戶沒有價值的冗余信息,使人們無法及時準確捕捉到自己所需要的內容,信息利用的效率和效果大為降低。互聯網上的信息冗余主要體現在信息的過載性,信息的無關性,選擇的復雜性等多個方面。

因此,在當今高度信息化的社會里,信息冗余信息過載已經成為互聯網上一個急需解決的問題。而Web數據采集可以通過一系列方法,依據用戶興趣,自動搜取網上特定種類的信息,去除無關數據和垃圾數據,篩選虛假數據和遲滯數據,過濾重復數據。用戶無需跟復雜的網頁結構和五花八門的超級鏈接打交道,直接將信息按照用戶的要求呈現給用戶。可以大大減輕用戶的信息過載和信息迷失。

2.解決搜索引擎的智能化不高

雖然互聯網上有海量的信息,但是對某一個特定的個人或團體而言,獲取相關信息或服務,和關注的范圍只是很小的一部分。目前人們查找網上信息的主要是通過搜索引擎,如Google,Yahoo等。但這些搜索引擎涉及大而廣,檢索智能度不高查準率和查全率的問題日益凸現。并且搜索引攀難以針對不同的用戶的不同需求,提供個性化服務。

3.節約人力物力成本

與傳統的人工采集數據相比,自動采集可以減少很多重復性工作,大大縮短采集時間,節約人力物力成本,提高效率。而且不會出現人工數據采集中的遺漏、偏差和錯誤。

參考文獻:

[1]崔少彬.主題搜索引擎的研究與實現[D].中國海洋大學,2007.

[2]董曉常.中國黃頁網:開辟網絡經濟新天地[J].互聯網周刊,2004(40).

主站蜘蛛池模板: 免费啪啪网址| 国产日韩欧美一区二区三区在线| 亚洲中文字幕无码mv| 成年av福利永久免费观看| 国产精品人莉莉成在线播放| 国产剧情无码视频在线观看| 国产一区亚洲一区| 亚洲国产第一区二区香蕉| 欧美精品一二三区| 欧美 国产 人人视频| 久久久久亚洲av成人网人人软件| 国产97视频在线观看| 在线看片免费人成视久网下载| 中文字幕欧美日韩高清| 无码日韩视频| 综合久久久久久久综合网| 91年精品国产福利线观看久久| 久久精品国产电影| 久草性视频| 91视频青青草| 日韩午夜福利在线观看| …亚洲 欧洲 另类 春色| 精品超清无码视频在线观看| 久久www视频| 精品91自产拍在线| 欧美中文字幕无线码视频| 91在线视频福利| 欧美激情视频一区| 五月丁香在线视频| 爆乳熟妇一区二区三区| 欧美国产综合色视频| 亚洲三级影院| 毛片久久久| 国产毛片不卡| 夜夜爽免费视频| 亚洲美女视频一区| 亚洲人成网址| 欧美性爱精品一区二区三区| 伊人福利视频| 国产在线一区二区视频| 真实国产乱子伦高清| 欧美不卡二区| 国产精品99久久久久久董美香| 中文字幕乱码中文乱码51精品| 97超碰精品成人国产| 国产精品美乳| 婷婷色在线视频| 久久久91人妻无码精品蜜桃HD| 亚洲成人高清无码| 国产欧美成人不卡视频| 日韩高清在线观看不卡一区二区| 日本91视频| 91福利一区二区三区| 国产精品无码久久久久久| 欧美成在线视频| 欧美精品1区| 丝袜高跟美脚国产1区| 亚洲中文字幕在线一区播放| 亚洲人成日本在线观看| AV片亚洲国产男人的天堂| 亚洲三级片在线看| 成人免费午间影院在线观看| 久久香蕉国产线| 精品三级网站| 精品久久国产综合精麻豆| 欧美在线综合视频| 98超碰在线观看| 欧美五月婷婷| 日韩亚洲综合在线| 91日本在线观看亚洲精品| 国产亚洲欧美在线视频| 午夜精品区| 亚洲色偷偷偷鲁综合| 国产精品自在在线午夜| 欧美在线中文字幕| 亚洲男人在线天堂| 成人一区在线| 国产一级在线播放| 日本成人精品视频| 亚洲激情99| 五月天福利视频| 精品少妇人妻av无码久久|