999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web數據抽取技術的實現

2017-10-21 17:41:34韓石
科技信息·中旬刊 2017年12期
關鍵詞:大數據

韓石

摘要:隨著信息技術的不斷發展,Web上的信息內容和數據呈現出爆炸式的增長,從而是Web成為一個巨大、豐富、分布廣泛的數據源,有效的在Web上實現數據的抽取技術為進一步的分析和挖掘提供了數據支持,具有十分重要的應用價值和現實意義。通過Web數據集成可以實現對Web數據的有效整合,為大數據分析提供信息源支持。本文對于Web數據抽取技術的現狀、問題及實現進行分析,并提出對策建議。

關鍵詞:大數據;數據抽取;技術實現

一、Web數據抽取技術概述

隨著信息技術的不斷發展,Web上的信息內容和數據呈現出爆炸式的增長,從而是Web成為一個巨大、豐富、分布廣泛的數據源,有效的在Web上實現數據的抽取技術為進一步的分析和挖掘提供了數據支持,具有十分重要的應用價值和現實意義。通過Web數據集成可以實現對Web數據的有效整合,為大數據分析提供信息源支持。Web信息抽取技術是隨著互聯網技術的發展、網頁信息的擴充而產生,從手工到半自動再到全自動的技術完善使Web數據抽取技術成為大數據分析的主要技術。在此基礎上形成的Web數據集成系統,Web數據集成系統中的數據,不僅可以為各類大數據分析提供信息支持,而且還可以為Web數據集成系統自身集成提供幫助。Web數據抽取技術的作用和意義主要體現在,一是Web數據抽取是實現Web數據集成的基礎和保證,Web數據抽取可以完成對Web頁面中農廣泛存在的半結構化數據的抽取公祖,為Web數據集成奠定數據基礎。二是Web數據抽取可以實現對Web數據的理解,Web網頁中的數據大部分是半結構化數據,通過Web數據抽取技術的實現可以對抽取到的Web數據元素進行語言標注,實現對Web數據的理解。三是Web數據抽取為Web數據集成中的其他環節提供數據服務,Web數據抽取可以利用已抽取的Web數據對象間的聯系,發現Web實體間的潛在聯系,在Web數據集成系統中,利用Web實體間的聯系,可以形成一個基于這些聯系的實施知識庫,為進一步實施Web數據集成的重復記錄談成冊、數據分析等服務提供數據支持。

二、Web數據抽取技術存在的問題

隨著信息技術的不斷發展,Web上的信息內容和數據呈現出爆炸式的增長,從而是Web成為一個巨大、豐富、分布廣泛的數據源,有效的在Web上實現數據的抽取技術為進一步的分析和挖掘提供了數據支持,具有十分重要的應用價值和現實意義。通過Web數據集成可以實現對Web數據的有效整合,為大數據分析提供信息源支持。在Web數據抽取技術的使用過程中也存在一些問題,一是在Web數據集成過程中,需要獲取Web實體的模型信息,為進一步識別、抽取和集成來自不同數據源的Web數據對象提供指導,Web上大多數為半結構化數據模型具有異構和動態變化的特點,有效地構建Web實體模型信息是當前Web數據抽取技術中一個需要解決和完善的問題。二是在Web數據抽取過程中,需要準確地從目標網頁中抽取目標數據,并對抽取的數據元素進行語義上的理解,為進一步整合數據奠定基礎。準確地抽取目標數據,進行語義的標注也是當前Web數據抽取技術中需要精準化的一個問題。三是在Web數據抽取過程中,需要建立新發現的Web實體與Web實體模型中已有Web實體間的聯系,豐富Web實體模型,為進一步整合Web數據奠定基礎,有效地建立新發現的Web實體與Web實體模型中存在的Web實體間的聯系,也是一個加以解決的Web數據抽取技術問題。

三、Web數據抽取技術的實現

隨著信息技術的不斷發展,Web上的信息內容和數據呈現出爆炸式的增長,從而是Web成為一個巨大、豐富、分布廣泛的數據源,有效的在Web上實現數據的抽取技術為進一步的分析和挖掘提供了數據支持,具有十分重要的應用價值和現實意義。通過Web數據集成可以實現對Web數據的有效整合,為大數據分析提供信息源支持。目前,Web數據抽取技術中主要的實現路徑主要有,一是基于自然語言處理方式的數據抽取,基于自然語言處理方式的數據抽取是以自然語言處理技術為基礎,通常適用含有大量文本或者語句完成、適合語法分析的Web頁面,在抽取的過程中,將網頁作為自由文本進行處理,經過語法分析、語義標注、專有對象的識別和抽取規則生成的過程。二是基于HTML結構的信息抽取,Web信息抽取的主要對象是Web頁面,這些頁面通常是由HTML標記語言進行編寫,具有非常清晰的結構層次。基于HTML結構的信息抽取就是利用了頁面的結構來進行信息的定位,Web頁面通過轉換器解析成反映HTML結構的DOM樹,在通過特定的方法將用戶想抽取的數據定位到DOM樹的層次位置上,然后利用正則表達等匹配技術來得到具體位置上的數據信息。三是基于XML的信息抽取,基于XML的信息抽取是運用XML的相關技術以XML模式的數據為數據源盡心抽取處理。由于抽取的目標是Web網頁,而Web頁上的數據一般是以HTML格式存在,所以通常先將頁面轉換為XML的格式再進行抽取。

四、結束語

隨著信息技術的不斷發展,Web上的信息內容和數據呈現出爆炸式的增長,從而是Web成為一個巨大、豐富、分布廣泛的數據源,有效的在Web上實現數據的抽取技術為進一步的分析和挖掘提供了數據支持,具有十分重要的應用價值和現實意義。通過Web數據集成可以實現對Web數據的有效整合,為大數據分析提供信息源支持。在Web數據抽取技術的應用過程中,一是要結合大數據開發與分析的實際,不斷更新Web數據抽取技術的實現方法,使Web數據抽取技術能夠真正為大數據分析提供數據源和分析所需要的信息。二是在大數據開發與分析的過程中,靈活運用Web數據抽取技術,將Web數據抽取的各項技術進行綜合運用,實現數據抽取的最優化及最效率,使提供的數據內容豐富、結構清晰、質量保證、效率提高。

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 拍国产真实乱人偷精品| 黄片在线永久| 欧美翘臀一区二区三区| 尤物在线观看乱码| 9丨情侣偷在线精品国产| 免费无码网站| 人人91人人澡人人妻人人爽| 国产美女丝袜高潮| 她的性爱视频| 欧亚日韩Av| 在线观看国产网址你懂的| 又黄又湿又爽的视频| AV色爱天堂网| 青青国产成人免费精品视频| 中文字幕资源站| 午夜视频在线观看区二区| 午夜福利视频一区| 欧美日韩北条麻妃一区二区| 亚洲综合精品第一页| 全裸无码专区| 亚洲精品成人7777在线观看| 找国产毛片看| 青青操国产视频| 国产在线麻豆波多野结衣| 免费观看男人免费桶女人视频| 欧美激情首页| 午夜色综合| 国产噜噜噜| 亚洲美女一区| 视频一区视频二区中文精品| 国产亚洲欧美在线中文bt天堂| 色综合久久久久8天国| 亚洲综合欧美在线一区在线播放| 成人福利在线视频免费观看| 99无码熟妇丰满人妻啪啪| jizz国产视频| 伊人久久综在合线亚洲2019| 国产午夜福利在线小视频| 91综合色区亚洲熟妇p| AV无码一区二区三区四区| 本亚洲精品网站| 国产丝袜啪啪| 在线日韩一区二区| 黄色一及毛片| 国产簧片免费在线播放| 天堂岛国av无码免费无禁网站| 人妻精品全国免费视频| 成年人福利视频| 97国产精品视频自在拍| 日韩色图区| 高清视频一区| 中文字幕乱码二三区免费| 婷婷久久综合九色综合88| 2022精品国偷自产免费观看| 国产香蕉在线视频| 亚洲国产精品久久久久秋霞影院| 亚洲av无码牛牛影视在线二区| 色综合综合网| 亚洲人成影院在线观看| 国产精品无码翘臀在线看纯欲| 欧美第九页| 欧美在线三级| 国内毛片视频| 久久婷婷五月综合色一区二区| 亚卅精品无码久久毛片乌克兰| 成人午夜天| 欧美激情网址| 日韩中文欧美| 中文字幕有乳无码| 六月婷婷激情综合| 国产在线拍偷自揄拍精品| 久久99国产综合精品1| 亚洲欧美另类中文字幕| 操操操综合网| 午夜国产理论| 亚洲最大情网站在线观看| 欧美高清三区| 无码内射中文字幕岛国片| www亚洲天堂| 亚洲av无码久久无遮挡| 亚洲一区无码在线| 亚洲成人www|