韓石
摘要:隨著信息技術的不斷發展,Web上的信息內容和數據呈現出爆炸式的增長,從而是Web成為一個巨大、豐富、分布廣泛的數據源,有效的在Web上實現數據的抽取技術為進一步的分析和挖掘提供了數據支持,具有十分重要的應用價值和現實意義。通過Web數據集成可以實現對Web數據的有效整合,為大數據分析提供信息源支持。本文對于Web數據抽取技術的現狀、問題及實現進行分析,并提出對策建議。
關鍵詞:大數據;數據抽取;技術實現
一、Web數據抽取技術概述
隨著信息技術的不斷發展,Web上的信息內容和數據呈現出爆炸式的增長,從而是Web成為一個巨大、豐富、分布廣泛的數據源,有效的在Web上實現數據的抽取技術為進一步的分析和挖掘提供了數據支持,具有十分重要的應用價值和現實意義。通過Web數據集成可以實現對Web數據的有效整合,為大數據分析提供信息源支持。Web信息抽取技術是隨著互聯網技術的發展、網頁信息的擴充而產生,從手工到半自動再到全自動的技術完善使Web數據抽取技術成為大數據分析的主要技術。在此基礎上形成的Web數據集成系統,Web數據集成系統中的數據,不僅可以為各類大數據分析提供信息支持,而且還可以為Web數據集成系統自身集成提供幫助。Web數據抽取技術的作用和意義主要體現在,一是Web數據抽取是實現Web數據集成的基礎和保證,Web數據抽取可以完成對Web頁面中農廣泛存在的半結構化數據的抽取公祖,為Web數據集成奠定數據基礎。二是Web數據抽取可以實現對Web數據的理解,Web網頁中的數據大部分是半結構化數據,通過Web數據抽取技術的實現可以對抽取到的Web數據元素進行語言標注,實現對Web數據的理解。三是Web數據抽取為Web數據集成中的其他環節提供數據服務,Web數據抽取可以利用已抽取的Web數據對象間的聯系,發現Web實體間的潛在聯系,在Web數據集成系統中,利用Web實體間的聯系,可以形成一個基于這些聯系的實施知識庫,為進一步實施Web數據集成的重復記錄談成冊、數據分析等服務提供數據支持。
二、Web數據抽取技術存在的問題
隨著信息技術的不斷發展,Web上的信息內容和數據呈現出爆炸式的增長,從而是Web成為一個巨大、豐富、分布廣泛的數據源,有效的在Web上實現數據的抽取技術為進一步的分析和挖掘提供了數據支持,具有十分重要的應用價值和現實意義。通過Web數據集成可以實現對Web數據的有效整合,為大數據分析提供信息源支持。在Web數據抽取技術的使用過程中也存在一些問題,一是在Web數據集成過程中,需要獲取Web實體的模型信息,為進一步識別、抽取和集成來自不同數據源的Web數據對象提供指導,Web上大多數為半結構化數據模型具有異構和動態變化的特點,有效地構建Web實體模型信息是當前Web數據抽取技術中一個需要解決和完善的問題。二是在Web數據抽取過程中,需要準確地從目標網頁中抽取目標數據,并對抽取的數據元素進行語義上的理解,為進一步整合數據奠定基礎。準確地抽取目標數據,進行語義的標注也是當前Web數據抽取技術中需要精準化的一個問題。三是在Web數據抽取過程中,需要建立新發現的Web實體與Web實體模型中已有Web實體間的聯系,豐富Web實體模型,為進一步整合Web數據奠定基礎,有效地建立新發現的Web實體與Web實體模型中存在的Web實體間的聯系,也是一個加以解決的Web數據抽取技術問題。
三、Web數據抽取技術的實現
隨著信息技術的不斷發展,Web上的信息內容和數據呈現出爆炸式的增長,從而是Web成為一個巨大、豐富、分布廣泛的數據源,有效的在Web上實現數據的抽取技術為進一步的分析和挖掘提供了數據支持,具有十分重要的應用價值和現實意義。通過Web數據集成可以實現對Web數據的有效整合,為大數據分析提供信息源支持。目前,Web數據抽取技術中主要的實現路徑主要有,一是基于自然語言處理方式的數據抽取,基于自然語言處理方式的數據抽取是以自然語言處理技術為基礎,通常適用含有大量文本或者語句完成、適合語法分析的Web頁面,在抽取的過程中,將網頁作為自由文本進行處理,經過語法分析、語義標注、專有對象的識別和抽取規則生成的過程。二是基于HTML結構的信息抽取,Web信息抽取的主要對象是Web頁面,這些頁面通常是由HTML標記語言進行編寫,具有非常清晰的結構層次。基于HTML結構的信息抽取就是利用了頁面的結構來進行信息的定位,Web頁面通過轉換器解析成反映HTML結構的DOM樹,在通過特定的方法將用戶想抽取的數據定位到DOM樹的層次位置上,然后利用正則表達等匹配技術來得到具體位置上的數據信息。三是基于XML的信息抽取,基于XML的信息抽取是運用XML的相關技術以XML模式的數據為數據源盡心抽取處理。由于抽取的目標是Web網頁,而Web頁上的數據一般是以HTML格式存在,所以通常先將頁面轉換為XML的格式再進行抽取。
四、結束語
隨著信息技術的不斷發展,Web上的信息內容和數據呈現出爆炸式的增長,從而是Web成為一個巨大、豐富、分布廣泛的數據源,有效的在Web上實現數據的抽取技術為進一步的分析和挖掘提供了數據支持,具有十分重要的應用價值和現實意義。通過Web數據集成可以實現對Web數據的有效整合,為大數據分析提供信息源支持。在Web數據抽取技術的應用過程中,一是要結合大數據開發與分析的實際,不斷更新Web數據抽取技術的實現方法,使Web數據抽取技術能夠真正為大數據分析提供數據源和分析所需要的信息。二是在大數據開發與分析的過程中,靈活運用Web數據抽取技術,將Web數據抽取的各項技術進行綜合運用,實現數據抽取的最優化及最效率,使提供的數據內容豐富、結構清晰、質量保證、效率提高。