馬孝賀 李莎
摘 要:隨著信息化時代的不斷發展,網絡技術的不斷成熟使得網上的信息也越來越豐富。在現階段的數據庫研究中也逐漸將關注點放在對網絡中海量的信息的深度運用上面。文章對現在普遍流行的XML技術在大數據環境下的運用進行探討,以其對Web數據信息收集、數據挖掘以及數據交換中的技術運用進行具體分析,希望能夠借此加深對于XML技術的印象。
關鍵詞:大數據環境;XML技術;Web數據挖掘
隨著大數據時代的來臨,大數據問題便從技術層面上升到了國家戰略層面的最高層,研究大數據環境下的具體運用已經成為當前的一個比較重要的課題。在大數據的環境下,數據收集、數據挖掘以及數據交換上都迫切地需要進行創新和變革,可擴展的標記語言( Extensible MarkupLanguage,XML)技術在大數據環境下的運用,可以幫助我們更好地應對大數據環境所帶來的機遇和挑戰,促進我國科學技術創新能力的不斷發展。
1 XML技術介紹
1.1 XML概念
XML作為一種描述性的標記語言,它也是標準通用標記語言。它是一套定義語義標記的規范,旨在能夠對數據類型進行定義,便于人和計算機將其進行識別。它也是簡單的數據存儲語言,用來表述數據結構化的通用語言,是便于用戶對自己的標記語言進行定義的元語言,其建立過程的方便性給用戶的使用體驗帶來了很大的便利,成為當前大數據環境下數據處理的有力工具。
1.2 XML的核心技術
XML文檔主要是由3個元素構成:文檔類型定義DTD,可擴展樣式表語言XSL以及可擴展鏈接語言XLL。在這3個元素具體的功能劃分上,DTD是一套關于標記符的語法規則,對XML的文檔起到了很好的描述作用,定義XML中相關元素及元素屬性的關系;XSL控制XML文檔顯示時的版面以及對文字的顯示進行處理;XLL是對XML的語言進行鏈接,使得不同用戶根據自身的需求選取合適的使用方法‘1]。
1.3 XML技術的特點
XML設計的主要目的是為了傳輸和存儲數據,其關注的焦點是數據的內容。在存儲方面,它是以純文本的格式進行存儲的,不同于所有不兼容的軟、硬件的數據存儲方法,可以在各種不兼容的軟、硬件中進行數據的存儲,降低了數據交換的復雜性。XML具有擴展性的特點,它突破了HTML在擴展性上面的局限性,允許用戶在定義標記時不受數量的限制,可以根據自身的需求對信息結構進行嵌套,方便用戶的使用。在數據的搜索上它具有智能化的特征,借助于對各種信息所含元素的定義,它可以很好地對信息進行描述。同時XML技術還改變了傳統的信息構造方式,使得互聯網數據在傳輸上面更加快捷準確。由于在內容和應用上的分開,加上文檔定義類型DTD只是對數據的結構、語義和存放等方式進行描述,沒有涉及數據被顯示等方面的問題,XML數據就可以被不同的程序進行運用,其又具有很好的復用性。XML還具有國際化的特點,由于其統一代碼的編碼標準,它支持世界上的大多數文字,便于計算機系統之間進行信息數據的交換,可以最大化地突破國際和不同文化疆界的信息交換的限制。
2 Web數據
2.1 Web上的數據特點
World Wide Web是由巨大的、異構的以及半結構化和動態的基于超鏈接的超媒體文檔所構成的數據庫,從數據庫的角度出發,Web網站上的信息具有多元化、半結構化、動態化以及分散性等特點,使得信息的處理更加的復雜和龐大。對于Web數據的使用來說,盡管現階段已經取得了一些成果,但是在異構數據環境、半結構化數據環境以及較強動態性數據源上還是存在著較多的不足。例如,從用戶的角度出發,由于每個用戶群體的背景及使用目的的不同,使得Web上的信息量的使用較為復雜,加大了相關工作的難度[2]。
2.2 XML技術運用在Web數據中的優勢
雖然HTML和XML都是對Web文檔的語言進行描述的工具,但是XML的靈活性較高,能夠對數據本身進行很細致的描述,使得它很容易與數據庫中的屬性一一對應,憑借其在增加結構及語義信息上的優勢,解決了Internet發展速度快而接入速度慢等問題,擴大了服務器處理信息的容量。在現階段的Web數據應用中,XML已經成為正式的規范,開發人員借助XML在相關技術上的優勢,進行數據交換和格式的處理。XML具有可升級的3層模型,可以幫助其從存在的數據中分離出來,并且其結構化的數據可以從商業規范和表現的形式中進行分離。在異構數據的集成的實現上,基于Web數據的多樣性和非結構化,傳統的文檔的查詢和分析方法效率較低,正確性較低;但是運用XML技術,可以大大提高文檔的結構化程度,便于分析性的內容數據庫的建立。XML的中間層技術,可以在改進站點設計、提供個性化服務等方面起到良好的作用。XML的中間層技術可以將數據進行結構化,且同一個XML文件的內容可以變成多個文件傳給不同的用戶,實現網頁傳輸的動態化特征。3XML在大數據環境下Web數據中的運用
3.1在Web數據收集中
Web的信息收集是指從互聯網中收集出用戶感興趣的信息,并以清晰各格式化的方式進行輸出。在Web的信息收集中,可以將互聯網比作是信息源,根據用戶需求的不同,對信息進行篩選,以達到給用戶提供具有針對性的數據信息。
XML技術的出現,有利于Web信息的抽取和應用。在信息收集時,可以將頁面文檔解析成為DOM數的結構,將頁面的操作處理轉化成為對DOM樹的處理,并通過XML的轉換語言XSLT對文檔的編寫規則進行抽取,實現XML與Web間數據的轉換。Web的信息收集可以按照收集對象的不同,將其分為3個類型:自由文本、結構化的文本以及半結構化的文本。XML憑借其自身的優勢,可以將Web頁面中的特定信息收集出來,并使之成為結構化的、具有很強擴展性的文檔,為數據的分析和重新組合提供支持。例如,在數據收集的過程中,可以將每個站點作為研究的基本單位,根據用戶感興趣的信息,將信息收集起來,并生成結構化的文檔。之后,便為每個站點建立一個待收集信息路徑表,當出現頻繁的操作以及并沒有清晰的路徑記錄寫入時,可以從信息路徑表中歸納出最小DOM樹的路徑,根據其中的路徑信息和信息模型生產收集規則,把收集結果存入XML文檔中,便完成了對信息的收集規則。
3.2在Web數據挖掘中
所謂Web數據挖掘,是指在萬維網上挖掘出有趣的、潛在的、有用的信息及其模式。XML在Web數據挖掘中的運用主要是以下4個方面:(1)借助Web客戶端在兩個或多個異質數據庫之間進行通信。(2)將多個處理負載從Web服務器轉到客戶端的應用。(3) Web利用其智能化的特征為用戶提供具體所需要的信息的應用。(4) Web客戶端將同樣的數據以不同的瀏覽形式提供給不同的用戶使用的應用。
在Web的挖掘的處理過程上面來看,基于XML技術可以使Web文檔結構化,在Web的結構挖掘上可以節約很多的數據處理時間。特別的是,由于XML中文檔的拓撲結構較為明顯,在分析網站中的層次關系以及鏈接關系上具有明顯的優勢,可以對信息流的方向進行辨別。在數據的統一接口的問題的處理上,借助于XML技術,數據挖掘軟件可以不用仔細了解每個數據庫是如何構建起來的,便于對分布式數據挖掘進行處理,不用受到不同數據庫、不同數據源的限制。XML技術可以快速地使來自不同源的結構化的數據進行融合,其主要是經過以下步驟來實現的:首先,用XML技術將從來源于后端數據庫以及其他Web來源的數據在中間層的服務器上進行集成;其次,XML所具有的可擴展性,可以充分地對不同數據進行定義和表達,按照不同用戶的不同需求,將數據進行深層次的處理和加工,并發送到不同的用戶手中。
3.3在數據交換中
對于現階段的數據交換來說,可以以XML在電子商務數據交換模型為例。電子商務數據主要存儲在關系數據庫中,XML與關系數據庫的映射是電子商務數據交換平臺開發的重要工作。XML作為結構與數據的統一體,在數據的轉換過程中又被分為關系模式和關系數據兩個方面。在這個過程中,是以XML服務器為核心,來實現客戶端與服務器的交互,客戶端既可以直接讀取服務器的各類信息,又可以在服務器中存儲信息。其中,XML處理器是作為模型的核心,它主要負責完成數據的解析和反解析兩個過程,將業務數據與電子報文進行相互的轉換;之后便對解析后的數據進行分析和加工,使之便于用戶瀏覽和存儲,用戶借助于Web服務器進行相應的業務處理,Web在這個過程中起到一個中間媒介的作用.一方面接收客戶端的請求,給其提供常規的訪問信息;同時其又將生成的動態文件發送給客戶端,實現數據信息的有效交流。在電子商務的運用當中,企業可以借助XML在Web數據交換中的有利優勢,實現業務訂單的接收與處理[3]。
4結語
本文主要介紹了XML技術在大數據環境下的處理優勢,對其概念、特點等進行了介紹。并就其在Web數據收集、數據挖掘和數據交換中的具體運用進行了闡述。XML技術的發展,為大數據環境下Web數據的分析和處理提供了有力的支持。要加強對相關技術的研發和使用,適應現代化社會對海量數據信息的需求的趨勢,不斷提高我國的科技競爭力。
[參考文獻]
[1]江文斌,張仁津,張方霞基于WebServices的電子商務系統的研究與架構[J]電腦知識與技術,2010 (10):2392-2394
[2]倪興旺.基于XML的異構數據交換研究與實現[J]石家莊學院學報,2014 (3):35-38
[3]劉媛媛.基于XML和WebServices的電子政務數據交換平臺的實現[J]龜子技術與軟件工程,2015 (13):97