999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

XML與Web數據挖掘技術

2007-12-31 00:00:00張曉偉杜龍非劉麗娜
商場現代化 2007年23期

一、數據挖掘概述

由于Internet的發展,網上數據的不斷激增,人們對網上信息的應用需求也不斷提高,將這些數據進行復雜的應用成了現今數據庫技術的研究熱點。將傳統數據庫技術直接應用于網上數據的最大困難在于:傳統的數據庫中的數據結構性很強,即其中的數據為完全結構化的數據,而Web上的數據最大特點就是缺乏統一的、固定的模式,數據往往是不規則且經常變動的半結構化(即是相對于完全結構化的傳統數據庫的數據而言)。因此充分利用有用的數據,廢棄虛偽無用的數據,是數據挖掘技術的最重要的應用。所謂數據挖掘就是從大量的數據中發現隱含的規律性的內容,解決數據的應用質量問題。

1.半結構化的數據結構

Web上的數據與傳統的數據庫中的數據不同,傳統的數據庫都有一定的數據模型,可以根據模型來具體描述特定的數據。而Web上的數據非常復雜,沒有特定的模型描述,每一站點的數據都各自獨立設計,并且數據本身具有自述性和動態可變性。因而,Web上的數據具有一定的結構性,但因自述層次的存在,從而是一種非完全結構化的數據,也被稱為半結構化數據。

2.解決半結構化的數據源問題

Web上的每一個站點都是異構的數據源,因而每一站點之間的信息和組織都不一樣,這就構成了一個巨大的異構數據庫環境。如果想要利用這些數據進行數據挖掘,首先,必須將這些站點的數據都集成起來,提供給用戶一個統一的視圖,才有可能從巨大的數據資源中獲取所需的東西。其次,還要解決Web上的數據查詢問題,因為如果數據不能很有效地得到,對這些數據進行分析、集成、處理就無從談起。

解決Web上的異構數據的集成與查詢問題,就必須要有一個模型來清晰地描述Web上的數據。Web數據挖掘技術首要解決半結構化數據源模型和半結構化數據模型的查詢與集成問題。針對Web上的數據半結構化的特點,尋找一個半結構化的數據模型是解決問題的關鍵所在。除了要定義一個半結構化數據模型外,還需要一種半結構化模型抽取技術,即自動地從現有數據中抽取半結構化模型的技術。也就是說面向Web的數據挖掘必須以半結構化模型和半結構化數據模型抽取技術為前提。

二、XML與Web數據挖掘技術

XML可看作一種半結構化的數據模型,可以很容易地將XML的文檔描述與關系數據庫中的屬性一一對應起來,實施精確地查詢與模型抽取。

1.XML簡介

XML其特點可概括為簡單、開放、高效可擴充、國際化等,是一種類似于HTML,被設計用來描述數據的語言。XML解決了HTML不能解決的兩個Web問題,一是Internet發展速度快而接入速度慢的問題,二是可利用的信息多,但難以找到自己需要的那部分信息的問題。XML能增加結構和語義信息,可使計算機和服務器即時處理多種形式的信息。因此,運用XML的擴展功能不僅能從Web服務器下載大量的信息,還能大大減少網絡業務量。

XML中的標志(TAG)是沒有預先定義的,使用者必須要自定義需要的標志,XML是能夠進行自解釋(Self Describing)的語言。XML使用DTD(Document Type Definition文檔類型定義)來顯示這些數據,XSL(eXtensible StyleSheet Language)是一種來描述這些文檔如何顯示的機制,它是XML的樣式表描述語言。XSL包括兩部分:一個用來轉換XML文檔的方法;另一個用來格式化XML文檔的方法。XLL是XML連接語言,它提供XML中的連接,與HTML中的類似,但功能更強大。由于XML能夠標記更多的信息,所以它就能使用戶輕松地找到他們需要的信息。利用XML,Web設計人員不僅能創建文字和圖形,而且還能構建文檔類型定義的多層次、相互依存的系統、元數據、超鏈接結構和樣式表等。

2.XML在Web數據挖掘中的應用

XML已經成為正式的規范,開發人員能夠用XML的格式標記和交換數據。XML在三層架構上為數據處理提供了很好的方法。使用可升級的三層模型,XML可以從存在的數據中產生出來,使用XML結構化的數據可以從商業規范和表現形式中分離出來。數據的集成、發送、處理和顯示是下面過程中的每一個步驟(如下圖):

用標準的HTML無法完成的Web應用促進了XML應用。這些應用大體上可以被分成以下四類:

需要Web客戶端在兩個或更多異質數據庫之間進行通信的應用;

將大部分處理負載從Web服務器轉到Web客戶端的應用;

需要Web客戶端將同樣的數據以不同的瀏覽形式提供給不同的用戶的應用;

需要智能Web代理根據個人用戶的需要裁減信息內容的應用。

顯而易見,這些應用和Web的數據挖掘技術有著重要的聯系,基于Web的數據挖掘必須依靠它們來實現。

XML給基于Web的應用軟件賦予了強大的功能和靈活性,因此它給開發者和用戶帶來了許多好處。由于基于XML的數據是自我描述的,數據不需要有內部描述就能被交換和處理。利用XML,用戶可以方便地進行本地計算和處理,XML格式的數據發送給客戶后,客戶可以用應用軟件解析數據并對數據進行編輯和處理。使用者可以用不同的方法處理數據,而不僅僅是顯示它。XML文檔對象模式(DOM)允許用腳本或其他編程語言處理數據,數據計算不需要回到服務器就能進行。XML可以被用來分離使用者觀看數據的界面,使用簡單靈活開放的格式,可以給Web創建功能強大的應用軟件。

XML還可以通過以簡單開放擴展的方式描述結構化的數據,XML補充了HTML,被廣泛地用來描述使用者界面。HTML描述數據的外觀,而XML描述數據本身。由于數據顯示與內容分開,XML定義的數據允許指定不同的顯示方式,使數據更合理地表現出來。本地的數據能夠以客戶配置、使用者選擇或其他標準決定的方式動態地表現出來。CSS和XSL為數據的顯示提供了公布的機制。

XML應用于將大量運算負荷分布在客戶端,即客戶可根據自己的需求選擇和制作不同的應用程序以處理數據,而服務器只須發出同一個XML文件。如按傳統的“Client/Server”工作方式,客戶向服務器發出不同的請求,服務器分別予以響應,這不僅加重服務器本身的負荷,而且網絡管理者還須事先調查各種不同的用戶需求以做出相應不同的程序。應用XML則將處理數據的主動權交給了客戶,服務器所作的只是盡可能完善、準確地將數據封裝進XML文件中,正是各取所需、各司其職。XML的自解釋性使客戶端在收到數據的同時也理解數據的邏輯結構與含義,從而使廣泛、通用的分布式計算成為可能。

XML還被應用于網絡代理,以便對所取得的信息進行編輯、增減以適應個人用戶的需要。有些客戶取得數據并不是為了直接使用而是為了根據需要組織自己的數據庫。

三、結束語

面向Web的數據挖掘是一項復雜的技術,而XML的出現為解決Web數據挖掘的問題帶來了機會。由于XML能夠使不同來源的結構化的數據很容易地結合在一起,因而使搜索多樣的不兼容的數據庫能夠成為可能,從而為解決Web數據挖掘難題帶來了生機。XML的擴展性和靈活性允許XML描述不同種類應用軟件中的數據,從而能描述搜集的Web頁中的數據記錄。同時,由于基于XML的數據是自我描述的,數據不需要有內部描述就能被交換和處理。隨著XML作為在Web上交換數據的一種標準方式的出現,面向Web的數據挖掘變得越來越輕松、普遍。

主站蜘蛛池模板: 天天色天天操综合网| 国产亚洲高清视频| 欧美国产日韩在线播放| 久久人人妻人人爽人人卡片av| 国产亚洲精品无码专| 99视频在线免费| 全午夜免费一级毛片| 亚洲a级在线观看| 亚洲美女高潮久久久久久久| 伊人久久久大香线蕉综合直播| 国产97色在线| 91亚瑟视频| 伊大人香蕉久久网欧美| 狠狠做深爱婷婷久久一区| 亚洲伦理一区二区| 欧美在线综合视频| 亚洲天堂区| 制服丝袜国产精品| 欧美色99| 一本一道波多野结衣av黑人在线| 91麻豆久久久| 亚洲免费成人网| 久久精品一卡日本电影| 99久久成人国产精品免费| 欧美成人午夜在线全部免费| 免费AV在线播放观看18禁强制| 久久亚洲国产视频| 国精品91人妻无码一区二区三区| 亚洲天堂视频网站| 99视频精品全国免费品| 波多野结衣第一页| 97久久精品人人| 黄色网址免费在线| 毛片免费在线视频| 国产流白浆视频| 国产一二视频| 国产无码精品在线播放| 欧美日韩亚洲国产主播第一区| 亚洲香蕉在线| 欧美笫一页| 亚洲国产亚综合在线区| 久久精品66| 久久综合伊人77777| 91黄视频在线观看| 波多野结衣无码AV在线| 精品国产自| 亚洲成a人片| 精品三级在线| 亚洲第一国产综合| 无码一区中文字幕| 伊人久久青草青青综合| 婷五月综合| 日韩AV无码一区| 欧美特黄一免在线观看| 伊人查蕉在线观看国产精品| 亚洲精品第一在线观看视频| 国产喷水视频| 伊人色天堂| 国产精品不卡片视频免费观看| 国模在线视频一区二区三区| 亚洲精品天堂在线观看| 国产高清免费午夜在线视频| 91成人在线观看视频| 亚洲AⅤ综合在线欧美一区| 国产超碰在线观看| 国产Av无码精品色午夜| …亚洲 欧洲 另类 春色| 一级毛片免费的| 日本一本正道综合久久dvd| 国产AV毛片| A级毛片高清免费视频就| 亚洲av无码成人专区| 国产视频a| 凹凸精品免费精品视频| 99精品视频播放| 黄色网页在线播放| 国产主播喷水| 国产精品尤物在线| 国产在线拍偷自揄观看视频网站| 国产精品久线在线观看| 亚洲区一区| 午夜影院a级片|