使用ＸＭＬ基于Ｗｅｂ的數據挖掘及其應用

2008-12-31 00:00:00阮忠楊云峰

電腦知識與技術 2008年9期

摘要：介紹了Web數據挖掘的含義，重點討論了Web數據挖掘的類型以各種類型的Web數據挖掘的基本過程以及它們所使用的一些相關技術，最后指出網絡信息挖掘的應用前景。

關鍵詞：Web數據挖掘；XML；JAVA

中圖分類號：TP311文獻標識碼：A文章編號：1009-3044(2008)09-11573-03

The Application of Data Mining Based on Web Using XML

RUAN Zhong， YANG Yun-feng

(Department of Computer and Information Science，Hechi University， Yizhou 546300， China)

Abstract: Introduce data mining based on WEB， mainly discuss the category of Web data mining and all kinds of WEB data mining basic procedure and some technique use on it. Finally point out the prospect of WEB data mining.

Key words: Web data mining; XML; JAVA

1 引言

隨著網絡信息資源的飛速增長，萬維網已經成為一個巨大的，全球分布的信息服務中心，它涉及新聞、廣告、消費信息、金融管理、教育、政府、電子商務和許多其他信息服務，Web還包含了豐富和動態的超鏈接信息，這些都為數據挖掘提供了豐富的資源。數據挖掘就是從大量的數據中發現隱含的規律性的內容，解決數據的應用質量問題。充分利用有用的數據，廢棄虛偽無用的數據，是數據挖掘技術的最重要的應用。相對于Web的數據而言，傳統的數據庫中的數據結構性很強，即其中的數據為完全結構化的數據，而Web上的數據最大特點就是半結構化。所謂半結構化是相對于完全結構化的傳統數據庫的數據而言。顯然，面向Web的數據挖掘比面向單個數據倉庫的數據挖掘要復雜得多。

2 網絡挖掘的過程及其分類

對于檢索信息過程有很多方法可以使用。一般情形下，我們以互聯網上的電子文檔、HTML文檔和數據庫為信息源。信息的選擇和預處理是一個轉換的過程，它們可以被認為是從信息資源中檢索有用的數據。網絡挖掘是從網絡數據中發現潛在的有種自動地從現在數據中抽取半結構化模型的技術。面向Web的數據挖掘必須以半結構化模型和半結構化數據模型抽取技術為前提。用信息的過程，是數據庫知識發現（KDD）的延伸。

事實上，數據挖掘、機器學習和高級數據分析之間有著緊密的聯系。網絡信息的檢索是信息發現過程中的快速網絡內容挖掘。實際上，信息檢索是自動檢索所有相關的信息，同時盡可能少的檢索無關的信息。近些年來，信息檢索的研究涉及到模型、文件分類、使用者界面、數據可視化、數據過濾等領域。信息提取過程側重的是有關文件的價值和結構，并且將從信息資源中得到的文件內容轉換為信息。然而，如果信息檢索的重點是信息提取，或在一個全面的文件信息檢索系統可以提供一些信息提取時，則信息檢索和信息提取的區別就變得混淆起來。另外，還有其他系統使用數據挖掘技術或機器學習技術去自動或半自動地獲取網絡文件的規則和模式。經典的信息提取經常依賴于語言上的預處理，比如語法分析、語義分析、語篇分析等。

由此可以把網絡挖掘分為兩類：網絡內容挖掘和網絡使用挖掘（見表1）。網絡內容挖掘是指從“網絡內容”即數據或文件中發現有用的信息?；ヂ摼W上擁有不同類型的數據資源，如FTP和新聞組網絡系統（Usenet），其中大多數的這類數據都可以從網絡上得到。

3 使用XML實現基于Web的數據挖掘方法

數據挖掘技術的關鍵是把現有的Web頁面轉換成XML或轉換成XHTML，并使用眾多工具中的一小部分來處理XML結構的數據，以檢索出適當的數據。Tidy（可以從一些編程語言中獲取的庫）是一個免費使用的產品，可用于改正HTML文檔中的常見錯誤并生成格式編排良好的等價文檔。還可以使用Tidy來生成XHTM（XML的子集）格式的文檔。Web頁面只有在創建了一個可合并到現有數據集的數據集后才會被檢索和處理。

3.1 數據抽取方法

以下列出這些步驟是為了提供該過程的簡要說明：(1)標識數據源并把它映射成XHTML；(2)查找數據內的引用點；(3)將數據映射成XML；(4)合并結果并處理數據。

3.2 獲取源信息

在大多數情況下，為了抽取數據，需要知道在哪里找到它。源信息是顯而易見的：如果要從health收集關于健康文章的標題和URL，使用http://www.cctv.com/health作為目標。在考慮信息源時，要注意三個方面的因素，首先信息源是否在可靠的網絡連接上生成可靠的數據，其次信息源從現在起將存在多久，最后信息源的布局結構的穩定性。我們在尋求能夠在動態環境下工作的健壯的解決方案過程中，在抽取可用的最可靠和最穩定的信息源時，工作將是最簡單的。一旦確定了信息源，在抽取過程中的第一步就是將數據從HTML轉換成XML。通過構造名為XMLHelper的Java類來完成這一任務以及其它與XML相關任務。通過使用Tidy庫提供的函數在XMLHelper.tidyHTML()方法中執行轉換。這個方法接受URL作為一個參數并返回一個“XML文檔”作為結果。其中XMLHelper.tidyHTML()方法的關鍵代碼如下：

public static Document tidyHTML (URL url) {

URLConnection inConnection = url.openConnection();

if( inConnection.getContentType().startsWith(\"text/xml\")||

inConnection.getContentType().startsWith(\"text/xhtml\")){

// 準備好XML源

return parseXMLFromURL(url);

} else if(inConnection.getContentType().startsWith(\"text/html\"))

{ // HTML源

InputStream is = inConnection.getInputStream();

// 清除輸入流

Org.w3c.tidy.TagTabletags

= org.w3c.tidy.TagTable.getDefaultTagTable();

Tags.defineBlockTag(\"script\");

Tidy tidy = new Tidy();

// 設置tidy對象等屬性

tidy.setCharEncoding(org.w3c.tidy.Configuration.ASCII);

org.w3c.tidy.Node tNode = tidy.parse(in，baos);

String result =\"\\" +

baos.toString();

return parseXMLFromString(result);

}

通過執行下列代碼可以驗證上述功能：

/*** 抽取HTML頁面，轉換成XML，并且寫入文件***/

public static void main (String args[]) {

DOCUMENT DOC = XMLHelper.tidyHTML(\"http://www.cctv.Com/health/man.html\");

XMLHelper.outputXMLToFile ( doc，\"XML\" + File.separator + \"man.xml\");

}

然后在Microsoft的Internet Explorer XML 查看器使用man頁面中的XML。

3.3 查找數據的引用點

無論是在Web頁面還是源XHTML視圖中的絕大多數的信息都與我們完全無關。接下來的是在XML樹中找出一個特定區域，從中抽取我們的數據而無須關心外來信息。對于更復雜的抽取，我們可能需要在單個頁面上找出這些區域的若干實例。完成這一任務的最簡單的辦法是先檢查Web頁面，然后使用XML。只需要看一下頁面，就可以知道我們正在查找的信息位于頁面的中上部區域中。即使對HTML的熟悉程度非常有限，也易推斷出正在查找的數據可能都包含在同一個＜table＞元素下，并且這個表可能總是包含像“心理健康”和“壓抑癥”這樣的詞，同時需要考慮頁面所生成的XHTML，把該表作為引用點或錨。我們需要找到這個錨的方法，使用XSL來轉換所得XML，通過使用XPath表達式來完成這個任務。用以下這個普通的表達式：/html/body/center/table[6]/tr[2]/td[2]/table[2]/tr/td/table[6]。更好的辦法是利用XSL將XML樹轉換成字符串的方法：

//table[ starts-with(normalize-space(.)，'Appar Temp')]

3.4 將數據映射成XML

擁有這個錨，我們可以創建實際抽取數據的代碼，這個代碼將以XSL文件的形式出現。XSL 文件的目的是標識錨，指定如何從錨獲取我們正在查找的數據（以簡短跳躍的方式），并且用我們所需的格式構造一個XML輸出文件。

XSL關鍵代碼如下：

＜xsl:template match =\"/html\"＞

＜RESULT＞

＜HEALTH＞

＜xsl:apply-templates/＞

＜/HEALTH＞

＜/RESULT＞

＜/xsl:template＞

＜xsl:template match=\"table[starts-with(normalize-space(.)，'心理健康')]\"＞

＜HEALTH＞

＜xsl:value-of select=\"tr/td[2]/font\"/＞

＜/HEALTH＞

只編寫XSL，并不能完成這個功能，還需要一個執行轉換的工具?，F在利用XMLHelper類方法對XSL 進行語法分析并執行這個轉換。執行這些任務的方法分別名為parseXMLFromURL()和trans-formXML()。我們可以通過下列代碼來測試：

public static void main(String args[]){

Document xhtml = XMLHelper.parseXMLFromURLString(\"file://health.xml\");

Document xsl = XMLHelper.parseXMLFromURLString(\"file://XSL/health.xsl\");

Document xml = XMLHelper.transformXML(xhtml，xsl);

XMLHelper.outputXMLToFile(\"XML\"+File.separator + \"result.xml\");

……

}

3.5 合并與處理結果

如果我們只執行一次數據抽取，現在已經完成了。但是，我們并不只是想知道某一時刻的健康資料，而是要知道若干不同時刻的健康資料。因此，我們需要做的是反復執行抽取過程，把結果合并到單個XML數據文件中。

4 結束語

面向Web的數據挖掘是一項復雜的技術，由于Web數據挖掘比單個數據倉庫的挖掘要復雜的多，因而面向Web的數據挖掘成了一個難以解決的問題。而XML的出現為解決Web數據挖掘的難題帶來了機會。相信今后，隨著XML作為在Web上交換數據的一種標準方式的出現，面向Web的數據挖掘將會變得非常輕松。今后幾年Web 挖掘研究的主要方向有：

(1)在數據預處理方面，多種Web數據的收集、結構轉換等處理技術的研究;

(2)Web挖掘方法和模式識別技術在構造自適應站點以及智能站點服務的個性化和性能優化方面的研究;

(3)Web知識庫的動態維護、更新，各種知識和模式的評價綜合方法的研究;

(4)基于Web挖掘和信息檢索的，高效的、具有自動導航功能的智能搜索引擎相關技術的研究。

總之，網絡挖掘作為一種新興的信息分析技術并沒有一個完善的預設結構，還需要進行不斷的科學探索根據目前的研究狀況預測。

參考文獻：

[1] Han J，Kamber M. 范明，孟小峰譯. 數據挖掘:概念與技術[M]. 北京:機械工業出版社，2001.

[2] 王實，高文，李錦濤. Web 數據挖掘[J]. 計算機科學，2000，27(4).

[3] 鄧英，李明. Web 數據挖掘技術及工具研究[J]. 計算機與應用，2001，(20).

[4] Kleinberg J M. Authoritative sources in a hyperlinked environment[J]. Journal of ACM，1999，46(5):604-632.

[5] Lawrence S，Giles C L. Accessibility and distribution of information on the Web[J]. Nature，1999，(400):107-109.

[6] WOHLWEND H， ROSENBAUM S. Software Improvements in an International Company[C]. //Proceedings of the 15th International Conference of Software Engineering， Washington DC， 1993，5:32235.

[7] PAULKM C， CURTIS B， CHR ISSISM B， et al. Capability Maturity Model for Software [J]. Software Engineering Institute， 1991(8):1252128.

[8] SAM I ZAHRAN. Software Process Improvement[M]. Pearson Education Inc， 2002:1122134.

電腦知識與技術2008年9期

電腦知識與技術的其它文章: 基于Ｉｎｔｅｒｎｅｔ的文獻檢索課教學系統的設計與實現; ＣＡＬＬ在計算機專業英語教學中的應用; 基于Ｍｏｏｄｌｅ的《電子商務基礎》網絡課程的設計與開發研究; 試分析ＦＬＡＧＳ中各狀態標志位的狀態; 基于Ｍｕｌｔｉｓｉｍ８的元件模型的導入和應用; 信息系統工程監理簡述