摘要Web數據挖掘是目前信息技術中的研究熱點,它是現代科學技術相互滲透融合的必然結果。文章首先介紹了web 數據挖掘的含義,重點討論了web 數據挖掘的類型以各種類型的web 數據挖掘的基本過程以及它們所使用的一些相關技術及應用,并對數據挖掘的發展前景和方向進行了展望。
關鍵詞數據挖掘;Web數據挖掘;相關技術
引言
隨著Internet 的進一步發展和完善,各種基于Internet的應用業務也如雨后春筍般的發展起來,例如網上商店、網上銀行、遠程教育、遠程醫療等。我們應該看到Internet在給我們帶來機遇的同時也帶來了挑戰,它使得WWW 上的一些主要工作, 例如Web 站點設計、Web 服務設計、Web 站點的導航設計、電子商務等工作變得更為復雜更為繁重。對于網站經營方來說,他們需要更好的自動輔助設計工具, 可以根據用戶的訪問興趣、訪問頻度、訪問時間動態的調整頁面結構,改進服務, 開展有針對性的電子商務以更好的滿足訪問者的需求。解決這種需求的一個有利的工具就是Web 數據挖掘。
1. Web 數據挖掘概述
Web挖掘是一項綜合技術,涉及Web、數據挖掘、計算機語言學、信息學等多個領域。Web挖掘就是從Web 文檔、Web活動中抽取感興趣的、潛在的有用模式和隱藏信息。Web 挖掘是指從大量Web文檔結構和使用的集合C中發現隱含的模式p。如果將C看作輸入,p看作輸出,那么Web挖掘的過程就是從輸入到輸出的一個映射ξ:C→p
Web挖掘從數據挖掘發展而來,因此其定義與我們熟知的數據挖掘定義相類似,都是在對大量的數據進行分析的基礎上,作出歸納性的推理,預測客戶的行為,幫助企業的決策者調整市場策略,減少風險,作出正確的決策的過程。但是對Web 進行有效的資源和知識挖掘面臨極大的挑戰:(1)對有效的數據倉庫和數據挖掘而言,Web 似乎太龐大了。(2)Web頁面的復雜性高于任何傳統的文本文件。(3) Web是一個動態性極強的信息源。(4) Web上的信息只有很小的一部分是相關的或有用的。這些挑戰推動了如何有效地發現和利用Internet 的資源的研究工作。
1.1 與傳統的數據挖掘相比較
1.1.1 數據源具有很強的動態性。
1.1.2 挖掘目的的模糊性。
1.1.3 數據類型的多態性。
1.1.4 數據信息的分布性、多維性。
1.2 Web 數據的特點
1.2.1 數據量巨大
Internet把分布于世界不同位置的電腦(服務器)連接了起來,每個電腦上都存有豐富的數據,這些數據涉及各種不同的行業和領域,又由于連接于Internet 的電腦數量非常巨大。
1.2.2 異構數據庫環境
每一個Web站點都可以看作是一個數據源,由于各站點是相互獨立的, 之間除了可以互相訪問之外并沒有任何關系,所以每個站點之間的信息及信息組織方式都是不相同的,這就構成了一個巨大的異構數據庫環境。
1.2.3半結構化的數據結構
Web上的數據與傳統數據庫中的數據不同之處還在于傳統數據庫都有一定的模型,可以根據數據模型來對具體的數據進行描述,而Web 站點中的數據不存在統一的模型,各站點都是獨自設計,并且站點中的數據是處于不停變化之中的。
2.Web數據挖掘相關技術
Web 挖掘應用非常廣泛,對Web挖掘相關技術的研究也很多,針對上述不同類別的Web 挖掘,有不同的相關技術,下面分別介紹。一般地,Web挖掘可以分為三類:Web 內容挖掘(Web content mining)、Web 結構挖掘(Web structure mining)、和Web 使用模式的挖掘(Web usage mining) 。
2.1技術分類
2.1.1Web內容挖掘
Web內容挖掘是從文檔內容或其描述中抽取知識的過程。主要有兩種策略:直接挖掘文檔的內容,或在其它工具搜索的基礎上進行改進。采用第一種策略的有針對Web 的查詢語言WebLOG,利用啟發式規則來尋找個人主頁信息的AHOY等。采用第二種策略的方法主要是對搜索引擎的查詢結果進行進一步的處理,得到更為精確和有用的信息。屬于該類的有WebSQL,及對搜索引擎的返回結果進行聚類的技術等。
2.1.2 Web 結構挖掘
Web 結構挖掘是從WWW的組織結構和鏈接關系中推導知識。由于文檔之間的互連WWW能夠提供除文檔內容之外的有用信息。利用這些信息,可以對頁面進行排序發現重要頁面。這方面的代表有PageRank〗和CL EVER,此外,在多層次Web數據倉庫(MLDB)中也利用了頁面的鏈接結構。
2.1.3 Web 使用挖掘
Web使用挖掘的主要目標是從Web 的訪問記錄中抽取感興趣的模式。WWW 中每個服務器保留了訪問日志,記錄關于用戶訪問和交互的信息。分析這些數據可以幫助理解用戶的行為從而改進站點的結構,或為用戶提供個性化的服務。
2.2 Web 數據挖掘研究領域及發展
2.2.1 Web 數據挖掘的研究領域類型根據對Web 數據的感興趣程度不同,Web 挖掘一般可以分為三類: 網絡內容挖掘(Web Content mining) 、網絡結構挖掘(Web structure mining) 、網絡用法挖掘(Web usage Mining)
2.2.2 網絡內容挖掘網絡信息內容是由文本、圖像、音頻、視頻、元數據等形式的數據組成的。網絡內容挖掘就是一個從網絡信息內容中發現有用信息的過程。由于網絡信息內容有很多是多媒體數據, 因此網絡內容挖掘也將是一種多媒體數據挖掘形式。
2.2.3 網絡結構挖掘網絡結構挖掘就是挖掘Web潛在的鏈接結構模式。通過分析一個網頁鏈接和被鏈接數量以及對象來建立Web自身的鏈接結構模式。這種模式可以用于網頁歸類,并且由此可以獲得有關不同網頁間相似度及關聯度的信息。網絡結構挖掘有助于用戶找到相關主題的權威站點。
2.2.4網絡用法挖掘網絡內容挖掘和網絡結構挖掘的挖掘對象是網上的原始數據,而網絡用法挖掘面對的則是在用戶和網絡交互的過程中抽取出來的第二手數據,包括網絡服務器訪問記錄、代理服務器日志記錄、瀏覽器日志記錄、用戶簡介、注冊信息、用戶對話或交易信息、用戶提問方式等。通過網絡用法挖掘,可以了解用戶的網絡行為數據所具有的意義。
2.3 Web數據挖掘的四個步驟
2.3.1查找資源:任務是從目標Web 文檔中得到數據。
2.3.2信息選擇和預處理:任務是從取得的Web資源中剔除無用信息和將信息進行必要的整理。2.3.3模式發現:自動進行模式發現??梢栽谕粋€站點內部或在多個站點之間進行。
2.3.4模式分析: 驗證、解釋上一步驟產生的模式。
3. Web數據挖掘的應用
3.1 Web挖掘在搜索引擎方面的應用
通過對網頁內容的挖掘,可以實現對網頁的聚類和分類,實現網絡信息的分類瀏覽與檢索。運用Web挖掘技術改進關鍵詞加權算法,提高網絡信息的標引準確度, 改善檢索效果。參與搜索服務市場的有多家實力企業,如Google、雅虎(Yahoo!) 及微軟(Microsoft) 等巨頭企業, 以及若干規模較小但有特定市場區隔或技術者如dTSearch、Copernic 等Google 提供更多的技術,會自動找尋常用的字詞,盡量縮短搜索時間,提高效率。
3.2Web挖掘在電子商務方面的應用
Web挖掘這方面的應用可以為企業更有效的確認目標市場、改進決策獲得更大的競爭優勢提供幫助,從中可得到商家用于特定消費群體或個體進行定向營銷的決策信息。電子商務方面的Web挖掘功能主要是如下幾個方面:首先,客戶分類和客戶聚類。對Web 的客戶訪問信息進行挖掘,對客戶進行分類分析。應用聚類分析對客戶進行分組, 并且分析組中客戶的共同特征, 這樣就可以讓商家更好了解自己的客戶, 向客戶提供更有針對性的服務。其次是找到潛在的客戶。在對Web 的客戶訪問信息的挖掘中, 利用分類技術可在因特網上找到未來的潛在客戶。最后保留客戶的駐留時間, 對于客戶而言,在網上每個銷售商對于客戶來說都是一樣的, 如何盡量使客戶在自己的網上駐留更長的時間, 這樣對于商家才能有更多客戶和更大的利潤空間。
3.3 Web 數據挖掘在網絡教育中的應用
教育網絡化的趨勢不僅為學生提供了便利的學習方式和廣泛的選擇,也為學校提供了更加深入了解學生需求信息和學生行為特征的可能性。由于受教育對象個體之間存在著極大的差異性,網絡教學也必須是一種適應個別化學習需求的個性化教學。這種個性化教學的提供,是通過將傳統的數據挖掘(Data Mining) 同Web 結合起來,進行Web 數據挖掘,即從Web 文檔和Web 活動中抽取學生感興趣的潛在的有用模式和隱藏的信息,作為對學生提供個性化教學服務的依據,協助管理者優化站點結構,提高站點效率,更好地為網絡教育服務。
3.4在網站設計中的應用
在網站設計方面中的應用,主要是通過對網站內容的挖掘,特別是對文本內容的挖掘,可以有效地組織網站信息,如采用自動歸類技術實現網站信息的層次性組織;通過對用戶訪問日志記錄信息的挖掘,把握用戶感興趣的信息,從而有助于開展網站信息推送服務以及個人信息的定制服務,吸引更多的用戶。
4. 結束語
社會的發展越來越離不開信息的傳播與使用,在數據量急劇增長的情況下如何高效地檢索出使用者需要的信息更加顯得重要,Web 數據挖掘正是因為滿足了這方面的需要才能獲得如此迅速的發展, Web 挖掘技術也將成為重要的研究課題和方向。
參考文獻
[1] 曼麗春, 朱宏, 楊全勝. Web 數據挖掘研究與探討[J].現在電子技術2005 (8) :3~6
[2] 夏火松. 數據倉庫與數據挖掘技術[M]. 科學出版社,2004.207- 227.
[3] Jiawei Han,Micheline Kamber.DataMining:Concept and Techniques[M].Morgan Kaufmann Publishers,Inc 2001.272- 312.
[4] 陳文偉.黃金才.趙新昱.數據倉庫與數據挖掘技術[M].北京:北京大學出版社,2002.1- 14.
[5] 王繼成.潘金貴.Web 文本挖掘技術研究[J].計算機研究與發展,2000,37(5):513- 520.
(作者單位:浙江理工大學)