三峽電力職業學院電力工程學院 熊富琴
Web數據挖掘綜述
三峽電力職業學院電力工程學院熊富琴
本文對Web數據挖掘進行了詳細的綜述。首先探討了Web上面數據特征提取方法,從Web內容挖掘、結構挖掘、使用挖掘三個角度介紹了相應的技術。由于Web的異構性,使得Web數據挖掘稱為一個難點,必須綜合數據挖掘的各種技術,才能得以實現。然后本文介紹了一個關于電子商務數據挖掘應用的實例并強調了Web數據挖掘的重要意義。最后總結和現存的問題,并對未來的研究熱點進行展望。
Web數據挖掘;挖掘流程;網頁;Web內容挖掘;Web日志挖掘
隨著互聯網絡蓬勃發展,計算機已經稱為人們生活中無法缺少的工具,由此人人都在想互聯網上增加信息,Web上的數據日益增多,從企業角度和普通用戶角度,怎樣更好的訪問互聯網,怎樣更好的讓互聯網為人們服務,稱為網絡發展下一個重要課題,本文探討了Web數據挖掘技術,它是勝過數據庫技術的一種更高效獲取信息的技術。
2.1Web數據挖掘概念
數據挖掘是指使用算法抽取信息和模式,是從數據中發現有用的信息和模式的過程的一個步驟。Web數據挖掘就是挖掘與萬維網有關的數據,既可以是網頁包含的數據也可以是Web操作所產生的數據。
2.2Web挖掘流程
Web上的信息是異構的或半結構化的、動態的、并且是容易造成混淆的,所以很難直接以Web網頁上的數據進行數據挖掘,而必須經過必要的數據處理。典型Web挖掘的數據處理流程包括:(1)查找資源;(2)信息清理和預處理;(3)模式發現;(4)模式分析。
2.3Web數據挖掘活動分類[1]
Web數據挖掘活動可分為三種:Web內容挖掘,Web結構挖掘和Web使用挖掘。
(1)Web內容挖掘
網頁使用HTML語言定義,因此是異構的,無法使用數據庫的查詢方法,查詢變得異常困難,而XML用于描述結構化的文檔,容易進行挖掘操作。基本的Web內容挖掘是一種文本挖掘。文本挖掘的功能可以用一個層狀結構表示,最簡單的位于最上一層,最下一層對應最復雜功能。目前已有研究把自然語言處理技術用于文本挖掘,以發現文本中隱含的語義。
(2)Web結構挖掘
Web結構挖掘是為Web的組織建立一個模型,模型用來對網頁進行分類或者為網頁建立相似性度量。同樣用于提高搜索引擎的效率,通過度量網頁的重要性,以及為傳統搜索引擎使用關鍵字搜索的結果進行優先級排序。PageRank算法用于提高搜索引擎的效果和效率,網頁的PageRank值通過指向它的網頁計算。
(3)Web使用挖掘
Web使用挖掘的研究對象是Web使用數據或者Web日志,Web日志是一列網頁訪問數據。Web日志有時被稱為點擊數據流,當從服務器角度分析時,挖掘發現的是提供服務的網站的信息,挖掘的結果可以幫組改善網站的設計。Web使用日式的格式需要進行格式轉換和清洗才能用于挖掘程序,稱之為預處理。然后使用若干種數據結構來記錄識別出的模式,例如trie就是一種樹結構。通過對存儲模式進行模式發現并歸類,最后將發現的模式拿來分析以確定其如何使用,例如刪除用戶不感興趣的模式。舉例說明,對電子商務網站的顧客和非顧客用戶的瀏覽模式進行比較,網站的訪問者被分為短期訪問者、調查者和顧客,通過預處理首先過濾掉短息訪問者,使用概念層次把網頁內容進行抽象,在將Web日志分為顧客和非顧客的,然后按照次數分析每部分日志以尋找模式,最后對每部分找到的模式作相似性比較,如果兩個模式的序列最開始至少n個網頁相同,那么這兩個模式相似,否則不相似。如果發現非顧客的模式,并且沒有相似的顧客模式,表明網站的鏈接結構或者網頁的內容設計需要更新。

圖1 Web挖掘分類
隨著互聯網的規模壯大,許多企業都建立了自己的電子商務網站。通過Web數據挖掘,及時了解企業的整體運營情況,針對問題快速做出反應;收集市場信息,及時反饋給高層決策者和研究開發等有關部門,進行高效、準確的市場決策。對銷售記錄、顧客信息的挖掘與分析,掌握最新的信息以獲得更多的市場,甚至可以根據顧客的查找興趣、查找頻率、查找時間動態地調整頁面結構,改進服務,給客戶個性化的界面,開發有鎖定性的電子商務,以更好地滿足查找者的需要。根據數據挖掘流程,建立以下模型[2],如圖2所示。

圖2 基于數據挖掘的電子商務模型
保存在計算機硬盤和數據庫中的數據正在飛速的增長,否則也不會有海量存儲問題的提出了。同時,這些數據是否值得繼續存儲,怎樣從現有數據中獲取更有價值的信息,成為計算機使用者的面臨的問題和期望實現的目標。只要人們一直使用計算機,那么數據就會一直不斷的增長,數據庫管理系統中的查詢即使再優化,它始終面臨由于數據量太大而效率異常低的問題。人們希望能夠更加高效的使用數據,數據挖掘就是能夠解決這些問題的技術。
數據挖掘當前的研究進展類似于早期數據庫的發展情況。由于可以將數據定義抽象化并且通過較少的必需的核心原語來存取數據,數據庫管理系統獲得了成功,對于數據挖掘任務也要進行這個抽象過程,并且分別處理每個任務。然后到目前為止數據挖掘工作都只是專注于特定的算法來實現每個單獨的數據挖掘任務,并沒有將數據挖掘任務進行抽象化。
在未來一段時間內,Web挖掘中的以下方面可能成為研究和應用熱點[3]。
(1)高性能Web搜索引擎。
(2)Web數據的特征描述與監控。
(3)Web數據的獲取與集成。
(4)Web數據流的挖掘。
(5)安全與非法訪問檢測。
(6)個性化與安全的隱私。
(8)Web挖掘的算法改進與質量的評估。
(9)Web挖掘在社會領域的應用。
本文從Web數據特征提取的方法入手,詳細介紹了Web數據挖掘技術的相關理論,數據挖掘流程、數據挖掘任務分類、數據挖掘相關算法等,并引用了一個在電子商務網站進行數據挖掘的實例對數據挖掘的重要性進行了驗證,然后探討了Web數據挖掘的意義和現存的問題,最后就當前社會應用問題對未來Web數據挖掘的研究熱點進行了總結。
[1]Margaret H.Dunham.Data Mining[M].北京:清華大學出版社.
[2]程苗.電子商務網站的Web數據挖掘方案設計[J].計算機科學,2007(8):34.
[3]胡學鋼.Web數據挖掘研究綜述[J].計算機應用研究,2007(6):24.
[4]R.Kosla and H.Blockeel.Web mining research a survey[J].SIG KDD Explorations,vol.2,pp.1-15,July 2000.
[5]YANG Xin,LIU Heng.A Data Mining Based on Intrusion Detection System Model[J].Computer Science,2003,30(1):124-127.
[6]李娟,董軍.Web數據挖掘技術綜述[J].南京職業技術學院學報,2008,8(2).
熊富琴(1982—),女,湖北鄖縣人,三峽電力職業學院講師,主要研究方向:計算機應用技術。