摘要:該文對Web數據挖掘技術的基本思想進行了介紹,描述了對內容、結構、使用等進行挖掘的三種主要Web數據挖掘類型,并對典型Web數據挖掘的處理流程進行了說明。
關鍵詞:Web數據挖掘;分類;流程
中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2009)26-7335-01
WebData Mining Technology
SONG Yu
(Wuhan Institute of Shipbuilding Technology, Wuhan 430050, China)
Abstract: In this paper, Webdata mining technology, the basic idea was introduced to describe the content, structure, excavation of the use of three main types of Webdata mining, and a typical Webdata mining process are described.
Key words: Webdata mining; classification; process
所謂數據挖掘Data Mining 就是從大量的、不完全的、有噪聲的、模糊的、隨機的原始數據中提取隱含在其中的、事先未知的、但又是潛在有用的信息和知識的過程 。
1 什么是Web的數據挖掘
Web挖掘是從Web資源上抽取信息或知識的過程,它是將傳統的數據挖掘的思想和方法應用于Web,從Web文檔和Web活動中抽取感興趣的、潛在的、有用的模式和隱藏信息。Web挖掘可在多方面發揮作用,如搜索引擎結構的挖掘,搜索引擎的開發,改進和提高搜索引擎的質量和效率,確定權威頁面。Web挖掘研究覆蓋了多個研究領域,包括數據庫技術、信息獲取技術、統計學、人工智能中的機器學習和神經網絡等。特別是電子商務領域,通過對用戶特征的理解和分析,如對用戶訪問行為、頻度、內容等的分析,提取出用戶的特征,從而為用戶定制個性化的界面,有助于開展有針對性的電子商務活動。
2 Web數據挖掘的分類
根據挖掘的對象不同我們可以把基于Web的數據挖掘分為三大類:
1) Web內容的挖掘(WebContent Mining)
所謂Web內容的挖掘實際上就是從Web文檔及其描述中獲取知識, Web文檔文件挖掘以及基于概念索引或Agent 技術的資源搜索也應該歸于此類。Web信息資源類型眾多,目前WWW 信息資源已經成為網絡信息資源的主體,然而除了大量的人們可以直接從網上抓取、建立索引、實現查詢服務的資源之外,相當一部分信息是隱藏著的數據(如由用戶的提問而動態生成的結果,存在于數據庫系統中的數據,或是某些私人數據)無法被索引,從而無法提供對它們有效的檢索方式,這就迫使我們把這些內容挖掘出來。若從信息資源的表現形式來看,Web信息內容是由文本、圖像、音頻、視頻、元數據等種種形式的數據組成的,因而我們所說的Web內容的挖掘也是一種針對多媒體數據的挖掘。
2) Web結構的挖掘(WebStructure Mining)
這一類型的挖掘是從萬維網的整體結構和網頁上的相互鏈接中發現知識的過程,它主要挖掘Web潛在的鏈接結構模式。這種思想源于引文分析,即通過分析一個網頁鏈接和被鏈接數量以及對象來建立Web自身的鏈接結構模式。這種模式可以用于網頁歸類并且可以由此獲得有關不同網頁間相似度及關聯度的信息。Web結構挖掘有助于用戶找到相關主題的權威站點,而且對網絡資源檢索結果的排序有很大意義。
3) Web使用的挖掘(WebUsage Mining)
Web使用的挖掘,也稱為Web日志挖掘(WebLog Mining)。與前兩種挖掘方式以網上的原始數據為挖掘對象不同,基于Web使用的挖掘面對的是在用戶和網絡交互的過程中抽取出來的第二手數據。這些數據包括:網絡服務器訪問記錄、代理服務器日志記錄、用戶注冊信息以及用戶訪問網站時的行為動作等等。Web使用挖掘將這些數據一一紀錄到日志文件中,然后對積累起來的日志文件進行挖掘,從而了解用戶的網絡行為數據所具有的意義。我們前面所舉的例子正屬于這一種類型。
3 Web挖掘技術的流程
Web挖掘指使用數據挖掘技術在WWW數據中發現潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個研究領域,包括數據庫技術、信息獲取技術、統計學、人工智能中的機器學習 和神經網絡等。Web挖掘可以在很多方面發揮作用,如對搜索引擎的結構進行挖掘,確定權威頁面,Web文檔分類,Weblog挖掘,智能查詢,建立MetaWeb數據倉庫等。
典型Web數據挖掘的處理流程如下:
3.1 查找資源
任務是從目標Web文檔中得到數據,值得注意的是有時信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組,或者網站的日志數據甚至是通過Web形成的交易數據庫中的數據。
3.2 信息選擇和預處理
任務是從取得的Web資源中剔除無用信息和將信息進行必要的整理。例如從Web文檔中自動去除廣告連接、去除多余格式標記、自動識別段落或者字段并將數據組織成規整的邏輯形式甚至是關系表。
1) 模式發現
自動進行模式發現。可以在同一個站點內部或在多個站點之間進行。
2) 模式分析
驗證、解釋上一步驟產生的模式。可以是機器自動完成,也可以是與分析人員進行交互來完成。
4 結束語
Web數據挖掘還有待進一步的研究,尤其是近來對Web內容挖掘方面集中在信息集成,如建立基于Web的知識庫或基于Web的數據倉庫的研究上。
參考文獻:
[1] 范明,孟小峰.數據挖掘概念與技術[M].北京:機械工業出版社,2007.
[2] 將座東,黃發良.基于Web的數據挖掘研究綜述[J].湖南工程學院學報,2007(3):61-64.
[3] 朱德利.Web結構挖掘的XML實現策略[J].計算機工程與設計,2006(12):4447-4449.