陳勇飛 王羨欠
[摘要]隨著Web應用的高速發展和廣泛普及,在Web服務器上收集大量的Web日志,這些日志記錄Web用戶對Web頁面的每一次訪問的過程,是一種寶貴的信息財富。主要介紹數據挖掘技術的應用。
[關鍵詞]Web日志 數據挖掘 應用
中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)0220072-01
一、Web數據挖掘技術
數據挖掘就是從大量的數據中提取隱含的、事先未知的、具有潛在價值的有用信息。隨著Web技術的發展,我們的網絡正在面臨著信息時代的挑戰,大量的數據和記錄充斥Internet,如何從中找到我們需要的有價值的信息和知識是我們面臨的問題。Web數據挖掘就是從與Web相關的資源和行為中抽取感興趣的、有用的模式和隱含信息的過程。Web包含了豐富和動態的超鏈接信息,以及Web頁面的訪問和使用信息,這為數據挖掘提供了豐富的資源。
(一)Web數據挖掘技術概述
Web數據挖掘可分為內容挖掘、使用記錄挖掘和結構挖掘等。所挖掘的對象為服務器日志數據、在線市場數據、Web頁面、Web頁面超鏈接關系及其它信息,通過對Web的挖掘,可從Web頁面中提取所需的知識:對總的用戶訪問行為、頻度、內容的分析,可得到關于群體用戶訪問行為和方式的普遍知識,用以改進我們的Web服務端設計。而更重用的是,通過對這些用戶特征的理解和分析,可以有助于開展有針對性的電子商務活動,而對每個用戶訪問行為、頻度、內容等的分析,能提取出每個用戶的特征,為用戶提供個性化的電子商務服務。發現Web用戶訪問模式可改進網站的拓撲結構以及改善分布式網絡系統的性能,如在有高度相關的站點間提供快速有效的訪問通道,幫助改善市場營銷決策等等。
(二)Web使用挖掘的過程
Web使用挖掘過程主要包括數據預處理過程、發現模式的過程以及分析結果模式的過程。如下圖1所示。

二、數據挖掘技術的應用
數據挖掘技術的潛在應用是十分廣泛的,從政府管理決策、商業經營、科學研究、工業企業決策支持和Internet服務等各個領域都可以找到數據挖掘技術的用武之地。下面舉出目前開展的比較活躍的數據挖掘的應用方向。
(一)商業中的應用
其實,數據挖掘技術從一開始就是面向應用的。目前,在銀行、電信、保險、交通、零售(如超級市場)等商業領域,數據挖掘所能解決的典型商業問題包括:數據庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation&Classification)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場分析行為,以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發現(Fraud Detection)等等。
數據挖掘技術在企業市場營銷中得到了比較普遍的應用,它是以市場營銷學的市場細分原理為基礎,其基本假定是“消費者過去的行為是其今后消費傾向的最好說明”。
通過收集、加工和處理涉及消費者消費行為的大量信息,確定特定消費群體或個體的興趣、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體或個體下一步的消費行為,然后以此為基礎,對所識別出來的消費群體進行特定內容的定向營銷,這與傳統的不區分消費者對象特征的大規模營銷手段相比,大大節省了營銷成本,提高了營銷效果,從而為企業帶來更多的利潤。
(二)企業中的應用
數據挖掘可用于對企業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助經營決策的關鍵性數據,可以挖掘出影響生產能力的關鍵因素如預測機器故障、預測生產銷售額、決定庫存量、批發點分布的規劃、調度等,甚至在企業危機管理中也得到了普遍的應用。信息是企業競爭的關鍵因素。在企業管理過程中,可以利用Web挖掘技術對企業外部環境信息進行收集、整理和分析,盡可能地收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求信息、消費者等與企業發展有關的信息,集中精力分析處理那些對企業發展有重大或潛在重大影響的外部環境信息,抓住轉瞬即逝的市場機遇,獲得企業發展的先兆信息,采取有效措施規避危機,促使企業健康、持續地發展。
利用數據挖掘技術、數據倉庫技術和聯機分析技術,管理者能夠充分利用企業數據倉庫中的海量數據進行分析,并根據分析結果找出企業經營過程中出現的各種問題和可能引起危機的先兆,如經營不善、觀念滯后、產品失敗、戰略決策失誤、財務危機等內部因素引起企業人、財、物、產、供、銷的相對和諧平衡體遭到重大破壞,對企業的生存、發展構成嚴重威脅的信息,及時做出正確的決策,調整經營戰略,以適應不斷變化的市場需求。
(三)Internet上的應用
Internet上有海量的數據信息,怎樣對這些數據進行復雜的應用成了現今數據庫技術的研究熱點。數據挖掘就是從大量的數據中發現隱含的規律性的內容,解決數據的應用質量問題。充分利用有用的數據,廢棄虛偽無用的數據,是數據挖掘技術的最重要的應用。除了Web內容,其服務效率也很重要,通過Web日志數據挖掘,可以提供網站服務效率全方位的信息。從而有助于找到平衡服務器負荷,優化傳輸減少擁塞的方法,縮短用戶等待時間,提高系統效率和服務質量。
隨著Internet技術的迅猛發展,Web結構的復雜度也在飛速地提高。因此,Web站點和Web服務器的設計和維護難度也在增加,通過Web日志數據挖掘提供的用戶使用網站信息,可以幫助網站設計者確定如何修改網站結構。
參考文獻:
[1]吳艷,web日志挖掘技術的研究及應用[D].杭州,浙江工業大學.
[2]楊厚群,web日志挖掘技術及應用研究[D].重慶,重慶大學.