
摘要:本文在介紹了Web數(shù)據(jù)挖掘、Agent技術的概念和特點的基礎上,提出了一種面向電子商務的多AgentWeb數(shù)據(jù)挖掘模型。利用這種模型可以把任務由大化小,由復雜變簡單,簡化了問題的復雜性。
關鍵詞:Web;數(shù)據(jù)挖掘;電子商務;Agent
1引言
隨著Internet及Web技術的快速發(fā)展,各類電子商務網(wǎng)站風起云涌。 在競爭日益激烈的電子商務市場中,只有贏得用戶才能最終贏得競爭的優(yōu)勢。一個網(wǎng)站每天需要搜集和處理大量的數(shù)據(jù),如何將這些繁瑣的數(shù)據(jù)轉換為有價值的信息和知識是我們面臨的問題。利用數(shù)據(jù)挖掘技術可以有效地幫助網(wǎng)站經(jīng)營者分析網(wǎng)上獲取的數(shù)據(jù),提取出有效信息,進而調(diào)整營銷策略,給客戶提供個性化的高效率服務。Web數(shù)據(jù)挖掘正是使用Web技術,從網(wǎng)站數(shù)據(jù)庫中發(fā)現(xiàn)知識的過程。
2 Web數(shù)據(jù)挖掘
2.1 Web數(shù)據(jù)挖掘概念
Web數(shù)據(jù)挖掘是是從數(shù)據(jù)挖掘發(fā)展過來的集Web技術、數(shù)據(jù)挖掘、計算機技術、信息科學等多個領域的一項技術。Web數(shù)據(jù)挖掘可從大量的Web文檔及Web服務中自動發(fā)現(xiàn)蘊涵的、未知的、有潛在應用價值的、非平凡的信息。它所處理的對象包括:靜態(tài)網(wǎng)頁、Web數(shù)據(jù)庫、Web結構、用戶使用記錄等信息。通過對這些信息的挖掘,可以得到僅通過文字檢索所不能得到的信息。
基于Web的數(shù)據(jù)挖掘和傳統(tǒng)的基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘有著不同的含義。Web挖掘的研究對象是以半結構化和非結構文檔為中心的Web,這些數(shù)據(jù)沒有統(tǒng)一的模式,數(shù)據(jù)的內(nèi)容和表示互相交織,數(shù)據(jù)內(nèi)容基本上沒有語義信息進行描述,僅僅依靠HTML語法對數(shù)據(jù)進行結構上的描述。為了對這種半結構化數(shù)據(jù)進行分析和處理,Web挖掘必須和其研究手段結合起來。由于涉及到很多的知識領域,Web挖掘現(xiàn)在是多個研究方向的交匯點,包括數(shù)據(jù)庫、信息獲取、人工智能、機器學習、模式識別、統(tǒng)計學、自然語言處理等。
2.2 Web數(shù)據(jù)挖掘的類型
電子商務網(wǎng)站中Web信息的多樣性決定了挖掘任務的多樣性。按照Web數(shù)據(jù)類型的不同,Web數(shù)據(jù)挖掘可以分為三種類型:Web內(nèi)容挖掘、Web結構挖掘以及Web使用模式挖掘,如圖1。
(1)Web內(nèi)容挖掘。Web內(nèi)容挖掘是自動地從數(shù)以萬計的Web站點和在線數(shù)據(jù)庫中搜索和獲取信息和資料的過程,從Web文檔的內(nèi)容信息中挖掘出隱藏在網(wǎng)絡數(shù)據(jù)或文檔中的知識內(nèi)容知識。網(wǎng)絡信息資源類型眾多,從網(wǎng)絡資源的形式來看,包括文本、圖像、音頻、視頻等形式的數(shù)據(jù),因此Web內(nèi)容挖掘可又可將其分為基于文本的挖掘和基于多媒休的挖掘。目前Web文本挖掘已經(jīng)有了比較實用的功能。
(2)Web結構挖掘。整個Web空間里,有用的知識不僅包含在Web頁面的內(nèi)容之中,而且也包含在頁面的結構之中。Web結構挖掘就是挖掘Web潛在的鏈接結構模式,是對Web頁面超鏈接關系、文檔內(nèi)部結構、文檔URL中的目錄途徑結構的挖掘,所以Web結構挖掘又可將其分為超鏈接挖掘、內(nèi)部挖掘和URL挖掘。
(3)Web使用模式挖掘。Web使用模式挖掘(又稱為日志挖掘),是對用戶訪問Web服務器時留下的訪問記錄進行挖掘,從中得出用戶的訪問和訪問興趣的過程,主要用來了解用戶的網(wǎng)絡行為數(shù)據(jù)所具有的意義,是對現(xiàn)代電子商務戰(zhàn)略的一個重要支持,它通常可分為:一般訪問模式挖掘和個性化服務模式挖掘。
Web訪問日志,是登錄某個Web站點的用戶經(jīng)過一系列的站點瀏覽后,系統(tǒng)自動記錄的用戶瀏覽行為數(shù)據(jù),諸如用戶的IP、用戶的訪問時間、瀏覽過頁面的URIJ、請求方法、請求的字節(jié)數(shù)、客戶端的操作系統(tǒng)和瀏覽器版本號等。通過對Web站點上用戶訪問日志文件中的數(shù)據(jù)的挖掘,可以了解登錄Web站點的大多數(shù)用戶經(jīng)常采用的瀏覽模式、瀏覽路徑,從而改進站點的設計。
3 電子商務中的Web數(shù)據(jù)挖掘
3.1 電子商務中的Web挖掘算法
面向電子商務的Web數(shù)據(jù)挖掘主要包括Web內(nèi)容挖掘和Web日志挖掘。利用Web內(nèi)容挖掘,可進行電子商務海量商品信息采集;利用Web日志挖掘,可有效地對Web日志進行定量分析,輔助商家理解用戶的行為,從而改進站點結構,調(diào)整銷售策略,提供個性化服務。
在電子商務中常用的挖掘算法有:關聯(lián)規(guī)則、序列模式、聚類、分類等。關聯(lián)分析用于了解顧客的購物習慣和偏好,決定市場商品的擺放和產(chǎn)品的捆綁銷售策略;序列模式是用某時間點發(fā)現(xiàn)的產(chǎn)品購買或行為模式來預測將來顧客購買產(chǎn)品的概率;聚類用于市場細分,將顧客按其行為或特征模式的相似性劃分為若干細分市場,以采取有針對性的營銷策略;分類用于預測哪些人會對郵寄廣告、贈卷促銷手段有反應,還可用于顧客類別劃分等。
3.2 基于多Agent的Web數(shù)據(jù)挖掘模型
傳統(tǒng)的Web數(shù)據(jù)挖掘需要人們的大量參與,一次需要處理大量數(shù)據(jù),并且可能因為低準確性而造成多次重復操作,大大降低了它的智能性和高效性,浪費了用戶的時間和精力。隨著Agent技術的出現(xiàn)和研究,人們嘗試著將其應用到Web數(shù)據(jù)挖掘中來。Agent能實現(xiàn)自我控制狀態(tài)和行為,能在無人或其他程序介入時操作和運行。
基于多Agent的Web挖掘模型其基本原理是把web挖掘任務分配給多個Agent來共同完成。每個Agent都有自己的目標,有獨立完成任務的能力,也可以和用戶等外部環(huán)境進行交互。同時各個Agent之間相互學習和幫助,通過交互和協(xié)調(diào)增強web挖掘的能力。
模型主要由客戶Agent、適配器、協(xié)同Agent、數(shù)據(jù)挖掘Agent、全局知識庫、知識庫和原型庫、用戶信息庫構成,如圖2。
(1)客戶Agent。客戶Agent是用戶和計算機進行人機對話的接口。在用戶初迸系統(tǒng)時,客戶Agent接收用戶的注冊與查詢請求,并對用戶的請求進行編碼,分析和判斷,主動幫助用戶細化查詢要求,把任務的詳細分析交給管理Agent。
(2)適配器。適配器用來初始化Agent,實現(xiàn)Agent之間的通信。一方面,它把從協(xié)同Agent傳來的各移動Agent挖掘的結果進行組合、裝配形成規(guī)則,存入全局知識庫和提交給客戶Agent,另一方面它又扮演通信員的角色,負責用戶接口Agent同移動Agent系統(tǒng)的任務傳達。
(3)協(xié)同Agent。協(xié)同Agent用來初始化和管理Agent,它連接客戶Agent和挖掘Agent,一方面負責把客戶Agent下達的任務分解,分配到各個挖掘Agent,負責它們之間的交流和協(xié)作,另一方面負責完成本子系統(tǒng)發(fā)現(xiàn)的規(guī)則的裝配井傳遞給客戶Agent。
(4)數(shù)據(jù)挖掘Agent。它是數(shù)據(jù)模型的封裝體,封裝了具體的算法及其數(shù)據(jù)和執(zhí)行動態(tài)。數(shù)據(jù)挖掘Agent的主要功能包括學習挖掘規(guī)則和數(shù)據(jù)挖掘。學習Agent的任務是發(fā)現(xiàn)用戶訪問模式和感興趣的主題,為用戶生成用戶必趣模型。數(shù)據(jù)挖掘Agent執(zhí)行所分配的任務或子任務,是由若干個挖掘算法Agent組成的,每個挖掘算法Agent都有固定的特性,根據(jù)這些特性可以完成不同的任務。當一個Agent無法完成所分配的任務時,就需要和其他的挖掘算法Agent進行通信,請求其他的挖掘算法Agent來幫助完成任務。
(5)全局知識庫。挖掘的結果除了提交給用戶之外還要存儲到全局知識庫,這樣便于日后的查詢和比較分析。
(6)原型庫和知識庫。它們是為了存儲一些領域知識和規(guī)則,以及數(shù)據(jù)挖掘所需要的一些原型,并且隨著不斷的應用,可以利用全局知識庫的模型對其進行更新和編輯,增強其智能性和可靠性。
工作流程是:首先由用戶輸入要求,客戶Agent對其進行智能性分析,然后經(jīng)適配器傳達到協(xié)同Agent,協(xié)同Agent動態(tài)地創(chuàng)建移動Agent,并把它們派到各電子商務站點DB中,執(zhí)行挖掘任務,再返回各站點挖掘的規(guī)則。這些規(guī)則經(jīng)適配器的組裝,形成知識,一方面存入全局知識庫,另一方面提交給用戶,結束本次挖掘任務。
4 結束語
本文介紹的基于多Agent的Web挖掘模型,采用了當前數(shù)據(jù)挖掘、人工智能等方面的最新思想和技術。每個Agent都有自己的日標、功能和行為,可以自主運行,同時Agent之間通過協(xié)調(diào)和合作共同準確且高效地完成任務。利用這種模型可以把任務由大化小,由復雜變簡單。可以有效地幫助經(jīng)營者分析網(wǎng)上獲取的數(shù)據(jù),提取出有效信息,進而調(diào)整營銷策略,給客戶提供個性化的高效率服務。隨著Agent不斷融入到電子商務中,電子商務的前景會更加廣闊更加美好。
參考文獻
[1]夏火松.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術[M].北京:科學出版社,2004.
[2]劉兵.Web數(shù)據(jù)挖掘[M].北京:清華大學出版社,2009.
[3]程筱勝,廖文和,田宏,等.面向電子商務的Web挖掘系統(tǒng)模型研究與應用[J].南京航空航天大學學報,2004(3):322-326.
[4]周麗莉,李耀輝,董顥霞.基于Web的數(shù)據(jù)挖掘在電子商務中的應用[J].微計算機信息,2006(21):162-163.
[5]閻建紅.企業(yè)智能化Web商務數(shù)據(jù)挖掘引擎算法設計與實現(xiàn)[J].計算機工程與設計,2007(4):926-928.
[6]劉業(yè)政,李亞飛,楊善林.電子商務環(huán)境下基于Agent的Web數(shù)據(jù)挖掘[J].計算機工程,2004(20):107-108.