(北京物資學院 北京 101149)
數據挖掘是隨著數據庫和人工智能技術的發展來的一種全新信息技術,尤其是現今處在大數據時代,電子商務的蓬勃發展為商業網站等營銷平臺帶來越發白熱化的競爭,而其中數據量龐大而知識匱乏的問題愈演愈烈。
在這種情況下,進行網絡交易活動的商家越發需要具備較強的客戶信息挖掘、管理、組織以及利用能力,從而實現與客戶維護、客戶關系管理、客戶滿意度營造有關的一系列工作的進展。而實現這一系列目標的一個重要的途徑,便是進行有效的數據挖掘從而解決商家在電子商務發展過程中的瓶頸問題,幫助其在激烈的市場競爭中取得優勢。對于當前的商業領域,數據挖掘已經成為備受關注的輔助決策工具,商家的業務發展趨勢、發展前景、決策制定的正確性以及競爭地位的有利與否,都與其數據挖掘系統的有效性與實用性直接相關。因而能否做好這一環節成為電子商務運營商越發重視的課題。
Web數據挖掘,簡稱Web挖掘,是由Oren Etzioni在1996年首先提出的,是數據挖掘和Web應用研究相結合的領域。Web數據挖掘具有綜合性和交叉性的特征,它所涉及的技術是多方面的,包括數據挖掘、計算機技術、Web技術、數據庫技術、統計學、人工智能等多方面領域的技術,Web數據挖掘技術是各種技術在網絡環境下的相互融合。
1.數據源的收集
數據收集方式之一便是建立服務日志,將用戶在訪問時通過頁面請求所產生的信息全部記錄下來。另一種數據收集的方式便是客戶端采集方式,它在功能上比服務器數據采集更具有優勢。客戶端數據采集的方式可以通過遠程代理的方式來實現,即通過客戶端的遠程代理,直接向服務器發送客戶的訪問行為及訪問時間信息等。
Web挖掘的數據源主要有兩種形式的來源,一是儲存于Web上的各類文檔,二是用戶的相關訪問數據。在Internet環境當中,Web服務器可以自動收集客戶的瀏覽信息并以日志文件的形式進行保存。
2.數據的預處理
數據的預處理主要是指對網絡日志預處理后得到的數據與相關后臺數據進行匹配,形成數據挖掘庫,也就是我們通常所說的網絡購買者特征倉庫,所得到的信息將會被進行歸納、總結。遵此原理,不同模塊中的信息都可以進行抽取、清洗[8]。
3.數據的挖掘階段
在數據的預處理流程完成以后,就要進行所獲得的信息的轉化,使其成為多維數據模型中的星型模式,Web數據挖掘的挖掘階段可舉例為如下步驟:確立目標樣本;獲取特征信息;獲取網絡信息;信息特征匹配。
電子商務是指用Internet和WWW通過電子信息傳輸進行的各種商務活動的過程,其中電子商務網站模塊主要由商品展示模塊、在線購物模塊、支付模塊、評論模塊、賣家/買家管理模塊、搜索模塊等組成。
根據電子商務所涉及的對象和商品內容,我們可以將電子商務細分為八種,分別是B2B、B2C、C2C、C2B、F2C、B2Q和O2O模式,其中市場應用最主流是B2B、B2C、O2O、C2C四種模式。
對電子商務網站進行Web挖掘時,數據來源具有類型多、數據量大、非結構化等特點。通過對這些數據源進行Web挖掘,能夠發現隱藏在數據中的模式信息,進而了解用戶行為,對其進行預測性分析,從而轉化為商業價值。
1.Web服務器端網頁數據及日志文件
在電子商務網站系統中,每個商品都是以Web頁面的形式呈現給用戶。它們主要是用于記錄用戶訪問的相關信息,同時也是Web挖掘的一個重要來源。
2.代理服務器端數據
代理服務器相當于在Web服務器和用戶瀏覽器之間充當緩存功能的作用,這樣可以減少web服務器的信息流量并加快Web頁面的運行速度。對代理服務器進行Web挖掘,可以發現隱藏在數據中的用戶行為模式信息,了解用戶的訪問模式,并且預測性的分析判斷,進而能挖掘有潛在價值信息。
3.查詢數據
查詢數據是用戶在查找自己需要的信息時,在服務器端產生的記錄,是Web站點在服務器上生成的典型數據。
4.Web頁面鏈接關系
假如一個Web頁面被很多頁面所引用,則該頁面被認為是一個關鍵頁面,這也是商家和企業所需要的知識模式,可以采用Web爬蟲來挖掘這類知識模式。
5.用戶注冊信息
用戶注冊信息指用戶在Web頁面上輸入并提交給服務器相關信息。為了提高挖掘的準確度,用戶的個人背景信息在Web挖掘中和訪問日志被集成在一起。
挖掘不是一個無人干預的自動從數據中發現知識的算法,而是一個分為多步驟的挖掘過程。其主要步驟如圖所示:

圖1 數據挖掘的過程
把Web挖掘的思想和方法應用到電子商務中去,通過對用戶訪問行為、內容和頻度的分析,就可以得到關于群體用戶訪問行為的信息。利用這些挖掘到的有價值的信息,電子商務網站可以有針對性的開展商務活動。
1.個性化服務的重要性
隨著電商規模的發展,個性化服務作為一種嶄新的智能信息服務提供方式,使得以往電商平臺主導的購物體驗方式轉變為客戶主導。通過數據挖掘技術根據顧客瀏覽行為留下的后臺服務器日志進行挖掘,能夠更好地理解用戶,找出用戶群體的行為規律以及用戶隱藏的購買興趣,根據這些挖掘出來的知識制訂針對性的服務內容和策略,按照用戶的個性化需求主動提供推薦服務,能夠提高電子商務網站商品交叉銷售能力和用戶忠誠度的同時得到潛在客戶。個性化服務已成為提高電商市場占有率的利器。
2.聚類分析模型
聚類分析的目的是將具有相似消費行為模式的客戶聚集。在一個簇中,交易數據庫中記載了客戶每次交易購買的商品。通常一個客戶在商務網站上有多次交易行為,因此,需要將一個客戶多次的交易記錄合并為一條記錄,用來反映該客戶的消費行為。電子商務網站對客戶的消費行為進行挖掘生成記錄數據并合并,再合并后的數據集合提交給聚類分析模塊.將客戶群劃分為不同的簇。

圖2 基于聚類分析的推薦系統模型
3.電子商務網站用戶簇的劃分
對于電子商務模式的個性化服務,應該建立在電商網站用戶分類的基礎之上,通過后臺對其購買記錄的挖掘,判斷顧客所在的分類簇,在網站上現給他們展示符合其購買習慣和需求的商品。
針對電子商務的購物模式,其消費群體可以劃分為以下幾類:
①第一次購買的消費者。瀏覽者已經確定其所購買的目標商品,因此會通過站內的搜索引擎通過關鍵字直接定位到相關商品,會仔細地瀏覽其商品詳細信息。
②經常網購的消費者。他們在商品瀏覽上會更具有針對性,而且也會注意到商品的銷量排行、評價排行以及促銷優惠信息,并且會根據其促銷信息買一些自己暫時用不到的商品。
③正在比價的消費者。這類顧客的瀏覽模式是集中于瀏覽同類商品,通過不斷地比較挑選性價比最高的商品。
④隨便看看的消費者。這些瀏覽者基本上沒有明確的購買商品目標,只是簡單地點擊商品瀏覽打發時間,碰到自己特別中意并且價格實惠會有一定的可能購買,但幾率比較小,不是購買主力軍。
⑤信息收集的消費者。這些瀏覽者主要是收集大量商品信息,為以后購買商品積累經驗。
這是劃分客戶群體的基礎,在了解各個群體購買習慣的基礎之上就可以針對不同群體的客戶開展相應的促銷方式。以便實現電子商務對顧客的個性化提供相應的服務。
基于聚類分析方法,識別電子商務用戶行為,能夠在海量的、不規則的電子商務用戶行為數據中發現潛在用戶行為的數據模式,從而揭示出電子商務用戶行為數據中隱藏的規律,為電子商務發展提供有效的用戶營銷決策,提升電子商務市場競爭力。
1.關聯分析和CRM
CRM即客戶關系管理,企業通過運用CRM技術有效地管理公司和客戶之間的關系,最終目的是為了擴大銷售額,占領更大的市場份額及獲取更多的經濟效益。數據挖掘作為強有力的數據分析工具,面對電商的海量數據在管理和分析CRM的優勢已經凸現出來。
關聯分析最主要的現實應用即為廣泛被熟知的“啤酒和尿布”的故事,關聯分析在電子商務中最主要的應用主要體現在購物籃的分析中。這種影響有兩種方式,即正面影響和負面影響。可以利用關聯分析對顧客的購買行為模式進行數據挖掘,針對顧客在瀏覽電商網站進行購物時在后臺服務器中留下了的訪問信息,對這些歷史數據進行關聯分析,可挖掘出顧客的購買行為模式。進而可以從中發現對于提高電子商務網站中商品交叉銷售率的知識和規率,提高網站的銷量。
2.關聯規則的發現
當客戶訪問某一網頁時,一般會通過興趣詞條搜索出相關的興趣網頁通過鏈接繼續訪問,這種關聯產生的數據如果能夠按照某種策略進行挖掘分析,統計出客戶訪問某些頁面及興趣關聯頁面的比率,就可以很好的組織站點,實施有效的市場策略。為此,需要對頁面的節點、節點間的鏈接、興趣節點及興趣節點之間的關聯進行說明和定義,找出它門之間的關系。頁面節點可以定義為一個二元組(t,s)。頁面的鏈接可以表示為三元組(S-node,L,T-node),其中S-node為源頁面節點,L為源頁面節點和目標頁面節點的鏈節點,T-node目標頁面節點。對興趣節點及興趣節點之間的關聯定義如下:
設I={i1,i2,……,in}為項目集,其中{i1,i2,……,in}為項目,表示電子商務網站中的商品集合。則興趣節點可定義為二元組(i,right),簡記為N(i),其中i∈I,right為i項目的權重。興趣節點的聯系稱為興趣關聯規則,用三元組(N(is),right,N(it))表示,其中right表示由興趣節點N(is)轉到興趣節點N(it)的權重,0
3.關聯分析后的商品推薦
通過關聯規則數據挖掘結果組織商品展示方式,不但可以提高電商的交叉銷售額,也可以讓顧客體驗到更好的購物服務。
根據顧客的需求周期,運用關聯規則數據挖掘,可以從中發現常駐客戶,電商可以通過客戶的購買規律進行一些促銷返利活動使他們更加青睞在這一電商網站進行網購。同時也達到了客戶關系的良好維護。
實現針對電子商務的個性化服務,提高顧客購買體驗服務質量顧客的購買習慣不是一成不變的,會隨著時間而發生改變,互聯網信息時巧客戶偏好的不斷改變,因此要不斷地進行關聯規則數據挖掘快速掌握客戶購買習慣的改變,并且及時調整應對策略,才能緊跟時代把握客戶需求。同時電商可以通過CMR管理使用關聯規則數據挖掘技術對客戶歷史瀏覽記錄信息所挖掘的知識,預測市場潛在消費需求,及時調整相應服務以做出相應的正確決策。
基于關聯規則技術的電子商務用戶資源管理通過對后臺海量信息的數據挖掘可以發現隱藏其中的知識,電商可以對其制定針對性的營銷方式,給網購客戶提高相應的個性化服務,促進管理創新和技術創新,最終能夠幫助電商提高銷售額和市場占有率。
本文首先闡述了數據挖掘和電子商務的相關知識,包括數據挖掘的功能和技術,電子商務的分類和發展,然后將數據挖掘應用到電子商務中的以數據挖掘技術進行了詳細闡述,將以數據挖掘主要用到的關聯規則法和聚類分析法進行了簡單介紹。
本文初步運用挖掘的思想,分析了電子商務的日志,得到了一些有用的規則。這對于擴大數據挖掘在電子商務中的應用具有十分積極的意義。相信隨著研究工作的不斷深入,將為這方面的研究工作獻出更多的力量。