【摘要】本文首先對客戶細分理論、聚類分析與K-means算法進行了闡述與分析,然后運用實例分析完成了對K-Means聚類算法在電子商務客戶細分中應用的研究。通過本文的研究來識別、分析電子商務的客戶信息,從客戶信息中挖掘出潛在知識,對客戶進行分類管理,為電子商務企業了解客戶、挖掘潛在客戶、實現差異化營銷提供有力的幫助,同時為聚類技術在電子商務客戶細分中的應用研究提供一些新思路。
【關鍵詞】客戶細分 聚類分析 K-means算法
一、引言
在競爭日益激烈的網絡商業時代,電子商務企業越來越強烈的感覺到客戶資源是企業獲勝的法寶之一。因此企業開始從以產品為中心的模式向以客戶為中心的模式轉變,主要圍繞保留現有顧客和挖掘潛在顧客展開,預測出客戶未來的購買趨勢,制定相應的營銷策略。但是隨著企業產品的個性多樣化,客戶的需求日益增加,傳統的應用統計學的方法對客戶進行細分顯得力不從心。采用聚類挖掘算法可以處理幾個甚至上百個變量,通過收集整理客戶相關信息,發現存在于客戶整體內部具有不同需求特點、購買行為、瀏覽興趣等特征的客戶群體,分析出具有相似瀏覽或購買行為的客戶群,進而對客戶進行細分,幫助電子商務企業深入了解自己的客戶,為客戶群體提供更加全面的個性化服務,提高客戶的滿意度和忠誠度,為企業創造更多的價值。
二、客戶細分相關理論
客戶細分是20世紀50年代中期由美國學者溫德爾·史密斯(Wendell R.Smith)提出的,他認為“客戶細分是基于某一時期市場中個體需求的不同特點而做出的產品決策,而產品差異策略則僅定位于市場競爭者,不考慮需求的復雜性[1]。”其理論依據在于顧客需求的異質性和企業需要在有限資源的基礎上進行有效地市場競爭。簡單地說,客戶細分是指在明確的戰略業務模式和特定的市場中,根據客戶的屬性,行為,需求,偏好以及價值等因素對客戶進行分類,并提供有針對性的產品,服務和銷售模式。
三、聚類分析
聚類(clustering)是一個將數據集劃分為若干組(class)或類(cluster)的過程,并使得同一個組內的數據對象具有較高的相似度,而不同組內的數據對象則是不相似的。一個聚類(cluster)就是由彼此相似的一組對象所構成的集合,不同聚類中的對象通常是不相似的。相似或不相似的度量是基于數據對象描述屬性的取值來確定的。聚類源于很多領域,包括數學,計算機科學,統計學,生物學和經濟學。在不同的應用領域(如商業、地理、保險業、因特網、電子商務),很多聚類技術都得到了發展,這些技術方法被用作描述數據,衡量不同數據源間的相似性,以及把數據源分類到不同的簇中。聚類分析的結果不僅可以揭示數據間的內在聯系與區別,同時也為進一步的數據分析與知識發現提供了重要的依據,如數據間的關聯規則,分類模式以及數據的變化趨勢等。
目前在文獻中存在大量的聚類算法,算法的選擇取決于數據的類型以及聚類的目的和應用。圖1展示了常用聚類算法之間的層次關系[2]。本文即采用K-means聚類算法。
四、K-means算法
(一)K-means算法的基本原理
K-means算法是最為經典的基于劃分的聚類方法,是十大經典數據挖掘算法之一。給定一個包含n個數據對象的數據庫,以及要生成簇的數目k,隨機選取k個對象作為初始的k個聚類中心;然后計算剩余各個樣本到每一個聚類中心的距離,把該樣本歸到離它最近的那個聚類中心所在的類,對調整后的新類使用平均值的方法計算新的聚類中心;如果相鄰兩次的聚類中心沒有任何變化,說明樣本調整結束且聚類平均誤差準則函數已經收斂。本算法在每次迭代中都要考察每個樣本的分類是否正確,若不正確,就要調整。在全部樣本調整完成后修改聚類中心,進入下一次迭代。如果在一次迭代算法中,所有的樣本被正確分類,則不會有調整,聚類中心不會有變化。在算法迭代中值在不斷減小,最終收斂至一個固定的值。該準則也是衡量算法是否正確的依據之一。
(二)K-means算法的步驟
1.給定一個包含n個數據的數據集D,給定聚類個數k和k個初始聚類中心Zj(I),j=1,2,…k;
2.計算每個數據到聚類中心的距離D(xi,Zj)(I),i=1,2,…k,若滿足
D(xi,Zk(I))=min{D(xi,Zj(I),j=1,2,3,…n)},xi∈wk (3-1)
并根據距離最小將每個對象分派到最相近的聚類;
3.重新計算每個聚類的均值并確定新的聚類中心;計算誤差平方和準則函數J;
5.輸出k個聚類集合。
五、K-means算法在電子商務客戶細分中的應用
(一)K-means算法在客戶細分中的步驟
通常我們根據電子商務網站中的訪客日志或者CRM中的相關信息,先進行數據預處理,然后建立相關模型,用聚類的方法把客戶進行細分,并為企業做出決策提供依據。
K-means算法應用于客戶細分的步驟:
1.從電子商務網站獲取相關的數據;
2.判斷所獲取的數據是否可以進行分類,如有明顯的聚類趨勢就進行聚類,否則取消聚類;
3.將K-Means算法結合SPSS軟件應用與所獲取的客戶數據集中,并將客戶分為C1、C2、C3......等類。
4.根據分類的結果,總結出每一類的規則。
5.評價聚類結果。若聚類結果可信,則可應用于實際當中,企業可以據此制定相應的營銷策略,如若不可信,則需要重新聚類。
(二)數據獲取
本文采用的數據來自淘寶網的某服裝網店。由于web日中記錄了客戶相當齊全的信息,這些海量數據(客戶ID、姓名、注冊日期、年齡、性別、電話、通訊地址)我們沒必要全部提取,在這里我們僅僅提取一些代表性的信息,如客戶ID,年齡,受教育程度,通訊地址,收入。由于這個網店是專門做女裝的,所以性別對我們分類的意義不大,在這里不再提取。
對于表中數據的具體解釋:
1.年齡段(age)。根據分析結果中客戶年齡段的統計,把客戶年齡分為四個階段:A-小于20歲;B-20歲至30歲;C-30歲至40歲;D-40歲以上。
2.受教育程度。根據客戶受教育的程度分為高學歷、一般、低學歷。
3.通訊地址。全國不同城市的統計,分為一線城市、二線城市、三線城市。
4.根據電子商務中統計的數據集合,把客戶收入劃分為高收入、中等收入、低收入。
此外,我們需要根據客戶ID、商品ID、商品價格、購買數量、每次的消費總價、交易日期計算出每個客戶在一段時間的平均購買次數和平均購買價格。
(三)數據處理
1.數據清理。數據清理是補充缺失數據、平滑噪聲數據、識別或刪除離群點,解決不一致的數據。在本實驗中,客戶的數據并不一定是完整的,尤其是客戶的受教育程度和收入較難獲取。此時我們需要采用人工處理法、估計填充法對其進行補充。噪聲數據是包含錯誤或存在偏離期望的離群值。比如年齡在90歲以上就是噪聲數據。對于這類數據需要剔除,不在考慮范圍內。
2.數據轉換。在聚類時,SPSS對數值型的數據較為敏感,因此我們應該盡量將字符型的數據轉換為數值型數據。比如將受教育程度,小學、初中、高中、學士、碩士、博士分別轉換成0、1、2、3、4、5;將收入高、中、低轉換成1、2、3;將不同的通訊地址一線、二線、三線轉換成1、2、3。對于年齡這樣的連續變量,我們需要采用等寬離散化,客戶屬于哪個年齡段就將那個年齡段標記為1,其余的年齡段為0。
(四)運用K-means算法進行客戶細分
我們使用SPSS軟件對客戶進行細分,選取淘寶平臺上的某一家服裝網店。從中選取了150個數據作為樣本,將客戶平均購買次數和平均購買金額作為客戶細分變量,數據經過預處理和標準化后,應用k-means算法對其進行細分。
(五)客戶細分結果分析
從表中我們可以看出,4類客戶購買人數較多,平均購買次數較少,平均購買金額最少,這類客戶年齡和地址分布不均,大多是低學歷,低收入的;3類客戶人數比4類人數較少,這類客戶平均購買次數最多,平均購買金額較少,他們大多處于30歲左右,學歷和收入一般,多來自二三線城市;2類客戶人數和平均購買次數最少,但這類客戶的平均購買金額最多,他們大多學歷高,收入高,聚集在北京、上海等一線城市,年齡在25到35歲;1類客戶平均購買次數和平均購買金額都較多,年齡集中在35歲到45歲,他們經常光顧本店。
根據表6客戶級別的劃分,我們可以得出如下結論:一類客戶人數雖不多,但企業大部分的利潤由他們創造,因此稱他們為白金客戶,企業應當不遺余力的去保護和維持他們;2類客戶人數最少,卻創造了較高的價值,屬于潛在客戶,企業應當重點投入,高水平的維護,使他們盡可能的成為白金客戶;3類客戶的人數一般,為企業創造的價值一般,因此企業可以關系再造,使他們向2類客戶靠攏;4類客戶人數最多,這部分客戶對企業的價值不大,企業不需要投入太多的資源。
六、結論
在網絡和電子商務快速發展的今天,企業的數據庫中存儲了大量的商業信息,電子商務企業要想盈利,在競爭中立于不敗之地,就必須對自己的客戶深入了解,挖掘客戶的潛在的價值,從而制定相應的營銷策略。本文采用K-Means方法對某電子商務網站的客戶細分,運用SPSS軟件,最終取得了可行性的結果,為企業做出合理的決策提供了有力的幫助。
參考文獻
[1]Smith,Wendel1.R Product differentiation and market segmentation as alternative product strategies[J].Journal of Marketing,1956,11(7):3-8.
[2]包穎.基于劃分的聚類算法研究與應用[D].大連:大連理工大學,2008.
[3]李鑫鑫.聚類算法在電子商務客戶細分中的應用研究[D].山東:中國海洋大學,2012.
作者簡介:盧丹丹(1989-),女,漢族,河南濟源人,西安財經學院碩士研究生,研究方向:電子商務與商務智能研究。