吳 濤
(1.中國科學(xué)技術(shù)大學(xué),安徽 合肥230026;2.安徽工業(yè)職業(yè)技術(shù)學(xué)院,安徽 銅陵244061)
2019年全國電子商務(wù)交易額達(dá)34.81萬億元,相比于上年增長6.7%。預(yù)計(jì)到2020年,中國電子商務(wù)交易額可達(dá)40萬億元[1]。隨著互聯(lián)網(wǎng)技術(shù)的普及,電子商務(wù)發(fā)展得如火如荼,但同時(shí)電商市場競爭也日趨激烈。為維持市場競爭力,企業(yè)需要分析顧客特征,對(duì)其進(jìn)行細(xì)分后采取針對(duì)性營銷策略,提供個(gè)性化服務(wù),來滿足各類別顧客的需求,提升顧客的滿意度與忠誠度。對(duì)于顧客細(xì)分問題,眾多學(xué)者已經(jīng)開展了大量研究。黃飛杰[2]等先采用Clara算法隨機(jī)生成初始聚類中心,再利用K-means算法對(duì)客戶進(jìn)行細(xì)分。陳子璐[3]在RFM模型的基礎(chǔ)上,通過K-means聚類分析與四分位法對(duì)電子客戶進(jìn)行細(xì)分。本文以某電商在線銷售數(shù)據(jù)為例,基于RFM模型采用RFM分析、K-means++、K-means三種方法進(jìn)行顧客細(xì)分,同時(shí)采用輪廓系數(shù)法客觀選取聚類中心數(shù)目,最后對(duì)三種方法進(jìn)行評(píng)估。
RFM模型是經(jīng)典的客戶分類模型,被廣泛應(yīng)用于客戶關(guān)系管理領(lǐng)域。它通過三個(gè)變量R(Recency)、F(Frequency)、M(monetary)的值來判斷客戶的類型[4]。R表示客戶最后購買日期與當(dāng)前日期的間隔,F(xiàn)表示顧客在某時(shí)段內(nèi)的購買次數(shù)。M表示顧客在某時(shí)段內(nèi)的消費(fèi)總金額,M值越大表示顧客對(duì)公司的利潤貢獻(xiàn)度越高。本文基于RFM模型的電子商務(wù)顧客細(xì)分的基本思想是通過數(shù)學(xué)方法將顧客最后購買日期與當(dāng)前日期的間隔、顧客在某時(shí)段內(nèi)的購買次數(shù)、顧客在某時(shí)段內(nèi)的消費(fèi)總金額3個(gè)顧客行為指標(biāo)進(jìn)行合理的分類,然后再針對(duì)每個(gè)顧客類別進(jìn)行指標(biāo)特征分析,從而得出不同客戶群的價(jià)值,最終實(shí)現(xiàn)電子商務(wù)顧客細(xì)分的目的。
k-means算法原理簡單并且易于實(shí)現(xiàn),在各種聚類劃分場景下被廣泛使用[5]。但是k-means算法在應(yīng)用過程中存在兩大缺陷。一是K-means算法的聚類中心個(gè)數(shù)K需預(yù)先指定,而事先不明確數(shù)據(jù)集分類類別,預(yù)估合適的K值就非常困難。二是K-means算法對(duì)初始聚類中心非常敏感,不同的初始聚類中心可能得到不同的聚類結(jié)果,甚至?xí)a(chǎn)生算法收斂速度慢、聚類結(jié)果錯(cuò)誤的問題[6-7]。對(duì)于缺陷一,輪廓系數(shù)法(Silhouette Coefficient)可以客觀的確定聚類中心數(shù)目K。輪廓系數(shù)的大小可以度量簇中樣本的緊密程度,對(duì)于現(xiàn)有的分類數(shù),求出平均輪廓系數(shù)(即當(dāng)前聚類整體輪廓系數(shù)的平均值)的最大值,與之對(duì)應(yīng)的K值則為最佳聚類數(shù)[8]。平均輪廓系數(shù)的定義為:

其中n為樣本總數(shù),a(j)為樣本點(diǎn)j與同簇中其他樣本點(diǎn)間的平均距離,用于量化同簇內(nèi)的凝聚度;b(j)為樣本點(diǎn)j與非本簇的其他簇中樣本點(diǎn)間的最小平均距離,用于量化非同簇間分離度。sa的取值范圍在[-1,1]之間,sa越大,表明聚類的效果越好[9]。
對(duì)于缺陷二,K-means++算法可以有效地解決問題。此算法對(duì)k-means算法中選取初始聚類中心的方法進(jìn)行了優(yōu)化,它的基本思想是初始聚類中心中距離中心越遠(yuǎn)的點(diǎn)會(huì)有更高的概率被選為聚類中心,因此聚類中心分布得更加均勻,克服了起始聚類中心不同帶來的聚類偏差,改善了聚類結(jié)果誤差[10]。K-means++聚類算法的步驟:
1.隨機(jī)選取一個(gè)樣本點(diǎn)作為首個(gè)聚類中心c1=(x1,y1,z1);
2.計(jì)算每個(gè)樣本點(diǎn)與當(dāng)前聚類中心點(diǎn)的最短距離D(x),再根據(jù)計(jì)算每個(gè)樣本點(diǎn)被選為下個(gè)聚類中心的概率,通過輪盤法選取第二個(gè)聚類中心c2=(x2,y2,z2);
3.重復(fù)步驟二、三直到預(yù)設(shè)的第k個(gè)聚類中心被選出ck=(xk,yk,zk);
4.計(jì)算每個(gè)樣本點(diǎn)X到k個(gè)聚類中心的距離,并將其劃分到距離最短的聚類中心所對(duì)應(yīng)的類中;本文距離計(jì)算方法為歐幾里得(Euclidean)法,公式如下所示:

i=1、2、…、m,j=1、2、…、n
5.針對(duì)每個(gè)類別C,重新計(jì)算類內(nèi)質(zhì)心

6.重復(fù)步驟四、五直到類內(nèi)質(zhì)心位置不再變化,K-means聚類算法的步驟:
Step1:從數(shù)據(jù)中隨機(jī)選取K個(gè)樣本作為初始聚類中心。
Step2:與k-means++算法Step4相同,不再贅述。
Step3:與k-means++算法Step5相同。
Step4:與k-means++算法Step6相同。
本文利用The UCI Machine Learning Repository提供的某電商公司從2010年12月1日到2011年12月9日的541910個(gè)訂單數(shù)據(jù)。原始數(shù)據(jù)存在大量重復(fù)或缺失數(shù)據(jù),為減少數(shù)據(jù)冗余,剔除無效數(shù)據(jù),先將原始數(shù)據(jù)進(jìn)行預(yù)處理。下面是數(shù)據(jù)預(yù)處理步驟:
1.刪除重復(fù)數(shù)據(jù)。原有數(shù)據(jù)有541,910條,刪除重復(fù)值后,還剩536,642條;
2.刪除缺失值。將數(shù)據(jù)中顧客編號(hào)為空的訂單數(shù)據(jù)刪除;
3.計(jì)算每筆訂單金額。每筆訂單總額=產(chǎn)品單價(jià)X購買數(shù)量;
4.異常數(shù)據(jù)處理。每筆訂單只能為一名顧客所有,而一名顧客可以擁有多筆訂單,其中包括訂單編號(hào)以“C”開頭的取消訂單。如表1所示,顧客編號(hào)12346購買產(chǎn)品后又取消訂單。統(tǒng)計(jì)每位顧客的消費(fèi)總額,即計(jì)算顧客每筆訂單(包括取消訂單)的金額總和,將消費(fèi)總額小于等于0的顧客數(shù)據(jù)刪除。

表1某顧客交易訂單
5.利用SPSS進(jìn)行數(shù)據(jù)分析,最終得到4,317名顧客的有效信息,并統(tǒng)計(jì)出每位顧客的最后購買日期、購買頻率、消費(fèi)總金額。
將R、F、M值作為分類指標(biāo),采用RFM分析算法對(duì)數(shù)據(jù)進(jìn)行分析。
1.R、F、M指標(biāo)離散化處理
計(jì)算最后購買日期與當(dāng)前日期相距的天數(shù)R(Recency),將2011年12月9日設(shè)為當(dāng)前日期。統(tǒng)計(jì)顧客消費(fèi)頻率F(Frequency),顧客消費(fèi)總金額M(monetary)。將R、F、M三個(gè)指標(biāo)按照優(yōu)先級(jí)依次分類離散化,即先按時(shí)間間隔R的先后順序?qū)︻櫩瓦M(jìn)行離散化,再按頻率F對(duì)每個(gè)時(shí)間間隔先后塊中的客戶進(jìn)行離散化,最后再按消費(fèi)總金額M對(duì)時(shí)間間隔、頻率塊中的客戶進(jìn)行離散化。部分離散化結(jié)果如表2所示。

表2 R、F、M離散化結(jié)果
2.RFM分析分類實(shí)施方法
本文使用自組織特征映射網(wǎng)絡(luò)對(duì)顧客的RFM值進(jìn)行分類,首先求出顧客時(shí)間間隔R(Recency)、消費(fèi)頻率F(Frequency)、消費(fèi)總金額M(monetary)離散化結(jié)果的均值分別為2.99、2.99、3。將R、F、M離散化結(jié)果與均值比較,高于均值的定義為“2”,低于均值的定義為“1”,共可得到8種分類結(jié)果,具體分類結(jié)果如表3所示。

表3顧客類型
通過上述計(jì)算后,得到顧客分類結(jié)果,由圖1所示。其中優(yōu)質(zhì)顧客有274名,占所有顧客的6%,這類顧客的消費(fèi)時(shí)間間隔短,消費(fèi)頻率高、消費(fèi)金額大,這類顧客為公司創(chuàng)造的利潤大,應(yīng)該是重點(diǎn)關(guān)注對(duì)象。重點(diǎn)保持顧客、重點(diǎn)發(fā)展顧客、重點(diǎn)挽留顧客共有1450名,占所有顧客的33.58%。這類顧客的消費(fèi)頻率、金額高,但是消費(fèi)時(shí)間間隔長,公司可以通過短信問候,引起此類顧客注意。 一般價(jià)值、一般保持、一般發(fā)展顧客共有1647名,占所有顧客的38%。這類顧客消費(fèi)時(shí)間間隔短,消費(fèi)頻率高,但是消費(fèi)金額較少,此類顧客可能感覺產(chǎn)品價(jià)格過高,公司可以采取降價(jià)促銷來吸引顧客增加消費(fèi)金額。流失客戶有946名,占所有顧客的22%。這類顧客消費(fèi)時(shí)間間隔長,消費(fèi)頻率低、消費(fèi)金額少,為節(jié)省人力、財(cái)力,公司可無須特別關(guān)注這類顧客。

圖1基于RFM分析的顧客分類結(jié)果
將R、F、M值作為聚類指標(biāo),采用K-means聚類算法對(duì)數(shù)據(jù)進(jìn)行分析。
1.聚類指標(biāo)歸一化
由于指標(biāo)間量綱差異較大,為了消除量綱差異對(duì)聚類分析結(jié)果帶來的不合理影響。首先將聚類指標(biāo)歸一化,計(jì)算公式為:

其中x為樣本數(shù)據(jù)矩陣,x'為歸一化后數(shù)據(jù),xmin、xmax為樣本數(shù)據(jù)矩陣中的最小、最大值。
隧道管片的受力比較接近于單向受力狀態(tài),管片的疲勞壽命是由其拉、壓狀態(tài)共同決定的。因此,采用單軸受拉疲勞經(jīng)驗(yàn)公式(7)[29]來對(duì)管片進(jìn)行受力計(jì)算,采用單軸受壓疲勞經(jīng)驗(yàn)公式(8)[30]對(duì)管片的疲勞壽命進(jìn)行驗(yàn)算,其計(jì)算公式如下:
2.K值的選取
本文K-means算法中對(duì)K值的選取使用輪廓系數(shù)法。找出K分類下數(shù)據(jù)集中所有樣本點(diǎn)輪廓系數(shù)平均值的最大值,與之對(duì)應(yīng)的K值則為最佳聚類數(shù)。K分類下樣本點(diǎn)的平均輪廓系數(shù)如圖2所示。從圖中可以看出,K=2時(shí),輪廓系數(shù)最大為0.72,算法聚類效果最優(yōu)。當(dāng)K=4時(shí),輪廓系數(shù)為0.71,其聚類效果僅次于K=2。為了樣本劃分得更加精細(xì),在平均輪廓系數(shù)相差不大的情況下,本文的K值選4。

圖2 K分類下樣本點(diǎn)平均輪廓系數(shù)
3.K-means算法聚類結(jié)果分析
圖3為K-means算法在兩種不同初始聚類中心下的聚類結(jié)果,不同顏色代表不同的顧客分類。從圖中可以看出兩次聚類結(jié)果不同,這說明K-means算法對(duì)初始聚類中心非常敏感。同時(shí)圖中的顧客被分為4類,各類的特征不明顯,可解釋性較差,不能達(dá)到顧客細(xì)分的目的。
將R、F、M值作為聚類指標(biāo),采用K-means++聚類算法對(duì)數(shù)據(jù)進(jìn)行分析。同樣將聚類指標(biāo)進(jìn)行歸一化處理,不再贅述,K值依然取2。下面是K-means++算法聚類結(jié)果分析:

圖3 K-means聚類算法可視化結(jié)果
K-means++聚類算法可視化結(jié)果如圖4所示。其中,X軸坐標(biāo)為時(shí)間間隔R,Y軸坐標(biāo)為消費(fèi)頻率F,Z軸坐標(biāo)為消費(fèi)總金額M。圖中K-means++聚類算法選取K=4,將顧客劃分為4類,不同類別的顧客以不同顏色與形狀表現(xiàn)出來,聚類中心以黑色叉號(hào)表示。分析圖4可以獲取以下信息:

圖4 K-means++聚類算法可視化結(jié)果
第2類顧客數(shù)量為5,其消費(fèi)時(shí)間間隔短,頻率相對(duì)較高,金額最大;對(duì)于此類顧客企業(yè)可以推送更多優(yōu)質(zhì)商品廣告,刺激顧客消費(fèi),提高購買頻率,讓顧客為企業(yè)創(chuàng)造更多利潤。
第3類顧客數(shù)量為4,其消費(fèi)時(shí)間間隔短,頻率最高,金額相對(duì)較大,這類顧客為企業(yè)創(chuàng)造的利潤較大,應(yīng)該是重點(diǎn)關(guān)注對(duì)象。公司可以采取積分兌換禮品等活動(dòng)來維持此類顧客的忠誠度,讓此類顧客為企業(yè)持續(xù)創(chuàng)造利潤。
第4類顧客數(shù)量為1061,相比于2、3類顧客,其消費(fèi)時(shí)間間隔相對(duì)較長,頻率相對(duì)較低,金額相對(duì)較低,但高于1類顧客,此類顧客時(shí)是企業(yè)的潛在顧客,可以采取廣告推送、促銷打折等相應(yīng)措施促進(jìn)顧客產(chǎn)生更多交易。
RFM分析將顧客分為8類,分類更加精細(xì)。但是相較于RFM分析中的指標(biāo)離散化分類法,Kmeans++聚類算法通過原始數(shù)據(jù)與聚類中心間的距離來劃分顧客類型,更具科學(xué)性,分類結(jié)果更加準(zhǔn)確。同時(shí)通過輪廓系數(shù)法選取聚類中心數(shù)目的Kmeans++聚類算法以初始聚類中心距離最大化的分類思想,彌補(bǔ)了K-means算法聚類中心數(shù)目難以確定以及對(duì)初始聚類中心敏感的不足。最終經(jīng)過Kmeans++算法劃分的每類顧客,不僅分類準(zhǔn)確,而且特征明顯,更易于企業(yè)制定相應(yīng)的營銷策略。
本文基于RFM模型采用RFM分析、K-means++、K-means三種方法對(duì)顧客進(jìn)行細(xì)分,旨在幫助企業(yè)準(zhǔn)確識(shí)別顧客價(jià)值。K-means++算法通過輪廓系數(shù)法,客觀合理地找到聚類中心數(shù)K,消除了K-means算法聚類中心數(shù)目難以確定以及對(duì)初始聚類中心敏感的不足,同時(shí)相較于RFM分析也更加科學(xué)。最后K-means++聚類結(jié)果可視化,可使企業(yè)人員可以快速直觀地判斷每個(gè)顧客分類代表的意義,進(jìn)而采取精準(zhǔn)的營銷策略,提升企業(yè)核心競爭力。