基于RFM模型的電子商務(wù)顧客細(xì)分研究

2020-12-23 12:05:38吳濤

銅陵學(xué)院學(xué)報(bào) 2020年5期

關(guān)鍵詞：分類

吳濤

（1.中國科學(xué)技術(shù)大學(xué)，安徽合肥230026；2.安徽工業(yè)職業(yè)技術(shù)學(xué)院，安徽銅陵244061）

一、引言

2019年全國電子商務(wù)交易額達(dá)34.81萬億元，相比于上年增長6.7%。預(yù)計(jì)到2020年，中國電子商務(wù)交易額可達(dá)40萬億元[1]。隨著互聯(lián)網(wǎng)技術(shù)的普及，電子商務(wù)發(fā)展得如火如荼，但同時(shí)電商市場競爭也日趨激烈。為維持市場競爭力，企業(yè)需要分析顧客特征，對(duì)其進(jìn)行細(xì)分后采取針對(duì)性營銷策略，提供個(gè)性化服務(wù)，來滿足各類別顧客的需求，提升顧客的滿意度與忠誠度。對(duì)于顧客細(xì)分問題，眾多學(xué)者已經(jīng)開展了大量研究。黃飛杰[2]等先采用Clara算法隨機(jī)生成初始聚類中心，再利用K-means算法對(duì)客戶進(jìn)行細(xì)分。陳子璐[3]在RFM模型的基礎(chǔ)上，通過K-means聚類分析與四分位法對(duì)電子客戶進(jìn)行細(xì)分。本文以某電商在線銷售數(shù)據(jù)為例，基于RFM模型采用RFM分析、K-means++、K-means三種方法進(jìn)行顧客細(xì)分，同時(shí)采用輪廓系數(shù)法客觀選取聚類中心數(shù)目，最后對(duì)三種方法進(jìn)行評(píng)估。

二、理論基礎(chǔ)

（一）RFM模型

RFM模型是經(jīng)典的客戶分類模型，被廣泛應(yīng)用于客戶關(guān)系管理領(lǐng)域。它通過三個(gè)變量R(Recency)、F(Frequency)、M(monetary)的值來判斷客戶的類型[4]。R表示客戶最后購買日期與當(dāng)前日期的間隔，F(xiàn)表示顧客在某時(shí)段內(nèi)的購買次數(shù)。M表示顧客在某時(shí)段內(nèi)的消費(fèi)總金額，M值越大表示顧客對(duì)公司的利潤貢獻(xiàn)度越高。本文基于RFM模型的電子商務(wù)顧客細(xì)分的基本思想是通過數(shù)學(xué)方法將顧客最后購買日期與當(dāng)前日期的間隔、顧客在某時(shí)段內(nèi)的購買次數(shù)、顧客在某時(shí)段內(nèi)的消費(fèi)總金額3個(gè)顧客行為指標(biāo)進(jìn)行合理的分類，然后再針對(duì)每個(gè)顧客類別進(jìn)行指標(biāo)特征分析，從而得出不同客戶群的價(jià)值，最終實(shí)現(xiàn)電子商務(wù)顧客細(xì)分的目的。

（二）k-means及k-means++算法

k-means算法原理簡單并且易于實(shí)現(xiàn)，在各種聚類劃分場景下被廣泛使用[5]。但是k-means算法在應(yīng)用過程中存在兩大缺陷。一是K-means算法的聚類中心個(gè)數(shù)K需預(yù)先指定，而事先不明確數(shù)據(jù)集分類類別，預(yù)估合適的K值就非常困難。二是K-means算法對(duì)初始聚類中心非常敏感，不同的初始聚類中心可能得到不同的聚類結(jié)果，甚至?xí)a(chǎn)生算法收斂速度慢、聚類結(jié)果錯(cuò)誤的問題[6-7]。對(duì)于缺陷一，輪廓系數(shù)法（Silhouette Coefficient）可以客觀的確定聚類中心數(shù)目K。輪廓系數(shù)的大小可以度量簇中樣本的緊密程度，對(duì)于現(xiàn)有的分類數(shù)，求出平均輪廓系數(shù)（即當(dāng)前聚類整體輪廓系數(shù)的平均值）的最大值，與之對(duì)應(yīng)的K值則為最佳聚類數(shù)[8]。平均輪廓系數(shù)的定義為：

其中n為樣本總數(shù)，a(j)為樣本點(diǎn)j與同簇中其他樣本點(diǎn)間的平均距離，用于量化同簇內(nèi)的凝聚度；b(j)為樣本點(diǎn)j與非本簇的其他簇中樣本點(diǎn)間的最小平均距離，用于量化非同簇間分離度。sa的取值范圍在[-1,1]之間，sa越大，表明聚類的效果越好[9]。

對(duì)于缺陷二，K-means++算法可以有效地解決問題。此算法對(duì)k-means算法中選取初始聚類中心的方法進(jìn)行了優(yōu)化，它的基本思想是初始聚類中心中距離中心越遠(yuǎn)的點(diǎn)會(huì)有更高的概率被選為聚類中心，因此聚類中心分布得更加均勻，克服了起始聚類中心不同帶來的聚類偏差，改善了聚類結(jié)果誤差[10]。K-means++聚類算法的步驟：

1.隨機(jī)選取一個(gè)樣本點(diǎn)作為首個(gè)聚類中心c1=(x1,y1,z1)；

2.計(jì)算每個(gè)樣本點(diǎn)與當(dāng)前聚類中心點(diǎn)的最短距離D(x)，再根據(jù)計(jì)算每個(gè)樣本點(diǎn)被選為下個(gè)聚類中心的概率，通過輪盤法選取第二個(gè)聚類中心c2=(x2,y2,z2)；

3.重復(fù)步驟二、三直到預(yù)設(shè)的第k個(gè)聚類中心被選出ck=(xk,yk,zk)；

4.計(jì)算每個(gè)樣本點(diǎn)X到k個(gè)聚類中心的距離，并將其劃分到距離最短的聚類中心所對(duì)應(yīng)的類中；本文距離計(jì)算方法為歐幾里得（Euclidean）法，公式如下所示：

i=1、2、…、m,j=1、2、…、n

5.針對(duì)每個(gè)類別C，重新計(jì)算類內(nèi)質(zhì)心

6.重復(fù)步驟四、五直到類內(nèi)質(zhì)心位置不再變化，K-means聚類算法的步驟：

Step1:從數(shù)據(jù)中隨機(jī)選取K個(gè)樣本作為初始聚類中心。

Step2：與k-means++算法Step4相同，不再贅述。

Step3：與k-means++算法Step5相同。

Step4：與k-means++算法Step6相同。

三、實(shí)證結(jié)果分析

（一）數(shù)據(jù)來源與預(yù)處理

本文利用The UCI Machine Learning Repository提供的某電商公司從2010年12月1日到2011年12月9日的541910個(gè)訂單數(shù)據(jù)。原始數(shù)據(jù)存在大量重復(fù)或缺失數(shù)據(jù)，為減少數(shù)據(jù)冗余，剔除無效數(shù)據(jù)，先將原始數(shù)據(jù)進(jìn)行預(yù)處理。下面是數(shù)據(jù)預(yù)處理步驟：

1.刪除重復(fù)數(shù)據(jù)。原有數(shù)據(jù)有541,910條，刪除重復(fù)值后，還剩536,642條；

2.刪除缺失值。將數(shù)據(jù)中顧客編號(hào)為空的訂單數(shù)據(jù)刪除；

3.計(jì)算每筆訂單金額。每筆訂單總額=產(chǎn)品單價(jià)X購買數(shù)量；

4.異常數(shù)據(jù)處理。每筆訂單只能為一名顧客所有，而一名顧客可以擁有多筆訂單，其中包括訂單編號(hào)以“C”開頭的取消訂單。如表1所示，顧客編號(hào)12346購買產(chǎn)品后又取消訂單。統(tǒng)計(jì)每位顧客的消費(fèi)總額，即計(jì)算顧客每筆訂單（包括取消訂單）的金額總和，將消費(fèi)總額小于等于0的顧客數(shù)據(jù)刪除。

表1某顧客交易訂單

5.利用SPSS進(jìn)行數(shù)據(jù)分析，最終得到4,317名顧客的有效信息，并統(tǒng)計(jì)出每位顧客的最后購買日期、購買頻率、消費(fèi)總金額。

（二）基于RFM分析的顧客細(xì)分

將R、F、M值作為分類指標(biāo)，采用RFM分析算法對(duì)數(shù)據(jù)進(jìn)行分析。

1.R、F、M指標(biāo)離散化處理

計(jì)算最后購買日期與當(dāng)前日期相距的天數(shù)R(Recency)，將2011年12月9日設(shè)為當(dāng)前日期。統(tǒng)計(jì)顧客消費(fèi)頻率F(Frequency)，顧客消費(fèi)總金額M(monetary)。將R、F、M三個(gè)指標(biāo)按照優(yōu)先級(jí)依次分類離散化，即先按時(shí)間間隔R的先后順序?qū)︻櫩瓦M(jìn)行離散化，再按頻率F對(duì)每個(gè)時(shí)間間隔先后塊中的客戶進(jìn)行離散化，最后再按消費(fèi)總金額M對(duì)時(shí)間間隔、頻率塊中的客戶進(jìn)行離散化。部分離散化結(jié)果如表2所示。

表2 R、F、M離散化結(jié)果

2.RFM分析分類實(shí)施方法

本文使用自組織特征映射網(wǎng)絡(luò)對(duì)顧客的RFM值進(jìn)行分類，首先求出顧客時(shí)間間隔R(Recency)、消費(fèi)頻率F(Frequency)、消費(fèi)總金額M(monetary)離散化結(jié)果的均值分別為2.99、2.99、3。將R、F、M離散化結(jié)果與均值比較，高于均值的定義為“2”，低于均值的定義為“1”，共可得到8種分類結(jié)果，具體分類結(jié)果如表3所示。

表3顧客類型

通過上述計(jì)算后，得到顧客分類結(jié)果，由圖1所示。其中優(yōu)質(zhì)顧客有274名，占所有顧客的6%，這類顧客的消費(fèi)時(shí)間間隔短，消費(fèi)頻率高、消費(fèi)金額大，這類顧客為公司創(chuàng)造的利潤大，應(yīng)該是重點(diǎn)關(guān)注對(duì)象。重點(diǎn)保持顧客、重點(diǎn)發(fā)展顧客、重點(diǎn)挽留顧客共有1450名，占所有顧客的33.58%。這類顧客的消費(fèi)頻率、金額高，但是消費(fèi)時(shí)間間隔長，公司可以通過短信問候，引起此類顧客注意。一般價(jià)值、一般保持、一般發(fā)展顧客共有1647名，占所有顧客的38%。這類顧客消費(fèi)時(shí)間間隔短，消費(fèi)頻率高，但是消費(fèi)金額較少，此類顧客可能感覺產(chǎn)品價(jià)格過高，公司可以采取降價(jià)促銷來吸引顧客增加消費(fèi)金額。流失客戶有946名，占所有顧客的22%。這類顧客消費(fèi)時(shí)間間隔長，消費(fèi)頻率低、消費(fèi)金額少，為節(jié)省人力、財(cái)力，公司可無須特別關(guān)注這類顧客。

圖1基于RFM分析的顧客分類結(jié)果

（三）基于K—means算法的顧客細(xì)分

將R、F、M值作為聚類指標(biāo)，采用K-means聚類算法對(duì)數(shù)據(jù)進(jìn)行分析。

1.聚類指標(biāo)歸一化

由于指標(biāo)間量綱差異較大，為了消除量綱差異對(duì)聚類分析結(jié)果帶來的不合理影響。首先將聚類指標(biāo)歸一化，計(jì)算公式為：

其中x為樣本數(shù)據(jù)矩陣，x'為歸一化后數(shù)據(jù)，xmin、xmax為樣本數(shù)據(jù)矩陣中的最小、最大值。

隧道管片的受力比較接近于單向受力狀態(tài)，管片的疲勞壽命是由其拉、壓狀態(tài)共同決定的。因此，采用單軸受拉疲勞經(jīng)驗(yàn)公式(7)[29]來對(duì)管片進(jìn)行受力計(jì)算，采用單軸受壓疲勞經(jīng)驗(yàn)公式(8)[30]對(duì)管片的疲勞壽命進(jìn)行驗(yàn)算，其計(jì)算公式如下：

2.K值的選取

本文K-means算法中對(duì)K值的選取使用輪廓系數(shù)法。找出K分類下數(shù)據(jù)集中所有樣本點(diǎn)輪廓系數(shù)平均值的最大值，與之對(duì)應(yīng)的K值則為最佳聚類數(shù)。K分類下樣本點(diǎn)的平均輪廓系數(shù)如圖2所示。從圖中可以看出，K=2時(shí)，輪廓系數(shù)最大為0.72，算法聚類效果最優(yōu)。當(dāng)K=4時(shí)，輪廓系數(shù)為0.71，其聚類效果僅次于K=2。為了樣本劃分得更加精細(xì)，在平均輪廓系數(shù)相差不大的情況下，本文的K值選4。

圖2 K分類下樣本點(diǎn)平均輪廓系數(shù)

3.K-means算法聚類結(jié)果分析

圖3為K-means算法在兩種不同初始聚類中心下的聚類結(jié)果，不同顏色代表不同的顧客分類。從圖中可以看出兩次聚類結(jié)果不同，這說明K-means算法對(duì)初始聚類中心非常敏感。同時(shí)圖中的顧客被分為4類，各類的特征不明顯，可解釋性較差，不能達(dá)到顧客細(xì)分的目的。

（四）基于K-means++算法的顧客細(xì)分

將R、F、M值作為聚類指標(biāo)，采用K-means++聚類算法對(duì)數(shù)據(jù)進(jìn)行分析。同樣將聚類指標(biāo)進(jìn)行歸一化處理，不再贅述，K值依然取2。下面是K-means++算法聚類結(jié)果分析：

圖3 K-means聚類算法可視化結(jié)果

K-means++聚類算法可視化結(jié)果如圖4所示。其中，X軸坐標(biāo)為時(shí)間間隔R，Y軸坐標(biāo)為消費(fèi)頻率F，Z軸坐標(biāo)為消費(fèi)總金額M。圖中K-means++聚類算法選取K=4，將顧客劃分為4類，不同類別的顧客以不同顏色與形狀表現(xiàn)出來，聚類中心以黑色叉號(hào)表示。分析圖4可以獲取以下信息：

圖4 K-means++聚類算法可視化結(jié)果

第2類顧客數(shù)量為5，其消費(fèi)時(shí)間間隔短，頻率相對(duì)較高，金額最大；對(duì)于此類顧客企業(yè)可以推送更多優(yōu)質(zhì)商品廣告，刺激顧客消費(fèi)，提高購買頻率，讓顧客為企業(yè)創(chuàng)造更多利潤。

第3類顧客數(shù)量為4，其消費(fèi)時(shí)間間隔短，頻率最高，金額相對(duì)較大，這類顧客為企業(yè)創(chuàng)造的利潤較大，應(yīng)該是重點(diǎn)關(guān)注對(duì)象。公司可以采取積分兌換禮品等活動(dòng)來維持此類顧客的忠誠度，讓此類顧客為企業(yè)持續(xù)創(chuàng)造利潤。

第4類顧客數(shù)量為1061，相比于2、3類顧客，其消費(fèi)時(shí)間間隔相對(duì)較長，頻率相對(duì)較低，金額相對(duì)較低，但高于1類顧客，此類顧客時(shí)是企業(yè)的潛在顧客，可以采取廣告推送、促銷打折等相應(yīng)措施促進(jìn)顧客產(chǎn)生更多交易。

（五）方法評(píng)估

RFM分析將顧客分為8類，分類更加精細(xì)。但是相較于RFM分析中的指標(biāo)離散化分類法，Kmeans++聚類算法通過原始數(shù)據(jù)與聚類中心間的距離來劃分顧客類型，更具科學(xué)性，分類結(jié)果更加準(zhǔn)確。同時(shí)通過輪廓系數(shù)法選取聚類中心數(shù)目的Kmeans++聚類算法以初始聚類中心距離最大化的分類思想，彌補(bǔ)了K-means算法聚類中心數(shù)目難以確定以及對(duì)初始聚類中心敏感的不足。最終經(jīng)過Kmeans++算法劃分的每類顧客，不僅分類準(zhǔn)確，而且特征明顯，更易于企業(yè)制定相應(yīng)的營銷策略。

四、結(jié)語

本文基于RFM模型采用RFM分析、K-means++、K-means三種方法對(duì)顧客進(jìn)行細(xì)分，旨在幫助企業(yè)準(zhǔn)確識(shí)別顧客價(jià)值。K-means++算法通過輪廓系數(shù)法，客觀合理地找到聚類中心數(shù)K，消除了K-means算法聚類中心數(shù)目難以確定以及對(duì)初始聚類中心敏感的不足，同時(shí)相較于RFM分析也更加科學(xué)。最后K-means++聚類結(jié)果可視化，可使企業(yè)人員可以快速直觀地判斷每個(gè)顧客分類代表的意義，進(jìn)而采取精準(zhǔn)的營銷策略，提升企業(yè)核心競爭力。