楊雄 徐鑫榮



摘要:人工成本永遠是企業運營預算的重中之重,數據挖掘可以有效發現數據中包含的客戶價值,提供不同客戶群體的針對性服務,合理布局和提高現有客服人員的資源效率。基于RFM模型提出了LRFMC客戶價值評價模型,通過對比特征值的權重,利用K-means聚類算法,將客戶群體按不同特征進行分類,根據客戶價值等級,針對高價值優質用戶和低價值潛在用戶展開數據分析。
關鍵詞:客戶價值;聚類分析;LRFMC模型;數據挖掘
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)06-0022-04
數據挖掘終極目標是為了發現數據更多的價值,在大數據時代下[1],不單單只是將數據的量提升到一個前所未有的地步,還將數據的時效性進一步地延長了,數據之間已經不再是最開始的因果關系,而是潛藏著彼此之間重要的相關性[2]。換句話說,數據挖掘的真正目的不單單是挖掘數據的現有特征,而是通過分析關聯性,探索出更深層次的價值,從而為企業帶來利潤。作為商業數據的挖掘,不單單需要優質的算法,還需要一些貼近業務的數據模型。從算法的完善到整個模型的建立,現階段的數據挖掘,也從對數據本身和算法的關注,逐漸變成了對整個業務模型的關注,數據挖掘的核心也不單單只是對算法的追求,還包括了數據模型的建立和數據的應用[3]。
在目前數據研究領域[4],雖然數據挖掘已經是一個熱門話題,但很難在中小型企業真正地實施起來,更多的是在為大型企業或者政府機關服務[5]。其根本原因在于中小型企業的數據挖掘成本永遠是經營預算的重中之重。一個好的模型與算法,可以提高客服人員的效率,提高他們面對客戶的有效性。利用將客戶分群所得出的結果,將高質量客戶從客戶群中分離出來,使客服能夠針對性地提供高質量服務[6,7]。而對低價值的潛在用戶進行分析,思考是公司服務問題還是客戶本身問題,從而可以更好地做出經營策略的改變。本文使用LRFMC客戶價值評價模型和k-means聚類算法,利用開源數據分析高質量用戶和低質量用戶的特征構成,為企業決策層提供有針對性的參考建議,從而提高企業工作效率和降低運營成本[8,9]。
1 客戶價值RFM模型
研究客戶價值的模型有很多,而最常見的應該就是RFM模型。RFM模型主要是來評價客戶這兩方面:客戶本身價值和他所能帶來的價值。該模型通過一個客戶的近期消費行為(Recency)、購買行為的頻率(Frequency)以及消費的能力(Monetary)這三項的指標來說明該客戶對企業的價值影響。
1.1 RFM模型關鍵特征介紹
(1)特征R說明
R(Recency) 指的是客戶在離數據統計的截止日期前最近一次消費的時間間隔。在該模型中,如果最近一次的消費時間與截止的時間間隔越短,那么就意味著用戶對現在的服務或者商品比較感興趣。最近一次的消費時間與截止時間的間隔不僅僅為確定客戶的消費群體提供的依據,還可以看出企業的發展趨勢,如果距離最近一次消費時間很近的客戶在增加,那么就說明客戶來往的頻率很高,這也從側面反映了企業的趨勢是在穩定增長。反之,如果最近一次消費的時間與截止時間越長,那么就說明客戶來企業消費的次數越來越少,也就說明企業在流失客戶。
(2)特征F說明
F(Frequency)指的是在統計的時間段內作為客戶他所消費的次數。很顯然,假如一個客戶的消費頻率越高,那么就能從側面說明這個客戶對企業的滿意度越高,他對企業的質量也就越高,而作為服務業來說,增加客戶的消費頻率也是增加營業額最有效的手段,同時還能為企業搶奪競爭對手的市場。所以企業要在消費頻率下降的時候,要推出促銷活動,來增加消費。
(3)特征M說明
M(Monetary)指的是客戶在統計的段時間內消費金額的多少。基本上對于企業來講,如果一個客戶消費的越多,那么就說明作為單個客戶的消費能力也就越強。企業里最常說的二八法則,通常意義就是百分之20的客戶貢獻了企業百分之八十的銷售額。而這些用戶,也是企業在進行營銷活動時不得不特殊照顧的群體,尤其在商家資源預算不足時,這類群體更是應該挽留和重點照顧的對象。
在傳統的RFM模型中,離截止統計時間最近的一次消費時間間隔,消費頻率以及消費金額的多少都是評價客戶價值最重要的特征,其中離截止統計時間最近一次消費時間的間隔是最有力的特征。
1.2 RFM模型結果解讀
RFM因為包含3個特征,所以此處選擇使用三維坐標系來進行解讀。如圖1所示橫軸表示Recency,縱軸表示Frequency,豎軸表示Monetary,每個軸一般使用5級表示程度,1為最小,5為最大。在這里需要特別說明的是,在x軸上,R越大,那么這類客戶離截止統計時間最近一次消費時間的間隔越短,該用戶的價值在這一維度上也就越高。將每個軸上劃分為5個等級,等同于將客戶劃分成5*5*5=125種類型。在圖1中,左上方角的客戶R,F,M特征取值為1,5,5,說明這類客戶在最近一段時間內沒有消費,因為R值最小。原因可能包括客戶對當前服務的不滿,或者其他商家的活動更多,導致該類客戶的流失,而這一類用戶的價值恰恰是最高的,在表現出人數降低時,就應該引起企業的警覺。F如果越高,則說明客戶很活躍,經常進行消費;消費金額M越高,則說明該用戶擁有很高的消費能力,也應該值得商家重視。同樣,如果客戶的R,F,M這三個特征最高,如都取5,5,5,那么就說明無論從哪個方面來講該用戶都是最優質的用戶,即該用戶近期進行了消費,消費頻率高而且消費金額也大。這樣的用戶是企業利益最主要的貢獻者,需要被重點關注和維護。
2 LRFMC模型的設計
雖然在衡量客戶價值時,已經提出了RFM模型,其中消費金額M直接反映了在統計時間內客戶在該企業消費的情況。但在運輸行業比如航空產業、快遞產業中,消費金額M受到運輸距離、艙位等級等各種因素的影響,而且即使客戶消費金額一樣,對運輸類公司而言,所帶來的價值也是不一樣的,因為需要考慮到該客戶運輸距離的長短,是否經常消費,艙位等級或運輸保單高低等因素。本文模型采用的數據集是一家航空公司的客戶數據,其觀測窗口的時間寬度為兩年,該數據集總共有62988條客戶檔案信息和乘坐航班的記錄,數據特征如表格1所示,主要由三個部分組成,第一部分是客戶的基本信息,第二部分是客戶的乘機信息,第三部分保存的是客戶積分信息。
LRFMC模型選擇客戶在特定時間段內積累的飛行里程M和客戶在特定時間段內乘坐艙位所對應的折扣系數的平均值C兩個特征來代替RFM模型的消費金額M。此外,在LRFMC模型中我們又增加了客戶關系長度L。改進后LRFMC模型的5個特征構建過程具體如下所述:
(1)第一個特征是L。L是客戶加入會員的時間到統計截止時間的間隔,單位是月份,其中LOAD_TIME代表觀測窗口的結束時間,FFP_DATE代表入會時間,如公式1所示:
L=LOAD_TIME-FFP_DATE? ? ? ? ? ? ? ? ? ? ? (1)
(2)第二個特征是R,即LAST_TO_END。這里的R與傳統RFM模型里的R其實含義相同,指的都是客戶最后一次消費時間到統計截止時間的間隔,在航空公司里就是指客戶最后一次乘機時間到統計時間間隔了多久,單位是月份,如公式2所示:
R=LAST_TO_END? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)
(3)第三個特征是F,即FLIGHT_COUNT。F在傳統RFM模型中,指的是消費頻率,在航空公司的實際業務里,指客戶在觀測窗口時間內所乘機的次數。單位是次數,如公式3所示:
F=FLIGHT_COUNT? ? ? ? ? ? ? ? ? ? ?(3)
(4)第四個特征是M,即SEG_KM_SUM。在RFM模型中M是客戶的消費金額,而在本文里結合航空公司的實際業務,M是客戶在觀測時間窗口內的總飛行里程。單位是千米,計算公式如4:
M=SEG_KM_SUM? ? ? ? ? ? ? ? ? ?(4)
(5)第五個特征是C,即AVG_DISCOUNT。傳統客戶價值RFM模型里沒有該特征,在航空公司數據集中,C是指在觀測窗口時間內客戶乘坐艙位的折扣系數。無單位,計算公式如5:
C=AVG_DISCOUNT? ? ? ? ? ? ? ? ? ?(5)
3 基于LRFMC模型的客戶價值聚類分析
聚類分析就是通過對數據集所表現出的特征,根據需求將數據特征相似的數據分為一組,并不斷進行迭代操作,直到各個數據組間的數據到質心的位置不再有變化。本文結合了LRFMC模型的五個特征來將數據合理的劃分為5個組別,因此在k-means算法中選擇初始聚類種子數為5。通過k-means聚類算法隨機選擇5個數據作為質心,迭代計算每個數據到質心的距離,并根據距離遠近來調節質心距離和給數據集分組,直到數據的位置不再發生變化。
3.1 散點圖的聚類分析
散點圖最適合在二維空間里對數據集進行可視化,因為它能夠直觀的表示出聚類后每一個樣本數據的在空間的分布情況,也能夠很容易看到每一個聚類中心所處的位置。選取R語言stats庫中的K-Means函數將處理后的數據集進行k-means聚類分析,選取特征M和特征F分別作為橫坐標及縱坐標,結果如圖2所示:
可以發現由于樣本數量過多,散點圖分布過于密集,而且散點圖只能展示二維平面下的數據分布情況,比較各個特征的大小就極為不方便。考慮到所選取可視化方案要能夠從多維度展示數據的結果,而且能夠清晰地比較出每個數據特征之間的差異,本文采取了可以從多個維度展現出多變量特征情況的雷達圖。
3.2 雷達圖的聚類分析
雷達圖可以從多維度來分析和構建數據集的聚類結果,并且將這些數據利用比率表示出來,填寫到一張可以展示出其中每個特征比率關系的等比例圖形上。本文選用的是R語言內置庫fmsb的radarchart函數,代碼如圖3所示:
在代碼中,我們首先導入了fmsb函數庫,然后使用apply函數,取出每個特征下的最大最小值,并使用date.frame函數構建了新的數據集。在radarchart函數的使用中,第一個參數填入的是數據,在后面的參數中,我們指定了每個軸的段數為5,字體大小為1,線寬為1,雷達圖效果如圖4:
從雷達圖的展示效果上看,我們很容易就發現各個客戶群的特征情況。而且每個客戶群都有屬于自己的顏色和線條類型,比起之前的散點圖,我們更直觀地感受到不同群體間的特征差異。 結合雷達圖展示的特征,我們很容易得出這樣的結果,如客戶群1的L特征最大,以此類推,得到各個客戶群的特征表整理如表2所示。
我們根據每個客戶群的不同特征表現,定義每個客戶群的重要程度。
(1)重要保持客戶:該一類客戶的特征是,折扣系數C較高,即代表乘坐航班的艙位等級較高,且距離最后一次統計時間長度低,飛行次數F或者飛行里程M較高。這些特征都說明了這類客戶對公司的貢獻是占主體的,也是最值得重視和資源傾斜的。
(2)重要發展客戶:該類客戶的特征是,平均折扣系數C較高,但距離最后一次統計時間長度R較低,但飛行次數F或者總飛行里程M較低。這類客戶目前看似價值不大,但只要公司能夠加以引導,那么在接下來的時間中,很有可能成為重要保持客戶。
(3)重要挽留客戶:該類客戶的特征是,平均折扣系數C,飛行次數F或者總飛行里程M較高,但是距最后一次統計時間長度R較高或者乘坐頻率F較小。這類客戶變化較大,所以要重點聯系。
(4)一般客戶與低價值客戶:該類客戶的特征是,平均折扣系數C很低,最近乘機距最后一次統計時間長度R高,飛行次數F和總飛行里程M都很低,會員入會時間短。
經過分析后,給出的客戶群價值排名如表3所示。
4 總結與展望
本文針對當前企業客戶價值的挖掘分析不足,提出了一種基于LRFMC的客戶價值評價方法。該方法不同于已有客戶價值RFM評估模型只考慮客戶的消費額度、消費頻率、消費時間間隔等參數;而是同時考慮了客戶關系時間和消費折扣系數2個屬性,引入LRFMC模型和雷達圖來提高客戶群體特征值的表述效果。實驗結果證明相對于傳統二維散點圖的聚類分析評估方法,采用本文提出的方法能夠更有效地對客戶群體進行分類和更細粒度地對客戶群體特征進行有效區分。由于該模型是建立在歷史數據上的,所以為了確保模型的穩定性,需要積攢足夠數據后,更新運行模型結果。并且由于沒有正確的基準值作為參考,每次運行后都需要做后續的觀察與監測,若增量數據的實際情況與判斷的結果變化差異過大,就應查看變化原因,改進模型或者針對客戶做出一些業務上的調整。
參考文獻:
[1] 孟小峰, 慈祥, 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展, 2013(50): 146-169.
[2] Güden S, Gursoy U T. Online Shopping Customer Data Analysis by Using Association Rules and Cluster Analysis[J]. Lecture Notes in Computer Science, 2013, 7987:127-136.
[3] Held F P, Blyth F, Gnjidic D, et al. Association Rules Analysis of Comorbidity and Multimorbidity: The Concord Health and Aging in Men Project[J]. Journals of Gerontology, 2015, 71(5):217-223.
[4] 李健, 王小蒙. 基于R語言的數據挖掘工具的設計[J]. 內蒙古科技與經濟, 2017(24):58-59.
[5] 普拉迪帕塔·米什拉.R語言數據挖掘:實用項目解析[M].機械工業出版社,2017:110-135
[6] 羅亮生, 張文欣. 基于客戶價值的航空公司客戶關系管理策略[J]. 企業經濟,2008(12): 20-22.
[7] 陳慧敏. 云計算模式在客戶關系管理系統中的應用[J]. 現代商貿管理, 2013(8):160-161.
[8] 耿向華. 數據挖掘在旅游商務系統中的應用研究 [J]. 魅力中國 ,2013,5(27):287-288.
[9] 郭良. 基于數據挖掘技術的客戶信息分析 [D]. 上海:華東師范大學,2015.
【通聯編輯:王力】