楊曉峰
(山西建筑職業技術學院 山西省晉中市 030600)
在競爭激烈的商業環境下,取得商業成功的方法之一就是研究客戶,通過客戶分類實現精準營銷。本文以某航空公司客戶分析為基礎研究商業客戶分類方法。
目前客戶分類經典方法多采用RFM 方法,其中R 表示客戶消費時間間隔、F 表示客戶消費的頻率、M 表示客戶消費能力。季杰[1],徐伶伶[2]基于Kmeans 聚類算法利用改進的RFM 模型對某航空公司客戶進行了價值分析并將客戶分為五類,篩選出了最有價值客戶。覃玉冰[3]使用Kmeans 聚類算法進行某公司客戶分析,通過對比INCA 指數將客戶優化分類為4 類。Kmeans 算法屬于硬聚類算法,任何一個樣本對于某個類別的概率只有兩種情況(0%和100%)。Kmeans 算法通過優化類內誤差平方和最小化,通常樣本間相似度采用歐拉距離計算。模糊C 均值聚類融合了模糊理論,將樣本屬于某個分類的隸屬度修改為[0,1]區間,隸屬度表示樣本歸于某一類別的概率,隸屬度可以很好的表示實際情況。因此,本文選用模糊C 均值聚類分析研究商業客戶。
本文實驗采用開源某航空公司數據集,數據集抽取了某航空公司兩年內所有客戶乘機的62988 條記錄。記錄中包括第一次飛行時間、性別、會員卡級別等客戶基本信息,乘機次數、平均折扣率、飛行總里程等乘機信息,積分兌換次數、總會員積分、促銷積分、總累計積分等積分信息。
本文實驗設計了RFM 的改進模型PRIFEMD,PRFMDIE 模型中的特征中包含七個特征:(1)P 表示乘客入會的時間長度,由時間窗的結束時間與入會時間的差表示;
(2)R 表示乘客最后未乘機時間長度,由時間窗的結束時間與最后一次乘機時間的差表示;
(3)F 表示乘坐飛機的頻率,由時間窗內總飛行次數表示;
(4)M 表示乘客總飛行里程,由時間窗內總飛行公里數表示;
(5)D 表示飛機倉位折扣系數均值,由時間窗內乘坐倉位對應的折扣系數的平均值表示;
(6)I 表示乘客消費間隔,由時間窗內乘機平均間隔表示;
(7)E 表示乘客消費總額,由時間窗消費累計表示。
從某航空公司開源數據集中提取PRFMDIE 模型的七種特征,并畫出分布圖,如圖1-圖7 所示。P 特征的分布如圖1 所示,R 特征的分布如圖2 所示,F 特征的分布如圖3 所示,M 特征的分布如圖4 所示,D 特征的分布如圖5 所示,I 特征的分布如圖6 所示,E 特征的分布如圖7 所示,圖中橫坐標和縱坐標分別表示特征值和特征值的數量。從圖1-圖4 以及圖6-圖7 中可以看出,P、R、F、M、I 和E 六個特征不屬于正態分布,因此P、R、F、M、I 和E 六個特征歸一化采用離差標準化,如公式1。從圖5 可以看出,D 特征近似正態分布,因此本文采用標準差標準化,公式2。PRFMDIE模型的七種特征歸一化后的數據如表1 所示。


圖1:P 特征分布

圖2:R 特征分布

圖3:F 特征分布

圖4:M 特征分布

圖5:D 特征分布

圖6:I 特征分布

圖7:E 特征分布

表1:部分PRFMDIE 特征歸一化數據
模糊C 均值聚類簡稱FCM,FCM 融合了模糊理論,使用隸屬度表示每個樣本的類別屬性。假設樣本集合為將樣本集X 其分成C 個子集,設為每個子集的中心,Jm是目標函數,如式3 所示。

其中m 是模糊因子,i 是樣本索引,j 是聚類中心索引,uij是樣本xi屬于聚類中心cj的隸屬度,|| ||2是樣本與聚類中心的距離。聚類過程是:在優化目標函數Jm過程中,計算每個樣本的所有類別的隸屬度,其中隸屬度高的類別就作為樣本的類別詳細過程描述如下:
(1)確定類別參數C,模糊因子m,隸屬度矩陣初始化,并滿足公式4。

其中s 表示迭代更新次數,

將PRFMDIE 模型中的七種特征組成特征向量d,d∈R7。所有乘客的PRFMDIE 特征組成特征矩陣其中N 表示所有乘客數量。將特征矩陣作為模糊C 均值聚類方法的輸入,可以得到乘客分類,乘客分類結果TSNE 可視化結果如圖8 所示,其中五類乘客由五種顏色表示,黃色表示最優質乘客。從圖8 中可以看出,聚類結果只有少數離群點,大部分同類型乘客被歸為一類,說明模糊C 均值聚類方法在解決乘客分類問題中有效,可以很好的將乘客分為5 類。本文實驗還對比了Kmeans 聚類結果,如圖9 所示。對比發現,Kmeans 聚類中不同類型的樣本混雜要高于模糊C 均值聚類的結果,如圖9 中實線標注區域所示。

圖8:模糊C 均值聚類結果可視化

圖9:Kmeans 聚類結果可視化
本文對某航空公司乘客PRIFEMD 特征進行了可視化分析,確定了歸一化方法,D 特征采用標準差標準化,其他特征采用離差標準化。乘客分類采用了模糊C 均值聚類方法,將最有價值客戶分離出來,結果采用TSNE 方法進行可視化表示。