簡宋全,李青海,秦于欽
(廣東精點數據科技股份有限公司,廣州510630)
基于K-means的用戶分群分析
簡宋全,李青海,秦于欽
(廣東精點數據科技股份有限公司,廣州510630)
對于各行各業來說,對客戶的精準分群行為可以將大眾營銷的方式轉換為精準營銷方式從而得到更好的回報率,針對電信行業進行研究,采用K-means的聚類方法對電信用戶數據進行用戶分群,同時采用圖像法的方式對分群個數以及分群準確程度進行分析,并從分析結果中挖掘出有用信息輔佐于運營商的業務需求。
對于用戶的分析對于各行各業都是十分重要的一環,能準確地將自己用戶分為各個群體進行挖掘分析是十分重要。
對用戶進行分群管理對于企業來說是一種降低成本提高效率的方法,通過群體分類,可以歸結出該群體的特點、行為偏好等信息,從而推出針對性的管理方法和營銷方案,已達到各個企業對成本控制以及營銷召回率的需求。
然而對于用戶的分群通常存在許多問題,數據的雜亂程度、量級的大小,以及類別的界定,種種原因導致了該過程難以實現。因此,本文采用K-means聚類的數據挖掘方法對用戶進行聚類處理,k聚類為無監督式的數據挖掘算法,可以更具數據中的各個特征將數據分為k個群體,這樣只需要分析每個群體中的特性就可以對該群體實行相應的對策和營銷方案。
在本文案例中我們采用的是電信行業的用戶行為數據,該數據中包含用戶基本信息,如年齡、性別、在網時長、套餐手機品牌等,用戶行為信息包含用戶不同時間段的通話時長,繳費記錄,以及一些衍生的變量,例如,用戶話費方案是否合理等。該數據中包含1.8萬條用戶數據,經過一系列計算,我們將k值設定為3,將其分為3個群體,然后對每個群體進行統計分析,以得到最后的結果。
聚類分析簡稱聚類,是一種無監督的機器學習算法,其主要作用為將一數據集分為多個不想交的數據集,且在這些數據集中的數據特征彼此相似,但與其他數據集中的數據特征中會存在明顯差異。
對于聚類分析的算法解釋我們可以理解為,假設存在一個數據集,該數據集可以根據數據的特征劃分為k個不相交子集,且k的數量大于1,所有的子集的集合為原始數據集。并且在每個子集中,其中的數據與同子集中數據特征相似性,與其他子集中數據特征具有差異性。
K-means聚類分析是聚類分析中最常用到的一種聚類方法,該方法采用離中心點距離最短的方式進行聚類,同時指定聚類中的k值,也就是聚類后子集的個數。從數據語言上描述即可描述為存在一個數據集D,該數據集由n個對象組成,我們通過聚類分析的方式將這n個對象劃分到k個子集C1,C2,…,Ck中,假設1≥i,j≥k且i≠j,使得Ci?D且Ci∩Cj=?。
對于具體實現過程,我們首先要對簇心得概念進行理解。K-means聚類中,我們將k個子集稱為k個簇,每個簇都具有一個簇心,該簇心為簇中所有對象的特征均值組成,而對于某個對象是否為該簇的判斷條件為該對象與該簇中心的距離,這里的距離采用歐氏距離進行計算。
對于聚類分析來說,首先要確定簇心才能判斷一個對象最終歸屬于那個簇,但是在實際生活中,我們無法直接確定簇心,故在本方法中采用無監督式的K-means算法來完成聚類,該算法迭代算法,首先在歐氏空間中隨機取k個點作為簇心,然后根據簇心對所有對象進行聚類,從而產生k個簇,在利用均值特征的方式產生一個新的簇心,與原簇心進行對比,迭代,直至最后簇心不會發生變化則完成整個聚類過程。
上述描述過程,其流程算法如下:
①隨機取k個種子點
②然后求數據中每個點分別到這些種子點的歐氏距離,并將這些數據點歸于其歐氏距離最短的種子點下,形成k個簇。
③然后移動種子點值其簇的中心。
④然后重復②、③步,直至第③步中種子點不會在移動,也就是種子點的原始位置為該簇的中心。
在對該份數據進行實驗之前需要對該份數據進數據預處理,由于聚類分析只支持對數值型變量的計算,故需要對數據中的字符型變量進行0/1化處理,對于某些多分類字符型變量則采取去除占比較少分類后在做0/1化處理。
處理結束后,則采用R語言進行K-means聚類分析,在分析中我們對k值分別選擇了2、3、4、5進行分析,得出的結果分別為:

圖1
上圖從左上到右下分別為k值為2、3、4、5時的K-means聚類圖,從途中可以看出,無論取k為幾,都具有將類別聚為3類的趨勢,故將k設定為3,進行聚類分析,將數據進行聚類。
我們分別對3個類進行研究:

表1
從聚類后的統計結果可以看出,用戶被分為了三個類,分別包含2650、8766和6848個用戶。
從尋找流失原因角度看,其中c2類包含最多的8766個用戶,同事其流失率也是最高的,同比其他兩給類高出30%,在對c2類進行進一步研究可以發現,該類中18至30歲用戶最多,也就說明在這個年齡段中的人最容易流失,而小于18歲和大于30歲的用戶流失的可能性不大。同時從使用率上也可以看出,在該類用戶中高/極高使用率只有3%,相較于其他兩個分類的35%和24%都低了很多。可以發現該原因也是導致用戶流失的重要原因。
再從用戶管理角度可以看出,c1和c3主要為30歲以上客戶,切c3類中的18歲一下客戶較少,c2主要為18到30歲客戶。同時c1和c3的通話主要產生于非高峰時段,而c2再高峰時段通話占比高達44%,故可以看作該類用戶打多為上班族,通常采用該號碼進行工作上的聯系。
同樣的方法還可以提取到很多信息,在本問中就不再贅述,可由讀者自行開發。
該模型在聚類中采用圖像法對聚類數目,該方法簡單易理解,得出結果也具有一定的研究價值,但是在聚類上可能會存在一定的不穩定性,例如在上述試驗中c1類和c2類的區別就不是很明顯,同時部分特征如男女分布情況等沒有明顯體現出來,故還有改進的余地例如利用輪廓系數對聚類k值進行判斷等,同時對于該聚類結果進行進一步的聚類分析也可以對分析結果有一定的幫助。
本模型致力于簡單的完成聚類分析過程,同時可以讓該過程產生一定有價值的結果,同時該模型還有很多方面可以改進或深入,已達到更好的效果。
簡宋全(1971-),男,廣東廣州人,碩士研究生,工程師,研究方向為機器學習算法
李青海(1980-),男,廣東廣州人,碩士研究生,工程師,研究方向為機器學習算法
秦于欽(1993-),男,廣東廣州人,本科,助理工程師,研究方向為機器學習算法
2017-07-11
2017-09-28
K-means;Telecom;Industry;Precision;Marketing
User Group Analysis Based on K-means
JIAN Song-quan,LI Qing-hai,QIN Yu-qin
(Guangdong Fine Point Data Polytron Technologies Inc,Guangzhou 510630)
It is necessary to cluster customers accurately in every walk of life so that we can change a popular marketing program into an accurate mar?keting program for better return on equity.Studies the telecom industry,adopts clustering method of K-means to cluster telecom users,and uses a method based on imaging processing to analyze the number and the accuracy of clustering at the same time,to search for useful mes?sages for operator's business requirements.
K-means;電信行業;精準營銷
天河區科技計劃項目(No.201502YH019)
1007-1423(2017)29-0029-03
10.3969/j.issn.1007-1423.2017.29.007