彭宜丹 劉洪偉 高鴻銘



摘? 要:電信用戶的消費行為與消費特征不盡相同,如何對電信用戶群體進行有效劃分,是值得關注的問題。文章研究了利用電信用戶的自身屬性與業務屬性,構建潛在類別模型,通過10個外顯變量對其進行分類,并根據劃分結果分析每一類用戶的消費特征。研究結果表明,電信用戶可分為臨時型、低值型、傳統型、公務型、佛系型和穩定型6種類型,其中公務型用戶群體消費水平最高且相對穩定,具有較高的用戶維護價值,運營商應給予最多的關注。
關鍵詞:電信用戶;RFM分析;潛在類別模型;用戶分類
中圖分類號:TP311.13? ? ? ?文獻標識碼:A 文章編號:2096-4706(2021)02-0006-06
Abstract:The consumption behavior and consumption characteristics of telecom users are different. How to divide telecom user groups effectively is a problem worthy of attention. Based on the self attributes of telecom users and service attribute,this paper constructs latent class model,classifies them by 10 explicit variables,and analyzes the consumption characteristics of each category of users according to the classification results. The results show that telecom users can be divided into six types:temporary,low value,traditional,official,buddhist and stable. Among them,the consumption level of official users is the highest and relatively stable,which has higher user maintenance value,and operators should pay more attention to it.
Keywords:telecom user;RFM analysis;latent class model;user classification
0? 引? 言
隨著5G技術的逐漸成熟,移動5G用戶數正呈井噴式上升,對于移動運營商來說,如何在新的競爭環境下獲取更高收益的問題迫在眉睫。同時,由于移動互聯網的高速發展,電信行業傳統的通話、短信業務量嚴重下滑,取而代之的是流量消費的需求日益增加。面對電信用戶消費結構的變化,運營商如何管理用戶關系、識別用戶特征、有效劃分用戶類別并進行精準營銷,以減少用戶流失,在新一輪的“搶人大戰”中占據主導權顯得尤為關鍵。
一般來說,用戶分類管理是用戶關系管理的重要手段,用戶細分主要基于用戶的三大特征,即人口統計學特征,行為特征以及心理特征。隨著研究的深入,相對于其他行業來說,電信行業在數據流量上擁有優勢,電信運營商通常依據其中1~2個維度對用戶進行等級劃分,使用不同的營銷手段,例如,中國三大運營商之一的移動根據用戶網齡、月均消費金額、合約情況、停機次數等數據對用戶進行星級評定,對于不同星級的用戶給予不同的優惠政策。但這一劃分方式通常只是簡單根據用戶當月的消費金額等進行等級評定,并未從用戶統計學特征、消費特征等多方面進行綜合分析,詳細構建用戶畫像。另外,傳統的研究通常利用K-mean聚類算法[1]、混合回歸模型[2]、因子分子的方法進行用戶細分,但這些聚類算法往往存在一定的缺陷,如聚類結果不穩定,易受初始值影響等。
為更精準的評判用戶價值,對用戶進行精細化管理,本文擬在RFM理論的基礎上,從用戶屬性和業務屬性角度出發,對電信用戶進行分類;同時,通過貝葉斯理論,使用一種新的概率分析方法,引入潛在變量,并根據潛在類別模型將每個用戶劃分到某個潛在類別中來達到用戶分類的目的。
1? 理論基礎
用戶是企業的核心競爭力,企業通過使用有效地用戶管理方法,能夠及時了解不同用戶特點,有效維護用戶關系,充分保留高價值用戶。因此,采用有效地分類方法顯得至關重要。Arthur Hughes提出,用戶特點可由3個要素來描述,分別為最近一次消費(Recency)、消費頻率(Frequency)、消費金額(Monetary)[3]。其中,R表示用戶最近一次消費的時間間隔,時間越短,用戶對企業的服務或產品響應越快;F表示在限定時間內用戶消費的次數,消費的次數越多,用戶的活躍度就越高;M表示用戶限定時間段內的消費金額,也是企業利潤的來源,消費金額越高,用戶價值也越高[4]。
一般而言,企業利用最近一次消費時間與消費頻率來衡量用戶的流失情況,利用消費金額作為判斷用戶價值的主要指標,依據三個要素的不同組合關系,將用戶分為不同類型以采用不同的管理模式進行管理。例如李飛、王高[5]等根據RFM指標,對一家購物中心的交易數據進行了實證分析,表明RFM指標可以有效分析顧客的消費行為與顧客價值,對企業的顧客管理有積極的實踐意義。Khajvand M[6]等利用RFM三個指標對企業用戶進行細分,確認針對不同類型用戶進行服務定制可以提高用戶忠誠度,并能夠通過消耗最小的成本實現高價值用戶保有率。劉朝華[7]等分析了用戶分類與用戶關系管理的關系,基于RFM評價了用戶分類的價值評價模型,為每類用戶價值的相對大小提供了技術手段。在電信行業,肖旭[8]考慮了RFM指標的不同權重,應用K-均值聚類法對用戶進行了分類,并比較了各類用戶的終身價值,證實了RFM指標分類的有效性。上述研究表明,RFM作為用戶分類指標,在各個研究與實踐中得到了充分的運用,但大多數研究都專注于RFM的指標權重分析,并未充分挖掘RFM在實踐中的實際意義,RFM作為分類的基礎與實際應用,有待進一步探索。
而在電信用戶的關注上,聚類分析是常用的分析方法。K-means聚類、因子分析都曾運用在電信用戶的分類關系上,但這類方法均基于自身存在一定的缺陷。與此同時,潛在類別模型這一類統計分類方法正在逐步得到運用,研究者利用可以測量的外顯變量來對潛在的類別進行分析[9,10]。隨著研究的深入,通過對用戶特征的分析,來發現隱藏在模型背后的用戶類別變量,以此達到用戶分類的目的。這類潛在類別分析的方法在國外已取得了大量的理論與實踐成果。而國內的研究目前主要應用在心理學[11]與醫學行業[12],對于電信行業來說,目前鮮少有文獻利用潛在變量對用戶進行分類研究。
綜上所述,本文將RFM要素與潛在類別模型方法應用于信用分類的研究尚屬空白,考慮到RFM要素與潛在類別模型在用戶分類中的優勢,本文擬將兩者結合起來,對電信用戶進行分類研究,以探索不同用戶群體的差異性,為電信運營商在用戶管理上提供支持。
2? 電信用戶潛在類別分類建模
潛在變量模型(Latent Variable Model)是討論潛在變量模型化分析的一種統計方法,其中主要涉及兩類變量——不可直接測量的潛在變量和可直接觀察測量的外顯變量。根據潛在變量與外顯變量是否連續可將潛在變量模型分為不同類別。當潛在變量和外顯變量均為類別型時,稱為潛在類別模型(Latent Class Model)。潛在類別分析(Latent Class Analysis)是通過潛在類別變量來解釋外顯變量之間的聯系,使外顯指標之間的關聯能夠通過潛在類別變量來估計,進而保持其局部獨立性的分析方法。
2.1? 潛在類別模型基本原理
典型的潛在變量模型的統計原理建立在條件概率與貝葉斯分析之上。典型的LCM通常由一個或多個潛在類別變量和多個外顯變量組成。對于電信用戶數據,假設現在一個具有T個潛在變量的X可以解釋N個外顯變量Y(Y=Y1,Y2,…,YN)之間的關系,且每個外顯變量Yn擁有不同的水平數Mn。
根據條件概率的基本性質,LCM有兩個應滿足的基本假設,一是各潛在類別的概率總和為1,如式(1)所示:
二是由于潛在變量下的各水平Mn中的各外顯變量完全互斥且獨立,因此各外顯變量在各潛在類別內條件概率總和為1,如式(2)所示:
其中,P(X=t)表示電信用戶屬于潛在類別t的概率,即潛在類別概率;P(Yn=mn|X=t)表示第t個類別中的用戶在第n個外顯變量上取值為m的條件概率(mn=1,2,…,Mn)。
根據全概率公式,則:
其中,P(Yn=mn)表示邊際概率,表示用戶在第n個外顯變量上取值為mn的概率。根據LCM中外顯變量在每個潛在類別內相互獨立的基本約束,則:
因此,電信用戶的N個觀測變量在潛在類別模型中的聯合概率為:
其中,P(Y1=m1,…,YN=mN)表示觀測數據中水平為{m1,…,mN}的組合占全部觀察數據的比例。
最后,根據貝葉斯理論,計算每個用戶分類到各潛在類別的后驗概率,隨后由屬于各個后驗概率大小判斷該用戶應歸類的潛在類別。
其中,P(X=t|Y1=m1,…,YN=mN)表示某用戶分類到某個潛在類別的后驗概率,P(X=t)(Yn=mn|X=t)表示用戶分類到某個潛在類別的概率。
2.2? 參數估計與模型擬合
LCM的參數估計就是要得到式(5)中P(X=t)和P(Yn=mn|X=t)的值。為了滿足潛在類別模型的基本假設,在進行參數估計時,各外顯變量的條件概率中,會有一個是固定的。因此,各組潛在類別的待估計條件概率(待估計參數)為M-1,需要估計的概率參數總數為T(MN-N)+T-1。
本研究中參數估計的方法采用極大似然估計法,同時兼顧EM的穩定性與NR速度優點的情況下,在估計初期先以EM算法進行迭代,當接近收斂時,可應用NR算法運算[13]。
檢驗LCM模型擬合優度廣泛采用的方法主要有似然卡方統計量檢驗(G2)、Pearson卡方檢驗(χ2)以及基于似然函數的信息準則評價指標AIC(Akaike Information Criterion)和BIC(Bayesian Information Criterion)。其中,AIC作為模型擬合優度檢驗指標時,多應用于估計參數較少、自由度較大的單純模型,而當樣本數較大且估計參數較少時,通常采用BIC指標,它們的指標值越小表明模型擬合的越好。一般情況下,會將幾種主要指標進行結合來評價模型的擬合效果。
3? 用戶分類與結果分析
本文研究數據來源于中國移動運營公司某省2018年某月的樣本數據,經過初步整理與統計處理,由于話費敏感度級別為0的用戶不具備有效性,因此,在剔除0級話費敏感度用戶后,得到數據共計49 985條。
3.1? 外顯變量的選取與RFM要素分類
移動用戶數據主要包括兩個方面,一是用戶屬性,包括用戶年齡、網齡、健康程度等;二是業務數據,包括繳費信息、消費信息、以及通話信息等。本研究主要從這兩方面出發,選擇用戶年齡、是否為黑名單用戶、是否為4G健康用戶、最近一個月是否繳費、最近一個月繳費金額、近半年平均月消費、當月消費金額、話費敏感度、當月通話圈人數,9類影響因素作為外顯變量,經過對數據的初步統計分析后,根據數據描述性統計結果對外顯變量進行分水平處理,每個不同的數字表示外顯變量的不同水平,外顯變量的定義與水平分類如表1所示。
根據傳統的RFM模型,三個常用的評價指標分別是近度(Recency)、頻度(Frequency)、值度(Monentary)。近度指用戶最近一次消費的時間,但對于電信用戶來說,消費無時無刻不在進行,間隔時間無法準確獲取;而就一段時間內消費的次數而言,用戶很有可能在某一時間持續通話,時間段內的消費次數無法統計。因此,傳統的RFM模型不能很好地分析電信用戶,本文從用戶當月繳費角度出發,以用戶最近一個月是否繳費及繳費金額來表示近度;而由于用戶對話費的敏感程度與當月通話人數都會對用戶的繳費頻率產生影響,因此選用這兩個變量來表示頻度,值度則用半年的月平均消費及當月消費金額表示。
3.2? 模型評價與參數估計結果
從假設潛在類別個數為開始,逐步增加潛在類別個數,分別求解并對各個模型進行擬合優度檢驗,研究中共擬合了7個潛在類別模型,表2表示各個模型的擬合優度檢驗結果。
從表2中可以看出,隨著潛在類別個數的增加,AIC、BIC、G2、χ2四個指標均在減小,但當潛在類別數從6開始,四個指標下降的幅度變得很小。因此,選擇包含6個潛在類別的模型最為合適。
本研究中,使用R語言對最優模型參數進行估計,設置潛在類別個數T=6,表3表示了潛在類別概率與各個外顯變量的條件概率。可以看出,不同潛在類別群體在各個外顯變量上的差異比較明顯,尤其是業務屬性方面,表明業務屬性的外顯變量是分類的主要影響因素。從表中可以看出,第2、3、5類的潛在類別概率較大,分別為0.269、0.245、0.298,最小的是第4類,概率為0.076,其次是第1類和第6類,概率分別為0.096和0.115。
3.3? 不同潛在類別用戶特征分析
結合潛在聚類的結果與外顯變量的特征,我們可以看出,第一類用戶的4G不健康比例最高,網齡普遍在一年以內且單次繳費金額少,但月消費較高;第二類用戶入網時間在3~5年的比例最高,超過99%的用戶在最近一個月沒有繳費且單次繳費的金額較低,月均消費穩定在50元~100元,通話圈人數在30~50人之間;第三類用戶以30歲以下的青年人為主,超過99%的用戶在最近一個月沒有繳費且單次繳費的金額在50元~100元,月消費金額較高,當月通話圈人數較多且對話費敏感度集中在2~3級;第4類主要為中年用戶,他們中黑名單用戶的比例最高,超過一半入網時間大于10年,最近一個月消費金額大于100元的比例最高,月均消費值與當月話費值均較高,其中多數用戶當月通話圈人數超過100人,且話費敏感度集中在1級;第五類用戶以中老年人居多,但他們中超過93%是4G健康用戶,且入網時間在1~2年,絕大多數月均消費值與當月總費用不超過50元,當月通話圈人數少于30人,話費敏感度集中在4~5級;第6類用戶中4G健康用戶的比例最高,他們最近一個月都有繳費但繳費金額低于30元。因此,根據各潛在類別的用戶特征,可以將6類用戶分別命名為臨時型、低值型、傳統型、公務型、佛系型和穩定型。不同類別用戶的RFM指標特征如圖1所示。
從分析圖中可以看出,公務型用戶的顯著特征表現為月均消費與當月消費都超過200元,通話圈人數多數超過100人次且對話費變化非常敏感,消費金額M最高,屬于高價值用戶,在管理上應著重關注他們的需求,對他們所關注的話費價格與是否為黑名單用戶給予一定的優惠措施;其次,對于青年人最為集中的傳統型也應給予相對較高的關注,他們雖然并非在最近一個月都有繳費,但每個月的消費水平并不低,都在100~200的區間內,并且他們的話費敏感程度為二級,因此,這類用戶有一定的流失風險,應在其所關注的話費高低上著重管理;對于低值型與穩定型用戶,也應給予一定的關注度,他們月均消費雖然不高,但是基本每個月都會消費且相對穩定,他們對話費變化并不是很敏感,屬于忠誠度較高的用戶;最后是臨時型與佛系型用戶,臨時型用戶可能某個特殊的時間段消費水平會相對較高,但并不穩定,佛系型用戶雖然穩定性較好,不會輕易流失且市場占比最高,但每個月的消費水平低,用戶價值不高。
4? 結? 論
本文在傳統RFM分析要素的基礎上,結合電信行業特點,提出了用潛在類別模型的方式對電信用戶進行分類,利用潛在變量的分類方式更充分的分析了用戶的各項數據,描述各類用戶的行為特征,對用戶關系管理提供強有力的決策支持,為運營商在用戶資源競爭中提供優勢。以中國移動的實際數據為例,通過分析用戶最近消費特征將其分為6個大類,分析各類用戶概率與消費特點。結果表明,各類用戶群體在移動通話、消費等方面有顯著差異。其中,公務型與傳統型用戶的價值較高,需要管理者長久關注,建議運營商針對不同的分類群體進行精確管理,進行個性化的管理服務。
本文的研究目的是將電信用戶分為不同的類別進行消費和行為特征分析,對于影響用戶消費高低的因素尚未展開討論,下一步研究中考慮分析各類別中用戶自身屬性、繳費行為、話費敏感度等因素對消費行為影響大小,以進一步討論用戶價值。
參考文獻:
[1] 陳治平,胡宇舟,顧學道.聚類算法在電信客戶細分中的應用研究 [J].計算機應用,2007(10):2566-2569.
[2] AHN H,AHN J J,OH K J,et al. Facilitating cross-selling in a mobile telecom market to develop customer classification model based on hybrid data mining techniques [J].Expert Systems with Applications,2011,38(5):5005-5012.
[3] MIGLAUTSCH J R. Thoughts on RFM scoring [J].Journal of Database Marketing & Customer Strategy Management,2000,8(1):67-72.
[4] 張虎,王國華,鄭文芳.基于MaxDiff和潛在類別分析的移動支付客戶細分研究 [J].數理統計與管理,2017,36(3):506-517.
[5] 馬寶龍,李飛,王高,等.隨機RFM模型及其在零售顧客價值識別中的應用 [J].管理工程學報,2011,25(1):102-108.
[6] KHAJVAND M,ZOLFAGHAR K,ASHOORI S,et al. Estimating customer lifetime value based on RFM analysis of customer purchase behavior:Case study [J].Procedia Computer Science,2011,3:57-63.
[7] 劉朝華,梅強,蔡淑琴.基于RFM的客戶分類及價值評價模型 [J].技術經濟與管理研究,2012(5):33-36.
[8] 林盛,肖旭.基于RFM的電信客戶市場細分方法 [J].哈爾濱工業大學學報,2006(5):758-760.
[9] 劉建榮,劉志偉.基于出行者潛在類別的公交出行行為研究 [J].華南理工大學學報(自然科學版),2019,47(6):119-126.
[10] 喬珂,趙鵬,文佳星.基于潛在類別模型的高鐵旅客市場細分 [J].交通運輸系統工程與信息,2017,17(2):28-34.
[11] 劉志偉,劉建榮,鄧衛.基于潛在類別的無人駕駛汽車選擇行為 [J/OL].吉林大學學報(工學版):1-6[2020-11-04].https://doi.org/10.13229/j.cnki.jdxbgxb20200390.
[12] 曾憲華,肖琳,張巖波.潛在類別分析原理及實例分析 [J].中國衛生統計,2013,30(6):815-817.
[13] 邱皓政.潛在類別模型的原理與技術 [M].北京:教育科學出版社,2008.
作者簡介:彭宜丹(1995—),女,漢族,湖北宜昌人,碩士研究生在讀,研究方向:工商管理;劉洪偉(1962—),男,漢族,廣東廣州人,教授,博士生導師,博士,研究方向:信息系統,商務智能,移動商務;高鴻銘(1993—),男,漢族,廣東廣州人,博士研究生在讀,研究方向:管理科學與工程。