[摘 要]本文主要研究決策樹的ID3算法在航空客戶流失模型中的應(yīng)用問題。通過改進(jìn)的RFM模型,對(duì)原始客戶數(shù)據(jù)進(jìn)行劃分;通過二八規(guī)則,找出其中20%具有較高價(jià)值的客戶,對(duì)此優(yōu)質(zhì)客戶數(shù)據(jù)進(jìn)行流失預(yù)測;通過ID3算法對(duì)根屬性以及臨界值的確定,可以建立客戶流失模型。因?yàn)榕R界區(qū)間的確定,此模型具有較高的預(yù)測準(zhǔn)確性。
[關(guān)鍵詞]ID3算法 決策樹 K-means 客戶流失
[中圖分類號(hào)] O29 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 2095-3437(2013)23-0070-03
一、引言
很多人都聽說過馬來西亞的亞洲航空、美國的西南航空等公司的大名。這些公司成功的秘訣就是擅于提高上座率。為了爭到客源,有些公司甚至提出了與長途巴士進(jìn)行價(jià)格競爭的口號(hào)。如此看來,國內(nèi)航空公司并不是把其它航空公司當(dāng)作主要競爭對(duì)象,主要對(duì)手應(yīng)當(dāng)是火車或長途汽車。適當(dāng)?shù)牡推眱r(jià),將使航空資源得到充分利用。如果空座率居高不下,哪怕票價(jià)賣得很高,本身就已經(jīng)出現(xiàn)了資源性虧損。[1]
本題就是期望從航空公司最感興趣的主題——流失預(yù)測、客戶細(xì)分和客戶價(jià)值評(píng)估等方面,通過數(shù)據(jù)挖掘技術(shù),實(shí)現(xiàn)提升航空客運(yùn)的上座率目標(biāo)。數(shù)據(jù)集來自。[1]
19世紀(jì)意大利經(jīng)濟(jì)學(xué)家帕雷托(PARETO)發(fā)現(xiàn):80%的財(cái)富掌握在20%的人手中。若降低5%的顧客損失率,就能使企業(yè)提高25%以上的利潤。本文將通過改進(jìn)的RFM模型,結(jié)合K-means聚類方法挖掘出高價(jià)值客戶,并對(duì)高價(jià)值的客戶進(jìn)行分類。對(duì)那些較高價(jià)值的客戶通過ID3算法進(jìn)行細(xì)分,確定可能流失的客戶,為航空公司提供參考性數(shù)據(jù),使其可以及時(shí)制定相應(yīng)的策略來挽留高價(jià)值易流失的客戶,從而降低空座率。
本文結(jié)構(gòu)為:先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后應(yīng)用改進(jìn)的RFM模型進(jìn)行K-means聚類,得到較高價(jià)值的客戶數(shù)據(jù),對(duì)其2/3數(shù)據(jù)基于ID3算法迭代選擇根屬性從而得到流失模型,模型確定便可對(duì)流失客戶預(yù)測,從而得到流失原因分析及對(duì)策。
二、數(shù)據(jù)預(yù)處理
(一)數(shù)據(jù)清洗
數(shù)據(jù)清洗[2](DataCleaning)的目的是檢測和消除數(shù)據(jù)中存在的錯(cuò)誤和不一致,以提高數(shù)據(jù)的質(zhì)量。[3]
數(shù)據(jù)清洗的方法必須滿足以下幾個(gè)要求:不論對(duì)于單數(shù)據(jù)源還是多數(shù)據(jù)源,都要檢測和消除數(shù)據(jù)中所有主要的錯(cuò)誤和不一致;應(yīng)盡可能減少人工干預(yù)和用戶的編碼工作量,且易于擴(kuò)展到其它數(shù)據(jù)源;不應(yīng)該是孤立的,應(yīng)該是和基于元數(shù)據(jù)的數(shù)據(jù)模式轉(zhuǎn)換相結(jié)合;有相應(yīng)的描述語言來描述數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清洗的過程和操作,所有這些過程和操作都應(yīng)在一個(gè)統(tǒng)一的框架下完成;最后,需要有內(nèi)嵌的工作流控制,便于以可靠、有效的方式執(zhí)行多數(shù)據(jù)源和大數(shù)據(jù)集的所有數(shù)據(jù)轉(zhuǎn)換步驟。[4]
(二)屬性約簡
經(jīng)過離散化后的數(shù)據(jù)集存在一些對(duì)于問題的決策沒有影響的冗余屬性,而且有些屬性之間存在很強(qiáng)的依賴關(guān)系。為了提高數(shù)據(jù)分析算法的效率,必須先對(duì)數(shù)據(jù)集進(jìn)行屬性約簡,[5]找出一個(gè)決策能力與原數(shù)據(jù)集相同的最小屬性集。
確定最小屬性集的方法為:首先在候選集中確定冗余屬性,并在屬性集中將之刪除,在新的屬性集中再確定依賴屬性并在屬性集中將之刪除。
(三)min-max規(guī)范化
min-max規(guī)范化[6]方法是對(duì)原始數(shù)據(jù)進(jìn)行線性變換。設(shè)minA和maxA分別為屬性A的最小值和最大值,將A的一個(gè)原始值x通過min-max標(biāo)準(zhǔn)化映射成在區(qū)間[0,1]中的值x′,本題需要指標(biāo)正向化:如果屬性本來是正向的,其公式為:x′(x-minA)/(maxA-minA),否則:x′(minA-x)/(maxA-minA)
三、模型
詳細(xì)AHP算法步驟請(qǐng)看;[7]詳細(xì)K-means算法見;[8]詳細(xì)ID3算法見, [9]D3 選擇分裂屬性的標(biāo)準(zhǔn)見[10]。
(一)改進(jìn)的RFM模型
根據(jù)美國數(shù)據(jù)庫營銷研究所Arthur Hughes的研究,客戶數(shù)據(jù)庫中有三個(gè)神奇的要素,這三個(gè)要素構(gòu)成了數(shù)據(jù)分析最好的指標(biāo):[11]1.最近一次消費(fèi)(Recency);2.消費(fèi)頻率(Frequency);3.消費(fèi)金額(Monetary)。
原模型最近一次消費(fèi)為金額,而數(shù)據(jù)集里面涉及的是最后一次消費(fèi)至今的時(shí)間,對(duì)此做出改變。而最后一次消費(fèi)時(shí)間是越小越好,我們利用min-max規(guī)范化將其轉(zhuǎn)化為正向指標(biāo)。利用AHP得到每個(gè)屬性的權(quán)重,進(jìn)而可以得到由三個(gè)屬性組成的終身價(jià)值指標(biāo),最后區(qū)分出較高價(jià)值的客戶。
客戶終身價(jià)值[12]計(jì)算公式如下:
C■■■■=wRC■■■■+wFC■■■■+wMC■■■■,其中wR,wF,wM分別為三個(gè)屬性的權(quán)值。
(二)基于ID3的客戶流失模型
根據(jù)二八規(guī)則,為了提高航空的上座率,本文并不否認(rèn)價(jià)值客戶的潛力,但最有效的方法是防止高價(jià)值客戶的流失。從RFM模型中得到的較高價(jià)值的客戶作為客戶流失模型的基礎(chǔ)數(shù)據(jù)。傳統(tǒng)的做法是直接對(duì)數(shù)據(jù)進(jìn)行聚類分析,再從分類里得到流失人群的屬性特征,定義出區(qū)間來進(jìn)行后續(xù)預(yù)測,但此方法有較大的不足,無法確定屬性之間的重要關(guān)系。
本文將應(yīng)用決策樹的ID3算法,直接對(duì)屬性進(jìn)行區(qū)間定義,屬性間的關(guān)系具有區(qū)分度,并非同樣重要。取出較高價(jià)值客戶的數(shù)據(jù)進(jìn)行分析,細(xì)分客戶群體,從而得到高價(jià)值易流失的客戶,然后針對(duì)此人群進(jìn)行相應(yīng)策略挽留,將會(huì)提高上座率,從而提升公司競爭力。
四、仿真
(一)數(shù)據(jù)預(yù)處理
1.數(shù)據(jù)清理
處理前數(shù)據(jù)為62988條記錄,63個(gè)屬性。對(duì)擁有非法值的條目進(jìn)行處理,如:擁有空值或非法值(#)進(jìn)行刪除,缺省值進(jìn)行填充,同意轉(zhuǎn)換(廣州市轉(zhuǎn)為廣州)等,處理后數(shù)據(jù)條目為56308條記錄。
2.屬性簡約
利用屬性約簡原理,對(duì)63個(gè)屬性進(jìn)行分析,去除不相關(guān)、弱相關(guān)和冗余的屬性,相互依賴的屬性取其一,多個(gè)同種作用但是不同作用時(shí)間(8個(gè)季度)的屬性合并起來,最后得到12個(gè)最相關(guān)的屬性(MEMBER_NO屬性標(biāo)記作用,不參與計(jì)算):(1)FLIGHT_COUNT;(2)Flight_Frequency_sum;(3)BASE_POINTS_SUM;(4)EXPENSE_SUM_YR_1_2;(5)AVG_FLIGHT_COUNT;(6) DAYS_FROM_BEGIN_TO_FIRST;(7)DAYS_FROM_LA
ST_TO_END;(8)AVG_FLIGHT_INTERVAL; (9)MAX_F
LIGHT_INTERVAL, (10)avg_discount;(11)Points_Sum;(12)Ration_L1Y_BPS)。其中Flight_Frequency_sum為自定義的每季度飛行的頻數(shù),如果該季度搭飛機(jī)次數(shù)不為0則記為1,否則為0;這個(gè)屬性表征累計(jì)8季度的和;EXPENSE_SUM_YR_1_2表征2年的消費(fèi)總額;編號(hào)與后續(xù)表格屬性相互映射。
其中,F(xiàn)light_Count,EXPENSE_SUM_YR_1_2,DAYS_
FROM_LAST_TO_END為改進(jìn)RFM價(jià)值模型的基本屬性。
3.數(shù)據(jù)變換
將數(shù)據(jù)進(jìn)行歸一化處理,并用min-max準(zhǔn)則去標(biāo)準(zhǔn)化數(shù)據(jù),使所有指標(biāo)正向化,即數(shù)據(jù)越大表示價(jià)值越大或越不容易流失,有利于后續(xù)權(quán)重分析,從而得到排名。
(二)客戶價(jià)值計(jì)算
選取出3個(gè)屬性:最后一次消費(fèi)至統(tǒng)計(jì)結(jié)束時(shí)的時(shí)間、消費(fèi)總額和消費(fèi)頻率。如果單個(gè)客戶類別的均值大于總均值,則給該指標(biāo)一個(gè)向上的箭頭“↑”標(biāo)記,反之則用“↓”。
表1 RFM模型聚類結(jié)果
■
其中樣本數(shù):37100,為原始數(shù)據(jù)的2/3。
(三)顧客流失模型
傳統(tǒng)的聚類方法得到聚類結(jié)果如下表,容易得到不同分類的屬性特征,但是區(qū)分度很小,某一類會(huì)因?yàn)槟骋粋€(gè)屬性而區(qū)分開,某一類又會(huì)因?yàn)槠渌麑傩远鴧^(qū)分開。所以不能很好的詮釋一個(gè)客戶流失模型。
為此,我們采用決策樹的ID3算法,此模型的數(shù)據(jù)從終身價(jià)值排名前三的類別3、4和5,所占總客戶比例為18.7%(=(386+1668+4898)/37100),符合二八規(guī)則。這些客戶為較高價(jià)值的客戶,挽留這些人當(dāng)中可能流失的客戶對(duì)航空公司的上座率有正面的影響。對(duì)其進(jìn)行細(xì)分,即得到易流失的客戶為最需要挽留的客戶。
表3 ID3算法選擇根屬性
■
其中,i為屬性的信息量,e為屬性的期望熵,g為屬性的信息增益。
五、結(jié)論
(一)優(yōu)點(diǎn)
區(qū)別于傳統(tǒng)的數(shù)據(jù)挖掘模型,已有許多不同的簡單的聚類分析方法。本文先通過改進(jìn)的RFM模型,對(duì)原始客戶數(shù)據(jù)進(jìn)行劃分;通過二八規(guī)則,找出其中20%的較高價(jià)值的客戶,對(duì)此優(yōu)質(zhì)客戶數(shù)據(jù)進(jìn)行流失預(yù)測,試圖通過ID3算法的對(duì)根屬性以及臨界值的確定來建立客戶流失模型。因?yàn)榕R界區(qū)間的確定,此模型具有確定并且穩(wěn)定的的預(yù)測結(jié)果。
模型樹形的匹配規(guī)則簡約而高效,適合大數(shù)據(jù)快速分層分析。
(二)缺點(diǎn)
模型臨界值的確定需要更嚴(yán)密的調(diào)查分析,通過市場調(diào)研數(shù)據(jù)進(jìn)一步來確定,而并非簡單的實(shí)驗(yàn)測試或者模擬預(yù)測。
[ 參 考 文 獻(xiàn) ]
[1] 2013年第一屆太普華南杯數(shù)據(jù)挖掘競賽試題《航空客運(yùn)信息挖掘》
[2] 孟堅(jiān).基于規(guī)則的交互式數(shù)據(jù)清洗技術(shù)[D].東南大學(xué),2005.DOI:10.7666/d.y790473
[3] Rahm, Erhard, and Hong Hai Do. “Data cleaning: Problems and current approaches.” IEEE Data Engineering Bulletin 23.4 (2000): 3-13.
[4] Ohanekwu, Timothy Emenike. “A Pre and Post Data Warehouse Cleaning Technique.” Master Paper. Canada: Computer Science Department of University of Windsor 27 (2002).
[5] 常犁云,王國胤,吳渝等.一種基于Rough Set理論的屬性約簡及規(guī)則提取方法[J].軟件學(xué)報(bào),1999,10(11):1206-1211.
[6] 蔡維玲,陳東霞.數(shù)據(jù)規(guī)范化方法對(duì)K近鄰分類器的影響[J].計(jì)算機(jī)工程,2010,36(22):175-177.DOI:10.3969/j.issn.1000-3428.2010.22.063.
[7] 徐曉敏.層次分析法的運(yùn)用[J].統(tǒng)計(jì)與決策,2008(1):156-158.
[8] 毛嘉莉.聚類K-means算法及并行化研究[D].重慶大學(xué),2003.DOI:10.7666/d.y704108.
[9] J.R.Quinlan.Induction of decision trees. Machine Learning,1986(1):81-106
[10] 毛聰莉.基于粗糙集的決策樹學(xué)習(xí)算法研究[D].湖南:湖南大學(xué)碩士論文,2008
[11] 林盛,肖旭.基于RFM的電信客戶市場細(xì)分方法[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2006(5):758-760.
[12] Liu, Duen-Ren, and Ya-Yueh Shih. “Integrating AHP and data mining for product recommendation based on customer lifetime value.” Information Management42.3 (2005): 387-400.
[責(zé)任編輯:林志恒]