基于ID3算法的航空客戶流失模型

2013-12-31 00:00:00林楚泉彭鴻鑫陳育興曾美君張彩銀

大學(xué)教育 2013年23期

[摘要]本文主要研究決策樹的ID3算法在航空客戶流失模型中的應(yīng)用問題。通過改進(jìn)的RFM模型，對(duì)原始客戶數(shù)據(jù)進(jìn)行劃分；通過二八規(guī)則，找出其中20%具有較高價(jià)值的客戶，對(duì)此優(yōu)質(zhì)客戶數(shù)據(jù)進(jìn)行流失預(yù)測；通過ID3算法對(duì)根屬性以及臨界值的確定，可以建立客戶流失模型。因?yàn)榕R界區(qū)間的確定，此模型具有較高的預(yù)測準(zhǔn)確性。

[關(guān)鍵詞]ID3算法決策樹 K-means 客戶流失

[中圖分類號(hào)] O29 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 2095-3437（2013）23-0070-03

一、引言

很多人都聽說過馬來西亞的亞洲航空、美國的西南航空等公司的大名。這些公司成功的秘訣就是擅于提高上座率。為了爭到客源，有些公司甚至提出了與長途巴士進(jìn)行價(jià)格競爭的口號(hào)。如此看來，國內(nèi)航空公司并不是把其它航空公司當(dāng)作主要競爭對(duì)象，主要對(duì)手應(yīng)當(dāng)是火車或長途汽車。適當(dāng)?shù)牡推眱r(jià)，將使航空資源得到充分利用。如果空座率居高不下，哪怕票價(jià)賣得很高，本身就已經(jīng)出現(xiàn)了資源性虧損。[1]

本題就是期望從航空公司最感興趣的主題——流失預(yù)測、客戶細(xì)分和客戶價(jià)值評(píng)估等方面，通過數(shù)據(jù)挖掘技術(shù)，實(shí)現(xiàn)提升航空客運(yùn)的上座率目標(biāo)。數(shù)據(jù)集來自。[1]

19世紀(jì)意大利經(jīng)濟(jì)學(xué)家帕雷托（PARETO）發(fā)現(xiàn)：80%的財(cái)富掌握在20%的人手中。若降低5%的顧客損失率，就能使企業(yè)提高25%以上的利潤。本文將通過改進(jìn)的RFM模型，結(jié)合K-means聚類方法挖掘出高價(jià)值客戶，并對(duì)高價(jià)值的客戶進(jìn)行分類。對(duì)那些較高價(jià)值的客戶通過ID3算法進(jìn)行細(xì)分，確定可能流失的客戶，為航空公司提供參考性數(shù)據(jù)，使其可以及時(shí)制定相應(yīng)的策略來挽留高價(jià)值易流失的客戶，從而降低空座率。

本文結(jié)構(gòu)為：先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，然后應(yīng)用改進(jìn)的RFM模型進(jìn)行K-means聚類，得到較高價(jià)值的客戶數(shù)據(jù)，對(duì)其2/3數(shù)據(jù)基于ID3算法迭代選擇根屬性從而得到流失模型，模型確定便可對(duì)流失客戶預(yù)測，從而得到流失原因分析及對(duì)策。

二、數(shù)據(jù)預(yù)處理

（一）數(shù)據(jù)清洗

數(shù)據(jù)清洗[2]（DataCleaning）的目的是檢測和消除數(shù)據(jù)中存在的錯(cuò)誤和不一致，以提高數(shù)據(jù)的質(zhì)量。[3]

數(shù)據(jù)清洗的方法必須滿足以下幾個(gè)要求：不論對(duì)于單數(shù)據(jù)源還是多數(shù)據(jù)源，都要檢測和消除數(shù)據(jù)中所有主要的錯(cuò)誤和不一致；應(yīng)盡可能減少人工干預(yù)和用戶的編碼工作量，且易于擴(kuò)展到其它數(shù)據(jù)源；不應(yīng)該是孤立的，應(yīng)該是和基于元數(shù)據(jù)的數(shù)據(jù)模式轉(zhuǎn)換相結(jié)合；有相應(yīng)的描述語言來描述數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清洗的過程和操作，所有這些過程和操作都應(yīng)在一個(gè)統(tǒng)一的框架下完成；最后，需要有內(nèi)嵌的工作流控制，便于以可靠、有效的方式執(zhí)行多數(shù)據(jù)源和大數(shù)據(jù)集的所有數(shù)據(jù)轉(zhuǎn)換步驟。[4]

（二）屬性約簡

經(jīng)過離散化后的數(shù)據(jù)集存在一些對(duì)于問題的決策沒有影響的冗余屬性，而且有些屬性之間存在很強(qiáng)的依賴關(guān)系。為了提高數(shù)據(jù)分析算法的效率，必須先對(duì)數(shù)據(jù)集進(jìn)行屬性約簡，[5]找出一個(gè)決策能力與原數(shù)據(jù)集相同的最小屬性集。

確定最小屬性集的方法為：首先在候選集中確定冗余屬性，并在屬性集中將之刪除，在新的屬性集中再確定依賴屬性并在屬性集中將之刪除。

（三）min-max規(guī)范化

min-max規(guī)范化[6]方法是對(duì)原始數(shù)據(jù)進(jìn)行線性變換。設(shè)minA和maxA分別為屬性A的最小值和最大值，將A的一個(gè)原始值x通過min-max標(biāo)準(zhǔn)化映射成在區(qū)間[0，1]中的值x′，本題需要指標(biāo)正向化：如果屬性本來是正向的，其公式為：x′（x-minA）/（maxA-minA），否則：x′（minA-x）/（maxA-minA）

三、模型

詳細(xì)AHP算法步驟請(qǐng)看；[7]詳細(xì)K-means算法見；[8]詳細(xì)ID3算法見， [9]D3 選擇分裂屬性的標(biāo)準(zhǔn)見[10]。

（一）改進(jìn)的RFM模型

根據(jù)美國數(shù)據(jù)庫營銷研究所Arthur Hughes的研究，客戶數(shù)據(jù)庫中有三個(gè)神奇的要素，這三個(gè)要素構(gòu)成了數(shù)據(jù)分析最好的指標(biāo)：[11]1.最近一次消費(fèi)（Recency）；2.消費(fèi)頻率（Frequency）；3.消費(fèi)金額（Monetary）。

原模型最近一次消費(fèi)為金額，而數(shù)據(jù)集里面涉及的是最后一次消費(fèi)至今的時(shí)間，對(duì)此做出改變。而最后一次消費(fèi)時(shí)間是越小越好，我們利用min-max規(guī)范化將其轉(zhuǎn)化為正向指標(biāo)。利用AHP得到每個(gè)屬性的權(quán)重，進(jìn)而可以得到由三個(gè)屬性組成的終身價(jià)值指標(biāo)，最后區(qū)分出較高價(jià)值的客戶。

客戶終身價(jià)值[12]計(jì)算公式如下：

C■■■■=wRC■■■■+wFC■■■■+wMC■■■■，其中wR，wF，wM分別為三個(gè)屬性的權(quán)值。

（二）基于ID3的客戶流失模型

根據(jù)二八規(guī)則，為了提高航空的上座率，本文并不否認(rèn)價(jià)值客戶的潛力，但最有效的方法是防止高價(jià)值客戶的流失。從RFM模型中得到的較高價(jià)值的客戶作為客戶流失模型的基礎(chǔ)數(shù)據(jù)。傳統(tǒng)的做法是直接對(duì)數(shù)據(jù)進(jìn)行聚類分析，再從分類里得到流失人群的屬性特征，定義出區(qū)間來進(jìn)行后續(xù)預(yù)測，但此方法有較大的不足，無法確定屬性之間的重要關(guān)系。

本文將應(yīng)用決策樹的ID3算法，直接對(duì)屬性進(jìn)行區(qū)間定義，屬性間的關(guān)系具有區(qū)分度，并非同樣重要。取出較高價(jià)值客戶的數(shù)據(jù)進(jìn)行分析，細(xì)分客戶群體，從而得到高價(jià)值易流失的客戶，然后針對(duì)此人群進(jìn)行相應(yīng)策略挽留，將會(huì)提高上座率，從而提升公司競爭力。

四、仿真

（一）數(shù)據(jù)預(yù)處理

1.數(shù)據(jù)清理

處理前數(shù)據(jù)為62988條記錄，63個(gè)屬性。對(duì)擁有非法值的條目進(jìn)行處理，如：擁有空值或非法值（#）進(jìn)行刪除，缺省值進(jìn)行填充，同意轉(zhuǎn)換（廣州市轉(zhuǎn)為廣州）等，處理后數(shù)據(jù)條目為56308條記錄。

2.屬性簡約

利用屬性約簡原理，對(duì)63個(gè)屬性進(jìn)行分析，去除不相關(guān)、弱相關(guān)和冗余的屬性，相互依賴的屬性取其一，多個(gè)同種作用但是不同作用時(shí)間（8個(gè)季度）的屬性合并起來，最后得到12個(gè)最相關(guān)的屬性（MEMBER_NO屬性標(biāo)記作用，不參與計(jì)算）：（1）FLIGHT_COUNT；（2）Flight_Frequency_sum；（3）BASE_POINTS_SUM；（4）EXPENSE_SUM_YR_1_2；（5）AVG_FLIGHT_COUNT；（6） DAYS_FROM_BEGIN_TO_FIRST；（7）DAYS_FROM_LA

ST_TO_END；（8）AVG_FLIGHT_INTERVAL；（9）MAX_F

LIGHT_INTERVAL，（10）avg_discount；（11）Points_Sum；（12）Ration_L1Y_BPS）。其中Flight_Frequency_sum為自定義的每季度飛行的頻數(shù)，如果該季度搭飛機(jī)次數(shù)不為0則記為1，否則為0；這個(gè)屬性表征累計(jì)8季度的和；EXPENSE_SUM_YR_1_2表征2年的消費(fèi)總額；編號(hào)與后續(xù)表格屬性相互映射。

其中，F(xiàn)light_Count，EXPENSE_SUM_YR_1_2，DAYS_

FROM_LAST_TO_END為改進(jìn)RFM價(jià)值模型的基本屬性。

3.數(shù)據(jù)變換

將數(shù)據(jù)進(jìn)行歸一化處理，并用min-max準(zhǔn)則去標(biāo)準(zhǔn)化數(shù)據(jù)，使所有指標(biāo)正向化，即數(shù)據(jù)越大表示價(jià)值越大或越不容易流失，有利于后續(xù)權(quán)重分析，從而得到排名。

（二）客戶價(jià)值計(jì)算

選取出3個(gè)屬性：最后一次消費(fèi)至統(tǒng)計(jì)結(jié)束時(shí)的時(shí)間、消費(fèi)總額和消費(fèi)頻率。如果單個(gè)客戶類別的均值大于總均值，則給該指標(biāo)一個(gè)向上的箭頭“↑”標(biāo)記，反之則用“↓”。

表1 RFM模型聚類結(jié)果

■

其中樣本數(shù)：37100，為原始數(shù)據(jù)的2/3。

（三）顧客流失模型

傳統(tǒng)的聚類方法得到聚類結(jié)果如下表，容易得到不同分類的屬性特征，但是區(qū)分度很小，某一類會(huì)因?yàn)槟骋粋€(gè)屬性而區(qū)分開，某一類又會(huì)因?yàn)槠渌麑傩远鴧^(qū)分開。所以不能很好的詮釋一個(gè)客戶流失模型。

為此，我們采用決策樹的ID3算法，此模型的數(shù)據(jù)從終身價(jià)值排名前三的類別3、4和5，所占總客戶比例為18.7%（=（386+1668+4898）/37100），符合二八規(guī)則。這些客戶為較高價(jià)值的客戶，挽留這些人當(dāng)中可能流失的客戶對(duì)航空公司的上座率有正面的影響。對(duì)其進(jìn)行細(xì)分，即得到易流失的客戶為最需要挽留的客戶。

表3 ID3算法選擇根屬性

■

其中，i為屬性的信息量，e為屬性的期望熵，g為屬性的信息增益。

五、結(jié)論

（一）優(yōu)點(diǎn)

區(qū)別于傳統(tǒng)的數(shù)據(jù)挖掘模型，已有許多不同的簡單的聚類分析方法。本文先通過改進(jìn)的RFM模型，對(duì)原始客戶數(shù)據(jù)進(jìn)行劃分；通過二八規(guī)則，找出其中20%的較高價(jià)值的客戶，對(duì)此優(yōu)質(zhì)客戶數(shù)據(jù)進(jìn)行流失預(yù)測，試圖通過ID3算法的對(duì)根屬性以及臨界值的確定來建立客戶流失模型。因?yàn)榕R界區(qū)間的確定，此模型具有確定并且穩(wěn)定的的預(yù)測結(jié)果。

模型樹形的匹配規(guī)則簡約而高效，適合大數(shù)據(jù)快速分層分析。

（二）缺點(diǎn)

模型臨界值的確定需要更嚴(yán)密的調(diào)查分析，通過市場調(diào)研數(shù)據(jù)進(jìn)一步來確定，而并非簡單的實(shí)驗(yàn)測試或者模擬預(yù)測。

[ 參考文獻(xiàn) ]

[1] 2013年第一屆太普華南杯數(shù)據(jù)挖掘競賽試題《航空客運(yùn)信息挖掘》

[2] 孟堅(jiān).基于規(guī)則的交互式數(shù)據(jù)清洗技術(shù)[D].東南大學(xué)，2005.DOI：10.7666/d.y790473

[3] Rahm， Erhard， and Hong Hai Do. “Data cleaning： Problems and current approaches.” IEEE Data Engineering Bulletin 23.4 （2000）： 3-13.

[4] Ohanekwu， Timothy Emenike. “A Pre and Post Data Warehouse Cleaning Technique.” Master Paper. Canada： Computer Science Department of University of Windsor 27 （2002）.

[5] 常犁云，王國胤，吳渝等.一種基于Rough Set理論的屬性約簡及規(guī)則提取方法[J].軟件學(xué)報(bào)，1999，10（11）：1206-1211.

[6] 蔡維玲，陳東霞.數(shù)據(jù)規(guī)范化方法對(duì)K近鄰分類器的影響[J].計(jì)算機(jī)工程，2010，36（22）：175-177.DOI：10.3969/j.issn.1000-3428.2010.22.063.

[7] 徐曉敏.層次分析法的運(yùn)用[J].統(tǒng)計(jì)與決策，2008（1）：156-158.

[8] 毛嘉莉.聚類K-means算法及并行化研究[D].重慶大學(xué)，2003.DOI：10.7666/d.y704108.

[9] J.R.Quinlan.Induction of decision trees. Machine Learning，1986（1）：81-106

[10] 毛聰莉.基于粗糙集的決策樹學(xué)習(xí)算法研究[D].湖南：湖南大學(xué)碩士論文，2008

[11] 林盛，肖旭.基于RFM的電信客戶市場細(xì)分方法[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào)，2006（5）：758-760.

[12] Liu， Duen-Ren， and Ya-Yueh Shih. “Integrating AHP and data mining for product recommendation based on customer lifetime value.” Information Management42.3 （2005）： 387-400.

[責(zé)任編輯：林志恒]

大學(xué)教育2013年23期

大學(xué)教育的其它文章: 淺析網(wǎng)絡(luò)時(shí)代的檔案管理; 大學(xué)班級(jí)管理方式探索; 關(guān)于建立高校挑戰(zhàn)杯長效機(jī)制的幾點(diǎn)思考; 獨(dú)立學(xué)院成績管理存在的問題與對(duì)策探討; 應(yīng)用型本科高校績效管理實(shí)施探析; 新時(shí)期加強(qiáng)高等院校實(shí)驗(yàn)室有毒、有害物品管理工作的再思考