999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ID3算法的航空客戶流失模型

2013-12-31 00:00:00林楚泉彭鴻鑫陳育興曾美君張彩銀
大學(xué)教育 2013年23期

[摘 要]本文主要研究決策樹的ID3算法在航空客戶流失模型中的應(yīng)用問題。通過改進(jìn)的RFM模型,對(duì)原始客戶數(shù)據(jù)進(jìn)行劃分;通過二八規(guī)則,找出其中20%具有較高價(jià)值的客戶,對(duì)此優(yōu)質(zhì)客戶數(shù)據(jù)進(jìn)行流失預(yù)測;通過ID3算法對(duì)根屬性以及臨界值的確定,可以建立客戶流失模型。因?yàn)榕R界區(qū)間的確定,此模型具有較高的預(yù)測準(zhǔn)確性。

[關(guān)鍵詞]ID3算法 決策樹 K-means 客戶流失

[中圖分類號(hào)] O29 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 2095-3437(2013)23-0070-03

一、引言

很多人都聽說過馬來西亞的亞洲航空、美國的西南航空等公司的大名。這些公司成功的秘訣就是擅于提高上座率。為了爭到客源,有些公司甚至提出了與長途巴士進(jìn)行價(jià)格競爭的口號(hào)。如此看來,國內(nèi)航空公司并不是把其它航空公司當(dāng)作主要競爭對(duì)象,主要對(duì)手應(yīng)當(dāng)是火車或長途汽車。適當(dāng)?shù)牡推眱r(jià),將使航空資源得到充分利用。如果空座率居高不下,哪怕票價(jià)賣得很高,本身就已經(jīng)出現(xiàn)了資源性虧損。[1]

本題就是期望從航空公司最感興趣的主題——流失預(yù)測、客戶細(xì)分和客戶價(jià)值評(píng)估等方面,通過數(shù)據(jù)挖掘技術(shù),實(shí)現(xiàn)提升航空客運(yùn)的上座率目標(biāo)。數(shù)據(jù)集來自。[1]

19世紀(jì)意大利經(jīng)濟(jì)學(xué)家帕雷托(PARETO)發(fā)現(xiàn):80%的財(cái)富掌握在20%的人手中。若降低5%的顧客損失率,就能使企業(yè)提高25%以上的利潤。本文將通過改進(jìn)的RFM模型,結(jié)合K-means聚類方法挖掘出高價(jià)值客戶,并對(duì)高價(jià)值的客戶進(jìn)行分類。對(duì)那些較高價(jià)值的客戶通過ID3算法進(jìn)行細(xì)分,確定可能流失的客戶,為航空公司提供參考性數(shù)據(jù),使其可以及時(shí)制定相應(yīng)的策略來挽留高價(jià)值易流失的客戶,從而降低空座率。

本文結(jié)構(gòu)為:先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后應(yīng)用改進(jìn)的RFM模型進(jìn)行K-means聚類,得到較高價(jià)值的客戶數(shù)據(jù),對(duì)其2/3數(shù)據(jù)基于ID3算法迭代選擇根屬性從而得到流失模型,模型確定便可對(duì)流失客戶預(yù)測,從而得到流失原因分析及對(duì)策。

二、數(shù)據(jù)預(yù)處理

(一)數(shù)據(jù)清洗

數(shù)據(jù)清洗[2](DataCleaning)的目的是檢測和消除數(shù)據(jù)中存在的錯(cuò)誤和不一致,以提高數(shù)據(jù)的質(zhì)量。[3]

數(shù)據(jù)清洗的方法必須滿足以下幾個(gè)要求:不論對(duì)于單數(shù)據(jù)源還是多數(shù)據(jù)源,都要檢測和消除數(shù)據(jù)中所有主要的錯(cuò)誤和不一致;應(yīng)盡可能減少人工干預(yù)和用戶的編碼工作量,且易于擴(kuò)展到其它數(shù)據(jù)源;不應(yīng)該是孤立的,應(yīng)該是和基于元數(shù)據(jù)的數(shù)據(jù)模式轉(zhuǎn)換相結(jié)合;有相應(yīng)的描述語言來描述數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清洗的過程和操作,所有這些過程和操作都應(yīng)在一個(gè)統(tǒng)一的框架下完成;最后,需要有內(nèi)嵌的工作流控制,便于以可靠、有效的方式執(zhí)行多數(shù)據(jù)源和大數(shù)據(jù)集的所有數(shù)據(jù)轉(zhuǎn)換步驟。[4]

(二)屬性約簡

經(jīng)過離散化后的數(shù)據(jù)集存在一些對(duì)于問題的決策沒有影響的冗余屬性,而且有些屬性之間存在很強(qiáng)的依賴關(guān)系。為了提高數(shù)據(jù)分析算法的效率,必須先對(duì)數(shù)據(jù)集進(jìn)行屬性約簡,[5]找出一個(gè)決策能力與原數(shù)據(jù)集相同的最小屬性集。

確定最小屬性集的方法為:首先在候選集中確定冗余屬性,并在屬性集中將之刪除,在新的屬性集中再確定依賴屬性并在屬性集中將之刪除。

(三)min-max規(guī)范化

min-max規(guī)范化[6]方法是對(duì)原始數(shù)據(jù)進(jìn)行線性變換。設(shè)minA和maxA分別為屬性A的最小值和最大值,將A的一個(gè)原始值x通過min-max標(biāo)準(zhǔn)化映射成在區(qū)間[0,1]中的值x′,本題需要指標(biāo)正向化:如果屬性本來是正向的,其公式為:x′(x-minA)/(maxA-minA),否則:x′(minA-x)/(maxA-minA)

三、模型

詳細(xì)AHP算法步驟請(qǐng)看;[7]詳細(xì)K-means算法見;[8]詳細(xì)ID3算法見, [9]D3 選擇分裂屬性的標(biāo)準(zhǔn)見[10]。

(一)改進(jìn)的RFM模型

根據(jù)美國數(shù)據(jù)庫營銷研究所Arthur Hughes的研究,客戶數(shù)據(jù)庫中有三個(gè)神奇的要素,這三個(gè)要素構(gòu)成了數(shù)據(jù)分析最好的指標(biāo):[11]1.最近一次消費(fèi)(Recency);2.消費(fèi)頻率(Frequency);3.消費(fèi)金額(Monetary)。

原模型最近一次消費(fèi)為金額,而數(shù)據(jù)集里面涉及的是最后一次消費(fèi)至今的時(shí)間,對(duì)此做出改變。而最后一次消費(fèi)時(shí)間是越小越好,我們利用min-max規(guī)范化將其轉(zhuǎn)化為正向指標(biāo)。利用AHP得到每個(gè)屬性的權(quán)重,進(jìn)而可以得到由三個(gè)屬性組成的終身價(jià)值指標(biāo),最后區(qū)分出較高價(jià)值的客戶。

客戶終身價(jià)值[12]計(jì)算公式如下:

C■■■■=wRC■■■■+wFC■■■■+wMC■■■■,其中wR,wF,wM分別為三個(gè)屬性的權(quán)值。

(二)基于ID3的客戶流失模型

根據(jù)二八規(guī)則,為了提高航空的上座率,本文并不否認(rèn)價(jià)值客戶的潛力,但最有效的方法是防止高價(jià)值客戶的流失。從RFM模型中得到的較高價(jià)值的客戶作為客戶流失模型的基礎(chǔ)數(shù)據(jù)。傳統(tǒng)的做法是直接對(duì)數(shù)據(jù)進(jìn)行聚類分析,再從分類里得到流失人群的屬性特征,定義出區(qū)間來進(jìn)行后續(xù)預(yù)測,但此方法有較大的不足,無法確定屬性之間的重要關(guān)系。

本文將應(yīng)用決策樹的ID3算法,直接對(duì)屬性進(jìn)行區(qū)間定義,屬性間的關(guān)系具有區(qū)分度,并非同樣重要。取出較高價(jià)值客戶的數(shù)據(jù)進(jìn)行分析,細(xì)分客戶群體,從而得到高價(jià)值易流失的客戶,然后針對(duì)此人群進(jìn)行相應(yīng)策略挽留,將會(huì)提高上座率,從而提升公司競爭力。

四、仿真

(一)數(shù)據(jù)預(yù)處理

1.數(shù)據(jù)清理

處理前數(shù)據(jù)為62988條記錄,63個(gè)屬性。對(duì)擁有非法值的條目進(jìn)行處理,如:擁有空值或非法值(#)進(jìn)行刪除,缺省值進(jìn)行填充,同意轉(zhuǎn)換(廣州市轉(zhuǎn)為廣州)等,處理后數(shù)據(jù)條目為56308條記錄。

2.屬性簡約

利用屬性約簡原理,對(duì)63個(gè)屬性進(jìn)行分析,去除不相關(guān)、弱相關(guān)和冗余的屬性,相互依賴的屬性取其一,多個(gè)同種作用但是不同作用時(shí)間(8個(gè)季度)的屬性合并起來,最后得到12個(gè)最相關(guān)的屬性(MEMBER_NO屬性標(biāo)記作用,不參與計(jì)算):(1)FLIGHT_COUNT;(2)Flight_Frequency_sum;(3)BASE_POINTS_SUM;(4)EXPENSE_SUM_YR_1_2;(5)AVG_FLIGHT_COUNT;(6) DAYS_FROM_BEGIN_TO_FIRST;(7)DAYS_FROM_LA

ST_TO_END;(8)AVG_FLIGHT_INTERVAL; (9)MAX_F

LIGHT_INTERVAL, (10)avg_discount;(11)Points_Sum;(12)Ration_L1Y_BPS)。其中Flight_Frequency_sum為自定義的每季度飛行的頻數(shù),如果該季度搭飛機(jī)次數(shù)不為0則記為1,否則為0;這個(gè)屬性表征累計(jì)8季度的和;EXPENSE_SUM_YR_1_2表征2年的消費(fèi)總額;編號(hào)與后續(xù)表格屬性相互映射。

其中,F(xiàn)light_Count,EXPENSE_SUM_YR_1_2,DAYS_

FROM_LAST_TO_END為改進(jìn)RFM價(jià)值模型的基本屬性。

3.數(shù)據(jù)變換

將數(shù)據(jù)進(jìn)行歸一化處理,并用min-max準(zhǔn)則去標(biāo)準(zhǔn)化數(shù)據(jù),使所有指標(biāo)正向化,即數(shù)據(jù)越大表示價(jià)值越大或越不容易流失,有利于后續(xù)權(quán)重分析,從而得到排名。

(二)客戶價(jià)值計(jì)算

選取出3個(gè)屬性:最后一次消費(fèi)至統(tǒng)計(jì)結(jié)束時(shí)的時(shí)間、消費(fèi)總額和消費(fèi)頻率。如果單個(gè)客戶類別的均值大于總均值,則給該指標(biāo)一個(gè)向上的箭頭“↑”標(biāo)記,反之則用“↓”。

表1 RFM模型聚類結(jié)果

其中樣本數(shù):37100,為原始數(shù)據(jù)的2/3。

(三)顧客流失模型

傳統(tǒng)的聚類方法得到聚類結(jié)果如下表,容易得到不同分類的屬性特征,但是區(qū)分度很小,某一類會(huì)因?yàn)槟骋粋€(gè)屬性而區(qū)分開,某一類又會(huì)因?yàn)槠渌麑傩远鴧^(qū)分開。所以不能很好的詮釋一個(gè)客戶流失模型。

為此,我們采用決策樹的ID3算法,此模型的數(shù)據(jù)從終身價(jià)值排名前三的類別3、4和5,所占總客戶比例為18.7%(=(386+1668+4898)/37100),符合二八規(guī)則。這些客戶為較高價(jià)值的客戶,挽留這些人當(dāng)中可能流失的客戶對(duì)航空公司的上座率有正面的影響。對(duì)其進(jìn)行細(xì)分,即得到易流失的客戶為最需要挽留的客戶。

表3 ID3算法選擇根屬性

其中,i為屬性的信息量,e為屬性的期望熵,g為屬性的信息增益。

五、結(jié)論

(一)優(yōu)點(diǎn)

區(qū)別于傳統(tǒng)的數(shù)據(jù)挖掘模型,已有許多不同的簡單的聚類分析方法。本文先通過改進(jìn)的RFM模型,對(duì)原始客戶數(shù)據(jù)進(jìn)行劃分;通過二八規(guī)則,找出其中20%的較高價(jià)值的客戶,對(duì)此優(yōu)質(zhì)客戶數(shù)據(jù)進(jìn)行流失預(yù)測,試圖通過ID3算法的對(duì)根屬性以及臨界值的確定來建立客戶流失模型。因?yàn)榕R界區(qū)間的確定,此模型具有確定并且穩(wěn)定的的預(yù)測結(jié)果。

模型樹形的匹配規(guī)則簡約而高效,適合大數(shù)據(jù)快速分層分析。

(二)缺點(diǎn)

模型臨界值的確定需要更嚴(yán)密的調(diào)查分析,通過市場調(diào)研數(shù)據(jù)進(jìn)一步來確定,而并非簡單的實(shí)驗(yàn)測試或者模擬預(yù)測。

[ 參 考 文 獻(xiàn) ]

[1] 2013年第一屆太普華南杯數(shù)據(jù)挖掘競賽試題《航空客運(yùn)信息挖掘》

[2] 孟堅(jiān).基于規(guī)則的交互式數(shù)據(jù)清洗技術(shù)[D].東南大學(xué),2005.DOI:10.7666/d.y790473

[3] Rahm, Erhard, and Hong Hai Do. “Data cleaning: Problems and current approaches.” IEEE Data Engineering Bulletin 23.4 (2000): 3-13.

[4] Ohanekwu, Timothy Emenike. “A Pre and Post Data Warehouse Cleaning Technique.” Master Paper. Canada: Computer Science Department of University of Windsor 27 (2002).

[5] 常犁云,王國胤,吳渝等.一種基于Rough Set理論的屬性約簡及規(guī)則提取方法[J].軟件學(xué)報(bào),1999,10(11):1206-1211.

[6] 蔡維玲,陳東霞.數(shù)據(jù)規(guī)范化方法對(duì)K近鄰分類器的影響[J].計(jì)算機(jī)工程,2010,36(22):175-177.DOI:10.3969/j.issn.1000-3428.2010.22.063.

[7] 徐曉敏.層次分析法的運(yùn)用[J].統(tǒng)計(jì)與決策,2008(1):156-158.

[8] 毛嘉莉.聚類K-means算法及并行化研究[D].重慶大學(xué),2003.DOI:10.7666/d.y704108.

[9] J.R.Quinlan.Induction of decision trees. Machine Learning,1986(1):81-106

[10] 毛聰莉.基于粗糙集的決策樹學(xué)習(xí)算法研究[D].湖南:湖南大學(xué)碩士論文,2008

[11] 林盛,肖旭.基于RFM的電信客戶市場細(xì)分方法[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2006(5):758-760.

[12] Liu, Duen-Ren, and Ya-Yueh Shih. “Integrating AHP and data mining for product recommendation based on customer lifetime value.” Information Management42.3 (2005): 387-400.

[責(zé)任編輯:林志恒]

主站蜘蛛池模板: 中国成人在线视频| 婷婷成人综合| 福利国产在线| 69av免费视频| 日本免费一级视频| 亚洲人成在线精品| 国产女人综合久久精品视| 在线看国产精品| 国产欧美性爱网| 中文字幕免费播放| 免费在线看黄网址| 亚洲国产精品一区二区高清无码久久| 国产精品网拍在线| 日韩一区二区在线电影| 在线无码九区| 色哟哟精品无码网站在线播放视频| 日韩东京热无码人妻| 毛片基地美国正在播放亚洲| 亚洲精品综合一二三区在线| 在线观看91香蕉国产免费| 无码免费的亚洲视频| 无码av免费不卡在线观看| 免费A∨中文乱码专区| 色呦呦手机在线精品| 影音先锋丝袜制服| 国产美女丝袜高潮| 免费看美女自慰的网站| 国产亚洲高清在线精品99| 91在线一9|永久视频在线| 十八禁美女裸体网站| 久久这里只有精品66| 72种姿势欧美久久久大黄蕉| 四虎免费视频网站| 一本综合久久| 婷婷色中文| 色综合天天综合| 国产H片无码不卡在线视频| 精品夜恋影院亚洲欧洲| 国产小视频a在线观看| 成人在线观看不卡| 亚洲成综合人影院在院播放| 亚洲精品午夜天堂网页| 97久久超碰极品视觉盛宴| 香蕉99国内自产自拍视频| 国产精品19p| 国产日产欧美精品| 欧美午夜网| 四虎影院国产| 久久99精品久久久久久不卡| 九九久久99精品| 色综合天天操| 人妻一本久道久久综合久久鬼色| 亚洲天堂久久新| 日本三级欧美三级| 久无码久无码av无码| 粉嫩国产白浆在线观看| 中文字幕不卡免费高清视频| 欧美成人精品在线| 亚洲国产亚洲综合在线尤物| 成人免费视频一区| 国产va视频| 国产美女丝袜高潮| 91视频首页| 日韩欧美成人高清在线观看| 国产美女主播一级成人毛片| 亚洲香蕉伊综合在人在线| 国产一级一级毛片永久| 精品无码视频在线观看| 亚洲天堂在线免费| 欧美伦理一区| 国产精品综合色区在线观看| 91精品人妻互换| 广东一级毛片| 午夜啪啪福利| 欧美色伊人| AV不卡无码免费一区二区三区| 青青操国产| 国产精品女熟高潮视频| 女同久久精品国产99国| 亚洲国产午夜精华无码福利| 91国内视频在线观看| 无码福利视频|