999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多算法融合的移動(dòng)通信客戶(hù)流失預(yù)測(cè)模型

2018-08-21 02:07:56王榮波王亞杰黃孝喜諶志群
關(guān)鍵詞:分類(lèi)模型

王榮波,王亞杰,黃孝喜,諶志群

(杭州電子科技大學(xué) 計(jì)算機(jī)學(xué)院,浙江 杭州 310018)

0 引 言

隨著現(xiàn)代社會(huì)通信技術(shù)的飛速發(fā)展,手機(jī)等移動(dòng)通信設(shè)備幾乎成了人們生活中不可缺少的一部分,面對(duì)中國(guó)13億的巨量人口,一場(chǎng)對(duì)通信用戶(hù)的競(jìng)爭(zhēng)在各電信運(yùn)營(yíng)商之間愈演愈烈。隨著競(jìng)爭(zhēng)的白熱化,客戶(hù)的流失成了各大電信運(yùn)營(yíng)商面臨的主要困難,同時(shí)挖掘一個(gè)新客戶(hù)所投入的成本也越來(lái)越高。有數(shù)據(jù)顯示,成功贏得一個(gè)新客戶(hù)比維護(hù)一個(gè)老客戶(hù)所付出的代價(jià)要高出5倍左右[1]。客戶(hù)的流失意味著所占市場(chǎng)份額縮小,在競(jìng)爭(zhēng)中處于不利地位,甚至還存在著用戶(hù)故意欠費(fèi)后離網(wǎng)的異常行為等,這些都大大增加了運(yùn)營(yíng)商的運(yùn)營(yíng)成本。因此,在發(fā)展新用戶(hù)的同時(shí),維護(hù)老用戶(hù)不離網(wǎng)成了各大運(yùn)營(yíng)商在市場(chǎng)爭(zhēng)奪戰(zhàn)中的核心競(jìng)爭(zhēng)力,同時(shí),對(duì)本網(wǎng)用戶(hù)是否即將離網(wǎng)進(jìn)行準(zhǔn)確的預(yù)測(cè)有助于運(yùn)營(yíng)商及時(shí)有針對(duì)性地調(diào)整營(yíng)銷(xiāo)策略來(lái)挽留用戶(hù)。所以,用戶(hù)流失預(yù)測(cè)模型對(duì)電信運(yùn)營(yíng)商維護(hù)自身利益有著非凡的意義。

傳統(tǒng)的預(yù)測(cè)模型主要有決策樹(shù)[2-4]、Logistic回歸[5]、貝葉斯分類(lèi)器[6-7]和聚類(lèi)[8-9]。比較智能的方法有神經(jīng)網(wǎng)絡(luò)[10-11]、自組織映射[12]、進(jìn)化學(xué)習(xí)算法[13]、支持向量機(jī)[14]等。然而并沒(méi)有一種模型適用于所有情況,每種模型都有各自的優(yōu)點(diǎn)與不足,對(duì)于同一個(gè)數(shù)據(jù)集,不同的預(yù)測(cè)模型可能會(huì)得到不同的預(yù)測(cè)結(jié)果。目前國(guó)內(nèi)的移動(dòng)通信運(yùn)營(yíng)商擁有極其強(qiáng)大的數(shù)據(jù)存儲(chǔ)和查詢(xún)能力,但其使用的預(yù)測(cè)方法仍是基于單一算法預(yù)測(cè)的模型。為進(jìn)一步提高客戶(hù)流失預(yù)測(cè)的正確率,針對(duì)決策樹(shù)、Logistic回歸和人工神經(jīng)網(wǎng)絡(luò)這三種算法模型的特點(diǎn)和數(shù)據(jù)倉(cāng)庫(kù)[15]提供的大量信息,文中嘗試將這三種模型進(jìn)行合理的結(jié)合來(lái)構(gòu)造優(yōu)于它們單獨(dú)預(yù)測(cè)效果的模型,并利用構(gòu)造出的模型在該移動(dòng)通信企業(yè)提供的數(shù)據(jù)集中進(jìn)行預(yù)測(cè),驗(yàn)證其有效性。

1 決策樹(shù)、Logistic回歸和神經(jīng)網(wǎng)絡(luò)

1.1 決策樹(shù)

決策樹(shù)是分類(lèi)與回歸的基本方法之一,決策樹(shù)模型呈樹(shù)狀結(jié)構(gòu),在分類(lèi)問(wèn)題中,基于實(shí)例各個(gè)特征的分類(lèi)過(guò)程可以看作是一個(gè)if-then規(guī)則集,也可以看作是定義在類(lèi)空間和特征空間上的條件概率分布。它的主要特點(diǎn)是模型具有可讀性并且分類(lèi)的速度快。學(xué)習(xí)時(shí),該模型是根據(jù)訓(xùn)練數(shù)據(jù)集和最小損失函數(shù)來(lái)建立的,預(yù)測(cè)時(shí),訓(xùn)練好的模型將對(duì)新數(shù)據(jù)進(jìn)行分類(lèi)。決策樹(shù)學(xué)習(xí)通常由三步組成:特征的選擇、決策樹(shù)的生成和決策樹(shù)的剪枝。這里,通過(guò)基尼指數(shù)[16-17]來(lái)進(jìn)行特征的選擇,通過(guò)CART生成算法[18]來(lái)進(jìn)行決策樹(shù)的生成。

1.1.1 基尼指數(shù)

基尼指數(shù)是用來(lái)描述一個(gè)數(shù)據(jù)集的不確定性,基尼指數(shù)越大,數(shù)據(jù)集的不確定性也就越大。客戶(hù)流失的預(yù)測(cè)問(wèn)題屬于二分類(lèi)問(wèn)題,對(duì)于二分類(lèi)問(wèn)題,若整個(gè)數(shù)據(jù)集D中樣本屬于正類(lèi)的概率為p,則該樣本集的基尼指數(shù)為:

Gini(D)=2p(1-p)

(1)

在該數(shù)據(jù)集中,根據(jù)特征A是否取某個(gè)值將其劃分為兩個(gè)獨(dú)立的數(shù)據(jù)集D1和D2,則該數(shù)據(jù)集D基于特征A的基尼指數(shù)為:

(2)

1.1.2 CART生成算法

CART生成算法的主要思想是通過(guò)訓(xùn)練集生成盡可能大的決策樹(shù),之后利用驗(yàn)證數(shù)據(jù)集通過(guò)最小化損失函數(shù)的方法來(lái)修剪出最優(yōu)子樹(shù),其算法步驟如下:

Step1:設(shè)節(jié)點(diǎn)的數(shù)據(jù)集為D,則對(duì)數(shù)據(jù)集D中的每個(gè)特征A的每個(gè)取值a,計(jì)算所有的基尼指數(shù)Gini(D,A)。

Step2:選擇基尼指數(shù)最小的特征及其對(duì)應(yīng)的值,根據(jù)該特征是否取這個(gè)值從數(shù)據(jù)集D生成兩個(gè)子節(jié)點(diǎn)。

Step3:對(duì)這兩個(gè)子節(jié)點(diǎn)遞歸地調(diào)用Step1和Step2,直到滿(mǎn)足停止條件。

Step4:生成CART決策樹(shù)。

1.1.3 CART剪枝算法

CART剪枝算法從“完全”的決策樹(shù)的底部剪去一些子樹(shù),使原來(lái)的“完全”決策樹(shù)變得簡(jiǎn)單,修剪后的決策樹(shù)具有更好的泛化能力。該修剪過(guò)程主要分為兩步:從“完全”決策樹(shù)T0的底部不斷進(jìn)行修剪,直到T0根節(jié)點(diǎn),該過(guò)程形成若干棵子樹(shù),組成序列{T0,T1,…,Tn};在獨(dú)立的驗(yàn)證數(shù)據(jù)集上通過(guò)交叉驗(yàn)證法選擇最優(yōu)子樹(shù)。

1.2 Logistic回歸

對(duì)于二分類(lèi)問(wèn)題,Logistic回歸是非常典型且應(yīng)用極為廣泛的模型,其本質(zhì)上是利用線(xiàn)性回歸模型[19]來(lái)逼近真實(shí)結(jié)果標(biāo)記幾率的自然對(duì)數(shù)。這種分類(lèi)方法具有很多優(yōu)點(diǎn),例如可以直接對(duì)分類(lèi)問(wèn)題進(jìn)行建模,而不需要事先的分布假設(shè),從而避免了不準(zhǔn)確的分布假設(shè)帶來(lái)的問(wèn)題。這種方式不僅僅是預(yù)測(cè)“類(lèi)別”,而是預(yù)測(cè)所得類(lèi)別的概率,這對(duì)許多使用概率進(jìn)行決策的任務(wù)是非常有意義的。此外,Logistic回歸采用的Sigmoid函數(shù)是具有任意階導(dǎo)數(shù)的凸函數(shù),具有良好的數(shù)學(xué)性質(zhì),現(xiàn)有的許多優(yōu)化算法都可直接用于求解最優(yōu)解[20]。假設(shè)輸出的正類(lèi)標(biāo)記為“1”,輸出的負(fù)類(lèi)標(biāo)記為“0”,則

(3)

其中,w為輸入的權(quán)重向量;x為輸入的特征向量;b為偏置值。

1.3 神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)是一種基于人的大腦進(jìn)行仿真的數(shù)據(jù)分析模型,可以對(duì)海量數(shù)據(jù)進(jìn)行并行處理和計(jì)算,用來(lái)表示認(rèn)知、決策等智能控制行。典型的神經(jīng)網(wǎng)絡(luò)主要分為輸入層、隱含層和輸出層,由若干神經(jīng)元相互連接,如圖1所示。BP神經(jīng)網(wǎng)絡(luò)是應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)算法,其輸出為:

H=fi(∑wijxi+θj)

(4)

其中,wij為權(quán)重;fi為傳輸函數(shù);θj為偏置值;xi輸入。

BP神經(jīng)網(wǎng)絡(luò)通過(guò)有監(jiān)督的方式進(jìn)行學(xué)習(xí),能夠?qū)θ我鈴?fù)雜的非線(xiàn)性關(guān)系進(jìn)行擬合,通過(guò)最小化輸出誤差來(lái)逐層修正各個(gè)權(quán)值和偏置值,學(xué)習(xí)過(guò)程如圖2所示。

圖2 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程

2 組合預(yù)測(cè)模型的構(gòu)建

由于單一的算法模型可能對(duì)不同的數(shù)據(jù)集預(yù)測(cè)效果變化較大,有時(shí)還存在著不能容忍的劣勢(shì),現(xiàn)考慮將決策樹(shù)模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行線(xiàn)性組合,以對(duì)三種單一算法模型相互取長(zhǎng)補(bǔ)短。為確定最佳權(quán)值系數(shù),構(gòu)造拉格朗日函數(shù)[21]作為評(píng)價(jià)指標(biāo)。

(β1h1i+β2h2i+β3h3i-h3i)2+

λ(β1h1i+β2h2i+β3h3i-1)]

(5)

其中,N為訓(xùn)練樣本集中的樣本總數(shù);β1,β2,β3分別為組合模型中決策樹(shù)模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型的權(quán)值系數(shù);h1i,h2i,h3i分別為決策樹(shù)模型、Logistic回歸模型和神經(jīng)網(wǎng)絡(luò)模型對(duì)第i個(gè)樣本的預(yù)測(cè)結(jié)果;λ為拉格朗日算子。

由于L(β1,β2,β3)為二次凸函數(shù),故有唯一的極值,即最小值,令:

(6)

(7)

基于多算法組合的移動(dòng)通信客戶(hù)流失預(yù)測(cè)流程如圖3所示。

圖3 組合模型預(yù)測(cè)流程

具體的組合模型預(yù)測(cè)過(guò)程如下:

Step1:將預(yù)處理后的數(shù)據(jù)集進(jìn)行劃分,80%的數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù),剩余的20%作為測(cè)試集數(shù)據(jù)。

Step2:使用決策樹(shù)、Logistic回歸和BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)集上進(jìn)行建模,其中,決策樹(shù)的特征選擇使用基尼指數(shù),決策樹(shù)的生成使用CART生成算法,最后對(duì)生成的決策樹(shù)進(jìn)行剪枝。

Step3:使用訓(xùn)練好的模型對(duì)測(cè)試數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行預(yù)測(cè)結(jié)果分析。

Step4:將決策樹(shù)模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型得出的預(yù)測(cè)結(jié)果帶入構(gòu)造好的拉格朗日函數(shù),得出組合模型中各單一模型的權(quán)值系數(shù),并構(gòu)建組合模型。

Step5:根據(jù)構(gòu)建的組合模型得出預(yù)測(cè)結(jié)果。

3 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)中的數(shù)據(jù)來(lái)自浙江省杭州市某移動(dòng)通信公司數(shù)據(jù)倉(cāng)庫(kù),通過(guò)HQL查詢(xún)得出20 000條客戶(hù)個(gè)人信息和近兩個(gè)月歷史消費(fèi)情況的記錄,其中包含某個(gè)客戶(hù)是否離網(wǎng)的標(biāo)記。對(duì)原始數(shù)據(jù)進(jìn)行清洗,去除異常數(shù)據(jù),如寬帶號(hào)碼、手機(jī)號(hào)碼不是11位,手機(jī)號(hào)碼不是以“1”開(kāi)頭,手機(jī)imei號(hào)碼為“-99”(異常標(biāo)記)等異常號(hào)碼,并進(jìn)行特征選擇,最后選取該數(shù)據(jù)集中80%的數(shù)據(jù)作為訓(xùn)練集,余下的20%作為測(cè)試集,使用決策樹(shù)模型、Logistic回歸模型、BP網(wǎng)絡(luò)模型和組合模型分別在訓(xùn)練數(shù)據(jù)集上進(jìn)行學(xué)習(xí),利用訓(xùn)練好的模型在測(cè)試數(shù)據(jù)集上進(jìn)行預(yù)測(cè),結(jié)果如表1所示(由于數(shù)據(jù)量太大的緣故,這里僅列出了10條數(shù)據(jù))。

表1 三種單一模型與組合模型的客戶(hù)流失預(yù)測(cè)結(jié)果

為了進(jìn)一步比較3種單一模型和組合模型的預(yù)測(cè)效果,對(duì)表1的測(cè)試預(yù)測(cè)結(jié)果進(jìn)行了詳細(xì)的統(tǒng)計(jì),結(jié)果表明:決策樹(shù)模型的準(zhǔn)確度為88.13%,Logistic回歸模型的準(zhǔn)確度為85.69%,BP神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確度為87.90%,組合模型的準(zhǔn)確度為93.06%,如圖4所示。

圖4 各預(yù)測(cè)模型準(zhǔn)確度對(duì)比

可以看出,組合模型綜合了三種單一預(yù)測(cè)模型的優(yōu)勢(shì),預(yù)測(cè)效果要優(yōu)于任意一個(gè)單一預(yù)測(cè)模型,大大提高了預(yù)測(cè)客戶(hù)流失的準(zhǔn)確度,高達(dá)93.06%,與單一預(yù)測(cè)模型的效果相比,準(zhǔn)確度提高了近6%。

4 結(jié)束語(yǔ)

在移動(dòng)通信企業(yè)中,客戶(hù)流失對(duì)其經(jīng)濟(jì)收益有著非常重要的影響,并且在運(yùn)營(yíng)過(guò)程中是常常出現(xiàn)的問(wèn)題,只有有效地控制客戶(hù)流失才能立于不敗之地。由于企業(yè)對(duì)這部分客戶(hù)制定策略的盲目性,使移動(dòng)運(yùn)營(yíng)企業(yè)在營(yíng)銷(xiāo)過(guò)程中遭受了不可忽視的損失。根據(jù)決策樹(shù)模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型各自的特點(diǎn),文中提出的組合模型綜合了三種單一預(yù)測(cè)模型的優(yōu)點(diǎn),通過(guò)通信企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中用戶(hù)的信息和消費(fèi)特征等海量數(shù)據(jù)進(jìn)行學(xué)習(xí),使預(yù)測(cè)的準(zhǔn)確度得到了一定程度的提高。移動(dòng)通信企業(yè)可根據(jù)組合模型得出的預(yù)測(cè)結(jié)果采取相應(yīng)的營(yíng)銷(xiāo)手段來(lái)減少因客戶(hù)流失而造成的損失。組合模型更高的準(zhǔn)確度使運(yùn)營(yíng)企業(yè)在制定營(yíng)銷(xiāo)策略時(shí)更具有針對(duì)性。

猜你喜歡
分類(lèi)模型
一半模型
分類(lèi)算一算
垃圾分類(lèi)的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 日韩福利在线观看| 欧美性久久久久| 69av在线| 欧美国产日产一区二区| 97精品国产高清久久久久蜜芽| 在线观看免费黄色网址| 高清视频一区| 在线一级毛片| 女人18一级毛片免费观看| 亚洲成AV人手机在线观看网站| 国产一区在线视频观看| 国产网站在线看| 中文字幕在线日本| 免费在线色| 欧美一区中文字幕| 欧美三级视频在线播放| 99精品高清在线播放| 精品三级在线| 国内精品小视频在线| 中国一级特黄大片在线观看| 性色一区| 国产九九精品视频| 人妻丝袜无码视频| 欧美特黄一免在线观看| 久久a级片| 国产高清无码麻豆精品| 国产呦精品一区二区三区下载| 拍国产真实乱人偷精品| 亚洲精品色AV无码看| 国产av色站网站| 91精品国产丝袜| 三上悠亚精品二区在线观看| 精品无码国产一区二区三区AV| 亚洲小视频网站| 蜜臀av性久久久久蜜臀aⅴ麻豆| 亚洲欧美精品在线| 伊人成人在线| 亚洲IV视频免费在线光看| 四虎AV麻豆| 亚洲国内精品自在自线官| 日韩一级二级三级| 久久人妻系列无码一区| 高清久久精品亚洲日韩Av| 国产一区二区三区精品久久呦| 国产精品自拍露脸视频| 久久中文无码精品| 亚洲中文无码av永久伊人| 久久综合伊人77777| 91亚洲影院| 欧美亚洲中文精品三区| 国产综合无码一区二区色蜜蜜| 丁香婷婷在线视频| 国产精品福利一区二区久久| 精品视频第一页| 国产一区亚洲一区| 人妻无码中文字幕第一区| 亚洲一本大道在线| 中文一级毛片| 国产亚洲精久久久久久无码AV| 黄色免费在线网址| 99这里只有精品6| 国产精品成人久久| 日本a∨在线观看| 久久香蕉国产线看观看精品蕉| 视频一本大道香蕉久在线播放| 99视频精品全国免费品| 亚洲经典在线中文字幕| 久久天天躁狠狠躁夜夜2020一| 久久免费观看视频| 一级福利视频| 亚洲中文精品人人永久免费| 欧美黄网在线| 伊人中文网| 免费看美女自慰的网站| 欧美国产日韩在线播放| 国产成人啪视频一区二区三区 | 噜噜噜久久| 亚洲三级色| 99视频国产精品| 国产一区二区三区日韩精品| 青青青国产在线播放| 国产亚洲精品91|