999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

組合模型在電信客戶流失預測中的應用*

2020-07-19 14:29:22沈江明曾志勇
通信技術 2020年6期
關鍵詞:分類模型

沈江明,孫 凱,曾志勇

(1.中國電信股份有限公司云南分公司,云南 昆明 650000;2.云南財經大學統計與數學學院,云南 昆明 650000;3.云南財經大學信息學院,云南 昆明 650000;4.云南省高校數據化運營管理工程研究中心,云南 昆明 650000)

0 引言

客戶流失一直都是很多行業需要關注的問題,在新客戶開發面臨瓶頸的時刻,如何對原有客戶采取措施保留,是一項非常重要的問題。在20 多年以來,出現了大量關于電信客戶流失的研究,主要包括對數據傾斜問題的處理和模型的構建。這其中多為傳統算法或者是對算法改進的單一算法,而單一算法無法在復雜的客戶流失問題上持續保持好的結果。針對這一問題,本文嘗試將數據傾斜處理方法與模型構建相結合的策略進行系統構建,不僅可以有效解決數據傾斜的問題,而且模型分類效果要優于傳統分類算法。

1 相關工作

通過對文獻的了解發現,相關的研究多體現在兩個方面:數據不均衡問題處理和模型構建。

在不均衡數據處理方面。國外的Ha 等人首次利用了遺傳算法可以獲取最優解的特點,利用該算法獲取最優子數據集,來更好的反應多數類樣本的信息[1]。國內的郭娜娜基于差異度的角度對數據不均衡處理方法進行改進并提出了IDBC 算法,對于數據傾斜問題的處理很有效[2]。

在分類算法改進方面。傳統的模型多為單一模型的改進。比如張宇等通過決策樹來構建模型,并將該模型應用到實際業務中,驗證了該模型的有效性,可以為企業進行客戶保留提供幫助[3]。馬文斌等在客戶流失模型構建中運用了深度神經網絡,并將模型預測結果與邏輯回歸和決策樹等模型進行比較,發現神經網絡具有更好的預測結果[4]。國外的Hung,xu,Chu 三位學者均利用BP 網絡構建流失模型,并取得了非常好的預測效果[5-7]。隨著分類算法的技術和理論不斷改進,發現集成算法有更好的分類效果。比如國內學者王純麟和何建敏就第一次應用了集成算法,構建了AdaBoost 模型,根據實際數據的驗證結果顯示,此模型較傳統的BP 模型、貝葉斯模型、C4.5 模型和邏輯回歸模型都有更好的預測結果[8]。

雖然上述研究中對不均衡數據的處理有一定的貢獻,但是研究的焦點僅從單一維度進行處理,存在著很明顯的問題。除此之外,在分類模型的構建中,由于優秀的分類能力,集成模型得到了廣泛認可,但是對于基模型的選擇僅為樹模型,基模型的差異度過低,使得效果提升不明顯。

為解決上述問題,本文綜合了數據傾斜問題的處理以及組合模型的組合策略來構建一個模型。針對不均衡數據的處理,本文從兩個方向進行數據采樣,即對多數類欠采樣,對少數類smote 過采樣。針對算法改進,本文依舊基于差異性的原則,選擇4 個差異性較大的基分類器進行線性組合,不同的是數據輸入。具體過程:按照數據傾斜問題的處理方式,重復進行4次,每一次都會形成一個子數據集,并且根據抽樣方法,每次得到的子數據集都不相同,而且這4 個子數據集幾乎涵蓋了原數據所有的多數類樣本信息,將每一個子數據集用于一個基分類器的構建,然后對訓練好的基模型進行融合,從而構建本文的組合模型。

本文構建的模型一方面充分利用了數據樣本信息,有效解決了數據嚴重傾斜的問題;另一方面將數據處理方法與組合模型構建進行了有效結合。最后將構建的模型應用于實際的企業數據來評估模型。

2 數據挖掘理論

2.1 數據挖掘算法

2.1.1 邏輯回歸算法

邏輯回歸的本質是通過將線性回歸結果進行非線性的轉化來達到分類效果的。模型的返回值是處于0~1 之間的一個類別概率,通常以0.5 為分界點,概率值大于0.5 的歸為類別“1”,反之歸為類別“0”。

假設數據中有m個特征,分別用X′=(x1,x2,…,xm)表示;根據類別發生的對應概率為條件概率,用P(Y=1|x)=p表示,則邏輯回歸的模型如式(1)所示,其中g(x)可以看作線性回歸的預測函數。

2.1.2 支持向量機算法

支持向量機分類性能優越,在企業中被廣泛應用,模型原理是在眾多的分類面中尋找邊際最大的那一個,求解的方法是將問題轉化為凸二次規劃。若在二分類問題中,存在一條直線可以將數據點分成兩類,若是在三維空間,則存在一個平面使得這些數據被分成兩類,如果這些數據點屬于n維空間,那么在n維空間有一個超平面,將數據點分為兩類。

支持向量機通過調節核函數起到非線性擬合的作用,不同的核函數起到不同的擬合機制。因為僅與支持向量有關系,所以支持向量機具有分類效果好,性能魯棒的特點。

2.1.3 XGBOOST 算法

XGBoost 算法是GBDT 的一種工程化實現,GBDT 算法每一次訓練都會生成一個基模型,并且基模型是根據模型殘差進行訓練的,即一步步降低模型的分類誤差,如此不斷的迭代下去,形成若干個基分類器,并進行線性加權。通過這種訓練方式來不斷的降低損失。XGBoost 算法的表達式如式(2):

其中n表示樣本數量。模型的好壞一方面取決于模型的方差,一方面取決于模型的偏差。

2.1.4 神經網絡算法

神經網絡以海量數據并行計算為基礎,一般包括三個層級結構:輸入層、隱藏層和輸出層。層與層之間都存在權重,且神經元中都存在連接函數,進行非線性轉化。圖1 為典型的神經網絡結構圖。

圖1 神經網絡結構

BP 神經網絡是應用最廣泛的神經網絡算法,其輸出表達式如式(3)所示:

其中ωij為連接權系數;fi為激活函數;xi為神經元輸入;θj為神經元閾值。BP 網絡通過對維度的調整,實現將問題轉化為更高維度進行處理,并通過不斷的迭代來修正連接權重和閾值,使得輸出誤差達到最小。

2.1.5 組合預測算法

隨著技術的發展,越來越多的學者選擇將多種算法進行組合,充分發揮多種算法的優勢。組合模型更加穩健,可以充分利用樣本信息,預測結果也更加可靠。

假設有K個子模型,則線性集成的數學表達式如式(4)所示:

本文將重點研究線性集成和數據傾斜處理相結合的方式,來構建流失模型,權重是通過拉格朗日函數求解的。

2.2 評估方法

本文選擇了多種評估方法進行模型比較,其中包括了F1 值、AUC 值、少數類樣本的預測精確率和犯兩類錯誤率:FNR 和FPR,其中FNR 表示錯分為不流失的樣本在總樣本的占比,FPR 表示錯分為流失的樣本在總樣本的占比。

3 實驗分析

3.1 實驗數據

模型所用的訓練以及測試數據均來自于某電信公司的寬帶客戶行為數據,訓練集和測試集的介紹如表1 所示。

表1 電信寬帶數據集的數據描述

3.2 組合預測模型的建立

針對4 種單模型的特點,模型在輸出類別“0”和“1”時伴隨著類別概率,為了提高模型的分類準確率,本文擬將類別概率作為各基模型的預測得分,用于線性組合。為了防止模型將少數類樣本過多的預測為少數類,引入了第I 類分類錯誤率,作為權重系數的懲罰項。構造的損失函數[9]如式(5)所示。

通過極小化損失函數來獲取組合模型的最優權重。fi,gi,hi,ki分別為LR、SVM、BP 網絡和XGBOOST 模型的預測得分值,且預測得分表示的模型在輸出類別時對應的類別概率;λ為拉格朗日算子;αk為單模型對應的的權重,且k=1,2,3,4;ωi犯第I類錯誤率,且i=1,2,3,4;由于函數L(α1,α2,α3,α4)為二次凸函數,故有唯一的極值,即最小值,并利用python 求出最優權重,設為組合模型的類別預測概率,則結果如式(6)所示:

本文組合模型的流程圖如圖2 所示。

圖2 模型訓練流程

該方法的好處在于通過從兩個方向對數據進行抽樣,可以緩和抽樣本身的缺點。此外,四次抽樣的數據集均不一樣,尤其對多數類樣本的利用更加充分,丟失的信息也非常少。最后通過組合模型的構建,對單模型進行整合,使得最終的組合模型具有很好的效果。

3.3 模型評價

分別對單模型、投票模型和本文模型進行結果比較,從模型的F1 值、AUC 值以及對少數類樣本的預測命中率三個指標對模型的預測結果進行評價,結果如圖3 所示。

圖3 各模型預測結果分析

圖3 結果顯示:在所有指標中,組合模型均表現出更好的結果,其中組合模型的F1 值提高了2.3%(相比較較其他最優模型,下同),對少數類樣本的預測命中率提高了2.1%,AUC 值也提高了0.01。組合模型表現出更加穩定優越的性能,大大提升了客戶流失的預測能力,對少數類(流失類)客戶預測的命中率達到了78.7%,高于該企業之前模型達到的76.3%。

為了更直觀的比較各模型的分類性能,本文引入了兩類分類錯誤率,從另一方面對模型進行評價,結果如圖4 所示。

圖4 各模型的兩類分類錯誤率

圖4 的結果顯示,組合預測模型犯第一類錯誤的錯誤率僅為0.62%,遠低于其他模型,犯第II 類錯誤的錯誤率為1.23%,也是優于其他模型。綜合比較上述結果,可以發現本文的組合模型是合理有效的。

4 結語

現階段下,客戶流失已不僅僅存在于通信業,在其他行業同樣是一個需要面臨的問題。利用數據挖掘技術,通過對數據的認識,來發現新的信息,通過對信息的利用,進而幫助企業制定一些決策,挽留客戶,達到盈利的目的。本文對模型的構建綜合考慮了數據傾斜問題的處理和組合模型的構建,基于差異性選擇了四種基分類器,在抽樣數據集的基礎上對基分類器一一進行訓練,并將訓練好的單模型進行加權求和,來構建本文模型。將組合模型用于真實的企業數據,實現隔月預測。并且結果顯示,本文構建的模型表現出更加優越的效果,大大挽回了企業的損失,具有很大的現實意義。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 91黄视频在线观看| 国产一区成人| 亚洲另类第一页| 国内精品久久九九国产精品| 三上悠亚一区二区| 国产精品一区二区国产主播| 天天做天天爱夜夜爽毛片毛片| 亚洲六月丁香六月婷婷蜜芽| 69视频国产| 天堂久久久久久中文字幕| 一本久道久久综合多人| 久无码久无码av无码| 国产在线欧美| 四虎永久免费在线| 久久特级毛片| 亚洲第一黄片大全| 一级毛片免费观看不卡视频| 国产91在线|日本| 婷婷综合色| 欧洲日本亚洲中文字幕| 黄色一及毛片| 欧美一级在线| 日韩国产黄色网站| 99草精品视频| 久久久久人妻一区精品色奶水| 精品视频一区二区三区在线播| 亚洲成人网在线播放| 国模视频一区二区| 国产高清在线丝袜精品一区| 久久精品丝袜高跟鞋| 在线观看无码av免费不卡网站| 亚洲国产中文在线二区三区免| 日本五区在线不卡精品| 亚洲一道AV无码午夜福利| 男女性午夜福利网站| 国内精品免费| 99热这里只有精品在线播放| 99尹人香蕉国产免费天天拍| 午夜福利在线观看成人| 国产在线精品香蕉麻豆| 亚洲永久精品ww47国产| 亚洲中久无码永久在线观看软件| 中文无码毛片又爽又刺激| 毛片a级毛片免费观看免下载| 日韩精品一区二区三区免费| 香蕉99国内自产自拍视频| 国产精品九九视频| 日本亚洲国产一区二区三区| 国产欧美日韩91| 精品无码专区亚洲| 国产人人射| 亚洲国产一成久久精品国产成人综合| 国产男女免费完整版视频| 国产成人综合日韩精品无码首页| 国产成人亚洲综合a∨婷婷| 色成人亚洲| 看国产一级毛片| 久无码久无码av无码| 91久久夜色精品国产网站| 99re视频在线| 色精品视频| 久久五月视频| 婷婷综合缴情亚洲五月伊| 国产精品美乳| 在线国产三级| 久久人人爽人人爽人人片aV东京热| 亚洲日韩高清无码| 亚洲免费播放| 中文字幕日韩欧美| 2021亚洲精品不卡a| 国产大片喷水在线在线视频| 欧美中文字幕第一页线路一 | 99久久人妻精品免费二区| 亚洲成年人网| 欧美午夜在线播放| 人妻丰满熟妇av五码区| 成人字幕网视频在线观看| 五月婷婷精品| 亚洲男人的天堂网| 欧美一级高清片欧美国产欧美| 一级毛片基地| 国产美女久久久久不卡|