999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進XGBoost 的電商客戶流失預測*

2022-06-16 12:46:08廖開際鄒珂欣莊雅云
計算機與數字工程 2022年5期
關鍵詞:特征模型

廖開際 鄒珂欣 莊雅云

(華南理工大學工商管理學院 廣州 510641)

1 引言

目前我國電商行業發展迅速,電子商務數據作為國家大數據戰略的重要組成要素,不僅有很高的應用價值,還有很高的經濟價值[1]。目前,電子商務競爭愈發激烈,各大電子商務企業在推進業務增長的同時均在發展以客戶為中心的企業戰略,而如今企業發展新客戶的成本越來越高甚至大幅超過用以維系老客戶的成本,所以,如何有效精準識別潛在的客戶流失對電商企業的長期戰略發展有著舉足輕重的意義。

目前國內外通常采用的客戶流失預測研究主要有基于傳統統計學方法的客戶流失預測,如朱志勇等[2]利用貝葉斯分析客戶流失特征,創建貝葉斯網絡模型;張宇等[3]利用決策樹算法,創建了所需的流失預測模型,并用中國郵政的業務數據對模型進行了驗證;Arno De Caigny[4]將決策樹與邏輯回歸結合,為兩階段客戶創建了相應的流失預測模型,但這兩種方法較為簡單,對于數據維度較高的問題不太適用。

近幾年由于人工智能等技術的發展,利用機器學習、神經網絡構建的客戶流失預測模型,也取得了很大的進展。如Ruiyun 等[5]提出了一種優化的BP神經網絡來預測電信公司流失客戶。Yaya Xie[6]提出改進平衡隨機森林算法的預測模型并將其應用于銀行客戶流失數據集,結果表示該方法效果更優。朱幫助等[7]提出了基于最小二乘SVM 的三階段客戶流失預測模型并驗證了模型的有效性。王重仁[8]等通過把社交網絡分析、XGBoost 兩者結合起來,最終發現具有更好的效果。

以上基于人工智能和機器學習的算法雖然都能有效地提高客戶流失的預測精準度,但是其研究所涉及領域與電商大數據領域的特點仍有一定差異。如今,在研究客戶流失預測狀況時,主要把契約型客戶當作研究對象,其流失有著較為明確的標志。然而以電子商務客戶為典型代表的非契約型客戶與企業之間并不存在契約關系,企業無法準確觀察到客戶的流失時間點,因此該類客戶的流失預測是現階段研究的難點和重點。

本文基于多種模型和算法,開發了相應的客戶流失預測方法,在最終的預測模型中還對預測過程中對電商領域對真陽性錯誤更敏感的情況進行了針對性的算法改進,使得方法和模型更加符合電商領域的使勁應用情境。

2 客戶流失預測模型

圖1 展示了模型的基本流程,該方法含有三個不同的模塊,包括流失預測模型模塊,客戶細分模塊、客戶特征篩選模塊。

圖1 預測方法流程圖示

2.1 客戶特征篩選模塊

由于電子商務客戶的特征數量較多且維度較高,在進行客戶流失預測之前首先采用隨機森林算法進行降維和特征篩選操作。隨機森林算法通過計算數據誤差來衡量特征的好壞程度,其中的數據誤差來源自訓練決策樹時隨機抽取的樣本數據所帶來的隨機誤差[9]。特征X 的重要性由式(1)計算得出。

其中,N 表示的是決策樹的數量。error1 代表去掉被抽取樣本數據外的數據誤差,error2 代表加入隨機干擾后去掉被抽取樣本數據外的數據誤差。

對于原始數據集合首先使用Boot-Strapping隨機采樣方法來獲取n 個數據樣本集合。再對數據子集進行單獨訓練,變為樹分類器,對于每一個樹分類器,在實施分裂操作時,會需要按照信息增益情況,選擇最佳的分裂特征[10]。隨后每棵樹繼續分裂,直到所有的訓練樣本分為同一類結束,然后組合不同的決策樹,形成隨機森林,此時每個特征的影響程度也會被計算出來。最終選取影響程度高且其累計營銷程度超過90%的特征進行流失客戶預測。

2.2 客戶細分模塊

客戶細分是指根據客戶的某些特征來識別客戶群體的方法,其中基于客戶價值的細分是近年來較為常見且應用廣泛的方法,其中,對于RFM 模型而言,是從眾多交易數據中篩選出來的,可以有效地判斷用戶的價值,常被用于研究顧客忠誠度和活躍度[11]。

本文提出的客戶細分模塊是以RFM 客戶價值模型為重要依據與分類基礎,確定RFM 模型的三大指標,組成相應的數據集,然后通過K-means 方法,實施聚類操作,詳細地劃分電子商務客戶的類型。主要指標如下所示,分別為Recency、Frequency、Monetary[12]。其中,R 代表的是最近購買與現在相距的時間,反映了用戶活躍程度;F 代表的是某一階段的購買頻次,反映的是用戶的忠誠度;M 代表的是某一階段購買的總金額,反映了用戶消費能力[13]。

圖2 客戶細分模塊流程圖

將通過RFM 模型確定的指標數據放入K-means聚類算法中得到一個收斂的聚類結果,對于K-means 算法,它是最常用的聚類算法,是一種劃分為主的聚類算法[14]。最后對聚類結果進行分析并根據每一個客戶類別顯示出來的特點對聚類結果中的客戶類別進行命名,最終對客戶進行細分。

2.3 流失預測模型模塊

根據電子商務領域的情境,將客戶流失錯分為非客戶流失視為第一類錯誤。在此種情況下,企業不會挽留這部分客戶,企業將會錯失此類客戶。而對于非客戶流失,錯誤的看作是客戶流失,這屬于第二類錯誤,此時企業會對被錯分為客戶流失的客戶采取相挽留措施,從而增加了企業的運營成本。然而,通過研究發現,與維持老客戶相比,發展新客戶所需的成本更高,所以在預測電子商務客戶流失時,第一類錯誤能夠導致更大的損失,遠遠超過了第二類錯誤。因此,通過分析電子商務客戶流失預測發現,對真陽性錯誤更敏感。

XGBoost 算法在處理大數據集時能夠保持較高的精度,其原理通過不斷對誤差進行進一步分類,來改善系統的訓練準確率[15]。因此本文選擇XGBoost 來構建流失客戶預測模型。在處理分類問題時,XGBoost 一般把對數函數當作損失函數,見式(2)。本文基于電子商務的特殊情境,在XGBoost 算法的損失函數中,需要添加上懲罰系數α(0.5<α≤1),對上述兩類錯誤的損失比例進行了調整,見式(3)。

當樣本yi=1 時,相應的損失函數為ln(1+e-αy^t) ,如果樣本yi=0 時,那么損失函數為ln(1+e(1-α)y^t)。可見經過對損失函數的改進,發生一類錯誤的損失會高于二類錯誤損失,更加符合電子商務領域場景特征。經過多次實驗,當懲罰系數α取0.6 時,AUC 值達到最優,因此預測模型中懲罰系數α取值為0.6。

3 預測模型驗證與結果對比

本文采用國內某電子商務平臺中4439 名客戶在2018 年1 月至8 月產生的數據作為原始數據對提出的方法進行驗證。通過準確率、召回率、ROC曲線、AUC值等指標,對其進行評價。

3.1 特征篩選結果

采用隨進森林算法對上述數中21 個特征進行篩選,得到表1 中重要性程度較高的7 個特征,且這7 個變量對結果的解釋貢獻率達到了90%,因此選取這7 個特征變量作為最終輸入預測模型的特征。

表1 特征變量重要性結果

3.2 客戶細分結果

通過標準化等預處理操作之后,再通過K-means聚類算法,實施相應的聚類操作。經過反復試驗,發現當類數K=3 時結果達到收斂,故最終結果將客戶分為三類,最終聚類結果見表2。

表2 客戶細分結果

對結果中的三類客戶的三項指標分別進行描述統計后發現,第二類客戶的R 指標均值最小為7.52,同時這類客戶的F 指標與M 指標均值在三類客戶中均為最大且遠大于其他兩類客戶,即這類客戶最后一次在該電子商務平臺的購買時間距現在普遍較近而且他們的累計訂單數與累計銷售額遠高于其他兩類客戶。可以認為這類客戶經常在該平臺消費且消費金額較大,可見此類客戶對電子商務企業具有重要的價值,因此將聚類結果中的第二類客戶定義為重要價值客戶。

聚類結果中的第三類客戶的R 指標均值最大為159.17,并且該類客戶的F 指標與M 指標的均值遠小于其他兩類指標,即第三類客戶最后一次在該電子商務平臺的購買時間較現在較遠且這類客戶的累計訂單數與累計消費金額較小,這就表示該類客戶在該平臺購買的頻率較低且消費力度較小,該類用戶更容易變成潛在的客戶流失,因此需要企業針對他們開展相應的挽留措施,所以,在得出聚類結果之后,往往把第三類客戶當作價值最低的客戶。

聚類結果中的第一類客戶的三項指標的均值均處于中等水平,這表示該類客戶在活躍度、忠誠度以及消費能力上均處于三類客戶的中間水平,因此,把這部分客戶當作一般價值的客戶。

3.3 XGBoost算法改進前后對比

算法改進前后預測結果的各項評價指標見表3,可知改進后的算法在各個指標上的表現均優于改進前的算法。

表3 XGBoost改進前后預測結果對比表

3.4 不同算法對比

這里選取了邏輯回歸、支持向量機、BP 神經網絡這三種常用的算法模型來與改進后的XGBoost算法進行對比分析,結果見表4。可以看出,除了召回率與其他算法存在較小差距之外,改進后的XGBoost 算法的預測結果在其余各項指標的表現均明顯優于其他算法,即說明改進后的XGBoost 算法較其他算法來說在預測客戶流失的效果上表現更好。

表4 各類算法預測結果對比表

3.5 客戶細分前后對比

經過客戶細分后再進行預測與用總體客戶即不進行客戶細分進行預測的結果對比見表5(均采用改進后的XGBoost 算法進行預測),可以看出經過客戶細分后再進行預測時各個評價指標的結果均有明顯上升,說明在預測前對客戶進行細分能夠有效提升價值客戶的流失預測精度。

表5 客戶細分前后預測結果對比

4 結語

研究結果表明經過預先進行客戶細分能更有效地進行客戶流失的預測,預測結果的各評級指標均有明顯提升。同時,結合電子商務客戶流失的特征,對損失函數作出一定的修正,改進后的XGBoost 算法的預測效果相比改進前也有更好的表現,預測結果AUC 值提高了2.4%,準確率提升了2.8%,精確率提升了3.8%,召回率提升了2%。由此可以說明,所提出的預測方法是行之有效的。

根據客戶價值對電子商務客戶進行了細分并預測了不同群體中的客戶流失情況,但是現有研究主要基于結構化的客戶數據,圖片、音視頻等其他類型的復雜數據并沒有涉及,后續有待進一步深入研究。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 欧美性猛交一区二区三区| 青青青伊人色综合久久| 亚洲欧美成人在线视频| 天天爽免费视频| 亚洲欧美综合在线观看| 日韩天堂视频| 国产成人福利在线视老湿机| 久久国产亚洲偷自| 99在线视频精品| 国产精品美乳| 香港一级毛片免费看| 最新精品久久精品| 欧美亚洲日韩中文| 9999在线视频| 亚洲国产精品无码AV| 免费全部高H视频无码无遮掩| 亚洲欧洲日韩综合色天使| 国产97视频在线| 四虎影视8848永久精品| 久久福利网| 国产免费网址| 国产视频一区二区在线观看| 国产色婷婷| 91精品久久久无码中文字幕vr| 丝袜美女被出水视频一区| 国内精品久久久久久久久久影视 | 国产欧美日韩在线一区| 欧美 亚洲 日韩 国产| 亚洲水蜜桃久久综合网站| 先锋资源久久| 亚洲无码精品在线播放| 蜜臀AV在线播放| 亚洲床戏一区| 久久亚洲欧美综合| 成人国产精品视频频| 国产午夜无码专区喷水| 97影院午夜在线观看视频| 亚洲精品图区| 亚洲欧洲自拍拍偷午夜色| 国产精品亚洲а∨天堂免下载| 亚洲精品中文字幕无乱码| 免费在线视频a| 国产jizzjizz视频| 成人欧美日韩| 国产一区免费在线观看| 国产精品青青| 国产一区二区视频在线| 免费一级毛片| 亚洲区欧美区| 欧美人人干| 国产毛片久久国产| 亚洲另类国产欧美一区二区| 永久免费AⅤ无码网站在线观看| 成年人久久黄色网站| 毛片视频网址| 久视频免费精品6| 欧美伦理一区| 国产成人亚洲无吗淙合青草| 免费无遮挡AV| 理论片一区| 成人va亚洲va欧美天堂| 国产精品永久久久久| 亚洲熟女中文字幕男人总站| 国产无码网站在线观看| 国产精品视频a| 日韩欧美网址| 精品国产自| 亚州AV秘 一区二区三区| 日韩大片免费观看视频播放| 青青青国产视频手机| 亚洲AV无码乱码在线观看裸奔| 国产精品第| 国产三级成人| 欧美狠狠干| 天天爽免费视频| 国产白丝av| 久久综合色视频| 伊人久久大线影院首页| 国产jizz| 成AV人片一区二区三区久久| 日韩精品无码免费专网站| 在线观看免费国产|