999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

非完備數(shù)據(jù)的寬帶客戶流失預(yù)測

2021-09-08 02:25:35張蕓宋雙
中國新通信 2021年14期
關(guān)鍵詞:分類特征效果

張蕓 宋雙

【摘要】? ? 在實際數(shù)據(jù)中,由于人為、設(shè)備等原因,不可避免的會出現(xiàn)數(shù)據(jù)缺失問題。針對缺失值的處理方法一是刪除,二是填充。若數(shù)據(jù)缺失較少,刪除存在缺失值的樣本不失為一個快速簡單的方法,但若缺失值較多,大量刪除樣本就會損失掉重要信息,不利于模型的建立,預(yù)測效果也會不理想。本文從非完備數(shù)據(jù)出發(fā),采用SimpleImputer、KNNImputer、IterativeImputer三種方法來填充缺失的數(shù)據(jù),建立寬帶客戶流失隨機森林分類模型,經(jīng)過對比分析得出IterativeImputer方法補充缺失值分類效果更好的結(jié)論。

【關(guān)鍵詞】? ? 缺失值填充? ? 隨機森林

引言:

在大數(shù)據(jù)的時代,雖然有海量的數(shù)據(jù),但是數(shù)據(jù)也存在嚴重的缺失情況。缺失值(missing data)是指單元格中應(yīng)有而未能記錄的數(shù)據(jù)。數(shù)據(jù)缺失通常分為三種:完全隨機缺失、隨機缺失、非隨機缺失。當我們所用數(shù)據(jù)的重要信息存在缺失情況時,就要對其進行填充。由于填充的數(shù)據(jù)非真實數(shù)據(jù),因此會對分析結(jié)果產(chǎn)生一定的影響。若能找到一種合適的數(shù)據(jù)填充方法,使得填充的數(shù)據(jù)與真實值更接近,就能大大提高數(shù)據(jù)分析的效果。

本文首先介紹三種缺失值填充的方法,分別是SimpleImputer、KNNImputer、IterativeImputer。然后在電信寬帶客戶數(shù)據(jù)集上分別用三種缺失值填充的方法對缺失值進行填充,最后建立寬帶客戶流失的隨機森林分類模型。通過對比直接刪掉缺失值以及三種缺失值填充方法,分析得到填充缺失值是否對模型分類效果有提高,以及哪種缺失值補充方法最好。

一、缺失值填充方法

數(shù)據(jù)缺失已經(jīng)成為一種不可避免的現(xiàn)象。針對分類問題,如果某一特征對分類結(jié)果影響很小或無影響,那么該特征可以直接刪除;若某一特征對分類結(jié)果存在很大的影響,且缺失值占總樣本的比例適中,就可以進行數(shù)據(jù)填充。基于此,許多學(xué)者研究該如何進行數(shù)據(jù)填充,才能使填充的數(shù)據(jù)更加接近真實值。

國外學(xué)者對缺失值填補的研究要早于國內(nèi),最早關(guān)于缺失值的相關(guān)研究可以追溯到1976年Rubin[1]對數(shù)據(jù)缺失三大機制的定義。近期,Gerhard等[2]提出了基于KNN的插補方法,將KNN算法中的鄰居改為按照距離進行加權(quán)。Lei等人[3]利用多視圖矩陣完備的方法對缺失值進行插補,Zhang 等人[4]基于鏈式法則對缺失值進行填充,Verma 等人[5]利用 LSTM 對缺失值進行處理等。

1.1 SimpleImputer

SimpleImputer缺失值填充方法是除了刪掉缺失值以外最簡單的一種方法,包含了四種最常用的填充方式,分別是均值填充、中位數(shù)填充、眾數(shù)填充和常數(shù)填充。該方法可以在sklearn中直接調(diào)用。

1.2 KNNImputer

KNNImputer方法的思想是找到數(shù)據(jù)空間中距離最近的K個樣本,然后通過這K個樣本來估計缺失數(shù)據(jù)點的值。缺失值可以用K個相鄰樣本點的均值、中位數(shù)、眾數(shù)或者常數(shù)進行填充。KNNImputer預(yù)測的步驟是選擇其他不存在缺失值的列,同時去除需要預(yù)測缺失值的列、存在缺失值的行,然后計算歐氏距離找到K個近鄰點。如果是離散的缺失值,則使用KNN分類器,投票選出K個鄰居中最多的類別進行填補;如果是連續(xù)的變量,則用KNN回歸器,使用K個鄰居的平均值進行填補。

1.3 IterativeImputer

IterativeImputer采用的是回歸的思想通過無缺失的數(shù)據(jù)建立回歸模型,來預(yù)測缺失的數(shù)據(jù)。具體步驟為:將每個缺失值設(shè)為y,不含缺失值的特征設(shè)為x,構(gòu)建x和y的函數(shù)。通過循環(huán)迭代方式,使用一個回歸模型在已知y(未缺失)的樣本上對(X,y)進行擬合。然后使用這個回歸模型來預(yù)測缺失的y值。以迭代的方式遍歷每個有缺失值的特征,然后重復(fù)n輪,最后一輪的計算結(jié)果被返回。

二、實驗過程及結(jié)果

基于以上介紹的三種缺失值填充方法,本文將這三種方法應(yīng)用在電信寬帶客戶數(shù)據(jù)上,首先對客戶流失數(shù)據(jù)進行預(yù)處理,選出有重要影響的特征,然后對存在缺失值的特征用三種方法分別進行缺失值填充,建立隨機森林分類模型,最后通過評價指標得出結(jié)論。

2.1 數(shù)據(jù)預(yù)處理

本文選取云南省某公司某月的寬帶客戶數(shù)據(jù)作為研究數(shù)。因為并不是所有特征都對客戶是否流失都有顯著的影響,所以需要進行特征選擇。特征分為兩類,一類是分類特征,一類是數(shù)值型特征。

針對分類特征,分別畫出特征在正負樣本上的餅圖,觀察其是否有顯著的差異,若某特征在正負樣本上的差異超過10%,則認為該特征對客戶是否流失有顯著的影響,否則認為無影響。針對數(shù)值型特征,分別畫出特征在正負樣本上的箱線圖,若箱線圖有明顯的差異,則認為該數(shù)值型特征對客戶是否流失有顯著的影響,否則認為無影響。

2.2 建立缺失值補充模型

數(shù)據(jù)預(yù)處理后,發(fā)現(xiàn)電信寬帶客戶數(shù)據(jù)中AVG_IPTV_ACTIVE_CNT(近3月月均IPTV活躍天數(shù))、FLUX_MAX_TIME_PROP(流量使用峰值時段占全天流量占比)這兩個特征對客戶流失有重要影響,且這兩個特征存在缺失值,通過SimpleImputer、KNNImputer、IterativeImputer這三種方法分別對缺失值進行填充,最后得到了完備的電信寬帶客戶數(shù)據(jù)。

2.3 隨機森林

本文選用隨機森林作為分類模型。隨機森林就是集成學(xué)習思想下的產(chǎn)物,將許多棵決策樹整合成森林,并合起來用來預(yù)測最終結(jié)果。首先,用bootstrap方法生成m個訓(xùn)練集,然后,對于每個訓(xùn)練集,構(gòu)造一顆決策樹,在節(jié)點找特征進行分裂的時候,并不是對所有特征都能找到使得指標(如信息增益)最大的,而是在特征中隨機抽取一部分特征,在抽到的特征中間找到最優(yōu)解,應(yīng)用于節(jié)點,進行分裂。隨機森林實際上對樣本和特征都進行了采樣(如果把訓(xùn)練數(shù)據(jù)看成矩陣,那么就是一個行和列都進行采樣的過程),這樣可以避免過擬合。

2.4 評價指標

本文選用的指標為精確率(precision)、召回率(recall)、F1-score。

2.5 實驗結(jié)果及分析

此樣本為極度不平衡數(shù)據(jù),而基于現(xiàn)實問題,我們更關(guān)注模型對少數(shù)類樣本的預(yù)測能力,由于負樣本(多數(shù)類樣本)的效果都挺好,此處就不進行展示,表中數(shù)據(jù)為正樣本(少數(shù)類樣本)的結(jié)果。

2.5.1 SimpleImputer

從表1的實驗數(shù)據(jù)可以看出負樣本的各項指標均高于正樣本的各項指標。SimpleImputer的三種數(shù)據(jù)填充方法均比直接刪掉缺失值的效果好,召回率提高了0.8-0.9,雖然精度下降了0.13-0.14,但是綜合指標提高了0.5-0.6。總的來說SimpleImputer數(shù)據(jù)填充方法是有效果的。

從上表的數(shù)據(jù)可以看出KNNImputer數(shù)據(jù)填充方法和SimpleImputer的效果差不多,都比直接刪掉缺失值的效果好。

2.5.3 IterativeImputer

從上表的實驗數(shù)據(jù)可以看出IterativeImputer數(shù)據(jù)填充方法是三種方法中效果最好的,精確率值比直接刪掉缺失值只降低了0.01,比SimpleImputer和KNNImputer方法提高了0.03-0.05,召回率提高到了0.54,比直接刪掉缺失值提高了0.11,比其他兩種數(shù)據(jù)填充方法提高了0.02-0.03,綜合指標F1-score比直接刪掉缺失值提高了0.09,比其他兩種方法提高了0.03-0.04。

三、結(jié)束語

數(shù)據(jù)的質(zhì)量影響著模型的效果,既然數(shù)據(jù)缺失不可避免,我們可以力所能及的補充缺失的數(shù)據(jù)。上述實驗結(jié)果證明了補充缺失數(shù)據(jù)建立的模型要優(yōu)于直接刪掉缺失值的模型,其中IterativeImputer數(shù)據(jù)補充方法最好,綜合指標F1-score值達到了0.68,提高了隨機森林模型的預(yù)測效果。還有諸多從不同個角度研究補充缺失值的方法,后續(xù)可以繼續(xù)閱讀相關(guān)論文,嘗試其他補充缺失值的方法,看能否進一步的提高模型的效果。

參? 考? 文? 獻

[1] RUBIN D B. Inference and? Missing Data[J].Biometrika,1976,63(3):581-592.DOI:10.1093/biomet/63.3.581.

[2] Tutz G,Ramzan S.Improved methods for the imputation of missing data by nearest neighbor method [J] . Computationl Statistics & Data Analysis, 2015,90(C):84-99.

[3] ZHANG L, ZHAO Y, ZHU Z, et? al. Multi-View Missing Data Completion[J]. IEEE Transactions on Knowledge and? Data Engineering, 2018, 30(7):? 1296–1309.? DOI:10.1109/TKDE.2018.2791607.

[4] ZHANG Z.Multiple? Imputation with Multivariate Imputation by Chained Equation (MICE) Package [J]. Annals of Translational Medicine,2016,4(2):1-5. Doi:10.3978/j.issn.2305-5839.2015.12.63

[5] VERMA H, KUMAR S. An? Accurate Missing Data Prediction Method Using LSTM Based Deep Learning for? Health Care[C]//Proceedings of the 20th International Conference on Distributed? Computing and Networking. . DOI:10.1145/3288599.3295580.

猜你喜歡
分類特征效果
按摩效果確有理論依據(jù)
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
迅速制造慢門虛化效果
數(shù)據(jù)分析中的分類討論
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
教你一招:數(shù)的分類
抓住特征巧觀察
主站蜘蛛池模板: 国产呦精品一区二区三区网站| 日韩av手机在线| 国内精品久久久久鸭| 日韩第一页在线| 国产成人91精品| 成人另类稀缺在线观看| 伊人精品视频免费在线| a亚洲视频| 无码中文字幕乱码免费2| 免费网站成人亚洲| 国产精品久久自在自2021| 影音先锋亚洲无码| 色网站在线免费观看| 亚洲视频一区| 午夜毛片免费观看视频 | 国产精品专区第1页| 丝袜亚洲综合| jizz亚洲高清在线观看| 色屁屁一区二区三区视频国产| 国产97区一区二区三区无码| 日韩国产综合精选| 亚洲第一页在线观看| 国产成人综合亚洲网址| 亚洲av成人无码网站在线观看| 欧美精品xx| 国产欧美日本在线观看| 亚洲成肉网| 亚洲伊人天堂| 久久精品66| 国产乱视频网站| 欧美精品亚洲精品日韩专区va| 午夜老司机永久免费看片| 鲁鲁鲁爽爽爽在线视频观看| 国内丰满少妇猛烈精品播| 成人小视频在线观看免费| 国产91特黄特色A级毛片| 国产婬乱a一级毛片多女| 四虎永久免费地址在线网站| 九九热在线视频| 亚洲人成网18禁| 三上悠亚一区二区| www.国产福利| 国产专区综合另类日韩一区| 天堂在线www网亚洲| 在线观看国产精品一区| 99在线小视频| 亚洲aⅴ天堂| 精品国产自在现线看久久| 国产精品成人啪精品视频| 精品视频一区二区观看| 久久无码高潮喷水| 91年精品国产福利线观看久久| 国产精品青青| 国产精品久久久久久久久kt| 亚洲国产黄色| 亚洲天堂首页| 无码又爽又刺激的高潮视频| 女人18毛片一级毛片在线| 欧美不卡在线视频| 第一页亚洲| 一区二区在线视频免费观看| 无码粉嫩虎白一线天在线观看| 91视频首页| 国产综合精品日本亚洲777| 免费在线不卡视频| 72种姿势欧美久久久大黄蕉| 又爽又大又光又色的午夜视频| 老司机久久精品视频| 亚洲中文字幕23页在线| 国产精品天干天干在线观看| 欧美一级高清免费a| 婷婷色婷婷| 国产成人艳妇AA视频在线| 最新国语自产精品视频在| 在线看片国产| 亚洲视频色图| 国产在线日本| 精品视频福利| 天堂久久久久久中文字幕| 国产精品永久免费嫩草研究院 | 免费欧美一级| 54pao国产成人免费视频|