999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據挖掘技術的終端換機預測研究

2022-06-09 01:23:26李京文畢佳佳
關鍵詞:特征用戶信息

李京文, 畢佳佳

(安徽職業技術學院,安徽 合肥 230011)

近年來,隨著生活水平的提升、手機品牌的不斷更新,用戶更換手機的頻率日益頻繁。移動用戶更換手機終端的原因通常有被動換機、常規換機以及潛在換機等。商家要及時抓住潛在換機的用戶,對這部分用戶進行精準營銷,推薦潛在換機用戶喜歡的終端類型,提升用戶的價值,提高營業收入[1]。因此,對潛在換機的用戶進行準確地識別是非常有必要的。

隨著用戶量的增加,傳統的統計分析方法已不足以分析出換機用戶的規律,越來越多的人員開始將大數據挖掘技術應用到終端換機上來,不僅能提高挖掘的效率,還能提高識別的準確率。

本文從用戶基本信息、消費信息、交友圈信息、上網信息等數據中進行挖掘分析,采用決策樹算法C5.0[2],建立了終端換機預測模型,為手機精準營銷提供有效的數據支撐。

1 總體思路

終端換機預測主要是根據移動用戶的消費行為,準確預測出有潛在換機傾向的用戶,將該種用戶清單進行輸出,并進行手機終端的精準營銷。因此,預測模型首先要根據用戶的歷史數據確定目標用戶的類別,即換機用戶和非換機用戶,分別用1和0進行表示。本文將終端換機預測問題轉化成一個二分類模型,通過歷史數據建立終端換機預測模型,將即將要換機的用戶預測出來。

本文的總體思路是先對原始數據進行預處理,包括數據清洗、數據變換、特征選擇等處理,之后將數據集劃分為訓練集和測試集,訓練集采用決策樹算法C5.0建立模型,并通過測試集評估結果對不同的抽樣方法進行了對比,通過不斷迭代優化,輸出最優模型。終端換機預測模型流程圖請見圖1。

圖1 終端換機預測模型的流程圖

2 數據處理

2.1 數據提取

本文中所使用的數據主要提取于某運營商的真實的業務數據。主要抽取用戶的基本信息、基本消費信息、上網信息、手機終端信息等,并進行初步的探索。

用戶的基本信息數據中主要包含了用戶入網時的基本資料,如手機號碼、性別、年齡、網齡等。終端信息主要是指用戶當前所用手機終端的基本信息,如手機像素、內存、歷史終端使用及變更情況、平均終端更換時長等。上網信息主要包含了用戶使用流量、通話次數、出賬話費等信息。數據結構如表1所列,其中最后一個字段“if_hj”是用戶是否換機的標志,也是本文建立終端換機模型的目標列。

表1 終端換機數據信息表

續表1 終端換機數據信息表

2.2 數據清洗

(1)缺失值處理。缺失數據會影響模型的效果,因此在建模之前需要對數據進行探索,查詢出缺失值并進行處理。經探索發現,本文中的數據中只有一個字段net_age(網齡)具有極少量缺失值,由于缺失值比例很小,本文采取了直接刪除法,將net_age字段缺失的記錄進行刪除。

(2) 異常值處理。異常值可能由于人為在輸入系統的時候出現的錯誤,使得數據值不在正常范圍內。在對異常值處理前,先對數據進行異常值檢測,通常使用單變量散點圖或者箱圖實現,把遠離正常范圍的點確定為異常值。

經過分析后,原字段中只有“age”字段具有極少量異常值,范圍為小于10歲和大于120歲的人群。由于有異常值的數據記錄條數極少,因此本文直接刪除這些異常記錄。

2.3 特征工程

(1)特征構造。在數據挖掘的過程中,為了便于提取更有用的信息,挖掘更深層次的模式,提高挖掘結果的精度,需要根據數據中已有的基礎特征構造出延伸特征,加入到現有的特征集合中,組成新的特征集合。

本文根據基礎特征構造了3個新特征,分別是“3個月使用流量均值”“3個月出賬費均值”“3個月通話次數均值”,通過平均值特征更能體現出用戶的行為特點。

(2)數據離散化。在分類算法中,連續屬性過多,或者連續屬性的范圍大、連續性高,在建模時容易產生過擬合現象[3]。過擬合現象即建立的算法模型過于擬合于訓練數據集,在訓練數據集上的準確率極高,而在測試集上的準確率卻很低,無法對未來數據進行正確預測。

本文在探索數據分布后,將所有數據進行離散化處理。離散化規則是查看每個特征字段不同范圍內的換機比例,將換機比例相近的范圍歸為一類,類別統一用數字表示。以“年齡”特征離散化為例,離散化過程為:

步驟1:計算不同年齡范圍的換機占比分布。

其中,hj_percentage為在此年齡范圍內的換機占比;hj_count為在此年齡范圍中的換機人數;total_count為在此年齡范圍內的所有人群。

步驟2:根據換機占比分類并歸類。

根據不同年齡范圍的換機占比,本文將年齡分為6類:16~20歲為第1類,20~35歲為第2類,35~45歲為第3類,45~50歲為第4類,50~60歲為第5類,60歲以上為第6類。

其他特征字段處理方式和年齡字段相同。在離散化過程中,要靈活并多次調整每次查看換機占比的當前字段的范圍,最終讓不同類別下的換機占比差別最大,這樣會大大提高模型的準確性。

2.4 特征選擇

在數據挖掘建模時,一般盡可能選擇完整的數據建立模型,包括特征種類和數值完整度。然而,并不是特征越多建模效果越好。特征的好壞取決于它與目標變量的相關性和與其他變量的冗余度。因此在特征選擇的時候可以“最大相關性最小冗余度”[4]為目標來進行降維。即選取的建模特征,與目標變量相關性大,特征之間相關性小、相互獨立。

本文計算了各個特征與目標變量的相關性及特征之間的冗余度,將相關性較小的一些特征字段刪除。對于冗余性較高的特征之間,保留其中一個特征。經過計算處理之后,對于表1中的原始特征,刪除了“flow_used1”、“flow_used2”、“flow_used3”、“arpu_1”、“arpu_2”、“arpu_3”、“call_times1”、“call_times2”、“call_times3”、“MainCameraPixel”10個特征。最終利用余下的15個特征字段和1個目標變量(if_hj)建立終端換機預測模型。

3 模型建立與評估

3.1 建模方法

在模型算法選擇上,本文選取了一種改進的決策樹算法C5.0進行模型訓練。C5.0是一種高度自動化學習過程的算法,可以實現對決策樹自動剪枝,可應用于大數據集中,是一種效果較好的決策樹算法。

3.2 實驗結果評估與分析

本文提取的某月數據作為訓練集,約300萬條,用下一個月數據作為測試集,約700萬條。選擇C5.0分類算法在訓練集上建立分類模型,然后在測試集上進行預測并計算模型性能。評估參數為查準率和查全率[5]。定義如下:

在數據挖掘中,查準率和查準率的關系是此消彼長的,但是要盡量提升兩者,在其中找到一個平衡。通常采用兩者的調和平均值作為評估整個模型性能的標準。

C5.0決策樹模型性能結果如表2所列,其中正樣本代表換機標簽為1。

表2 C5.0模型驗證結果

從表2中可以看出,C5.0決策樹模型4在潛在換機用戶的查準率和査全率上整體效果比其他模型更好。因此,本文最終采用C5.0決策樹算法,訓練樣本取100萬,正樣本比例取45%建立決策樹分類模型。考慮到換機營銷推薦的廣度,傾向保障查全率高的方式分析,同時盡可能提高查準率,據此生成本次的預測結果集。

4 結語

針對終端換機的精準營銷場景,將大數據算法應用在移動通信數據中,建立終端換機預測模型。本文結合數據特點對數據進行清洗、特征工程、特征選擇,采用C5.0機器學習算法建立預測模型,輸出有潛在換機傾向的用戶清單,為商家對手機終端的精準營銷提供了輔助決策。在以后的優化中,可以添加更全的變量并通過合適的特征選擇后建模,能使模型的查準率和查全率得到很大的提高。

猜你喜歡
特征用戶信息
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲色大成网站www国产| 中国国产A一级毛片| 亚洲swag精品自拍一区| 久热中文字幕在线观看| 国产精品丝袜视频| 伊人欧美在线| 制服丝袜无码每日更新| 自偷自拍三级全三级视频| 国产精品亚洲va在线观看| 精品超清无码视频在线观看| 国产成人1024精品下载| 国产欧美中文字幕| 中文字幕中文字字幕码一二区| 97在线视频免费观看| 久久这里只有精品免费| 一级毛片高清| 亚洲高清在线播放| 欧美一区日韩一区中文字幕页| 精品久久香蕉国产线看观看gif| 国产精品成| 国产91透明丝袜美腿在线| 成人在线观看一区| AV在线天堂进入| 欧美一区福利| 国禁国产you女视频网站| 在线网站18禁| 国产在线欧美| 国产呦精品一区二区三区下载| 日韩福利视频导航| 欧美亚洲综合免费精品高清在线观看 | 国产精品成人免费视频99| 亚洲一级色| 亚洲一区二区精品无码久久久| 992tv国产人成在线观看| 国产精品99久久久久久董美香| 2021国产乱人伦在线播放| 国产成人综合久久精品下载| 亚洲日本中文字幕乱码中文| 美女毛片在线| 亚洲第一区在线| 午夜一区二区三区| 特级欧美视频aaaaaa| 欧美va亚洲va香蕉在线| 国产欧美在线| 亚洲中文字幕无码mv| 91色在线视频| 国产精品午夜电影| 久久99蜜桃精品久久久久小说| 一级成人a做片免费| 强乱中文字幕在线播放不卡| 天天操天天噜| 免费人成网站在线观看欧美| 亚洲va视频| 国产剧情伊人| 久久6免费视频| 色丁丁毛片在线观看| 香蕉网久久| 亚洲69视频| 久久国产亚洲欧美日韩精品| 久久先锋资源| 永久成人无码激情视频免费| 日韩精品少妇无码受不了| 亚洲无限乱码一二三四区| 日本黄色不卡视频| 国产无码精品在线播放| 亚洲香蕉伊综合在人在线| 亚洲精品无码AⅤ片青青在线观看| 婷婷六月天激情| 欧美日韩中文国产| 国产成人免费视频精品一区二区| 欧美三级日韩三级| 伊人久久久大香线蕉综合直播| 久久公开视频| 有专无码视频| 国产91视频观看| 亚洲综合在线网| 成人免费网站久久久| 乱码国产乱码精品精在线播放| 99热这里只有精品国产99| 热思思久久免费视频| 国产激情在线视频| 国产成人综合欧美精品久久|