999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LightGBM的智慧家庭產品潛在客戶挖掘應用及Spark ML算法實踐

2020-06-24 10:54:05段智華
錦繡·中旬刊 2020年3期
關鍵詞:大數據

摘 要:本文對中國電信上海公司基于大數據的智慧產品潛在客戶挖掘內部競賽的案例進行了研究。基于大數據工作臺的海量數據,利用機器學習、大數據分析技術,采用LightGBM算法,PySpark機器學習算法,預測客戶是否購買全屋wifi產品,為客戶精準營銷注入人工智能、大數據能力,促進公司智慧產品的發展。

關鍵詞:LightGBM模型;Spark;大數據;客戶挖掘

1 背景

本論文是中國電信上海公司基于大數據的智慧產品潛在客戶挖掘內部競賽的案例,基于客戶標識及客戶話單數據,預測客戶是否購買中國電信全屋wifi產品,1表示購買,0表示不買。

案例由上海公司大數據工作臺提供競賽數據,此次數據集的難點在于:1.訓練數據量大:包括客戶標識數據(約250萬條記錄,129個字段)、客戶話單數據(約13億條記錄,86個字段)、訓練集(8萬條記錄)、測試集(5萬條記錄)。2.數據稀疏性:一些特征沒有取值,部分關聯記錄數較少。3.一些特征與訓練集具有強相關性,導致出現過擬合。

本文對LightGBM算法進行了應用,同時使用PySpark機器學習算法對客戶是否購買全屋wifi產品進行預測,提交最優的預測結果。研究的主要內容如下:機器學習數據預處理、數據探索、相關性分析、LightGBM模型分析、特征衍生、模型優化;使用PySpark研究基于分布式集群的樸素貝葉斯、決策樹、隨機森林、邏輯回歸等算法模型。

2 機器學習LightGBM算法應用

LightGBM是美國微軟公司開源提供的一個基于樹學習算法的梯度增強框架。LightGBM具有以下優點:訓練速度快,效率高、內存使用率低、預測較精確、支持并行和GPU學習、能夠處理大規模數據。LightGBM被廣泛地應用于Kaggle各類機器學習競賽中。

本案例采用競賽中常用的數據預處理、數據探索、相關性分析、模型分析、特征衍生、模型優化等特征工程技術,使用LightGBM算法作為基線模型代碼實現全屋wifi產品預測,對機器學習經典的二分類問題進行實踐探索。

2.1 數據預處理

客戶標識數據、客戶話單數據、訓練集、測試集各數據集放置于內部大數據工作臺,基于Hadoop大數據平臺存放數據,采用Hive工具進行統計分析。如直接將客戶標識數據、客戶話單數據、訓練集三張表關聯,由于數據量較大,MapReduce運行時可能會卡住,因此,可以先將客戶標識表按設備號聚合以后導入新建的客戶標識表(約13萬條記錄),將客戶話單數據按設備號聚合導入新建的客戶話單數據表(約2300萬條記錄),然后再分別與訓練集、測試集進行左關聯,導出數據保存為新的訓練集(8萬條記錄)、測試集(5萬條記錄)。

2.2 數據探索

關聯以后的新訓練集、測試集包括資產狀態名稱、套餐名稱、銷售策略名稱、上網(興趣)偏好、注智-偏好終端品牌、月均ARPU、客戶副卡數、終端型號、地址客戶月均ARPU、入網時間(本省)、應用名稱、應用訪問次數、訪問URL信息等字段,通過可視化、計算統計值探索訓練集、測試集的整體分布信息,查找數據記錄可能的異常值,進一步熟悉業務數據。

本案例中對各字段的值進行分布統計;對業務時間進行轉換,從入網時間、客戶生日、協議約束到期日期、開通日期時間中抽取年、月、日、周、季度等信息,對客戶的應用訪問次數進行求和、求平均、異常值處理;分析數據集每一個字段的類型(字符串類型、數字類型);指定類別特征,對于是否購買wifi產品,不同類別分布差異的可視化;采用均值,極值和標準差等相關描述統計指標分析;進行EDA可視化數據探索,對于地址客戶月均ARPU這個特征,基于數據集的樣本量,訓練集與測試集分布差異不大。

2.3 相關性分析

本案例數據集特征數量較大,相關性分析是基于全量數據研究兩個或兩個以上特征之間的相關關系,如果兩個特征存在較多缺失值,那么計算的相關性偏差很大。因此,先進行空值搜索,統計具有相同空值行記錄數的字段組,將缺失值完全相同的特征放在一組,觀察數據分布;然后,使用相關性熱力圖進行可視化,協議約束日期字段抽取的“年、月、日、星期幾、一年的某天、一年的某周、季度”字段信息具有相同的缺失記錄,將相關性高(r>0.97)的特征分為一組,按0.97閾值卡時間特征,然后選擇每一組中具有較多不同數據值的列來代替這一組,剔除冗余的列,這組選出的特征為“年、日、星期幾、一年的某天、一年的某周”。依此類推,計算各組特征的相關性,獲取需要的特征集。

2.4 構建LightGBM基線模型及模型分析

根據相關性計算,從訓練集及測試集選擇需要的特征列,設置LightGBM超參數,構建LightGBM基線模型進行訓練及預測,預測結果發現基線模型出現過擬合現象。過擬合是因為訓練集、測試集數據分布的差異性,本案例使用對抗法驗證數據集的分布偏移,將訓練集的標簽設置為1,測試集的標簽設置為0,訓練一個LightGBM模型,通過AUC判斷訓練集、測試集數據分布的差異程度,并且通過特征重要性的計算,判斷哪些特征帶來了較大的特征偏移。發現DEV_BUREAU_NAME(區局名稱)特征與訓練集具有強關聯性,刪掉區局名稱特性,使用LightGBM基線模型進行交叉驗證,預測評分提升較顯著。

使用對抗性驗證法能找到過擬合的部分特征,但是將重要性特征榜單排名靠前的特征逐一去掉以后,發現預測評估分數又大大下降,因此不能完全依賴于對抗性驗證法,案例同時采用Kris驗證法對每一個特征單獨進行交叉驗證,如果這個特征對訓練集AUC貢獻較小,對驗證集AUC貢獻度小于0.5,就去掉這個特征,在此基礎上繼續做特征重要性分析,微調選擇的特征集,預測評分又有所提升。

2.5? 特征衍生與模型優化

特征衍生是基于現有的特征進行組合,生成新的具有含義的特征。本案例中選擇重要類別的特征,如月均ARPU、地址客戶資產結構、地址客戶月均ARPU等特征,將各重要類別進行值分布編碼,以及重要類別進行兩兩合并,兩個類別組成一個新特征,或者三三合并,將三個類別特征組成一個新特征,訓練LightGBM模型進行預測,評分上升千3左右。

在此基礎上進行模型優化,根據特征重要性進行特征交叉,將類別與連續值之間進行GroupBy聚合操作,又新產生180個新特征,再次按照之前的特征選擇步驟,選擇需要的特征,然后訓練LightGBM模型及預測,預測評分上升千5左右。

3 基于分布式PySpark的機器學習算法

Spark中提供了Ml、MLlib機器學習庫,使分布式機器學習變得可擴展和容易。在較高層次上,Spark提供了以下工具,ML算法:常見的學習算法,如分類、回歸、聚類和協作過濾;特征化:特征提取、轉換、降維和選擇;管道:構建、評估和調整ML管道的工具;持久性:保存和加載算法、模型和管道;實用程序:線性代數、統計學、數據處理等。

本案例基于Spark大數據集群進行分布式機器學習實戰,從PySpark機器學習特征工程庫 pyspark.ml.feature導入HashingTF、IDF,其中詞頻TF代表一個詞語出現的次數,逆詞頻IDF代表一個詞語的重要程度,利用TF/IDF工具對客戶訪問應用名稱、客戶訪問的主機URL構建文本特征,采用Pyspark的VectorAssembler工具將文本特征、數值特征、類別特征、時間特征集成為特征向量,使用Pyspark機器學習模型(樸素貝葉斯、決策樹、隨機森林、邏輯回歸)進行訓練與預測,預測客戶是否購買全屋wifi產品。

4 模型預測結果

構建LightGBM、樸素貝葉斯、決策樹、隨機森林、邏輯回歸模型,分別對測試集按指定的設備順序生成預測結果,提交官網平臺進行評分,此次競賽采用F1作為評分標準,各模型評分如下:

表1 各模型評分

算法模型 評分

LightGBM模型 350559.4

樸素貝葉斯 329393.22

決策樹 318355.36

隨機森林 343471.21

邏輯回歸 339417.16

OneVsRest 339417.16

5 結論及展望

本文對基于大數據的智慧產品潛在客戶挖掘內部競賽的案例進行了研究,對數據集的文本特征向量進行了探索。在未來,自然語言處理NLP將成為人工智能一個重要的發展領域,對自然語言處理的研究將充滿機遇和挑戰。

6 致謝

感謝中國電信上海公司組織“翼碼當先”軟件人才競賽活動,基于內部大數據工作臺提供海量數據,利用大數據工作臺的工具和能力進行數據預處理和建模開發,各參賽者基于在線編程環境順利完成比賽。

參考文獻

[1]《Spark大數據商業實戰三部曲》第二版:清華大學出版社,王家林、段智華

[2]王家林 五節課內從零起步(無需數學和Python基礎)編碼實現AI人工智能框架電子書

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: av无码一区二区三区在线| 色精品视频| 国产亚洲视频中文字幕视频| 无码精品福利一区二区三区| 四虎成人在线视频| 欧美中文字幕无线码视频| 欧美日本在线观看| 午夜福利在线观看入口| 2022精品国偷自产免费观看| 日韩精品欧美国产在线| 久久久久久国产精品mv| 亚洲区第一页| 高清色本在线www| 亚洲清纯自偷自拍另类专区| 国产精品成人免费综合| 国产小视频免费观看| 中国美女**毛片录像在线| 国产自视频| 国产在线精彩视频论坛| 精品一区国产精品| 中文字幕伦视频| 国产麻豆精品在线观看| 国产精品亚洲一区二区三区z| 国产av色站网站| 亚洲欧美综合在线观看| 久久人人97超碰人人澡爱香蕉| 91亚洲免费| 免费高清毛片| 99热这里只有精品免费| 亚洲成a人片77777在线播放| 国产日韩欧美中文| 中美日韩在线网免费毛片视频| 伊人无码视屏| 高清欧美性猛交XXXX黑人猛交| 国产爽爽视频| 99ri国产在线| 五月综合色婷婷| 免费精品一区二区h| 亚洲国产精品一区二区第一页免 | 成人看片欧美一区二区| 日本精品视频一区二区| 色哟哟国产精品| 日韩欧美在线观看| 在线观看无码a∨| 日韩国产黄色网站| 欧美亚洲欧美区| 午夜激情福利视频| 久久综合色播五月男人的天堂| 日韩无码真实干出血视频| 亚洲va精品中文字幕| 国产精品手机在线播放| 四虎国产永久在线观看| 久久精品无码一区二区国产区| 国产午夜福利亚洲第一| 中文字幕中文字字幕码一二区| 成人va亚洲va欧美天堂| 热热久久狠狠偷偷色男同| 精品福利网| 欧美精品另类| 不卡视频国产| 在线播放真实国产乱子伦| 99国产在线视频| 国产在线观看人成激情视频| 国产啪在线91| 综合人妻久久一区二区精品 | 久久久久无码国产精品不卡| 国产成人麻豆精品| 成人在线第一页| 真实国产乱子伦高清| 国产成人禁片在线观看| 99久久精品无码专区免费| 免费高清毛片| 免费A∨中文乱码专区| 67194在线午夜亚洲| 91丝袜在线观看| 亚洲综合九九| 国产一级妓女av网站| 精品欧美日韩国产日漫一区不卡| 国产精品永久久久久| 一区二区三区成人| 欧美一区国产| 国产在线精品美女观看|