999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CART 決策樹的企業通訊活躍度分析

2020-04-13 01:25:52◆林
網絡安全技術與應用 2020年4期
關鍵詞:特征模型企業

◆林 濤

(廣東省電信規劃設計院有限公司 廣東 510630)

電信企業為穩定和提升政企客戶的通訊業務收入和市場份額,需要有效跟蹤評估企業通訊活躍度,這通常是從企業通訊行為數據中挖掘。工商局在冊企業往往缺乏完善的通訊行為數據,僅依靠企業經營數據分析通訊活躍度是一個難題。

本文根據現有企業通訊與經營數據,通過統計分析和熵權法進行特征工程[1],構造企業通訊活躍度指標,結合經營數據訓練CART 決策樹[2]模型,挖掘企業經營數據與通訊活躍度之間的隱含關系。

1 研究方法

為充分挖掘企業經營數據與通訊活躍度之間的關系,需要設計有效的建模流程,本文采用客觀的熵權法篩選重要通訊特征,并利用能夠獲取判別規則的CART 決策樹模型進行建模。

1.1 建模流程

本文首先對前后兩年企業通訊和經營數據進行數據清洗,接著利用統計學方法檢驗兩年通訊數據差值變化差異是否具有顯著統計學意義,經過特征篩選,構造新特征,然后使用熵權法選擇重要通訊特征,結合業務邏輯設計通訊活躍度指標,最后結合企業經營數據訓練CART 決策樹模型。

1.2 熵權法

熵權法是一種客觀的特征重要性評估方法,其僅依賴于特征數據所包含的信息量,利用信息熵對信息的量化,可以計算出每個特征的權重,主要遵循信息熵值越小,信息量越多,特征權重越大;信息熵值越大,信息量越少,特征權重越小的原則。熵權法的計算步驟如下:

設數據集包含n個特征和m個樣本。

Step1:對于每個特征j,其中的每個數據xij計算其貢獻度pij;

Step2:計算特征j的信息熵Ej,其中k

Step3:計算特征j的權重wj;

1.3 CART 決策樹算法

CART 決策樹算法是一種二叉樹模型算法,其具有運行效率更高,支持離散型和連續型數據,能夠返回可解釋的分類規則等特點,因此應用范圍非常廣泛。其模型生成是一個遞歸過程,在每一步中首先計算特征中,每個特征值所劃分的兩個數據子集的基尼系數,即計算

其中Si表示第i個數據子集,Pk代表第k個類別的頻率,然后再計算出特征按該特征值劃分數據集的基尼系數,即 其中A表示特征,a表示特征值,ni表示第i個數據子集Si

中的樣本數目,N表示數據集S的樣本數目,接著找出使基尼系數最小的特征及其特征值作為樹模型的分支節點,如此遞歸求解,直至滿足算法終止條件。

2 數據獲取

本文主要針對前后兩年企業通訊和經營數據進行分析,分別包括通訊需求、行為、消費、信用等方面通訊特征,以及企業屬性、經營狀態、經營活動等方面企業經營特征。

3 數據預處理

3.1 數據清洗

原始數據經過極端值、缺失值、業務異常值等處理,以及統計數據分布篩除不可用特征后,得到能夠進一步分析的有效數據。

3.2 特征選擇與構造

針對前后兩年企業通訊數據,利用秩和檢驗方法檢驗每個通訊特征的兩年差值數據是否具有統計學意義。經分析后得到,大部分通訊特征的差值變化顯著,剔除不顯著特征后,以剩余特征的兩年差值作為新通訊特征,接著利用熵權法計算出每個新通訊特征的權重并排序,最終從數據分布特點和業務規則兩方面,篩選出企業固話差值與寬帶差值兩個重要特征,即:

根據上述兩個重要特征,按如下規則構造出企業通訊活躍度指標:

4 模型訓練

通過上述預處理,將企業通訊數據信息利用企業通訊活躍度指標來表征。本文以通訊活躍度作為數據標簽,結合清洗后的企業經營數據形成數據集,并劃分為訓練集、驗證集和測試集,其中按前二者占80%、后者占20%進行隨機均勻抽樣,訓練時利用十折交叉驗證尋找最優超參數。

按上述訓練方案,CART 決策樹模型學習了企業經營數據與通訊活躍度之間的內在關聯關系。利用所訓練的模型不但能夠僅靠企業經營數據判別出企業通訊活躍度,同時決策樹模型還可以返回明確的判別規則,突出重要的企業經營特征。

5 模型評估

本文將現有全量企業數據按地域劃分為珠三角在冊企業、非珠三角在冊企業等2 個數據集,分別利用當年企業經營數據與相應的通訊活躍度組成的數據集訓練模型,并利用召回率、精確率、準確率等評價指標在測試集上對模型進行評估,具體評估結果如表1 所示。

表1 模型評估結果

由評估結果可知,本文提出的企業通訊活躍度分析模型具備良好的判別能力,并且在召回率上可以達到95%以上,其中模型判別企業通訊活躍度的準確率基本能達到90%以上,表明模型能夠根據企業經營數據判別出通訊活躍度。

6 結束語

本文通過秩和檢驗和熵權法篩選出重要通訊特征,并以此構造出企業通訊活躍度指標,結合企業經營數據訓練CART 決策樹模型。根據實際數據檢驗模型,本文模型在各項評價指標上都能達到90%以上,表明本文提出的建模方法能夠有效判別企業通訊活躍度。

猜你喜歡
特征模型企業
一半模型
企業
當代水產(2022年5期)2022-06-05 07:55:06
企業
當代水產(2022年3期)2022-04-26 14:27:04
企業
當代水產(2022年2期)2022-04-26 14:25:10
重要模型『一線三等角』
敢為人先的企業——超惠投不動產
云南畫報(2020年9期)2020-10-27 02:03:26
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 青草视频在线观看国产| 热re99久久精品国99热| 日韩精品一区二区三区大桥未久| 精品久久777| 无码视频国产精品一区二区| 日韩欧美国产中文| 2020国产免费久久精品99| 国产一区二区三区在线精品专区| 婷婷六月综合| 日本三级精品| 亚洲av无码牛牛影视在线二区| 国产精品2| 亚洲日韩欧美在线观看| 色网在线视频| 国产福利拍拍拍| 亚洲欧美日韩久久精品| 蜜臀AV在线播放| 国产va欧美va在线观看| 亚洲人成网18禁| 婷婷伊人五月| 亚洲精品国产日韩无码AV永久免费网 | 亚洲成aⅴ人片在线影院八| 国产一级毛片网站| 日本道综合一本久久久88| 国产一区二区网站| …亚洲 欧洲 另类 春色| h网站在线播放| 久久免费精品琪琪| AV无码无在线观看免费| 久久人妻xunleige无码| 人妻无码中文字幕一区二区三区| 国产黄色爱视频| 又爽又大又光又色的午夜视频| 456亚洲人成高清在线| 色吊丝av中文字幕| 波多野结衣视频一区二区| 91蜜芽尤物福利在线观看| 欧美一区二区啪啪| 国产农村妇女精品一二区| 99re在线观看视频| 乱码国产乱码精品精在线播放| 91丝袜美腿高跟国产极品老师| 日韩天堂在线观看| 欧美午夜视频| 99re66精品视频在线观看| 亚洲精品免费网站| 亚洲国产91人成在线| 色婷婷啪啪| 国产在线98福利播放视频免费| 国产成人亚洲综合A∨在线播放| 美女无遮挡免费视频网站| 国产一级特黄aa级特黄裸毛片| 欧美中文字幕在线二区| 国内老司机精品视频在线播出| 成人韩免费网站| 亚洲欧美激情小说另类| 国产视频 第一页| 黄色在线不卡| 最新国产午夜精品视频成人| 国产一级小视频| 无码一区二区波多野结衣播放搜索| JIZZ亚洲国产| 黄色国产在线| 手机成人午夜在线视频| 日韩精品毛片| 任我操在线视频| 99re在线观看视频| 国产精品久久久久婷婷五月| 欧美精品啪啪一区二区三区| 内射人妻无码色AV天堂| 欧美第一页在线| 久久国产精品国产自线拍| 2021天堂在线亚洲精品专区| 91亚洲免费| 亚洲综合久久成人AV| 中文字幕 欧美日韩| 青青草a国产免费观看| 国产天天色| 日韩一区精品视频一区二区| 亚洲AV永久无码精品古装片| 国产麻豆va精品视频| 国产精品13页|