999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

精準3升4G換機模型

2019-04-26 05:02:32王振陳天池
電子技術與軟件工程 2019年4期
關鍵詞:特征優化用戶

文/王振 陳天池

1 引言

隨著通信技術的發展,4G業務的拓展,改善了未來移動用戶質態,然而現在非4G用戶升4G的速率趨于平緩,接近飽和,從而挖掘潛在非4G換機用戶具有重要意義,能夠實現整體市場的4G終端的遷轉、滲透。如何細化非4G用戶升4G場景,利用大數據手段精準挖掘潛在非4G目標換機用戶,拓展4G業務,同時統籌各業務場景對非4G用戶、4G用戶價值的發展變化,實現非4G潛在目標用戶換機的精準挖掘。

2 算法說明

此文基于新業務場景、及模型算法優缺點等,利用隨機森林算法對模型算法進行優化。Random Forest(隨機森林)是基于眾多決策樹、構建集成的Bagging集成學習器,同時在訓練過程中引入隨機特征,改進了決策樹算法,即將多個決策樹合并在一起,且分別依賴獨立的抽取樣本集,每棵樹具有相同分布。特征選擇采用隨機方法分裂每個節點,比較不同情況下誤差。通過檢測內在估計誤差、分類能力,決定特征的選取數目。隨機產生大量決策樹后,測試樣品通過每棵樹的分類結果經統計后選擇最可能的分類結果,包括:

(1)隨機樣本數據選擇(放回抽樣)。

(2)隨機特征選擇。

(3)構建決策樹。

(4)隨機森林投票(平均)。

其中樣本數據的隨機選擇、待選樣本特征的選擇更能體現其優勢,前者包括放回抽樣,構建子數據集;根據子數據集、構建子決策樹、輸出子結果,通過新輸入數據對子決策樹的判斷結果投票,獲得整個輸出結果。如圖 1所示。

圖1:隨機森林算法流程圖

圖2:模型流程圖

其中隨機特征選擇即在樹的構建中,首先從樣本集特征中隨機選擇部分特征,然后再從此子集中選擇最優特征用于劃分,此隨機性導致隨機森林的偏差會有稍微的增加(相比于單棵樹),提升了算法多樣性,但由于隨機森林的平均特性,使得方差減小,模型具有更好效果。隨機森林通常基于Gini準則進行分裂節點純度度量,過程如下:

(1)假設原始訓練集為N,用bootstrap法有放回隨機抽取k個新樣本集,構建k棵分類樹,每次未被抽到的樣本組成k個袋外數據。

(2)設有m個變量,則每一棵樹的每個節點處隨機抽取n個變量,然后在n中選取一個最具分類能力的變量,閾值通過檢查每一個分類點確定。

(3)每棵樹最大限度地生長, 不做任何修剪。

將生成的多棵分類樹組成隨機森林,用隨機森林分類器對新的數據進行判別、分類,分類結果按投票多少而定,達到預測、分類目的。相比決策樹算法,它是決策樹算法的升級、集成,優點如下:

(1)可以并行計算、效率高;

(2)既可處理離散型數據,也可處理連續型數據,無需規范化;

(3)不易產生過擬合,抗噪能力好。

3 模型流程

3.1 業務理解

目前存量3G終端升級為4G時,往往需進行相關終端、套餐等多種升級,不同的產品升級組合對于用戶的價值變化都會產生不同影響,需統籌考慮、加以引導,有效提升4G業務量,機卡匹配率,達到如下期望目標:

(1)準確定位3G升4G目標用戶。

(2)估算潛在換機的目標用戶數,把握市場發展動態。

(3)完成精準換機建模思路、模型設計開發。

利用已有3G升4G換機模型,充分考慮前模型的優缺點,且結合最新的業務場景,優化、豐富數據源特征標簽、精細數據預處理、優化模型算法,提升模型性能。整個優化后模型框架包括業務理解、模型輸入、模型算法、模型輸出及模型應用等部分。如圖2所示。

3.2 模型參數輸入

建模中,如何獲取高質量數據源,對提高模型質量、預測效果有重要影響,決定模型好壞,因此在選取數據源特征標簽時,要充分考慮所選特征標簽數據對模型的貢獻度。

已有模型選取特征標簽時,僅僅考慮用戶所用終端的一些基本終端信息、所選套餐信息、相關補貼信息等,數據源特征標簽有待進一步優化、豐富。隨著終端設備性能的提高,使用方式變得多樣性,產生一些新的特征標簽來刻畫用戶的使用行為。首先現在用戶對于手機終端的使用不僅僅局限于傳統的通話、語音、短信等,更多是通過它,滿足一些興趣偏好,例如視頻、直播、游戲、購物等互聯網偏好;其次人們在考慮更換手機終端時,通常基于性能已不能很好滿足自己的使用需求了,包括存儲性能、內存性能等硬件指標;最后隨著用戶的換機頻率、更新頻率加快,需考慮終端的使用周期,即終端使用天數,終端的平均使用天數等。基于上述考慮,需針對已有數據源特征標簽進行完善、優化利用優化的特征標簽數據,作為模型輸入。由于數據源獲取中,常常含有噪聲、不完整,甚至不一致的數據,需進行相關預處理,提高數據質量,主要包括:數據變量轉換、缺失值處理、壞數據處理、數據歸一化等數據預處理后,進入整個模型的核心,即算法部分。綜合考慮,我們采用上面已詳細介紹的隨機森林算法。數據預處理后,并不是所有的特征標簽字段都作為模型訓練的輸入,將利用隨機森林特征重要度對數據源眾多特征標簽進行關聯性、重要性排序,選取重要性靠前、貢獻度大的特征標簽作為模型輸入,繼而提高模型訓練的效果。

以概率的形式給出,例如原始價值量、視頻偏好、購物偏好、總流量對模型的貢獻度較高,均超過10%,其次游戲偏好、套餐流量贈送量均超過5%,從而選取重要性靠前的若干Top特征標簽作為模型輸入,少用或舍棄重要性靠后的特征標簽。

3.3 模型算法

基于現有各分類算法的特點,采用隨機森林算法作為模型算法、進行目標用戶預測,整個隨機森林算法的偽代碼如下所示:

(1) For b=1 to B:

(a) Draw a bootstrap sample Z*of size N from the training data.

(b) Grow a random_forest tree Tbto the bootstrapped data by cursively repeating the following steps for each terminal node of the tree, until the minimum node size nminis reached.

i. Select m variable at random from the pvariables.

ii. Pick the best variable/ split-point among the m

iii. Split the node into two daughter nodes.

(2) Output the ensemble of trees

To make a prediction at a new point x:

整個過程包括數據選擇、模型訓練、模型驗證、模型測試、模型調優等部分,采用沙箱模式,整個算法及常見算法包已封裝,重點關注于數據源、特征標簽選取、模型參數調優等,其中這里三個主要參數需調優:

(1)結點規模:隨機森林不像決策樹,每一棵樹葉結點所包含的觀察樣本數量可能較少,即生成樹時,盡可能保持小偏差。

(2)樹的數量:根據實踐,往往根據實際情況,選擇相適應的樹的規模。

(3)預測器采樣數:一般來說,如果我們一共有D個預測器,那么我們可以在回歸任務中使用D/3個預測器數作為采樣數,在分類任務中使用D^(1/2)個預測器作為抽樣。

3.4 模型評價

模型訓練、固化完畢,如何評價模型性能,現有一系列模型評價指標對其進行評判,包括準確率、召回率、F1-Score值,平滑曲線、混淆矩陣等。所謂混淆矩陣即用矩陣中真實的與預測的因變量1的變化,來直觀觀察模型的質量。通常以關注類為正類,其他類為負類,分類器在測試集上進行正確與否的預測,4種情況總數分別記作:Tp—將正類預測為正類、Fn—將正類預測為負類、Fp—將負類預測為正類、Tn—將負類預測為負類。

從而可得出模型另外的一系列評價指標,準確率p、召回率R、F1-Score值分別定義如下:

下面為特征標簽優化前后,模型混淆矩陣的優劣程度對比,從而得出特征標簽、算法優化后模型的準確率、召回率、F1值分別為80%、26%、19.7%,具有明顯提高。

由于正負樣本比例問題、模型參數的優化等綜合考慮,我們采用正負樣本比例1:5的進行模型固化,全量預測4月3G用戶在未來5、6、7三個月換機情況,818076萬總量目標用戶7月換機情況,如下表3.5所示,預測的換機目標用戶數為13220,進一步查看8月真實3G換4G成功的用戶為2258,真實換機成功率為17%左右,模型優化明顯。

相比已有模型,模型質量、效果有所提高,但也存在著不足,具有進一步提升空間,將來將基于下面內容對模型進一步優化:

(1)目前特征標簽僅基于終端基本信息、互聯網偏好、補貼基本信息,套餐使用情況等方面進行優化,尚有不足,后期可以基于時間跨度等方面構造新的特征標簽。

(2)數據源正負樣本比例近1:6.3,雖采用了采樣方式來規避樣本不均衡問題,但也存在諸多弊端,如何平衡正負樣本比例,是后期優化的一個方向。

(3)此次模型采用了隨機森林算法,后期可以考慮算法融合、或引入新算法,對模型進一步優化。

4 總結

綜上所述,分析已有模型的優劣,進行相應處理,包括數據源特征標簽優化、數據源預處理、模型算法的選擇、模型參數優化等方面,提升模型效果,提高目標用戶換機成功率。此過程中,我們通過大數據、數據挖掘手段精準挖掘潛在的非4G換機目標用戶,并分析潛在目標用戶的終端偏好、渠道觸點偏好、終端信息偏好、互聯網興趣偏好、套餐業務偏好等,針對性開展終端推介和渠道引導,指導用戶換機、提升潛在目標用戶換機成功率,拓展業務,達到智慧營銷目的。

猜你喜歡
特征優化用戶
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 精品福利国产| 国产午夜人做人免费视频| 国产成人成人一区二区| 欧洲日本亚洲中文字幕| 久草性视频| 欧洲成人在线观看| 亚洲高清中文字幕| 午夜免费视频网站| 996免费视频国产在线播放| 97青青青国产在线播放| 成人亚洲天堂| 鲁鲁鲁爽爽爽在线视频观看| 亚洲精品你懂的| 重口调教一区二区视频| 天天干天天色综合网| 91在线一9|永久视频在线| 亚洲 成人国产| 久久精品亚洲中文字幕乱码| 亚洲成A人V欧美综合天堂| 欧洲高清无码在线| av大片在线无码免费| 亚洲 欧美 中文 AⅤ在线视频| 国产成人凹凸视频在线| 欧美日韩成人| 国产三区二区| 91国内外精品自在线播放| 亚洲黄色片免费看| 亚洲一级毛片在线观播放| 女人爽到高潮免费视频大全| 中文字幕免费在线视频| 亚洲精品欧美重口| 97国产成人无码精品久久久| 无码日韩精品91超碰| 国产日韩av在线播放| 天堂亚洲网| 97国产精品视频人人做人人爱| h网站在线播放| 亚洲日韩在线满18点击进入| 国产成人区在线观看视频| 成人韩免费网站| 色婷婷国产精品视频| 亚洲日本在线免费观看| 午夜国产不卡在线观看视频| 色欲色欲久久综合网| 91精品国产福利| 五月六月伊人狠狠丁香网| 久久亚洲日本不卡一区二区| 久久综合干| 国产日韩欧美中文| 在线看免费无码av天堂的| 毛片网站在线看| 欧美色香蕉| 精品国产中文一级毛片在线看| 久久99蜜桃精品久久久久小说| 亚州AV秘 一区二区三区| 国产毛片一区| 欧美在线视频不卡第一页| 国产福利拍拍拍| 亚洲人成网18禁| 一区二区偷拍美女撒尿视频| 丁香婷婷在线视频| 欧美怡红院视频一区二区三区| 精品国产黑色丝袜高跟鞋| 欧美中文字幕在线视频| 国产成人精彩在线视频50| 麻豆精品国产自产在线| 亚洲综合精品香蕉久久网| 永久免费av网站可以直接看的| julia中文字幕久久亚洲| 天堂成人在线视频| 国产黄色片在线看| 亚洲国产看片基地久久1024| 久久久久久久久久国产精品| 精品视频91| 亚洲无码视频图片| 亚洲一区二区约美女探花 | 国内嫩模私拍精品视频| 亚洲自拍另类| 久久网欧美| 麻豆国产精品| 国产人妖视频一区在线观看| 久久一本日韩精品中文字幕屁孩|