精準3升4G換機模型

2019-04-26 05:02:32王振陳天池

電子技術與軟件工程 2019年4期

文/王振陳天池

1 引言

隨著通信技術的發展，4G業務的拓展，改善了未來移動用戶質態，然而現在非4G用戶升4G的速率趨于平緩，接近飽和，從而挖掘潛在非4G換機用戶具有重要意義，能夠實現整體市場的4G終端的遷轉、滲透。如何細化非4G用戶升4G場景，利用大數據手段精準挖掘潛在非4G目標換機用戶，拓展4G業務，同時統籌各業務場景對非4G用戶、4G用戶價值的發展變化，實現非4G潛在目標用戶換機的精準挖掘。

2 算法說明

此文基于新業務場景、及模型算法優缺點等，利用隨機森林算法對模型算法進行優化。Random Forest(隨機森林)是基于眾多決策樹、構建集成的Bagging集成學習器，同時在訓練過程中引入隨機特征,改進了決策樹算法，即將多個決策樹合并在一起，且分別依賴獨立的抽取樣本集，每棵樹具有相同分布。特征選擇采用隨機方法分裂每個節點，比較不同情況下誤差。通過檢測內在估計誤差、分類能力，決定特征的選取數目。隨機產生大量決策樹后，測試樣品通過每棵樹的分類結果經統計后選擇最可能的分類結果，包括：

（1）隨機樣本數據選擇（放回抽樣）。

（2）隨機特征選擇。

（3）構建決策樹。

（4）隨機森林投票（平均）。

其中樣本數據的隨機選擇、待選樣本特征的選擇更能體現其優勢，前者包括放回抽樣，構建子數據集；根據子數據集、構建子決策樹、輸出子結果，通過新輸入數據對子決策樹的判斷結果投票，獲得整個輸出結果。如圖 1所示。

圖1：隨機森林算法流程圖

圖2：模型流程圖

其中隨機特征選擇即在樹的構建中，首先從樣本集特征中隨機選擇部分特征，然后再從此子集中選擇最優特征用于劃分，此隨機性導致隨機森林的偏差會有稍微的增加（相比于單棵樹），提升了算法多樣性，但由于隨機森林的平均特性，使得方差減小，模型具有更好效果。隨機森林通常基于Gini準則進行分裂節點純度度量，過程如下：

（1）假設原始訓練集為N，用bootstrap法有放回隨機抽取k個新樣本集，構建k棵分類樹，每次未被抽到的樣本組成k個袋外數據。

（2）設有m個變量，則每一棵樹的每個節點處隨機抽取n個變量，然后在n中選取一個最具分類能力的變量，閾值通過檢查每一個分類點確定。

（3）每棵樹最大限度地生長, 不做任何修剪。

將生成的多棵分類樹組成隨機森林，用隨機森林分類器對新的數據進行判別、分類，分類結果按投票多少而定，達到預測、分類目的。相比決策樹算法，它是決策樹算法的升級、集成，優點如下：

（1）可以并行計算、效率高；

（2）既可處理離散型數據，也可處理連續型數據，無需規范化；

（3）不易產生過擬合，抗噪能力好。

3 模型流程

3.1 業務理解

目前存量3G終端升級為4G時，往往需進行相關終端、套餐等多種升級,不同的產品升級組合對于用戶的價值變化都會產生不同影響，需統籌考慮、加以引導，有效提升4G業務量，機卡匹配率，達到如下期望目標：

（1）準確定位3G升4G目標用戶。

（2）估算潛在換機的目標用戶數，把握市場發展動態。

（3）完成精準換機建模思路、模型設計開發。

利用已有3G升4G換機模型，充分考慮前模型的優缺點，且結合最新的業務場景，優化、豐富數據源特征標簽、精細數據預處理、優化模型算法，提升模型性能。整個優化后模型框架包括業務理解、模型輸入、模型算法、模型輸出及模型應用等部分。如圖2所示。

3.2 模型參數輸入

建模中，如何獲取高質量數據源，對提高模型質量、預測效果有重要影響，決定模型好壞，因此在選取數據源特征標簽時，要充分考慮所選特征標簽數據對模型的貢獻度。

已有模型選取特征標簽時，僅僅考慮用戶所用終端的一些基本終端信息、所選套餐信息、相關補貼信息等，數據源特征標簽有待進一步優化、豐富。隨著終端設備性能的提高，使用方式變得多樣性，產生一些新的特征標簽來刻畫用戶的使用行為。首先現在用戶對于手機終端的使用不僅僅局限于傳統的通話、語音、短信等，更多是通過它，滿足一些興趣偏好，例如視頻、直播、游戲、購物等互聯網偏好；其次人們在考慮更換手機終端時，通常基于性能已不能很好滿足自己的使用需求了，包括存儲性能、內存性能等硬件指標；最后隨著用戶的換機頻率、更新頻率加快，需考慮終端的使用周期，即終端使用天數，終端的平均使用天數等。基于上述考慮，需針對已有數據源特征標簽進行完善、優化利用優化的特征標簽數據，作為模型輸入。由于數據源獲取中，常常含有噪聲、不完整，甚至不一致的數據，需進行相關預處理，提高數據質量，主要包括：數據變量轉換、缺失值處理、壞數據處理、數據歸一化等數據預處理后，進入整個模型的核心，即算法部分。綜合考慮，我們采用上面已詳細介紹的隨機森林算法。數據預處理后，并不是所有的特征標簽字段都作為模型訓練的輸入，將利用隨機森林特征重要度對數據源眾多特征標簽進行關聯性、重要性排序，選取重要性靠前、貢獻度大的特征標簽作為模型輸入，繼而提高模型訓練的效果。

以概率的形式給出，例如原始價值量、視頻偏好、購物偏好、總流量對模型的貢獻度較高，均超過10%，其次游戲偏好、套餐流量贈送量均超過5%，從而選取重要性靠前的若干Top特征標簽作為模型輸入，少用或舍棄重要性靠后的特征標簽。

3.3 模型算法

基于現有各分類算法的特點，采用隨機森林算法作為模型算法、進行目標用戶預測，整個隨機森林算法的偽代碼如下所示：

(1) For b=1 to B：

(a) Draw a bootstrap sample Z*of size N from the training data.

(b) Grow a random_forest tree Tbto the bootstrapped data by cursively repeating the following steps for each terminal node of the tree, until the minimum node size nminis reached.

i. Select m variable at random from the pvariables.

ii. Pick the best variable/ split-point among the m

iii. Split the node into two daughter nodes.

(2) Output the ensemble of trees

To make a prediction at a new point x:

整個過程包括數據選擇、模型訓練、模型驗證、模型測試、模型調優等部分，采用沙箱模式，整個算法及常見算法包已封裝，重點關注于數據源、特征標簽選取、模型參數調優等，其中這里三個主要參數需調優：

（1）結點規模：隨機森林不像決策樹，每一棵樹葉結點所包含的觀察樣本數量可能較少，即生成樹時，盡可能保持小偏差。

（2）樹的數量：根據實踐，往往根據實際情況，選擇相適應的樹的規模。

（3）預測器采樣數：一般來說，如果我們一共有D個預測器，那么我們可以在回歸任務中使用D/3個預測器數作為采樣數，在分類任務中使用D^(1/2)個預測器作為抽樣。

3.4 模型評價

模型訓練、固化完畢，如何評價模型性能，現有一系列模型評價指標對其進行評判，包括準確率、召回率、F1-Score值，平滑曲線、混淆矩陣等。所謂混淆矩陣即用矩陣中真實的與預測的因變量1的變化，來直觀觀察模型的質量。通常以關注類為正類，其他類為負類，分類器在測試集上進行正確與否的預測，4種情況總數分別記作：Tp—將正類預測為正類、Fn—將正類預測為負類、Fp—將負類預測為正類、Tn—將負類預測為負類。

從而可得出模型另外的一系列評價指標，準確率p、召回率R、F1-Score值分別定義如下：

下面為特征標簽優化前后，模型混淆矩陣的優劣程度對比，從而得出特征標簽、算法優化后模型的準確率、召回率、F1值分別為80%、26%、19.7%，具有明顯提高。

由于正負樣本比例問題、模型參數的優化等綜合考慮，我們采用正負樣本比例1：5的進行模型固化，全量預測4月3G用戶在未來5、6、7三個月換機情況，818076萬總量目標用戶7月換機情況，如下表3.5所示，預測的換機目標用戶數為13220，進一步查看8月真實3G換4G成功的用戶為2258，真實換機成功率為17%左右，模型優化明顯。

相比已有模型，模型質量、效果有所提高，但也存在著不足，具有進一步提升空間，將來將基于下面內容對模型進一步優化：

（1）目前特征標簽僅基于終端基本信息、互聯網偏好、補貼基本信息，套餐使用情況等方面進行優化，尚有不足，后期可以基于時間跨度等方面構造新的特征標簽。

（2）數據源正負樣本比例近1:6.3，雖采用了采樣方式來規避樣本不均衡問題，但也存在諸多弊端，如何平衡正負樣本比例，是后期優化的一個方向。

（3）此次模型采用了隨機森林算法，后期可以考慮算法融合、或引入新算法，對模型進一步優化。

4 總結

綜上所述，分析已有模型的優劣，進行相應處理，包括數據源特征標簽優化、數據源預處理、模型算法的選擇、模型參數優化等方面，提升模型效果，提高目標用戶換機成功率。此過程中，我們通過大數據、數據挖掘手段精準挖掘潛在的非4G換機目標用戶，并分析潛在目標用戶的終端偏好、渠道觸點偏好、終端信息偏好、互聯網興趣偏好、套餐業務偏好等，針對性開展終端推介和渠道引導，指導用戶換機、提升潛在目標用戶換機成功率，拓展業務，達到智慧營銷目的。