文/王振 陳天池
隨著通信技術的發展,4G業務的拓展,改善了未來移動用戶質態,然而現在非4G用戶升4G的速率趨于平緩,接近飽和,從而挖掘潛在非4G換機用戶具有重要意義,能夠實現整體市場的4G終端的遷轉、滲透。如何細化非4G用戶升4G場景,利用大數據手段精準挖掘潛在非4G目標換機用戶,拓展4G業務,同時統籌各業務場景對非4G用戶、4G用戶價值的發展變化,實現非4G潛在目標用戶換機的精準挖掘。
此文基于新業務場景、及模型算法優缺點等,利用隨機森林算法對模型算法進行優化。Random Forest(隨機森林)是基于眾多決策樹、構建集成的Bagging集成學習器,同時在訓練過程中引入隨機特征,改進了決策樹算法,即將多個決策樹合并在一起,且分別依賴獨立的抽取樣本集,每棵樹具有相同分布。特征選擇采用隨機方法分裂每個節點,比較不同情況下誤差。通過檢測內在估計誤差、分類能力,決定特征的選取數目。隨機產生大量決策樹后,測試樣品通過每棵樹的分類結果經統計后選擇最可能的分類結果,包括:
(1)隨機樣本數據選擇(放回抽樣)。
(2)隨機特征選擇。
(3)構建決策樹。
(4)隨機森林投票(平均)。
其中樣本數據的隨機選擇、待選樣本特征的選擇更能體現其優勢,前者包括放回抽樣,構建子數據集;根據子數據集、構建子決策樹、輸出子結果,通過新輸入數據對子決策樹的判斷結果投票,獲得整個輸出結果。如圖 1所示。

圖1:隨機森林算法流程圖

圖2:模型流程圖
其中隨機特征選擇即在樹的構建中,首先從樣本集特征中隨機選擇部分特征,然后再從此子集中選擇最優特征用于劃分,此隨機性導致隨機森林的偏差會有稍微的增加(相比于單棵樹),提升了算法多樣性,但由于隨機森林的平均特性,使得方差減小,模型具有更好效果。隨機森林通常基于Gini準則進行分裂節點純度度量,過程如下:
(1)假設原始訓練集為N,用bootstrap法有放回隨機抽取k個新樣本集,構建k棵分類樹,每次未被抽到的樣本組成k個袋外數據。
(2)設有m個變量,則每一棵樹的每個節點處隨機抽取n個變量,然后在n中選取一個最具分類能力的變量,閾值通過檢查每一個分類點確定。
(3)每棵樹最大限度地生長, 不做任何修剪。
將生成的多棵分類樹組成隨機森林,用隨機森林分類器對新的數據進行判別、分類,分類結果按投票多少而定,達到預測、分類目的。相比決策樹算法,它是決策樹算法的升級、集成,優點如下:
(1)可以并行計算、效率高;
(2)既可處理離散型數據,也可處理連續型數據,無需規范化;
(3)不易產生過擬合,抗噪能力好。
目前存量3G終端升級為4G時,往往需進行相關終端、套餐等多種升級,不同的產品升級組合對于用戶的價值變化都會產生不同影響,需統籌考慮、加以引導,有效提升4G業務量,機卡匹配率,達到如下期望目標:
(1)準確定位3G升4G目標用戶。
(2)估算潛在換機的目標用戶數,把握市場發展動態。
(3)完成精準換機建模思路、模型設計開發。
利用已有3G升4G換機模型,充分考慮前模型的優缺點,且結合最新的業務場景,優化、豐富數據源特征標簽、精細數據預處理、優化模型算法,提升模型性能。整個優化后模型框架包括業務理解、模型輸入、模型算法、模型輸出及模型應用等部分。如圖2所示。
建模中,如何獲取高質量數據源,對提高模型質量、預測效果有重要影響,決定模型好壞,因此在選取數據源特征標簽時,要充分考慮所選特征標簽數據對模型的貢獻度。
已有模型選取特征標簽時,僅僅考慮用戶所用終端的一些基本終端信息、所選套餐信息、相關補貼信息等,數據源特征標簽有待進一步優化、豐富。隨著終端設備性能的提高,使用方式變得多樣性,產生一些新的特征標簽來刻畫用戶的使用行為。首先現在用戶對于手機終端的使用不僅僅局限于傳統的通話、語音、短信等,更多是通過它,滿足一些興趣偏好,例如視頻、直播、游戲、購物等互聯網偏好;其次人們在考慮更換手機終端時,通常基于性能已不能很好滿足自己的使用需求了,包括存儲性能、內存性能等硬件指標;最后隨著用戶的換機頻率、更新頻率加快,需考慮終端的使用周期,即終端使用天數,終端的平均使用天數等。基于上述考慮,需針對已有數據源特征標簽進行完善、優化利用優化的特征標簽數據,作為模型輸入。由于數據源獲取中,常常含有噪聲、不完整,甚至不一致的數據,需進行相關預處理,提高數據質量,主要包括:數據變量轉換、缺失值處理、壞數據處理、數據歸一化等數據預處理后,進入整個模型的核心,即算法部分。綜合考慮,我們采用上面已詳細介紹的隨機森林算法。數據預處理后,并不是所有的特征標簽字段都作為模型訓練的輸入,將利用隨機森林特征重要度對數據源眾多特征標簽進行關聯性、重要性排序,選取重要性靠前、貢獻度大的特征標簽作為模型輸入,繼而提高模型訓練的效果。
以概率的形式給出,例如原始價值量、視頻偏好、購物偏好、總流量對模型的貢獻度較高,均超過10%,其次游戲偏好、套餐流量贈送量均超過5%,從而選取重要性靠前的若干Top特征標簽作為模型輸入,少用或舍棄重要性靠后的特征標簽。
基于現有各分類算法的特點,采用隨機森林算法作為模型算法、進行目標用戶預測,整個隨機森林算法的偽代碼如下所示:
(1) For b=1 to B:
(a) Draw a bootstrap sample Z*of size N from the training data.
(b) Grow a random_forest tree Tbto the bootstrapped data by cursively repeating the following steps for each terminal node of the tree, until the minimum node size nminis reached.
i. Select m variable at random from the pvariables.
ii. Pick the best variable/ split-point among the m
iii. Split the node into two daughter nodes.
(2) Output the ensemble of trees
To make a prediction at a new point x:
整個過程包括數據選擇、模型訓練、模型驗證、模型測試、模型調優等部分,采用沙箱模式,整個算法及常見算法包已封裝,重點關注于數據源、特征標簽選取、模型參數調優等,其中這里三個主要參數需調優:
(1)結點規模:隨機森林不像決策樹,每一棵樹葉結點所包含的觀察樣本數量可能較少,即生成樹時,盡可能保持小偏差。
(2)樹的數量:根據實踐,往往根據實際情況,選擇相適應的樹的規模。
(3)預測器采樣數:一般來說,如果我們一共有D個預測器,那么我們可以在回歸任務中使用D/3個預測器數作為采樣數,在分類任務中使用D^(1/2)個預測器作為抽樣。
模型訓練、固化完畢,如何評價模型性能,現有一系列模型評價指標對其進行評判,包括準確率、召回率、F1-Score值,平滑曲線、混淆矩陣等。所謂混淆矩陣即用矩陣中真實的與預測的因變量1的變化,來直觀觀察模型的質量。通常以關注類為正類,其他類為負類,分類器在測試集上進行正確與否的預測,4種情況總數分別記作:Tp—將正類預測為正類、Fn—將正類預測為負類、Fp—將負類預測為正類、Tn—將負類預測為負類。
從而可得出模型另外的一系列評價指標,準確率p、召回率R、F1-Score值分別定義如下:

下面為特征標簽優化前后,模型混淆矩陣的優劣程度對比,從而得出特征標簽、算法優化后模型的準確率、召回率、F1值分別為80%、26%、19.7%,具有明顯提高。
由于正負樣本比例問題、模型參數的優化等綜合考慮,我們采用正負樣本比例1:5的進行模型固化,全量預測4月3G用戶在未來5、6、7三個月換機情況,818076萬總量目標用戶7月換機情況,如下表3.5所示,預測的換機目標用戶數為13220,進一步查看8月真實3G換4G成功的用戶為2258,真實換機成功率為17%左右,模型優化明顯。
相比已有模型,模型質量、效果有所提高,但也存在著不足,具有進一步提升空間,將來將基于下面內容對模型進一步優化:
(1)目前特征標簽僅基于終端基本信息、互聯網偏好、補貼基本信息,套餐使用情況等方面進行優化,尚有不足,后期可以基于時間跨度等方面構造新的特征標簽。
(2)數據源正負樣本比例近1:6.3,雖采用了采樣方式來規避樣本不均衡問題,但也存在諸多弊端,如何平衡正負樣本比例,是后期優化的一個方向。
(3)此次模型采用了隨機森林算法,后期可以考慮算法融合、或引入新算法,對模型進一步優化。
綜上所述,分析已有模型的優劣,進行相應處理,包括數據源特征標簽優化、數據源預處理、模型算法的選擇、模型參數優化等方面,提升模型效果,提高目標用戶換機成功率。此過程中,我們通過大數據、數據挖掘手段精準挖掘潛在的非4G換機目標用戶,并分析潛在目標用戶的終端偏好、渠道觸點偏好、終端信息偏好、互聯網興趣偏好、套餐業務偏好等,針對性開展終端推介和渠道引導,指導用戶換機、提升潛在目標用戶換機成功率,拓展業務,達到智慧營銷目的。