◆林 濤
(廣東省電信規劃設計院有限公司 廣東 510630)
電信企業為穩定和提升政企客戶的通訊業務收入和市場份額,需要有效跟蹤評估企業通訊活躍度,這通常是從企業通訊行為數據中挖掘。工商局在冊企業往往缺乏完善的通訊行為數據,僅依靠企業經營數據分析通訊活躍度是一個難題。
本文根據現有企業通訊與經營數據,通過統計分析和熵權法進行特征工程[1],構造企業通訊活躍度指標,結合經營數據訓練CART 決策樹[2]模型,挖掘企業經營數據與通訊活躍度之間的隱含關系。
為充分挖掘企業經營數據與通訊活躍度之間的關系,需要設計有效的建模流程,本文采用客觀的熵權法篩選重要通訊特征,并利用能夠獲取判別規則的CART 決策樹模型進行建模。
本文首先對前后兩年企業通訊和經營數據進行數據清洗,接著利用統計學方法檢驗兩年通訊數據差值變化差異是否具有顯著統計學意義,經過特征篩選,構造新特征,然后使用熵權法選擇重要通訊特征,結合業務邏輯設計通訊活躍度指標,最后結合企業經營數據訓練CART 決策樹模型。
熵權法是一種客觀的特征重要性評估方法,其僅依賴于特征數據所包含的信息量,利用信息熵對信息的量化,可以計算出每個特征的權重,主要遵循信息熵值越小,信息量越多,特征權重越大;信息熵值越大,信息量越少,特征權重越小的原則。熵權法的計算步驟如下:
設數據集包含n個特征和m個樣本。
Step1:對于每個特征j,其中的每個數據xij計算其貢獻度pij;

Step2:計算特征j的信息熵Ej,其中k

Step3:計算特征j的權重wj;

CART 決策樹算法是一種二叉樹模型算法,其具有運行效率更高,支持離散型和連續型數據,能夠返回可解釋的分類規則等特點,因此應用范圍非常廣泛。其模型生成是一個遞歸過程,在每一步中首先計算特征中,每個特征值所劃分的兩個數據子集的基尼系數,即計算

其中Si表示第i個數據子集,Pk代表第k個類別的頻率,然后再計算出特征按該特征值劃分數據集的基尼系數,即 其中A表示特征,a表示特征值,ni表示第i個數據子集Si

中的樣本數目,N表示數據集S的樣本數目,接著找出使基尼系數最小的特征及其特征值作為樹模型的分支節點,如此遞歸求解,直至滿足算法終止條件。
本文主要針對前后兩年企業通訊和經營數據進行分析,分別包括通訊需求、行為、消費、信用等方面通訊特征,以及企業屬性、經營狀態、經營活動等方面企業經營特征。
原始數據經過極端值、缺失值、業務異常值等處理,以及統計數據分布篩除不可用特征后,得到能夠進一步分析的有效數據。
針對前后兩年企業通訊數據,利用秩和檢驗方法檢驗每個通訊特征的兩年差值數據是否具有統計學意義。經分析后得到,大部分通訊特征的差值變化顯著,剔除不顯著特征后,以剩余特征的兩年差值作為新通訊特征,接著利用熵權法計算出每個新通訊特征的權重并排序,最終從數據分布特點和業務規則兩方面,篩選出企業固話差值與寬帶差值兩個重要特征,即:

根據上述兩個重要特征,按如下規則構造出企業通訊活躍度指標:

通過上述預處理,將企業通訊數據信息利用企業通訊活躍度指標來表征。本文以通訊活躍度作為數據標簽,結合清洗后的企業經營數據形成數據集,并劃分為訓練集、驗證集和測試集,其中按前二者占80%、后者占20%進行隨機均勻抽樣,訓練時利用十折交叉驗證尋找最優超參數。
按上述訓練方案,CART 決策樹模型學習了企業經營數據與通訊活躍度之間的內在關聯關系。利用所訓練的模型不但能夠僅靠企業經營數據判別出企業通訊活躍度,同時決策樹模型還可以返回明確的判別規則,突出重要的企業經營特征。
本文將現有全量企業數據按地域劃分為珠三角在冊企業、非珠三角在冊企業等2 個數據集,分別利用當年企業經營數據與相應的通訊活躍度組成的數據集訓練模型,并利用召回率、精確率、準確率等評價指標在測試集上對模型進行評估,具體評估結果如表1 所示。

表1 模型評估結果
由評估結果可知,本文提出的企業通訊活躍度分析模型具備良好的判別能力,并且在召回率上可以達到95%以上,其中模型判別企業通訊活躍度的準確率基本能達到90%以上,表明模型能夠根據企業經營數據判別出通訊活躍度。
本文通過秩和檢驗和熵權法篩選出重要通訊特征,并以此構造出企業通訊活躍度指標,結合企業經營數據訓練CART 決策樹模型。根據實際數據檢驗模型,本文模型在各項評價指標上都能達到90%以上,表明本文提出的建模方法能夠有效判別企業通訊活躍度。