基于組合預測模型的數據挖掘技術研究與探索

2018-01-29 07:36:06閆賀新

實驗室研究與探索 2017年12期

閆賀新

(吉林工程職業學院, 吉林四平 136000)

0 引言

客戶流失是通信行業面臨的重要問題，不僅會使企業市場占有份額縮小，還會出現客戶惡意離網產生欠費行為，從而增加了經銷商的運營成本。為使企業利潤最大化，以獲得更大的生存空間，各運營商都把爭取更多的客戶作為經營理念和目標。數據顯示：發展一位新客戶的成本是挽留一個老客戶的4～6倍，而客戶忠誠度下降比例則是企業利潤下降比例的4倍[1]，可見做好客戶關系管理，防止客戶流失是通信行業提升企業核心競爭力的重要途徑。

針對上述問題，出現了很多有效的數據挖掘算法[2]。為了提高電信客戶流失預測精度, 提出一種基于主成份分析支持向量機的電信客戶流失預測方法，獲得較為理想的預測效果[3]。針對決策樹算法測試屬性選取上存在的缺點, 建立基于Weka的知識自動獲取的客戶流失預測模型，克服了決策樹算法取值偏置的問題[4]。為了避免現實中流失客戶與未流失客戶比例偏斜問題，采用多基決策樹聯合決策的方法進行建模，與單個分類器相比, 提高了預測模型的查準率和泛化能力[5]。提出了一種基于慢啟動的頻繁模式挖掘算法，用于電信企業客戶流失預警模型[6]。縱觀以上文獻，都采用了單一的預測方法，但每種算法都存在一定的不足，從而使結果不能達到最佳。基于此，本研究以提高客戶流失預測命中精度為目標，結合決策樹、遺傳算法以及單神經元3種模型特點，嘗試建立一種多算法組合預測模型，并對某電信企業進行客戶流失預測與評價。

1 數據挖掘算法分析

數據挖掘是指在海量的、雜亂的數據中提取隱含在數據當中具有潛在利用價值的信息，通過分析能夠為人們提供決策作用的過程[7]，廣泛應用于地理、電信、銀行等領域。基于CRISP-DM標準的數據挖掘過程包括業務與數據理解、準備、建模、評估和部署等環節，是一個不斷往復優化過程，其中數據準備、建立模型、模型評估是數據挖掘重要的組成部分，見圖1。

圖1 CRISP-DM數據挖掘流程

(1) 數據準備。數據準備是數據挖掘結果準確與否的前提條件，是利用計算機技術對數據信息的預先處理，主要功能是將雜亂的、不符合規則的無效數據進行清洗和篩選，再根據業務分析的結果對數據進行整合與轉化，為建立模型奠定良好的數據基礎。

(2) 建立模型。模型的建立是數據挖掘的核心部分，不同的挖掘算法對數據的抽取和處理方式不盡相同，產生的結果也各有差異，可以根據不同的數據特點及業務需求選擇最合適、最有效的挖掘算法。

(3) 模型評估。為檢測經過數據挖掘得到的結果是否達到預期要求，需要對模型進行評估。如果發現挖掘結果不符合業務需求，則需要重新選擇數據或采用其他挖掘算法。

隨著研究的不斷深入，各種挖掘算法不斷被完善和優化。根據研究內容，現只對決策樹、遺傳算法以及單神經元3種典型的分類方法進行分析對比。

1.1 決策樹算法

決策樹(DT)是一種類似流程圖的樹形結構，由若干分支和結點組成，節點表示某個屬性的測試，分支代表每個測試的結果，根節點與葉結點之間的路徑就是一條分類規則[8]。決策樹算法的預測過程一般分兩個階段：① 利用訓練集建立并進化一棵決策樹；② 測試各節點的屬性值，對決策樹進行檢驗、校正，例如圖2是預測客戶信用風險的流程框圖。

圖2 決策樹算法舉例

1.2 遺傳算法

遺傳算法(GA)是根據達爾文優勝劣汰法則產生的用于模擬生物進化過程的計算模型。遺傳算法具有很強的全局搜尋能力，不受函數本身連續性的影響，包括初始化種群、個體評估、執行選擇運算、執行交叉運算、變異運算等過程[9-10]，其流程如圖3所示。

圖3 遺傳算法流程

1.3 人工神經網絡算法

人工神經元(ANN)是通過模擬人腦功能而提出來的一種算法，具有很強的逼近功能，用于表示從多輸入到單輸出的映射關系，如圖4所示。

若把wji作為輸入量所對應的權重值，神經元的閾值為θj，則輸出Rj的表達式為：

(1)

神經網絡的訓練學習指按一定的規則自動調整神經元之間的連接闕值，尋找最佳的目標函數，并可根據外部條件變化自動調整的過程[11-13]，如圖5所示。

圖4 人工神經元模型

圖5 神經網絡的訓練過程

2 基于多算法組合模型的客戶流失預測

電信企業運營過程中的流失客戶可以分成兩種類型：一種是因為企業之間的競爭、套餐變更以及服務質量等因素引起的主動客戶流失。另一種是由于話費欺詐、惡意停機等因素引起的被動客戶流失，前者的一般形式為主動解除或變更合同，后者的一般形式為欠費停機等形式的賬戶休眠[14]。客戶流失關系到通信運營企業的利潤收入以及生活空間，如何建立有效客戶流失預測模型是判斷客戶是否有流失傾向的關鍵。

2.1 預測模型

在數據挖掘軟件平臺Clementine 中建立基于決策樹、遺傳算法、人工神經網絡的預測模型。構造Lagrange函數[15]：

α3zn-zn)2+ξ(α1xn+α2yn+α3zn-1)

(2)

式中：xn,yn,zn表示3種單一模型的的預測值(i=1,2,3)；α1,α2,α3表示組合模型的權重系數；λ為Lagrange 算子。

利用多組合模型進行數據挖掘的步驟：

(1) 預處理。將原始數據集進行分區，數據樣本和測試樣本的劃分比例為6∶4；

(2) 構建單一預測模型。分別用決策樹C5.0、遺傳算法和人工神經網絡對訓練集進行建模；

(3) 預測。將測試集中的樣本數據帶入單一模型中進行預測，得到預測分析結果；

(4) 構建組合預測模型。將單一模型的預測結果帶入Lagrange函數，得到組合預測模型的權重系數，并建立組合預測模型；

(5) 計算預測結果。對Lagrange函數求解，得到組合模型預測結果。

基于Lagrange 函數的組合模型預測流程見圖6。

2.2 模型評價

分別采用單一算法模型與多算法組合模型對10 000個客戶信息進行預測分析，如表1所示，其中“0”代表客戶沒有流失，“1”代表客戶已流失或有流失傾向。

為進一步分析不同模型的預測結果，對表1結果進行統計分析，得到各模型算法的預測命中率。設每個客戶月均消費為人民幣35元，分別得到不同模型預測客戶流失的數量及誤判損失，結果如表2所示。

評價結果表明，本研究所設計的基于Lagrange的多算法組合預測模型集合了各單一模型的預測優勢，大大提高了客戶流失的預測命中率，達到91%左右，比單一模型的預測命中率有了大幅提升，由組合模型所造成的誤判損失也將大大降低。由此可見，本研究所設計的多算法組合模型預測效果好，可有效預測客戶流失和流失傾向，滿足企業需求，達到預期目的。

表1 不同模型算法的客戶流失預測結果

表2 流失量預測及誤判率對比結果

3 結語

針對電信行業無法準確預測客戶流失的問題，把數據挖掘技術應用于客戶關系管理過程，根據單一預測模型的特點和缺陷，將決策樹、遺傳算法以及人工神經網絡算法融于一體，建立基于Lagrange 函數的多算法組合預測模型。同時，用所建模型對某電信企業客戶流失情況進行預測，根據客戶信息、消費行為等歷史數據判斷客戶流失的可能性。結果表明，與單一預測模型相比，多算法組合預測模型對電信客戶流失預測命中率大幅提高，能有效獲取客戶流失傾向，為運營商采取相應措施提供理論依據，從而使電信企業營銷方案的制定更具針對性，避免因營銷手段的盲目性造成成本浪費。

[1] 張曉濱，高峰，黃慧.基于客戶細分的客戶流失預測研究[J]. 計算機工程與設計,2009,30 (24):5755-5758.

[2] 王夢雪. 數據挖掘綜述[J]. 軟件導刊，2013, 12 (10)：135-137.

[3] 王觀玉, 郭勇.支持向量機在電信客戶流失預測中的應用研究[J]. 計算機仿真，2011, 28 (4)：115-118.

[4] 尹婷, 覃錫忠, 賈振紅，等. 基于WEKA 的客戶流失預測研究[J]. 激光雜志，2013，34(5):44-46.

[5] 郭俊芳, 周生寶. 基于聯合決策樹的客戶流失預測模型設計[J].計算機與現代化，2010 (5): 5-7.

[6] 劉志超，王雷，谷壘，等.基于數據挖掘技術的客戶流失預警模型[J]. 微計算機信息，2011, 27 (2)：176-177.

[7] 潘大勝，屈遲文. 一種改進ID3型決策樹挖掘算法[J]. 華僑大學學報(自然科學版)，2016，37 (1)：71-73.

[8] 蔡中民.PSO 遺傳算法進行數據挖掘的策略構建和分析[J].科技通報，2013, 29 (3)：176-177.

[9] 余小雙.遺傳算法及其在數據挖掘中的應用研究[D]. 武漢：武漢紡織大學， 2010.

[10] 童翔威.RBF神經網絡在數據挖掘中的應用研究研究[D].長沙：中南林業科技大學，2009.

[11] 儲兵，吳陳，楊習貝. 基于RBF 神經網絡與粗糙集的數據挖掘算法[J]. 計算機技術與發展，2013, 23( 7)：87-91.

[12] 常凱. 基于神經網絡的數據挖掘分類算法比較和分析研究[D]. 合肥：安徽大學，2014.

[13] HE Cong, REN Li-hong, DING Yong-sheng. Performance prediction of carbon fiber protofilament based on SAGA-SVR [J]. Journal of Donghua University, 2014,31(2):92-97.

[14] 王振環.基于數據挖掘技術的電信領域客戶流失預測系統的研究與實現[D].長春：吉林大學，2006.

[15] 劉光遠, 苑森淼, 董立巖. 數據挖掘方法在用戶流失預測分析中的應用[J]. 計算機工程與應用，2007, 43( 9)：154-156.