999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的4G用戶投訴預測

2017-12-26 09:52:02陳秀敏許向東黃毅華于文
移動通信 2017年21期
關鍵詞:數據挖掘分類用戶

陳秀敏,許向東,黃毅華,于文

(1.中國電信股份有限公司廣州研究院,廣東 廣州 510630;2.北京師范大學珠海分校,廣東 珠海 519085)

基于數據挖掘的4G用戶投訴預測

陳秀敏1,許向東1,黃毅華1,于文2

(1.中國電信股份有限公司廣州研究院,廣東 廣州 510630;2.北京師范大學珠海分校,廣東 珠海 519085)

4G網絡運營中,存在性能指標雖好,但仍有用戶感知差而投訴的問題,性能指標不能正確反映用戶的真實感知。因此,提出了一種基于數據挖掘的4G用戶投訴預警的方法,首先根據投訴工單對投訴類型進行分類,并提出各個類型的用戶特征的提取方法,然后利用數據挖掘預測投訴用戶。該方法可快速分析出用戶投訴的原因,或在用戶投訴之前便發現并解決問題,提升4G用戶體驗。

數據挖掘 4G用戶感知 投訴類型 預測模型

1 引言

隨著移動互聯網業務的迅猛發展,4 G相比2G/3G,網絡速度更快、效率更高、兼容性更強、自動調節能力和適應性更強、數據處理靈活性更高,因此各大運營商都投入了大量的資源用于4G業務的發展。然而,隨著產品類型趨同,運營商急需將網絡運維管理的焦點從網絡質量轉移到以客戶為中心的客戶體驗,改善用戶感知已成為運營商亟待解決的問題。用戶感知是終端用戶對一些服務質量或整體網絡的感受,萬用戶投訴比是評價用戶感知的一個重要方面,如果能及時預測用戶的投訴情況,在投訴事件發生前就能采取有效措施,必然能提升客戶的體驗滿意度,增加用戶黏度。

在實際網絡運營中,許多潛在有用的信息被海量的、有噪聲的、隨機的、模糊的實際應用數據所掩蓋,傳統的分析方法往往不易察覺,數據挖掘技術可以很好地解決以上難題。本文主要研究并開發了一個預測4G用戶投訴的框架,可根據以往用戶的數據,采用不同分類算法,預測一個4G用戶是否會進行投訴,同時,總結了4G用戶投訴預測所需的有效特征值。

2 4G用戶投訴預測模型的選擇

4G用戶投訴預測模型的選擇,需要考慮以下問題:一是當前網絡運營數據有MR(測量報告)、無線CDR(呼叫詳細話單)、無線性能指標、計費話單、核心網CHR(歷史呼叫記錄)、業務DPI(深度包解析)等大量數據記錄,但不可以直接用于建模,需要進行關聯串接提取建模所需特征;二是模型特征確定后,存在數據不平衡、用戶數據空缺等問題,需要對建模數據進行預處理;三是模型的算法非常多,如何選擇合適模型算法對預測效果至關重要,為解決以上問題,本文采用CRISP-DM流程來規范模型的搭建,共分為6個階段。

CRISP-DM全稱為Cross-Industry Standard Process for Data Mining,也就是“跨行業數據挖掘標準流程”[2],該模型于1999年由歐盟機構聯合起草,經過十幾年的發展,如今已經成為事實上的行業標準,在各種數據挖掘過程模型中占據領先位置,調查顯示,CRISP-DM的數據挖掘流程為多數數據挖掘工具所采用,比例在50%以上。

本文在這個模型的基礎上(如圖1所示),結合本項目特點,總結出適合4G用戶投訴預測的數據挖掘過程如下:

(1)業務理解/商業理解(Business Understanding):理解項目目標,首先從業務的角度理解項目需求,再將項目需求轉化為數據挖掘問題,即預測4G用戶是否投訴。

(2)數據理解(Data Understanding):收集包含31個特征值的4G用戶的原始數據,并且通過對數據的相關性進行分析等初步處理來熟悉數據。

(3)數據準備(Data Preparation):通過對上一階段收集的數據進行分析,共整理出如表1所示的31個特征值,詳見第3節。

(4)建模(Modeling):選擇和應用不同的學習算法和模型技術,將模型參數調整到最佳的數值,詳見第4節。

(5)評估(Evaluation):采用正規技術評審和正規審查等方法,檢查構造模型的開展順序,并充分地考慮所有重要業務問題以確保模型能夠完成挖掘目標。

(6)部署(Deployment):將模型應到大規模的實際數據中。

在上述6個階段中,前3個階段主要依靠網絡優化和行業運營經驗來完成,數據準備階段是前3個階段的初步成果,同時也是整個數據挖掘的基礎,如果這個階段出現問題,后面所有的工作都會受到影響。而建模階段是關鍵,選擇不同的算法或不同的參數往往對預測結果影響較大,模型的評估方法也會在模型的求解過程中應用。因此,數據準備和建模中的關鍵問題將分別在下面兩節中詳細闡述。一般情況下,前5個階段通常需要不斷地循環以找到最優方案,如圖1所示,評估階段結束標志著一個成熟的數據挖掘流程已經形成。

圖1 跨行業數據挖掘標準流程[3]

3 數據準備

數據準備階段主要對原始的用戶數據進行處理,通過采集無線MR、無線CDR、無線性能指標、計費話單、核心網CHR、業務DPI等數據、分析數據特點、用戶端到端數據(無線、核心網及互聯網)的關聯及串接,如圖2所示,進而轉化成和4G用戶投訴預測(無信號或信號弱)相關的特征值,如表1所示。

在用戶的投訴中,無信號或信號弱所占的比例比較大,也是本文研究的重點,對其他如速率慢、掉線、應用打不開和有信號無法使用等方面投訴的預測,也可以使用類似的方法和過程。

圖2 端到端數據關聯串接

表1 4G用戶投訴預測(無信號或信號弱)所需特征值

在特征值提取的過程中,主要考慮投訴現象的平均次數、持續時長、發生頻度、位置集中度以及異常時長占比等因素,通過均值、方差、分位值、百分比、百分比區間、TOP N、變異系數等7個維度,完成了用戶每日數據的匯聚,根據全省周申告用戶數與活躍用戶的比例設置建模數據中投訴用戶數據的占比。

值得注意的是,此階段總結的31個特征值,只是根據領域專家的經驗,從業務的角度對數據進行分析而得出的。在后期的建模過程中,有些技術在數據形成上有特殊要求,因此需要在此基礎上對特征值進行進一步選擇或提取。

4 建模

通過前面的業務理解、數據理解和數據準備階段,用戶的特征值已經確定(如表1所示),本階段的主要任務是根據這些特征值,選擇適當的分類算法及參數,使預測結果達到最優。

訓練過程往往不是僅使用一種算法,而是采用多種算法,比較其訓練結果來選擇合適的算法。根據訓練任務不同,訓練算法可分為分類算法、回歸算法以及聚類算法等。預測4G用戶是否會產生某種類型的投訴,屬于離散型的分類問題,訓練樣本包含對應的“標簽”,即“投訴”與“不投訴”兩類,所以在選擇分類算法上,文章選擇邏輯回歸、決策樹等4種算法。在使用算法進行數據訓練之前,需要對源數據進行特征選擇和數據預處理,本文采用遞歸特征消除(RFE)算法進行特征選擇,采用SMOTE算法和處理缺失值數據集對不規則數據進行預處理。整個框架如圖3所示,左側是模型創建的流程,根據不同的算法,可創建不同的模型;右側是模型使用的流程,即對用戶是否投訴進行預測。接下來的幾節詳細描述了建模過程的每個步驟。

數據挖掘的數據集一般分成兩部分,訓練集用于訓練模型,測試集用于驗證模型。本文采用廣泛使用的十折交叉驗證(詳見第4.4節),即將數據集分成10份,訓練集占9/10,測試集占1/10。為了說明特征選擇和數據預處理對分類結果的影響,后面幾小節統一采用了邏輯回歸算法進行分類,主要評價指標為F1值,有些使用了輔助指標精確率(Precision)和召回率(Recall)。分類算法和評價指標的詳細介紹參見第4.3節和第4.4節。

圖3 4G用戶投訴預測框架

4.1 特征選擇

使用不同算法進行預測,用戶的特征值對預測結果影響有可能不同,因此在建模時需要首先對特征值做進一步的選擇或提取。

特征選擇也叫特征子集選擇(FSS, Feature Subset Selection),是指從已有的M個特征(Feature)中選擇N個特征,使得系統的特定指標最優化。如果樣本的特征值過多,會影響學習算法的性能,也會使分類器產生過擬合的現象。特征選擇是數據挖掘中關鍵的數據預處理步驟,因此通常將其與其他數據預處理分開,單獨進行研究。

最常用的產生特征子集的算法為搜索法,本文研究了其中的遞歸特征消除(RFE)算法,其主要思想是反復地構建模型,然后選出最好的特征(貪心算法),然后在剩余的特征上重復這個過程,直到所有特征都遍歷了。這個過程中,特征被消除的次序就是特征的排序。將這種算法應用到4G用戶數據,采用邏輯回歸算法構建模型(邏輯回歸算法的介紹見第4.3節),得到的最佳特征值個數為9個,如圖4所示。當采用不同算法進行預測時,得到的最佳特征值可能會不同。

圖4 使用遞歸特征消除算法進行特征選擇的結果

4.2 數據預處理

4G用戶數據中,正類(投訴數據,少數類)和反類(不投訴數據,多數類)數量的差別很大,存在類不平衡的問題,同時存在大量的缺失值,因此數據的預處理主要圍繞著這兩方面進行。

非平衡數據處理:一般采用欠采樣(刪除多數類的樣本)、過采樣(復制少數類的樣本)或SMOTE(合成少數類樣本)等方法。SMOTE可以看作是一種特殊的過采樣技術,即把每個樣本看成高維空間的一個點,然后用線段連接這個點到某個鄰近的點,取線段上的某點作為合成的一個新的點(樣本)。采用邏輯回歸算法時,采用SMOTE算法對11月份及之前的數據進行非平衡數據處理和不進行處理對結果的影響如圖5所示。從圖中可以看出,先將數據進行平衡以后,對分類器的精確率影響不大,但召回率和F1值有明顯提高。

圖5 數據平衡處理結果對比

處理含有缺失值數據集的方法主要有以下幾類:刪除元組(刪除有缺失值的樣本);用平均值補齊;用中位數補齊;用眾數補齊。

本文分別用上述幾種方法處理缺失值,得出如圖6所示的結果。從圖中可以看出,刪除有缺失值的樣本后再進行預測效果最好,其他三種方法差別不大。但由于數據中有缺失值的樣本較多,刪除這些樣本會丟失一些重要信息,并不能反映出數據的真實規律,因此本項目不適合采用這種方法。另外,根據刪除有缺失值的樣本后的數據訓練的模型,不能對有缺失數據的新用戶進行預測。

另外,不同特征值取值范圍可能并不相同,如果不加處理,在分類的過程中,量綱較大的特征值往往主導了分類結果。為了改進分類的效果,解決數據指標之間的可比性的問題,需要進行數據標準化處理,本文將數據規約到了[0, 1]區間內。如圖7所示,歸一化處理后的分類結果有明顯改善。

圖6 缺失值處理結果對比

圖7 數據歸一化處理結果對比

4.3 訓練算法

模型的訓練師指采用適當的算法構造分類器的過程。本文分別采用了邏輯回歸、決策樹、隨機森林和K鄰近這4種具有分類功能的算法訓練模型,下面簡單介紹其主要原理。

雖然名字里帶“回歸”,但是邏輯回歸常常用來分類,主要用于兩分類問題(即輸出只有兩種,分別代表兩個類別)。邏輯回歸算法使用邏輯回歸函數對數據進行擬合,其預測的值為,而xj為特征值,θj為未知的系數,n為特征值的個數。邏輯回歸函數的值介于[0, 1]之間,如圖8所示,使得其適合于擬合0~1分類問題。

圖8 邏輯回歸算法示意圖

決策樹是一種歸納學習算法,以實例為算法基礎,其結果是以樹表示的分類規則(if-then-else)。決策樹算法采用由上向下的遞歸的方式在內部節點進行屬性值的比較,并從該節點根據不同的屬性值向下分支,而葉節點就是我們要學習劃分的類。從根節點到葉節點的一條路徑就對應著一條合取規則,整個決策樹就對應著一組析取表達式規則。決策樹算法是一類算法的總稱,不同決策樹算法的主要區別是怎樣選擇結點的屬性使其分類能力達到最優,通常使用信息增益來衡量給定的屬性區分訓練樣例的能力(例如ID3算法),而信息增益使用熵(Entropy)來刻畫任意樣例集的純度。給定樣例集S,如果目標屬性具有c個不同的值,那么S相對于c個狀態的分類的熵為其中pi是S中屬于類別i的比例。信息增益,其中Value(A)是屬性A所有可能值的集合,Sv是S中屬性A的值為v的子集。

隨機森林算法是用很多的決策樹以隨機的方式建立一個森林。隨機森林中的每一棵決策樹之間沒有關聯。算法在運行過程中分為兩步:第一步是當有一個新的輸入樣本進入隨機森林的時候,便讓每一棵決策樹分別進行一次投票判決,得出這個樣本應該屬于哪一類,第二步是統計哪一類被選擇最多,就將被預測樣本歸為那一類。

KNN是最基本的基于實例的算法。該算法將所有的實例分別對應轉換為n維空間中的點,用標準歐式距離定義一個實例的最近距離。KNN算法的思路是在特征空間中,如果一個樣本的k個特征空間中最鄰近的樣本中的大多數屬于某一個類別,則將該樣本也歸入這個類別。

4.4 模型的評估方法

模型的驗證需要利用未參與建模的數據進行,這樣才能得到比較準確的結果,交叉驗證就是其中最常用的一種方法。常用的K折交叉驗證,將樣本集隨機地分割成K個集,一個子集用來驗證,另外K-1個子集的合集用來訓練。交叉驗證重復K次,每個子集驗證一次,最終的結果為K次運行的結果的平均值。

模型的評價指標是數據挖掘過程中非常重要的一環。不同的數據挖掘問題有著不同的評價指標,而與算法的關系不是很明顯。4G用戶投訴預測屬于數據挖掘中的分類問題,這類問題常用的評價指標有準確率(Acc, Accuracy)、精確率(P, Precision)、召回率(R, Recall)等,根據表2所示的混淆矩陣,這些指標定義如下:

表2 混淆矩陣

在本文中,準確率表示被正確預測的用戶數占用戶總數的比例;精確率表示預測的投訴用戶有多少是真正的投訴用戶;召回率表示所有的投訴用戶中有多少能被模型正確地預測出來的比例。在4G用戶投訴預測的過程中,由于錯誤地將投訴用戶預測為非投訴用戶的代價遠遠大于錯誤地將非投訴用戶預測為投訴用戶,一般的分類正確率、精確率和召回率難以判定一個模型的好壞,因此本文采用綜合指標對模型進行評價。

4.5 結果及分析

使用上述4種算法對4G用戶投訴進行預測,結果如表3所示。為了和后面的結果進行比較,這里使用了2折交叉驗證。從表中可以看出,4種算法都取得了較好的預測效果。但是,取得這種結果的一個很重要的前提是,根據文獻[5]中提出的建議,在數據預處理階段,就利用SMOTE算法對整個數據集進行了平衡處理,然后將處理后的數據作為正常的數據集使用。

表3 不同算法對4G用戶投訴的預測結果(對測試數據進行平衡處理)

然而,我們認為平衡處理后的數據與處理前有較大的差異,用處理后的數據集對模型進行驗證并不能反映出模型真正的分類效果,因此修改了數據平衡的策略,只對訓練數據進行平衡處理。由于數據類別的極度不平衡,如果采用廣泛使用的十折交叉驗證,測試數據中有可能不包含少數類(投訴數據),因此將訓練數據和測試數據的比例修改為1:1。修改后的運行結果如表4所示:

表4 不同算法對4G用戶投訴的預測結果(未對測試數據進行平衡處理)

從表中可以看出,邏輯回歸算法的分類結果的召回率最高,如果將投訴用戶錯誤地分類成非投訴用戶的代價較高,應考慮采用這種算法。而隨機森林的綜合評價指標F1值最高,召回率和精確率也較其他算法有較好的表現,因此推薦使用這種算法。

5 結束語

數據挖掘可以用來解決預測4G用戶是否投訴的問題,即通過機器學習算法搜索隱藏于大量運營數據中的特定屬性的值。本文采用CRISP-DM流程,著重介紹數據準備和建模兩個階段的關鍵問題,并用實際運營數據檢驗模型,得出數據處理方法和不同模型算法對預測效果的影響。機器學習以大量用戶的運營數據為經驗,模擬或實現人類的學習行為,從而提高預測的正確率和準確率。

本文提出的模型在實際應用中,由于QoE會隨網絡及用戶要求變化而波動,訓練樣本可以采集最新周期的數據,保證模型可以實時有效反應網絡質量,發現網絡問題。

[1] 王銳,嚴炎. 用戶體驗質量評估方法淺析[J]. 移動通信,2012,36(13): 57-60.

[2] Shearer C. The CRISP-DM model: the new blueprint for data mining[J]. Data Warehousing, 2000(5): 13-22.

[3] Harper G, Pickett S D. Methods for mining HTS data[J].Drug Discovery Today, 2006,11(15-16): 694.

[4] 鐘鼎. 基于神經網絡的4G用戶感知預警模型構建和應用[J]. 電信技術, 2016(11): 76-78.

[5] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE:synthetic minority over-sampling technique[J]. Journal of Artif i cial Intelligence Research, 2002,16(1): 321-357.

[6] SOLDANI D. Means and Methods for Collecting and Analyzing QoE Measurements in Wireless Networks[J].WoWMoM, 2006(5): 535.

[7] 楊宗長,徐繼生,孫洪. 基于免疫算法的移動通信用戶信用度評估研究[J]. 電子測量與儀器學報, 2009,23(8):105-110.

[8] LASALLE D, TERRY A BRITTON. Priceless: Turning Ordinary Products into Extraordinary Experiences[M].Boston: Harvard Business School Press, 2003.

[9] 王文婧,曲佰達,段然. 移動云計算用戶QoE的模糊綜合評價研究[J]. 互聯網天地, 2015(1): 18-25.

[10] 林闖,胡杰,孔祥震. 用戶體驗質量(QoE)的模型與評價方法綜述[J]. 計算機學報, 2012,35(1): 1-15. ★

Prediction of 4G User Complaints Based on Data Mining

CHEN Xiumin1, XU Xiangdong1, HUANG Yihua1, YU Wen2
(1. Guangzhou Research Institute of China Telecom Co., Ltd., Guangzhou 510630, China;2. Beijing Normal University Zhuhai Campus, Zhuhai 519085, China)

There is still the problem in the operation of 4G networks that users complain against the bad user perception, even though the performance metrics are satisfactory. In other words, the performance metrics can not re fl ect accurately represent the real perception of users. Therefore, a complaint warning method for 4G users based on data mining was put forward. Firstly, the types of complaints were classified according to complaint orders and the feature extraction methods for different types of users were presented. Then, the complaint user was predicted using data mining. The proposed method can fast find out the cause of user complaints or discover and solve the problem before the user complaint to enhance 4G user perception.

data mining 4G user perception type of complaint prediction model

10.3969/j.issn.1006-1010.2017.21.007

TN929.5

A

1006-1010(2017)21-0030-07

陳秀敏,許向東,黃毅華,等. 基于數據挖掘的4G用戶投訴預測[J]. 移動通信, 2017,41(21): 30-36.

2017-09-27

黃耿東 huanggengdong@mbcom.cn

陳秀敏:碩士畢業于華南理工大學,現任職于中國電信股份有限公司廣州研究院移動通信研究所,主要研究方向為無線網絡優化及儀表應用與數據挖掘。

許向東:畢業于北京郵電大學,現任職于中國電信股份有限公司廣州研究院,主要負責移動網絡優化技術管理工作。

黃毅華:碩士畢業于中山大學,現任職于中國電信股份有限公司廣州研究院,主要從事網絡優化研究工作。

猜你喜歡
數據挖掘分類用戶
分類算一算
探討人工智能與數據挖掘發展趨勢
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 久久国产热| 午夜精品区| 国产精品永久不卡免费视频 | 亚洲天堂伊人| 亚洲中文字幕久久无码精品A| 亚洲婷婷六月| 99热精品久久| 国产乱人免费视频| 久久亚洲国产一区二区| 精品人妻无码区在线视频| 欧美福利在线| 91免费国产在线观看尤物| 久久这里只有精品66| 九色在线视频导航91| 久久久久久久蜜桃| 五月天久久婷婷| 成人午夜亚洲影视在线观看| 亚洲成a人片| 亚洲v日韩v欧美在线观看| 国产男女免费视频| 三级毛片在线播放| 成人在线不卡视频| 国产乱码精品一区二区三区中文| 国产99在线观看| 亚洲男人天堂2020| 黄色免费在线网址| 久久久精品无码一二三区| 丁香六月激情综合| 国产青青草视频| 欧美黄色a| 在线观看91精品国产剧情免费| 亚洲无码视频图片| 亚洲综合二区| аⅴ资源中文在线天堂| 毛片免费在线视频| 3D动漫精品啪啪一区二区下载| 国产视频一区二区在线观看| 亚洲动漫h| 欧美激情视频一区二区三区免费| 国产精品va免费视频| 日韩精品成人在线| 97人人模人人爽人人喊小说| 国产人碰人摸人爱免费视频| 精品剧情v国产在线观看| 日本亚洲最大的色成网站www| 久久精品人人做人人综合试看| 亚洲国产中文精品va在线播放| 欧美精品二区| 婷婷色中文网| 爱色欧美亚洲综合图区| 五月激情综合网| 中文字幕无线码一区| 国产在线精彩视频论坛| 狼友av永久网站免费观看| 国产呦视频免费视频在线观看| 久久香蕉国产线看观看精品蕉| 国产白浆在线| 粉嫩国产白浆在线观看| 天天摸夜夜操| 亚洲国产综合精品中文第一| 日韩无码视频专区| 毛片三级在线观看| 国产熟女一级毛片| 色九九视频| 精品无码视频在线观看| 国产香蕉97碰碰视频VA碰碰看 | 18禁影院亚洲专区| 午夜影院a级片| 国产主播在线观看| 91热爆在线| 国产精品自在线天天看片| 任我操在线视频| 99在线观看精品视频| 欧美性精品| 亚洲欧美另类中文字幕| 91视频99| 亚洲天堂视频网站| 亚洲av综合网| 999在线免费视频| 992tv国产人成在线观看| 国产精品林美惠子在线观看| 思思热在线视频精品|