摘要:電信企業(yè)為了在日趨激烈的市場競爭中取得優(yōu)勢,需要建立自己的數據倉庫,利用數據挖掘技術對現(xiàn)有的客戶數據進行分析研究。洞察力營銷(Insight Driven Marketing,IDM)是一個應用數據和技術,幫助企業(yè)構建更個性化、更高利潤的市場營銷活動的過程。福州市電信公司作為IDM項目的試點單位,建立了一套IDM客戶洞察系統(tǒng),以滿足項目的數據挖掘需求。
項目以福州5萬商客為目標對象進行了數據挖掘的研究,通過IDM客戶洞察系統(tǒng)對數據進行采集處理,挖掘分析,最終形成9個戰(zhàn)略分群。
關鍵詞:數據挖掘;ETL;寬表;分群;K-means算法
中圖分類號:TP
文獻標識碼:A
文章編號:1672-3198(2010)15-0318-03
1 緒論
課題來源于中國電信集團公司“洞察力營銷福州試點項目”。為了更好地應用洞察力營銷方法,中國電信集團公司聘請美國埃森哲咨詢公司對IDM方法給予技術咨詢,提供方案進行試點。福州公司作為其中的一個主要試點單位,需要建立一個數據分析挖掘系統(tǒng),將各類分散在營業(yè)支撐系統(tǒng)(Business Supporting System,BSS)、計費系統(tǒng)、省中心計費系統(tǒng)、智能網系統(tǒng)、10000號系統(tǒng)、112系統(tǒng)等多個系統(tǒng)的數據快速采集起來,建立統(tǒng)一的客戶視圖來滿足數據挖掘的需要,實現(xiàn)對數據的分析挖掘,將電信客戶進行分群,進行針對性營銷。
根據埃森哲公司提供的客戶洞察方案,試點期間以福州商業(yè)客戶為對象進行客戶分群,同時完成系統(tǒng)的建設。
2 客戶洞察系統(tǒng)設計
2.1 客戶洞察系統(tǒng)的需求分析
2.1.1 數據源分析
通過福州本地網內各個系統(tǒng)分析發(fā)現(xiàn),對于福州電信來說,需要從BSS系統(tǒng)、計費系統(tǒng)、省中心計費系統(tǒng)、智能網系統(tǒng)、10000號系統(tǒng)、112系統(tǒng)等多個來源獲得。但這些系統(tǒng)有的又相對獨立,數據分散性造成共享缺少統(tǒng)一的標準,所涉及到的同樣的客戶信息可能存在不同的系統(tǒng)中,有些客戶信息只在一個系統(tǒng)中,需要將這些客戶信息進行歸納提取出來,再將這些提取出來的數據按照邏輯關系進行關聯(lián)和存儲。
2.1.2 系統(tǒng)需求分析
根據業(yè)務部門要求,系統(tǒng)需要滿足以下幾點。
(1)系統(tǒng)應提供良好的安全性和可靠性策略。
(2)系統(tǒng)能與各類外部系統(tǒng)建立接口,每日和每月定期獲取接口數據。
(3)系統(tǒng)數據流處理能力必須滿足在一周內完成數據從接口到中間處理數據轉換和存儲。
(4)系統(tǒng)應能滿足并發(fā)大數據量處理的要求,具有快速的并發(fā)用戶查詢速度,并發(fā)控制穩(wěn)定可靠,支持多線程或多進程。
(5)系統(tǒng)必須提供對外查詢接口和界面。
(6)考慮數據冗余,和各類索引的建立,存儲空間應滿足2年半的數據存儲。
2.2 平臺架構設計
根據福州局IDM客戶洞察系統(tǒng)一期的建設要求,并結合以上構建數據挖掘系統(tǒng)所需的幾個主要功能模塊,對系統(tǒng)平臺架構進行設計,如圖1所示,系統(tǒng)分為三大部分:數據源、分析系統(tǒng)/平臺、報告和挖掘分析系統(tǒng)。
圖1 IDM客戶洞察系統(tǒng)架構
2.3 功能模塊設計
IDM客戶洞察系統(tǒng)作為一個完整的系統(tǒng),主要包括的功能有:數據源的采集、數據的ETL過程及統(tǒng)一客戶視圖建立、寬表生成、客戶分群、分群結果分析、結果數據輸出營銷、營銷效果評估、系統(tǒng)管理、對外接口等。因此經過研究分析,系統(tǒng)分成四個大的功能模塊,各模塊的主要功能如下。
(1)接口程序模塊:屬于數據采集層,負責將外系統(tǒng)的數據源導入試點數據庫。
(2)數據處理模塊:屬于數據分析層,負責將試點數據進行ETL的清洗、過濾、整合、歸并、生成寬表。
(3)客戶分群模塊:屬于數據分析層,利用數據挖掘工具對寬表數據進行客戶分群。
(4)結果分析、特征刻畫模塊:屬于數據展示層,進行分群數據相關信息的提取,對分群后數據的分析刻畫展示。
2.4 數據倉庫結構設計
2.4.1 統(tǒng)一客戶視圖設計
由于客戶的變量在各系統(tǒng)間不能實現(xiàn)自動關聯(lián),需要通過對這些數據類型整理,并按照一定的數據規(guī)則將這種關聯(lián)建立起來,將這些數據類型變量信息統(tǒng)一掛靠到每個客戶下面,對數據庫處理而言,就需要一個客戶ID,代表系統(tǒng)中唯一的標識,將反映客戶信息的變量都索引表現(xiàn)出來。這種客戶ID將客戶所有的相關信息,通過掛靠的眾多變量反映出來,就可以在系統(tǒng)中展現(xiàn)每一個客戶完整情況,將它定義為統(tǒng)一客戶視圖。
凡是客戶的并且與運營商接觸的歷史記錄都可以通過客戶ID為索引主鍵進行存儲和展示,一旦查找到客戶ID就可以將客戶的電話號碼以及使用的相關電信產品等信息都可以展示出來。
2.4.2 寬表設計
(1)寬表設計變量的分類。寬表(WIDE TABLE)就是實現(xiàn)統(tǒng)一客戶視圖模型,用于數據挖掘的一種數據結構,將客戶相關的信息都記錄在一行上,以便進行分析。其特征每個客戶一條記錄,每一條記錄是客戶屬性的一個“扁平化”表現(xiàn),一條記錄中包含了很多跟客戶相關聯(lián)的客戶屬性作為變量名。寬表是以每個客戶ID為中心的,匯集了與分析相關的所有信息,有時候變量可以達到上百、上千個。
寬表的記錄由許多字段(變量)組成,而每個字段都反映了客戶信息的某個方面(例如撥打異網的情況),寬表就是將這些不同類型的數據定義成眾多字段變量,而且這些字段也是不斷進行擴充的,這些變量不僅為分群提供了聚類的特征,而且通過業(yè)務語言翻譯出來為分群后的營銷策略提供重要的數據依據。
分群是依據最共有的特征將眾多客戶聚類到一起。由于寬表中字段變量非常多,若對每個字段都進行輸入聚類,顯然是不合適。研究發(fā)現(xiàn)寬表中的一些變量對展示客戶的特征特別明顯,經過歸類,可分為11類,分別是(1)平均費用;(2)平均時長;(3)平均次數;(4)去向;(5)時段;(6)趨勢;(7)客戶信息;(8)產品信息;(9)付費信息;(10)客戶交互信息;(11)類型分布比例。
這些字段變量反映了寬表設計維度包括的字段類型,這些變量可以通過客戶ID在各數據源中提取到,將客戶各類的數據源,對應11個維度類型按一定的規(guī)則進行ETL,這樣就生成包含幾百個變量的寬表。
(2)寬表變量V_B分群研究。輸入變量的設計直接影響分群模型結果的好壞,因此,通過仔細對輸入變量進行了研究后發(fā)現(xiàn),無論是次數、時長等變量,還是費用、產品擁有情況等變量,這些變量跟客戶所消費的產品價值和使用行為密不可分。如果把這些分類合并成價值(產生直接費用,Value)和行為(影響話務量變化的習慣特征,Behave)兩大類,對分群模型的建立將會是非常清晰和直觀的。同時,行為和價值這兩個因果變量,有很強的關聯(lián)性。消費行為是產品使用費用的直接原因,消費行為又反映了客戶的心理需求和使用習慣,價值又是客戶對電信的貢獻程度。按照客戶的價值和行為為出發(fā)點對客戶進行分群,分出的客戶群將對福州電信今后的市場營銷有直接指導意義。
通過價值和行為變量的確定,可以形成這種交叉的聚類。在采用挖掘軟件回寫數據的時候,加入V_code 和B_code群號,這是價值和行為衍生的分群類別的標識變量,為客戶分在哪個群組中提供了重要的保證。
因此,寬表變量集匯總為價值和行為兩大類,確定了數據挖掘軟件的最終輸入變量就是價值和行為為聚類維度。只要是與客戶消費行為和貢獻價值有關的數據,都需要提取到寬表中。經過以上的分析設計,寬表最終的數據結構如表1所示。
表1 寬表數據結構示例
客戶編號在網時長月平均費用…國內長途時長催繳次數…客戶年齡客戶性別…B分群得分V分群得分…
12345435…102…23男…54…
78912116…50…45男…71…
…………………………………
客戶ID價值字段行為字段人口統(tǒng)計學模型記分
3 數據挖掘的關鍵技術
3.1 數據挖掘的K-means算法
本次數據挖掘主要解決的是對電信客戶分群這樣一個具體問題,而且在分群的時候并不是按照人為制定的規(guī)范去分類,我們希望得到的是按照客戶內在具有的未知的、潛在的特性去分類。這就是一個典型的聚類問題。
所謂聚類,就是按照事物的某些屬性聚集成類,使得類間的相似性盡可能的大。聚類算法主要種類有劃分方法、層次方法、密度方法、網格方法、K一最近鄰法、模型方法等。多數電信行業(yè)軟件針對單因素客戶細分都使用劃分方法,部分使用了K-MEANS、模型方法做綜合細分。
在這么多的聚類算法中,我們選擇K一means算法來解決我們的問題。主要因為這種算法是解決聚類問題的一種經典算法,它的主要優(yōu)點是算法簡單、快速而且能有效地處理大型數據庫。盡管它也有一些缺點,但是對于電信這樣的數據密集型企業(yè),能否有效的處理大型數據庫是我們關心的重點。像前面提到的基于密度的聚類算法雖然也可以實現(xiàn)聚類,但當數據量增大時,它就不能較好的完成聚類。
3.2 應用KXEN軟件進行商客分群建模
本次對商客的分群建模共涉及福州5萬多商業(yè)客戶,8萬多的號線資源,源數據經過ETL過濾后,生成商客的寬表數據,共296個字段,經過前期對KXEN軟件的使用,我們發(fā)現(xiàn)并非將所有的變量都按V_B進行分類后投入數據挖掘軟件進行分群就可以得到較好的結果,需要對變量有所取舍,減少干擾。因此,我們重新過濾了所有的寬表變量,將它們分為三類,價值V變量58個,行為B變量89個和輔助E變量148個,還有一個客戶編碼作為主鍵。
4 數據挖掘結果分析評估
關于商業(yè)客戶的數據挖掘結果。本次對福州5萬商業(yè)客戶采用KXEN軟件進行分群,將58個價值變量分為了7類,89個行為變量分為了9類,通過V_B的二維交叉組合,形成了福州商客的V-B矩陣圖,如圖2福州商客分群矩陣圖。
圖2 福州商客分群矩陣圖
從該圖可以看出每個客戶都能用一個二維的坐標來形容或確定,就形成了交叉V-B矩陣。按照這種行為和價值組合的相似性,將相關點進行合并歸類,形成最終分群結果,所分的群用紅色框標識出來并起一個名稱,例如:SS1(Strategic Segmentation 1)稱為戰(zhàn)略分群1。具體分群結果和描述上圖中也已給出,如SS1被定義為高值高危企業(yè)。
根據以上對福州商客分群矩陣圖的分析,我們可以看到,在所形成的9個分群中,客戶群中的客戶之間有很強的相似性,而客戶群和客戶群之間的區(qū)別也非常明顯。更重要的是,公司對不同的客戶群能夠采取不同的措施進行營銷。因此我們可以確認本次的分群結果是有效的,并有實際的指導意義和可操作性。
5 結語
根據合理的客戶細分策略,為客戶提供有針對性的個性化服務是當前每個電信運營商都十分重視的工作,在以客戶洞察力營銷核心方法論的指導下,我們堅信,隨著數據挖掘技術的普及與提高,建立在數據挖掘技術基礎上的針對性市場營銷策略必將成為電信企業(yè)提升企業(yè)品牌和核心競爭力的重要籌碼。
參考文獻
[1]郭道寧,舒華英.數據挖掘在電信運營市場決策支持中的應用[J].北京郵電大學學報(社會科學版),2004,(2):15-16.
[2]Ralambondrainy H.A Conceptual Version of the k-Means Algorithm,Pattern recognition Lettes,16,1147-1157.
[3]吳志勇,吳躍.數據挖掘在電信業(yè)中的應用研究[J].計算機應用,2005,3(4):20-21.
[4]D.Margineantu,S.Bay,P.Chan,T.Lane.Data Mining Standards,Services and Platforms 2005 Workshop Report.ACM SIGKDD December 2005,7(2):137.