999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

電信用戶呼叫行為的模糊聚類研究

2008-12-31 00:00:00
電腦知識與技術 2008年14期

摘要:電信用戶的通話行為聚類分析是一個新的研究領域,屬于數據挖掘范疇。為了對用戶行為進行有針對性的分析挖掘,發現客戶行為中隱藏的、有用的、未曾預料的知識,采用了模糊C均值(FCM)聚類算法,以模糊數學理論知識作為客戶行為聚類分析的方法,為電信企業客戶分析提供了量化依據,并采用Matlab為計算工具,給出了一個聚類分析實例,并初步建立了通話行為模型識別機制。實驗證明,本文采用的模糊聚類方法得到了滿意的分析結果。

關鍵詞:通話行為;數據挖掘;模糊聚類;模糊C均值(FCM)聚類

中圖分類號:TP301文獻標識碼:A文章編號:1009-3044(2008)14-20926-03

1 引言

近年來電信事業蓬勃發展,隨著市場競爭的充分展開和電信資費的不斷下降,對于客戶的消費行為分析顯得越來越重要。對用戶呼叫行為進行有效分析和辨識,是對客戶分群及市場細分的必要手段。本研究希望能應用模糊數學理論和數據挖掘領域中的聚類技術,對客戶呼叫行為進行分析,為電信市場細分和營銷策略計劃的制訂提供有效工具。

要分析電信用戶的呼叫行為,需要從用戶通話記錄中找出使用電話多和少,或是電信消費高和低的用戶分群。本研究采用模糊集理論[4]作為技術基礎,只關心如何能夠從用戶的通話記錄中剖析出有意義的信息,尚有其他許多種分類方法不在我們討論范圍之內。某些通話行為特別怪異的電信用戶,需要在后續研究中加以調整改進其分類。

2 相關研究

在本章節中,我們將針對本論文研究范圍的相關領域進行探討,第一部分為聚類技術介紹;第二部分為本文采用的模糊C均值(FCM)聚類算法的原理介紹。

2.1 模糊聚類技術(Fuzzy Clustering)

2.1.1 聚類分析的基本概念

聚類就是將數據對象分組成多個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大[1] 。聚類與分類不同,前者是一種無指導的學習,而后者是一種有指導的學習。在分類時對于目標數據中存在哪些類,事先已知,只需將每個數據點屬于哪一個類識別出來;而聚類事先未知有多少類,以某種度量為標準,將具有相似特征的數據對象劃分為一類,同時分離具有不同特征的數據對象。聚類需要考察所有的個體才能決定類的劃分,并由算法自動確定。

大多數對象沒有嚴格的屬性,他們在性態和類屬方面存在著中介性,具有亦此亦彼的性質,因此適合進行軟化分。模糊集理論的提出為這種軟劃分提供了有力的分析工具,即模糊聚類分析。

2.1.2 聚類分析的分類

從實現方法上分,模糊聚類分析方法可大致分為四種類型:譜系聚類法、基于等價關系的聚類方法、圖論聚類法和基于目標函數的聚類方法等。前三種方法不適用于大數據量的情況,難以滿足實時性要求較高的場合,因此在實際中應用并不廣泛。受到普遍歡迎的是第四種方法——基于目標函數的聚類方法,該方法把聚類分析歸結成一個帶約束的非線性規劃問題,通過優化求解獲得數據集的最有模糊劃分和聚類。設計簡單、解決問題的范圍廣,還可以轉化為優化問題而借助經典數學的非線性規劃理論求解,易于計算機實現。因此,基于目標函數的模糊聚類算法成為新的研究熱點。

2.2 模糊C均值(Fuzzy C-Means,FCM)聚類算法

模糊C均值(FCM)聚類算法首先由Dunn于1974年提出,并由Bezdek于1981年改進。這種算法能自動對數據對象進行分類并求出聚類中心和每個數據點的隸屬度,使得非相似性指標的目標函數達到最小,從而決定每個數據點的歸屬。

初始化:給定聚類類別數c,2≤c≤n,n是數據個數,設定迭代停止閾值ε,指定加權指數m;用值在[0,1]區間的隨機數初始化隸屬矩陣U,使其滿足約束條件式(1);

步驟一:計算c個聚類中心ci,i=1,…,c;

步驟二:計算目標函數式(2)。如果J小于ε,或相對于上一次J值的改變量小于ε,則停止;

步驟三:重新計算隸屬矩陣U,返回步驟一。

整個計算過程就是反復修改聚類中心和分類矩陣的過程。該算法的收斂性已經得以證明[3]:FCM算法能從任意給定初始點開始沿一個迭代子序列收斂到其目標函數Jm(U,P)的局部極小點或鞍點。

2.2.2 聚類有效性控制

利用Matlab 2006a提供的模糊邏輯工具箱(Fuzzy Logic Toolbox)中的fcm函數對通話記錄進行聚類,只需要輸入一個初始變量,即分類數c,就可以很快得出結果。但是,關于初始變量c的給定,不同的c值,會產生不同的聚類結果;即使是同一c值,有時也會產生不同聚類結果。這是由于算法結果一般地依賴于初始值,而初始值的給定在計算過程中是隨機的,有時候會不可避免地陷入局部最優而非達到全局最優,關于這方面的研究,可以參考文獻[2]。聚類有效性問題一般通過建立有效性函數來解決。這種函數用于衡量聚類的緊密度和分離度,以此來判定聚類的有效性。

其中,n為樣本數,中的下標表示FCM算法中的加權指數為2,dij表示樣本i與第j類聚類中心的距離。XIE-BENI指標可以解釋為(U,V)的總方差與V的分離性指標的比值。分類效果好時,各類中心間的距離應該最大,即分離性指標比較大。由此當對應最佳類數n*時,應該最小。

根據函數確定最佳類數n*的步驟如下:

(1) 給定c的范圍是。這是根據很多研究者的使用經驗和一些理論依據給出的;

(2) 計算當2≤c≤時每個整數c所對應的V值;

(3) 比較各V的值,取V最小時所對應的c值即為所求。

3 研究設計

3.1 分析數據構成

對電信用戶通話行為進行分析,可以利用大量的通話清單記錄經過整理出分析特征維度,采用FCM聚類進行分析。分析特征的選擇確定工作可以由專家憑經驗完成,也可以由散布矩陣跡、J-M(Jeffries-Matusita)距離和變換散度等參量為類別可分性準則的最佳特征子集的選取方法[2]。一般情況下特征數目多了會產生維數災難,但太少的特征將反映不出分析模式的總體信息。為便于實施,本研究采用專家選定的方式確定分析特征。

本文采用的聚類數據是隨機選擇了某地電信2006年6月至8月三個月共120個電話的通話特征數據,考慮到客戶的隱私權,將客戶的姓名及電話號碼略去,賦以識別號ID代之。

這是一個六維的高維度數據空間(客戶識別號ID非分析特征,不列為分析維度),特征屬性分別為長途呼叫總次數、長途呼叫不同被叫號碼個數、長途平均單次呼叫時長、市話呼叫總次數、市話被叫次數以及市話被叫不同主叫號碼數,如表1所示:

3.2 程序及結果

本文使用Matlab 2006a版中的矩陣運算判定聚類有效性,并用FCM函數對以上數據進行聚類,部分源代碼如下:

load analysisdata.dat

[center,U,obj_fcn] = fcm(analysisdata,4);

maxU = max(U);

index1 = find(U(1,:)==maxU);

……

line(analysisdata(index1, 1), analysisdata(index1, 2), 'linestyle','none','marker', 'o','color','g');

……

plot(center(1,1),center(1,2),'ko','markersize',15,'LineWidth',2)

plot(center(2,1),center(2,2),'kx','markersize',15,'LineWidth',2)

……

運算后得到以下結果:

對聚類有效性函數式(3),確定類數c。

一般地,取m=2,分母權值均為1,當類數2≤c≤10時,有效性函數V取得如下結果:c=4,V=3765.7414。

可以確定,當c=4時V取得最小值,因此可分為4類,聚類中心矩陣為:

聚類結果投影在維度“市話呼叫總次數”、“市話被叫總次數”上 的示意圖如圖1。

聚類中心點在各維的取值表征了該類的特征,因此客戶分類如表2所示。

3.3 簡單的模式識別

聚類完成后,可以用以下方法進行模式識別驗證:

(1) 按與中心距離的識別

算出聚類中心center后,新樣本可根據距離判定屬于哪一類,對于一個新樣本xk,如果,則xk屬于cj類。

(2) 按最大隸屬度原則來識別

如果,則xk屬于cj類。

由前面程序輸出可以得到隸屬度矩陣U,U為一個4×120的矩陣,表示120個樣本的在四類的隸屬度。

由于樣本數較多,截取一段結果圖示如圖2:

可以看到,矩陣U每一列之和為1,即是每一樣本的各類隸屬度之和為1。取每一列的最大值,最大值在第幾行,該樣本就屬于第幾種類型。

在此簡單抽取兩個樣本查看確認分類是否正確,如樣本:

樣本16屬于第一類“主叫活躍,被叫少”,而樣本89屬于第二類“主叫不活躍,被叫活躍”。經過查核某地電信IBSS系統及計費帳務系統,樣本16登記的屬性為“個體商鋪”;樣本89登記的屬性為“住宅”。客戶屬性的使用習慣與聚類結果相符。

4 結束語

電信用戶呼叫行為分析中聚類分析是一個新的研究領域,與之相似的研究可以追溯到市場營銷中的市場細分,市場細分與客戶聚類功能相同,都是將產品或服務的銷售對象進行分類。但兩者是有區別的,市場細分的分析數據來自企業外部,比如消費者的人口特征、區域特征、行業性質等等,用的只是一種“普遍適用”的策略,很難真正做到個性化服務。而客戶通話行為聚類分析的數據源自于企業內部掌握的通話記錄,根據客戶本身的使用行為、消費傾向,保證每個客戶的消費行為的連續性與一致性,有利于對現有客戶進行管理,如發現優質客戶,對不良客戶進行預警等。因此,對企業有很重要的意義。

應用模糊C均值聚類算法得到比較滿意的客戶聚類結果,主要體現在:區分出了優質客戶和普通客戶;找到了每一類客戶的特征。本文提出用FCM算法作為客戶通話行為(消費行為)聚類的方法,為企業提供分析的量化依據。

參考文獻:

[1] HSU T H. An application of fuzzy clustering in group-positioning analysis[J]. Proc Natl Sci, Counc ROC(C),2000,10(2):157-167.

[2] 高新波. 模糊聚類分析及其應用. 西安:西安電子科技大學出版社,2004,1:37-54.

[3] Bezdek J C. A convergence theorem for the fuzzy ISODATA clustering algorithm. IEEE Trans. PAMI, 1980, 1(2):1-8.

[4] Zadeh L A. Fuzzy logic. IEEE Trans. On Control System Magazine, 1988. 83-93.

[5] XIE X,BENI G A. validity measure for Fuzzy Clustering[J]. IEEE Transactions On Pattern Analysis and Machine Intelligence, 1991,13(8): 841-847.

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文

主站蜘蛛池模板: 中文字幕乱码二三区免费| 国产成人精品无码一区二| 亚洲性日韩精品一区二区| 国产亚洲精品自在线| 热思思久久免费视频| 91国内外精品自在线播放| 亚洲v日韩v欧美在线观看| 国产爽爽视频| 国产精品第| 国产a网站| 国产亚洲欧美在线中文bt天堂| 亚洲不卡影院| 91精品在线视频观看| 亚洲aⅴ天堂| 韩日免费小视频| 亚洲人成人无码www| 国产sm重味一区二区三区| 中文字幕免费在线视频| 亚洲性视频网站| 国内精品视频区在线2021| 2019年国产精品自拍不卡| 中文字幕佐山爱一区二区免费| 伊人久久福利中文字幕| 黄色一及毛片| 成人在线天堂| 国产嫖妓91东北老熟女久久一| 国产精品一线天| 欧美日韩精品在线播放| 特级毛片免费视频| 国产成人综合网| 黄色网页在线播放| 老司机久久99久久精品播放| 精品国产香蕉伊思人在线| 久久亚洲精少妇毛片午夜无码 | 人妻精品久久无码区| 999精品色在线观看| 日韩精品成人在线| 91原创视频在线| h视频在线观看网站| 免费福利视频网站| 国产色偷丝袜婷婷无码麻豆制服| 自慰高潮喷白浆在线观看| 成人国产精品视频频| 麻豆精品在线播放| 国产精品女人呻吟在线观看| 国产亚洲成AⅤ人片在线观看| 国产福利一区在线| 国产高清在线观看91精品| 国产亚洲精品97在线观看| 欧美日韩精品综合在线一区| 国产不卡国语在线| 永久免费av网站可以直接看的 | 国产理论最新国产精品视频| 一个色综合久久| 久久午夜夜伦鲁鲁片无码免费| 国产精品美女免费视频大全| 无码aaa视频| 日本午夜精品一本在线观看| 性喷潮久久久久久久久| 亚洲精品无码日韩国产不卡| 国产99久久亚洲综合精品西瓜tv| 国产福利不卡视频| 亚洲成人一区二区三区| 日本伊人色综合网| 精品91在线| 成人欧美在线观看| 亚洲色图欧美视频| 久久久久国产精品嫩草影院| 国产一级小视频| 露脸一二三区国语对白| 91色爱欧美精品www| 亚洲欧洲天堂色AV| 毛片网站在线看| 国产黄网站在线观看| 国产经典在线观看一区| 97综合久久| 亚洲天堂在线免费| 日韩123欧美字幕| 久久影院一区二区h| 99视频国产精品| 亚洲精品男人天堂| 久久久久亚洲Av片无码观看|