999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于支持向量機的紡織行業(yè)客戶流失分析研究

2008-12-31 00:00:00琚春華郭飛鵬盧琦蓓
計算機應(yīng)用研究 2008年11期

(浙江工商大學(xué) 計算機與信息工程學(xué)院, 杭州 310018)

摘要:針對紡織行業(yè)客戶流失問題建立了基于支持向量機的預(yù)測模型。基于該行業(yè)預(yù)測客戶流失指標(biāo)屬性多、相關(guān)系數(shù)高的特點,首先采用主成分分析法從多指標(biāo)屬性中篩選出客戶流失的主要因素,有效地降低了支持向量機的訓(xùn)練維度。通過實際紡織行業(yè)的客戶數(shù)據(jù)集測試,與普通支持向量機及其他傳統(tǒng)預(yù)測模型進行比較,驗證該模型具有良好的推廣能力以及更高的精確性。

關(guān)鍵詞:客戶流失; 主成分分析; 支持向量機; 紡織行業(yè)

中圖分類號:TP311文獻標(biāo)志碼:A

文章編號:1001-3695(2008)11-3308-03

Research of customer churn analysis in textile industry

based on support vector machine

JU Chun-hua, GUO Fei-peng, LU Qi-bei

(College of Computer Information Engineering, Zhejiang Gongshang University, Hangzhou 310018, China)

Abstract:To deal with customer churn problem in textile industry, this paper set up prediction model based on support vector machine(SVM). Due to easily-correlated、multi-index of indicative attributes in churn data, adopted principal component analysis(PCA) to screen out the main factors from a great deal of indicative attributes in order to reduce the training dimension of SVM effectively. With the application and verification in real textile data set, the result demonstrates that this model has a better universal property with higher precision than others.

Key words:customer churn; principal component analysis; support vector machine; textile industry



0引言

客戶流失是指企業(yè)原來的客戶中止繼續(xù)購買企業(yè)商品或接受企業(yè)服務(wù),轉(zhuǎn)而接受競爭對手的商品或服務(wù)。不同行業(yè)對客戶流失有著不同的定義,大致可分為自愿流失(導(dǎo)致客戶流失的首要責(zé)任在于客戶本身)和非自愿流失(客戶流失責(zé)任在于企業(yè)的一種客戶流失)[1,2]。紡織行業(yè)主要面向大宗交易,交易額高、交易量大;企業(yè)客戶群較為固定,且多數(shù)為大客戶、優(yōu)質(zhì)客戶,任何一個客戶的流失都將對企業(yè)造成利潤的大幅下降。因此,如何有效地識別哪些客戶可能是流失者(churner),哪些客戶是忠誠客戶,建立客戶流失預(yù)測模型已成為該行業(yè)成功至關(guān)重要的目標(biāo)。 

目前針對客戶流失問題,國內(nèi)外學(xué)者建立了決策樹、回歸模型、人工神經(jīng)網(wǎng)絡(luò)、神經(jīng)元網(wǎng)絡(luò)模型等預(yù)測模型,并取得了一定應(yīng)用效果[3]。但這些模型均要求數(shù)據(jù)量比較豐富,且模型的訓(xùn)練有一定的困難;而客戶流失是個二分類問題,且需要分類結(jié)果有較高的準(zhǔn)確性,上述模型的優(yōu)越性不能很好地體現(xiàn)出來。最重要的一點是,紡織行業(yè)有其特有的客戶流失數(shù)據(jù)特征,如數(shù)據(jù)集樣本少、非線性,且樣本維數(shù)相對較高等,導(dǎo)致這些模型的準(zhǔn)確率不太理想;客戶數(shù)據(jù)樣本點誤差較大,導(dǎo)致以上模型泛化能力不強。

本文建立了基于支持向量機(support vector machine,SVM)的紡織行業(yè)客戶流失預(yù)測模型。首先應(yīng)用主成分分析法從大量指標(biāo)中篩選出影響客戶流失的主要因素,在保留有效信息的前提下對數(shù)據(jù)進行降維,通過對實際紡織行業(yè)客戶數(shù)據(jù)的分析與實驗取得了良好的預(yù)測效果。基于該模型,企業(yè)能歸納流失客戶的特征,對具有相似流失特征的客戶采取針對性的措施,避免客戶的流失。

1基于PCA的SVM客戶流失預(yù)測模型

11支持向量機原理

SVM是基于VC(Vapnik-Chervonenkis)理論的機器學(xué)習(xí)方法。SVM分類模型的基本思想是構(gòu)造一個超平面作為決策平面,使正負(fù)模式之間的距離最大。SVM是從線性可分情況下的最優(yōu)分類面發(fā)展而來的,也是統(tǒng)計學(xué)習(xí)理論中最實用的部分。其基本思想可用圖1的二維情況說明。其中方格點和圓心點代表兩類樣本;((w·x)+b=0)為分類超平面,平行于超平面的分別為兩個過各類中離分類超平面最近的樣本的平面,它們之間的距離叫做分類間隔(margin)。所謂最優(yōu)分類面就是要求分類面不但能將兩類正確分開,且使分類間隔最大。可以看到[hyperplane]i也能將兩類樣本分開,但其分類間隔比H小。距離最優(yōu)分類超平面最近的向量稱為支持向量[4,5]。

設(shè)用分類超平面對給定訓(xùn)練數(shù)據(jù)集作二值分類,給定樣本點:

(x1y1),…,(xi,yi),…,(xm,ym),…,xi∈Rn,yi∈{-1,1}。其中:向量xi是從對象樣本集抽取某些特征直接構(gòu)造的向量,也可能是原始向量通過某個核函數(shù)映射到核空間中的映射向量。將m個樣本看成是n維空間中的平面:

(w·x)+b=0 (1)

(w·xi)+b≥1yi=1(w·xi)+b≤-1yi=-1  yi[(w·xi)+b]≥1 (2)

可以計算出,訓(xùn)練數(shù)據(jù)集到一個給定的分割平面的最小距離為

p(w,b)=min{xi|yi=1}[ (w·xi)+b]/|w|-

max{xi|yi=-1}[ (w·xi)+b]/|w|=2/|w|(3)

間隔最大等價于‖w‖2最小, 滿足條件(3) 且使‖w‖2/2最小的分類面就叫做最優(yōu)分類面。

利用Lagrange 優(yōu)化方法可以將上述最優(yōu)分類面問題轉(zhuǎn)換為其對偶問題,約束條件如下:

αi≥0,∑iaiyi=0;i=1,2,…,n(4)

φ(α)=∑iai-aiajyiyj(xi·xj)/2(5)

其中ai為原問題中與每個約束條件對應(yīng)的Lagrange乘子, 這是一個不等式約束下二次函數(shù)尋優(yōu)的問題,存在惟一解。 容易證明, 解中將只有少部分ai不為零,對應(yīng)的樣本就是支持向量。解上述問題后得到的最優(yōu)分類函數(shù)為

f(x)=sgn{(w·x)+b}=sgn∑ni=1a*iyi(xi·x)+b*(6)

式(6)中的求和實際上只對支持向量進行,b*是分類閾值, 可以用任一個支持向量求得,或通過兩類中任意一對支持向量取中值求得。

對于非線性的可分情況,可用一個非線性核函數(shù)Φ(x)將數(shù)據(jù)映射到一個高維特征空間;再在高維特征空間建立優(yōu)化的超平面(轉(zhuǎn)為高維特征空間的線性劃分問題)。設(shè)相應(yīng)的超平面為(w·Φ(x))+b= 0,則分類函數(shù)變?yōu)楠?/p>

f(x)=sgn[∑mi=1aiyi(x)·(xi)+b](7)

12基于主成分的SVM

主成分分析法是可以將多指標(biāo)轉(zhuǎn)換為少數(shù)幾個不相關(guān)的綜合指標(biāo)的一種多元統(tǒng)計分析方法,研究如何通過少數(shù)幾個主成分(即原始數(shù)據(jù)的線性組合)來解釋多變量的協(xié)方差,并有效地消除各個指標(biāo)間的相關(guān)性,即使各指標(biāo)代表的信息不重疊[6]。其主要步驟如下:

a)原始數(shù)據(jù)樣本集(xij) m×k的標(biāo)準(zhǔn)化(其中:m 為樣本數(shù);k為輸入因子數(shù))。 

b)建立相關(guān)矩陣, 計算矩陣的特征值和特征向量,利用標(biāo)準(zhǔn)化值計算變量間的相關(guān)系數(shù)。由k個變量可建立k 階相關(guān)矩陣,由此矩陣可獲得特征值λi(i=1,2,…,k),k個特征值對應(yīng)k 個特征向量, 每一特征向量包含k 個分量。

c)選取主成分。計算第i個主成分對總方差的貢獻率,即方差貢獻率%=λi/∑kj=1λj。按貢獻率由大到小的順序?qū)個主成分進行排序,貢獻率最大的主成分稱為第一主成分,其次稱為第二主成分,依此類推。選取主成分的個數(shù)取決于主成分的累計方差貢獻率,通常使累計方差貢獻率大于85%所需的主成分?jǐn)?shù)能夠代表k個原始變量所能提供的絕大部分信息。

d)建立主成分方程,計算主成分值,各主成分值方程為

ci=∑kj=1ajxj

其中:aj (j=1,2,…,k)為對應(yīng)于特征值λj特征向量的分量;xj為各變量的標(biāo)準(zhǔn)化數(shù)值。

紡織行業(yè)客戶數(shù)據(jù)集是由多個指標(biāo)屬性確定,包括靜態(tài)和動態(tài)指標(biāo)屬性,維度高。為了提高SVM預(yù)測模型的精確性,本文首先采用主成分分析法對指標(biāo)屬性進行降維,然后支持向量機采用徑向基核函數(shù)進行映射,從而將問題轉(zhuǎn)換為在高維空間H上進行線性分類。客戶流失預(yù)測模型如圖2所示。

2模型實驗和結(jié)果分析

筆者使用面向紡織行業(yè)電子商務(wù)體系示范工程項目數(shù)據(jù)庫中的6個月真實客戶相關(guān)數(shù)據(jù)的統(tǒng)計來驗證算法。

21客戶流失指標(biāo)屬性的選擇

客戶流失指標(biāo)包括目標(biāo)變量的選擇、輸入變量。目標(biāo)變量為客戶的狀態(tài)(ISLOSE):流失或正常,流失以客戶在六個月內(nèi)申請的用戶名注銷為準(zhǔn)。輸入變量的選擇包含靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)兩類。靜態(tài)數(shù)據(jù)指的是不會經(jīng)常改變的數(shù)據(jù)(如服務(wù)協(xié)議和合同開始時間、支付方式、產(chǎn)品描述等)和客戶的基本狀態(tài)(如企業(yè)規(guī)模、主營產(chǎn)品等);動態(tài)數(shù)據(jù)指經(jīng)常或定期改變的數(shù)據(jù)(如合同內(nèi)交易金額、訂單數(shù)量、客戶收到訂單產(chǎn)品后的付款行為等)。

根據(jù)對紡織行業(yè)的分析,抽象出了幾大關(guān)鍵表中的與客戶流失有密切聯(lián)系的核心屬性,設(shè)計屬性為客戶類型(是否繳費會員)、經(jīng)營規(guī)模、客戶等級(一般,星級,VIP級)、建立有效客戶關(guān)系時間、客戶當(dāng)前聯(lián)系狀態(tài)(是否可聯(lián)系)、自發(fā)生業(yè)務(wù)以來持續(xù)了多少個月、交易中新產(chǎn)品需求頻率、交易取消的頻率、交易減少頻率、交易收入、產(chǎn)品流通數(shù)量、發(fā)生交易的產(chǎn)品種類、客戶與競爭對手交易量、客戶間支付費用拖欠次數(shù)。

22數(shù)據(jù)預(yù)處理

a)對樣本數(shù)據(jù)進行穩(wěn)健性處理,選用兩倍、三倍標(biāo)準(zhǔn)差檢驗進行異常數(shù)據(jù)和不真實值的剔除;對樣本數(shù)據(jù)進行數(shù)據(jù)噪聲消除、缺失值補償預(yù)處理,除去服務(wù)類型、主營行業(yè)等一些不重要的字段,以及重構(gòu)了一些屬性間由于關(guān)聯(lián)而產(chǎn)生冗余的字段。

b)數(shù)據(jù)的時間窗分割,即2007年3月~9月作為自變量(模型輸入變量)的數(shù)據(jù)來源時間;2007 年7月作為預(yù)測時間間隔,其目的是為了給紡織企業(yè)留出應(yīng)對客戶流失的時間;2007年8、9月作為目標(biāo)變量(模型輸出)的數(shù)據(jù)來源時間。

c)抽取出156個訓(xùn)練數(shù)據(jù)和207個測試數(shù)據(jù)。分析這207個客戶的數(shù)據(jù)。其中:116個客戶在整個時間范圍內(nèi)客戶狀態(tài)為正常客戶;91個客戶在整個時間范圍內(nèi)客戶狀態(tài)為流失客戶。 兩樣本數(shù)量比較接近,符合SVM的學(xué)習(xí)要求;另一方面,在保持兩類樣本數(shù)據(jù)相當(dāng)?shù)那疤嵯拢?xùn)練數(shù)據(jù)用于構(gòu)造SVM模型,測試數(shù)據(jù)用于檢驗?zāi)P偷木_性,更好地體現(xiàn)SVM對于小樣本數(shù)據(jù)的學(xué)習(xí)能力以及模型的泛化能力。

d)對上述客戶樣本數(shù)據(jù)中的屬性值進行歸一化:

xi=xi/max(xi)

歸一化后的屬性值xi∈[0,1]。令客戶流失用y=-1標(biāo)志;客戶正常用y=+1標(biāo)志。

23主成分的確定

本文中用MATLAB 7.0軟件,調(diào)用主成分princom函數(shù),按[pc,score,latent,tsqare]=princomp()語法形式輸入,可以求得相應(yīng)系數(shù)。其中為pc主成分系數(shù);score為主成分得分;latent為特征值;tsqare為統(tǒng)計變量。各個主成分如表1所示,相應(yīng)的特征值及貢獻率如表2所示。

表1指標(biāo)體系結(jié)構(gòu)

序號指標(biāo)關(guān)鍵特征內(nèi)容

1建立有效客戶關(guān)系時間客戶當(dāng)前聯(lián)系狀態(tài)持續(xù)了多少個月

2交易減少頻率交易中新產(chǎn)品需求頻率、交易取消的頻率

3客戶類型是否繳費會員、客戶等級

4客戶與競爭對手交易量轉(zhuǎn)向其他企業(yè)

5交易收入產(chǎn)品流通數(shù)量、產(chǎn)品種類數(shù)量

6經(jīng)營規(guī)模注冊資本

7客戶間支付費用拖欠次數(shù)合同有效截至日期內(nèi)

表2為表1中的七個主成分指標(biāo)屬性(原來14個指標(biāo)屬性的線性組合)按貢獻率大小依次排序。

表2主成分的貢獻率表

序號特征值 貢獻率/%累計貢獻率/%

第1主成分4.261 322.393 922.393 9

第2主成分2.782 616.166 638.560 5

第3主成分2.698 513.869 052.429 5

第4主成分2.504 212.417 364.846 8

第5主成分2.088 910.517 875.364 6

第6主成分 1.530 16.819 7 82.184 2

第7主成分1.520 96.113 6 88.297 8

24實例結(jié)果和分析

將樣本數(shù)據(jù)集進行歸一化后作為訓(xùn)練數(shù)據(jù),SVM采用核函數(shù)徑向基函數(shù)。MATLAB編程計算結(jié)果如圖3所示。圖中灰色樣本點代表流失客戶,黑色樣本點代表正常客戶。

為了與其他預(yù)測方法進行對比,選用MATLAB 7.0工具箱中的決策樹模型(C5.0)、神經(jīng)元網(wǎng)絡(luò)模型算法對樣本數(shù)據(jù)進行測試,得到的結(jié)果如表3所示。其中:

a)TP(true position),正確肯定的數(shù)目,將流失的客戶預(yù)測為流失的數(shù)目;

b)TN(true negatives),正確否定的數(shù)目,將正常的客戶預(yù)測為正常的數(shù)目;

c)FP(1 positives),錯誤肯定的數(shù)目,將正常的客戶預(yù)測為流失的數(shù)目;

d)FN(1 negatives),錯誤否定的數(shù)目,將流失的客戶預(yù)測為正常的數(shù)目;

e)檢測率,TP/(TP+FN);

f)誤檢率,F(xiàn)P/(FP+ TN);

g)總體準(zhǔn)確率,(TP+TN)/( TP+FN+ FP+ TN)。

表3模型(算法)之間的比較

指標(biāo)

預(yù)測方法

決策樹神經(jīng)網(wǎng)絡(luò)SVM基于PCA的SVM

TP 93 97 100106

TN81 84 86 83

FP12 91010

FN21 17 11 8

檢測率 0.815 70.850 90.900 9 0.929 8

誤檢率 0.129 0 0.968 00.104 2 0.107 5

總體準(zhǔn)確率 0.840 6 0.874 40.898 5 0.913 0

從表3的指標(biāo)比較結(jié)果來看,本次實驗中使用主成分SVM模型的預(yù)測結(jié)果和決策樹、神經(jīng)網(wǎng)絡(luò)、SVM相比均具有一定的優(yōu)勢。

3結(jié)束語

本文綜合了主成分法和支持向量機,首先通過主成分分析法對樣本數(shù)據(jù)有效降維,然后利用支持向量機在數(shù)據(jù)處于小樣本、非線性及維度高情況下分類較精確的優(yōu)點,建立了基于SVM的紡織行業(yè)的客戶流失預(yù)測模型。該模型較好地解決了決策樹、神經(jīng)網(wǎng)絡(luò)的一些缺點;另外,相比普通的SVM,降維使模型具有更高的精確性和泛化性。實例證明,基于主成分的支持向量機客戶流失模型具有廣泛的應(yīng)用前景和應(yīng)用價值。

參考文獻:

[1]趙宇,李兵,李秀.基于改進支持向量機的客戶流失分析研究[J].計算機集成制造系統(tǒng),2007,13(1):202-207. 

[2]劉海東.基于數(shù)據(jù)挖掘?qū)徔椥袠I(yè)客戶和產(chǎn)品的分析 [D].上海:復(fù)旦大學(xué),2004.

[3]MOZER M C, WOLNIEWICZ R, GRIMES D B,et al. Churn reduction in the wireless industry[C]//Proc of the Advances in Neural Information Processing Systems. Cambridge:MIT Press, 2000:935-941.

[4]鄧乃揚,田英杰.數(shù)據(jù)挖掘中的新方法——支持向量機 [M].北京:科學(xué)出版社, 2004:25-120.

[5]劉麗珍,賀海軍.支持向量機在網(wǎng)頁信息分類中的應(yīng)用研究[J].小型微型計算機系統(tǒng),2007, 28(2):337-340. 

[6]LIANG Ying, JU Chun-hua, LIU Dong-sheng. Evaluative research into e-government sites based on BP neural network[C]//Proc of IEEE International Conference on E-Business Engineering. 2006. 

[7]陳濤,謝陽群.基于支持向量機的外貿(mào)企業(yè)客戶分類方法應(yīng)用研究[J].情報科學(xué),2006,24(7):1095-1098.

[8]MUKHERJEE S,OSUNA E,GIROSI F.Nonlinear prediction of chao-tic time series using a support vector machine[C]//Proc ofNeural Networks for Signal Processing VII-Proceedings of the Workshop. New York:IEEE, 1997:511-520.

[9]KEERTHI S, SHEVADE S, BHATTCHARYYA C. A fast iterative nearest point algorithm for support vector machine classifier design[J].IEEE Trans on Neural Network, 2000,11(1):124-136.

[10]CORTES C,VAPNIK V. Support vector networks[J]. Machine Learning, 1995,20(3):273-297.

主站蜘蛛池模板: 国产视频一区二区在线观看| 亚洲IV视频免费在线光看| 国产午夜不卡| 亚洲综合国产一区二区三区| 欧美午夜在线播放| 国产幂在线无码精品| 成年人午夜免费视频| 奇米精品一区二区三区在线观看| 免费不卡视频| 一区二区日韩国产精久久| 国产女人爽到高潮的免费视频 | 日韩毛片基地| 国产精品漂亮美女在线观看| 这里只有精品免费视频| 亚洲天堂区| a亚洲天堂| 国产黄网永久免费| 国产丝袜91| 香蕉久久永久视频| 亚洲天堂久久新| 亚洲中文字幕在线精品一区| 尤物午夜福利视频| 小说 亚洲 无码 精品| 看你懂的巨臀中文字幕一区二区 | 久久黄色一级视频| 999精品视频在线| A级毛片高清免费视频就| 国产欧美综合在线观看第七页| 成人午夜久久| 婷婷综合亚洲| 国产精品第一区| 亚洲a级毛片| 国外欧美一区另类中文字幕| 一级毛片免费高清视频| 欧美在线视频不卡第一页| 美女视频黄又黄又免费高清| 午夜少妇精品视频小电影| 超薄丝袜足j国产在线视频| 欧美一级高清免费a| 白浆视频在线观看| 一级不卡毛片| 在线播放91| 制服丝袜一区二区三区在线| 国产在线观看人成激情视频| 欧美一区二区啪啪| 亚洲视频免| 久久综合色视频| 欧美色99| 99视频在线观看免费| 国产午夜无码片在线观看网站| 福利一区三区| 成人午夜精品一级毛片| 国产精品无码一二三视频| 欧美在线国产| 亚洲国产天堂久久九九九| a毛片免费看| 国产裸舞福利在线视频合集| 久草性视频| 欧美日韩国产成人高清视频| 中文字幕第4页| 乱系列中文字幕在线视频| 久久一本精品久久久ー99| 国产精品嫩草影院视频| 久久黄色视频影| 中文字幕在线欧美| 制服丝袜无码每日更新| 青青久视频| 久久精品嫩草研究院| 天天综合网色中文字幕| 国产精品黑色丝袜的老师| 五月天婷婷网亚洲综合在线| 亚洲乱伦视频| 国产AV无码专区亚洲A∨毛片| 国产免费好大好硬视频| 精品少妇人妻一区二区| 日韩精品成人在线| 久久久久夜色精品波多野结衣| 欧美一区二区三区国产精品| 国产特级毛片| 日韩第一页在线| 国产一区二区福利| 这里只有精品国产|