郭春麗,李明東 ,趙 剛
(西華師范大學計算機應用研究所,四川南充637002)
ID3算法在汽車售后服務中的應用
郭春麗,李明東 ,趙 剛
(西華師范大學計算機應用研究所,四川南充637002)
決策樹算法被成功應用到很多分類問題上,其中ID3算法是其典型算法.文中就該算法在汽車售后服務企業客戶特征分析中的應用做了實例研究.闡述了ID3算法的原理以及實現算法,分析了客戶的特征.以一個具體的案例講解了ID3算法在汽車售后服務企業中客戶管理的具體應用流程.文中實現ID3算法作用于汽車售后客戶的數據,得到一個客戶特征分析模型,可以幫助汽車企業根據不同特征的客戶采取不同的策略,從而獲得較大利潤.
數據挖掘;汽車售后;ID3算法
據調查,國外汽車的80%的利潤是由售后服務得到,而整車銷售只占總利潤的20%,因此很多公司都努力提高汽車售后服務水平.而隨著數據庫的多年使用,在日益競爭激烈的汽車行業里,汽車售后服務商存有大量的客戶數據.如何提高汽車售后服務水平,發現客戶的需求和服務中的一些規律,這些將成為汽車售后服務企業關心和重視的問題,鑒于此種情況,本文利用數據挖掘技術ID3算法,根據汽車售后服務業客戶消費行為特征對客戶進行細分及客戶特征分析,把大量的客戶按照標準分成不同的類.最終根據客戶的類別屬性特征,為不同的類型的客戶制定不同營銷策略,從而為企業獲得較高的利潤.
決策樹算法ID3處理離散型描述屬性,因此在選擇根節點以及各內部節點上的分枝屬性時,將信息增益作為度量標準.ID3算法的基本原理是:
假設給定的數據集為X={(xi,yi)|i=1,2,…,total},其中樣本 xi(i=1,2,…,total),用 d維特征向量 xi=(xi1,xi2,…,xid) 來表示,xi1,xi2,…,xid分別對應 d 個描述屬性 A1,A2,…,Ad的具體取值;yi(i=1,2,…,total) 表示樣本 xi的類標號.假設所要研究的分類問題含有m個類別,則yi∈{c1,c2,…,cm}.需要強調的是,創建根節點時,數據集X是最初給定的所有數據,在創建內部節點時,數據集X是上層節點的某分支上對應的數據集.
假設nj是數據集X中屬于類別cj的樣本數量,則各類別的先驗概率為:

其中j=1,2,…,m.對給定數據集X所需的期望信息為:

假設描述屬性Af(f=1,2,…,d)具有q個不同的取值 {a1f,a2f,…,aqf},利用描述屬性可以將數據集X劃分為q個子集,其中Xs(s=1,2,…,q) 中樣本在Af上具有相同的取值asf.設ns表示子集Xs中的樣本數量,njs表示子集Xs中屬于類別cj的樣本數量.則有描述屬性Af劃分數據集X所得的熵為

其中

其中,pjs=njs/ns表示在子集Xs中類別為cj的數據樣本所占的比例.式(4)中的熵值越小,表示屬性對數據集劃分的純度越高.
根據式(2),式(3)和式(4),可以得到利用描述屬性Af(f=1,2,…,d)劃分數據集時信息增益,如式(5)所示.

選擇具有最高信息增益的描述屬性作為給定數據集X的分枝屬性,從而創建決策樹中的一個節點,并且根據該描述屬性的不同取值再創建分支,之后對各分支中的樣本子集遞歸調用上述方法建立該節點的各個子節點.當某個分枝上的所有數據樣本樣本都屬于同一個類別時劃分停止,形成葉節點;或者當某個分枝上的樣本不屬于同一個類別,但是又沒有剩余的描述屬性可以進一步劃分數據集時也形成葉節點,并且用多數樣本所屬的類別來標記這個葉節點.
輸入:給定訓練集Xtrain,其中每一個訓練樣本均是由一組描述屬性的具體取值表示的特征向量,并且每個訓練樣本都有類標號;給定描述屬性組成的集合,作為決策樹種根節點和各內部節點上的分支屬性的候選集.
輸出:決策樹.
(1)如果訓練集Xtrain中的樣本都屬于同一個類別,則將根節點標記為葉節點,否則進行第(2)步.
(2)如果描述屬性集為空集,則將根節點標記為葉節點,類標號為Xtrain中包含樣本數量最多的類標號,否則進行第(3)步.
(3)根據信息增益評價標準,從給定的描述屬性集中選擇一個信息增益的值最大的描述屬性作為根節點的分支屬性,之后進行第(4)步.
(4)按照根節點中分支屬性的具體取值從根節點進行分枝,假設測試屬性有M種取值,則Xtrain被劃分為M個樣本子集,每個具體的樣本子集對應一個分支,而且其中的樣本具有相同的屬性值,之后進行第(5)步.
(5)對于根節點下面的各個內部節點,采用遞歸調用的方法重復步驟(1)~(4),繼續選擇最佳的分支屬性作為內部節點,直到所有的樣本都被歸類于某個節點為止.
某汽車4S店在經過多年的電腦化管理之后,擁有大量的客戶基本信息.在客戶信息表中有很多屬性.在數據準備時,由于決策樹的建立要求沒有噪音數據與缺失數據,因此需要除掉表中一些不必要的屬性,進行屬性概化,將連續屬性概化為區間值.由于是以分析客戶的特征性指標為例,所以選取了代表客戶特征的四個屬性:性別,月收入,婚姻狀況,學歷.類別是客戶類別,分為一類客戶、二類客戶、三類客戶.其中第一類客戶是重要發展客戶,即最近來店消費時間距現在較近,但研究時間范圍內,客戶來店內接受服務的次數和消費總額均低于整體平均值;第二類客戶定位為重要挽留客戶,最近來店消費時間距現在較遠,研究時間范圍內客戶來店內接受服務的次數低于平均值,但消費總額高于整體平均值,即目前來看企業較有價值的客戶;第三類客戶是客戶最近來店消費時間距現在較近,且研究時間范圍內客戶來店內接受服務的次數和來店消費總額均高于整體平均值,說明客戶經常來店接受服務且消費金額較大,即目前來看是企業最有價值的客戶.
本實證研究基于某汽車4S店2010年服務記錄,選擇客戶的本體信息包括性別與月收入,婚姻狀況和學歷來進行特征分析,對數據進行預處理之后得到表1.

表1 數據預處理后的某4S店客戶信息表
用ID3算法構建客戶特征分析決策樹:
圖1 為利用ID3算法對客戶特征屬性分析得出的決策樹.

圖1 運用ID3算法得到的決策樹
通過決策樹可得到如下分析結果:月收入高且學歷偏高的人比較有可能是重要發展客戶,而月收入高但學歷中等的人比較可能是重要保持客戶;月收入中等的人比較可能是重要挽留客戶;月收入低已婚的男性或者學歷偏高的女性可能是重要保持客戶,而月收入低已婚的中等學歷的女性有可能是重要發展客戶,月收入低未婚的男性比較有可能是重要保持客戶.根據客戶的類別屬性特征,汽車4S店可以為不同的類型的客戶制定針對性的營銷策略.比如當我們接待一位潛在的客戶時,可以根據他的一些本體屬性大致判斷該客戶屬于哪一種客戶,然后有針對性的采取相應策略,比如對于重要發展客戶,可以通過分析客戶需求或者促銷等措施,在未來不斷提升該類客戶價值;對于重要挽留客戶由于最近沒有來店消費了,這時企業需要弄清該類客戶最近沒有來店消費的原因,比如是否對本店的服務不滿意.或者去了別的店.企業應盡力去挽留該客戶,不斷提升該類老客戶的忠誠度,使該類客戶慢慢發展為本店最有價值的客戶;對于重要保持客戶,企業應該珍惜該類客戶對本企業的忠誠度,與之保持良好關系,使該類客戶在未來成為企業的最有價值客戶.通過以上措施.可以幫助企業節約成本,從而獲得最大利潤.
研究了決策樹分類算法ID3,通過該算法作用于汽車售后服務數據,得出一個根據汽車售后服務中客戶特征模型,可以使企業根據客戶價值級別的不同,更好的在客戶中分配企業有限的資源.同時根據客戶的不同需求,設計和實施不同的客戶保持策略.通過這些可以使企業牢牢保持對企業來講最有價值的客戶,從而提高企業的利潤.
[1]韓秋明,李微,李華鋒,等.數據挖掘技術應用實例[M].北京:機械工業出版社,2009:31-112.
[2]韓慧,王建新,孫俏,等.數據倉庫與數據挖掘[M].北京:北京大學出版社,2009:108-116.
[3]胡可云,田鳳占,黃厚寬.數據挖掘理論與應用[M].北京:清華大學出版社,2008:18-22.
[4]劉遠琳,孫細明.客戶分類系統的ID3算法流程及實現[J].計算機與數字工程,2009(3):88-90.
[5]楊明,張載鴻.決策樹學習算法ID3的研究[J].計算機技術與發展,2002,12(5):6-8.
Application of ID3 Algorithm in Automotive After-sale Service
GUO Chun-li,LI Ming-dong,ZHAO Gang
(Institute of Computer Application,China West Normal University,Nanchong,Sichuan 637002,China)
Decision tree algorithm has been successfully applied in much classification issue.ID3 algorithm is the representative algorithm.The application of algorithm has been given an instance study for the analysis of the customer features in the automotive after-sale service.Describing the principle and implementation of the ID3 algorithm and analyzing the features of the clients,also explaining concretely the approach of how to use ID3 to manage the clients in the automotive after-sale service.At the end,setting up the customer characteristics analysis model of automotive after- sale services.Through those strategies,the companies can realize the maximization of their total profits.
data mining;automotive after-sale service;ID3 algorithm
TP274
A
1008-7974(2011)10-0019-03
2011-04-20
郭春麗(1984-),女,寧夏石嘴山人,在讀碩士研究生.李明東(1958-),男,四川廣安籍,教授,碩士生導師.
(責任編輯:王前)