999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進K-Means算法的保險客戶細分研究

2016-12-28 01:22:55張君韜何麗
現代計算機 2016年33期
關鍵詞:數據挖掘

張君韜,何麗

(天津財經大學理工學院,天津 300222)

基于改進K-Means算法的保險客戶細分研究

張君韜,何麗

(天津財經大學理工學院,天津 300222)

通過聚類實現客戶細分,能夠從客戶的人口統計信息和歷史消費行為中發現客戶的購買偏好和購買行為,這將為保險行業的營銷決策制定提供重要依據。針對傳統K-Means算法對于客戶細分初始條件敏感的弱點,提出基于黃金分割的改進K-Means聚類方法,該方法能夠確定最佳聚類個數,并通過實例驗證該算法在保險客戶細分中的有效性。

客戶細分;保險;K-Means聚類;數據挖掘;主成分

0 引言

客戶細分最早由美國著名的市場學家溫德爾·史密斯(Wendell R·Smith)提出,指企業按照客戶屬性將客戶群體分為若干個子客戶群體,并實現細分后不同客戶群體之間的差異最大化,每個客戶群體盡可能的相似。隨著保險市場競爭的日趨激烈,各保險企業匯集了大量客戶信息和業務數據,這些數據背后隱藏客戶的行為偏好和消費潛力。應用數據挖掘中的聚類方法可以有效地實現保險客戶的細分,從而發現不同客戶群的行為偏好和未來的購買偏好。

本文針對保險行業客戶數據的特征和客戶分析目標,提出了基于主成分分析和改進K-Means算的客戶細分模型,并使用荷蘭數據挖掘公司Sentient Machine Research為the COIL CHALLENGE 2000大賽提供的保險客戶數據對提出的模型的有效性進行了驗證。

1 細分變量提取

細分變量選擇是建立客戶細分模型首先要解決的問題。考慮到保險客戶數據一般包含很多屬性,且不同的屬性之間存在一定的相關性,本文將客戶細分變量的提取分成兩個主要階段:數據預處理階段和主成分分析階段。

1.1 數據預處理

數據挖掘中數據預處理的主要任務是對目標數據集中的數據進行清洗、過濾和數據格式轉換等。保險客戶數據庫通常是由保險企業多個不同險種數據庫整合而來的,存在客戶信息的不完整和屬性值取值范圍不一致性等情況。為了實現客戶細分結果的準確有效,需要對客戶數據庫中的相關屬性進行數據清洗和數據轉換等。其中,數據清洗過程完成對缺省值、無效值和未知值的處理;數據轉換完成數據泛化過程。所謂泛化處理就是用更高層次的概念來取代低層次的對象。

1.2 主成分分析

經過預處理后的客戶屬性少則幾十個,多則上百個,而且這些變量之間可能會存在較強的相關性而產生冗余。主成分分析是一種對高維數據進行降維處理的一種分析方法。通過主成分提取,不僅可以消除相關性變量所產生的信息冗余,還可以有效降低客戶細分聚類模型的輸入維度。主成分在代數學上是p個隨機變量X1,X2,…,Xp,的一些特殊的線性組合,每個線性組合利用原數據變量生成新變量,即主成分。設隨機向量X=[X1,X2,…,Xp],考慮隨機向量的線性組合如公式(1)。

主成分是Y1,Y2,…,Yp中方差盡可能大的那些不相關的線性組合。Y1表示第一主成分,即Var(Y1)最大。一個變量的方差越大,表示其包含的信息越多。為了不丟失原始隨機變量中的有價值信息,一般需要選擇k個主成分(k≥2)。為了保證任意兩個主成分之間不存在信息重合,主成分Yi,Yj,之間的協方差需要滿足Cov(Yi,Yj)=0,1≤i,j≤k且≠j。

本文通過主成分分析法來提取客戶數據集中的主成分變量和與任何變量都不相關的變量作為客戶細分模型的輸入變量。

2 基于改進K-Means算法的客戶細分模型

聚類分析是一種實用的多元統計分析方法,它將一批樣本按照它們在性質上的親疏、相似程度進行分類。分類的目標是使同一類中的樣本之間具有較大的相似性,不同類樣本之間的相似性盡可能小。K-Means聚類,也稱為動態聚類算法,是客戶細分中最常用的聚類算法之一。在傳統的K-Means聚類算法描述中,初始聚類個數k的取值和初始聚類中心的選擇將直接影響K-Means的聚類結果,并且K-Means的聚類結果也無法反映最優聚類個數。本文借鑒“黃金分割”思想,在傳統K-Means算法中引入評價指標validty(k),并通過該評價指標來確定K-Means的最佳聚類個數。validty(k)評價指標定義如公式(2):

(1)確定最小、最大聚類個數k1,k2;

(2)從k1到k2進行迭代,對每次迭代的k(k1≤k≤k2):

①利用傳統K-Means聚類算法算法產生聚類結果(k,U);

②計算聚類有效性的指標函數validty(k);

(3)從中選取kopt使得聚類有效函數validty(k)達到最大;

(4)輸出最優聚類結果(kopt,Uopt);

(5)終止。

3 模型驗證

本文實證數據來源于荷蘭數據挖掘公司Sentient Machine Research為the COIL CHALLENGE 2000大賽提供的數據,共有5822條紀錄,每條記錄擁有86個屬性,其中載有社會人口信息(屬性1-43)和客戶行為與產品信息(屬性44-86)。社會人口信息來自郵政編碼,同一地區的客戶具有相同的社會人口屬性。

3.1 細分變量選擇

經過檢查本數據集存在大量缺失值,但沒有未知值和無效值。為了簡化處理流程,本文對數據集中的缺失值全部用0代替。為了完成細分過程,還需要對年齡和客戶主要類型這兩個屬性進行泛化處理。10個主要客戶類型:Successful Hedonists,Driven Growers,Average Family,Career Loners等分別用數值1,2,…,10替代;對于年齡屬性,將其泛化成6個不同的區間:20-30 years,30-40 years,40-50 years,50-60 years,60-70 years,70-80 years,區間取值分別為1,2,3,4,5,6。

為了在不丟失信息的前提下降低客戶細分模型的輸入維度,在數據集的屬性結合應用主成分分析,并對相關性較高的屬性提取主成分,這些主成分和與任何屬性都不相關的屬性一起作為細分模型的輸入變量。

本文調用SAS Proc Corr過程對數據集中86個屬性的相關性進行分析,其中Number of fire policies與Contribution of fire policies的偏相關系數為0.86554,P〈0.05,說明二者有顯著相關性,Contribution of car policies與Number of car policies的偏相關系數為0.91615,P〈0.0001,說明二者也具有顯著相關性,由此得出保險客戶各險種繳納的保費與各險種的購買數量顯著相關。數據集中屬性44-64是與保費相關的屬性,屬性65-85是與保險數量相關的屬性,為消除相關帶來的冗余,本文選取屬性44-64進行主成分分析。根據屬性之間的相關性分析結果,最終篩選出:Customer Subtype,Number of houses、Avg age、Living together、Singles等32個屬性進行主成分分析。

為了進一步消除相關變量帶來的信息冗余,接下來應用SAS的Proc Princomp過程對這32個屬性進行主成分分析,其中特征值大于0.93的主成分共有17個,這17個主成分分別是:Customer Subtype、Number of houses、Avg age、Medium level education、Home owners、1 car、Average income、Contribution private third party insurance、Contributioncarpolicies、Contribution moped policies、Contribution life insurances、Contribution familyaccidentsinsurancepolicies、Contributionfire policies、Contribution boat policies、Contribution property insurance policies、Contribution social security insurance policies和Number of mobile home policies。這17個屬性將作為客戶細分模型的最終輸入變量。

3.3 模型驗證

為了驗證客戶細分模型的穩定性,本文從5822條數據里,選擇2500條作為測試集,并分成兩個測試組。

第一組:首先把5822條數據分成15個類,再根據這15個類各自的類中心作為測試集進行聚類分析的初始聚類中心,然后調用SAS的PROC Fastclus過程,并把Replace設置成NONE,進行分組。

第二組:直接對測試集2500條記錄進行聚類分析,分成15組。

表1 客戶細分結果

將測試集上兩次分組的結果與上述聚類的結果進行比較發現:三次聚類的客戶比例基本相同,測試第一組的類中心和原始組相同,第二組類中心點與原始組也大致相同。表2中給出了customer subtype屬性在兩次聚類中各組的平均值。從該結果可以看出,兩組的聚類中心基本接近,說明聚類結果基本可以接受。

3.2 細分結果

4 結語

本文使用SAS的PROC Fastclus過程實現了KMeans聚類。考慮到樣本數據的聚類數一般比較接近聚類輸入變量的個數。為了獲得最佳聚類個數,選擇k從2到17,并對每個k值運行5次,計算每次聚類結果的max validity(k),然后計算每個k值對應的max validity(k)平均值。根據max validity(k)平均值越大越好的原則,最終選擇初始聚類數k=15。最后獲得的客戶分布如表1所示。

通過主成分分析方法可以有效消除客戶不同屬性之間的相關性,改善K-Means聚類結果的正確性和運行效率。引入validty(k)的K-Means聚類方法克服了傳統K-Means算法需要預先指定聚類數的弱點,能夠客觀地確定K-Means算法的最佳聚類個數。用改進的K-Means聚類分析模型對保險客戶進行細分研究,能夠獲得正確的客戶分布。根據客戶細分的結果及其特征,保險企業可以針對不同的客戶群設計不同的營銷計劃,捆綁多種不同的保險業務,以增加客戶對企業產品的擁有率,爭取更多有價值的潛在客戶。

表2 各簇中心點customer subtype的值

[1]宋加升,陳琰.改進的K-Means聚類算法在保險客戶信用分析中的算法實現.哈爾濱理工大學學報[J],2009(2):12-13.

[2]馬子斌,楊鴻賓.客戶細分在電信營銷中的應用研究[J].計算機系統應用,2009(3):105-108.

[3]趙珩君.客觀聚類在客戶價值細分中的研究.情報雜志[J],2009,28(3):151-153.

[4]范英,張忠健,凌君邀.聚類方法在通信行業客戶細分中的應用[J].計算機工程,2004(12):440-441.

[5]KE WANG,SENQIANG ZHOU.Mining Customer Value:From Association Rules to Direct Marketing[J].Data Mining and Knowledge Discovery,2005(11),57-79.D

Research on the Insurance Customer Segmentation Based on Improved K-Means Algorithm

ZHANG Jun-tao,HE Li

(School of Science and Technology,Tianjin University of Finance and Economics,Tianjin 300222)

Customer segmentation by clustering can discover customer purchase preferences and potential buying behaviors from demographic information and the history of consuming behaviors,and these will be the important basis for insurance companies to make decisions.Considering the traditional K-Means algorithm is sensitive to initial conditions for the customer segmentation,proposes an improved K-Means clustering method based on golden section which can determine the optimum number of clusters.Empirical analysis proves that this algorithm is effective in insurance customer segmentation.

Customer Segmentation;Insurance;K-Means Clustering;Data Mining;Principal Components

2015年地方高校國家級大學生創新創業訓練計劃項目

1007-1423(2016)33-0014-04

10.3969/j.issn.1007-1423.2016.33.003

張君韜(1995-),男,北京人,本科,研究方向為數據挖掘

2016-09-20

2016-10-20

何麗(1969-),女,博士,教授,研究方向為數據挖掘、云計算

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 制服丝袜在线视频香蕉| 国产免费久久精品44| 试看120秒男女啪啪免费| 国产全黄a一级毛片| 国产国产人成免费视频77777| 国产欧美在线| 毛片卡一卡二| 情侣午夜国产在线一区无码| 另类综合视频| 日韩经典精品无码一区二区| 日韩无码黄色| 亚洲国产成人精品一二区 | 国产h视频在线观看视频| 一级香蕉视频在线观看| 久久久久亚洲Av片无码观看| 国产青榴视频在线观看网站| 婷婷伊人久久| 2020国产在线视精品在| www.精品视频| 免费A级毛片无码无遮挡| 影音先锋亚洲无码| 亚洲国产精品一区二区高清无码久久| 亚洲综合色婷婷中文字幕| 免费一级毛片在线播放傲雪网| 97在线免费| 国产乱码精品一区二区三区中文 | 亚洲色婷婷一区二区| 精品伊人久久久大香线蕉欧美| 综合久久久久久久综合网| 亚洲va视频| 蜜臀av性久久久久蜜臀aⅴ麻豆| 欧洲成人在线观看| 丁香婷婷久久| 亚洲swag精品自拍一区| 无码av免费不卡在线观看| 无码啪啪精品天堂浪潮av| 婷婷综合缴情亚洲五月伊| 欧美视频在线播放观看免费福利资源| 思思热精品在线8| 亚洲第一中文字幕| 一级做a爰片久久免费| 欧美69视频在线| 亚洲日韩国产精品无码专区| 国产精品分类视频分类一区| 99精品在线视频观看| 久久久波多野结衣av一区二区| 欧美一区精品| 国产高清在线观看| 久久中文无码精品| 国产精品第三页在线看| 日本一区二区三区精品国产| 99在线视频免费观看| 亚洲男人的天堂在线观看| 日韩精品无码不卡无码| 青青国产视频| 国产一区二区免费播放| 国产九九精品视频| 91成人试看福利体验区| 日本国产在线| 一级毛片在线免费视频| 在线欧美一区| 亚洲精品无码在线播放网站| 欧美成人午夜影院| 中文字幕第1页在线播| 午夜精品福利影院| 亚洲AV电影不卡在线观看| 99久视频| 国产色婷婷视频在线观看| 午夜日b视频| 国产人在线成免费视频| 中文字幕在线视频免费| 午夜欧美在线| 国产本道久久一区二区三区| 亚洲综合久久成人AV| 亚洲精品不卡午夜精品| av无码久久精品| 中文字幕亚洲专区第19页| 久久 午夜福利 张柏芝| 欧美精品v| 日韩黄色大片免费看| 又黄又湿又爽的视频| 欧美一级在线播放|