摘 要:本文的目的是希望在保險公司壽險客戶對產(chǎn)品的索賠記錄上,通過數(shù)據(jù)挖掘的方法,發(fā)現(xiàn)影響客戶索賠次數(shù)的主要因素。應用數(shù)據(jù)挖掘技術(shù),通過對客戶的數(shù)據(jù)進行抽取、清洗和預處理,生成數(shù)據(jù)挖掘庫,并使用數(shù)據(jù)挖掘工具,利用決策樹方法建立模型,并對所分析出的模型及結(jié)果進行了分析理解及驗證,得出一些實用的控制壽險風險的規(guī)則。
關鍵詞:數(shù)據(jù)挖掘壽險決策樹
中圖分類號:TP311.13文獻標識碼:A文章編號:1674-098X(2011)08(b)-0192-02
壽險行業(yè)在我國雖然起步較晚,但改革開放以來,壽險業(yè)在我國取得長足發(fā)展,每家壽險公司都積累了自己龐大的信息庫,面對這些海量的數(shù)據(jù),如何加以合理分析與利用,是每家公司急于要解決或正在解決的問題。基于這樣的一個背景,本文應用數(shù)據(jù)挖掘的決策樹方法挖掘壽險數(shù)據(jù)中的投資風險規(guī)則。
1 國內(nèi)研究現(xiàn)狀
國內(nèi)的壽險業(yè)經(jīng)過近20年的發(fā)展,積累了大量的客戶數(shù)據(jù)和代理人數(shù)據(jù),目前國內(nèi)的各大壽險公司已經(jīng)從數(shù)據(jù)倉庫著手,建立自己公司的BI系統(tǒng),從目前的規(guī)模、IT人員技術(shù)的積累、市場競爭的加劇等客觀情況來看,數(shù)據(jù)挖掘在壽險業(yè)的應用的時機和條件都日趨成熟,只是在目前的條件下,數(shù)據(jù)挖掘在壽險行業(yè)的成功應用并不能一蹴而就,而需要一個循序漸進的過程。
雖然數(shù)據(jù)挖掘在壽險應用方面的研究還遠不如在基礎理論和技術(shù)方面的研究那么熱烈,但目前業(yè)內(nèi)已有很多成熟的數(shù)據(jù)挖掘方法論,為壽險領域的實際應用提供了理想的指導模型。
1.1 對保險業(yè)務風險分析,進行保費的制定
吉根林等人分別采用關聯(lián)規(guī)則和分類模型技術(shù)對壽險數(shù)據(jù)庫(由個人信息表、單位信息表、索賠信息表等數(shù)據(jù)表組成)進行壽險業(yè)務風險分析。通過關聯(lián)規(guī)則挖掘工具對個人索賠信息表進行挖掘,就可以得到一系列的關聯(lián)規(guī)則。通過關聯(lián)規(guī)則的挖掘,可以發(fā)現(xiàn)投保人中索賠具有什么特征,這樣壽險公司就可以有針對性地對潛在客戶開展工作,從而減少風險,提高公司盈利能力。通過分類模型進行風險分析,在壽險數(shù)據(jù)集中,選取是否索賠作為目標屬性,其它屬性作為條件屬性。利用決策樹生成工具對表所示的數(shù)據(jù)集生成一個決策樹,根據(jù)決策樹和投保人的詳細信息,可以預測一段時間內(nèi)索賠概率的大小,并相應制訂某類投保人的保險費率。
1.2 客戶關系管理
李曉瑞等人通過對投保客戶基本信息庫的數(shù)據(jù)進行關聯(lián)規(guī)則的數(shù)據(jù)挖掘,找出客戶購買縣中的內(nèi)在的關聯(lián)規(guī)則。對于壽險公司來說,如何找出新客戶、失去的客戶及老客戶尤其是給公司帶來最大利潤的20% 的“黃金客戶” 各屬性的關聯(lián)規(guī)則,同時又能以用戶易理解的方式概括出來,是決策者策劃營銷計劃的關鍵。例如通過關聯(lián)規(guī)則挖掘得出這樣一個規(guī)則:<年齡:30~40>and<工作地區(qū):ARI區(qū)>=><險種:B>(80%),其表達了這樣一個信息:客戶年齡在30~40歲之間,其工作地區(qū)在ARI區(qū),那么此客戶(80%)的可能會投保B險種。
2 數(shù)據(jù)集市設計
2.1 業(yè)務相關表及結(jié)構(gòu)
數(shù)據(jù)集市的數(shù)據(jù)全部來自于業(yè)務系統(tǒng),在進庫過程中進行了深層次的加工,是系統(tǒng)前臺數(shù)據(jù)展示、挖掘、鉆取的主要數(shù)據(jù)源。相關表的主要結(jié)構(gòu)及相互關系如下:
保單信息表,主要包含的字段有:保單號、提交日期、審批日期、有效日期、保單狀態(tài)、繳費模式、幣別、代理人、受保人、性別、受保年齡、出生日期、身份證號碼、住址、保單類型號、保額;
個人信息輔助表,主要包含的字段有:保單號、教育程度、是否結(jié)婚、是否有健康問題、是否有抽煙習慣、平均每天抽煙數(shù)、是否有喝酒習慣、身高、體重;
索賠信息表,主要包含的字段有:保單號、索賠號、索賠類型、索賠日期、索賠人、索賠狀態(tài)、幣別、索賠金額;
保單類型表,主要包含的字段有:保單類型號、數(shù)字型保單類型號、保單類型描述
其中,保單信息表,個人信息輔助表及索賠信息表由保單號連接,而保單類型表與保單信息表由保單類型號連接。
2.2 數(shù)據(jù)預處理
1)數(shù)據(jù)選取
由于壽險數(shù)據(jù)量大,這次試驗只選取了普通類型保單、保單日期為2002至2006年間的保單信息及相關表的數(shù)據(jù)。總共抽取了27828條數(shù)據(jù),將其中25622條數(shù)據(jù)進行數(shù)據(jù)挖掘,而剩余的2206條數(shù)據(jù)作為驗證挖掘結(jié)果數(shù)據(jù)。
在進行數(shù)據(jù)挖掘之前,需要進行前期的數(shù)據(jù)字段選取工作,比如根據(jù)直觀經(jīng)驗去除數(shù)據(jù)中的冗余信息,像個人姓名、單位名稱、投保日期、幣別、身高、體重、提交日期及保單狀態(tài)等。
最終,根據(jù)直觀經(jīng)驗選取了以下字段組合成一個表進行數(shù)據(jù)挖掘工作:保單號、保額、繳費模式、性別、受保年齡、教育程度、是否結(jié)婚、是否有健康問題、平均每天抽煙數(shù)、是否有喝酒習慣、月收入、索賠次數(shù)。
2)數(shù)據(jù)清洗
壽險業(yè)的數(shù)據(jù)與其他數(shù)據(jù)一樣,常常是含有噪聲、不完全和不一致的,數(shù)據(jù)預處理能夠幫助改善數(shù)據(jù)的質(zhì)量,進而幫助提高數(shù)據(jù)挖掘進程的有效性和準確性。對于實驗中的數(shù)據(jù)的情況,進行的數(shù)據(jù)清洗工作包括以下幾個方面。
(1)遺漏數(shù)據(jù)清理
a.被保單信息表中的保險人婚姻狀態(tài)為空:使用個人信息輔助表里的數(shù)據(jù)來修;
b.被保險人的教育程度為空:利用年齡分段,按各學歷與年齡的平均值來填充。
c.被保險人月收入為空:一共523條記錄,從與該保險人保費相近的那些記錄的均值填充。
d.是否有健康問題、是否有喝酒問題及每天抽煙數(shù)為空:可以根據(jù)其他同年齡、同教育程度等類似群人的普遍信息進行補充。
e.教育程度為空:可以根據(jù)年齡,保額進行補充。
(2)噪聲數(shù)據(jù)處理
例如:被保險人抽煙每天抽9000根,被保險人身高3.75m,被保險人體重6001kg等。由于這類錯誤的記錄相對較少,所以可以通過查詢客戶投保書的方法來修改。
(3)錯誤數(shù)據(jù)處理
例如:客戶的婚姻狀況。我國婚姻法第五條規(guī)定“結(jié)婚年齡,男不得早于22周歲,女不得早于20周歲”,但是發(fā)現(xiàn)有記錄與這些規(guī)定不符,處理的方法是按婚姻法修改這些數(shù)據(jù)。
3)數(shù)據(jù)分類
在業(yè)務系統(tǒng)上,某些信息是用具體數(shù)值來表示,需要進行分類以便進行數(shù)據(jù)挖掘。根據(jù)各信息的分布情況進行以下分類:
(1)保額的分類
Code A:保額在10萬以下
Code B:保額在10~20萬之間
Code C:保額在20~50萬之間
Code D:保額在50萬以上
(2)投保年齡的分類
Code A:投保年齡在18歲以下
Code B:投保年齡在18~35歲之間
Code C:投保年齡在35~55歲之間
Code D:保額在55歲以上
(3)月收入的分類
Code A:月收入在1萬以下
Code B:月收入在1~2.5萬之間
Code C:月收入在2.5~5萬之間
Code D:月收入在5萬以上
3 決策樹分析
3.1 決策樹模型建立
1)啟用SQL Server 2005中的Microsoft SQL Server Management Studio工具構(gòu)建數(shù)據(jù)庫以進行數(shù)據(jù)挖掘的數(shù)據(jù)準備工作。新增本次實驗的數(shù)據(jù)庫TESTING,按以上結(jié)構(gòu)新增表,并將數(shù)據(jù)集市共25622條數(shù)據(jù)導入數(shù)據(jù)庫中。
2)啟用在SQL Server 2005中的Analysis Services工具,建立Analysis Services項目進行數(shù)據(jù)挖掘。進行配置連接本地數(shù)據(jù)庫TESTING,建立數(shù)據(jù)源視圖,并選擇用決策樹方法進行數(shù)據(jù)挖掘。
3)配置完成后進行提交數(shù)據(jù)挖掘的部署工作,即可得出壽險客戶索賠次數(shù)的決策樹模型。
3.2 結(jié)果分析
從產(chǎn)生的結(jié)果來看,以常識或者業(yè)務的角度可以得出以下規(guī)則:
1)收入高的客戶比收入低的客戶的平均索賠次數(shù)小:
分析:由于收入高的客戶可能更有條件在健身、保健等方面投資,而年收入相對低的客戶可能在保健方面考慮的少一些,所以收入高的客戶比收入低的客戶的平均索賠次數(shù)小是可以理解的。
2)有抽煙、喝酒習慣或者有健康問題的客戶平均索賠次數(shù)大于沒有這些習慣的客戶;
分析:由于有抽煙或者有喝酒習慣或者本身有健康問題的的客戶身體健康狀況較差,容易生病或者病發(fā)作而進行索賠,因此明顯可以得出這條規(guī)則。
3)老年人客戶平均索賠次數(shù)大于年輕人客戶平均索賠次數(shù);
分析:由于老年人客戶身體抵抗能力差,生病的機率遠大于年輕人,老年人客戶的索賠機率也遠大于年輕人索賠,因此這條規(guī)則也是比較容易理解的。
4)受高等教育客戶的平均索賠次數(shù)小于沒有接受過高等教育客戶的平均索賠次數(shù);
分析:由于接受過高等教育的客戶可能更有理論知識或者積極的態(tài)度去進行健身或者保健,在工作環(huán)境方面也好過未接受高等教育的客戶,因此接受過高等教育的客戶比未接受過高等教育的客戶的平均索賠次數(shù)小是可以理解的。
5)女性客戶平均索賠次數(shù)小于男性客戶平均索賠次數(shù);
分析:經(jīng)調(diào)查,女性的平均身體健康程度好于男性的平均身體健康程度,包括壽命、所得疾病的機率等等,因此這條規(guī)則也是比較容易理解的。
根據(jù)決策樹和購買該類保險的投保人的詳細情況,可以預測出在將來的一段時間內(nèi)的索賠次數(shù),并根據(jù)索賠次數(shù)相應的調(diào)整某類投保人的保單的費類標準。比如:保單為年繳費、保額在為10萬、教育程度為大學、無喝酒習慣、無抽煙習慣的投保人,在決策樹中依次沿各分支走下去,可以預測他的索賠次數(shù)為0,即沒有索賠,可以考慮降低這一類投保人的保單費用。而保單為年繳費、保額在為10萬、教育程度為大學、無喝酒習慣、平均每天抽煙5支的投保人,根據(jù)決策樹預測索賠次數(shù)為2,則可以考慮適當提高這類投保人的保單費用。
3.3 結(jié)果驗證
在Microsoft SQL Server Management Studio中,將剩余的用來驗證結(jié)果的2206條數(shù)據(jù)數(shù)據(jù)導入數(shù)據(jù)庫TESTING中,將驗證數(shù)據(jù)直接帶入決策樹模型中以判斷決策樹預測是否準確,可得如下驗證結(jié)果:
如表1所示。
可以發(fā)現(xiàn)用于驗證數(shù)據(jù)的預測結(jié)果能控制在可接受的范圍內(nèi),決策樹模型的預測結(jié)果是令人滿意的。