鄒玉蘭,楊杉
(四川大學錦城學院計算機與軟件學院,成都611731)
隨著我國社會的飛速進步以及我國經(jīng)濟的快速發(fā)展,我國計算機信息技術(shù)也得到了迅速的進步,極大地影響著人們的生活水平[1]。保險最初建立時的意義是將個人現(xiàn)存的空閑資金對未來無法預(yù)期的風險損失做出保障的運行體制,作為個人防范風險的一種手段,大數(shù)據(jù)可以更有效地抓取用戶需求、保險產(chǎn)品價格、保單風險防控等,但因為大數(shù)據(jù)在保險業(yè)的應(yīng)用正處于初步的探索階段,無法對信息進行完全有效抓取并分析[2]。保險行業(yè)是經(jīng)營風險的行業(yè),要利用風險模型或數(shù)理技術(shù)等對標的物的風險進行評定,風險評定的過程就是數(shù)字化的過程,數(shù)字化是保險行業(yè)的自然屬性。保險公司的利潤主要來源于收取的保費和未來的賠付支出的差額,保險公司先要對這些風險發(fā)生的概率進行預(yù)測,預(yù)測的過程就是數(shù)字化的過程[3]。本文就大數(shù)據(jù)對保險公司客戶投保數(shù)據(jù)進行研究分析。
以四川仁壽保險公司客戶新投保數(shù)據(jù)為例,利用SPSS的分析方法挖掘保險客戶的大數(shù)據(jù)信息價值。發(fā)現(xiàn)新投保數(shù)據(jù)列,險種、總保費、客戶性別、客戶年齡和客戶過去三年平均年收入之間存在可以挖掘的關(guān)系和價值,本文主要針對這幾列做出不同險種類別的頻率分析,客戶不同婚姻狀況之間的總保費的單因素方差分析和客戶過去三年平均年收入與性別探索分析。
該新投保數(shù)據(jù)集一共有900649行16列,包含機構(gòu)、險種、投保時間、繳費方式、繳費期限、投保份數(shù)、總保費、保額、客戶號、性別、年齡、婚姻狀況、教育程度、過去三年平均年收入、職業(yè)、家庭人口字段。
刪除投保時間、投保份數(shù)、教育程度、家庭人口無效列;篩選保額為0,過去三年平均年收入除無職業(yè)、無兼職離退休、無業(yè)家庭主婦、學生、嬰幼兒等職業(yè)外在1000元以下的行并刪除;篩選婚姻狀況為X的行并刪除;添加險種分類列,將險種第一個字符相同的劃為同一類,以第一個字符作為共同的類型;添加婚姻狀況代碼列,并通過IF函數(shù)嵌套將M(已婚)設(shè)置為1、S(未婚)設(shè)置為2,D(離異)設(shè)置為3、W(喪偶)設(shè)置為4、R(再婚)設(shè)置為5。
原數(shù)據(jù)900649行16列,清洗數(shù)據(jù)417141行14列。
分析過程:選擇分析工具欄下的描述統(tǒng)計的頻率分析,將變量設(shè)置為險種分類(險種依據(jù)首字符劃分類別),在圖形中選擇條形圖,在格式中選擇按計數(shù)升序排列,點擊確定。

圖1 以險種分類為分組的頻率統(tǒng)計描述

圖2 各險種分類的個案數(shù)條形圖
結(jié)論:觀察以上兩圖可以得到,不同分類的險種的新增投??蛻糁g存在差異。其中B類保險的新投??蛻糇钌伲瑑H占總新投??蛻魯?shù)量的1%;S類保險的新投??蛻糇疃?,占比46.5%,接近一半的投保數(shù)量。因此,按照新投保數(shù)據(jù)的險種分類頻率可以得出各險種受歡迎程度的順序:S>4>6>Y>B。此結(jié)論說明,S類保險在新客戶選擇投保的時候占有絕對的優(yōu)先選擇權(quán),這說明S類保險的設(shè)計比較符合大多數(shù)客戶的需求,并且能夠給機構(gòu)帶來大量的客戶源;B類和Y類保險的投保率較低,這說明這兩類保險的需求不高,4類保險和6類保險的投保率居中,其中4類保險比6類保險更受歡迎。
分析過程:先在變量視圖中對婚姻狀況代碼設(shè)置值標簽說明,再依次點擊分析、比較平均值、單因素ANOVA檢驗打開單因素檢驗設(shè)置框,將總保費放入因變量列表中、婚姻狀況代碼放入因子中,點擊選項并勾選方差齊性檢驗,點擊繼續(xù),點擊事后比較并在假定等方差中勾選LSD、在不假定等方差中勾選T2,點擊繼續(xù),點擊對比并設(shè)置系數(shù)依次為1.5、-1、-1、-1、1.5(即將已婚和再婚類別與未婚、離異和喪偶類別進行對比),點擊繼續(xù)。

圖3 方差齊次性檢驗
結(jié)論:根據(jù)對比檢驗表中假定等方差的顯著性水平為0.001、不假定等方差的顯著性水平為0.130可以得出應(yīng)該拒絕假定等方差的原假設(shè)、接受不假定等方差的原假設(shè),即已婚和再婚類別與未婚、離異和喪偶類別的方差不具有齊次性。從而選擇查看塔姆黑尼多重比較表,根據(jù)此表可以得出各婚姻狀況關(guān)于繳納的總保費中已婚與未婚、喪偶之間有顯著差異,與離異、再婚之間沒有顯著差異;未婚與離異、喪偶之間有顯著差異,與再婚之間沒有顯著差異;離異與喪偶之間有顯著差異,與再婚之間沒有顯著差異;喪偶與再婚之間沒有顯著差異;且再婚與其余4種婚姻狀況都沒有顯著差異。

圖4 各類別多重比較不假定等方差表
分析過程:點擊分析工具欄中描述統(tǒng)計選項卡下的探索選項,將過去三年平均年收入放入因變量列表中、性別放入因子列表中,點擊確定。

圖5 以性別為分類的過去三年平均年收入統(tǒng)計描述
結(jié)論:由描述性統(tǒng)計結(jié)果可看出男性的平均收入高于女性,但兩者的中位數(shù)都為2這個等級,即平均年收入為1w到3w這個區(qū)間,且男性、女性的峰度都大于零,表示該總體數(shù)據(jù)分布與正態(tài)分布相比較為陡峭,為尖頂峰。男性的峰度值更大,說明男性近三年年收入中,相較于女性收入波動更大,范圍更廣。男性、女性的偏度也都大于零,表示其數(shù)據(jù)分布形態(tài)與正態(tài)分布相比為右偏,數(shù)據(jù)右端有較多的極端值,數(shù)據(jù)均值右側(cè)的離散程度強,即收入大于2w到3w這個區(qū)間值的極端值更多。男性偏度值大于女性說明男性近三年平均年收入中有更多的高收入人群。不難看出,男性女性總體的收入差異不大,但男性收入會稍多一些,高收入人群偏多。

圖6 以性別為分類的過去三年平均年收入直方圖
通過頻率統(tǒng)計的結(jié)果、單因素方差分析結(jié)果、探索分析結(jié)果可得出以下結(jié)論:①不同險種的投保率存在明顯的差異,S類保險的投保率最高占有46.5%,B類保險的投保率最低僅占1%,按照新投保數(shù)據(jù)的險種分類頻率可以得出各險種受歡迎程度的順序:S>4>6>Y>B。②各類婚姻狀況關(guān)于繳納的總保費中已婚與未婚、喪偶之間有顯著差異,與離異、再婚之間沒有顯著差異;未婚與離異、喪偶之間有顯著差異,與再婚之間沒有顯著差異;離異與喪偶之間有顯著差異,與再婚之間沒有顯著差異;喪偶與再婚之間沒有顯著差異;且再婚與其余4種婚姻狀況都沒有顯著差異。③近三年年收入中,男性收入相較于女性收入的波動更大,范圍更廣。男性近三年平均年收入中有更多的高收入人群。男性女性總體的近三年平均年收入差異不大,但男性收入會稍多一些。
根據(jù)本文的數(shù)據(jù)分析,可以得出目前保險行業(yè)的客戶需求很大,本文研究的原始新投保數(shù)據(jù)約90萬條,如此龐大的數(shù)字顯示說明越來越多的人關(guān)注到了保險給人們帶來的福利和保障,并且保險行業(yè)的發(fā)展是大勢所趨,大數(shù)據(jù)在保險行業(yè)中的運用也會越來越成熟,越來越頻繁。
保險公司可以對客戶需求量大的S類保險的新投保客戶制定特殊的福利項,維持投保率在較高的水平;對需求量較小的B類保險進行優(yōu)化提升,從客戶的需求方面稍微優(yōu)化保險套餐的內(nèi)容,加大吸引客戶的力度,優(yōu)化這兩類保險的套餐設(shè)計和投保推薦,爭取能夠讓公司在相同需求的情況下爭取更多的客戶源,增加行業(yè)之間的競爭籌碼;針對男性客戶過去三年平均年收入比較高的客戶,在客戶有意愿的情況下可以推薦多個險種的保險,增加客戶的受保幾率和公司的保險訂單;建議給已婚或者再婚的客戶推薦一種家庭保險或者推薦家庭幾個人一起買某種保險,送出福利或者打折或者提升保額等優(yōu)惠操作;給未婚、離異或者喪偶的客戶推薦保費較低的險種;建議客戶可以在能力范圍之內(nèi)盡早地購買適合的保險為自己或者家人的未來做一個規(guī)劃。
保險公司可以利用大數(shù)據(jù)技術(shù)對客戶流動數(shù)據(jù)進行實時監(jiān)控和挖掘,大數(shù)據(jù)技術(shù)可以幫助保險公司挖掘潛在有價值的客戶和找出各類保險的需求量,用真實的客戶數(shù)據(jù)反映市場動向和規(guī)劃公司未來發(fā)展的方向。