曾巧 楊杉(四川大學錦城學院計算機與軟件學院)
在大數據迅速發展過程中,保險行業也緊跟著大數據發展在行業中發揮著大數據的作用。日前,保險行業仍然持續著增長的走向,擁有大量原始數據的保險行業對大數據分析的到來有著一個迫切的需求[1],大數據的準確分析和充分性[2]對保險行業研究保險用戶的畫像特征、開展新型的發現模式[3]有著重要的意義。保險天然就具有大數據的特征,保險經營的每個過程都和大數據密不可分[1],通過對保險行業的用戶信息進行大數據分析,能夠對保險行業的未來用戶選擇及發展提供很好的一個方向,并且通過充分利用大數據技術能促進我國保險業的發展。SPSS工具能夠很好地展現出保險公司當前用戶的基本特征畫像;將獲取到的新投保用戶的相關信息利用線性回歸方法和均值過程以及頻率分析方法分別進行數據分析,得到的結果能夠讓保險公司對保險用戶基本信息、繳費期限、保額與總保費之間的線性關系做出回應、各險種之間存在的均值差異進行研究、看出險種保額特征下的用戶年齡集中范圍,從而進行更有效的結論以及建議的提出。
選取某保險公司的新投保用戶為研究對象,利用SPSS分析工具中的線性回歸方法、均值過程、頻率分析方法對相關信息進行數據分析,對總保費與用戶年齡階段之間分布是否有特征、存在關系進行研究,對客戶的一些信息如年齡、繳費期限、近三年平均年收入與所繳納的保費是否有關系進行了探索性研究,最后針對不同的險種之間保額均值存在差異進行分析。
數據來源于某保險公司的數據庫中的新投保用戶的數據,新投保數據表格含有機構、險種、投保時間、繳費期限、繳費方式、保額、總保費、年齡、過去三年平均年收入、教育程度、家庭人口等16個字段共90萬條數據。
獲取到的數據中有空行,刪除表格中存在的空行;瀏覽表格發現當中存在沒有意義的字段教育程度和家庭人口,這兩列的數據的值為無和0,由此刪除教育程度和家庭人口列;通過后面數據的探究發現保額集中在500000以下,所以對數據進行篩選篩選出保額為500000以下的數據;然后對保額、總保費以及年齡等字段的分布情況進行數據分析與探索,表格中險種的個數有很多,在進行有效的分析的時候對險種分為4險種、6險種、S險種、Y險種、B01險種、B02險種、L01險種一共7個險種。分類的規則是以數字或者字母開頭為一類險種以及險種數很少的沒有進行分類就是為單獨的險種。對表格中表格數據顯示不正確的值進行正確顯示如投保時間和客戶號。
通過數據呈現的結果看出年齡、保額、繳費期限與總保費之間的sig值都是小于顯著性水平0.01的,所以拒絕原假設(原假設為年齡、保額、繳費期限與總保費之間無相關性)。而總保費的皮爾遜相關性一行的數據顯示,繳費期限與總保費的數據是-0.255**,年齡與總保費的數據是0.091**,保額與總保費的數據是0.74**,而從注釋中**是相關性顯著,所以繳費期限、年齡、保額與總保費的相關性是顯著的并且分別是負相關性、正相關性以及正相關性,由此可以利用繳費期限、年齡以及保額與總保費的相關性建立線性回歸模型。由于年齡、繳費期限、保額與總保費具有相關性,由此建立線性回歸模型,利用步進方法得出了3個模型,通過探究幾個變量與總保費之間的關系,在R方擬合度上其數值是0.681接近于0.8,說明他們之間的擬合效果中等偏上,擬合效果好在這個關系中能夠較為準確的表達出線性關系。然后在SPSS中的回歸方法幾個變量之間是進行了一個方差分析的,所以直接從數據結果中顯示出數值是小于顯著性水平0.01的,故拒絕原假設,由此可以通過線性關系式去判斷和計算相關數值,從上述表中得出繳費期限、年齡、保額的系數分別是-921.77、99.589、0.613,設總保費為y,繳費期限為x,年齡為z,保額為m,則相關的線性回歸方程是y=-921.77x+99.589z+0.613m+403.325。
因此可以得出結論:總保費與年齡、繳費期限、保額、總保額之間存在顯著的相關性,并且R方的擬合度較好,可以得到較為準確的線性關系,由此線性關系式為y=-921.77x+99.589z+0.613m+403.325,所以保險公司人員可以利用存在的線性關系來計算某個用戶特征的相關信息得到的總保費是多少,然后利用總保費來進行預測用戶可以接受的總保費的數值為多少,然后進行相關的決策。
新投保數據中年齡均值在41歲,總保費的均值在8376元,其中總保費的眾數10000元,說明大家對總保費10000元的保險購買率較高。數據分布的偏度大于0,說明無論是總保費還是年齡都為右偏,所以年齡與總保費的較大數據在右邊分布稀疏,由此兩者數據分布集中在均值附近。數據分布的峰度,總保費為尖峰分布(正值且數據值大),年齡為扁平分布(數據為負值),說明總保費在均值附近的數據密度是較大的,數據分布更加集中在均值附近;而年齡則相反,并沒有在均值附近的數據密度大而是在均值附近分布集中程度小。僅僅利用頻率分布并不能詳細地反映出總保費和年齡的關聯關系,因此利用散點圖進行數據可視化,反映出的新投保數據顯示總保費的金額主要集中在100000元以下且年齡段主要是30~60歲段的投保數據及特征。
因此可以得出結論:新投保用戶投保的年齡均值是在41歲且大多集中在均值附近,總保費的均值是8376也是大多集中在均值附近的,而新投保用戶投保繳納的總保費集中在100000元以下的用戶年齡階段是在30~60歲之間。
從得到的結果可以看出一共有7類險種,大部分險種的最高保額均值范圍在13000~18000這個區間內。而在7種險種當中保額平均值最大的是L02險種,最小的是6險種,但是L02險種是特殊的險種,在新投保數據中只有一個用戶進行了L02險種的投保,所以不具有參考價值,那么除去L02險種最大的值為B02這個險種。在這7個險種當中方差最大的是S險種,說明S險種的保額均值變化較大,方差最小的是6險種說明數據最穩定。在這7個險種當中偏度峰度都為正,即這7類險種保額的數據都呈現右偏、尖端分布的情況,保額主要集中分布在均值附近,其中,4險種的峰度值和偏度值較其余險種的差值甚遠,因此它的數據分布情況右尖端分布情況更明顯。
因此可以得出結論:在這7個險種當中S險種數據波動變化最大,6險種數據波動最小,所以在新投保用戶當中在S險種當中存在多種情況的保額,即在S險種中用戶的特征類型是最多的,選擇S險種進行投保的人數最多,在新投保6險種的用戶特征少比較的單一;并且要對L02險種進行觀察,為什么只有一個用戶選擇L02險種。
新投保用戶的畫像特征:用戶主要的年齡階段是處于青中年化階段,以30~60歲集中,并且更加的偏向于繳納的總保費是處于100000元以下的,然后更為集中的是在均值為8376元附近。而在7種險種當中新投保用戶更加的偏向于S險種,選擇的用戶達到552885名用戶,沒有偏向于選擇L02險種,因此保險公司應當對險種L02和用戶進行研究為什么只有一個用戶選擇這個險種。而在發展新投保用戶對保險的選擇時,在新投保數據中存在總保費=-921.77*繳費期限+99.589*年齡+0.613*保額+403.325的線性關系,并且繳費期限和總保費存在負相關關系、年齡和總保費存在正相關關系、保額與總保費存在正相關關系。
因此可以提出建議:新投保的用戶中,可以將年齡段在30~60歲的人群作為重點的投保對象并且在計算總保費的時候可以利用保額、繳費期限等內容來規劃用戶具體的投保內容;預估主要客戶大致的信息時推斷出所需要繳納的總保費是在什么范圍之內,進一步讓公司策劃出保險的價格。而在保險公司未來發展和選擇上可以進行推出S險種的相關險種作為重點發展;對投保用戶進行投保的時候要考慮到繳費期限對總保費的影響,考慮到長期的時限保險是比較危害企業對保費的收取的,但是可以讓年齡較大的用戶推薦較長年限來增加客戶的粘性。分析出用戶不選擇L02險種的原因,并且對其進行改正。