四川大學錦城學院計算機與軟件學院 劉 鑫 楊 杉
以四川省某保險公司的新投保數據為數據基礎,利用SPSS和EXCEL兩大工具據進行分析。新投保數據分為4個主題,針對用戶購買數據與機構的關系和保險中年齡分布情況利用了頻率分析的方法;針對保額與保費、繳費期限、年齡之間的線性關系利用相關分析及線性回歸分析的方法;針對不同收入與總保費之間的關系利用描述統計中的探索分析。通過所得到的分析結果和結論,為保險公司定位目標客戶,繪制用戶畫像提供了數據支撐,同時也可以分析出購保人群的特點,有利于保險公司留住老客戶,吸引新的購保人群。
雖然中國的保險市場位居世界第二,但是與世界平均保險密度相比還存在著一定差距。保險行業規模增長過慢已經不能適應新時代的行業發展需求,行業及用戶長期存在難以解決的痛點,限制了行業發展。隨著我國保險市場的開放和保險公司數量的增加以及保險行業資本的累積,保險業的競爭程度不斷升級,同時,互聯網經濟的發展,大數據在保險中的作用越來越大,因為通過大數據,可以輕而易舉地抓取、篩選和分析出精算、營銷、投保、服務、理賠等各個環節的統計數據,為保險行業帶來了增量市場。網民規模地不斷擴大,用戶的行為習慣已發生轉變。隨著市場技術的不斷更新,傳統的企業和行業面臨著巨大的技術匱乏問題。因此,為了提高公司員工績效,提升團隊產能,實現企業利潤的最大化,對已有數據進行相應的分析已成為必然趨勢。
首先對新投保數據進行了數據清洗:對數據去除空值,刪除除重復值,剔除無效數據的行和列,再利用清洗之后的數據分四個主題進行數據分析:(1)用頻率分析與分類匯總的方法探索用戶購買數據與機構的關系;(2)用頻率分析方法統計所有保險中年齡分布情況并使用直方圖表示;(3)相關分析及線性回歸分析方法探索保額與保費、繳費期限、年齡之間的線性關系;(4)用探索分析方法分析不同收入與總保費之間的關系。最后利用數據分析的結果寫出相應的結論。

表1 去除無效數據后的數據指標
包括家庭人口、教育程度、投保時間三列以及表中的第二行為空行,剔除后的效果展示如表1所示。
刪除重復值:數據工具欄中的刪除重復值功能。
清洗后的數據為13列,844067行,如圖1所示。

圖1 去重后的數據指標
3.1.1 利用頻率分析的方法
利用頻率分析的方法:探索各機構購保人數的總量并進行對比分析。
首先分析工具欄中選擇頻率分析,將機構作為變量并勾選統計中的縱數,然后通過統計每個機構出現的次數來分析購買保險人數最多的機構。探索保險機構總量結果如表2所示。

表2 探索保險機構總量結果
分析結果:通過頻率分析可以得出眾數為510722,說明這一機構購保人數最多有非常大的保險市場。通過匯總后的數據集并降序排序后可以更加直觀地看出510722,510115,510119,510117,510110,510781,512002,512004,510108,510681這幾個機構的的購買人數較多,并且在所有機構中排名前10,說明這些機構的保險客戶量較多,對保險的需求量較大,有利于保險公司獲得更多的客源,擴大自己的市場511088,510928,510505,513498,513432,510925,511383,513431,510698,510800這10個機構的購保人數相對較少說明這些機構的保險客戶量較少,對保險的需求量較小保險公司可以根據公司實際情況對公司業務進行適當宣傳。
3.1.2 利用分類匯總
利用分類匯總:對險種頻率進行統計,并分析機構對險種的宣傳方案。
利用分類匯總的方法可以分析出S81,S42,415,602,S93,411,412,603等險種的購買人群較多,各機構如果想要提高銷售率,就可以在各機構大力宣傳S81,S42,415,602,S93,411,412,603等出現頻率大于9000的險種,客戶對這些險種的需求量較大,有較好的保險市場,并且購保人群較少的機構可以對非常有必要購買的險種進行宣傳,提高人群的購保意識。如果想對險種宣傳得更加精準,還可與當地機構購買數量較多的險種進行結合,在當地機構進行個性化,精確化宣傳。險種頻率分析的結果如表3所示。

表3 險種頻率分析的結果
使用頻率統計分析方法統計所有購買了保險人中年齡的分布情況,包括平均值、中位數、眾數、標準差和四分位數,并由直方圖表示。
年齡的中位數與平均數均在40歲左右,眾數為37歲,四分位點分為34、40和49歲,標準偏差為10.738。結合直方圖可初步得出結論購買保險的人群年齡較為集中,多數集中在30-60之間,其中30-45歲左右的年齡段購買人數最多,50-60歲年齡段購買人數次多,45-50歲年齡段購買人數較其它年齡段屬于少數,所以30-45年齡段的人群會更傾向于購買保險,30歲以下人群對于購買保險的意愿不是很強烈。總體年齡分布情況數據展示如圖2所示。

圖2 總體年齡分布情況數據展示
首先先進行相關分析,分析Sig值可得,保額與保費之間具有的相關關系最強,與繳費期限的相關關系次之,與年齡之間的相關關系最弱,且與年齡之間存在的是較弱的負相關關系。四個變量之間都具有相關性,因此可將這四個變量用作做線性回歸分析。其次,做線性回歸:將保額作為因變量,總保費、年齡、繳費期限作為自變量,方法選擇步進。

表4 保額與保費、繳費期限、年齡三者線性回歸方程結果
結果分析:通過步進的方式,可以得到總保費、繳費期限、年齡與保額之間的關系是逐漸增強的;通過表ANOVA中的顯著性的值,都小于0.01,說明在0.01顯著性水平的基礎上,所分析的變量之間的線性關系是顯著的;通過系數表中的系數,可以得到四者之間的線性相關系數,公式為:“保額=1.07×總保費+1147.39×繳費年限-145.596×年齡+5637.879”。
首先先將過去三年平均年收入進行分段用1表示0-99999、2表示100000-999999、3表示1000000-9999999、4表示10000000-20000000。
然后使用描述統計中的探索分析,分析不同收入與總保費之間的關系,分析結果發現,年平均收入在0-99999的投保人平均投保費是8191.477084,95%的置信區間為8152.192593到8230.761574之間,其偏度為10.439是正數,說明數據右偏,也就是所投保費高于平均保費的人比較少,其峰度為303.013也是正數,說明數據相對集中在平均值,也就是說這個區間的投保人大部分總保費都集中在平均值8191左右,;年收入在100000-999999之間的平均投保費是12669.41476,95%的置信區間為12244.37814到13094.45137之間,其偏度為13.699是正數比年收入在0-99999的偏度大,說明數據右偏更多,也就是所投保費高于平均保費的人更少,其峰度為324.196也是正數同樣大于0-99999段的峰度,說明數據更集中在平均值,也就是說這個區間的投保人絕大部分總保費都集中在平均值12669左右;年收入在1000000-9999999之間的平均投保費是100843.0027,95%的置信區間為83634.75278到118051.2526之間,其偏度為4.403是正數,說明數據右偏,但小于前兩個段的偏度也就是說所投保費高于平均保費的人雖然比較少,但相對而言要多一些,其峰度為25.714是正數,說明數據相對集中在平均值,但遠小于前兩段的峰度,也就是說這個區間的投保人大部分總保費都集中在平均值12669左右,但相對而言集中度沒有前兩段高;年收入在1000000-9999999之間的平均投保費是83495.44444,95%的置信區間為-7502.42217到174493.3111之間,其偏度為1.109是正數,說明數據右偏,但相對而言右偏較少,其峰度為-0.447是負數,說明數據集沒有集中在平均值,也就是說這個區間的投保人的投保費可能相差的比較大;1、2、3段的平均總保費是在遞增的,也就是說,年收入越多的人,總投保費就越多,但是第4段,也就是年收入在10000000-20000000之間的人反而更多的總保費很少,也就是說并不是越有錢,越會投入大額的保費。

表5 分組后收入的探索分析結果
分析箱圖發現,收入在1,2兩段的箱形圖的箱體和胡須幾乎沒有,也就是說這兩個收入區間的投保人的總保費都非常的集中相近,并且異常值較多,也就是說有一些的人總保費過于低或者過于高,而平均收入在3,4區間的箱形圖下邊的箱體和胡須較短,也就是說數據是在偏低的地方集中的,總保費在中位數以下相對集中,而總保費高的差距拉的是比較開的。

圖3 收入分組區間箱形圖展示
結論及建議:購保人群多的機構可以根據當地險種購買的情況對保險進行宣傳,對當地的購保人群購保情況能有所了解,能夠精確地定位到目標人群,準確畫出目標用戶畫像;購保人群較少的機構可以對非常有必要購買的險種進行宣傳,提高人群的購保意識。保險供給方應時刻以市場需求為導向,根據自身特點,找準進入或者拓寬互聯網保險市場的切入點,同時樹立自身企業品牌良好形象。如果想對險種宣傳得更加精準,還可與當地機構購買數量較多的險種進行結合,在當地機構進行個性化,精確化宣傳。同時,建議該公司將主要客戶群體定在平均年收入在千萬以下的人群中,也不要過分忽略年收入在100000以下的人群,雖然收入不多,但是投保額并不一定會比年收入在100000以上的人群投保額少。