溫曉楠 董立偉 朱亞培 劉艷敏



摘? 要: 設計基于數學統計的保險賠付風險預測模型,分別從使用量、駕駛表現、危險駕駛、出行習慣四個方面選取能夠反映駕駛行為的20個風險因子構建指標體系,利用數學統計中的因子分析法從上述指標體系內選取6個能代表駕駛行為風險情況的典型風險因子;以選取的典型風險因子為基礎結合二分類隨機變量,利用具有優秀分類與回歸性能的XGBoost模型構建保險賠付風險預測模型,預測變量所屬類別與概率分布。實證分析結果顯示,該模型迭代速度較快,AUC值與F值相較于傳統Logistic模型分別上升67.4%和2.3%,顯著高于對比模型。
關鍵詞: 保險賠付; 風險預測模型; 數學統計; 駕駛行為; 風險因子選取; 指標體系構建
中圖分類號: TN919?34; F222.3? ? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)22?0086?04
Abstract: A risk prediction model for the insurance compensation is designed on the basis of mathematical statistics, and 20 risk factors that can reflect driving behavior are selected in four aspects of usage amount, driving expression, dangerous driving and traveling habit to construct the index system. Six typical risk factors that can represent the risk situation of driving behavior are selected from the above index system by means of the factor analysis method in mathematical statistics. On the basis of typical risk factors, the XGBoost model with excellent classification and regression performance is used to build the insurance claim risk prediction model in combination with two dichotomy random variables for the prediction of the variables′ category and probability distribution. The results of empirical analysis show that the iteration speed of the model is faster, and AUC value and F value are increased by 67.4% and 2.3% respectively in comparison with the traditional Logistic model, which are significantly higher than those of the compared model.
Keywords: insurance compensation; risk prediction model; mathematical statistics; driving behavior; risk factor selection; index system construction
0? 引? 言
隨著社會經濟與汽車制造行業的快速發展,保險公司中汽車保險業務占據比例逐漸增大[1]。相關研究資料中數據統計結果顯示,2018年我國汽車保險業務原保費占保險公司總原保費收入的72%以上[2],金額高達7 632.18億元。但基于保險公司盈利角度分析,70%以上具有汽車保險業務的保險公司在汽車保險賠付方面均出現不同程度的虧損現象[3]。數據統計結果顯示,2018年保險公司車險賠付虧損額度高達65億元,與上一年度相比車險賠付虧損額度呈現上升趨勢。研究總結發現,保險公司車險賠付虧損的主要原因在于車險保費與賠付風險不匹配[4]。由此可知準確的保險賠付風險預測是改善保險公司經濟管理,提升保險公司利益收入的基礎。
數學統計是預測保險賠付風險過程中的主要環節,常用的數學統計方法包括回歸分析、方差分析、因子分析、Logistic分析、聚類分析等[5]。
利用數學統計法設計保險賠付風險預測模型,將因子分析法與聚類分析、回歸分析相結合,實現高性能的保險賠付風險預測[6]。
1? 保險賠付風險預測模型
1.1? 研究樣本及指標體系構建
選取我國60家保險公司作為研究樣本,其中訓練樣本與測試樣本各為30家。
以能夠全方位描述駕駛行為風險為原則,分別從使用量、駕駛表現、危險駕駛、出行習慣四個方面選取能夠反映駕駛行為的20個風險因子構建指標體系[7]。表1為指標選取結果。
1.2? 指標體系處理
由于上述風險因子指標中不同指標間可能具有相關性,導致指標體系存在信息重復問題[8],對保險賠付風險預測產生不利影響。因此,需通過因子分析法在20個風險因子中選取出最能全面體現駕駛行為狀態的指標。
采用SPSS軟件對選取的60家保險公司實施因子分析獲取的KMO(Kaiser Meyer Olkin)檢驗統計量、Bartlett球形度檢驗近似卡方值以及相應的概率P值分別為0.683,1 582.821和0.00,由此可知所選風險因子內存在共同因子,能夠實施因子分析。選取特征值大于1的因子,由此獲取的前6個因子方差累計貢獻率達到95%以上,這表示前6個因子能夠描述95%以上的方差,如表2所示。所以前6個因子可以基本表示原始數據信息。
1.3? XGBoost模型
用[M]和[hi,zi]分別表示車險保單數量和各車險保單對應的觀察值,其中,[hi]和[zi]分別表示的是單個保單是否賠付的二分類隨機變量和第[i]份保單的風險因子。[hi]服從伯努利分布[10],其值為1或0時分別表示第[i]份保單賠付和未賠付。設[zi]為[p]維向量,在其給定的基礎上,利用XGBoost模型預測因變量[hi]所屬類別與概率分布,即為保險賠付風險預測模型。
優化并拓展梯度提升決策樹模型后得到的集成學習模型XGBoost(eXtreme Gradinet Boosting),針對數據分類與回歸問題的分析求解具有十分突出的表現[11],在當前諸多數學競賽中許多獲獎方案均采用該模型。
XGBoost模型同隨機森林模型相同的是均由一系列決策樹集合而成,兩者有所差異的是XGBoost模型屬于提升樹模型,其中決策樹在根據輸入樣本進行風險預測時,是以上一輪預測結果為基礎的學習預測誤差[12],以此提升模型的風險預測精度。用[hit]和[ftzi]分別描述第[t]輪迭代后模型對第[i]個樣本的預測結果和第[t]棵決策樹對第[i]個樣本的預測分數,那么式(1)為[hit]的描述形式:
基于式(2)和式(3),XGBoost模型在[hit-1]處利用泰勒級數將損失函數展開至二次項,同時利用了誤差函數的一階導數與二階導數,因此該模型預測結果同梯度提升決策樹模型相比,決策精度更高。在給定決策樹結構的基礎上,目標函數展開并進行相關變換后能夠以一元二次函數最小值求解問題替代最優化目標問題[15]。利用貪心算法持續劃分現有的葉子節點,同時對比劃分前后目標函數的增益,直至確定第t輪迭代的最優決策樹模型。通過上述過程獲取準確的保單賠付風險預測值。XGBoost模型內風險因子的關鍵度可利用不同方法實施判斷,例如確定全部決策樹內風險因子作為分裂特征的次數、確定全部基于該特征實施分裂的節點基尼系數降低值、信息增益總和的確定。將全部風險因子的關鍵度依次排列,由此確定XGBoost模型內風險因子的關鍵度排列順序。
2? 實驗分析
實驗為驗證本文所設計基于數學統計的保險賠付風險預測模型的應用性能,利用某保險公司數據為實驗數據進行實證分析,實驗數據中包含該保險公司2018年期間全部車險保單的承保、賠付信息和保單有效期內承保車輛駕駛員的駕駛行為信息。實驗數據內賠付保單共718份,占總保單數量的36%左右。駕駛行為數據內包含車險保單對應車輛固定時間區域內不同時刻的行駛狀態。
采用本文模型預測該保險公司賠付風險,預測過程中本文模型迭代過程如圖1所示。
由圖1可知,采用本文模型預測保險公司賠付風險過程中,通過173步迭代可完成模型訓練,與傳統Logistic模型通過316步迭代完成模型訓練相比,本文模型具有較快的收斂速度,由此也能說明本文模型具有優異的預測效率。
為驗證本文模型對于保險賠付風險的預測性能,選取十折交叉驗證法。將全部實驗數據分成10個數據子集,各數據子集均不重合,以其中9個數據集和剩余1個數據集分別為訓練集和測試集。保險賠付風險預測是一個二分類問題,普遍使用的評價指標有F值與AUC值,二者是評估預測模型預測性能的指標,其值越靠近1,說明預測真實性越好。在計算這2個值時均以描述樣本實際類別與模型預測類別交叉統計結果的混淆矩陣為基礎。通過混淆矩陣評估預測模型的預測性能。表4為混淆矩陣針對保險賠付風險預測模型的基本結構。
1) 在利用F值與AUC值評價模型預測性能過程中,只選取車輛使用量情況作為風險因子構建預測模型時,模型的預測精度相對較低。由此可知,當前市面上部分保險公司僅以被保汽車使用量情況為基礎預測保險賠付風險的精度還有待提高。
2) 相較于只利用駕駛表現情況作為風險因子構建預測模型相比,危險駕駛情況對于保險賠付風險預測更為重要。在上述四個模型內,僅使用危險駕駛情況構建的模型AUC值均高于使用車輛使用量情況作為風險因子構建的模型;除梯度決策樹模型外,利用危險駕駛情況構建的模型的F值也高于使用車輛使用量情況構建的模型。
3) 將全部風險因子相結合構建預測模型,則全部模型的預測能力都有不同程度的上漲。由此可知,利用駕駛行為風險因子構建保險賠付風險預測模型能夠獲取較好的風險預測性能。
以全部風險因子構建保險賠付風險預測模型,以傳統Logistic模型為標準,將本文模型、神經網絡模型和梯度決策樹模型預測性能與標準模型相對比,如表5所示。
3? 結? 論
汽車保險是當前保險公司的主要業務,在汽車保險中主要依照駕駛員對于汽車的駕駛行為預測車保賠付風險,由于駕駛行為與車輛賠付風險之間具有相關性,因此本文設計基于數學統計的保險賠付風險預測模型。選取20個駕駛行為風險因子構建評價指標體系,利用XGBoost模型分析駕駛行為風險因子在保險賠付風險預測中的應用。分析結果顯示本文模型的預測性能顯著高于對比模型。
注:本文通訊作者為董立偉。
參考文獻
[1] 趙玉,嚴武,李佳.基于混合Copula模型的水稻保險費率厘定[J].統計與信息論壇,2019,34(8):66?74.
[2] 王艷,袁宏俊,張煥明.基于C?UPWG算子的區間組合預測模型及其應用[J].統計與決策,2019(9):63?66.
[3] 熊鴻斌,陸瑩.基于Bow?Tie模型的中小型電鍍廠退役搬遷環境風險分析[J].安全與環境學報,2018,18(4):1615?1622.
[4] 劉展.基于傾向得分廣義線性模型的非概率抽樣統計推斷研究[J].數學的實踐與認識,2018,48(16):175?184.
[5] 汪威.最優組合預測線性模型在旅游需求預測中的應用:以中國大陸赴澳門游客量預測為例[J].數學的實踐與認識,2018,48(12):49?58.
[6] 王潤東,莢衛東,葛勇勝,等.加速康復外科方案在肝細胞癌手術的失敗因素分析及風險預測模型的建立[J].中華外科雜志,2018,56(9):693?700.
[7] 張文杰,袁紅平.基于灰色馬爾可夫模型的節能設備故障預測研究[J].系統科學與數學,2019,39(1):65?75.
[8] 杜康,袁宏俊,鄭亞男.基于三角模糊數及GIOWA算子的區間型組合預測模型[J].統計與決策,2019(16):22?28.
[9] 高偉,馮海林.競爭風險下右刪失數據的剩余壽命分位數回歸預測[J].統計與決策,2018(21):19?22.
[10] 文江平,郝潔,陶麗新,等.成年人2型糖尿病風險預測模型的建立[J].中華檢驗醫學雜志,2017(40):706.
[11] 于輝,吳騰飛.供應風險下營業中斷保險的供應鏈模型分析[J].中國管理科學,2017(12):39?47.
[12] 楊鵬,楊志江,孔祥鑫.Poisson?Geometric模型下時間一致的最優再保險?投資策略選擇[J].應用數學,2019,32(4):729?738.
[13] 武海濱,李康,楊麗,等.非平衡分類技術在人群糖尿病疾病風險預測模型中的應用[J].中國衛生統計,2019,36(4):502?506.
[14] 任義方,趙艷霞,張旭暉,等.江蘇水稻高溫熱害氣象指數保險風險綜合區劃[J].中國農業氣象,2019,40(6):391?401.
[15] 王真,馬建華.基于PLoS開放獲取數據的單篇論文網絡瀏覽量累積規律的數理統計及分析[J].圖書情報工作,2018,62(12):72?83.