999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GAM 模型和隨機(jī)森林車險(xiǎn)索賠次數(shù)預(yù)測

2022-04-21 03:31:24□文/孫
合作經(jīng)濟(jì)與科技 2022年10期
關(guān)鍵詞:效果模型

□文/孫 靜

(南京信息工程大學(xué) 江蘇·南京)

[提要] 近年來,廣義可加模型(GAM)在非壽險(xiǎn)中得到廣泛的應(yīng)用,隨機(jī)森林作為極具代表性的一種集成學(xué)習(xí)方法在非壽險(xiǎn)領(lǐng)域也取得很好的效果,為非壽險(xiǎn)產(chǎn)品定價(jià)提供了一種新的選擇。因此,本文針對一組具有零膨脹特征的索賠次數(shù)數(shù)據(jù),建立零膨脹泊松分布和零膨脹負(fù)二項(xiàng)分布下的GAM 模型,并將其與隨機(jī)森林模型進(jìn)行比較分析。結(jié)果表明:預(yù)測效果最優(yōu)的是基于零膨脹泊松分布的GAM 模型。在此基礎(chǔ)上,對各解釋變量進(jìn)行分析,為車險(xiǎn)費(fèi)率的厘定提供一定的參考。

在對車險(xiǎn)的研究中,車險(xiǎn)費(fèi)率占據(jù)著舉足輕重的地位,因此保險(xiǎn)公司必須建立適合的定價(jià)模型來厘定更為合理的費(fèi)率。一般來說,車險(xiǎn)費(fèi)率模型主要分為索賠頻率模型和索賠強(qiáng)度模型,本文僅考慮索賠次數(shù)的預(yù)測模型。由于實(shí)際中的索賠次數(shù)通常具有零膨脹性質(zhì),故Yip和 Yau(2005)引入零膨脹模型,并分別用 ZIP、ZINB、ZIGP、ZIDP 回歸模型擬合車險(xiǎn)索賠次數(shù),結(jié)果表明零膨脹模型可以改善對數(shù)據(jù)的擬合效果。廣義線性模型(GLM)作為車險(xiǎn)費(fèi)率厘定中最常用的模型,卻不能有效地處理非線性問題,故Hastie 等(1986)提出廣義可加模型(GAM),可以將連續(xù)型解釋變量以平滑函數(shù)形式引入回歸模型,改善模型的預(yù)測精度。關(guān)于GAM 模型的應(yīng)用,Günther 等(2014)利用廣義可加模型預(yù)測客戶離開保險(xiǎn)公司的風(fēng)險(xiǎn)概率,發(fā)現(xiàn)廣義可加模型能很好地識(shí)別解釋變量之間的非線性關(guān)系。張連增和申晴(2019)使用廣義可加模型對交強(qiáng)險(xiǎn)索賠頻率建模,并對索賠頻率影響因素進(jìn)行分析。

隨著信息技術(shù)的迅速發(fā)展,機(jī)器學(xué)習(xí)成為統(tǒng)計(jì)領(lǐng)域的熱門工具。在車險(xiǎn)費(fèi)率研究中,Guelman(2012)使用梯度提升樹對索賠頻率和索賠強(qiáng)度進(jìn)行預(yù)測,結(jié)果顯示該模型的預(yù)測效果比GLM 模型的效果要好。孟生旺(2012)對索賠頻率的線性回歸模型、廣義線性模型、神經(jīng)網(wǎng)絡(luò)、回歸樹進(jìn)行比較,發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)的預(yù)測效果優(yōu)于各種廣義線性模型,而回歸樹僅優(yōu)于線性回歸模型。Lee 和Antonio(2015)對索賠頻率分別建立GLM 模型、GAM 模型、神經(jīng)網(wǎng)絡(luò)和決策樹,通過比較發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)的預(yù)測效果最佳。Wüthrich 和Buser(2017)對機(jī)器學(xué)習(xí)諸多算法的基本原理進(jìn)行簡要梳理,并分別介紹這些算法在非壽險(xiǎn)定價(jià)中的簡單應(yīng)用。Noll 等(2018)用GLM 模型、回歸樹、提升算法和神經(jīng)網(wǎng)絡(luò)等對索賠頻率進(jìn)行建模分析,并比較幾個(gè)模型在建模中的表現(xiàn)。張連增和謝厚誼(2018)使用泊松回歸樹和bagging 方法對車險(xiǎn)索賠頻率進(jìn)行預(yù)測,研究結(jié)果表明回歸樹的效果不如廣義線性模型,而bagging 法可以提高回歸樹的預(yù)測能力。曾宇哲等(2019)用多種機(jī)器學(xué)習(xí)方法和GLM 模型對7 個(gè)數(shù)據(jù)集進(jìn)行擬合,結(jié)果顯示在所有數(shù)據(jù)集上XGboost的預(yù)測效果均優(yōu)于GLM 模型。

本文選用隨機(jī)森林和基于零膨脹泊松分布和零膨脹負(fù)二項(xiàng)分布的GAM 模型對一組實(shí)際車險(xiǎn)索賠數(shù)據(jù)中的索賠次數(shù)進(jìn)行研究分析,并對不同模型的預(yù)測效果進(jìn)行比較,探究更為合理的預(yù)測方法,為車險(xiǎn)索賠頻率研究提供一定的參考。

一、預(yù)備知識(shí)

(一)車險(xiǎn)索賠次數(shù)分布。用隨機(jī)變量Y 表示保單的索賠次數(shù),i=1,2,3…,若 Y 服從零膨脹分布,則根據(jù) Yip 和 Yau(2005),其概率函數(shù)表示如下:

式中,φ 為發(fā)生事故但未索賠的概率,0<φ<1,K 為隨機(jī)變量。

當(dāng)隨機(jī)變量K 為服從均值為μ 的泊松分布時(shí),隨機(jī)變量Y 服從零膨脹泊松分布(ZIP),其概率函數(shù)可表示為:

當(dāng)隨機(jī)變量K 為服從參數(shù)為r 和μ 負(fù)二項(xiàng)分布時(shí),隨機(jī)變量Y 服從零膨脹負(fù)二項(xiàng)分布(ZINBI),其概率函數(shù)可表示為:

當(dāng)φ=0 時(shí),零膨脹分布退化為泊松分布和負(fù)二項(xiàng)分布。

(二)GAM 模型。設(shè) YT=(Y1,Y2,…Yn)為響應(yīng)變量的 n 維向量,其服從指數(shù)族分布。據(jù)Hastie 等(1986)所述,GAM 模型的結(jié)構(gòu)表示如下:

其中,μ 為響應(yīng)變量 Y 的均值,g(·)為連接預(yù)測項(xiàng) η 和均值 μ 的連接函數(shù);向量X 為具有線性影響的解釋變量,β 表示參數(shù)向量,則Xβ 為解釋變量的線性影響函數(shù);xj(j=1,2,…J)是具有非線性影響的解釋變量,hj(·)是關(guān)于xj的非參數(shù)平滑函數(shù)。

(三)隨機(jī)森林。隨機(jī)森林是Breiman(2001)提出的一種以CART決策樹為基礎(chǔ)的集成學(xué)習(xí)模型。隨機(jī)森林模型的適應(yīng)性較強(qiáng),不容易產(chǎn)生過擬合問題,它既可以用于分類也可以用于回歸。隨機(jī)森林的生成步驟如下:

1、用Bootstrap 方法從樣本容量為K 的訓(xùn)練集中有放回地隨機(jī)抽取等量的樣本,作為一棵決策樹的訓(xùn)練樣本。

2、決策樹由根節(jié)點(diǎn)開始自上而下遞歸分裂。在決策樹的每個(gè)節(jié)點(diǎn)需要分裂時(shí),從樣本中的M 個(gè)特征(解釋變量)中隨機(jī)選取m 個(gè)特征(m<M),再從m 個(gè)特征中挑選一個(gè)最優(yōu)特征對節(jié)點(diǎn)進(jìn)行分裂。

3、決策樹的形成過程中每個(gè)節(jié)點(diǎn)均按照步驟2 進(jìn)行分裂,直到節(jié)點(diǎn)無法繼續(xù)分裂時(shí)停止。隨機(jī)森林中的決策樹都隨意生長,不需要進(jìn)行剪枝。

4、按照上述3 個(gè)步驟生成N 棵回歸樹,從而構(gòu)成隨機(jī)森林。在回歸問題中,由森林中的每一棵決策樹分別輸出一個(gè)預(yù)測值,所有決策樹的預(yù)測值的平均值即為隨機(jī)森林的輸出值。

隨機(jī)森林的生成依賴于兩個(gè)極為重要的參數(shù),即隨機(jī)選取的特征個(gè)數(shù)mtry 和隨機(jī)森林中決策樹的數(shù)量ntree,它們影響著隨機(jī)森林模型的分類能力。

(四)模型評(píng)價(jià)

1、在選擇GAM 模型時(shí),本文采用AIC、BIC 準(zhǔn)則進(jìn)行比較。一般來說,AIC 和BIC 的值越小,模型的擬合效果越好。AIC 和BIC 的定義如下:

其中,lc是對數(shù)似然函數(shù),k 是模型中未知參數(shù)的個(gè)數(shù),n 是模型中的觀測值個(gè)數(shù)。

2、本文使用均方根誤差(RMSE)對隨機(jī)森林和GAM 模型進(jìn)行比較,其表達(dá)式如下:

其中,yi表示觀測值,表示模型預(yù)測值,n 是模型中的觀測值個(gè)數(shù)。RMSE 表示預(yù)測值與實(shí)際觀測值之間的平均偏差,其值越小,說明模型的預(yù)測效果越好。

二、實(shí)證分析

(一)數(shù)據(jù)描述與預(yù)處理。本文使用的是AutoClaim 數(shù)據(jù)集,該數(shù)據(jù)集是從SAS Enterprise Miner 數(shù)據(jù)庫中檢索的一組汽車第三方責(zé)任保險(xiǎn)數(shù)據(jù),其包含10,302 份保單和27 個(gè)變量。為了便于計(jì)算和減小模型預(yù)測誤差,本文進(jìn)行了變量篩選。首先,剔除無關(guān)變量ID(訂單編號(hào))、BIRTH(出生日期)、OLDCLAIM(累計(jì)索賠金額)和 CLAIM_AMT(當(dāng)期索賠金額),然后采用向后逐步回歸對其余變量進(jìn)行降維。根據(jù)向后逐步回歸的結(jié)果,本文選取了12 個(gè)變量作為解釋變量,各解釋變量及其具體信息如表1 所示。(表1)

表1 解釋變量及說明一覽表

在處理缺失值和異常值后,得到的數(shù)據(jù)集包含7,647 個(gè)樣本。進(jìn)而,本文分別從索賠次數(shù)為 0、1、2、3、4、5 的保單中隨機(jī)抽取 80%的保單形成訓(xùn)練集,其余20%的保單數(shù)據(jù)形成測試集。對索賠次數(shù)作簡單統(tǒng)計(jì),具體情況如表2 所示。(表2)

表2 索賠次數(shù)的頻率一覽表

表2 顯示,在訓(xùn)練集和測試集中,均有超過60%的數(shù)據(jù)索賠次數(shù)為0,說明該組數(shù)據(jù)具有零膨脹特征。訓(xùn)練集中有12.5%的保單發(fā)生1次索賠,26.4%的保單發(fā)生2 次以上索賠,索賠次數(shù)為5 的保單出現(xiàn)頻率最低,僅為0.02%;測試集中有11.2%的保單發(fā)生1 次索賠,25%的保單發(fā)生2 次以上索賠,索賠次數(shù)為5 的頻率僅為0.03%。

(二)GAM 模型擬合。本文在索賠次數(shù)服從泊松分布、負(fù)二項(xiàng)分布、零膨脹泊松分布和零膨脹負(fù)二項(xiàng)分布的條件下建立GAM 模型。計(jì)算不同模型的AIC 值和BIC 值,結(jié)果如表3 所示。(表3)

表3 不同分布下的模型擬合優(yōu)度一覽表

由表3 可知,零膨脹模型優(yōu)于普通的泊松回歸模型和負(fù)二項(xiàng)回歸模型,且通過比較AIC 值和BIC 值發(fā)現(xiàn),ZIP 分布下建立的GAM 模型擬合效果最優(yōu)。本文對其進(jìn)行參數(shù)估計(jì),估計(jì)結(jié)果如表4 所示。(表4)

表4 參數(shù)估計(jì)一覽表

根據(jù)參數(shù)估計(jì)表,在Yi服從零膨脹泊松分布下,得到的GAM 模型如下所示:

log(μi)=0.040+0.141CLAIMFLAG(1)-0.105CARUSE(Private)+0.035HOMEKIDS +0.149MSTATUS +0.092MVRPTS +0.082REDCAR -1.227URBANICITY (Rural)+cs (TRAVTIME)+cs (BLUEBOOK)+cs(HOMEVAL)+cs(INCOME)+cs(AGE)

可以看出,幾乎所有解釋變量都對均值有顯著影響。上報(bào)索賠的投保人有較多的索賠次數(shù);相對于商務(wù)車來說,私家車具有較少的索賠次數(shù);對于已婚的投保人來說,未婚投保人的索賠次數(shù)更多;違規(guī)記錄和孩子數(shù)量的系數(shù)為正值,說明違規(guī)記錄和孩子數(shù)量越多的駕駛?cè)税l(fā)生索賠的次數(shù)越多;紅色車輛發(fā)生索賠的次數(shù)比其他顏色的車輛更多;而在鄉(xiāng)村行駛的車輛索賠次數(shù)比城市更少。表4 中的非參數(shù)變量系數(shù)及其標(biāo)準(zhǔn)誤差僅指平滑器的線性部分,且這五個(gè)非參數(shù)變量無法簡單地用數(shù)學(xué)形式描述,畫出其對索賠次數(shù)的影響效應(yīng)圖,具體如圖1所示。圖(a)、(b)、(c)、(d)、(e)分別表示駕駛?cè)四挲g、上班距離、住房價(jià)值、年收入和汽車價(jià)值對索賠次數(shù)的影響,圖中橫坐標(biāo)表示解釋變量的實(shí)測值,縱軸表示平滑函數(shù)值,陰影表示置信區(qū)間上下限,中間實(shí)線表示索賠次數(shù)的平滑擬合曲線。通過圖1 可以發(fā)現(xiàn),駕駛?cè)四挲g和上班距離對索賠次數(shù)的影響較為平穩(wěn);隨著住房價(jià)值的增加,索賠次數(shù)略有下降,隨后變得平穩(wěn);年收入與索賠次數(shù)呈現(xiàn)非常強(qiáng)烈的非線性關(guān)系,索賠次數(shù)處于波動(dòng)狀態(tài);車輛價(jià)值與索賠次數(shù)呈負(fù)相關(guān),車輛價(jià)值越大,索賠次數(shù)越少。(圖1)

圖1 影響效應(yīng)圖

(三)隨機(jī)森林的構(gòu)建。隨機(jī)森林模型可以用R 語言中的random-Forest 包實(shí)現(xiàn)。在利用訓(xùn)練集建立隨機(jī)森林模型之前,需要使用十折交叉驗(yàn)證來尋找使模型均方根誤差(RMSE)最小的最優(yōu)參數(shù)mtry 和ntree,mtry 是指樹節(jié)點(diǎn)用于分裂的變量個(gè)數(shù),ntree 是指隨機(jī)森林所包含的決策樹數(shù)目。

首先,根據(jù)RMSE 確定最佳mtry 值。本文解釋變量有12 個(gè),故將mtry 參數(shù)設(shè)置為1~12 進(jìn)行建模,計(jì)算不同mtry 取值下的RMSE 值,RMSE 隨著mtry 的變化如圖2 所示。可以看出,隨著mtry 的值增大,RMSE 的值先減小后增大,在mtry 的值為2 時(shí),RMSE 的值最小,因此本文選擇2 作為最優(yōu)mtry 值。(圖2)

圖2 mtry 與 RMSE 關(guān)系圖

其次,根據(jù)RMSE 確定最佳參數(shù)ntree。在mtry=2 的條件下,使ntree 分別等于 100,200,…,1000,依次計(jì)算 RMSE 的值,繪制 RMSE與ntree 的關(guān)系圖,如圖3 所示。(圖3)

圖3 ntree 與 RMSE 關(guān)系圖

從圖3 可以看出來,當(dāng)ntree 的取值為500 時(shí),RMSE 的值最小。故本文選擇500 作為ntree 參數(shù)的取值。經(jīng)過交叉驗(yàn)證,索賠頻率預(yù)測模型的最優(yōu)參數(shù)為mtry=2,ntree=500。以此參數(shù)建立隨機(jī)森林模型,并用該模型對測試集進(jìn)行預(yù)測。

(四)模型比較。本文將ZIP 分布和ZINBI 分布假設(shè)下的GAM 模型以及隨機(jī)森林模型用于測試集中,并計(jì)算各自的RMSE。(表5)

表5 各模型RMSE 一覽表

如表5 所示,發(fā)現(xiàn)ZIP-GAM 模型的預(yù)測效果最優(yōu),其次是ZINBIGAM 模型。相比之下,隨機(jī)森林的預(yù)測效果最差,這可能在于索賠次數(shù)數(shù)據(jù)不平衡,導(dǎo)致模型訓(xùn)練受到影響,進(jìn)而影響了模型的預(yù)測效果。

三、結(jié)論

本文對一組實(shí)際車險(xiǎn)索賠數(shù)據(jù)分別建立GAM 模型和隨機(jī)森林模型,并進(jìn)行了比較分析,結(jié)果表明基于零膨脹泊松分布假設(shè)下的GAM模型比隨機(jī)森林在費(fèi)率厘定中具有更大的優(yōu)勢。相比之下,GAM 模型不僅具有更好的預(yù)測能力,而且其對預(yù)測結(jié)果的可解釋性比隨機(jī)森林模型強(qiáng),可以清晰地展示出每個(gè)解釋變量對索賠次數(shù)的影響程度。但隨機(jī)森林也有一定的優(yōu)越性,在其建模前不需對數(shù)據(jù)進(jìn)行預(yù)處理。

綜上,隨機(jī)森林和GAM 模型各有優(yōu)點(diǎn),在實(shí)際生活中可以根據(jù)不同的條件選擇合適的方法。同樣的,這兩種模型也能應(yīng)用于索賠強(qiáng)度或保費(fèi)定價(jià)中,對保險(xiǎn)公司的費(fèi)率厘定和客戶選擇有一定的參考價(jià)值,以改進(jìn)費(fèi)率厘定結(jié)果的合理性。

猜你喜歡
效果模型
一半模型
按摩效果確有理論依據(jù)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
3D打印中的模型分割與打包
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
3D—DSA與3D—CTA成像在顱內(nèi)動(dòng)脈瘤早期診斷中的應(yīng)用效果比較
主站蜘蛛池模板: 自拍亚洲欧美精品| 一级一级特黄女人精品毛片| 亚洲综合极品香蕉久久网| 久久久波多野结衣av一区二区| 无码精油按摩潮喷在线播放| 麻豆AV网站免费进入| 亚洲无码日韩一区| 九色在线观看视频| 六月婷婷激情综合| 精品无码专区亚洲| 亚洲水蜜桃久久综合网站 | 中文字幕伦视频| 欧美成a人片在线观看| 欧美性色综合网| 狠狠做深爱婷婷综合一区| 99色亚洲国产精品11p| 国产精品原创不卡在线| 欧美特黄一级大黄录像| 97se亚洲| 亚洲天堂日韩在线| 亚洲av日韩av制服丝袜| 色呦呦手机在线精品| 波多野结衣爽到高潮漏水大喷| 黄色网址手机国内免费在线观看| 欧美黄网在线| 亚洲成人一区在线| 国产视频一区二区在线观看| 久久午夜影院| 国产香蕉97碰碰视频VA碰碰看| 亚洲最新地址| 欧美啪啪视频免码| 天天综合天天综合| 亚洲精品大秀视频| 久久成人18免费| 国产地址二永久伊甸园| 色香蕉影院| 亚洲男人天堂网址| 国内精品视频在线| 91精品国产自产91精品资源| 成人福利在线观看| 国产99在线| 国产精品一区在线麻豆| 91青青草视频在线观看的| 久久亚洲国产最新网站| 欧美劲爆第一页| 伊大人香蕉久久网欧美| 国产精品yjizz视频网一二区| 国产欧美另类| 久久精品国产精品青草app| 91成人精品视频| 精品无码人妻一区二区| 欧美午夜一区| 伊人久久大香线蕉影院| 伊人福利视频| 中文字幕亚洲无线码一区女同| 538国产视频| 四虎影视国产精品| 综合色区亚洲熟妇在线| 波多野结衣一二三| 特级毛片8级毛片免费观看| 国产白浆在线| 国产午夜人做人免费视频中文| 1769国产精品视频免费观看| 精品中文字幕一区在线| 国产精品所毛片视频| 国产成人喷潮在线观看| 国国产a国产片免费麻豆| 国产成人综合久久精品下载| 欧美人与牲动交a欧美精品| 国产成人精品2021欧美日韩| 日本人妻丰满熟妇区| 国产精品亚洲精品爽爽| 成人va亚洲va欧美天堂| 国产精品天干天干在线观看| 久久国产乱子伦视频无卡顿| 不卡视频国产| 91小视频版在线观看www| 国产精品自拍露脸视频| 青青青视频免费一区二区| 国产欧美网站| 日韩欧美网址| 伦精品一区二区三区视频|