許菁



續保即投保人在原合同期滿前或期滿時與保險人重新約定保險權利義務關系,簽訂協議并收取保險費,一般被理解為繼續投保或續簽合同。續保率從一定程度可以反映出一家保險公司的業務穩定程度和對原有客戶的保留能力。作為車險這一獨特的險種來說,續保率并不十分理想。為爭奪客戶,許多保險公司甚至出現了虧本經營的現象。但在利潤虧損的情況下續保率依舊不高。因此,在信息化技術飛速發展的現代,續保率的提升需要采用更加科學的數字化手段通過構建和分析模型來解決。
針對問題一,通過對歷史客戶數據的可視化操作和相關性檢驗,對影響因素做出判斷并構建相關蟻群神經網絡模型,應用蟻群算法對神經網絡的待求參數進行優化求解,并據此對用戶屬性以及續保率做出精準預測;
針對問題二,在現實生活中由于保險公司的優惠政策,很多車主在自己的車險快到期或已到期時便在轉保與續保之間徘徊。在得出續保用戶的判斷的基礎上,利用用戶的相關參數分析,預測出不同用戶群體的續保情況,并分析其中未續保客戶與續保客戶的差異,引入基于負二項模型改進的獎懲系統,從而吸引客戶進行長期續保,進而達到提升客戶續保率的效果。
一、問題重述
目前,車險一般可占財險公司業務的70%到80%,車險市場歷來是財險公司的兵家必爭之地。以往,財險公司為了贏得市場,往往采取低價、折扣等方式來爭搶客戶。但是此舉使得利潤急劇下降,甚至有些企業呈現虧損狀態。因此大多數車企為了提高利潤率開始重視承保車輛的質量,此做法,其實是險企科學發展觀的重要體現,也是市場競爭下的企業合理行為。此舉在一定程度上展現對故障率小的客戶不公平對待,極大的影響客戶的續保率。
由此可以預見未來車險行業的幾大發展趨勢:
(一)車險價格與駕駛行為密切相關
未來的車險定價將逐漸變為“從人主義”。車險的定價因素將直接與駕駛人的駕駛習慣與行駛里程掛鉤,通過駕駛行為來判定車險價格。一個具有良好駕駛習慣的車主,則會在原本保費的基礎上繼續上漲。
(二)同價位車型車險價格完全不同
國內傳統的汽車保險定價,通常是以車型和其購置價為主要依據。未來中國車險業,同樣的一款車,不同的人開,保費價格會完全不同。
信息時代的到來,可以通過數字化技術來更加精準地了解客戶,制定營銷和服務方案。以此信息建立模型,解答以下問題:
1.建立合理的數學模型,對相關數據中的客戶進行精準畫像,給出客戶的續保概率。
2.從保險實務角度看,人們更關心保費和索賠額的折現價值、投保者的初
始保費等級等因素,為了提高續保概率,針對不同的客戶設計不同的優惠和福利方案。
二、問題分析
通過對相關數據分析,發現有一些因素對續保率影響不大,所以需采用互信息熵以篩選出對續保率影響相對較為顯著的影響屬性。熵是信息論的中心概念,是變量的不確定性的度量。互信息是信息論里一種有用的信息度量,指兩個事件集合之間的相關性。因此常用于計算語言學模型分析,度量兩個對象之間的相互性。
在確定影響元素后,對客戶續保概率進行預測。BP神經網絡是是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,目前多應用于用輸入向量和相應的輸出向量訓練一個網絡逼近一個函數。但是也存在一些主要缺陷首先是其學習速度慢,即使是一個簡單的問題,一般也需要幾百次甚至上千次的學習才能收斂,其次是容易陷入局部極小值。但蟻群算法具有全局最優化以及啟發式尋優的特征,可以達到神經網絡模型的全局尋優目的。
在上述預測客戶續保率的基礎上,要最終達到提高續保率的目的,需根據其影響因素對投保人進行分組,形成若干個相對同質的風險集合,并厘定各組的先驗保費;在此基礎上根據投保人的索賠記錄對其每年的續保保費進行調整,該制度即為傳統意義上的獎懲系統。保費厘定涉及兩個方面:一是確定基本保費,二是確定續期保費,其中續期保費由獎懲系統決定。因而一個公平的獎懲制度至關重要。然而BMS保費的確定只是依賴于以往各年度的索賠總次數,卻與索賠各年度的分布情況無關。這中對信息利用的不充分,會使某些客戶對車險公司的保費累計遠超其他客戶,從而造成不公平對待,使得續保率無法提高甚至下降。
對相關數據進行分析,保單中的索賠次數分布為具有參數的負二項分布并采用負二項模型并對其改進,建立公平BMS,在各個因素充分考慮的情況下,保證具有相同情況的客戶在相同投保期限內對車企公司有相同的保費積累,情況有所差異的客戶在相同投保期限內對車企公司有相同的保費積累,從而達到客戶之間的公平對待,以保證續保率。
三、模型假設
(一)假設蟻群算法的開始全部蟻群從蟻巢出發去尋找食物;
(二)假設所有車險續保率的影響因素均已由附件給出;
(三)假設在得出關聯度之前所有的屬性之間均為相互獨立的;
(四)假設保單組合中的每份保單的索賠頻率不相同;
(五)忽略貨幣的時間價值因素。
四、模型的建立與求解
(一)模型一的建立與求解
根據客戶數據信息,首先對用戶信息進行數據預處理——空缺值補全以及非數值屬性數據信息編碼。在補全的過程中,對于部分空缺值根據具體的取值含義填充為0,或根據需要填充眾數;在屬性數據時,應先提取出數據的幾種不同取值,根據需要填充相應的數字,為了保證數據的有效性,應該在填充后對數據進行歸一化到區間[0,1]中以方便處理,歸一化公式如下:
對于所用28維數據,按照以下幾條原則和方法對于數據進行了屬性選擇以及維度規約:
1.根據數據本身的特征,去除影響因素:“保單號”、“起保日期”、“終止日期”、“風險類別”;
2.根據常見汽車保險知識,去除影響因素:“品牌”、“車系”。
經過上述數據規約以及清洗,通過相似性度量算法對于剩余的22個屬性分
別與“是否續保”進行計算,取互信息值最大前10個影響因素作為接下來蟻群神經網絡模型的輸入進行預測。
由于不同屬性的熵值變化較大。對于給定的問題沒有統一的衡量標準,較難設定一個準確的閾值來真正反映出這樣的信息,故將X、Y的互信息重新定義如下:
根據計算結果可得,最終選定排名前5的影響因素分別為:
表5.1 最終影響因素
根據以上結果,初步將處理后計算結果合理,故可以將最終影響因素作為輸入數據輸入到蟻群神經網絡中。
BP網絡,即用逆誤差傳播(error BackPropagation,簡稱BP)算法訓練的多層前饋神經網絡。若用E表示神經網絡在訓練集上的誤差,則它顯然是關于連接權重w和閾值的一個函數。此時對于神經網絡的訓練過程可看作一個參數尋優的過程,即在參數空間中,尋找一組最優參數使得E最小,常用的求解方法是使用梯度下降法搜索最優值。關于局部極小的定義如下:若對于和,存在使得:都有成立,則為局部極小解。
蟻群神經網絡通過引用蟻群算法,可以有效地解決這一問題。在求解中,初始化蟻群數目等于訓練集中數據的實例數,同時根據相關研究:螞蟻數目大于30并逐漸增大時,蟻群算法尋找最優解的性能雖仍在不斷改善,但改善效果并不是特別明顯。當城市節點數為螞蟻數目的1.5倍時,蟻群算法的全局收斂性和收斂速度都比較好。
在設計BP神經網絡結構時,考慮到經驗公式。本實驗中,隱含層的數目應該為[4,13]之間;利用Matlab設計一個隱含層神經元數目可變的BP網絡,隱含層和輸出層的激活函數為sigmoid函數經過反復試驗,得出最佳隱含層數目為8。考慮到模型效率和精確度的問題,在實驗中給定,隱層神經元數目。
(二)模型二的建立與求解
對于問題二,在模型一求解的基礎上,根據續保率的影響因素及其互信息值對傳統的BMS模型進行改進。而保人年齡、性別等續保率的影響因素,最終會以索賠次數以及金額的形式展現出,所以在對BMS模型改進時僅考慮其索賠次數各年度分布情況最優,以及索賠額大小最優。
首先對于索賠頻率最優,首先需確定保單變化規律為服從參數負二項分布。對于一個第一次投保的客戶,因無各年度的索賠頻率記錄,由此可按照如下公式將其保費進行初步估計定價。
在客戶從第二年至(n+1)年有相同保費累計的情況下,據上述分析該次估計定價應為,此次累計保費為,則該次續保費用計算公式為:
其次考慮索賠額大小最優,據數據分析得知,每份保單服從參數為的指數分布,在每一組保單中的值有差異,分別服從α2和β2的伽瑪分布,則保單索賠額服從如下Pareto分布
對于一個第一次投保的客戶,因無各年度的索賠頻率記錄,可根據Pareto分布的均值進行初步預測估計,其中α2和β2可由保單組合中歷史記錄進行估計。由Bayes定理,根據保單的k此索賠記錄,可計算出保單的后驗分布,如下式所示其中,為安全附加系數。
綜上所述,車險企業在設計優惠方案時應注重以下幾個方面的改進:
1.同價位車型車險價格根據其他影響因素有所差別
根據對數據進行預處理得知,傳真正影響索賠額的索賠概率缺主要依賴于不同客戶本身的駕駛行為,以及客戶本身的年齡、性別等因素。因此在制定方案時應相應地為駕駛行為良好的客戶降低保費。
2.考慮索賠額因素
目前我國很少有企業考慮其索賠金額,如此以來也會造成對索賠金額少的客戶不公平對待,導致客戶流失續保率下降。建議可以規定一個臨界值,界上和界下區別對待。
五、誤差分析
通過實驗,將模型一與原始的BP神經網絡在同一訓練集和測試集上進行對比,結果如下表:
由此可見,模型一在實現了續保率預測的基礎上提升了原有BP神經網絡的收斂效率,在解決了局部最優問題的基礎上降低了樣本誤差。模型訓練誤差基本滿足要求,模型可行。 (作者單位:西北師范大學)