閆 春,遲蕭穎,劉新紅
(1. 山東科技大學數學與系統科學學院,山東 青島 266590;2. 北京石油化工學院數理系,北京 102617)
近年來,我國保險業發展迅速,據國家統計局發布的保險業年度數據,我國截至2018年年底保險機構數量235家,原保費收入3.80萬億,規模達到世界第二,成為了全球最重要的新興保險市場大國。據我國保監會的統計數據以及保險業內部估算,至少含有20%的車險賠付屬于欺詐,我國車險欺詐賠付額占索賠總額比率遠遠高于全球的平均水平[1]。車險欺詐不僅破壞了保險制度的正常秩序,也危害到我國保險行業健康發展。因此,建立有效的保險反欺詐模型來快速準確的識別欺詐案件,對于我國保險行業是一項至關重要的工作。國內外學者進行了車險欺詐識別的多種嘗試[2]-[7],如BP神經網絡(BPNN)、隨機森林(RF)、支持向量機(SVM)等建立預測模型,但這些方法識別準確率仍然不高。因此,車險業亟需引入新的技術,而T-S模糊神經網絡是一個非常好的選擇。
與Logistic 回歸、BP神經網絡等學習技術相比,模糊神經網絡結合了模糊理論和神經網絡,匯集了二者的優點,集信息處理、聯想、學習、識別于一體。因此,理論上,T-S模糊神經網絡方法十分適合車險欺詐識別。無論國內還是國外,許多學者將糊神經網絡應用于水質評價、信用評估等領域[7]-[12],但是,很少有學者研究基于T-S模糊神經網絡的車險欺詐識別模型。T-S模糊神經網絡具有初始的隸屬函數中心值和寬度以及模糊網絡系數隨機的特點,因此模型會存在訓練誤差較大,人工設置參數較多,對初始值依賴較強的固有缺點。而粒子群算法具有良好的尋優能力,能夠優化T-S模糊神經網絡的參數,實現對T-S模糊神經網絡的優化。根據上述本文提出一種改進粒子群優化T-S模糊神經網絡的算法,改進的粒子群算法采用混沌映射提高初始種群的多樣性,在位置更新過程中引入非線性時變慣性權重和自然選擇機理提高算法的全局搜索能力。最后,建立車險欺詐檢測模型,為檢驗期預測效果,與未優化的TSFNN、PSO-TSFNN,LDWPSO-TSFNN三種模型相比較,結果表明:相對于傳統算法而言,改進PSO-TSFNN能夠有效地識別索賠數據中的欺詐信息,且該模型易于實現,具有更高的識別率、預測精度以及良好的魯棒性。


圖1 T-S模糊神經網絡算法流程圖
T-S模糊神經網絡每層表達如下。
1)第一層(輸入層):這一層連接輸入向量xi,輸入向量的維數與節點數相同。故輸入層具有n個節點,這些節點將輸入值直接傳遞到第二層。

(1)
2)第二層(模糊化層):這一層共有n×m個節點,共有n組。模糊隸屬度值確定了輸入變量的模糊集成度,為了得到模糊隸屬度值,采用Gaussian隸屬度函數(2)模糊化輸入值。
(2)

3)第三層(模糊規則計算層):這一層共有m個節點,采用模糊連乘式(3)計算得到ω

(3)
4)第四層(輸出層):這一層共1個節點,采用式(4)根據模糊計算結果計算模糊神經網絡模型的輸出值yi:
O(4)=I(4)
(4)
標準粒子群(Particle Swarm Optimization,PSO)算法是一群初始化的粒子,每個粒子都代表問題的一個潛在最優解,其中每個粒子分別用速度、位置和適應度值三項指標表示,適應度值的大小表示粒子的優劣,其值根據適應度函數計算得到[13]。
假設種群X=(X1,X2,…,Xn)在D維的搜索空間中,其中第i個粒子在D維的目標搜索空間中的位置表示為Xi=[xi1,xi2,…,xiD]T。根據目標函數可計算出每個粒子位置Xi所對應的適應度值。令Vi=[Vi1,Vi2,…,ViD]T為第i個粒子的速度,Pi=[Pi1,Pi2,…,PiD]T為其個體極值,Pg=[Pg1,Pg2,…,PgD]T為種群的全局極值。
在每一次迭代過程中,粒子通過個體極值和全局極值更新自身的速度和位置,更新速度和位置公式如式(5)、(6)所示

(5)

(6)
式中,ω為慣性權重;d=1,2,…,n;i=1,2,…,n;k為當前迭代次數;c1和c2為加速度因子,均為非負的常數;γ1和γ2為分布于[0,1]的隨機數。Vid為粒子的速度;Xid為粒子的位置。為了防止粒子的盲目搜索,將其速度和位置分別限制在區間[-Vmax,Vmax]、[-Xmax,Xmax],Xmax和Vmax均為常數。
具體流程圖如圖2所示。

圖2 標準粒子群算法流程圖
3.1.1 混沌映射初始化種群
PSO算法的尋優能力與種群的多樣性有著密切的聯系。因此本文采用Logistic混沌映射對PSO算法種群進行初始化,增加初始種群的多樣性。改進后算法初始化公式如式(7)所示
Xn+1=Xn×μ×(1-Xn)
(7)
其中,μ∈[0,4]稱為Logistic參數;Xn為混沌序列的第n個值,并且Xn∈[0,1]。
3.1.2 非線性時變慣性權重
慣性權重ω的選取對PSO算法搜索能力的影響顯著。當ω較大時,保證了算法全局搜索能力;當ω較小時,保證了算法局部開采能力和收斂速度[14]。本文提出了一種非線性時變慣性權重,其公式如式(8)所示

(8)
其中,ωmin為初始慣性權重;ωmax為迭代至最大次數時的慣性權重;Tmax為最大迭代次數;t為當前迭代次數。
3.1.3 自然選擇機理
PSO算法在搜尋最優解時表現良好的優化效果,但也存在一些不足,例如PSO算法在容易過早陷入局部最優解,影響搜索全局最優解。本文針對PSO算法存在的缺點,引入自然選擇的原理,在每一次迭代的過程中,根據粒子種群適應度值重新排列粒子群順序,用群體中50%較好的粒子替換50%較差的粒子,同時對原來所有個體記憶的歷史最優值進行保留。
改進粒子群算法的計算步驟如下。
1)設置種群規模M,學習因子c1、c2,最大迭代次數Tmax,慣性權重ωmin、ωmax,以及搜索空間維度D等參數。
2)運用混沌映射初始化種群,迭代生成M個粒子。
3)并根據適應度函數計算每個粒子的適應度值并進行排序,選出最好的m個個體作為初始群體。
4)將粒子的位置和適應度值保存于粒子的個體極值pbest,將所有pbest中最優適應值的個體位置和適應度值儲存在全局極值gbest中。
5)根據式(5)和式(6)更新粒子位移和速度。
6)根據式(8)更新權重。
7)比較每個粒子的適應度值和粒子的最優位置,如果兩者相近,則粒子最優的位置為當前值。將當前所有的Pbest和gbest進行比較,更新gbest。
8)根據粒子種群適應度值重新排列粒子群順序,用群體中50%較好的粒子替換50%較差的粒子,同時對原來所有個體記憶的歷史最優值進行保留。
9)當算法達到最大迭代次數時,停止搜索并輸出結果;否則返回到第5)步繼續搜索。
為了獲得更好的車險欺詐識別準確度,本文嘗試采用改進粒子群算法優化模糊神經網絡的參數。在本文中,設T-S模糊神經網絡的輸入層和隱含層的節點數分別為n和m,而輸出層為最后的車險評價結果,故輸出層只存在一個節點。則T-S模糊神經網絡模型的結構可表示為n-m-1。
改進粒子群算法優化模糊神經網絡算法的基本計算步驟如下。
1)在改進粒子群算法中設置初始值。在所有的數據進行處理前,先將數據劃分為訓練集和測試集,并進行歸一化,以確保輸出結果的準確性。

3)運行模型,將適應度函數設置為期望結果和輸出結果之間的均方誤差(Mean Square Error,MSE),并根據適應度函數計算每個粒子的適應度值。其中均方誤差表達式如式(9)所示。

(9)

4)運行各個粒子的個體極值pbest和全局極值gbest。
5)計算每個訓練樣本的輸出值,直至達到最大迭代次數T。最后將測試樣本運用訓練后的T-S模糊神經網絡參數進行預測。
具體流程圖如圖3所示。

圖3 改進PSO-TSFNN算法流程圖
本文使用的數據為某保險公司汽車保險歷史索賠數據,選取了部分個投保人信息作為存在影響的指標因子。各變量類型說明如表1所示。

表1 數據指標描述
在車險索賠數據中,存在非數值型數據,需要分層并量化將非數值型數據轉變為數值型數據,如表2屬性概念分層所示。

表2 變量概念分層
本文研究的車險欺詐問題為典型的二分類問題,而欺詐樣本數量明顯少于正常樣本數量,數據不平衡的問題極大地影響了欺詐檢測方法的檢測效果。因此針對數據不平衡問題,本文采用SMOTE算法對少數類樣本進行過采樣,在一定程度上避免了過擬合現象。
將10個指標作為模糊神經網絡的輸入,即T-S模糊神經網絡輸入層具有10個節點,將模糊層節點數設置為20,將輸出結果設置為是否欺詐,其中1為欺詐索賠,0為誠信索賠,因此輸出層節點數為1。在本次實驗中,經過SMOTE算法平衡后的數據集共有2122份車險索賠樣本,取80%樣本作為訓練樣本,剩下的20%樣本作為測實驗本樣本進行實驗。
為了充分評估模型的表現,本文選取確率(Accuracy)、查準率(Precision)、特異度(Precision)作為第一層次細致性模型性能評價指標,同時選取AUC值、F1值、均方誤差作為模型整體性能評價指標。分類結果的“混淆矩陣”(confusion matrix)如表4所示。

表4 分類結果混淆矩陣
準確率、特異性、查準率、召回率、F1值分別定義如式(10)—(14)所示。均方誤差表達式如式(9)所示。評估指標AUC值為ROC曲線所覆蓋面積,其中AUC越大,模型的分類性能越好。

(10)

(11)

(12)

(13)

(14)
其中,TP表示實際值與預測值均為0,FN表示實際值為0預測值為1,FP表示實際值為1預測值為0,TN表示實際值與預測值均為1。
本文通過訓練好的DPSO-TSFNN(改進粒子群算法優化T-S模糊神經網絡)車險欺詐識別模型測試數據,模型的分類誤差如圖4所示。

圖4 DPSO-TSFNN車險欺詐識別模型分類誤差
從圖4可以看出,基于改進PSO-TSFNN的車險欺詐識別模型分類誤差相對較低,具有較高的準確率。
DPSO-TSFNN模型在測試集上的分類結果如下:TP類為203個樣本;FP類為22個樣本;TN類為191個樣本;FN類為10個樣本。根據式(12)—(14)分別計算出每一類的查準率、召回率和F1值,并計算出查準率均值為0.926,召回率和F1值得均值均為0.925,見表5 DPSO-TSFNN模型分類報告。

表5 DPSO-TSFNN模型分類報告
對比TSFNN、PSO-TSFNN、LDWPSO-TSFNN和DPSO-TSFNN 四種算法,選取預測集中前一百個樣本數據繪制了四種算法的預測誤差圖像,見圖5。其中,經過PSO優化過的TSFNN相比于未優化TSFNN的預測誤差更小,誤差基本控制在-0.3~0.2之間,LDWPSO優化的TSFNN的預測誤差基本控制在-0.3~0.1之間,而DPSO優化的TSFNN的預測誤差基本控制在-0.1~0之間,經分析發現DPSO-TSFNN算法預測誤差更小,精度更高。

圖5 四種算法誤差對比
通過上述分析發現,經過PSO優化的TSFNN相比于傳統的TSFNN表現更優,為了更進一步的分析改進的PSO算法的優化性能,對比了DPSO-TSFNN、LDWPSO-TSFNN、PSO-TSFNN三種算法的適應度值變化,圖6可以看出,三種算法的適應度值隨著迭代次數的增加不斷減小,最后在一定范圍內趨于穩定,其中,DPSO-TSFNN模型的適應度最小,搜索結果達到更優,并收斂速度個人更快。

圖6 三種算法適應度值對比
為了更加全面評估對比不同模型的性能,從兩個方面分別建立評估體系。一方面,對于本文研究的車險欺詐檢測問題,準確地識別客戶類型,對減少保險公司不必要的損失具有重大的指導意義,因此選取有效區別正負樣本的評估指標對模型進行第一層次評估;另一方面需要利用整體性能評估指標對不同模型進行綜合評估,使得模型評估更加客觀公正。
從表6可以看出,在查準率變現上,即對正類樣本的識別情況,DPSO-TSFNN算法變現最優,查準率達到0.950。在特異性表現上,即對負類樣本的識別情況,LDWPSO-TSFNN算法表現最優,特異度達到0.911,其次是DPSO-TSFNN算法為0.897,兩者相差不大,且在準確率表現上,即對總體樣本識別情況,與TSFNN、PSO-TSFNN和LDWPSO-TSFNN相比,DPSO-TSFNN預測模型的準確度分別提高了24.7%、2.9%、1.4%。故相比于傳統模型,本文模型具有更好的樣本區分度和更高的實際應用價值。

表6 模型正負樣本識別性能
由表7可知,傳統的TSFNN算法的各評價指標均為最低,經過PSO優化后的TSFNN的F1值、AUC值均有提升,而本文提出的DPSO-TSFNN算法表現最優,分別實現F1值達到0.925、AUC值達到0.983。且在均方誤差方面,DPSO-TSFNN算法的預測均方誤差也相對TSFNN算法降低了3%,表現出更好的預測精度。

表7 模型綜合性能評估對比
為了更直觀的對比DPSO-TSFNN算法與其它三種算法的AUC值,繪制了四種算法的ROC曲線,如圖7所示,DPSO-TSFNN算法的ROC曲線覆蓋面積最大,說明該算法具有更好的分類性能。所以根據上述分析可以看出,相比于TSFNN、PSO-TSFNN,LDWPSO-TSFNN三種算法,本文提出的DPSO-TSFNN的算法易于實現,具有更高的欺詐識別率、預測精度以及良好的魯棒性。

圖7 對比算法的ROC曲線
保險欺詐檢測難以識別欺詐樣本以及各影響因素存在復雜的非線性關系的問題,首先通過SMOTE算法對數據集少數類樣本進行過采樣,有效地防止了預測過擬合現象。針對汽車保險欺詐檢測存在的弊端選擇了T-S模糊神經網絡檢測模型。為了改善檢測準確率不高誤差大的缺點,提出了一種改進PSO-TSFNN的汽車保險欺詐檢測模型,使用改進PSO算法對TSFNN的網絡系數和隸屬度函數參數進行迭代尋優。并通過結合實際數據仿真對比發現:與傳統的TSFNN、PSO-TSFNN和LDWPSO-TSFNN相比,DPSO-TSFNN預測模型的準確度分別提高了24.7%、2.9%、1.4%。綜合考慮本文提出的DPSO-TSFNN檢測算法的預測準確率更高,具有更高的欺詐識別率、預測精度以及良好的魯棒性。