林鵬程 唐輝












摘? 要:為了實現(xiàn)保險場景的精準(zhǔn)營銷,同時充分利用千萬級客戶和保單歷史成交記錄的數(shù)據(jù)特點,本文經(jīng)熱門算法研究和統(tǒng)計理論分析,提出一種基于XGBoost改造的Deep Forest級聯(lián)算法。該算法采用XGBoost淺層機器學(xué)習(xí)算法作為Deep Forest級聯(lián)構(gòu)建塊,同時用AUC-PR標(biāo)準(zhǔn)作為級聯(lián)構(gòu)建深度學(xué)習(xí)不平衡樣本評價的自適應(yīng)過程,并將此算法分別與原有XGBoost算法和原始Deep Forest算法進行性能比較。經(jīng)實踐,上述算法應(yīng)用投產(chǎn)于保險購買預(yù)測場景中,分別比原有XGBoost算法和原Deep Forest算法提高5.5%和2.8%,效果顯著;同時提出的淺層學(xué)習(xí)向基于Deep Forest深度優(yōu)化操作流程,也為其他類似應(yīng)用場景提供了實踐參考方向。
關(guān)鍵詞:Deep Forest;XGBoost;深度學(xué)習(xí);保險精準(zhǔn)營銷
中圖分類號:TP301.6? ? ? 文獻標(biāo)識碼:A 文章編號:2096-4706(2019)22-0116-07
Abstract:In order to realize the precise marketing of the insurance scenario,and make full use of the data characteristics of tens of millions of customers and the historical transaction records of insurance policies,this paper proposes a Deep Forest cascade algorithm based on XGBoost transformation through popular algorithm research and statistical theory analysis. This algorithm adopts XGBoost shallow machine learning algorithm as the building block of Deep Forest cascade,and uses AUC-PR standard as the adaptive process of cascading deep learning unbalanced sample evaluation,and compares the performance of this algorithm with the original XGBoost algorithm and the original Deep Forest algorithm respectively. Practice has proved that the above algorithm applied in the prediction scenario of insurance purchase is improved by 5.5% and 2.8%,respectively,compared with the original XGBoost algorithm and the original Deep Forest algorithm. At the same time,the proposed shallow learning direction based on Deep Forest depth optimization operation process also provides practical reference for other similar application scenarios.
Keywords:Deep Forest;XGBoost;deep learning;insurance precision marketing
0? 引? 言
近年來,保險的作用越來越受到人們的認(rèn)可;購買保險已成為大家的日常消費行為。而人們更希望根據(jù)自身的經(jīng)濟情況、家庭財力情況和風(fēng)險承受能力購買合適的保險產(chǎn)品。盡管大多數(shù)保險公司在保單銷售、客戶服務(wù)中留下了大量的客戶、保單及客戶服務(wù)的歷史數(shù)據(jù),但是向客戶推銷保險產(chǎn)品時,常常還是依靠經(jīng)驗或隨機選擇客戶進行推銷,成功率較低,耗費大量人力和物力成本。因此,如何利用既有數(shù)據(jù)合理地分析和預(yù)測客戶未來購買保險產(chǎn)品的行為成為金融保險領(lǐng)域重要的研究課題。
目前,在研究預(yù)測客戶購買行為方面大部分集中在互聯(lián)網(wǎng)、銀行、基金證券等領(lǐng)域。文獻[1]運用既定的需求成熟度模型計算客戶多元屬性中的相關(guān)系數(shù),并運用統(tǒng)計學(xué)進行假設(shè)檢定,確保系數(shù)的合理性和穩(wěn)定性,運用線性回歸算法來完成對銀行客戶購買行為的預(yù)測;文獻[2]立足于RFM分析模式,采用k-means算法對客戶進行聚類分析,然后借助馬爾可夫鏈理論,建立相關(guān)轉(zhuǎn)移矩陣,同時利用Dirichlet-multinomial模型來估計轉(zhuǎn)移概率,從而解決客戶信息單一性的不足和轉(zhuǎn)移矩陣內(nèi)的多項式分配問題,從而完成客戶購買傾向預(yù)測;文獻[3]分別運用常規(guī)機器學(xué)習(xí)算法,例如Logistic回歸、SVM(支持向量機)算法和Logistic回歸-支持向量機平均融合算法對上網(wǎng)客戶進行購買預(yù)測行為;文獻[4]中李棟等人主要是利用果蠅優(yōu)化算法(ELM)計算極限學(xué)習(xí)機(ELM)參數(shù),從而構(gòu)建極限學(xué)習(xí)機淺層神經(jīng)網(wǎng)絡(luò),進行客戶購買基金行為的預(yù)測。
在保險領(lǐng)域中,研究客戶購買預(yù)測行為的相關(guān)文獻較少,目前已有的基本上是通過統(tǒng)計和常規(guī)分類算法進行實驗研究。比如文獻[5,6]基本通過經(jīng)驗法則或者問卷調(diào)查的形式,利用二元Logistic回歸統(tǒng)計分析方法來計算客戶購買保險的意愿;文獻[7]主要通過改進支持向量機等多種機器學(xué)習(xí)方式進行實踐,嘗試得出客戶購買預(yù)測行為。
雖然上述方式在一定程度上實現(xiàn)了客戶購買行為預(yù)測能力,但是在大型保險公司中面向的往往是對上億規(guī)模用戶的保險購買行為預(yù)測,每個用戶的大量特征還存在稀疏性強的特點,這種場景下往往更適合采用樹狀算法進行分類預(yù)測[8];為了進一步提升樹形算法準(zhǔn)確性,往往采取bagging或者boosting集成的方式進行模型構(gòu)建,比如隨機森林(RF)或者梯度決策樹(GBDT)方式,但這些集成方式由于淺層學(xué)習(xí)和評估標(biāo)準(zhǔn)不可微,優(yōu)化效果主要靠人工調(diào)整參數(shù),和深度學(xué)習(xí)自動化迭代更新權(quán)重參數(shù)相比,存在最優(yōu)的局限性;特別是當(dāng)大量的訓(xùn)練數(shù)據(jù)可用時,淺層學(xué)習(xí)能力往往不如深度學(xué)習(xí)能力[9]。
為進一步實現(xiàn)保險精準(zhǔn)營銷,須將原有的基于樹形集成方式(例如XGBoost)的客戶購買保險行為預(yù)測模型進一步做深度優(yōu)化,本文采用深度森林(Deep Forest)[10]作為一種新型的深度學(xué)習(xí)能力,并針對其級聯(lián)結(jié)構(gòu)中在實際保險購買行為預(yù)測業(yè)務(wù)中的不足,提出了一種改進實踐算法——基于XGBoost改造的Deep Forest級聯(lián)算法。
實踐表明,基于XGBoost改造的Deep Forest級聯(lián)算法應(yīng)用于保險產(chǎn)品購買預(yù)測模型中,預(yù)測效果和實際應(yīng)用效果在深度優(yōu)化方面均比原有單個XGBoost效果更優(yōu),同時也比原有Deep Forest優(yōu)化效果更穩(wěn)定。
1? Deep Forest算法簡介
當(dāng)前主流的人工智能技術(shù)主要實現(xiàn)深度學(xué)習(xí),而其中典型的技術(shù)是采用神經(jīng)網(wǎng)絡(luò)技術(shù),而Deep Forest則另辟蹊徑地進行深度學(xué)習(xí),本節(jié)主要介紹Deep Forest算法原理,同時根據(jù)保險購買預(yù)測場景業(yè)務(wù)情況,對該算法進行相關(guān)局限性分析。
1.1? 原理介紹
傳統(tǒng)的基于神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)算法,要求各層節(jié)點都是可微模塊,才能使用反向傳播機制(Back-propagation)來更新各層參數(shù)。若遇到各層節(jié)點是采用擅長處理表格型數(shù)據(jù)(或者離散數(shù)據(jù))等其他不可微模型時,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)難于進行深度學(xué)習(xí)。對此,南京大學(xué)的周志華團隊于2017年提出了一套新型的深度結(jié)構(gòu)學(xué)習(xí)算法——Deep Forest,算法過程如圖1所示。探索在不可微情景下的表示學(xué)習(xí)能力,同時,能夠構(gòu)建具有自適應(yīng)模型復(fù)雜度的多層結(jié)構(gòu)。
Deep Forest有別于以往基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法,特別是在處理深度學(xué)習(xí)過程中的特征關(guān)系處理能力(FeatureRelationships)和表征學(xué)習(xí)能力(Representation Learning)。有自身獨特之處。
首先,特征關(guān)系處理能力方面,Deep Forest是通過構(gòu)建多粒度掃描方法(Multi-GrainedScanning),對原始特征輸入進行變換,增強特征表達(dá)能力,適合于對原始序列數(shù)據(jù)(sequencedata,例如聲音、圖像等)的特征工程處理。
其次,在表征學(xué)習(xí)能力方面,Deep Forest構(gòu)建一套級聯(lián)結(jié)構(gòu)(Cascadeforeststructure),級聯(lián)中的每一層接收由上一層處理后的特征信息,并將該層處理結(jié)果傳遞給下一層。級聯(lián)的每層包含兩個隨機森林(RandomForest)和兩個完全隨機樹森林(Completely-randomtreeforest)。級聯(lián)過程中,每次擴展一個新的層之前,會將整個級聯(lián)性能在交叉驗證數(shù)據(jù)集上進行評估,如果沒有顯著的效果增強,則訓(xùn)練過程被終止,因此級聯(lián)過程的層數(shù)是自動確定的。這種級聯(lián)結(jié)構(gòu)的表征學(xué)習(xí)能力,非常適用于離散型或者表格型等場景數(shù)據(jù)。
而相比于深度神經(jīng)網(wǎng)絡(luò),Deep Forest級聯(lián)結(jié)構(gòu)也有明顯的優(yōu)勢。首先,Deep Forest的參數(shù)主要依靠原生隨機森林或者完全隨機數(shù)森林等基分類器參數(shù),相比于深度神經(jīng)網(wǎng)絡(luò)的上百個調(diào)優(yōu)參數(shù)要少很多;其次,它可以根據(jù)數(shù)據(jù)規(guī)模和特定應(yīng)用場景,自適應(yīng)完成級聯(lián)層數(shù),無需人工額外干預(yù);最后,Deep Forest提供級聯(lián)框架為其他非微模型的深度優(yōu)化提供了重要參考依據(jù)[11]。
Deep Forest的出現(xiàn),為深度學(xué)習(xí)在深度神經(jīng)網(wǎng)絡(luò)之外的方法,打開了一扇門。
1.2? 應(yīng)用局限性分析
盡管Deep Forest在學(xué)術(shù)領(lǐng)域得到了實踐認(rèn)可,但是將其用于構(gòu)建保險購買預(yù)測場景的模型構(gòu)建,特別是效果優(yōu)化方面,仍存在如下局限性:
首先,Deep Forest級聯(lián)過程中采用隨機森林和完全隨機樹森林兩種基分類器,雖然能最大化克服過擬合的問題,但是由于這兩種基分類器在樣本抽取和樣本特征抽樣的隨機性,訓(xùn)練效果穩(wěn)定性往往同這兩個基分類器設(shè)定的隨機參數(shù)有很強的相關(guān)性,而隨機參數(shù)選取自身與訓(xùn)練樣本數(shù)量和分布特性非常敏感,這種敏感的關(guān)系多數(shù)情況通過人工方式不斷調(diào)優(yōu)確定。構(gòu)建保險購買預(yù)測模型,由于樣本數(shù)據(jù)特征隨著時間推移,易造成概念偏移,需要模型定期進行迭代。每次迭代訓(xùn)練數(shù)據(jù),無論量級和分布都會因業(yè)務(wù)需要發(fā)生變化,因此在完全無人工干預(yù)的情況下,容易因之前單個隨機森林參數(shù)設(shè)定不再適用于新場景,造成冗余的級聯(lián)訓(xùn)練(有時候?qū)蛹壌笥?0),最后導(dǎo)致模型過于復(fù)雜,而收斂效果往往無顯著提升。
其次,保險購買預(yù)測應(yīng)用場景是一個典型的不平衡樣本的二元分類問題,正負(fù)樣本比例高達(dá)1:180;而Deep Forest級聯(lián)每層評價標(biāo)準(zhǔn)采用精確度(Accuracy)作為模型自適應(yīng)完成訓(xùn)練指標(biāo),往往容易造成評價失真,無法客觀評價最終級聯(lián)模型是否在業(yè)務(wù)上滿足精準(zhǔn)預(yù)測和查全率的指標(biāo)要求。
最后,雖然Deep Forest算法在眾多領(lǐng)域?qū)嶒炛芯邆鋬?yōu)越的表現(xiàn)性能,但是在保險購買預(yù)測模型實踐中如何用好Deep Forest算法,需要研究一個有科學(xué)依據(jù)的、合理的進階式應(yīng)用方案,以實現(xiàn)傳統(tǒng)樹形集成算法深入優(yōu)化能力。
對此,本文希望結(jié)合Deep Forest的優(yōu)勢特點,克服上述的現(xiàn)有不足,使得原有保險購買行為預(yù)測淺層模型具備深度學(xué)習(xí)的能力,對現(xiàn)有的Deep Forest進行優(yōu)化改進,提出了基于XGBoost改造的Deep Forest算法。
2? 基于XGBoost改造的Deep Forest算法
為了更好地實現(xiàn)保險精準(zhǔn)營銷的購買預(yù)測,本節(jié)主要對Deep Forest算法進行相關(guān)原理分析,并對其中的不足提出相關(guān)改造措施。
2.1? 引入XGBoost的原因
分析如圖2中Deep Forest級聯(lián)結(jié)構(gòu)[10],假設(shè)r表示級聯(lián)塊中每個基分類器的權(quán)重,N代表級聯(lián)的第N層,Nm代表第N層上有m個基分類器,F(xiàn)Ni表示第N層的第i個基分類器,ZN-1表示第N層的上一層輸入,μ為基分類器的期望結(jié)果,代表平均預(yù)測能力,σ2為平均方差,代表訓(xùn)練和預(yù)測的差異效果,Y代表預(yù)測值結(jié)果。
可以看出假設(shè)m給定的情況下,則要求各個分類器方差要最小。為了使每一層的輸入數(shù)據(jù)穩(wěn)定,由(2)(3)(4)可以看出,在每層給定相同m的情況下,級聯(lián)效果的方差也是和各自基分類器有關(guān)。
因此對于Deep Forest,在給定基分類器個數(shù)的前提下,要發(fā)揮最佳自動化迭代效果,對于基分類器要求較高,即要同時滿足偏差和方差小的特性。
原始Deep Forest級聯(lián)中,采用的是隨機森林和完全隨機樹森林作為基分類器,這種分類器屬于Bagging集成方式,而Bagging方式比較擅長處理方差大的問題,比如通過增加集成中樹的顆數(shù)或隨機采樣。偏差學(xué)習(xí)方面需要根據(jù)特定的訓(xùn)練數(shù)據(jù)進行大量的算法調(diào)參(比如樹的深度)[12],因此不太適用于多輪模型迭代的自動化應(yīng)用場景。
保險購買行為預(yù)測場景訓(xùn)練數(shù)據(jù)每天具有千萬級別的客戶和投保數(shù)據(jù)更新,而且部分字段會隨著時間推移發(fā)生非平穩(wěn)性變化,因此容易造成訓(xùn)練樣本和測試數(shù)據(jù)在一定時間內(nèi)須重新迭代訓(xùn)練,因此對基分類器要求具備較強的偏差自適應(yīng)處理能力。
目前基于樹的集成中,擅長處理偏差的方法是Boosting結(jié)構(gòu)。它是一種多個弱分類器的集成技術(shù),通過每個弱分類器預(yù)測結(jié)果相加,根據(jù)給定的損失函數(shù)計算集成模型中下一個弱分類器的預(yù)測內(nèi)容和自身弱分類器的權(quán)重,通過反復(fù)迭代,最終形成一套強大的分類器。
XGBoost[13]是GradientBoosting的實現(xiàn),通過對損失函數(shù)引入二階泰勒展開進一步的擬合和構(gòu)建每個弱分類器,由算法自動計算所需的每個弱分類器個數(shù)和相關(guān)系數(shù),全程無須人工特殊參與。
在每次計算損失時,引入上述正則計算,則會在整體上減小方差,進而達(dá)到基分類器既實現(xiàn)偏差小,又實現(xiàn)方差小的目的[14]。
另外,XGBoost有別于其他實現(xiàn)GradientBoosting技術(shù)的算法,主要體現(xiàn)在:
首先,在弱分類器選擇上不僅支持CART分類器,同時支持線性分類器;其次,在分類器訓(xùn)練分割點選擇計算上,最大化采取CPU多線程并行計算方式,對于訓(xùn)練數(shù)據(jù)的稀疏情況(比如缺失值)提供相關(guān)默認(rèn)處理方式,以及對于特征列的存儲做了內(nèi)存壓縮和優(yōu)化,因此在時間和空間上提高了算法效率。
綜合上述考慮,保險購買行為預(yù)測場景中可將XGBoost作為Deep Forest的基分類器使用。
2.2? 樣本不均衡評估標(biāo)準(zhǔn)選擇
Deep Forest級聯(lián)結(jié)構(gòu)默認(rèn)情況下是采用準(zhǔn)確度(Accuracy)來度量每層性能。
在保險購買預(yù)測的二分類問題中,相關(guān)的混淆矩陣如表1所示。
實際場景中,真實不發(fā)生購買的人群數(shù)量遠(yuǎn)大于真實發(fā)生購買的人群數(shù)量,屬于正負(fù)樣本比例非常不均衡的應(yīng)用場景。因此若用式(10),無法客觀地評價識別TP的能力。
針對衡量TP的識別能力,有如下公式[15]:
應(yīng)用式(11)(12),以Recall為X軸,Precision為Y軸,或者應(yīng)用式(13)(14),以FalsePositiveRate為X軸,TruePositiveRate為Y軸,分別得到RP、AUC曲線[15],如圖3所示。
許多研究表明,PR曲線相比于準(zhǔn)確度,更適用于高度傾斜數(shù)據(jù)集(Highly-skeweddatasets)的評價指標(biāo)[16]。
AUC-PR、AUC-ROC分別是指PR曲線下以及AUC- ROC曲線下的面積,值越大,代表模型區(qū)分正樣本和負(fù)樣本的能力越強[16]。
為了讓Deep Forest更加充分客觀地評價每一個級聯(lián)層的性能,將評估標(biāo)準(zhǔn)按AUC-PR進行修改,最終訓(xùn)練得到的模型采用AUC-ROC再次進行評估。
2.3? 改進算法說明
綜合以上分析,在保險購買預(yù)測應(yīng)用中,提出了基于XGBoost改造的Deep Forest級聯(lián)算法的使用。具體算法示意過程如圖4所示。
在應(yīng)用過程中,采用XGBoost對原始特征和樣本淺層學(xué)習(xí)并且完成特征選擇,而在級聯(lián)過程中,采用XGBoost淺層機器學(xué)習(xí)算法作為Deep Forest級聯(lián)構(gòu)建塊,級聯(lián)過程中每層是由上一層每個構(gòu)建塊的交叉驗證輸出值和初始選擇的特征值進行拼接,作為該層輸入供各構(gòu)建塊進行訓(xùn)練,各層用AUC-PR標(biāo)準(zhǔn)作為級聯(lián)構(gòu)建深度學(xué)習(xí)的自適應(yīng)過程。
假設(shè)每層構(gòu)建塊的個數(shù)M,每個構(gòu)建塊的參數(shù)Mi,連續(xù)i次(early_stopping_rounds)作為整體算法的超參數(shù)設(shè)置。
具體訓(xùn)練步驟的算法描述如下:
輸入:訓(xùn)練集D={(X1,Y1),(X2,Y2),…,(Xn,Yn)}
特征集F={F1,F(xiàn)2…,F(xiàn)n}
過程:Base_gcforest_mXgboost(D,F(xiàn)):
F’,M=XGBoost(D,F(xiàn))#利用XGBoost進行特征選擇。#F’為選擇后的特征,M為選擇特征所使用的參數(shù)
While(1):#進入級聯(lián)計算
For(i=0;i<M;i++):#M為每層構(gòu)建塊的個數(shù)
Dit,Dif=XGBoost-i(D,F(xiàn)’,Mi)
#Dit,Dif分別為第i個構(gòu)建塊XGBoost經(jīng)K
#折交叉驗證的各個訓(xùn)練集計算的正負(fù)概率值
#Mi為第i個構(gòu)建塊的M參數(shù)隨機微調(diào)取值
Sum_Dt=Sum_Dt+Dit#累加所有構(gòu)建塊正概率值
Sum_Df=Sum_Df+Dif#累加所有構(gòu)建塊負(fù)概率值
R(L)=AUC-PR(D,Max(Sum_Dt/M,Sum_Df/M))
#根據(jù)D中的真實值與該層各個構(gòu)建塊預(yù)測均值最大值作為預(yù)測值,進行當(dāng)前L層的AUC-PR計算。
If(R(L-I)>max(R(L),R(L-1),R(L-2),..,R(L-I+1)):
break#如果當(dāng)前L層AUC-PR值連續(xù)I次未大于L-I層AUC-PR值,則結(jié)束級聯(lián),最好的層數(shù)記為L-I層
Dtf=(D1t,D1f,D2t,D2f,D3tD3f,,….Dmt,Dmf)
//將構(gòu)建塊每項結(jié)果進行疊加拼接
D<-(D,Dtf)#將該層計算出來的每個樣本正負(fù)概率值,拼接訓(xùn)練集D,形成新的D,作為下一層輸入
對于預(yù)測部分,取AUC-PR值最大的層(即上述訓(xùn)練步驟中的L-I層),計算運算到該層中各個XGBoost構(gòu)建塊的預(yù)測結(jié)果,進行求和取均值,并且將最大值作為最終的預(yù)測結(jié)果。
另外,在保險購買預(yù)測場景中,通過將每層分類器進行5折交叉驗證,用于控制樣本過擬合風(fēng)險。
在這種改進之后,能夠使得XGBoost得到進一步的深度優(yōu)化,整個框架下的級聯(lián)收斂效果穩(wěn)定性得到加強,另外非常便于處理樣本不平衡的場景使用。
3? 實際應(yīng)用
3.1? 場景數(shù)據(jù)
在保險購買預(yù)測模型中,通過業(yè)務(wù)場景確認(rèn)、特征選取以及數(shù)據(jù)追溯加工,經(jīng)數(shù)據(jù)提取、探查和清洗,最終得到相關(guān)客戶保單等數(shù)據(jù),作為原始特征及訓(xùn)練樣本數(shù)據(jù)。數(shù)據(jù)統(tǒng)計情況如表2所示。
在所有的特征數(shù)中,類型特征占比在60%左右,類型特征中二值特征占比在80%左右。
業(yè)務(wù)場景的目標(biāo)是預(yù)測客戶是否會再次購買保險產(chǎn)品的行為,過程中將購買行為作為正樣本,不購買行為作為負(fù)樣本進行標(biāo)識。從標(biāo)注情況來看,該學(xué)習(xí)樣本具有正負(fù)樣本比例不均衡特點;同時,根據(jù)業(yè)務(wù)應(yīng)用場景,最終模型效果不僅要滿足精準(zhǔn)預(yù)測要求,而且還需滿足不同使用場景下對預(yù)測群體的查全率要求。
因此,該場景具有典型的數(shù)據(jù)量大、特征稀疏,同時正負(fù)樣本比例不均衡的特點。
3.2? 應(yīng)用方案說明
為了客觀評價改進算法和原有算法的性能,在實驗過程中,采取如下應(yīng)用對比流程,如圖5所示。
由單個XGBoost分類器進行完成數(shù)據(jù)訓(xùn)練后,按特征重要性排序提取相關(guān)特征,然后分別送入Deep Forest原始算法和基于XGBoost改造的Deep Forest級聯(lián)算法進行訓(xùn)練生成模型,最后用AUC-PR和AUC-ROC進行性能評價。
兩種級聯(lián)算法的超參數(shù)設(shè)置如表3所示,可以看出,兩個深度優(yōu)化算法主要在級聯(lián)構(gòu)建塊和自適應(yīng)評價標(biāo)準(zhǔn)上有所區(qū)別。
3.3? 結(jié)果分析
3.3.1? 特征計算結(jié)果
原始樣本經(jīng)特征加工后的特征變量,使用XGBoost進行特征變量挑選,最終選取了35個特征變量,從而可以判斷這些特征變量對客戶購買預(yù)測行為影響更為明顯。分析結(jié)果如圖6所示。3個算法將利用相同的35個特征開展模型構(gòu)建。
3.3.2? 算法效果分析
結(jié)合35個特征和原始樣本,分別在Deep Forest、基于XGBoost改造的Deep Forest級聯(lián)算法進行效果實驗比較,采用相同的測試數(shù)據(jù)集進行驗證結(jié)果,相關(guān)的AUC-ROC曲線和AUC-PR曲線對比如圖7和圖8所示。
結(jié)果表明,在三輪參數(shù)調(diào)優(yōu)過程中,基于Deep Forest改造的多層XGBoost的訓(xùn)練效果,無論在AUC-ROC或AUC-PR方面,都比原有的Deep Forest級聯(lián)效果更好,而且效果更加穩(wěn)定。
同時本文還加入單個XGBoost與基于XGBoost改造的Deep Forest級聯(lián)算法的比較;可以看出,改進算法與單個XGBoost在性能方面相比,也得到了深度優(yōu)化的效果。
3.3.3? 實際投產(chǎn)效果對比
根據(jù)上述三個算法完成的三個模型,分別在相同的預(yù)測集進行投產(chǎn)預(yù)測。
跟蹤三個月在同一查準(zhǔn)率的情況,三個模型實際產(chǎn)生的效果表現(xiàn)如圖9所示。
圖9中,相同條件是指同一個地區(qū),同一群客戶,同樣的時間段內(nèi)進行比較。成交率是“模型預(yù)測客戶購買保險行為,且客戶實際會購買保險人數(shù)”與“預(yù)測客戶購買保險行為”人數(shù)的比值。由于該預(yù)測是對客戶未來一段時間內(nèi)發(fā)生購買保險行為的預(yù)測,而該統(tǒng)計結(jié)果只是距離模型投產(chǎn)之后兩個月的情況,因此實際成交結(jié)果還會增長。
從數(shù)據(jù)實驗測試和現(xiàn)有投產(chǎn)效果對比來看,基于XGBoost改造的Deep Forest級聯(lián)算法的實際生產(chǎn)效果,分別比原有XGBoost算法和原Deep Forest算法提高2.8%和5.6%。因此可以認(rèn)為基于XGBoost改造的Deep Forest級聯(lián)算法在深度學(xué)習(xí)方面,起到一定的優(yōu)化效果。
4? 結(jié)? 論
針對保險購買預(yù)測數(shù)據(jù)中樣本量大、特征稀疏以及正負(fù)樣本比例不均衡的場景應(yīng)用,本文在原始Deep Forest算法基礎(chǔ)上,提出了基于XGBoost改造的Deep Forest級聯(lián)算法。該算法將XGBoost作為基分類器,引入Deep Forest級聯(lián)構(gòu)建塊,同時將AUC-PR值作為Deep Forest級聯(lián)自適應(yīng)評價標(biāo)準(zhǔn)。
通過保險購買預(yù)測場景中的對比應(yīng)用,實踐表明,基于XGBoost改造的Deep Forest級聯(lián)算法,在預(yù)測效果上均比原始Deep Forest更優(yōu),可為其他相似場景下的應(yīng)用提供新的思路。同時,本文提出和使用的算法對比方案,也可為淺層機器學(xué)習(xí)算法向深度優(yōu)化方向發(fā)展過程中的對比分析提供重要實踐參考和借鑒。
參考文獻:
[1] 田敏,李純青,李雪萍.需求成熟度模型的商業(yè)銀行零售客戶交叉購買行為預(yù)測研究 [J].西安工業(yè)大學(xué)學(xué)報,2013,33(5):392-397.
[2] 黃聰,王東.基于RFM分析模式與馬爾可夫鏈的客戶行為預(yù)測模型研究 [J].情報雜志,2009,28(S2):143-146+69.
[3] 祝歆,劉瀟蔓,陳樹廣,等.基于機器學(xué)習(xí)融合算法的網(wǎng)絡(luò)購買行為預(yù)測研究 [J].統(tǒng)計與信息論壇,2017,32(12):94-100.
[4] 李棟,張文宇.基于FOA-ELM的客戶基金購買行為預(yù)測仿真 [J].計算機仿真,2014,31(6):233-237.
[5] 吳玉鋒.社會階層、社會資本與我國城鄉(xiāng)居民商業(yè)保險購買行為——基于CGSS2015的調(diào)查數(shù)據(jù) [J].中國軟科學(xué),2018(6):56-66.
[6] 王壘.互聯(lián)網(wǎng)人身保險購買意愿研究 [D].杭州:浙江財經(jīng)大學(xué),2016.
[7] 賴春燕.數(shù)據(jù)挖掘在我國家庭保險購買行為分析上的應(yīng)用 [D].哈爾濱:哈爾濱工業(yè)大學(xué),2017.
[8] MURTHYSK.AutomaticConstructionofDecisionTreesfromData:AMulti-DisciplinarySurvey [J].DataMiningandKnowledgeDiscovery,1998,2(4):345-389.
[9] 孫志軍,薛磊,許陽明,等.深度學(xué)習(xí)研究綜述 [J].計算機應(yīng)用研究,2012,29(8):2806-2810.
[10] ZHOU Z H,F(xiàn)ENG J. Deep Forest:Towards an Alternative to Deep Neural Networks [C]//IJCAI-17,2017:3553-3559(2018-05-14).https://arxiv.org/abs/1702.08835v2.
[11] FENG J,YU Y,ZHOU Z H,.Multi-Layered Gradient Boosting Decision Trees [C]//arXiv:1806.00007.(2018-05-31).https://arxiv.org/abs/1806.00007.
[12] 曹正鳳.隨機森林算法優(yōu)化研究 [D].北京:首都經(jīng)濟貿(mào)易大學(xué),2014.
[13] CHEN T Q,HE T,BENESTY M,etal.XGBoost:Extreme Gradient Boosting [EB/OL].(2019-08-01). http://ftp.igh.cnrs.fr/pub/CRAN/web/packages/xgboost/index.html.
[14] DIDRIKN.TreeBoosting WithXgboost-Why Does XGBoostwin“Every”Machine Learning Competition [EB/OL].(2017-10-22).https://brage.bibsys.no/xmlui/bitstream/handle/11250/24 33761/16128_FULLTEXT.pdf.
[15] 周志華.機器學(xué)習(xí):第1版 [M].北京:清華大學(xué)出版社,2016.
[16] DAVIS J,GOADRICHM.xgboost:The Relationship Between Precision-Recall and ROC Curves [EB/OL].International Conference on Machine Learning.(2006-01-15).https://minds.wisconsin.edu/bitstream/handle/1793/60482/TR1551.pdf?sequence=1&is Allowed=y.
作者簡介:林鵬程(1980-),男,漢族,福建龍巖人,算法工程師,碩士,研究方向:人工智能在企業(yè)中的應(yīng)用;唐輝(1981-),男,漢族,湖北天門人,高級工程師,碩士,研究方向:人工智能在企業(yè)中的應(yīng)用。