孫維偉,張連增
(1.天津理工大學管理學院,天津300384;2.南開大學 金融學院,天津300350)
基于HLM2的算例分析及其在中國非壽險精算中的思考
孫維偉1,張連增2
(1.天津理工大學管理學院,天津300384;2.南開大學 金融學院,天津300350)
隨著保險業務的拓展和深化,財產保險中越來越多地出現具有相關性和層次性的保險數據。分層線性模型對此類數據的處理能充分地體現在數據的分析中,在國際精算領域中的應用處于起步階段。文章分析了分層線性模型具有二層、三層結構的數據特點,采用線性混合模型和分層線性模型方法,完成了二層結構數據的模型構建、實現與比較。
相關數據;分層數據;非壽險費率厘定;線性混合模型;分層線性模型
廣義線性模型(GLM)在諸多國家的非壽險定價實務中的長足發展,引發國內外學者對其拓展類的研究。Smyth(1989)對GLM的假設加以改進,假定廣義線性模型中的離散參數不再是常數,其經變換后可以表示為解釋變量的線性形式,從而提出了雙廣義線性模型(Double Generalized Linear Models,DGLM)。Hastie和Tibshirani(1990,1993)將非參數光滑技術應用于指數散布族分布,并使用非參數、半參數結構代替GLM中的線性預測量,將其擴展為廣義可加模型(Generalized Additive Models,GAM)。在統計學中為處理有相關性和層次性的數據,較早的模型是線性混合模型(Linear Mixed Models,LMM),繼而出現廣義線性混合模型(Generalized Linear Mixed Models,GLMM)、分層廣義線性模型(Hierarchical Linear Mixed Models,HGLM)。這些具有固定效應和隨機效應的模型已應用于心理學、教育學、環境科學、生態學和社會學等多個領域,而其在保險領域的應用已是當前國際精算理論研究的熱點。
1.1數據類型描述
1.1.1相關數據
相關是指兩個或兩個以上變量(兩組或者兩組以上數據)之間相互關系的程度或強度[1],按照強度包括完全相關、高度相關(強相關)、弱相關和零相關四種情況。此外,宏觀經濟中的時間序列和經濟計量模型中的隨機誤差序列常常存在著自相關。自相關是相關關系的一種,又稱序列相關,原指隨機變量在時間上與其滯后項之間的相關,也指回歸模型中隨機誤差項與其滯后項的相關。若隨機項ui存在自相關,則有cov(ui,uj)≠0,(i,j∈T,i≠j)。在非壽險精算學中,具有相關結構的數據是很常見的,譬如,同一份保單在多個投保期內的損失數據往往具有相關性。
縱向數據、空間聚類數據、甚至更一般的聚類數據都是存在相關性從而不滿足獨立性的數據結構的例子。縱向數據在計量經濟學中常被稱為面板數據,與時間序列數據、截面數據構成計量經濟學三種主要數據類型。縱向數據可以視為時間序列數據與截面數據的混合,包含截面和時間二維特征。例如,投保人往往是連續多年投保,損失數據具有時間序列特征;同時,由于不同地區的地理條件等差異,導致各地區內的投保人索賠行為具有地區差異。隨著大數據時代的發展,縱向數據在非壽險精算學中日益增加。
1.1.2分層數據
分層數據(hierarchical data)最初常見于社會與行為學中。所謂分層,也稱階層,是由較低層次觀察數據嵌套在較高層次之內的數據結構所組成。其中,最低層次的測量稱為微觀層次,其他高層次的測量則屬于宏觀層次,宏觀層次通常由不同的組別構成[2]。個體處于不同的組(團體),有些變量與個體有關,有些變量與團體有關。例如,學校收集的學生資料包含性別、種族、學習態度與家庭環境等用于描述學生特征的變量,也可以包含反映學校特征的變量,如學校類型和地點等。針對上述數據,學校可以作為宏觀分析單位,學生作為微觀分析單位,學生嵌套于學校范圍內,形成一個具有二層觀測數據的數據集。此類二層數據結構還可以拓展到三層甚至更多的層級,如學生嵌套于班級、學校、地區、國家等。
隨著保險大數據的不斷出現,多層次數據結構在非壽險業務中日益增多,如費率厘定與準備金評估中索賠或損失數據已經出現分層結構,對這些分層數據的收集、整理與精準分析對保險市場發展具有重要的理論與現實意義。
1.2LMM和HLM的基本理論
1.2.1LMM的基本理論
LMM的發展歷史可以追溯到1861年,最早出現的形式是單因素隨機效應模型,20世紀90年代以后成為醫學和社會科學中廣泛使用的統計模型,在這些學科中也被稱為多層次模型(multilevel models)或分層線性模型[3]。假設要分析的數據由N個對象的觀測值組成,第i個(1≤i≤N)對象(個體)的觀測次數是ni。Yi=(Yi1,Yi2,…,Yini)′表示第i個對象的ni×1維的觀測向量,LMM可表示為:

1.2.2HLM的基本理論HLM的概念最早由Lindley和Smith(1972)[4]提出,HLM的基本思想在于:在特定的數據結構中,模型的某些參數本身需要建模,依據數據的不同層次設置不同水平,將回歸系數進行相應分解,可以視為“回歸的回歸”。HLM的特點是不需要假設觀測數據是否相互獨立,可以同時對個體水平(微觀層次)和組群水平(宏觀層次)的數據進行分析,把復雜的問題分解為相互聯系的各個組成部分,為科學研究提供一種新的概念框架。HLM可以有二層、三層、四層甚至更一般結構的發展模型,更可以拓展為HGLM(Lee和Nelder,1996[5])。本文僅以二層結構的HLM(簡記為HLM2)為例對其理論進行簡要分析。
最簡單的二層結構HLM等價于帶隨機效應的單因素方差分析,基本形式為[6]:

將β0j的表達式代入Yij中,得到:

其中,Yij代表被解釋變量,β0j是第一層模型的截距,γ00是第二層模型的截距,隨機變量rij滿足 E(rij)=0,Var(rij)=σ2,u0j滿足Var(u0j)=τ00。方差σ2代表組內變化,方差τ00代表組間變化。組內相關系數(Intraclass Correlation Coefficient,ICC)定義為[7]:

ICC是指組間方差占總體方差的比例,可以測量總體變異中由于第二層的差異造成的變異比例。將式(2)進行拓展,簡單的HLM的基本形式包括三個表達式:

式(6)中包含以下三類參數:
①固定效應γ00和γ10,它們分別是 β0j和 β1j的平均值,在第二層的單位之間是固定的;
②隨機效應u0j和u1j,它們分別是隨機的第一層系數β0j和β1j的隨機成分,代表第二層單位之間的變異;
③方差協方差成分:

進一步地,在回歸系數中引入被解釋變量,更一般的二層HLM模型可以表示為:

將式(8)中β0j和β1j的表達式依次代入Yij的表達式,得到:

此時,Xij表示第一層的解釋變量,rij是第一層的隨機變量,Wj表示第二層的解釋變量,γ00,…,γ11是第二層的系數稱為固定效應,u0j和u1j是第二層的隨機變量,這里假設:
2.1數據來源及說明
非壽險精算中已經出現分層次結構的數據,然而,經調研表明,中國保險業公開數據源(如歷年《中國保險年鑒》、保監會官網、各大保險公司年度報告)鮮有相關數據類型,中國各地區不同投保人多年的索賠數據尚未公開。局限于現階段保險實務中的分層數據較難獲取,本文僅以R軟件WWGbook程序包中的一組ratpup數據為樣本進行算例分析,該組數據也見于West等(2007)。雖然數據方面無法揭示非壽險數據特征,但是模型對數據的分析過程及思想可以延展,期待國內數據完善后推廣應用到中國保險業。ratpup數據以實驗幼鼠為標本,隨機分配一種特定的高、低或是標準水平的藥物劑量,通過比較接受高劑量和低劑量處理的雌性大鼠所生的每窩幼鼠與接受標準劑量處理的雌性大鼠所生的每窩幼鼠的出生體重來研究藥物的劑量水平、性別等因素如何影響幼鼠出生時的體重。該組數據屬于看作二層結構的分層數據,幼鼠和窩作為分析單位,幼鼠嵌套在窩內,各變量是在兩個層次分別進行測量的,包含6個變量的322個觀測數據。各變量的定義及統計特征描述見表1。

表1 變量含義及統計特征描述
2.2算例分析
2.2.1HLM2模型的建立
針對該組數據的特點建立分層模型進行算例分析,采用二層的分層線性模型來比較分配到三種不同劑量的窩幼鼠的平均出生體重,考慮了窩與窩之間的差異性,以及同一窩幼鼠之間的變異。在第一層模型中,對于大鼠的幼鼠這一分析單位而言,同一窩的劑量水平和幼鼠數是相同的,幼鼠的體重因性別而不同。以weight為被解釋變量,sex為解釋變量建立第一層模型(10);在第二層模型中,首先設定參數 β0j和 β1j,進而需要合理解釋使得 β0j和 β1j在所研究的特定問題背景中變得更有現實意義。
第一層模型:

β0j是截距項,β1j是變量sexij的斜率,下標i和 j代表的是第一層的個體i所隸屬的第二層單位 j。weightij表示在第 j窩的第i個幼鼠的出生體重,其與幼鼠的性別相關。sexij是指示變量,雌性時sexij取值為1,雄性時sexij取值為0。第一層模型中隨機變量rij是模型的殘差,滿足E(rij)=0,Var(rij)=σ2,體現同一個窩內的幼鼠之間的相關性。
第二層模型:

在第二層分析數據中,β0j與每一窩的幼鼠數litsizej和劑量水平treatj相關;β1j在第一層中用于描述在第 j窩的幼鼠i的出生體重weightij與其性別sexij之間的關系,在不同窩之間其與劑量水平treatj相關。γ00與γ10在第二層各單位之間是固定的,γ01、γ02、γ11分別是式(11)中回歸方程的斜率,u0j是第二層模型的殘差,第二層模型體現了不同窩內的未觀測到的特征導致幼鼠的異質性。值得一提的是,由于treat是分類變量,而數據集默認中等劑量水平為基礎組,因此該變量對應的待估參數事實上是兩個,即γ02(高劑量水平)和γ02(高劑量水平);sex作為二分類變量,將雄性作為基礎組,因此該變量對應的待估參數為一個。
將式(11)中的 β0j和 β1j的表達式代入式(10),得到混合模型如下:

式(12)在形式上符合LMM的標準形式。其中,固定效應是截距項γ00、litsize所對應的γ01、treatj所對應的γ02、sexij所對應的γ10、treatj與sexij的交互效應所對應的γ11,也包含γ11(高劑量水平)和γ11(高劑量水平),隨機效應是第二層的隨機變量u0j和殘差rij。
2.2.2基于HLM軟件的實現
目前,分層線性模型的計算問題可以通過不同軟件來解決,其中由Scientific Software International公司出品的HLM軟件是一種較具針對性的軟件。如果分層數據可以用第一層數據和第二層數據分別單獨存儲,使用該軟件進行方便地分析,而R軟件只能分析第一層數據和第二層集成為一個數據集的分層數據。將HLM(版本7.0)與R軟件(版本3.13)進行比較,有利于對數據分析過程與結果的理解。
基于HLM軟件,第一層和第二層模型的固定效應的參數估計結果如表2所示。

表2 模型各層固定效應的參數估計結果(基于HLM)
表3給出了隨機效應方差成分的估計結果和檢驗結果,表明了該模型的第一層和第二層模型的隨機變異情況。表示幼鼠出生體重總變異的37.1%是由第二層的影響因子,即產崽數(litsize)和實驗劑量水平(treat)引起的。

表3 隨機效應方差成分的估計結果
2.2.3基于R軟件(3.13版本)的實現
將上述HLM2轉化為等價的混合模型,在此視角下分別采用線性混合模型中的REML方法、GLMM中的懲罰擬似然(Penalized Quasi-Likelihood,PQL)算法與HGLM中的基于h似然的EQL(extended quasi-likelihood,EQL)算法,對式(12)對應的模型分析,得到估計結果如表4所示。

表4 混合模型視角下固定效應和隨機效應的參數估計結果(基于R)
此外,圖1給出了基于REML方法的幼鼠出生體重擬合值的標準化殘差圖,可以用于輔助診斷模型的擬合效果。在圖1中,大部分標準化殘差隨機分布在零線上下,且絕對值落在[-2,2]的區間范圍內,表明HLM2對應的混合模型的模型假設尚且合理。

圖1 幼鼠出生體重擬合值的標準化殘差圖
2.2.4結果比較分析
對比表2和表4的輸出結果,可以發現:首先,HLM與R軟件對模型中固定效應參數估計值、標準誤(SE)的估計結果基本相同,t檢驗結果的統計顯著性大致相同。其次,HLM軟件可以給出HLM2的標準偏差、方差成分的估計值和σ2=0.0965,見表3),而R軟件不能直接給出相應的結果,需要進一步進行計算。其中,隨機效應的標準偏差為0.31072=0.0965、方差成分的估計值為σ2=0.40432=0.1635。再次,從LMM視角分析分層數據,基于不同算法進行估計的結果更方便比較;最后,關于反映和衡量模型總體擬合程度的統計指標,HLM2結果中偏差統計量(Deviance)的近似值是399.3,而由于算法不同,R結果中基于REML方法給出AIC統計量的值為419.1043,而基于PQL算法和EQL算法的結果尚未給出AIC統計量的值。
3.1分層模型在非壽險精算中的已有應用研究
國外精算理論界雖然對分層模型在非壽險精算領域的應用已有研究,但尚有深入研究的空間。Jewell(1975)[8]較早地提出分層信度(hierarchical credibility)的概念,由于在處理分層信度模型時,希爾伯特空間技術(Hilbert space technique)通過使用更直觀的投影算子取代了繁瑣的計算而更勝一籌。Nelder和Verrall(1997)[9]首次將GLM拓展到HGLM,構建分層對數似然函數(hierarchical log-likelihood)并應用于傳統的信度理論分析。同時,Nelder和Verrall(1997)在其研究中還提出將HGLM應用于準備金評估和費率厘定的想法和思路。Bühlmann和Gisler(2005)[10]在闡明了實踐中很多保險數據具有分層結構的同時,將分層模型理論嵌入到信度模型中,并著重利用該數學方法深入分析分層信度模型。Guszcza (2008)[11]介紹分層模型的概念及其在索賠準備金評估中的應用,并提出對損失流量三角形進行建模的一種新的統計方法,即非線性分層模型(nonlinear hierarchical models),也稱為非線性混合模型(nonlinear mixed effects models,NLME)。Frees和Valdez(2008)[12]針對非壽險定價中索賠損失數據,以新加坡財險公司協會(General Insurance Association,GIA)中1993年至2003年的一組汽車保險數據為樣本,將其看作具有三層結構的數據集提出了更一般的分層模型,為確定損失數據的聯合概率分布,依次分析索賠頻率、條件索賠類型與條件索賠強度數據,并應用貝葉斯方法,最終預測未來的總索賠損失。除了分析有層次性和相關性的保險數據之外,HGLM提供一種新的方式,來處理“大規模分類”問題,即如果某個分類變量的水平數較多,而對應于某個水平的數據量較少,那么可以應用HGLM來處理。Ohlsson(2008)[13]把GLM和信度理論結合起來,使用瑞典某保險公司的車險數據,對車型(car model)這一分類變量細分為2500個水平,進行分層信度估計。這方面的文獻還有Klinker(2011)。這些研究對于將分層模型應用于非壽險精算實踐環節具有較強的借鑒與啟發意義。
3.2對中國非壽險業的啟示與思考
分層模型的研究方法在社會科學、生物統計等多個領域已得到認可和廣泛運用,而越來越復雜的保險大數據啟示精算師將其引入并推廣到我國的非壽險業。
從宏觀角度考察,每一份保單嵌套于保險公司,保險公司嵌套于各省市,各省市嵌套于各個國家,把這些保險數據匯集在一起,將變量進行細化,即可用分層模型做二層、三層、四層甚至更多層次的數據分析。從微觀角度思考,對于同一個公司的保險數據,在發生索賠的條件下,索賠的損失分布可以根據索賠頻率和索賠額等細分出更多的層次來,費率厘定要考慮每一層次的各種影響因素,每一個因素又可以劃分出不同的水平。索賠是否發生、索賠頻率、條件索賠類型和條件索賠強度是更一般的分層數據結構。可以引入相應的變量利用HLM統計技術在各個層次內進行費率厘定的建模分析。在影響因素中,各保險公司影響索賠頻率和索賠額的數據可以細致劃分為人的因素(如駕駛人的年齡、性別、駕駛年齡、職業、是否固定駕駛人員、駕駛人的違章肇事記錄、影響駕駛人的安全駕駛因素和駕駛行為等)、車的因素(如車輛年平均行駛里程數、車輛的理賠記錄、車輛的使用性質、車型、廠牌型號、核定載客人數、車身顏色、制造年月、事故記錄等)、路的因素(如干燥路面、潮濕路面、雪路、冰地、高速公路線形設計、道路結構狀況等)和環境因素(如噪音、氣象因素等自然環境、地理環境、氣候環境、交通環境)等,這一思路見圖2。更進一步地,類似于幼鼠實驗中其出生體重與不同窩相關的情況,在車險費率厘定中,不同地區駕駛員的索賠可能受到自身風險狀況和地區差異的影響,建立類似的分層數據,可以更準確地分析駕駛員的索賠情況。

圖2 索賠聯合分布的分層描述
[1]張曉峒.應用數量經濟學[M].北京:機械工業出版社,2009.
[2]lta Kreft,Jan De Leeuw.多層次分析模型導論[M].邱皓政譯.重慶:重慶大學出版社,2007.
[3]West B T,Welch K B,Galecki A T.Linear Mixed Models:A Practical Guide Using Statistical Software[M].Boca Raton,FL:Taylor and fran?cis/CRC Press,2015.
[4]Lindley D V,Smith A F M.Bayes Estimates for the Linear Model[J]. Journal of the Royal Statistical Society B,1972,(34).
[5]Lee Y,Nelder J.Hierarchical Generalized Linear Models[J].Journal of the Royal Statistical Society B,1996,(58).
[6]Raudenbush S W,Bryk A S.Hierarchical Linear Models:Applica?tions and Data Analysis Methods[M].London:Sage Publications,Inc. 2002.
[7]Raudenbush S W,Bryk A S,Cheong Y F,et al.HLM6:Hierarchical Linear and Nonlinear Modeling[M].SSI:Scientific Software Interna?tional,Inc.2004.
[8]Jewell W S.The Use of Collateral Data in Credibility Theory:A Hier?archical Model[J].Giornale Dell’Instituto Italiano Degli Attuari,1975, (38).
[9]Nelder J A,Verrall R J.Credibility Theory and Generalized Linear Models[J].Astin Bulletin,1997,27(1).
[10]Bühlmann H,Gisler A.A Course in Credibility Theory and Its Appli?cations[M].Heidelberg:Springer-Verlag,2005.
[11]Guszcza J.Hierarchical Growth Curve Models for Loss Reserving[J]. Casualty Actuarial Society E-Forum,2008.
[12]Frees E W,Valdez E A.Hierarchical Insurance Claims Modeling[J]. Journal of the American Statistical Association,2008,103(484).
[13]Ohlsson E.Combining Generalized Linear Models and Credibility Models in Practice[J].Scandinavian Actuarial Journal,2008,(4).
(責任編輯/易永生)
O212
A
1002-6487(2016)22-0004-05
國家自然科學基金資助項目(71603180;71271121;71401041)
孫維偉(1982—),女,遼寧海城人,博士,講師,研究方向:風險管理、統計精算。張連增(1968—),男,山東萊蕪人,教授,博士生導師,研究方向:風險管理、統計精算。