零膨脹計數資料幾種模型方法的比較研究*

2020-06-28 10:30:28復旦大學公共衛(wèi)生學院流行病學教研室200032吳學福劉振球吳明山方綺雯袁黃波張鐵軍

中國衛(wèi)生統(tǒng)計 2020年3期

復旦大學公共衛(wèi)生學院流行病學教研室(200032) 吳學福劉振球吳明山方綺雯袁黃波張鐵軍

【提要】目的探討處理零膨脹計數資料的幾種模型之間的比較及其應用。方法在R語言中，分別用Poisson回歸、負二項回歸、零膨脹模型和hurdle模型來擬合66歲以上老年人醫(yī)療保健需求的數據，并通過似然比檢驗、Vuong檢驗和AIC、BIC的比較，對模型進行評估。結果零膨脹負二項模型和負二項hurdle回歸模型對數據的擬合效果優(yōu)于其他回歸模型，負二項hurdle模型的擬合結果與數據更接近，其擬合結果顯示老年人住院天數越長、患有慢性病數量越多、受教育年數越久、參加私人保險，其訪問醫(yī)療診所的次數越多，而自評健康狀況良好、男性的老年人醫(yī)療診所訪問的次數較少，即醫(yī)療保健需求的次數較少。結論零膨脹負二項回歸模型和負二項hurdle模型處理零過多、過離散數據的效果優(yōu)于一般的計數模型；而在零觀測值相對較少的情況下，用負二項hurdle模型可能更合適。

醫(yī)學研究中經常會遇到某事件發(fā)生次數的資料中含有大量的零，即許多觀察個體在單位時間、單位體積內未觀察到相應事件的發(fā)生[1]。這些資料零觀測值出現(xiàn)的概率遠遠超出相同條件下標準計數模型(如Poisson回歸和負二項回歸模型)能夠預期的范圍，使模型的方差遠大于期望，這種現(xiàn)象稱為零膨脹(zero-inflated)現(xiàn)象。零膨脹現(xiàn)象一直受到國內外學者的廣泛關注和研究，當計數資料中存在零膨脹現(xiàn)象時，如果繼續(xù)使用Poisson回歸或負二項回歸模型來擬合數據，所得結果可能失真。近年來，hurdle回歸模型和零膨脹回歸模型不斷發(fā)展，在醫(yī)學、金融、農業(yè)和社會科學等研究領域中得到廣泛應用，逐漸成為分析零膨脹數據的主流模型。

原理和方法

1.零膨脹回歸模型(zero-inflated model，ZIM)

零膨脹模型認為計數數據中的零觀測值來源于兩部分：一部分是來源于數據中存在某些特殊結構而產生的結構零；另一部分是來源于Poisson分布或負二項分布產生的抽樣零[2-3]。零膨脹模型可以看作是Bernoulli分布和離散型分布組成的混合分布，其概率密度函數的一般形式為：

(1)

其中πi(0≤πi<1)為零膨脹參數,表示結構零的概率，f(yi)服從某個離散型分布，如Poisson分布或負二項分布等。

(1)零膨脹泊松回歸模型(zero-inflated Poisson model，ZIP)

若(1)式中的f(yi)服從參數為μ的Poisson分布時， ZIP的公式為：

(2)

其中γ,β為待估計的模型回歸系數；x,z為協(xié)變量，二者可以相同也可以不同。

(2)零膨脹負二項回歸模型(zero-inflated negative binomial model，ZINB)

若(1)式中的f(yi)服從參數為μ和α的負二項分布時，ZINB的公式為：

(3)

其中γ,β為待估計的模型回歸系數；x,z為協(xié)變量，二者可以相同也可以不同。零膨脹模型中πi常用的連接函數為logit、probit函數。

2.hurdle回歸模型

hurdle模型認為數據中的零觀測值均來自于結構零，非零數據則是來自于不同的過程：第一個過程決定零事件發(fā)生還是非零事件發(fā)生的可能，發(fā)生取1，不發(fā)生取0，這個過程服從(0，1)分布，當第一個過程取0時則進入第二個過程，即事件至少發(fā)生一次的過程，該過程的非零數據服從零截斷Poisson或零截斷負二項分布等零截斷離散分布模型[4]。

根據以上原理hurdle模型的一般形式為：

i=1,2,…,N

(4)

式(4)中πi為事件數取0的概率;f′(Zi)表示零截斷離散型分布。

(1)Poisson-hurdle回歸模型(Poisson hurdle model，PH)

當(4)式中的f′(Zi)選擇零截斷Poisson分布時[5]，PH的公式為：

i=1,2,…,N

(5)

(2)負二項hurdle回歸模型(negative binomial hurdle，NBH)

當(2)式中的f′(Zi)選擇零截斷負二項分布時[6]，NBH的公式為：

i=1,2,…,N

(6)

hurdle模型中πi選擇不同連接函數(logit、probit、clog函數等)可得到不同的二分類回歸模型。

3.模型的評價指標

(1)似然比檢驗(LRT) 似然比檢驗是用來比較兩個嵌套關系模型(模型1嵌套于模型2)的擬合優(yōu)度。在R語言中，可以通過lrtest()函數來實現(xiàn)。似然比檢驗統(tǒng)計量為：

LR=-2[LL2-LL1]

(7)

(8)

(3)AIC和BIC準則當似然比檢驗和Vuong檢驗難以判斷模型優(yōu)劣時，可以通過比較AIC和BIC統(tǒng)計量的相對大小來對模型優(yōu)劣進行排名，信息準則值越小則模型越優(yōu)[9]。

實例分析

本研究數據來源于1987-1988年美國國家醫(yī)療費用調查(national medical expenditure survey，NMES)關于老年人(66歲以上)醫(yī)療費用支出的調查資料。該研究共納入了4406名醫(yī)保覆蓋的老年人，本文對其住院天數、健康狀況自評、慢性病數量、性別、受教育年數和是否參加私人健康保險進行分析，以醫(yī)療診所訪問次數作為老年人醫(yī)療保健需求的測量指標，探討老年人醫(yī)療保健需求的影響因素。

醫(yī)療診所訪問次數的取值分布如圖1所示。

圖1 醫(yī)療診所訪問次數的取值分布

圖1中，醫(yī)療診所訪問次數取值為0的比例為15.5%，運用R中的dispersiontest()函數對訪問次數資料進行過離散檢驗，檢驗統(tǒng)計量為11.509(P<0.05)，提示數據存在零過多和過離散的現(xiàn)象，使用零膨脹或hurdle回歸模型處理數據優(yōu)于Poisson回歸模型。

對零膨脹和hurdle回歸模型的兩個部分(零部分和非零部分)均選取住院天數、健康狀況自評、慢性病數量、性別、受教育年數和是否參加私人健康保險作為其協(xié)變量。分別用Poisson、負二項回歸(negative binomial，NB)、ZIP、ZINB、PH和NBH模型對老年人醫(yī)療健康需求數據進行擬合，并對嵌套關系模型進行似然比檢驗、非嵌套模型進行Vuong檢驗，檢驗結果如表1所示。

表1 各模型的似然比檢驗和Vuong檢驗結果

*：P<0.05；**：P<0.001

似然比檢驗和Vuong檢驗結果顯示，NB的擬合效果優(yōu)于Poisson回歸；ZIP的擬合效果優(yōu)于Poisson，但比NB差，以此類推。NBH雖然優(yōu)于其他模型，但與ZINB比較的檢驗統(tǒng)計量V值小于1.96，不能區(qū)分二者的優(yōu)劣程度。各回歸模型的參數估計結果及擬合指標AIC、BIC如表2所示。

表2 老年人醫(yī)療保健需求回歸模型參數估計結果

a：零膨脹的logit部分(零過程)；*：P<0.05；**：P<0.001

表2中AIC、BIC的結果驗證了表2中ZINB和NBH優(yōu)于Poisson、負二項回歸模型、ZIP和PH，并補充說明了NBH對本研究數據的擬合效果最好。

討論

對于具有零膨脹現(xiàn)象的數據，使用Poisson和負二項回歸得到的結論可能過于樂觀。本研究數據在使用標準計數模型時發(fā)現(xiàn)住院天數、健康狀況自評、患慢性病的數量、性別、受教育年數、是否參加私人保險均與老年人訪問醫(yī)療診所次數的多少有關，而NBH模型卻發(fā)現(xiàn)自評健康狀況差和醫(yī)療診所的次數并無明顯聯(lián)系，實際上，醫(yī)療診所的訪問次數是需要根據醫(yī)生的建議來決定的。因此，NBH模型更加貼合實際情況。

零膨脹回歸模型和hurdle回歸模型均是處理零過多、過離散數據常用的兩個模型，但二者的主要區(qū)別在于對數據中零觀測值的處理：零膨脹回歸模型假設零數據來自兩個不同的總體(或兩種不同的分布)，一部分是那些不可能發(fā)生某事件的個體，源于數據的特殊性，假定服從二項分布；另一部分就是那些有可能發(fā)生某事件的個體，但由于抽樣的存在而沒有觀察到事件的發(fā)生，這部分一般假定服從離散型分布。hurdle回歸模型是假設數據中的零部分和非零部分是完全分開的，零數據均服從二項分布，其余的非零計數數據則是服從零截斷的Poisson分布或負二項分布。零膨脹模型和hurdle模型在公共衛(wèi)生、臨床和社會經濟等調查研究中都受到廣泛重視。有學者在對交通事故傷亡的影響因素研究中發(fā)現(xiàn)，零數據的比例為59.07%時，用PH回歸模型比NBH模型優(yōu)[7]。而本研究中NBH回歸模型對數據的擬合效果更好的原因可能在于：數據中零觀測值相對較少，為15.5%，這對零觀測值只有一個來源并與非零計數截然分開的hurdle回歸模型更合適。

本文只討論了零膨脹和Hurdle模型在老年人醫(yī)療保健次數影響因素研究中的應用并進行比較，實際的調查研究中還存在許多零膨脹計數資料。在應用回歸模型進行數據擬合時，不僅要考慮數據的性質和分布，還要綜合考慮實際情況和專業(yè)性，從而選擇最優(yōu)模型。

零膨脹計數資料幾種模型方法的比較研究*

原理和方法

實例分析

討 論

討論