楊建洲 趙正元 文師吾 譚紅專
血吸蟲病是嚴重危害人民身體健康、阻礙社會經濟發展的寄生蟲病。雖然血吸蟲病感染的直接原因是人們在生產、生活中接觸疫水所致,但是影響血吸蟲病流行的因素卻十分復雜。社會因素、生物因素和自然因素都起著十分重要的作用。以往對這些因素的研究僅局限于對個人或村莊這樣單一水平上的研究〔1-3〕,沒有考慮到個人和村莊不同層次的存在。此時,仍采用傳統的多元回歸模型進行分析,可能由于不滿足模型的基本假定,而失去參數估計的有效性,損失了數據所蘊含的部分信息,估計的標準誤就會變得太小,犯第一類錯誤的風險就加大了〔4〕。多水平模型將原來單一的隨機誤差分解到相應的各個水平上,因此具有多個隨機誤差項并估計相應的殘差方差及協方差,構建與數據層次結構相適應的復雜誤差結構,極大改善了模型擬合的效果。模型形式上仍有多元回歸方程部分,但殘差卻分解到不同的層次結構〔5〕。
本次研究數據是采用整群抽樣調查得到的,數據具有嵌套式結構,個人處于村莊之中。不同村莊水平上的流行因素對村莊內的個體的影響都是一致的,而不同村莊之間又是不同的。所以本次研究應用適用于這種層次結構的多水平logistic回歸模型和傳統logistic回歸分析來比較,探討多水平模型分析方法在血吸蟲病的流行因素研究中的優越性。
1.資料來源 2006年從湖南省2 391個未控制流行村中在分層基礎上隨機抽取能反映湖南省血吸蟲病不同流行類型和程度的16個行政村為本次研究的地區,共調查6歲以上常住居民7 482人。覆蓋洲垸型、洲灘型、垸內型、丘陵型四種主要流行類型,也包括一、二、三、四類主要流行程度的村。
2.統計分析 利用兩水平logistic回歸模型和傳統logistic回歸模型來分析血吸蟲病發生差異在不同層次間的分布,并嘗試檢驗不同層次變量的影響。將所有的數據錄入Excel并導入HLM6.4和SPSS 13.0進行兩水平模型分析和傳統的logistic回歸分析。
1.零模型(null model) 首先進行零模型分析,結果如表1。

表1 零模型效應的估計

結果表明,模型的總變異中27%來自村莊水平,73%來自個人水平。說明村莊水平的影響因素對血吸蟲病的發生起到非常重要的作用,這就有必要建立多水平模型來進行分析。
2.多水平模型分析
使用兩水平logistic隨機截距模型進行多因素分析,在模型無法自動剔除沒有意義的變量且全部引入又出現迭代失敗的情況下,我們采用逐個引入,多次循環,直至模型中的變量全部有意義為止(α=0.05)的方法,多水平模型方程如下,分析結果見表2。
對于一個隨機效應μ0j=0的村莊而言,其血吸蟲病感染的對數發生比的期望值是-3.23,那么對應的血吸蟲病感染的發生比的期望值是exp(-3.23)=0.0396,對應的血吸蟲病的感染率的期望值就是1/[1+exp(3.23)]=0.0381。村莊間變異(τ00)的卡方檢驗結果表明不同村莊之間差異有統計學意義。計算跨級相關(組內相關系數):



表2 血吸蟲病流行因素多水平模型分析結果
在其他條件均為參照組時,也就是性別為女性,年齡在6~歲、職業是其他職業、該村莊無飲用溝塘水的家庭,4月份平均降雨量<100mm、6月份平均溫度<27℃地區的人群的血吸蟲感染的期望對數比為-5.73,對應的血吸蟲病感染的發生比是exp(-5.73)=0.003 25,對應的血吸蟲病的感染率1/[1+exp(5.73)]=0.003 24即0.324%(表3)。

表3 最終模型方差分析表

根據以上公式可知,水平2村莊間變異的總方差被解釋了58.20%。
3.傳統logistic回歸分析與多水平模型分析結果的比較
對單因素分析有意義的變量,使用傳統的logistic回歸進行多因素分析,采用逐步前進法,以0.05作為引入變量的顯著性水準,0.10作為剔除變量的顯著性水準。多水平模型分析得出的有意義的變量在logistic回歸分析中均有意義,但在logistic回歸分析中有意義的幾個變量,如人均收入、無害化廁所比例,卻沒有進入多水平模型方程。并且,在logistic回歸分析中OR值的95%可信區間較多水平模型的結果都小。
傳統方法由于不能在模型中分解出各層次的誤差,即不能區分村莊之間和個體之間的誤差,而不能提供該部分的層次結構信息,對資料的分析可能造成不真實的結果,加之本次研究的流行因素主要來自村莊水平,因此使用多水平模型來分析是可行的。最終模型對水平2(村莊水平)的總方差被解釋了58.20%,說明這些影響血吸蟲病流行的村級因素納入模型很有必要。
多水平logistic模型在處理具有層次結構數據時,考慮了數據間的相關性,能夠分析固定效應和隨機效應,對研究因素可做出準確的估計和假設檢驗。另外,多水平logistic模型分析包含的水平是群體所有水平中的隨機樣本,因此分析結果對應的是整個群體的水平,而不只是當前研究中的抽樣水平。傳統logistic回歸模型只能研究個體層面的信息和其固定效應,無法分析組群方面信息,當數據存在層次結構時對于結果不能給出合理的解釋。而且分析包含的水平,就是整個群體的水平,因此分析結果只是對應于當前研究中的因子水平。因此,在分析具有層次結構的數據時是否需用多水平模型進行分析,首先要看其組內相關性的大小(是否存在組內聚集性)和是否是隨機抽樣的樣本(是否對總體進行推論),如果不存在數據聚集性或者不是隨機樣本,則用一般統計模型就可以了。
本研究通過對傳統單一水平的logistic回歸和多水平模型的結果比較發現,單一水平的logistic回歸由于沒有考慮到數據層次間的差異和數據在高水平上的聚集性,過高地估計了某些變量的作用,增大了犯Ⅰ類錯誤的概率,錯誤地提高了置信區間的水平。也就是說把一些本來沒有統計學意義的因素,得出了有意義的結論。這更加說明了對于具有層次結構的數據,應當考慮到高水平單位的聚集性,使用多水平的分析方法,以得出更準確、更符合實際的結論〔6〕。
多水平模型研究和發展的歷史還不長,已經廣泛應用于教育學、經濟學、社會學等領域〔7-8〕,在醫學特別是流行病學中應用前景也十分廣闊〔9-10〕。大量的流行病學研究資料都是具有層次結構的數據,使用多水平模型進行研究,不僅能對資料作出正確的分析,得出合理的結論,而且能夠大大促進多水平分析方法的發展,豐富流行病學的研究方法。
1.Yi XH,Manderson L.The social and economic context and determinants of schistosomiasis japonica.Acta tropica,2005,96:223-231.
2.伍衛平,林丹丹,胡飛,等.應用多元回歸分析鄱陽湖區影響日本血吸蟲病傳播的因素.中國寄生蟲學與寄生蟲病雜志,2003,21(3):164-166.
3.陳朝,周曉農,姚振濤,等.血吸蟲病人群感染危險因素空間關系分析.中國血吸蟲病雜志,2005,17(5):324-327.
4.Goldstein H.Multilevel Statistical Models.2nd.New York:John Wiley,1995.
5.李曉松,等譯.多水平分析模型.四川科學技術出版社,2000:24-30.
6.Barbara H.Public Health Application Comparing Multilevel Analysis with logistic Regression Immunization Coverage among Long-Term Care Facility Residents.AEP,2005,15(10):749-755.
7.Jin X.Determinants of salary growth in Shenzhen,China:an analysis of formal education,on-the-job training,and adult education with a threelevel model.Economics of Education Review,2002,21:557-557.
8.Poelmans S,Sahibzada K.A multi-level model for studying the context and impact of work-family policies and culture in organizations.Human Resource Management Review,2004,14:409-431.
9.葉冬仙,李明伏,謝冬華,等.湖南省剖宮產率影響因素的多水平模型分析.中國衛生統計,2010,27(4):341-344.
10.徐倩倩,胡云,俞華,等.不同地區已婚育齡婦女生殖道感染及其多水平影響因素分析.中國衛生統計,2011,28(3):240-243.