康萬里 端木宏謹 鄭素華
疾病的流行特征通過疾病在人群、時間、空間的三間分布得以實現,是流行過程的可見形式。研究疾病的人群分布是流行病學研究中一個非常重要的部分,疾病的發病隨人群中的一些固有特征或社會特征的不同而有差異,這些特征有年齡、性別等因素,研究這些相關因素特征,有助于探索疾病的危險因素和流行特征。疾病與年齡的關聯性較強,隨年齡的不同,幾乎大部分疾病的發病率或死亡率顯著不一。將同一時期出生的人劃歸一組稱為出生隊列(birth cohort),可對其隨訪若干年,以觀察疾病患病和死亡情況。利用出生隊列資料將疾病年齡分布和時間分布結合起來描述的一種方法稱出生隊列分析方法,該方法在評價疾病的年齡分布長期變化趨勢及提供病因線索等方面具有很大意義[1]。
結核病(tuberculosis)是由結核分枝桿菌(Mycobacterium tuberculosis,簡稱“結核桿菌”)主要經呼吸道傳播引起的全身慢性傳染病。結核病是危害人類健康的主要傳染病之一,據世界衛生組織(WHO)估計,全球大約有1/3的人感染了結核桿菌,每年新發結核病患者超過800萬,并有200萬人死于結核病;全球超過90%的結核病患者及90%的結核病死亡發生在發展中國家,75%的結核病患者年齡在15~54歲之間,由于結核病導致的經濟損失,約占家庭收入的20%~30%[2]。結核病的流行已成為一個社會關注的公共衛生問題,為了更好地了解我國結核病的流行狀況,我國已經進行了4次全國結核病流行病學抽樣調查(簡稱“流調”)(2010年開展第5次流調,詳細結果有待公布)。本研究利用我國第3次和第4次全國結核病流調資料,利用出生隊列研究我國菌陽肺結核的分布特征,以確定高危人群和提出重點保護對象,并為制定預防措施及評價預防效果提供依據,為我國今后的結核病控制提供依據。
收集1990年第3次和2000年第4次全國結核病流調結果[3-4],建立相關數據庫,并進行變量賦值,見表1。第3次全國結核病流行病學抽樣調查共調查1461190例,其中男性738075例,女性723 115例;第3次全國流調發現菌陽肺結核患者2389例,其中男性1537例,女性852例。第4次全國結核病流行病學抽樣調查共調查365 097例,其中男性182183例,女性182 914例;第4次全國流調發現菌陽肺結核患者584例,其中男性411例,女性173例。

表1 變量賦值
檢查、核對原始數據,分析變量賦值,統計分析采用SPSS 13.0和Stata 10.0軟件。
1.負二項回歸(negative binomial regression,NBREG)[5-6]:負二項分布(negative binomial distribution)常用來描述計數資料的分布特征。擬合計數資料的廣義線性模型,實質上就是探討λ與自變量線性組合Xβ之間的關系。事件數的多少除了取決于總體參數λ的大小外,還取決于暴露單位、暴露事件等的多少。因此,模型中應當既體現自變量的線性組合作用,也要考慮到暴露單位的多少。設因變量y服從參數為λ的負二項分布,影響λ的因素為x1,x2,x3……xm(m 為影響λ 因素的個數),負二項回歸模型是對事件發生強度λ進行建模:

βi為偏回歸系數,解釋為當其他自變量保持不變時,自變量xi每改變1個單位時,ln()的改變量。κ表示超離散的程度,可以進行似然比卡方檢驗,如果P<0.05,有統計學意義,說明資料符合負二項分布。
2.對應分析(correspondence analysis)[7]:主要用于分析二維列聯表中行變量和列變量間的對應關系,將行變量和列變量的信息用散點的空間位置關系的形式表示。
各年齡組菌陽肺結核患病率基本上男性多于女性,各年齡組菌陽肺結核患病率隨年齡變化趨勢基本相同(圖1)。

圖1 1990年和2000年菌陽肺結核患病率的年齡、性別分布
根據1990年第3次和2000年第4次流調結果,繪制1910~、1920~、1930~、1940~、1950~、1960~、1970~、1980~共8個年代出生隊列的菌陽肺結核患病率分布圖,基本上出生時期越早,菌陽肺結核患病率越高(圖2)。

圖2 菌陽肺結核患病率的出生隊列分布
將1910~、1920~、1930~、1940~、1950~、1960~、1970~、1980~共8個年代的出生隊列與菌陽肺結核進行負二項回歸分析,設出生隊列為有序分類變量。對超離散度檢驗,P<0.001,說明資料符合負二項回歸模型。按照出生隊列賦值,相鄰的出生隊列,出生較早的隊列患菌陽肺結核風險高于出生較晚的隊列,RR=1.582 (95%CI:1.432~1.747),即“1970~年代出生隊列”患菌陽肺結核的風險是“1980~年代出生隊列”的1.582倍,“1960~年代出生隊列”是“1970~年代出生隊列”的1.582倍……,見表2。
由表2可知,1910~年代出生隊列患菌陽肺結核的風險是1980~年代出生隊列的24.800倍(95%CI:12.348~49.665);1920~年代出生隊列患菌陽肺結核的風險是1980~年代出生隊列的15.676倍(95%CI:8.623~28.429)。
依據菌陽肺結核患病率是否高于全國的平均值,將菌陽肺結核患病率分為菌陽患病率高于、低于全國平均水平兩部分,繪制對應分析圖(圖3)。圖3中用散點坐標形式顯示出了各變量在兩個維度上的區分程度。閱讀對應分析圖的原則是,從圖形中心(0,0)點出發,如代表行變量某個類別或等級的散點,與代表列變量某個類別或等級的散點在同一方位上距離較近,則表明二者有較強的相關性;若距離較遠或不在同一方位,則表明二者關聯性較弱或無關聯。由圖3可知,菌陽患病率高于全國平均水平組與出生早的出生隊列和男性距離較近,說明這些指標的關聯較為緊密;菌陽患病率低于全國平均水平組與出生較晚隊列和女性距離較近,說明這些指標關聯較為緊密。

圖3 菌陽肺結核患病率對應分析圖
將性別和出生隊列同時引入負二項回歸方程,對超離散度檢驗P<0.001,說明資料符合負二項回歸模型。得出回歸方程:ln()=0.443×出生隊列+0.689×性別-9.347,見表3。
該模型顯示:(1)出生隊列與菌陽肺結核患病率有關。按出生隊列賦值,相鄰的出生隊列,出生較早的隊列患菌陽肺結核風險高于出生較晚的隊列,RR=1.557(95%CI:1.443~1.692),即1970~年代出生隊列患菌陽肺結核的風險是1980~年代出生隊列的1.557倍,1960~年代出生隊列是1970~年代出生隊列的1.557倍……;1910~年代出生隊列患菌陽肺結核的風險是1980~年代出生隊列的22.183倍(95%CI:13.028~39.701);1920~年代出生隊列患菌陽肺結核的風險是1980~年代出生隊列的14.247倍(95%CI:9.028~23.463)。(2)菌陽肺結核與性別有關,依據變量賦值表1,女=1,男=2,結果解釋為自變量每上升1個單位,發病風險是原來的倍數。因此,本研究男性菌陽肺結核患病率高于女性,男性患菌陽肺結核的風險是女性的1.992倍(95%CI:1.415~2.807)。

表2 出生隊列研究負二項回歸參數估計

表3 負二項回歸參數估計
我國是全世界22個結核病高負擔國家之一,從1990年第3次全國結核病流行病學抽樣調查開始調查菌陽患病率。對1個數據集的建模過程遠比擬合和檢驗復雜的多,成功的建模是根據科學原理,將專業知識、經驗積累與統計方法相結合。在1個模型中是否納入1個變量,隨不同學科,不同問題而不同,統計學建模的傳統方法是尋找能解釋資料的最簡捷的模型[5]。負二項回歸分析是在對資料進行檢驗符合負二項回歸模型后(超離散度檢驗),對影響該分布因素的參數大小進行估計,在疾病的病因研究和影響因素方面得到了廣泛應用[9]。
為了解我國結核病的流行狀況和危害程度,我國在1990和2000年進行了第3和第4次全國結核病流行病學抽樣調查,應用全國流行病學調查資料可以更好研究我國結核病的人群分布特征和確定高危人群。對應分析通過對應分析圖可以直觀的顯示研究變量之間的關系,落在由原點出發接近相同方位及圖形相同區域的不同變量的類別可能有聯系。研究顯示菌陽患病率高于全國平均水平與較早出生隊列和男性可能有聯系。通過負二項回歸進一步研究了菌陽肺結核與出生隊列和性別的關系。(1)出生隊列與菌陽肺結核患病率有關。本次研究和歷年流調結果相似,出生較早的隊列患菌陽肺結核的風險高,出生較晚隊列患菌陽肺結核風險低[3]。按出生隊列賦值,相鄰的出生隊列,出生較早的隊列患菌陽肺結核的風險是出生較晚隊列的1.557倍(95%CI:1.443~1.692),因此應該加強出生隊列較早人群結核病的治療和管理,改善較早出生隊列結核病患者的生活質量。出生較晚隊列的人群菌陽患病率低也可能是由于近些年我國加強了結核病的預防治療措施。(2)菌陽肺結核與性別有關,男性菌陽肺結核患病率高于女性,男性患菌陽肺結核的風險是女性的1.992倍(95%CI:1.415~2.807)。原因可能是男女兩性接觸感染機會不同所致,男性在兒童時期活躍易動,成年后社會活動、應酬較多,因此與傳染源接觸的就會較多。因此,應該加強男性結核病的防治工作。
[1] 王素萍.流行病學.北京:中國協和醫科大學出版社,2003:20-24.
[2] World Health Organization.Treatment of tuberculosis:Guidelines for national programs.3rd ed.Geneva:WHO,2003:11-15.
[3] 中華人民共和國衛生部.2000年全國結核病流行病學抽樣調查資料匯編.北京:人民衛生出版社,2003:154.
[4] 中華人民共和國衛生部.1990年全國結核病流行病學抽樣調查資料匯編.北京:中華人民共和國衛生部,1992:484.
[5] 陳峰.醫用多元統計分析方法.北京:中國統計出版社,2000:115-131.
[6] Byers AL,Allore H,Gill TM,et al.Application of negative binomial modeling for discrete outcomes:A case study in aging research.J Clin Epidemiol,2003,56(6):559-564.
[7] 康萬里,李佩珍,鄭素華.中國結核病的空間積聚性研究.中國衛生統計,2008,25(3):273-275.
[8] 陳建國,朱健,張永輝,等.江蘇省啟東地區1973至2002年肝癌發病率長期趨勢的評價.中華醫學雜志,2005,85(43):3052-3056.
[9] Cameron CM,Purdie DM,Kliewer EV,et al.Mental health:a cause or consequence of injury?A population based matched cohort study.BMC Public Health,2006,6(5):114-122.