林定文, 崔哲哲,趙錦明, 區 進
(廣西壯族自治區疾病預防控制中心結核病防制所,南寧 530028)
結核病是由攜帶結核分枝桿菌的微滴核進入人體引起感染部位病變的慢性傳染病。結核病的流行已成為全世界,特別是包括中國在內的發展中國家面臨的嚴重公共衛生問題。2018年全球結核病報告指出,雖然估計發病率在緩慢下降,但中國是估計發病數僅次于印度的結核病高負擔國家之一[1]。在全國省級水平,廣西壯族自治區是結核病報告發病熱點地區,但其傳播和發病的特征和影響因素仍然不明。空間流行病學分析,可以有效地掌握疾病聚集的范圍和趨勢,加之空間計量統計對大氣等影響因素的探查,將對衛生決策起到關鍵作用。本研究通過空間自相關統計量和空間回歸技術,對2016廣西壯族自治區活動性肺結核患者空間特征和氣象影響因素進行分析,為防控決策的制訂和衛生資源的分配提供量化依據,現報道如下。
1.1一般資料 本研究是基于現住址定位的廣西壯族自治區全人群景觀流行病學研究。擬用2016年的分析結果闡述廣西壯族自治區傳染性結核病病例在該時期的空間分布和聚類情況,并運用優化空間回歸模型偵測影響結核病發病的氣象因素。人口數據來源于2017年廣西壯族自治區統計年鑒。PM2.5、PM10、SO2、NO2和O3數據來源于廣西壯族自治區環境保護局數據庫。年降雨天數、氣溫和相對濕度數據來源于廣西壯族自治區氣象局。
1.2方法 研究地區廣西壯族自治區位于中國南疆,總人口4 613萬,占地236 700平方公里,下轄14個市和所轄的112個縣(區)。從國家法定傳染病報告系統下載2016年所有確診的活動性結核病患者資料,共計76 151例。根據每例患者的現住址的地區編碼進行歸類統計,最小空間統計單元為市,即統計每個市的登記報告數。然后將每個單元的病例按照月和年再次歸類,形成2016年活動性結核病數據庫。
從“Global Administrative area database” (GADM Inc,California,US) 中獲取中國地圖(Shape 文件),從中剪取生成廣西Shape文件。將病例數據、環境數據與地圖文件根據地區編碼進行關聯,生成結核病及氣象信息空間數據庫。
1.3統計學處理
1.3.1基本情況描述 對年度報告的活動性結核病患者數據進行總體描述并進行趨勢χ2檢驗;對各市的結核病報告發病率及大氣數據進行中位數和均數描述。根據不同地區的結核病報告發病率繪制發病率專題圖,了解高發和低發地區分布,為空間自相關分析和空間掃描做準備。
1.3.2空間自相關分析 本研究應用統計學家帕特里克·阿爾弗雷德·皮爾斯·莫蘭創建的“Moran′s I”統計理論進行空間相關性分析。該分析分為全局和局部自相關分析。
全局自相關分析通過方差歸一化,使研究區域內總體相關系數(或稱莫蘭指數)取值在-1~1。莫蘭指數大于0表示存在空間正相關性,指數值越大,空間相關性越顯著,也就是隨著相鄰的單元在空間上越聚集,相關性越明顯;莫蘭指數小于0表示存在空間負相關性,指數值越小,空間差異顯著,也就是相鄰的單元在空間上越離散,反而相關性變得顯著了;當莫蘭指數等于0,空間呈隨機性,相鄰研究單位之間沒有相關性[2]。本研究將用總體莫蘭指數和象限圖進行結果描述。象限圖將各相鄰坐標點之間的相關系數用“high-high,高-高”“low-low,低-低”“high-low,高-低”和“low-high,低-高”在4個象限呈現。全局統計量公式如下:
式中W是空間權重系數,當兩個相鄰地區(i和j)傳染性結核病均為高發(聚集),W=1;若均為低發,W=-1。n為總研究單元數。若有顯著差異,W值則為0。S0為總體權重系數。
局部自相關分析是對每個研究個體的自相關分析及分解呈現。其在全局分析的基礎上,對局部地區的相鄰關系計算統計量,并根據不同的顯著性在LISA類聚地圖中呈現結果。一般認為具有“高-高”關系的區域是顯著性高發類聚區(“熱點”地區),而具有“低-低”關系的區域是顯著性低發類聚區(“冷點”地區),“高-低”和“低-高”代表與周圍明顯差異的離群區域。本研究用“GeoDa 1.8.12” (Luc Anselin,University of ILLinois,Urbana-Champaign,US) 空間分析軟件進行空間自相關分析。Anselin′s局部公式如下:

全局和局部自相關均用“經驗Bayes”標化,以解決比率方差不穩定的問題。
1.3.3空間回歸模型分析 結核病是傳染性疾病,缺乏空間獨立性,從而出現空間維度的播散,即空間計量統計學中提及的溢出效應。用經典線性回歸檢驗影響因素時往往由于忽略了空間依賴性和空間差異效應而出現失真。空間計量模型的基本思路是運用空間距離權重矩陣,對普通的最小二乘法估計進行修正。對于具備了空間屬性的變量,距離較近的觀察值比距離較遠的觀察值更容易表現顯著的關系。本研究主要用于比較的空間計量模型有空間遲滯模型[3]和空間誤差模型[4]。其基本公式如下:
y=ρW1y+βx+μ
μ=λW2μ+ε
ε~N(0,δ2I)
式中的β表示自變量的空間回歸系數;μ是空間誤差項;ε是白噪聲;W1是結核病報告發病率的空間權重矩陣,W2是殘差空間權重矩陣;ρ為空間遲滯系數,取值0~1,越接近1,比鄰地區因變量值越相似;λ為空間誤差系數,取值0~1,越接近1,比鄰地區自變量取值越相似。因此,當ρ=0,λ=0時,模型為普通的最小二乘法估計模型,模型中沒有空間特征;當ρ≠0,λ=0時,模型為空間遲滯模型(或空間自回歸模型),研究區域的因變量不但與本地區的自變量有關,還與比鄰區域因變量有關;當ρ=0,λ≠0時,模型為空間誤差模型,研究區域的因變量與比鄰地區的因變量取值相互獨立,但比鄰地區同一種自變量殘差項不滿足獨立性,具有空間自相關性。
2.1廣西結核病及氣象一般情況 2016年廣西各醫療衛生機構共報告活動性結核病患者47 701例。用2010-2016年度報告病例數進行趨勢檢驗,結果提示呈逐漸下降趨勢(χ2=159.76,P<0.01)。各市平均報告發病率為(109.33±29.46)/10萬,提示離散度較大。納入分析的大氣顆粒物中O3含量較高,其余均處于較低水平。年降雨天數,氣溫和相對濕度均符合濕熱地區氣候特征,見表1。

表1 廣西壯族自治區結核病報告發病和氣象基本情況
2.2結核病發病的空間分布和自回歸分析 2016年廣西壯族自治區以市為單位的結核病報告發病率呈現明顯的空間異質性。西北部和西南部高于東部,見圖1。通過莫蘭空間自相關分析可知,空間發病分布具有正向自相關性(莫蘭指數為0.262),提示實施影響因素分析時,考慮空間自相關效應的必要性。比率經過經驗貝葉斯標化的局部聚類性分析,東部地區呈現顯著的低發聚類,中部地區呈現與周邊結核病疫情比較有顯著低發的離群態勢,未偵測到顯著的高發聚類,見圖2。
2.3空間影響因素和模型篩選 將2016年PM2.5、PM10、SO2、NO2、O3、年降雨天數、氣溫和相對濕度數據納入無空間權重和空間效應的最小二乘法模型和具有空間權重的空間遲滯模型、空間誤差模型,按照P<0.05的條件進行結核病報告發病率的潛在影響因素篩選。結果顯示,最小二乘法模型未篩選出有統計學意義的影響因素;空間遲滯回歸模型篩選出O3、年降雨天數和氣溫3個有統計學意義的變量;空間誤差模型篩選出年降雨天數和氣溫2個有統計學意義的變量,見表2。表3顯示了3種模型的擬合度測試結果。空間誤差模型的R2和對數釋然比(Log likelihood)最高,赤池信息準則(AIC)統計值和回歸標準誤(S.E of regression)最低,入選最佳模型。由回歸系數可知,該模型中降雨天數及氣溫與結核病報告發病率呈負相關關系,其中氣溫的回歸效應最大。

圖1 2016年廣西壯族自治區各市結核病報告發病率空間分布

圖2 2016年廣西壯族自治區結核病報告發病率的莫蘭局部聚類和象限圖(比率經驗Bayes標化)

表2 3種模型的潛在影響因素篩選結果

表3 3種模型的擬合度比較
有研究數據表明,廣西壯族自治區的活動性結核病報告發病近年來一直處于時空高發聚類區域[5]。廣西壯族自治區不同地區間的報告發病率差別迥異[6]。作為結核病高負擔省份,廣西壯族自治區盡管投入了大量的防控資源,疫情下降仍然緩慢,每年報告的活動性結核病例依然維持在4萬左右[7],空間熱點地區的結核病疫情仍然持續高于其他地區,而冷點地區依據處于低發態勢[6]。作為主要通過空氣飛沫傳播的疾病,結核病具備一定的空間格局,特別是臨近區域的聚集發病,結核病的空間聚集性疫情時有報道。如果不及時控制,很有可能導致更大范圍的蔓延,促成突發公共衛生事件等嚴重后果[8-9]。本研究通過空間描述和自相關分析證明了廣西壯族自治區的結核病報告發病同樣存在空間異質性(莫蘭指數大于0),東部地區出現了顯著的低發聚集區。對于廣西壯族自治區的這一空間布局,筆者需要探究其因,用以指導防控。防治結核病的關鍵措施除了針對個體進行早期的診斷、治療和管理,宏觀層面的防控實施也是很有必要的。社會及自然環境在結核病傳播和發病驅動力方面起著舉足輕重的作用。但此前針對廣西壯族自治區的環境影響因素研究尚屬空白。因此,本研究主要以空間自相關為出發點,結合回歸理論對廣西壯族自治區結核病的聚類及其氣象影響因素進行分析,以期獲得大氣環境層面的宏觀驅動因子,為結核病精準防控提供量化依據。
本研究主要引用了普通的最小二乘法模型(不考慮空間依賴性)、空間遲滯回歸和空間誤差模型進行氣象相關影響因素的篩選和模型擬合度比較。在近期關于結核病發病影響因素的空間回歸模型研究中不同地區和不同的測試變量均有可能選擇不同的優化模型。有研究者在對2005-2014年影響北京市結核病發病的社會經濟因素進行空間模型擬合時,發現空間誤差模型是最優模型[5]。也有學者對2004-2012年四川結核病空間影響因素調查發現,空間遲滯模型擬合度更好[10]。本研究通過實證研究發現,空間誤差模型的擬合度優于最小二乘法和空間遲滯模型(R2=0.763,Log likelihood=-59.444;AIC=136.888,S.E of regression=14.334)。因此,將該模型作為最優模型進行因素篩選。
通過氣象潛在影響因素篩選,年降雨天數和氣溫2個變量有統計學意義(P<0.05),與結核病報告發病率呈負相關。降雨量較少而且溫度較低的地區,結核病發病風險相對較高。這一結果符合結核分枝桿菌存活的自然優勢環境,也與其他的研究結果一致[11]。結核分枝桿菌主要以微滴核的方式在自然環境中存活,一般在干痰中存活6~8個月,如處于3 ℃的低溫環境下,可存活1年。若黏附于塵埃上,可以保持傳染性8~10 d。降雨可在一定程度上清洗飄浮在空氣中的帶菌塵埃,從而降低傳染和發病的可能性。因此對于廣西壯族自治區北部溫度和降雨量相對較少的地區應加強結核病的監測和防控,在干旱季節做好人工降雨等工作。由大氣顆粒物監測數據可知,廣西壯族自治區的PM2.5、PM10、SO2、NO2均處于較低水平,經換算的空氣質量指數屬于良好的范圍[12-13],可正常戶外活動,也未對結核病的發病構成危險。但O3在大氣中的含量超過了100 μg/m3,空間遲滯回歸提示了O3有影響結核病發病的可能。在今后應針對這些顆粒物進一步加強監測和相關性研究。此外,也有研究提示結核分枝桿菌的基因多態性與所處的環境可能存在一定的交互作用,從而導致傳播的差異性[14-16]。但目前這一觀點仍然缺乏更多的實證研究。結核病在分子維度和宏觀環境維度的交互作用及驅動因子研究將是下一步的重點探索方向。