伍鴻遠,夏媛媛
(南京醫科大學醫政學院,江蘇 南京 211166)
肺結核作為一種結核分枝桿菌引起的慢性呼吸系統傳染病,主要攻擊肺部并且傳染性較強。2021年我國肺結核的發病數和死亡數位列甲乙類傳染病第2位[1],患者當中大量為青壯年,使其成為制約我國經濟和社會發展的重大傳染病之一[2]。國際上,全球結核病死亡患者數在2019-2021年間有所增加,扭轉了2005-2019年間的下降趨勢,2020-2021年間結核病發病率上升了3.6%,扭轉了過去20年間每年下降約2%的趨勢[3],2019年底在全球范圍內迅速傳播的新型冠狀(新冠)病毒感染疫情,不僅使公共衛生系統遭受了極大挑戰,更對肺結核疫情及其防控產生了深遠的影響[4]。鎮江市作為江蘇這一沿海經濟大省中肺結核發病率高于平均水平的地區,做好肺結核的有效預防、預測流行趨勢對城市發展、進一步控制江蘇省肺結核流行尤為重要。為更好地評價和預測結核病流行趨勢,本研究收集2014-2022年江蘇省鎮江市肺結核疫情資料,構建差分整合移動平均自回歸模型(ARIMA模型),并評價該模型對新冠病毒感染疫情后結核病疫情的預測效果,以期掌握其發病規律和趨勢,為科學防控結核病疫情提供數據支持。
1.1資料來源 數據來源于江蘇省鎮江市衛生健康委員會公布的全市法定報告傳染病疫情數據,收集2014年1月至2022年12月共計108個月中報告的鎮江市肺結核發病數。通過整理數據建立ARIMA模型,并以2022年1-12月月發病數的數據集作為預測集與實際情況進行比較,評價模型的預測效果并預測2023年肺結核流行情況。人口資料源自鎮江市統計年鑒。
1.2研究方法
1.2.1基本理論 根據收集數據繪制出時間序列圖和相關文獻判斷,江蘇省鎮江市肺結核每月發病數數據為季節性時間序列,因此選定模型為ARIMA(p,d,q)(P,D,Q)s。p、d、q分別為趨勢自回歸階數、趨勢差分階數、趨勢移動平均階數,P、D和Q分別是季節性自回歸階數、季節性差分階數和季節性移動平均階數,S為單個季節性周期的時間步長數,在本研究中為12[5-6]。
1.2.2ARIMA模型構建
1.2.2.1平穩時間序列 根據時間序列圖、自相關系數圖(ACF)和偏相關系數圖(PACF)判斷序列平穩性。若不平穩則使用非季節差分、季節性差分、數據轉換等方法直至序列平穩。
1.2.2.2ARIMA模型識別與定階 根據差分后序列的ACF圖和PACF圖對模型進行初步識別和定階。
1.2.2.3確定ARIMA模型的參數與檢驗 序列平穩化后,通過觀察序列的ACF圖和PACF圖得出若干種可能的模型并估計ARIMA模型的參數。再根據使用Ljung-Box殘差白噪聲檢驗法得出的殘差檢驗結果和最小貝葉斯信息準則(BIC)來確定最優ARIMA模型參數。模型在滿足參數差異具有統計學意義、Ljung-Box Q統計量P>0.05的前提下以標準化BIC 值、平均絕對百分比誤差(MAPE)最小為最優。
1.2.2.4驗證模型擬合預測效果 將鎮江市2022年1-12月肺結核月發病數的數據集作為預測集,基于構建好的ARIMA模型逐月預測2022年肺結核發病數,并與實際發病數比較。
1.2.2.5模型預測的實際應用 利用模型對2022-2023年鎮江市肺結核月發病數進行預測。
1.3統計學處理 使用Excel 2022 整理2014-2022年鎮江市肺結核月發病數據,采用SPSS27.0建立鎮江市肺結核發病數ARIMA模型。


表1 2014-2022 年鎮江市肺結核病例報告情況
2.2流行時間分布特征 匯總2014-2022年鎮江市肺結核累計報告發病數,結果顯示,2月份累計報告發病數最少(772例),3-8月維持較高發病水平,高峰水平較為平均,均維持在1 000例以上,報告發病數分別為1 039、1 064、1 029、1 052、1 027、1 035例,見圖1。

圖1 2014-2022 年鎮江市肺結核各月累計發病數
2.3建立模型 本文以2014-2021年的發病例數建立ARIMA季節模型,預測2022年的發病例數,并與實際值進行比較。
2.3.1序列平穩化 2014-2022年鎮江市肺結核發病數共登記11 316例,發病高峰期在每年的春夏季節,冬季時發病數較少。由鎮江市2014-2022 年肺結核每月發病數時間序列圖可知該序列的方差前后波動較大、極差間距變化較大,說明該序列圖可能為非平穩序列并且存在一定的周期性。對江蘇省鎮江市肺結核發病數趨勢特征分析中可得其長期趨勢表現為2014-2016年、2017-2018年、2019-2022 年不斷下降,2016-2017年、2018-2019年小幅回升,且具有季節性特征。
對序列進行一階趨勢性差分和一階季節性差分后,序列圖基本趨于平穩,見圖2。差分后的ACF圖和PACF圖無明顯拖尾和截尾現象、無線性衰減,符合構建ARIMA模型條件,見圖3。

圖2 一階趨勢性差分和一階季節性差分后鎮江市肺結核月發病數時間序列圖

注:上方為原始時間序列ACF和PACF圖;下方為趨勢和季節差分一次后時間序列ACF和PACF圖。
2.3.2平穩性檢驗 根據對數化的1階12步差分的序列圖和自相關圖粗略判斷平穩性,然后對差分后的序列使用ADF檢驗進一步驗證序列是否平穩。
檢驗結果顯示,1階12步差分后的序列的ADF統計值為13.908,P<0.01,因此可以拒絕存在單位根的原假設,并認為差分序列平穩。
2.3.3模型識別 首先從差分序列的自相關圖和偏自相關圖的12階以內的特征來確定發病數序列的短期自相關模型。從圖形中可以看到,自相關圖在延遲1~3階的系數顯著非零,并且在3階之后明顯還有其他延遲階數的自相關系數落在區間外;偏自相關系數在延遲1~2階的系數落在橫線外,之后還存在偏自相關系數顯著非零的情況,因此自相關圖和偏自相關圖呈現拖尾特征,可以嘗試在p=(1,2)及q=(1,2)的情況下建立ARMA(p,q)模型。
2.3.4季節性分解 通過季節性分解,可觀察季節項的特征。從趨勢項的圖形中可以看出,季節性分解后的數據基本不存在周期性特征;季節因子在2月的值最低,在3-8月的值在100%以上。見圖4。

圖4 鎮江市肺結核時間序列ACF和PACF圖
2.3.5模型參數估計與診斷 考慮到序列呈現的季節特征,再次觀察自相關圖和偏自相關圖在延遲12、24階的系數。在12階的自相關系數和偏自相關系數均顯著非零,而延遲24階的系數落在區間內,這時以12步為周期的ARMA(1,1)12、ARMA(1,0)12、ARMA(0,1)12模型提取差分后序列的季節自相關信息。
綜合以上信息,嘗試針對對數化序列建立季節乘法模型,在p=(1,2)、q=(1,2)時擬合乘法模型ARIMA(p,1,q)×(1,1,1)12并根據模型平穩R2、BIC等統計量,以及參數顯著性選擇最佳模型。
從表格來看,ARIMA(1,1,1)×(1,1,0)12的BIC值最小,殘差白噪聲也通過檢驗,模型參數估計見表2、3。

表2 模型參數估計表

表3 ARIMA(1,1,1)×(1,1,0)12參數估計表
可以看到,短期自相關部分的AR系數不顯著,因此建立ARIMA(0,1,1)×(1,1,0)12。見表4。

表4 ARIMA(0,1,1)×(1,1,0)12參數估計表

2.3.6模型擬合效果評價 應用構建的ARIMA(0,1,1)(1,1,0)12模型對鎮江市2022年肺結核1-12月發病數進行擬合,擬合值與實際發病數進行比較,結果顯示實際值與預測值存在一定的偏差,但均在擬合值的95%可信區間內,模型擬合度較好。模型預測結果與實際情況在總體趨勢上基本一致,流行高峰與低谷符合實際情況,可用于預測鎮江市肺結核流行情況。2022年共報告肺結核發病數939例,模型預測值為936例。模型的預測精度上,2022年結核病發病數平均相對誤差為19.20%,說明該模型長期預測效果一般,見表5。

表5 2022年1-12月鎮江市肺結核實際發病數與預測發病數比較
2.3.7新冠病毒感染疫情后模型預測分析 利用ARIMA(0,1,1)(1,1,0)12模型對鎮江市2022年肺結核進行預測,2022 年2月肺結核發病率降至歷史低點,為1.91/10萬,2022 年4 月顯示觀察值與預測值相對誤差為50.88%,見圖5。同時,2022 年1-12 月鎮江市肺結核平均月發病數預測值和實際值均低于2021 年的87例月平均發病數,2023年月平均肺結核發病數預測值也少于2022年,預計在新冠病毒感染疫情后短期內,鎮江市的肺結核發病數仍將保持下行趨勢。見表6。

圖5 鎮江市肺結核ARIMA(0,1,1)(1,1,0)12模型擬合圖

表6 2022-2023年鎮江市月發病數預測值與2022年實際月發病數比較(n)
本研究結果顯示,2014-2022年鎮江市活動性肺結核報告發病率9年間下降了40.89%,年均遞降率達4.54%,肺結核控制成效顯著,但肺結核仍長期位列鎮江市甲乙類傳染病報告病例數的前三位。肺結核作為一種慢性呼吸道傳染病,其療程長、易感的特點給社會造成了極大的危害和負擔,因此,科學地預測預警肺結核疫情,對配置布局傳染病防控資源、提早制定防控策略具有重要指導意義[2]。由鎮江市肺結核發病時間序列圖和模型擬合結果可知,肺結核流行高峰期為每年3-8月,全年流行低谷為2月,具有明顯的季節性。高峰期的形成一方面與春夏時節氣候適宜結核分枝桿菌繁殖傳播有關;另一方面,每年2月通常恰逢春節期間,就醫人數相對減少,而 3 月時積壓的患者就診造成了肺結核報告病例數的激增,形成 “春節效應”[7-8]。因此,春節期間的防控工作對于延緩或降低肺結核高發期的影響至關重要。與此同時,每年學生畢業體檢及入學體檢,也可能與高峰期的形成有關[2]。
本研究發現,2020年是鎮江市近9年內肺結核的發病數和發病率降幅最大的一年,與2019年相比,年肺結核總發病數減少240例,年發病率下降7.4/10萬。而在隨后的2020-2022年中,發病數和發病率均持續下降,且2022年實際發病數小于或等于預測發病數。出現這種現象的原因可能有兩點:一是新冠病毒感染疫情防控措施中公共場合均需佩戴口罩的要求阻斷了呼吸道飛沫傳播這一肺結核的主要傳播途徑[5];二是由于疫情防控期間就診時感染的高風險和人員流動限制措施阻礙了患者及時到醫院就診,從就診數據上看,2019年鎮江市縣級以上醫院總診療例次達1 045.1萬人次,而2020、2021年這一數據回退至835.2萬人次和873.9萬人次,僅相當于2012年的水平。就診例數的下降削弱了肺結核患者的發現能力,進而導致肺結核報告發病數的下降。但是主要下降原因仍應歸于戴口罩、保持社交距離等防控措施的實施阻斷了肺結核的傳播。根據模型預測結果,預計2023年,鎮江市將保持肺結核流行下行趨勢,發病數將進一步減少。但當前新冠病毒感染疫情形勢變化、管控措施優化調整、肺結核患者發現能力的恢復與提升可能加大預測結果與實際的誤差。
近年來,ARIMA 模型、Holt-Winters 模型、灰色動態模型等[9-12]被廣泛應用于肺結核的預測中。本研究采用的ARIMA模型,在建模的過程中考慮了時間序列的線性趨勢、季節性、周期性及隨機誤差和非季節成分[13],兼顧了肺結核發病數時間序列的自相關性和季節規律[14],在肺結核流行趨勢預測中展現出較好的準確度。但在本研究利用ARIMA模型對2022年肺結核發病數進行預測時,4、12月的預測值相對誤差分別為50.88%、37.50%,查閱數據發現該月肺結核發病率創下8年來歷史最低紀錄,分別為1.77/10萬、1.74/10萬,而此時鎮江市均存在本土新冠病毒感染疫情,說明因本地新冠病毒感染的始發造成的人員流動限制、本市醫療資源大量向新冠病毒感染疫情防控傾斜,就診期間感染新冠病毒的高風險和醫院嚴格防控措施引發的患者就診意愿下降,導致了肺結核病例發現能力被削弱,最終體現于模型預測失靈、實際報告肺結核發病數和發病率異常低的現象。但由于本研究中的肺結核發病數實際值為傳染病疫情法定報告中的數值,即被發現的肺結核患者數,以及新冠病毒感染疫情導致的肺結核患者發現能力的削弱,事實上的肺結核發病數應在一定程度上高于法定報告中的數值。從模型預測的月平均值與實際值相同的結果分析,模型預測值可能比傳染病法定報告更接近于實際的肺結核流行情況,且更準確反映了事實上的肺結核月發病數,在上海市[5]、四川省[15]和湖北省荊州市[16]的相關研究中也表達了類似的觀點。然而肺結核流行趨勢的影響因素眾多,模型難免有考慮不周全之處[17]。在未來的實際應用中,應不斷收集積累新的時間序列數據,結合實際定期更新預測模型,才能得到更加貼近實際的預測結果,為肺結核防控工作提供科學的流行趨勢預測與分析數據支撐[18-19]。并且由于各地的最優模型和預測效果不盡相同[20],ARIMA(0,1,1)(1,1,0)12模型僅適用于當前鎮江市肺結核流行趨勢的短期預測,實際運用時需要因時因地制宜調整合適的模型參數,也可通過加權組合模型克服單一模型的局限和片面,進一步提升預測準確度并增加穩定性[17]。