謝賜福 王孝君 熊 姿 宋麗新 許林勇
【提 要】 目的 探討SARIMA模型在肺結核發病預測中的適用性,為長沙市肺結核防控提供參考。方法 利用2005年1月-2016年12月長沙市肺結核月發病數構建SARIMA模型,以2017年1-12月的月發病數評價模型的預測效果,并采用構建的最優模型對2018年長沙市肺結核月發病情況進行預測。結果 長沙市肺結核月發病數具有明顯的季節性特征,最優預測模型為SARIMA(0,1,1)(0,1,1)12,其AIC=1436.703,模型殘差為白噪聲(χ2=0.119,P=0.731)。該模型的預測值與實際值的平均絕對百分誤差為21.69%,預測效果較為可靠。預計2018年長沙市肺結核的月平均發病數為332.34例,發病水平與2017年接近,但總體略有下降。結論 SARIMA(0,1,1)(0,1,1)12擬合效果較好,可用于長沙市肺結核月發病數的短期預測。
結核病(tuberculosis,TB)是由結核分支桿菌引起的慢性傳染病。據世界衛生組織WHO發布的《2016年全球結核病報告》估計,2015年全球有1 040萬新發結核病例,其中我國約有91.8萬新發結核病例,占全球發病例數的8.83%,位居全球第3位[1]。據長沙市傳染病疫情報告系統數據顯示,2005-2017年長沙市結核病發病數居乙類傳染病的前3位,是威脅居民健康的主要傳染病之一。
準確預測結核病的發病情況對結核病防治工作具有重要的指導意義。目前,時間序列模型已廣泛應用于傳染病預測研究中[2-6]。季節自回歸求和移動平均模型(seasonal autoregressive integrated moving average model,SARIMA)是一種特殊的時間序列模型,可對呈季節性變化的時間序列進行擬合和預測,是目前國內常用的傳染病預測模型之一[7]。本研究利用2005-2017年長沙市肺結核的月發病數,構建和評價SARIMA模型,并遴選最優模型預測2018年長沙市肺結核的發病情況,為長沙市肺結核防控和疫情監測提供科學依據。
2005年1月至2017年12月長沙市肺結核月發病數來源于“中國疾病預防控制信息系統”。其中2005年1月至2016年12月的肺結核月發病數用于構建SARIMA模型,2017年1月至12月肺結核月發病數用于評價模型的預測效果。
(1)模型簡介:自回歸求和移動平均模型(autoregressive integrated moving average model,ARIMA)是一種基于時間序列的預測方法。SARIMA模型則是在ARIMA基礎上增加了對季節性和周期性的分析,又稱為乘積季節模型,一般表示為SARIMA(p,d,q)(P,D,Q)s。其中,p為非季節自回歸階數、d為非季節差分階數、q非季節移動平均階數、P為季節自回歸階數、D為季節差分階數、Q為季節移動平均階數,s為季節長度。SARIMA模型綜合考慮季節性、長期趨勢和隨機干擾等因素,對時間序列的擬合和預測效果更佳[4]。
(2)建模過程:①序列平穩化:為消除時間序列長期趨勢及季節性的影響,通過非季節差分和季節差分,將不平穩的原始數據轉化為平穩序列,并通過Augmented Dickey-Fuller(ADF)檢驗驗證其平穩性。根據非季節差分階數和季節差分階數可確定d、D值[8]。②模型識別:分析轉換后的時間序列,并繪制自相關函數(autocorrelation function,ACF)和偏自相關函數(partial autocorrelation function,PACF)圖,初步估計p、q值。此外,P、Q值主要通過嘗試和比較的方法確定,分別取0、1、2由低到高進行探索,根據模型的擬合優度選擇恰當的值[9]。③參數估計:運用最大似然估計法(maximum likelihood estimation,MLE),計算自回歸系數(autoregressive,AR)和移動平均系數(moving averages,MA)。④模型診斷:計算模型的擬合優度統計量,通常采用Akaike信息準則(Akaike information criterion,AIC)來衡量模型與時間序列的擬合程度。其中AIC值越小,模型的擬合效果越好[10]。隨后,對模型進行Box-Ljung檢驗,若P≥0.05,則差異無統計學意義,可認為模型殘差為白噪聲,模型是合適的;若模型殘差不是白噪聲,則需對模型進行改進[10]。⑤模型擬合及預測:采用構建的模型擬合2005-2016年肺結核月發病數,繪制擬合圖;并將2017年1-12月的實際發病人數與模型預測值進行比較,計算絕對誤差和絕對百分誤差,從而評價模型的預測效果,其值越小,模型的預測效果越好[11]。最后,采用構建的最優模型預測2018年肺結核月發病數及其95%可信區間。
本研究采用excel 2016軟件建立數據庫,采用R-3.4.3軟件中的“tseries”和“forecast”軟件包進行數據處理與建模預測。
2005年1月至2016年12月長沙市肺結核年均發病人數為5 566.25例,月均發病人數為463.85例,其發病高峰為2007年5月,發病人數達738例。將發病人數的時間序列分解后發現,長沙市肺結核發病人數存在一定的長期趨勢和季節性。以2007年為界,長沙市肺結核發病人數呈先上升后下降的長期趨勢;其季節性周期為12個月,通常于每年1月份出現第1次發病高峰,3~5月份出現第2次高峰(圖1)。

圖1 2005年1月-2016年12月長沙市肺結核月發病數時間序列分解圖
(1)序列平穩化:將原始時間序列進行一階非季節差分和一階季節差分后顯示,差分后的序列接近平穩(圖2);經ADF檢驗顯示,差異有統計學意義(Dickey-Fuller=-19.06,P=0.01),即經差分后的序列為平穩非白噪聲序列。

圖2 一階非季節差分和一階季節差分后肺結核月發病數時間序列圖
(2)模型識別與定階:根據差分變換次數,初步確定SARIMA(p,1,q)(P,1,Q)12模型,其中非季節差分階數d=1,季節差分階數D=1,季節長度s=12。由差分后時間序列的ACF圖(圖3)和PACF圖(圖4)可知,ACF和PACF均呈拖尾衰減,因此非季節自回歸階數p和非季節移動平均階數q需要摸索判斷。p、q、P、Q分別取0、1、2,由低階到高階逐個建模。

圖3 差分后時間序列自相關函數圖

圖4 差分后時間序列偏自相關函數圖
(3)參數估計和模型診斷:經模型參數估計和Box-Ljung檢驗獲得13個備選模型,其參數估計及檢驗結果見表1。由AIC值可知,SARIMA(0,l,1)(0,1,1)12模型的擬合效果最好(AIC=1436.703),其殘差的Box-Ljung檢驗結果為χ2=0.119,P=0.731,差異無統計學意義,提示模型殘差為白噪聲,所選模型恰當。

表1 備選模型的參數估計和Box-Ljung檢驗結果
(4)模型擬合及預測:圖5顯示,2005-2016年長沙市肺結核月發病數實際值與最優模型SARIMA(0,1,1)(0,1,1)12擬合值的重合度較高。采用該模型預測的2017年1~12月肺結核發病人數與實際值相比較,結果顯示實際值均在預測值的95%CI范圍內,其平均絕對誤差和平均絕對百分誤差分別為75.30和21.69%,預測效果較好。采用最優模型預測2018年長沙市肺結核月發病人數,結果顯示2018年長沙市肺結核平均月發病人數為332.34例,發病水平與2017年接近,但總體略有下降。預計2018年的第一次發病高峰在1月份,為419.65例(95%CI:247.36~591.94);第2次高峰在3月份,預測發病人數為413.35例(95%CI:229.58~597.12)。

圖5 2005-2016年長沙市肺結核月發病數擬合圖

月份實際值預測值預測值95%CI絕對誤差絕對百分誤差(%)1304436.23328.73~543.74132.2343.502278339.32226.07~452.5861.3222.063344429.94311.21~548.6685.9424.984315413.74289.79~537.7098.7431.355340406.69277.72~535.6666.6919.616343340.06206.26~473.862.940.867393327.73189.26~466.1965.2716.618434331.74188.77~474.71102.2623.569372305.76158.42~453.1066.2417.8110306320.91169.33~472.5014.914.8711348270.88115.17~426.6077.1222.1612394264.09104.35~423.83129.9132.97

表3 2018年1-12月長沙市肺結核月發病數的預測結果
肺結核是危害人類健康的重要公共衛生問題,準確預測肺結核發病數對防控工作具有重要的指導意義。數學模型是進行結核病預測和防控策略效果評價的有效手段。SARIMA模型是一種針對季節性變化時間序列的建模方法,僅從時間序列數據本身的規律出發進行建模預測[12],是目前結核病發病預測模型中較為可行且短期預測精度較高的方法之一。本研究采用長沙市2005年1月-2016年12月肺結核月發病數據構建SARIMA模型,并對2018年長沙市肺結核月發病數進行預測。該模型能有效擬合長沙市肺結核月發病數的長期趨勢和季節性變化規律,預測效果較為可靠,可為長沙市肺結核防控提供參考。
本研究結果顯示,長沙市肺結核發病數總體呈下降趨勢,并呈明顯的季節性和周期性,發病高峰常見于較為寒冷的冬春季節,這與國內外其他研究結果一致[1,13-14]。此外,本研究還發現2月報告的肺結核發病數明顯低于冬春季其他月份,其原因可能來自兩個方面:一是2月實際天數少于其他月份,因此月發病數低于其他月份;二是2月多處于春節期間,患者未就診或延遲就診、醫療機構疫情報告延遲和漏報高于其他月份。
預測結果提示,2018年長沙市肺結核的月平均發病人數為332.34例,并呈輕度下降趨勢,但發病人數仍與2017年接近,提示肺結核仍然是危害長沙市居民健康的重點傳染性疾病。此外,本研究預測的2018年肺結核月發病數的95%CI可以用于結核病預警,當實際值處于預測值95%CI以內,則疫情正常;當超過95%CI的上限,則提示可能存在異常增長,應及時發出預警,提醒疾病預防控制部門加強防控[12]。
本研究也存在一定的局限性。首先,SARIMA模型不適用于長期預測,在實際應用中,應不斷收集新數據對模型進行優化或重新建模。其次,SARIMA模型僅從數據上反映疾病的統計規律,在實際衛生工作決策與防病措施制定過程中,應綜合考慮其他因素對結果的影響。