馬金宇,王秀琴,龔 瑞,李 濤,黎 晞
(寧夏疾病預防控制中心,銀川750004)
乙型病毒性肝炎(viral hepatitis type B)簡稱乙肝,是由乙肝病毒(hepatitis B virus,HBV)引起的以肝臟損害為主的一種全球性傳染病[1]。HBV主要以損害肝臟,甚至破壞肝細胞,導致肝功能受損而引起持續性感染,如不及時醫治,最終可能會導致肝硬化甚至是肝癌。WHO報道2015年全球有近2.57億人感染HBV[2],88.7萬人死于慢性乙肝所致的肝癌。2017年,全國肝癌發病例數51.59萬,死亡41.82萬[3]。隨著免疫規劃政策不斷調整,寧夏乙肝保護性抗體水平顯著提升[4]。為全面了解寧夏乙肝流行趨勢,現利用2005—2020年寧夏乙肝每月發病數據進行時間序列分析并建立科學的預測模型,初步預測2021年乙肝發病趨勢,從而為完善寧夏乙肝監測和防治工作提供理論參考。
通過中國疾病預防控制中心“全民健康保障信息化工程中國疾病預防控制信息系統”(National Notifiable Disease Report System,NNDRS)獲取網絡直報的2005—2020年寧夏乙肝每月發病數。
1.2.1 乘積型季節性自回歸滑動平均混合模型(autoregressive integrated moving average model,ARIMA)模型ARIMA模型即Box-Jenkins模型,表現形式:ARIMA(p,d,q)*(P,D,Q)s,其中,p(P),d(D),q(Q)分別為非季節性(季節性)的自回歸平均階數、差分次數和滑動平均階數,s為模型的季節周期[5],近年來被廣泛用于各類傳染病的時間序列分析和預測。
1.2.2 數據序列的建立和平穩化 將2005—2020年寧夏乙肝報告發病數以年和月進行時間定義,繪制相應的時間序列曲線圖,利用ADF單位根檢驗序列數據的平穩性[6],對非平穩序列通過非季節差分和季節差分等處理,消除季節和趨勢等因素影響,使之成為平穩的時間序列。
1.2.3 模型的識別和定階 對經過差分處理后平穩的時間序列做自相關函數(ACF)和偏自相關函數(PACF)分析,觀察ACF和PACF的截尾或拖尾情況并定階,初步確定模型的p(P)、d(D)、q(Q)及s等參數并建模。通過對所建模型進行擬合,利用Ljung-Box Q檢驗,去除殘差為非白噪聲(P<0.05)的模型,并根據其他參數調整,形成可擬合的ARIMA模型。
1.2.4 模型的參數估計和優化 根據ARIMA模型參數估計中迭代計算的最終結果,進行擬合優度檢驗,結合Akaike信息標準(AIC)和Schwartz Bayesian標準(SBC)、殘差序列的白噪聲檢驗(Ljung-Box檢驗)等作為判定模型的擬合優度指標,獲得擬合效果較好的最優模型。
1.2.5模型的回代和評價 以2005—2020年寧夏乙肝月報告發病數對最優模型進行回代擬合,指標包括平均絕對百分比誤差(MAPE)、平均相對誤差(ABRE)。MAPE和ABRE值越低可判定預測精度越高。
1.2.6 模型的預測應用 利用最終得到的最優ARIMA模型對寧夏2021年乙肝發病數及趨勢進行預測。
采用Excel 2007進行數據導出和整理。利用SPSS 18.0進行數據建模、驗證及分析等。利用Eviews 9.0進行序列平穩性(ADF單位根)檢驗。發病率趨勢變化采用趨勢χ2檢驗。檢驗水準α=0.05。
2005—2020年,共報告乙肝發病人數108 531例,平均每月報告約565例,以月為時間節點繪制時間序列圖,橫軸表示2005年1月至2020年12月時間軸,縱軸表示此期間每月的乙肝報告發病數。月報告發病數高峰主要集中在每年的3月,2006年3月報告發病數最高,為1026例。期間總體呈現下降趨勢(χ2趨勢=24.73,P<0.05),以2009年和2020年下降幅度最為明顯,2005—2008年呈緩慢下降,2011—2019年表現出平穩上下波動。既往報告發病數序列總體表現出一定的季節性(以季為單位,季節指數分別為110.09%、98.28%、99.09%和97.53%)和非平穩性,見圖1。

圖1 2005—2020年寧夏乙肝報告發病數時間序列
2005—2020年寧夏乙肝月報告發病原始數據時間序列經單位根ADF檢驗顯示為非平穩時間序列(單位根統計量t=-1.56,P=0.11)。對原始時間序列進行d=1的非季節差分和D=1的季節差分來消除趨勢和季節性的影響,將其轉化為不含截距項和時間趨勢項平穩序列(t=-8.99,P<0.05,小于5%顯著性水平的臨界值為-1.94),轉化后的時間序列見圖2。

圖2 2005—2020年寧夏乙肝報告發病數轉換后時間序列
對原始序列進行差分處理后獲得的平穩序列做自相關系數分析圖(ACF圖,圖3)和偏自相關系數分析圖(PACF圖,圖4),ACF圖表現為一階截尾,PACF圖表現出一定的拖尾性,初步選擇參數p=0,q=1。

圖3 平穩序列的自相關

圖4 平穩序列的偏自相關
一般情況下,在ARIMA模型中P、Q值不會大于2[7],分別為參數P、Q取值0,1,2,通過參數d=1,D=1,p=0,q=1,建立ARIMA(0,1,1)(P,1,Q)12模型(P=0,1,2;Q=0,1,2),并對建立的9種模型逐個進行論證嘗試,其中ARIMA(0,1,1)(1,1,0)12等6種模型經Ljung-Box檢驗Q統計量P值均大于0.05,殘差顯示為白噪聲,進入備選模型,對備選模型進行擬合優度檢驗,統計量檢驗結果見表1。

表1 6種備選模型擬合優度檢驗統計量
根據6個備選模型擬合優度檢驗統計量結果以及AIC和SBC最低的模型為最優模型原則[5],可以確定ARIMA(0,1,1)(0,1,1)12模型為最優模型,經Ljung-Box檢驗Q=6.814、P=0.977,無統計學意義,表明其模型的殘差序列為白噪聲序列。模型參數估計結果顯示,MA滯后和MA季節性滯后的估計值均有統計學意義(P<0.05),見表2。

表2 ARIMA(0,1,1)(0,1,1)12模型的參數估計結果
最優模型殘差ACF和殘差PACF圖(圖5)可以看出,殘差序列ACF和PACF系數均在95%置信區間范圍內,表明殘差序列的分布是隨機的,不存在相關性。綜上,最優模型ARIMA(0,1,1)(0,1,1)12有效且擬合效果較好。

圖5 ARIMA(0,1,1)(0,1,1)12模型殘差序列的ACF和PACF
利用獲得的最優模型ARIMA(0,1,1)(0,1,1)12對2005—2020年每月的報告乙肝發病數進行回代擬合,其真實值均在擬合值的95%可信區間內,平均絕對百分比誤差(MAPE)為10.21%,平均相對誤差(ABRE)為10.10%,表明模型預測精度相對較好,可用于寧夏短期內乙肝報告發病數預測,見圖6。

圖6 2005—2020年不同時間乙肝發病數序列擬合
用最優模型ARIMA(0,1,1)(0,1,1)12對寧夏2021年乙肝報告發病數及趨勢進行預測,結果顯示,寧夏2021年乙肝報告發病總數預計達2 294例,較2020年、2019年實際發病水平(3 374例、5 918例)大幅下降,較近三年平均發病水平(5 211例)下降明顯。2021年預測乙肝發病整體呈現下降趨勢,自2020年12月后下降,2021年3月(256例)上升并形成一個小高峰后不斷下降,7月略有升高后又持續下降至10月,11月后呈現上升趨勢,見圖7。

圖7 2021年預測乙肝發病趨勢
ARIMA作為Box-Jenkins方法中的一種重要時間序列分析預測模型,曾在經濟領域被廣泛應用,近年來被運用于包括流感在內的各類傳染病時間序列分析和預測中[8]。此模型的建立需要原始數據序列趨于平穩。寧夏自1992年以來,乙肝疫苗接種經歷了計免、擴免兩個政策階段以及近年來運用信息化手段使接種率大幅度提升,乙肝月報告發病數分別于2009年、2020年呈現2次大幅度的下降趨勢,2011—2019年呈現上下平穩波動。2005—2020年乙肝報告發病數序列經處理成為平穩序列后,模型可更好地捕獲到數據變化信息。
建模后,對模型進行回代擬合發現,擬合曲線與原始數據曲線之間上下變化幅度吻合度較高,MAPE和ABRE分別為10.21%和10.10%,高于相關報道提示的[9]擬合和預測的ABRE≤5%為理想模型的研究結果,但此次最優模型擬合的MAPE和ABRE為多個ARIMA模型中數據最小的,所建模型為目前相對最優模型,今后隨著數據的不斷更新,更優模型有待進一步研究和驗證,以便提高預測數據的精確度。
ARIMA模型僅通過對受多種因素影響的歷史數據變化規律進行綜合統計分析,進而在數據中建立數學模型,但未考慮單個影響因素如醫療條件、疫苗接種情況等變化對乙肝發病數的單方面影響,如納入各個影響因素進行協變量分析,根據影響因素科學調整模型,所得的預測結果可能會更為精準。同時,ARIMA模型隨著預測時間的增加,相對誤差會逐漸加大,所以模型對于預測短期內乙肝報告發病數效果較好[10],此次建模預測2021年乙肝報告發病數2294例,較近幾年發病水平大幅下降,可能是受新冠肺炎疫情影響,呼吸道傳染病的部分防控措施,如居家隔離、減少交際等對于經血液、垂直或性傳播的乙肝也存在一些影響,具體影響的定量分析有待其他可進行納入因子分析的模型進一步深入分析,2021年預測各月乙肝報告發病數3月形成一個小高峰,但無明顯的季節性分布特征,可能是乙肝的主要傳播途徑和主要傳播危險因素等與外界氣候關系不大[11],但每年春節過后因乙肝篩查和就診的人數增加有關,這與其他省市[12]及全國[13]的發病趨勢一致,表明寧夏近年來人們對于乙肝的認識不斷提高,重視程度不斷加強,乙肝疫苗受種人數以及接種覆蓋率的上升,早期規范篩查等措施的有效落實,對于乙肝防控取得了良好的效果,但是后續乙肝防控工作仍然不容放松,需繼續堅持現行模式下乙肝防控策略。
今后,在利用此模型預測時,應不斷加入新的乙肝報告發病數對模型進行修正,使預測模型更準確地反映寧夏乙肝發病情況,得到最佳的預測效果[14]。