江門市疾病預防控制中心(518000)
黃 國 朱宇平 黃煥鶯
手足口病(hand-foot-mouth disease,HFMD)是人腸道病毒引起的一種常見傳染病,嬰幼兒及學齡前兒童多發,患兒以發熱,手、足、口腔等部位皮疹或皰疹為主,傳染性強,在人群密集的地方短時間內可引起暴發或流行[1-2]。近年來江門市手足口病呈逐年高發趨勢,為有效預防控制手足口病暴發流行,本研究構建自回歸積分滑動平均模型(autoregressive integrated moving average model,ARIMA)預測江門市手足口病發病趨勢,探討該模型在預測手足口病發病率中的應用。
1.資料來源 江門市手足口病月報告病例數來自中國疾病預防控制信息系統,人口數來源于江門市統計局。
2.研究方法 利用SPSS統計軟件中ARIMA模型分析方法,首先根據江門市2009年1月-2017年6月手足口病月發病率建立時間序列。手足口病月發病率時間序列為季節性時間序列,故采用乘積季節模型,即ARIMA(p,d,q)×(P,D,Q)s。其中d為平穩化過程中差分的階數,p、q為自回歸和移動平均階數。P、Q為季節性自回歸和移動平均階數,D為季節差分階數,S為季節周期。通過數據平穩化處理、模型識別、參數估計與檢驗等步驟,探索建立模型,將2017年7-12月實際發病率與預測發病率相對誤差(相對誤差=|實際值-預測值|/實際值)進行比較作為外推驗證,評價模型預測效果。
(1)序列平穩化 根據2009年1月-2017年6月江門市手足口病發病率序列圖、自相關系數(ACF)圖和偏相關系數(PACF)圖判斷序列平穩性。若序列為非平穩序列,對原序列進行非季節差分或季節差分,消除序列長期趨勢和周期性變化的影響,使序列平穩[3]。
(2)模型識別 根據差分后序列自相關函數(ACF)圖和偏自相關函數(PACF)圖,為模型進行初步識別和定階。
(3)模型參數估計和檢驗 利用非線性最小二乘法估計模型參數,在參數有統計學意義基礎條件上,用擬合優度比較模型優劣。模型的擬合優度采用標準化的貝葉斯準則比較,標準化BIC值最小,Ljung-BoxQ統計量P值>0.05的模型為最優。
(4)評價模型預測效果 比較2017年7-12月的實際發病率與預測發病率相對誤差,驗證模型預測效果。
1.繪制序列圖 繪制2009年1月-2017年6月江門市手足口病發病率時間序列圖(圖1)。由圖可見江門市手足口病發病有明顯的季節性,以12個月為流行周期。每個流行周期出現2個流行高峰,大高峰出現在5-7月,小高峰出現在9-10月,低谷出現在11月份到次年2月份。該序列既有季節周期性波動特點,又有逐年上升趨勢,故采用乘積ARIMA模型。

圖1 2009年1月-2017年6月江門市HFMD月發病率時間序列圖
2.序列平穩化 2009年1月-2017年6月江門市手足口病月發病率時序圖呈周期性波動趨勢,不能滿足平穩化的要求,根據時序圖季節性波動特征,對原序列進行自然對數轉換和一階季節差分,差分后的時間序列自相關(ACF)和偏自相關(PACF)函數無明顯截尾和拖尾現象(圖2、3),也不呈線性衰減趨勢,差分后的時間序列圖(圖4)接近平穩,提示差分后序列適合時間序列模型。

圖2 2009年1月~2017年6月江門市HFMD月發病率季節差分ACF函數圖
3.模型的參數估計和診斷 確定模型類型后,需要確定p、d、q和P、D、Q的值,對模型定階。根據序列季節化特征和平穩化處理過程,d=0,D=1。根據自相關函數圖和偏自相關函數圖,p=1,q=1。季節模型P、Q值較難判斷,根據文獻[4-5],參數P、Q很少超過2階,可分別取0~2由低階到高階摸索試驗,結合模型的擬合優度、殘差以及系數間的相關性進行估計。采用Ljung-Box方法檢驗殘差白噪聲,非白噪聲模型排除。經試驗,模型ARIMA(1,0,1)(0,1,1)12標準化BIC值(9.87)最小,平穩R2=0.73,殘差序
列的自相關系數及偏相關系數均在95%置信區間內(圖5),Ljung-Box=21.76,P=0.11。由此,ARIMA(1,0,1)(0,1,1)12模型被選為最優模型。

圖3 2009年1月-2017年6月江門市HFMD月發病率季節差分PACF函數圖

圖4 2009年1月-2017年6月江門市HFMD月發病率季節差分序列圖

圖5 模型ARIMA(1,0,1)(0,1,1)12殘差序列ACF、PACF函數圖
4.模型預測 按照ARIMA建模方法,對2009年1月-2017年6月江門市手足口病月發病率時間序列建模,再以2017年7-12月全市手足口病月發病率為驗證數據進行驗證,并繪制實際值和預測值序列圖,見圖6。根據預測值與實際值相對誤差來判斷模型的預測效果(表1)。

圖6 ARIMA(1,0,1)(0,1,1)12模型擬合圖

表1 2017年7-12月江門市HFMD月發病率預測值與實際值比較
手足口病2008年5月起被納入丙類傳染病[6],其傳染性強,病原學復雜,傳播途徑多,可多次重復感染,手足口病預防控制工作難度大,早防早控工作一直難以落實到位。及時有效地預測預警發病趨勢,是該病預防控制工作的重點和難點[7-8]。時間序列模型將復雜因素的綜合效應統一蘊含到時間變量中,克服了疾病發病影響因素錯綜復雜,或有關數據資料無法獲得的難題[9-10],在具有典型趨勢特征變化的數據預測上適用性好[11-12]。
本研究利用2009年1月-2017年6月江門市手足口病月發病率資料,通過序列平穩化、模型識別、參數估計及診斷、模型預測效果評價等步驟,建立了ARIMA(1,0,1)(0,1,1)12模型。該模型對江門市手足口病發病率進行了較好地擬合,說明在短時間、實際發病趨勢無較大波動時,ARIMA模型可以對發病情況進行較好的預測,特別是季節性模型可以對手足口病季節性特征做很好的擬合,提前判斷疫情走勢,為防控策略的制定提供科學依據[13]。
從區間估計看,本研究預測數據與實際發病情況區間估計一致,實際發病率全部落入預測值95%CI內。在預測的精度上,2017年7-12月手足口病月發病率預測最小相對誤差為7.53%,最大相對誤差為22.38%,平均相對誤差為18.14%,但預測值的95%CI寬度偏大。在手足口病實際防控工作中,受社會因素、氣候因素、人群免疫水平等影響[14],手足口病發病情況復雜多變,特別是江門市作為珠三角地區,人口密集且流動性大,需更進一步探索手足口病發病預測模型研究工作,使其更具有實際的指導意義與價值。