侯麗英 柳麗花 焦建利 孔 平
“其他感染性腹瀉”是指除去霍亂、痢疾、傷寒和副傷寒以外的感染性腹瀉病,包括例如細菌、病毒、寄生蟲等病原體所引起的人體腸道感染[1]。上海市雖然經濟較發達,衛生條件較好,但每年仍有一定程度的流行,使得該病的防控仍是一個重要的公共衛生問題。本文運用時間序列分析中的自回歸綜合移動平均模型(autoregressive integrated moving average model,ARIMA),結合上海市2011年3月-2017年l2月間的其他感染性腹瀉數據的分布特征,在模型比較、檢驗基礎上建立擬合模型,并進行預測,為其他感染性腹瀉疾病的防控策略提供依據。
上海市2011年3月-2017年l2月的其他感染性腹瀉的發病資料和相應的人口學資料來源于上海市衛生和計劃生育委員會網站及相應的上海市法定傳染病疫情報告[2]。
自回歸移動平均模型(autoregressive moving average model,ARMA)是一種適用于短期且滿足平穩性的時間序列預測模型,對于非平穩序列,可以通過取對數或者差分等方法實現平穩化,統稱為ARIMA(p,d,q)模型。如果序列還包含一定的季節周期性,則要考慮帶季節性的乘積模型ARIMA(p,d,q)(P,D,Q)s,模型建立的步驟一般可分為:序列的識別與平穩化、參數估計、模型診斷與預測三個階段[3]。
(1)序列的識別與平穩化。首先通過繪制時間序列圖像,觀察數據的分布特點和變化趨勢,然后利用對數轉換與適當的差分,將序列變為平穩時間序列。
(2)參數估計。參數估計是根據AIC(Akaike’s information criterion)或BIC(Schwarz’S Bayesian information criterion)最小信息準則,進行參數選擇與比較,進而確定ARIMA中參數。
(3)模型診斷與預測。這一步是對模型的殘差序列進行自相關、偏相關或白噪聲檢驗,判斷模型中是否還包含其他信息,當模型達到預期精度要求時,進一步進行預測[4]。
根據上海市2011年3月-2017年6月期間報告的“其他感染性腹瀉”月發病率數據繪制序列分布(圖1),可見發病率整體分布在0.48/10萬~7.35/10萬之間,具有長期趨勢,有明顯的季節性,一般在每年8月常會出現發病率的高峰,低點在2、3、4月。

圖1 上海市2011年3月-2017年6月其他感染性腹瀉月發病率時間序列分布
原序列在垂直方向上表現出平穩性,但仍然具有季節的周期性,對原始序列進行一階周期為12的季節性差分,新序列(圖2)自相關函數ACF圖形很快收斂,變得不顯著,表現為拖尾現象,因此可以認為新序列已經為一個平穩序列。偏相關函數ACF圖形在一步之后,均落在可信區間之內,滿足一步截尾特點,因此可以判斷它是一個一階自回歸序列(autoregressive series,AR(1))。初步確定模型參數為p=1,d=0,D=1,采用模型ARIMA(1,0,q)(P,1,Q)12。另外三個參數q、P、Q的確定,采取從低階到高階逐個嘗試的辦法,同時檢驗各個模型的擬合優度,進行比較而得到[5]。

圖2 經季節差分后序列自相關和偏相關圖
表1給出了ARIMA(1,0,0)(1,1,1)12,ARIMA(1,0,1)(0,1,1)12,ARIMA(1,0,0)(0,1,1)12三個模型的擬合優度檢驗結果,根據BIC信息準則以及簡約性原則,選擇BIC、標準誤差均最小、R2值接近1的模型,即 ARIMA(1,0,0)(0,1,1)12。

表1 備選模型的擬合優度檢驗
ARIMA(1,0,0)(0,1,1)12模型參數估計見表2,非季節自回歸參數為0.609,季節滑動平均參數為0.788,常數為0.169,t檢驗的P值均小于0.05,差異有統計學意義。

表2 模型參數估計
綜上分析,建立ARIMA季節模型方程為
(1-0.609B)(1-B12)Yt=0.169+(1-0.788B12)εt。
從ARIMA(1,0,0)(0,1,1)12模型的殘差序列自相關和偏自相關圖可見,殘差均在可信區間之內,并不表現為任何規律,為白噪聲序列,說明擬合效果好[6]。

圖3 ARIMA(1,0,0)(0,1,1)12殘差自相關和偏相關圖
利用已建立的ARIMA(1,0,0)(0,1,1)12模型,給出上海市2017年7月至12月其他感染性腹瀉的發病率預測值及95%預測區間值,見表3。
通過圖4,我們可以直觀地觀察ARIMA(1,0,0)(0,1,1)12模型對上海市2011年3月-2017年12月期間報告的其他感染性腹瀉月發病率序列的擬合、預測情況,其中細實線表示觀測值,虛線表示擬合曲線,粗黑線為預測值曲線。

表3 ARIMA模型預測上海市2017年7月-12月其他感染性腹瀉發病率(1/10萬)結果

圖4 上海市其他感染性腹瀉發病率ARIMA季節模型擬合預測圖
本文以上海市衛生與計劃生育委員會網站及相應的法定傳染病疫情報告2011年3月-2017年12月其他感染性腹瀉數據為基礎,對其流行病學的季節周期性表現,通過一階季節差分,實現序列的平穩化,進一步參數估計和檢驗,得到ARIMA(1,0,0)(0,1,1)12模型,BIC=-2.025,R2=0.956。應用模型預測上海市2017年7月~12月其他感染性腹瀉,結果顯示擬合值的動態趨勢表現出與實際值極為相似的升降規律,較好地模擬出其他感染性腹瀉發病率序列的波動趨勢和季節要素,預測精度較高。
ARIMA模型結合了自回歸和移動平均方法的長處,具有不受數據類型束縛、適用性強的特點,對于短期預測,能收到較好的效果[4]。但考慮到傳染病流行規律的復雜性,ARIMA模型的長期應用要及時補充新的數據,對模型類型、參數不斷地進行完善與修正,才能確保預測結果的精度,及時準確地為疾病的預警和預防控制提供科學依據。
模型的擬合、預測結果提示上海市發病高峰在8月,占全年總發病的20%~23%。而全國范圍的調查結果是在每年的9~10月期間其他感染性腹瀉事件呈高發期[7]。這個差別與各地的氣候條件有關,上海屬熱帶濕潤季風氣候,通常8月份最熱,適合其他感染性腹瀉的各類傳染源的滋生,易發生飲用水污染、食物污染和生活接觸傳播。上海的衛生機構應在7、8月份采取有針對性的預防措施,如進行飲用水監測、食物污染監測,減少此類疾病的發生,則可有效減少全年的總發病率,做到事半功倍。
其他感染性腹瀉位居夏季丙類傳染病發病之首,主要因為該類疾病包括多種感染性疾病,病因比較復雜,診斷需依據臨床表現、實驗室檢查和流行病學資料進行綜合判斷[1]。但由于醫療機構受實驗室檢驗條件的限制,其他感染性腹瀉病例的實驗室診斷率低,很難明確具體病原菌,且缺乏有效的疫苗進行預防,故明確其月度發病規律對于控制其流行非常關鍵。上海作為人口密集、流動性強的超大型城市,對該疾病發病規律的科學預測是制定防控工作近期或遠期策略的前提,顯得尤為重要。