陸 波閔思韜閔紅星△岳曉玲郭忠琴
應用ARIMA模型預測麻疹發病率的可行性研究
陸 波1閔思韜2閔紅星1△岳曉玲1郭忠琴1
目的探討應用時間序列ARIMA模型對麻疹發病預測的可行性,為銀川市傳染病發病預測提供科學依據。方法采用Eviews6.0對銀川市2004-2008年麻疹月發病數的資料建立ARIMA模型,用單位根檢驗法對模型的適應性進行檢驗,并回代驗證其有效。結果建立模型ARIMA(1,2,0)×(1,2,0)12是合適的,R2=0.625,其預測值與實際值相吻合程度高。結論ARIMA模型能很好地模擬銀川市麻疹發病率的變動趨勢,預測效果滿意。
麻疹 預測 時間序列分析 ARIMA模型
我國自1965年使用麻疹疫苗以來,麻疹發病率和病死率明顯降低,但與國家消除麻疹時發病率達到1/100萬的目標相距甚遠。ARlMA模型[1-2],即求和自回歸滑動平均(autoregressive integrated moving average)模型,被廣泛應用于人口、經濟、環境衛生及疾病發病或死亡等研究領域[3]。為此,本研究運用ARIMA模型對銀川市2004-2008年的麻疹月發病數建立數學模型,探討該模型的可行性,為麻疹的預防控制工作提供依據。
1.資料來源
銀川市2004-2008年麻疹月發病數通過國家疾病報告管理系統進行收集,包括我市三區三縣所有醫療機構的臨床診斷病例和實驗室確診病例,用2004年1月至2008年12月麻疹月發病數建立預測模型,用2008年各月發病數進行組外回代和組內回代,以檢驗模型的預測精度。最后,用2004-2008年所有的發病數資料建立預測模型,對2009年麻疹的發病情況進行預測。
2.研究方法
采用Eviews6.0統計軟件進行ARIMA模型的建模。ARIMA模型由兩個特殊模型發展而來,一個是自回歸或稱為AR模型,另一個是移動平滑模型,所以ARIMA模型應該是AR(p)模型和MA(q)模型的組合,這個模型有p+q個參數需要估計。ARIMA建模法分為三個階段進行:(1)模型識別,此階段的輸出結果通常會建議擬合一個或多個ARIMA模型;(2)參數估計和模型檢驗,此階段用以判斷該模型的適用性;(3)預測應用,預測時間序列的未來值及可信區間。通過這3個步驟的反復進行,最終確定一個用于預報的“最優”模型。
1.2004-2008年銀川市麻疹發病情況
繪制2004-2008年銀川市麻疹月發病資料的時間序列圖,可以看出:麻疹月發病數呈現明顯波動,每年均出現發病高峰月,且發病高峰出現的時間一致,發現有相對固定的季節性或周期性波動(每年4月出現高峰),見圖1。

圖1 2004-2008年銀川市麻疹月發病數時序圖
2.建立預測模型
(1)模型識別
對銀川市2004-2008年麻疹發病的時間序列進行分析后發現,該序列的ACF呈拖尾衰減緩慢,為非平穩序列,PACF二步截尾,尚無法識別,需要將序列平穩化處理后再做一階季節差分,序列的ACF呈兩步截尾,而PACF呈一步截尾,所以,原始序列識別為ARIMA(1,2,0)。初步選定麻疹預測模型為取值p=1,d=2,q=0的ARIMA(1,2,0)。用2004年1月至2008年12月的麻疹月發病數建立預測模型,結果見表1。

表1 2004-2008年銀川市麻疹月發病數預測模型相關參數
(2)參數估計和模型檢驗
麻疹發病預測模型ARIMA(1,2,0)×(1,2,0)12的參數估計,模型誤差在任何時滯上P值都大于0.05,顯示該模型用于預測是合適的,可用于麻疹發病的預測。
(3)預測應用
①建立數學模型yt=13.877+0.867159tt-1-0.346245tt-2+at,用該模型對我市2009年麻疹發病情況進行預測。
②數據內與數據外預測 從圖2可以看出,實際值與預測值相對較為吻合。

圖2 2004-2009年銀川市麻疹發病的數據內與數據外預測
國內曾對多種不同的預測方法進行研究,諸如回歸分析法、時間序列法、灰色模型等等。有研究顯示,各種模型在疾病的預測中及醫院管理等方面均取得了較好的效果[4-6]。ARIMA模型研究對象為季節特點較為明顯的資料,涉及醫院管理、預防醫學及經濟等領域[7]。本研究應用ARIMA模型法預測麻疹發病率,是用疾病的過去值和現在值,預測未來值,收集資料所花費的成本很低,其過程簡便、適用。另外,可參照預測數據有目的地開展傳染病的預防和控制工作。
麻疹是呼吸道傳染病,通過2004-2008年銀川市麻疹月發病數的時間序列圖可以看出:麻疹月發病數呈現明顯波動,每年4月為發病高峰月,且季節性比較明顯。本文在充分考慮麻疹季節性的情況下,對其進行建模,獲得了比較滿意的預測模型ARIMA(1,2,0)×(1,2,0)12。麻疹月發病數時間序列的ACF分析圖顯示:序列數據不平穩,經一階差分后,建立ARIMA(1,2,0),進行檢驗說明有統計學意義,用2004年1月-2008年12月的麻疹月發病數用建模,運用Eviews6.0擬合模型,對殘差序列進行白噪聲檢驗,結果顯示,該序列數據的五年預測效果的擬合度R2為0.625,相關系數為0.7905,通過預測實際值與預測相吻合程度高,說明用ARIMA(1,2,0)×(1,2,0)12模型能很好的預測麻疹發病情況。
本研究證實了ARIMA模型能夠較好的用于麻疹發病的預測,該模型在其他傳染病發病預測中的應用也值得進一步探討。但是,ARIMA模型預測只有以足夠多的時間序列數據為依據,才能得到較滿意的預測效果,本研究在處理序列數據中發現,序列太短會導致建模困難,取較長的序列則可保證擬合模型的可靠性,通常認為ARIMA模型法至少需要50個以上數據建模,而本次研究采用60個數據建模,預測效果較好。
1.孟蕾,王玉明.ARIMA模型在肺結核發病預測中的應用.中國衛生統計,2010,27(5):507-509.
2.胡建利,梁祁,吳瑩,等.季節時間序列模型在菌痢發病預測中的應用.中國衛生統計,2012,29(1):34-39.
3.Poddar SK.Influenza Virus Types and Subtypes Detection by Single StepSingle Tube Multiplex Reverse Transcription-polymerase China Reaction(RT-PCR)And Agarose Gel-Electrophoresis.Journal of Virology Methods,2002,99:63-70.
4.尹志英,繆明正.指數曲線模型在預測甲肝流行趨勢中的應用.中國衛生統計,2007,24(5):555.
5.肖玉霞,張穎.用線性趨勢季節模型預測出院人次.中國衛生統計,2008,25(3):213-215.
6.胡興,胡錫健.新疆H1N1甲型流感疫情預測模型的比較研究.中國衛生統計,2011,28(3):342-343.
7.馮丹,曹秀堂,董軍,等.綜合性醫院收容量預測的ARIMA模型構建研究.解放軍醫院管理雜志,2007,14(2):101-103.
(責任編輯:丁海龍)
陸波,閔思韜為并列第一作者
1.寧夏醫科大學總醫院(750004)
2.浙江大學物理系
△通信作者:閔紅星,E-mail:minhongxing@126.com