羅 靜,楊 書,張 強,王 璐
(1.四川大學公共衛生學院衛生統計教研室,成都 610041;2.成都醫學院公共衛生系,成都 610083)
艾滋病,即獲得性免疫缺陷綜合征(acquired immune deficiency syndrome,AIDS),是由艾滋病病毒(HIV)破壞人體免疫系統,使其喪失抵抗各種疫病能力的一種嚴重危害人類生命安全的疾病。2000年以后,特別是2005年以來,中國的艾滋病感染人數迅速上漲。在艾滋病的防控工作中,如果能在局部范圍內對未來感染人數做一定程度預判,為“三間分布”提供信息,對制定正確的防控政策和衛生資源配置提供依據,具有一定的指導意義。本文以重慶市疾病控制部門提供的艾滋病疫情發展為例,采用求和自回歸移動平均(auto regressive integrated moving average,ARIMA)時間序列模型擬合預測發病率,探討模型的可行性,對相關問題進行探索性研究。
1.1 一般資料 相關數據由重慶市疾病控制部門提供,包括1993~2009年重慶市轄區月度新發艾滋病感染人數,以及該市2010年衛生統計年鑒。
1.2 模型建立 ARIMA模型是以序列不同時期內的相關度量為基礎進行的一種精確度較高的短期預測分析方法。該法由美國學者Box和英國統計學者Jenkins于1976年提出,故又稱為Box-Jenkins模型[1]。在ARIMA模型中,變量的未來取值可以表達為過去若干個取值和隨機誤差的線性函數。

式中:
▽d=(1-B)d
Φ(B)=1-φ1B-…-φpBp
Θ(B)=1-θ1B-…-θqBq
其中B是后移算子,εt為各期的隨機擾動或隨機誤差,d為差分階數,p和q分別表示自回歸階數和移動平均階數,Xt為各期的觀察值(t=1,2,…,k)[2-3]。
建立ARIMA時間序列模型可歸納為3個階段,即序列的平穩化、模型識別以及參數估計和模型診斷,通過這3個階段處理的反復進行,最終確定一個用于預報的“最優”模型[4]。
1.2.1 序列的平穩化 序列的平穩性是ARIMA模型分析的前提條件,即要求均數不隨時間變化;方差不隨時間變化;自相關系數只與時間間隔有關,而與所處的時間無關[5]。對于非平穩的序列,可以通過差分和Box-Cox變換使均數和方差平穩化。
1.2.2 模型識別 通過觀察序列自相關(auto correction fuction,ACF)和偏自相關(partial auto correction fuction,PACF)的截尾、拖尾性初步為序列定階,提供幾個粗模型以便進一步分析完善[6-7]。
1.2.3 參數估計和模型診斷 根據模型階數,運用最大似然法估計或最小二乘法估計,計算出求和自回歸移動平均過程的各項系數,并做假設檢驗。在模型的擬合中,應滿足模型的殘差序列是白噪聲序列,即Box-Ljung Q統計量相比較差異無統計學意義(P>0.05)。若幾個模型均滿足參數相比較差異有統計學意義,殘差序列為白噪聲序列的要求,則使擬合優度統計量赤池信息準則(akaike’s information cnitenion,AIC)和貝葉斯算法(selective bayes classifiers,SBC)均達到最小的模型為最優模型。反之,模型參數間比較差異無統計學意義,或殘差序列不是白噪聲序列,都需要返回識別階段,重新調整各個階數的值,再進行參數估計和模型診斷。

表1 備選模型的參數估計
1.3 統計學處理 應用SPSS 13.0統計軟件建立ARIMA時間序列模型并進行數據處理和分析[8-9]。
2.1 數據處理 對1993~2009年重慶市疾病控制部門提供的艾滋病月發病率作序列圖,發現數據總體呈上升趨勢。其中,1993~2003年月發病率較低,其大多數月份為0,最大值為0.073 9(1/10萬);2005年1月和3月呈現2個高峰,其后數據波動幅度增大,序列的方差在前后差別明顯。因此,以2005年1月為切點,將數據分為兩個部分。以2005年1月至2009年6月發病率作建模數據,2009年7~12月的數據作驗證數據,對序列進行自然對數變換,差分和季節差分后,序列平穩。
2.2 模型識別 觀察處理后序列的ACF和PACF(圖1、2),發現自相關函數和偏自相關函數呈現遞減且拖尾。可初步判斷模型為模型一 ARIMA(1,1,1)×(0,1,0)12、模型二 ARIMA(1,1,1)×(0,1,1)12或模型三 ARIMA(1,1,0)×(0,1,0)12。
2.3 參數估計及檢驗 模型一和模型三的參數間比較差異有統計學意義,模型二中MA1和SMA比較差異無有統計學意義。見表1。
2.4 模型診斷 表2所示,在備選模型中,模型一擬合優度較小,且參數間無明顯相關性(r=0.267)。此外,觀察其殘差的自相關圖,結果顯示該模型的Box-Ljung Q統計量間比較差異均無統計學意義(P>0.05),可以認為殘差序列為白噪聲[10]。綜上分析,模型一為最優模型。可以確定重慶市艾滋病發病率的預測模型為 ARIMA(1,1,1)×(0,1,0)12,其表達式為:(1+0.545B)▽12▽lnXt=(1-0.928B)εt。

表2 備選模型擬合優度統計量
2.5 模型預測 用 ARIMA(1,1,1)×(0,1,0)12模型預測重慶市2009年7~12月艾滋病發病率,結果如表3所示。可以看出模型預測值的動態趨勢與實際情況基本一致,模型對未來的情況進行了很好的跟蹤和預測。2009年7~12月的實際發病率雖然與預測值不完全一樣,但是各月實際值都落入了預測值95%的可信區間范圍。

圖1 原序列經過對數轉換和兩次差分后的ACF圖

表3 2009年7~12月重慶市實際發病率與預測發病率(1/10萬)

圖2 原序列經過對數轉換和兩次差分后的PACF圖
3.1 艾滋病發病率預測的意義 根據模型預測并結合實際情況,重慶市艾滋病感染速度呈上升趨勢。相關部門可以有針對性地采取預防控制措施。如整合艾滋病醫療資源,大力提升其診治能力;建立“重慶市艾滋病關愛之家”[11],動員全社會參與艾滋病防治,消除對艾滋病患者的恐懼和歧視;組建艾滋病職業暴露藥品庫,降低全市艾滋病職業暴露人員感染HIV的危險性等[12]。由于近幾年重慶市艾滋病感染者基數較大且不斷增加,致使發病率仍然不斷上升,所以,還應加大其預防控制工作強度并且在預防控制手段上有所創新,加大對高危人群及高發地區的監測和行為干預[13]。
3.2 ARIMA模型的應用 時間序列分析是在不需要考慮預測變量的相關因素及其關系的情況下,利用事物發展的延續性,建立時間序列模型來預測未來的變化[14]。而傳統的時間序列模型要求序列具有平穩的線性趨勢,但實際上疾病的發病情況一般有著明顯的周期變化,如果不考慮這些因素的影響,做出的預測往往不準確。本研究采用的ARIMA模型,綜合考慮了序列的趨勢變化、周期變化及隨機干擾等因素的影響,對艾滋病發病擬合度較好[15]。由于疫情波動受到諸多未知隨機因素的影響,所建立的模型不是一成不變的,它較適合進行短期的預測,同時需要不斷加入新的實際數據,以不斷新擬合更能反映實際情況的預測模型,并提高預測的敏感性。
[1] Geoge EP,Gwilym M.時間序列分析預測與控制[M].北京:中國統計出版社,1997.
[2] 肖枝洪,郭明月.時間序列分析與SAS應用[M].武昌:武漢大學出版社,2009.
[3] 何書元.應用時間序列分析[M].北京:北京大學出版社,2003.
[4] 孫振球,徐勇勇.醫學統計學[M].北京:人民衛生出版社,2002.
[5] 張文增,冀國強,史繼新,等.ARIMA模型在細菌性痢疾預測預警中的應用[J].中國衛生統計,2009,26(6):636-639.
[6] 吳家兵,葉臨湘,尤爾科.時間序列模型在傳染病發病率預測中的應用[J].中國衛生統計,2006,23(3):276.
[7] 劉曉宏,金丕煥,陳啟明.ARIMA模型中時間序列平穩性的統計檢驗方法及應用[J].中國衛生統計,1998,15(3):12-14.
[8] 張文彤.SPSS11統計分析教程高級篇[M].北京:北京希望電子出版社,2002.
[9] 薛薇.SPSS統計分析方法及應用[M].2版.北京:電子工業出版社,2009.
[10]孟蕾,王玉明.ARIMA模型在肺結核發病預測中的應用[J].中國衛生統計,2010,27(5):507-509.
[11]王治倫,晏治碧,陳思源,等.建立重慶市艾滋病關愛之家體會[J].中國感染控制雜志,2004,3(3):275-276.
[12]李穎,汪洋,劉琴,等.重慶市高危人群中艾滋病防治的定性研究[J].中國衛生事業管理,2005(2):96-97.
[13]丁賢彬,鄺富國,凌華,等.重慶市艾滋病流行現狀及防治策略[J].疾病控制雜志,2005,9(4):340-341.
[14]鄧丹,王潤華,周燕榮.時間序列分析及其在衛生事業中的應用[J].數理醫學雜志,2002,15(5):455-457.
[15]馮超,白彬.時間序列模型擬合艾滋病發病趨勢預測[J].中國公共衛生,2005,21(7):893.