潘姣姣 董柏青 呂 煒 付志智
時間序列指隨時間變化的、具有隨機性的、且前后相互關聯的動態數據序列,它是依特定時間間隔而記錄的指定變量的一系列取值〔1〕。近年來,時間序列分析越來越廣泛地應用在疾病的發生和死亡中。肺結核是通過呼吸道傳播的重大傳染病之一,為探討肺結核暴發早期探測預警模型,本文通過分析、選取最佳模型,擬合1989~2009年廣西肺結核發病率的變化軌跡,外展預測2010~2012年肺結核的發病趨勢,現將結果報告如下。
1.資料來源:1989~2010年疫情資料來源于廣西壯族自治區疾病預防控制中心疫情室,人口資料來源于廣西壯族自治區統計局。
2.統計方法:
(1)曲線回歸法(curve estimation):在一般情況下,研究者對已有的數據的認識是不完整的,不能辨別變量之間的準確關系,這時,可以先將數據繪制成散點圖,觀察數據在圖中的分布情況,再根據圖形的特點來確定應采用的模型形式〔2〕。一個比較直接的方法是從擬合優度R2值的大小進行比較,找出最佳模型。
(2)指數平滑法:指數平滑法(exponential smoothing method)是通過去除數據中一些隨機的波動,找到其中的顯而易見的規律性,并對未來的發展趨勢進行合理的預測〔2〕。指數平滑法預測步驟:①繪制序列圖;②根據序列圖判斷有效參數;③繪制擬合曲線圖,觀察擬合效果;④建立指數平滑模型對未來數據進行預測。
(3)ARIMA方法是以時間序列的自相關分析為基礎的,以便識別時間序列的模型,實現建模和完成預測任務〔3〕。一般來說:ARIMA方法把預測問題劃分為三個階段:①模型的識別;②模型中參數的估計和模型的檢驗;③預測的應用。
1.曲線回歸模型擬合效果分析(表1)

表1 曲線回歸法模擬廣西1989~2009年肺結核發病趨勢
2.指數平滑模型擬合結果分析
指數平滑法擬合廣西1989~2012年肺結核發病率情況如圖1,1990~2009年廣西肺結核預測發病率與實際值相差不大,實際值與擬合值基本趨勢水平相似度高,表示擬合程度好。

圖1 指數平滑法模擬廣西1989~2012年肺結核發病趨勢
指數平滑法在預測過程中會出現預測值偏高或者偏低,對于上升的數據,預測值總是偏低;對于下降的數據,預測值總是偏高〔3〕。
3.ARIMA模型擬合結果分析
(1)檢驗序列的平穩性 根據1989~2009年各季度肺結核報告發病率序列圖和自相關(ACF)分析圖判斷序列的平穩性,由于發病率序列的方差前后波動較大,并且存在明顯的季節性趨勢,可以定義為不穩定序列;因此先對發病率序列進行一階差分使之轉化為平穩序列,如圖2。

圖2 數據進行轉化后的ACF和PACF圖
(2)模型識別 根據數據的自相關(ACF)和偏相關(PACF)分析圖,進行模型的初步識別和定階。根據差分的次數可以確定模型的形式為:ARIMA(p,1,q)(P,1,Q)4,其中,p,q,P,Q 都是待定的參數,分別表示連續模型和季節模型中的自回歸階數和移動平均階數,4表示季節模型以4季度為一個周期。對于p,q,P,Q的確定可以由ACF圖PACF圖判斷,圖中顯示偏回歸系數在q>1驟減,根據以上特征初步判斷模型的形式:ARIMA(0,1,1),季節模型的參數 P,Q 較難判斷,但根據文獻可知,季節模型的參數超過2階的很少,可以分別取0,1,2,然后由低階到高階逐個試驗,根據模型的擬合優度,殘差情況及系數間的相關性進行綜合判斷。根據以上分析,可初步判斷時間序列的ARIMA 模型為 ARIMA(0,1,1)(0,1,0)4、ARIMA(0,1,1)(0,1,1)4或 ARIMA(0,1,1)(0,1,2)4
(3)參數估計和模型診斷 備選模型的參數估計應該包括以下幾個方面:(1)模型參數是否有統計學意義:模型主要參數有統計學意義(P<0.05),見表2;(2)備選模型的擬合度比較:SPSS輸出擬合優度統計量有平穩R2在內的8個擬合優度統計量,模型擬合度最好的是 ARIMA(0,1,1)(0,1,0)4;(3)參數獨立性檢驗:若同一模型的兩個參數之間具有較高的相關性,應考慮剔除其中一個,重新計算模型;(4)殘差檢驗:若殘差為白噪聲,則意味著所建立的模型包含了原始序列的所有趨勢,應用于預測是合適的,若不是則需要繼續改進重新估計。

表2 備選ARIMA模型的參數估計
(4)預測 1989~2009年的數據建立模型對2010~2012年各季度肺結核發病率進行預測,如圖3。

圖3 ARIMA模型擬合廣西1989~2012年肺結核發病趨勢
4.三種模型擬合結果分析及比較
三種模型擬合效果可以通過決定系數(R2)、正態BIC和殘差均方(MSE)來比較:曲線回歸法<ARIMA<指數平滑法;同時要檢查殘差是否為白噪聲,LBox Q統計量>0.05。指數平滑法L-Box Q=0.03<0.05,選擇決定系數最高、殘差為白噪聲的模型為最佳預測模型,即ARIMA模型,它同時可以預測年發病率和各季度發病率。
本文利用SPSS軟件包對同一資料進行不同模型的擬合預測,根據資料的具體情況及決定系數R2進行多個模型的比較預測,選擇最佳模型,克服單一模型擬合的局限性,提高現有資料的利用率。
指數平滑法通過監測醫院抗菌藥物使用情況來預測醫院耐藥菌的發病率取得了良好的效果〔4〕,ARIMA模型綜合考慮了序列的趨勢變化、周期變化及隨機干擾,并借助模型參數進行量化表達;ARIMA模型可以預測和評價瘧疾防治效果〔5〕。一般來說,ARIMA模型考慮時間序列過程中的季節分布的特點;大大消除了季節因素的影響,提高預測精度。肺結核具有季節分布特征,其擬合過程應充分考慮周期、季節趨勢,李娜〔6〕等人研究結果發現:季節差分ARIMA模型能夠較好地擬合短期內肺結核的發病率。因此,可以認為ARIMA模型預測季節性傳染病的效果較好,但ARIMA模型并非唯一預測季節性傳染病的方法,該模型進行短期預測的效果較佳,一般不用于長期預測。
廣西肺結核在1989~2007年間,發病率總體呈上升趨勢,隨后逐年降低。本文在時間序列水平下研究廣西肺結核的發病率,通過三種不同模型進行擬合預測,經檢驗可知:擬合精度ARIMA模型>指數平滑法>曲線回歸法,ARIMA模型預測2010~2012年廣西肺結核的發病率呈季節性分布,實際發病率均在預測值95%置信區間內。
傳染病的預測能了解疫情的動態發展,及時采取措施,但傳染病的流行受到自然環境、社會環境、人文環境等多種非規律性因素的影響,本文研究單變量型ARIMA模時間序列的水平,沒有考慮到其他因素的影響;由于肺結核發病時間序列不穩定,因此,單變量提出的預測模型不能作為長期不變的預測依據,只可以進行短期預測〔7〕。對于肺結核的預測,應該盡可能收集更多的數據并不斷加入新的觀測值,建立多變量動態預測模型,才能達到高效預測的目的。
1.杜強,賈麗艷.SPSS統計分析從入門到精通.北京:中國郵電出版社,2010:377-405.
2.孫振球,徐勇勇.醫學統計學.第3版.北京:人民衛生出版社,2010:383-404.
3.孫振球主編.醫學統計學(供研究生用).北京:人民衛生出版社,2004:358-372.
4.Ngo L,Tager IB,Hadley D.Application of exponential smoothing for nosocomial infection surveillance.American Journal of Epidemiology,1996,143(6):637-647.
5.Wangdi K,Singhasivanon P,Silawan T,et al.Development of temporal modeling for forecasting and prediction of malaria infections using timeseries and ARIMAX analyses:a case study in endemic districts of Bhutan Malaria Journal,2010,9:251-259.
6.李娜,殷菲,李曉松.時間序列分析在肺結核發病預測應用中的初步探討 .現代預防醫學,2010,37(8):1426-1428.
7.陳勇,陳建國,朱健,等.江蘇省啟東市1972-2001年肺癌發病趨勢分析及預測模型比較研究.中華流行病學雜志,2005,26(12):955-959.