耿文飛,孫晶,黃玲,葛一嫻
發熱和呼吸系統疾病癥狀、體征是急性呼吸道感染的主要臨床表現,全身或其他系統疾病可由其引起或伴隨。住院嚴重急性呼吸道感染病例(severe acute respiratory infection,SARI)是兒科的常見疾病,對一些免疫力較低的嬰幼兒,一旦急性呼吸道感染病原體復雜,發生感染的范圍廣,感染嚴重程度較重,通常這些患兒需進入重癥監護室(ICU)[1]治療。國家衛計委自2009年起開展了SARI的監測工作,了解SARI發生情況有助于持續監測新發呼吸道傳染病發生。SARI是兒科常見疾病,監測SARI是近年來發現人感染H7N9禽流感、中東呼吸綜合征等新發傳染病的重要手段,預測SARI的病例數有助于合理安排醫療資源和發現新發呼吸道傳染病。
自回歸滑動平均混合(autoregressive integrated moving average,ARIMA)模型是ARMA模型的擴展,在流感、甲肝、丙肝等疾病的預測研究和應用表明,該模型與其他時間序列方法(AR、MA、ARMA和指數平滑等)相比能達到較好的擬合效果,在驗證集上通常能取得不錯的預測效果,與實際值進行比較能較好發現突發情況,對新發疾病和研究疾病的流行過程能起到較好的作用[2-4]。有效預測SARI數狀況,合理利用衛生資源對急性上呼吸道感染防控工作的開展具有重要指導意義。本研究利用2010~2016年蘭州市城關區人民醫院兒科SARI住院資料,通過對p、d、q等參數進行不斷調整從而構建ARIMA模型,建立符合我院SARI時間序特點的ARIMA模型,并通過驗證集對模型預測效能進行驗證,從而確定預測SARI趨勢ARIMA模型,為今后我院SARI防控工作提供參考數據。
1.1 臨床資料 查詢蘭州市城關區人民醫院病案管理系統(hospital information system,HIS),整理分析2010年1月1日至2016年12月31日本院住院的兒科病歷,參考國際疾病(ICD-10)分類編碼[5]和SARI病例定義等信息,分月統計符合SARI病例定義的兒科住院患者。
1.2 診斷標準 按照《SARI監測項目方案》的規定:5歲以下患兒急性起病,發熱(測量體溫≥37.4 ℃)且符合以下條件之一:(1)咳嗽、咽紅、呼吸音異常、呼吸頻率加快;(2)具有流感樣臨床表現。
1.3 ARIMA分析方法
1.3.1 以自相關函數(auto correlation function,ACF)和偏自相關函數(partial auto correlation function,PACF) 分析本院SARI時間序列本身以及不同滯后期的自相關、偏自相關系數。其建模過程主要通過如下步驟完成平穩性識別(單位根檢驗)、模型識別(ACF和PACF)、參數估計(混合自相關圖)、模型檢驗(擬合優度)和比較[6]。根據時間序列的不同可選擇模型有MA(q)、AR(p)、ARIMA(p,q)、ARIMA(p,d,q)和ARIMA(p,d,q)×(P,D,Q)s等,其中ARIMA(p,d,q)×(P,D,Q)s為乘積季節模型,為ARIMA模型中最復雜的模型,其模型參數p、d、q以及P、D、Q分別表示非季節模型和季節模型中的自回歸的階、差分(季節差分)次數、滑動平均的階。ARIMA方法把預測模型分為3個階段:模型識別、參數估計、擬合檢測,通過循環進行ARIMA模型的這三個步驟,最后赤池信息準則(akaike information criterion,AIC)等值判斷一個較優的模型用于預測。
1.3.2 通過ACF圖和PACF圖等方法識別時間序列的平穩性和季節性 如時間序列不平穩性檢驗,可采用最多3階的差分方式,使得時間序列較為平穩,將差分后的時間序列進行后期模型識別和其他參數估計[7-8]。
1.3.3 參數的估計 通過混合自相關圖(extended autocorrelation function,EACF)確定模型的p、q兩個參數,在p、q兩個參數存在較多組合的情況下,選擇AIC值最小模型作為ARIMA預測模型。模型的質量檢驗,就是對模型和實際數據的殘差進行正態性檢驗和自相關性檢驗,較好的ARIMA模型的殘差是正態分布(即為白噪聲),并且殘差沒有相關性。殘差經不同階數的ACF、PACF檢驗應和0沒有顯著性差異;時間序列的滯后相關統計量(Box-Ljung Q,LBQ)應沒有顯著性差異。
1.4 統計學方法 采用R 3.4.0軟件,涉及的R語言包有tseries、tidyverse和forecast。通過蘭州市城關區人民醫院兒科SARI資料進行收集整理,將整理好的時間序列數據集按時間點進行拆分,2010年1月至2016年6月數據作為測試數據集,2016年7~12月數據作為驗證數據集,通過模型選擇、參數估計、模型檢驗等步驟構建ARIMA模型。將ARIMA模型獲得的預測值與SARI實際值進行比較,計算模型的誤差值,誤差值越小說明預測越精確。
2.1 蘭州市城關區SARI數的月分布特征 將蘭州市城關區人民醫院2010年1月至2016年6月SARI測試數進行分析,觀察SARI時間序列圖(圖1),可見SARI總體無明顯的增長或下降趨勢,但還存在同一年內1月和2月SARI病例數低,6月和7月SARI病例數高的周期現象。

圖1 2010~2016年蘭州市城關區SARI數分布
2.2 平穩性檢驗 繪制蘭州市城關區人民醫院2010年1月至2016年6月SARI數的時間序列圖。原始序列的ACF圖(圖2)顯示自相關系數下降緩慢,提示該時間序列可能是非平穩序列,對該時間序列進行單位根檢驗(ADF檢驗),P>0.05。由于可能存在季節因素,選擇一次非季節差分和一次季節差分后,查分后數據的ACF和PACF圖顯示差分后的數據平穩,對差分后的數據再次進行數據平穩性檢驗(ADF檢驗),P=0.01。

圖2 原始序列的ACF圖
2.3 ARIMA模型識別 由于在平穩性檢驗中選擇了一次非季節差分和一次季節差分,ARIMA模型d、D參數均為1,由此可確定模型為乘積季節模型ARIMA(p,1,q)(P,1,Q)12。模型中p、q通過eacf獲得分別為1和2,P、Q采取從低階到高階逐個進行嘗試以檢驗各個模型的擬合優度,并進行比較。選擇AIC最小(535.18)的ARIMA(1,1,2)×(2,1,0)12型較優,該模型擬合測試集結果較好平均誤差(ME)、均方根誤差(RMSE)、平均絕對誤差(MAE)、平均百分比誤差(MPE)、平均絕對百分比誤差(MAPE)、平均絕對定標誤差(MASE)、滯后1階的誤差自相關(ACF1)等指標分別為0.34、11.49、7.99、-10.95、31.30、0.76和0.01。
2.4 ARIMA模型診斷 對建立的ARIMA(1,1,2)×(2,1,0)12模型進行殘差的正態性檢驗,結果顯示,延遲6階、12階、18階、24階的LBQ檢驗統計量的P值分別為0.411 0、0.541 6、0.506 3和0.402 1,說明殘差符合正態分布(即為白噪聲);殘差的ACF和PACF均提示殘差序列為純隨機序列,說明所建立的ARIMA(1,1,2)×(2,1,0)12模型的擬合效果較好。
2.5 模型預測 利用模型ARIMA(1,1,2)×(2,1,0)12預測蘭州市城關區2016年6~12月SARI,結果顯示2016年6~12月SARI實際值均在該ARIMA模型預測值95%CI范圍內(表1、圖3),該ARIMA模型預測的相對誤差為22.19%。ARIMA預測值和實際值的動態趨勢基本一致,說明了該模型能夠準確獲得SARI時間序列變化的特點,可以使用該模型對SARI進行跟蹤和預測。

表1 ARIMA模型對2016年6~12月蘭州市城關區人民醫院SARI數預測
近年來由于統計學習取得了迅速發展,在分類和回歸的預測上日益準確。在醫學領域中,已有馬爾科夫、隨機森林等多種方法在疾病發病、醫院就診、影像診斷等領域中進行預測[9]。ARIMA模型是比較常用的時間序列預測方法之一,由于其無需相關的自變量并有預測精度高等特點,該方法在各種短期預測中得到了充分的肯定。其中,ARIMA乘積模型是一種復合季節模型,可有效提取時間序列的季節趨勢與非季節性成分,提高具有季節特點的時間序列數據的預測精度。已有相關研究證實了ARIMA乘積模型在預測疾病中的可行性與準確性[10]。

圖3 ARIMA模型對2016年6~12月蘭州市城關區人民醫院SARI數預測
為發現新發急性呼吸道傳染病,了解流感等急性呼吸道傳染病的臨床變化特點,為防控流感等急性呼吸道傳染病的傳播,根據監測情況國家衛計委每隔幾年就調整《SARI哨點監測方案》。本研究利用蘭州市城關區2010~2016年數據建立了SARI預測的ARIMA模型,為SARI監測提供給予一定的技術支持和預警。
ARIMA模型無需對時間序列的特征作特定分布的假設[11],無需其他自變量僅借助時間序列自身的波動特點,使得ARIMA模型應用較廣。本研究通過整理2010~2016年蘭州市城關區人民醫院SARI分月病例數,構建了ARIMA(1,1,2)×(2,1,0)12模型。擬合效果指標RMSE為11.49,MAPE為31.30,表明該模型擬合了數據點范圍內的序列特點,提示該模型能在一定程度上能反映出我院SARI病例數的變化規律,可用ARIMA(1,1,2)×(2,1,0)12模型對我院就診的SARI病例數進預測。2016年7~12月驗證數據顯示,預測值和實際值比較接近,表明利用ARIMA模型預測蘭州市城關區人民醫院SARI數的可行性。將該模型進行實際應用后,如果實際SARI病例數在模型預測值95%CI范圍內波動,表明當月SARI病例數變化未出現異常情況,如果當月SARI病例數超出預測值95%CI,應引起高度重視提示可能出現新的流行或新發急性呼吸道傳染病,這樣可以更好地為SARI進行預報及干預提供依據。應用ARIMA模型應注意的是:乘積ARIMA模型建立條件需要達到平穩性的要求,往往通過差分實現序列的平穩性;由于時間序列數據異常波動無法避免,一次分析所建立的ARIMA模型,不能作為永久不變的預測工具[4],只能用于短期預測。在SARI監測工作中,應不間斷的收集的時間序列數據,用新的實際值重新加入時間序列后,重新進行模型的選擇、參數估計和模型驗證工作,以修正或重新擬合的ARIMA模型進行預測工作。目前,國內尚沒有將ARIMA模型進行SARI病例數的短期預測的研究,本研究建立的ARIMA(1,1,2)×(2,1,0)12模型,采用了一次非季節差分和一次季節差分進行數據平穩化處理,通過混合自相關圖和AIC值獲得了模型最終參數,該模型在驗證集預測性能較好。
[1] 彭質斌,鄭建東,姜慧,等.全國兒科住院嚴重急性呼吸道感染病例哨點監測階段性分析[J].疾病監測,2017,32(1):3-5.
[2] 李瓊芬,黃甜,王榮華, 等.傳染病疫情預測預警模型研究進展[J].中國公共衛生,2013,29(11):1695-1697.
[3] 龍璐,嚴薇榮,許奕華,等.癥狀監測系統預測預警模型研究進展[J].中國公共衛生,2012,28(5):704-706.
[4] 黃利群,譚愛軍,張麗榮,等.珠海市2006-2008年流感癥狀監測分析及預測[J].中國公共衛生,2009,25(8):1013-1015.
[5] 周婧雅,白雪,崔勝男,龐成,劉愛民.我國ICD-10疾病分類編碼質量的系統評價[J].中國醫院管理,2015,35(12):32-35.
[6] 孫振球.醫學統計學[M].3版.北京:人民衛生出版社,2010:391-403.
[7] 劉剛,唐宋,孫文杰.時間序列分析法在香港結核病預測中的應用[J].中國衛生統計,2012,29(2):226-228.
[8] 劉剛,單芙香.ARIMA模型及其在麻疹發病率預測中的應用[J].數理醫藥學雜志,2011,24(4):379-382.
[9] 劉桂芬,劉玉秀,仇麗霞,等.醫學統計學[M].2版.北京:中國協和醫科大學出版社,2009:346-365.
[10]張文增,冀國強,史繼新,等.ARIMA模型在細菌性痢疾預測預警中的應用[J].中國衛生統計,2009,26(6):636-637.
[11]Hamilton JD.Time series analysis[M].New Jersey:Princeton University Press,1994:43-71.