◇玉林師范學院數學與統計學院 鐘德炎 陳麗華 吳榮火
目的:基于我國公開數據中有關新型冠狀病毒肺炎(COVID-19)的死亡病例時機數據,預測以后的死亡病例。方法:結合時間序列理論,建立尚有確診的時間序列的殘差自回歸模型。結果:殘差自回歸模型預測效果較好,有一定的參考價值。
2019年12月以來[1],湖北省武漢市因不明原因出現了多例新型冠狀病毒肺炎的患者。與此同時,全世界多個國家也受到了新型冠狀病毒肺炎的影響,全球受新冠肺炎疫情影響的國家和地區數量已達101個[2]。這是一種急性感染性肺炎,具有人傳染人的能力,感染初期病人有發熱、乏力、干咳的征狀,嚴重者可出現呼吸困難、呼吸窘迫綜合征或濃毒癥休克,可增加進入重癥監護室(ICU)的概率和病死率[3]。疫情期間,引起了很多人的恐慌,擔心疫情得不到控制,擔心死亡的病例越來越多。因此,對因新冠狀病毒肺炎而死亡的病例進行研究具有重要意義,本文將通過我國每日的數據進行時間序列分析。
殘差自回歸模型常用于有確定性趨勢的時間序列數據,基本思想是先利用確定性因素分解法提取時間序列中的主要確定性信息,如果信息提取充分,則殘差序列的自相關性不顯著,可以利用確定性回歸模型進行擬合;但如果殘差序列的自相關性顯著,則需要進一步對殘差序列擬合自回歸模型提取隨機因素信息[4]。
殘差自回歸是一種分析非平穩時間序列的研究方法[5]。殘差自回歸模型表達式有兩種情況:以時間為自變量的情況下,表達式為:

以歷史觀察值為自變量的情況下,表達式為:

本研究數據來源于中國人民共和國國家衛生健康委員會官網(http://www.nhc.gov.cn/),選取2020年1月20日到2020年3月10日新型冠狀病毒肺炎(COVID-19)相關數據。
模型的建立基于R軟件。首先判斷原序列的平穩性,根據死亡病例據繪制時序圖(見圖1)。

圖1 2020年1月20日到2020年3月10日死亡病例時序圖
通過時序圖,可以看出死亡病例在2020年1月20日到3月10日有明顯的趨勢,初步判斷該時間序列為非平穩的時間序列。且根據ADF檢驗結果顯示:Dickey-Fuller=-2.7077,p-value=0.2899>0.05,即存在單位根,明確時間序列為非平穩的時間序列。死亡人數的時間序列具有明顯的確定性趨勢,且沒有季節效應,所以選擇以殘差自回歸模型對數據進行擬合。首先分別對以時間t為自變量和以歷史觀察值為自變量的兩個確定性趨勢模型進行構建,通過R軟件進行分析,得出兩個確定性趨勢模型的結果。
模型一:t為自變量的確定性趨勢模型

模型二:歷史觀察值為自變量的模型

首先通過殘差序列的自相關圖和偏自相關圖來確定自回歸模型的階數。
由圖2可知,自相關系數拖尾,偏自相關系數1階截尾。因此,對模型一的殘差序列擬合AR(1)模型。由圖3可知,自相關系數拖尾,偏自相關系數2階截尾,即對模型二的殘差序列擬合AR(2)模型。由擬合結果得:

圖2 模型一殘差自相關和偏自相關圖

圖3 模型二殘差自相關和偏自相關圖
擬合模型一的殘差序列自回歸模型為:

擬合模型二的殘差序列自回歸模型為:

綜合上面的分析,對2020年1月20日到2020年3月10日因新型冠狀病毒肺炎確死亡病例的時間序數據,我們可以通過以下殘差自回歸模型進行擬合。

建立模型的重要意義就是通過模型來進行預測,所以在這里通過自回歸殘差模型對2020年3月11日到2020年3月15日因新型冠狀病毒肺炎的死亡病例進行預測,并將預測結果和實際結果進行比較。模型預測效果的指標體系很多,一般使用平均相對誤差這一相對指標,其定義條件一般認為MAPE值小于10%,則是預測精度較高的預測結果。預測結果見表1。計算方法為:

由表1可知,用殘差自相關模型預測2020年3月11日到2020年3月15日的死亡病例的相對誤差可知在8.06%以內,且平均相對誤差是4.812%<10%,即該模型的預測效果較好。

表1 2020年3月11日-3月15日的死亡人數比較表