阿布都克力木·阿布力孜,林 璞,李文卓,郭文強
(新疆財經大學信息管理學院,新疆 烏魯木齊830012;)
2019年12月,武漢市爆發新型冠狀病毒肺炎(COVID-19)[1]。世界衛生組織在2020年3月宣布COVID-19為全球性流行病(1)https:∥www.who.int/。目前為止COVID-19全球范圍內已對社會和經濟結構造成嚴重的影響。我國政府為遏制疫情發展,實施前所未有的干預策略。全國各大城市作出限制出行和公共集會的嚴格措施,并實施嚴格的體溫檢測。
如何通過疫情預測分析進而采取有效的干預策略降低疫情對社會、經濟、生命安全帶來的重大危害是目前人類面臨的重要課題之一[2]。遏制這種損害的關鍵是迅速反應和有效決策,而且,即使疫苗接種數量不斷增加,隨著未來大流行的可能性迫在眉睫,發展這種預測能力也顯得尤為重要。因此,深入開展COVID-19發展趨勢研究具有重要意義。
對于疫情預測分析的方法主要分為兩類:一類是以易感-暴露-感染-移除(Susceptible-Exposed-Infectious-Recovered,SEIR)[3]為代表的方法,而另一類是基于深度學習的方法。Tang B等[4]根據疾病的臨床進展、個體的流行病學狀況和干預措施,考慮隔離和治療等因素,設計出SEIR-Type流行病學模型。通過對病毒再生基數的計算從而確定爆發的可能性和嚴重性,并為確定疾病干預的類型和強度提供關鍵信息。Yang Z等[5]使用改進的易感-暴露-感染-移除(SEIR)流行病學模型,該模型結合1月23日前后的國內人口遷移數據以及最新的新冠肺炎流行病學數據來預測疫情的發展。此外還基于2003年非典冠狀病毒爆發數據的機器學習方法來驗證模型預測結果的準確性。結果表明改進的SEIR模型在預測COVID-19峰值和規模效果明顯,新增確診病例數量與LSTM預測曲線顯著吻合。Arunkumar K E等[6]利用RNN-LSTM和RNN-GRU模型對美國等10個國家的COVID-19大流行進行60天的預測。實驗結果表明,在不同的研究任務上,兩種模型分別表現出良好的性能。Zisad S N等[7]提出SEIR和循環神經網絡(Recurrent Neural Network,RNN)的聯合模型來預測孟加拉國確診病例。RNN模型預測某一天內被隔離的人數。SEIR和RNN聯合模型能夠以90%到99%的準確率預測確診病例。Wu等[8]采用Transformers模型從時間序列數據中學習復雜的模式和動態,但是沒有達到預期效果。
基于上述相關研究可以看出,以SEIR模型為代表的方法優點在于描繪流行病傳播過程中的變化趨勢,但無法將外界帶來的干擾納入到模型當中,因此無法對流行病學參數做出較為準確的調整;而基于深度學習為代表的方法能夠通過時間序列提取特征,缺點是需要大量的訓練數據。
文章利用國家衛健委的公開數據,首先基于傳統的SEIR模型對COVID-19傳播規律及特點進行研究[2];其次,由于傳統的傳染病模型SEIR能夠很好地擬合與預測病毒在沒有外界干預情況下的發展趨勢,但是在疫情實際傳播過程中,必須考慮各種因素干擾造成的數據波動,因此本文提出SEIR-RD(Susceptible-Exposed-Infectious-Removed-Risk-D-ynamic)模型,該模型在SEIR基礎上增加基于時間的閾值函數使其能對疫情發展過程中的參數特性變化進行學習,該變化能夠提高模型整體的準確性和可靠性。并將該模型與SEIR-RS(Susceptible-Exposed-Infectious-Removed-Risk-Static), Bi-LSTM(Bi-directional Long Short-Term Memory)和SEIR-RS+Bi-LSTM聯合模型等預測模型進行對比研究,實驗結果表明,SEIR-RD模型在疫情預測任務上取得更為準確的預測結果。最后,利用印度自2021年4月份以來出現的第二輪疫情數據探究模型的可行性,模型表現出了較好的性能與可適用性。
傳染病模型旨在了解一種病毒如何在人群中傳播。它將人群劃分為不同隔間,并定義人們如何在隔間中變化[10]。在大多數情況下,這些模型可以通過常微分方程來描述,并依賴于對隔間之間相互作用的各種流行病學參數計算,如接觸和恢復率。
傳統的SEIR模型計算公式如下:

(1)
其中β表示易感者被感染者感染的概率,σ表示潛伏者轉化為感染者的概率(潛伏期的倒數),γ表示康復概率。
模型介紹見表1。

表1 傳統SEIR模型符號的定義

表2 SEIR-RD和SEIR-RS模型參數的描述
LSTM模型,是一種用于處理和預測各種時間序列問題的循環神經網絡,廣泛應用于處理時間序列相關的任務,如自然語言處理、機器翻譯、對話形成、時序預測等。最近一些研究將LSTM運用到COVID-19的預測任務中,而在實驗中則采用Bi-LSTM,它在LSTM的基礎上,結合輸入序列在前向和后向兩個方向上的數據特征,并使用相加、平均值等方式進行處理,預測結果更加準確,模型性能更優[11]。
傳統的SEIR模型只是為研究不同類型的流行病提供一個基本的研究方法,而不能針對實際情況進行具體研究[12]。同時該模型也存在很多明顯的不足,如:它基于簡單的微分方程定義,沒有較好的機制處理復雜數據;外界各種人為或非人為等干擾因素無法納入模型之中;由于新冠疫情通過人群傳播,所以相鄰區域或人口流動性大的區域之間會存在某種偶聯關系,而該模型作為時域模型,無法將地區之間的關聯關系考慮進來。因此文章在傳統的SEIR模型的基礎上提出新的預測模型:SEIR-RD動態傳染病風險預測模型和SEIR-RS靜態傳染病風險預測模型。
如圖1所示,表示為兩種不同方式。SEIR-RD模型針對疫情發展不同階段,考慮到國家應急響應措施的出臺,醫療手段完善等因素,結合時間閾值函數對流行病學參數進行動態計算(包括治愈率,死亡率,病毒再生因數等),能夠處理更為復雜多變的疫情數據,使模型能夠靈活捕捉到疫情在發展過程中的參數變化,并及時對模型自身作出校準;而SEIR-RS模型的參數估計采用退火算法[17]在參數設置的區間內進行多輪迭代取得參數在全局范圍內的最優解。

圖1 SEIR-RS和SEIR_RD模型
同時作出以下假設用以簡化研究,但同時又保留實驗的一般性原則[12]:
1)病毒傳播發生在封閉的環境中,與自然出生率和自然死亡率無關。
2)確診、治愈、死亡病例數據基本準確。
3)潛伏期患者無癥狀但具有傳染性,且無超級傳播者。
SEIR-RD模型計算方法如下所示

(2)
SEIR-RS模型計算方法如下所示

(3)
實驗所采用的疫情數據來源于中國衛生健康委員會官方網站(https:∥wjw.hubei.gov.cn/)所公布的武漢市疫情數據。2020 年 1 月 23 日,面對疫情防控壓力,湖北省武漢市宣布“封城”,人員間的接觸率相對穩定,故取 2020 年 1 月 23 日至 2 月 24 日的疫情數據進行研究[11]。
3.2.1 SEIR-RS與SEIR-RD
根據文獻[15]中采用指數增長的方法對COVID-19再生因數進行預測。實驗中設置湖北省在全面封城之后的病毒再生因數R0為2.53,若不采取封城措施則病毒再生因數R0將達到3.09。根據文獻[5]COVID-19潛伏期多為1-14天之間,因此實驗中σ∈(0.07,1),將死亡率設置為γ∈(0.04,0.07)患者恢復時間設置為λ∈(0.067,0.292)[14]。SEIR-RS實驗中,將對σ,γ,λ在區間內進行模擬退火[17]。SEIR-RD實驗中由于γ和λ會隨著疫情發展時間和防控力度而進行變化,因此該實驗中γ和λ為動態參數,其變化規律在疫情發展的前7天、7-30天和30天及以后滿足不同分段函數,將根據該時間節點對參數進行相應調整。
3.2.2 Bi-LSTM
Bi-LSTM模型對輸入數據進行標準化處理。模型包含2個隱藏層每個隱藏層包含16個隱藏單元,對于深度學習而言,訓練數據量少且波動較大,所以實驗中滑動窗口數設置為3,學習率設置為0.005,既利用前三天的數據作為基礎預測第四天的數據。實驗中使用隨機梯度下降(SGD)和Adam優化器對參數進行優化。
3.2.3 SEIR-RS+Bi-LSTM聯合模型
SEIR-RS+Bi-LSTM聯合模型將在SEIR-RS模型的基礎上利用Bi-LSTM對測試結果進行微調,旨在改善靜態模型中無法根據時間對參數進行調整的缺陷。該聯合模型又將結合兩種統計學方法,其一對SEIR-RS與Bi-LSTM進行線性回歸,將SEIR-RS和Bi-LSTM的預測結果作為輸入特征,預測真實確診人數。其二對SEIR-RS和Bi-LSTM預測結果進行加權平均,將兩個模型預測結果進行加權平均求解,將結果作為新模型的預測數據。
參照武漢市流行病傳播進程得到R0隨時間變化的曲線,如圖2所示。

圖2 病毒再生因數曲線
在2020-01-29日,R0達到最大值2.51,即從2020-01-23日起武漢實施“封城”和推行居家自我隔離措施的一個傳染周期之內,R0達到峰值,隨后在2020-01-30日至2020-02-03日之間出現波動,最終從2020-02-04日開始R0呈逐漸遞減的趨勢。
SEIR-RS模型的預測結果如圖3所示,由于流行病學參數在進行梯度下降時只取得全局范圍內的最優解,模型未能隨疫情發展進行進行校正,與真實數據相比,SEIR-RS模型在疫情后半段趨勢中現存確診人數的預測值偏高,因此導致對疫情規模預測誤差較大。

圖3 SEIR-RS預測結果
Bi-LSTM模型的預測結果如圖4所示,可見Bi-LSTM相對于真實數據結果偏高,一方面由于深度學習所學數據量大而實際數據量較小,另一方面由于政府對疫情的管控干預措施導致的數據波動。因此在使用Bi-LSTM預測時出現誤差。

圖4 Bi-LSTM預測結果
SEIR-RS+Bi-LSTM聯合模型在測試集上的加權平均預測結果和線性回歸預測結果如圖5所示。加權平均的趨勢接近真實的確診人數。該曲線更符合真實的趨勢及走向。而從線性回歸的預測趨勢可以看出進行二者結合后的模型相較于單獨的SEIR-RS和Bi-LSTM有著更接近真實值的預測結果,但是相較于真實值仍然偏高。

圖5 聯合模型加權平均和線性回歸預測結果
SEIR-RD模型在測試集上的預測結果如圖6,可以看出該模型的預測結果更符合真實數據,在測試集上擬合結果與真實數據一致,取得更好的預測結果。

圖6 SEIR-RD預測結果
SEIR-RD和SEIR-RS模型的對比預測結果如圖7,在訓練集上SEIR-RD比SEIR-RS更接近真實的確診人數,在測試集上SEIR-RS模型與真實值相比出現明顯的偏離;而SEIR-RD模型則在測試集上也表現出更擬合真實確診人數變化趨勢,因此在疫情規模的預測任務上,SEIR-RD模型的結果更為準確。

圖7 SEIR-RS與SEIR-RD預測模型對比
如圖8為上述實驗模型預測結果的對比。可見在現存確診病例的預測上,由于強干預措施的出現,疫情發展受到控制,SEIR-RS模型在預測任務上由于參數受限,不能做出及時的調整,導致在測試集的預測結果與真實值相比出現較高偏差;Bi-LSTM模型在單獨使用時由于數據量較小和數據的復雜性,并不能完全發揮其時序預測的性能,因此將SEIR-RS與Bi-LSTM模型進行結合,目的是通過Bi-LSTM的時序預測能力解決SEIR-RS模型中流行病學參數無法根據時間閾值及時調整的問題,并將最終結果進行線性回歸和加權平均。結果表明在短期預測任務中,線性回歸取得更好的效果;SEIR-RD模型由于根據疫情發展變化對相應參數進行實時調整,在測試數據集上達到最優效果,超越SEIR-RS與SEIR-RS+Bi-LSTM聯合模型。SEIR-RD模型在預測確診人數方面表現出較高的可信度,因而在疫情規模的預測上,SEIR-RD模型表現出更符合疫情發展規律的趨勢。另外,通過圖8文中預測模型的對比可以看到此次疫情發展大約在第 76 天,即二月中下旬出現拐點,即對疫情控制效果開始顯現,這與疫情在武漢的實際發展情況基本吻合,因此SEIR-RD模型對疫情防控具有一定的應用價值和社會價值。
文章利用霍普金斯大學(Johns Hopkins University,簡稱:Hopkins或JHU)統計的疫情數據2,對印度自2021年4月份以來第二階段疫情的發展做出預測分析。由于4月初期印度疫情開始呈現急劇性增長的態勢,故文章采取4月5日以來的新冠肺炎統計數據用作處理[16]。
SEIR-RD模型預測結果如圖9所示,結果表明此輪疫情將在35天左右時間達到峰值,即5月10日左右與5月中旬達到峰值基本吻合。到達峰值時的單日新增病例預測將達到50萬以上。

圖9 印度疫情預測結果
其實,印度疫情的疫情情況遠非如此。這反應了印度對新冠肺炎的檢測能力正在下降,長時間受疫情影響,各種物資的短缺,沒辦法保證更多地民眾接受檢測[17]。因此印度真實情況比官方統計數據更為嚴重。而造成此輪疫情反彈的原因可以概括為以下三點[18]:
1)印度在疫情得到穩定后立即無秩序地放開公共活動空間,且在社交活動中缺少必要的防護措施;
2)病毒變異是造成反彈的可能原因;
3)印度疫苗的接種率較低。由于印度人口基數大,接種率僅為10%,離群體免疫所需的70%還有相當的距離,印度目前的接種率也不足以防控疫情的整體傳播[19]。
實驗部分,文章利用SEIR-RD模型與SEIR-RS模型,Bi-LSTM模型,SEIR-RS+Bi-LSTM聯合模型針對武漢市疫情數據集進行對比研究。最終實驗結果表明,SEIR-RD模型在確診病例的預測任務上取得最好的效果,因而在疫情規模的預測上,SEIR-RD模型變現出趨更符合疫情發展規律的趨勢,將提供更有價值的參考;而采用Bi-LSTM神經網絡模型或是SEIR-RS+Bi-LSTM聯合模型對疫情發展進行預測,但由于受到數據量過小和參數敏感及不準確等原因的影響,這些模型未能取得理想的預測效果。最后利用SEIR-RD模型針對印度第二階段疫情發展進行模型的可行性研究,SEIR-RD模型能夠很好地預測出印度第二階段疫情到達峰值的時間,以及此輪疫情感染人數的規模。實驗結果驗證該模型可以較好地適用于當下疫情預測任務,并能夠取得良好的預測分析效果[20]。
研究基于國家衛生健康委員會疫情通報數據計算模型參數,利用SEIR-RD動態傳染病風險預測模型、Bi-LSTM神經網絡模型、SEIR-RS+Bi-LSTM聯合模型對武漢市COVID-19的趨勢進行研究分析,并進一步依據其傳播規律證明了現有防控措施的有效性。
1)為進一步探究SEIR-RD動態傳染病風險預測模型在疫情預測任務當中的泛化能力,又將SEIR-RD模型運用在印度新冠肺炎第二階段的預測任務中,實驗結果驗證該模型具有較強的適應性,能夠適用于現實中的一般場合。
2)數學模型是建立在多種假設情況下,因此會不可避免地會與現實情況存在一定差異,導致分析結果出現偏差。此外,由于預測本身是一個動態任務,其預測結果對模型各個模塊參數選擇非常敏感,對訓練數據的添加和修改都可能影響最終預測結果。因此采用更加科學的方法對流行病學參數進行精準的計算,這對預測COVID-19發展變化趨勢起著至關重要的作用。
3)在未來的工作中,考慮接觸率、預防措施、防疫力度、城市內人口密度、流動人口遷移率等因素;以及疫情預測模型在不同國家和地區的泛化能力以及實時性,并將其擴展當前的SEIR-RD模型,并進一步研究COVID-19和更多流行病毒的動態傳播規律仍是本文今后研究的主要方向。