王靈鈺 劉子昂 朱興杰 蘇翀


摘要:新型冠狀病毒肺炎(COVID-19)自2020年在世界范圍內迅速傳播,致死率極高,時至今日,一些國家的疫情仍無法得以有效控制,因此,新型冠狀病毒肺炎趨勢預測成為一大研究焦點。目前傳統的趨勢預測方法主要包括運用傳統傳染病預測模型。但是,傳統傳染病模型趨勢預測方法缺少對實際情況防控傳染病措施的考慮,模型建立不夠完善等缺點。同時,隨著機器學習熱潮的到來,科研人員在此基礎上構建了基于深度學習的COVID-19趨勢預測模型,這些模型有效地輔助了醫學專家、科研機構等對COVID-19的高效預測。首先,全面調研了目前主流的用于COVID-19趨勢預測的相關評價指標;接著,對基于深度學習的新冠肺炎發展趨勢預測模型進行了詳細介紹,并對模型性能進行了比較分析。最后,對該領域的未來發展趨勢進行了探討分析。
關鍵詞:深度學習;新冠肺炎;趨勢預測;神經網絡
中圖分類號:TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)23-0106-04
2020年初,新型冠狀病毒肺炎疫情席卷全球,各地死亡人數不斷激增,這一突發公共衛生事件對各地區經濟、社會、政治等造成了不同程度的破壞。為盡可能減少疫情所帶來的負面影響,趕在疫情發展前及時遏制病毒源的傳播,及時疏散和管控可能接觸病毒源的周邊人員,防止疫情的二次爆發。許多學者利用深度學習理論,搭建模型分析不同情境下,對疫情發展趨勢進行預測。本文收集并對比了2020年以來部分基于深度學習的新冠肺炎疫情傳播趨勢的預測模型,制定評價指標進行分析討論,列舉了國內外相關領域研究趨勢和方向,希望為后續相關領域的研究提供有力參考。
1 概述
新型冠狀病毒肺炎(COVID-19)是一種由新型冠狀病毒感染引起的以肺部病變為主的新型傳染病[1],世界衛生組織宣布,截至今年1月底,已核實的COVID-19感染人數為1億,COVID-19感染率為75:1,死亡人數超過200萬[2]。新發傳染病在全球范圍不斷出現[3];特別是SARS(嚴重急性呼吸綜合征,2003年)、H1N1(甲型流感,2009年)、MERS(中東呼吸綜合征,2012)、寨卡病毒(2015年)以及2019-nCoV(新型冠狀病毒肺炎,2019年)均嚴重影響了人類健康程度、全球政治和經濟的發展。目前來看,這讓全球遭受新發傳染病的控制編程我們必須要解決的重大公共衛生問題[4-5]。新冠肺炎確診人數還在不斷激增,了解未來疫情發展趨勢也是防疫工作的重要一環。
深度學習是一個由多個隱藏層組成的深層非線性網絡,它可以通過將特征抽象為更抽象的特征或者更高的類別,從而讓機器系統能夠學習像人類一樣分析。深度學習是機器學習包含的新領域,近年來已經在分類、檢測、識別、預測等多項任務中取得了前所未有的成就,受到了各界的廣泛關注。在深度學習的過程中,我們可以解決海量數據中存在的高維、冗雜等傳統機器學習難以解決的問題。所以在全球疫情危機爆發的背景下,人們大量的利用深度學習,以達到幫助我們快速準確地預測出新冠肺炎患者病情危重的概率、對疫情進行動態監測及疫情未來發展趨勢的預測等目的。
目前,SIR模型是傳染病模型預測中最經典的模型,而COVID-19具有廣泛的傳染性,可以通過在所有其他傳染病中使用不同的感染病例來建立COVID-19的傳播方式[7]。但相對于傳統的SIR模型而言,由于新冠肺炎的特殊性,如:不存在封閉情況,考慮開放體系;病人確診后立即隔離,不會作為新的感染源等[8],還需對SIR模型進行適當的修改,考慮更多的因素,再通過實時數據擬合得到模型的參數,從而達到預測不同階段疫情趨勢變化的效果。
人工神經網絡是通過連接權重結構配合激活函數模仿人腦做著類似的工作,其在傳染病預測的應用越來越廣泛。循環神經網絡其實是一類遞歸神經網絡,它將輸入的序列沿著其發展方向遞歸,其后的結點均以鏈式的結構出現,用于輸出計算。它具有處理時間序列數據的能力,尤其廣泛應用在語音處理、自然語言處理等前沿領域[12]。
本文的主要貢獻如下:
(1)對相關算法的評價指標進行了討論和總結。
(2)對基于機器學習和深度學習的COVID-19趨勢預測模型進行了全面系統的描述和總結。
(3)對前述代表性的COVID-19趨勢預測模型依次進行討論總結,探討了基于深度學習的COVID-19趨勢預測模型的未來研究方向。
2 國內外研究情況
機器學習領域有關傳播性疾病的預測方法繁多,依據各方法假設,可將其分為定性與定量預測,當然也有一些方法綜合使用了兩種方法進行綜合預測。
本文所列舉的定性預測方法,是通過對某一地區傳染病傳播過程及特征等相關因素的預測,從而對病毒的進一步擴散提出建議數據支撐。常見的方法有流行比數圖法、控制圖法、Delphi法、“Z-D”現象、等。控制圖法適用于分布性傳染病,能夠較好預測季節性、周期性傳染病的傳播趨勢,簡單易懂。目前,控制圖法已被廣泛應用與疾病檢測及預警預測的實踐中(例如麻疹、細菌性痢疾等疾病的預測)[13-14]。比數圖法適用于發病數呈現正態分布的傳播性疾病,其原理是通過比數(R)與其可信區間來判斷某傳染病是否傳播趨勢[15]。
本文所討論的定量預測方法,是指利用數學模型,預測某種傳播性疾病傳播的發病數和發病率。常見的模型類型包括:基于動力學的微分方程模型、時間序列模型、多元回歸分析和人工神經網絡模型等。一般基于動力學的微分方程模型大多沒有將人為因素納入考量,描述的是疾病自然傳播的過程預測結果,其模型與現實存在較大差距;時間序列模型適用于無法確定傳染途徑及方式的傳播性疾病的預測,需要提供詳盡的發病率數據,可行性較高,是目前使用頻率較高的一種方法;多元回歸常用于分析多因素影響分析,分析傳染病流行的復雜特征,預測準確度高,但在實踐中需要依據實際調整地區、病種等數據,因此限制了此類方法的推廣。