高斯極大似然估計的新冠疫情周期性預測分析

2022-03-02 06:15:38王瑩

現代計算機 2022年23期

王瑩

（南寧師范大學計算機與信息工程學院，南寧 530000）

0 引言

自2019年12月以來，新型冠狀病毒肺炎成為了最嚴重的疾病之一，在全世界造成了嚴重的流行病，對全世界的社會和經濟產生了巨大的影響。對此，各國政府一直在努力地監督、觀察與控制本國的確診病例和死亡情況。并致力于通過相關醫學數據預測其對未來形勢產生的影響，根據數據評估當下所作決策的有效性，以及公眾遵守相關政策與限制方案會發生什么，產生什么影響。

自從新冠肺炎發生以來，對新冠肺炎病例的估計、分析與預測一直是許多研究的主題。而在神經網絡應用與人工智能預測領域，各種統計學與機器學習模型如：Box-Jenkins（ARIMA）［1］，Prophet［2］，Holt-Winters Additive Model（HWAAS）［3］和高斯模型等，已被用于預測與分析新型冠狀肺炎病例。ARIMA模型可以有效地利用自身組合方法擬合歷史數據，并有助于預測時間序列中的未來點。Box-Jenkins方法包含應用于非平穩序列的ARIMA模型，但通過對序列的差分運算使其平穩，廣泛用于時間序列分析［1］。Prophet的自動預測程序是一種基于附加模型預測時間序列數據的方法，在其結構中，它是一個具有可解釋參數的回歸過程。Prophet自動預測程序對缺乏數據和趨勢變化具有魯棒性，通常能很好地執行異常值［2］。通常為季度性數據提供準確預測的方法是Holt-Winters，該方法具有衰減趨勢和乘法季節性［3］。高斯模型利用概率分布對歷史數據的軌跡進行預測，能靈活調整參數從而調整高斯分量和擬合參數。

Hu等［4］開發了一種改進的堆疊式自動編碼器，致力于解決建模流行性的傳播動力學方面的難題。將該模型用于實時預測2020年1月至4月中國新冠肺炎診斷的累計確診病例的曲線。使用多步預測，6步、7步、8步、9步和10步預測的估計平均誤差分別為1.64%、2.27%、2.14%、2.08%和0.73%。

Yonar等［5］使用曲線估計模型估計了2020年1月至3月期間選定的八個國家（德國、英國、法國、意大利、俄羅斯、加拿大、日本和土耳其）的新冠肺炎病例數量，實驗結果顯示Box-Jenkins（ARIMA）和Brown／Holt線性指數平滑，誤差為2.578%。

Shaikh等［6］使用回歸模型分析了印度的新冠肺炎數據集，并提供了包括誤差分析和準確性并置在內的實證證據。此外，還使用了Tableau的時間序列預測方法預測了冠狀病毒病例在未來的趨勢，模型決定系數R2達到0.8721及以上。

高斯模型（Gauss model）是用高斯概率密度函數（正態分布曲線）對事物進行精確量化，以高斯概率密度函數為基礎將一個事物分解成若干個模型而形成。以高斯函數為數學理論基礎的高斯模型在許多數據分析與預測領域都有著非常出色的表現，而在非線性曲線擬合研究中，使用高斯函數來進行擬合，其各參數的物理意義都是清晰的。這能使計算積分十分簡單快捷，利用高斯擬合函數（Gaussian fitting）來描述或者擬合求出實驗數據的分析與預測，往往能起到意想不到的效果。

本研究實驗利用高斯模型中優秀的數學算法思想對2022年中國上海爆發的新冠肺炎疫情各項病例數據進行周期性數據的預測與分析。通過使用高斯擬合函數和高斯模型，利用極大似然估計反推形成最優預測擬合結果的參數，加以高斯—牛頓迭代法進一步優化估計參數算法過程，使實驗結果達到最優擬合。在此基礎上對所有病例數據信息進行整合，分析預測出本次上海新冠肺炎疫情的拐點，并擬合拐點值前某5天和后某5天，分別是2022年4月4日至4月8日和2022年4月28日至5月2日，共10天的上海每日新增陽性病例數進行預測分析，用以證明本實驗算法的價值。

1 相關工作

1.1 高斯函數

高斯函數，即正態分布（normal distribution）函數，也稱“常態分布”，是存在于自然界中數量眾多、分布形式最為普遍的一種函數，也是目前廣泛應用于數理統計領域的常用變量分布模型。

概率密度函數一維高斯分布如下：

其中，μ和σ2分別是高斯分布的均值（期望）和方差。當一個隨機變量x服從一個數學期望為μ、方差為σ2的正態分布，則記為N（μ，σ2）。特別地，當均值μ=0，σ=1時，正態分布則是標準的一元正態分布。

1.2 高斯擬合函數（Gaussian fitting）

本實驗對數據點集進行函數逼近的擬合方法使用高斯擬合。高斯擬合函數為指數函數模型，其二維曲線圖中峰位、峰高、峰寬都具有現實的物理意義，因此本實驗研究使用高斯曲線進行數據擬合和表征，其公式為

其中，x為隨機變量，a，b，c為參數。

1.3 極大似然估計（maximum likelihood estimation，MLE）

用已知的樣本結果信息來反推最有可能，或者說最大概率導致這些樣本結果出現的模型參數值，這就是極大似然估計的通俗理解。極大似然估計提供了一種給定觀測樣本以評價模型參數的方法，可以說：“模型是既定的，參數是未知的”。

在本文實驗中，假設一個一元高斯分布的數據集x服從均值為u，方差為σ的概率分布，它的概率密度函數是：

按照標準一元正態分布，也就是均值為0，方差為1的標準一元正態分布對數據集x進行標準化處理，根據似然函數定義—它是一個關于未知參數θ的函數，在給定聯合樣本x的前提下，表達如下：

其中，θ是未知參數，它屬于參數空間；f（x;θ）=P（x）是概率密度函數，似然函數和密度函數是兩個數學對象，兩者是完全不同的。公式的等號“=”寓意為函數值形式的等值，而非兩個函數本身為同一函數。按函數等值的定義則，函數等值，只等值于定義域，其對應的關系是相等的。求：

其中n為樣本個數。對上式取對數ln(L(θ))，再對它進行求導，令其導數為0求得其駐點，也就是令lnL(θ)'=0，最后求得參數?，如下式：

1.4 高斯-牛頓迭代法（Gauss-Newton iteration method）

如果用極大似然法求解擬合函數的參數，那么則通過求導數的方式求解參數值，但在這個過程中很多時候值是不可導的，這樣會影響求值結果和算法精確度。為了解決數值優化問題，更進一步提升算法性能與準確率，收斂速度更快，使用高斯-牛頓法去進行多次迭代，多次對返回參數進行修正，使擬合函數參數不斷向指數模型的最佳擬合參數靠攏，最終使Gauss Model達到最小的誤差平方和。由式（2）可知，擬合曲線參數為a，b，c，擬合函數為F（x），那么該問題轉化為求解以下的優化目標：

求上式關于Δx的導數，并令其為零：

可以得到如下方程：

將上式變形為下面式子：

其中，函數g是F（x）的轉置一階導數。

2 算法流程

首先將從國家衛健委官網收集到的數據進行病例分類預處理，計算每日新增陽性病例，將結果可視化。

使用高斯擬合函數指數模型去擬合預測曲線，而解決問題中的高斯擬合曲線的最終值決定了曲線擬合的準確率，所以高斯擬合函數的最終值由參數θ來決定。此時若要結果最優，就必須使參數估計達到最優。求最小二乘估計，在線性回歸的情況下，計算起來非常簡單。對于非線性函數，有幾種不同的方法來估計誤差的平方和系數的最小值。在這一實驗研究中，最優系數的求解選擇了極大似然估計法。用極大似然法求解指數模型參數，通過求導數的方式去求解參數值。

然而由于樣本等原因，在求解過程中很多時候是不可導的，同時，為了算法能更快收斂，提高算法性能和準確率，需要采用其他迭代法則進一步優化算法。本實驗使用高斯—牛頓法來對參數求解步驟進行進一步優化。利用這樣的求解方法將函數擬合到數據集后，利用誤差平方和最小的法則進行參數優化選擇，可以獲得最佳參數。最后選用指數函數做曲線擬合（curve fitting），用以擬合觀測數據，分析各變量之間的關系。

最后得到誤差平方和最小的結果，擬合預測出周期對應時間的每日新增陽性病例和疫情周期性拐點，實現整個算法的應用價值。算法流程圖如圖1所示。

圖1 算法流程圖

3 實驗結果與分析

3.1 數據集描述

本實驗使用2022年3月至6月的各項上海新冠肺炎疫情數據，包括本次上海周期疫情的日期、地區、確診病例數、無癥狀感染者數、無癥狀轉確診病例數、死亡患者數。所有數據均來自國家衛健委官方網站和上海市衛健委官方網站。

3.2 數據處理

對于當日產生的無癥狀轉確診病例，已經在當日之前的無癥狀感染者中進行了統計，為避免重復計算，按照“新增確診病例個數+新增感染無癥狀人數-由無癥狀轉為確診病例個數”來計算此段周期中每天新增新冠肺炎陽性病例數。

圖2 病例數據可視化

3.3 擬合精確度分析

在統計學中對變量的線性回歸問題進行分析時，決定系數R2屬于通用模型實現結果好壞程度的度量標準，可以用它來大致了解一個模型的性能。通常來說，R2值越大越好，數值越大，模型越精確，預測分析效果越顯著。R2在0～1之間，越接近1的模型擬合效果越好，一般認為在0.8以上的模型更具有擬合的優勢。

決定系數R2等于1減去RSS和TSS的商，RSS（residual square summary）對未擬合信息的總量大小作出解釋，TSS（total sum of squares）對樣本數據中信息總量的大小作出解釋。RSS TSS反映的是未擬合出來的信息量的比值（比率），1-R S S T SS反映的就是模型能夠擬合出來的信息量的比值（比率）。其中，y(i)為數據集中每日新增陽性病例，y(i)i為模型預測擬合出的每日新增陽性病例。

3.4 實驗結果分析

對從國家衛健委得到的新冠肺炎疫情數據進行數據預處理與分析，統計出每日新增陽性病例數，并利用高斯模型進行下一步的數據預測與分析。在此基礎上對所有信息進行整合，分析預測出本次上海新冠肺炎疫情的拐點，也就是指，病例曲線在出現拐點后會持續上升，但速度減慢，并在到達最高點峰位值后轉頭向下。使用高斯擬合函數利用數據集對2022年4月4日至4月8日和2022年4月28日至5月2日，共10天的上海每日新增陽性病例數進行預測。

首先使用高斯擬合函數指數模型去擬合預測曲線，而解決問題中的高斯擬合曲線的最終值決定了曲線擬合的準確率，所以高斯擬合函數的最終值由公式中的三個參數:a，b，c來決定。此時為保證結果最優，就必須參數估計達到最優。參數的估測方法有很多，例如：最小二乘法，極大似然法，Bayes估計，最小風險法，極小化極大熵法。最小二乘法和極大似然法是其中最基本的方法。本實驗使用與高斯函數有數學理論聯系的極大似然法進行擬合預測，相輔相成。

由極大似然法求出的參數為a=2.46557555e+04，b=1.87437034e+01，c=2.05746588e+02，將這三個求解出的參數值代入到高斯擬合函數中再次進行計算，為了進一步優化算法，使得收斂更快，使用高斯—牛頓法來對參數求解步驟進行進一步優化。這樣的求解方法將函數擬合到數據集后，再利用誤差平方和最小的法則進行參數優化選擇，可以獲得最佳參數。本次實驗中初始值x0設為83，迭代次數step設置為100，使用迭代方程公式進行運算。

根據本實驗研究算法，預測出本次上海疫情周期性拐點將出現在從2022年3月23日開始計算的第18天，也就是2022年4月10日左右。如圖3所示。

圖3 周期性拐點預測圖

采用高斯模型擬合并預測，得出上海市2022年4月4日至4月8日和2022年4月28日至5月2日期間，共10天的新增陽性病例個數。經過本文算法計算，其結果如表1所示，已經十分接近真實數值。

表1 上海本周期中10天的新增陽性病例的真實數值與預測值的比較

利用曲線擬合將周期預測每日新增陽性病例結果可視化，其中擬合的最后參數設置為maxfev=10000，曲線擬合結果如圖4所示。

圖4 陽性病例每日新增預測擬合結果圖

為了驗證本實驗研究算法的準確率與優越性，對比實驗模型和方法選擇SVR（支持向量回歸）和最小二乘準則（LSE）預測方法，結果表明本實驗算法的擬優度明顯比其他方法更高，擬合性能更優越。

表2 對比實驗決定系數R2

4 結語

將機器學習模型引入疾病防控的預測和數據分析領域有助于政府當局和衛生健康委員會規劃并準備應對即將到來的突發狀況。本研究實驗中，評估了高斯模型在預測分析新增新冠肺炎病例和周期拐點方面的價值。首先自收集數據并根據病例的統計信息進行數據預處理，再進一步進行數據分析，利用極大似然估計計算高斯擬合函數中的參數，加以高斯—牛頓迭代法去進一步優化擬合，能更高效地收斂擬合，最后得到誤差平方和最小的結果。對比其他的回歸模型，本算法的預測擬優度R2達到最高，為0.9286，證明與其他模型相比，本文算法表現出了更為優異的性能。