白旭洋



摘 要:目前現代醫學技術取得重大發展,但諸多傳染性疾病仍是人類社會向前發展的重要阻力之一。利用中國大陸地區已有的流感相關數據進行分析研究,應用多元線性回歸、Lasso回歸以及Ridge回歸模型結合相關檢索詞數據進行建模分析, 探討回歸模型與流感疫情預測的相關性與可行性。結果發現,與傳統最小二乘法結果進行比較,運用Lasso回歸以及Ridge回歸對于復雜數據的分析與建模準確度更高,表明上述模型的推斷能力更強,更適合于流感疫情的預測分析。通過回歸模型結合海量數據可分析流疫情,且具有相當高的準確性,因此建議將該種方法應用到對于未來流感疫情的測控以及預防工程中。
關鍵詞:流感預測;多元線性回歸;Ridge回歸;Lasso回歸
中圖分類號:TB 文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2020.02.092
0 引言
現階段的中國正處在由初級階段向全面小康社會過渡的關鍵時期。在經濟水平高速發展的同時,醫療技術同樣應該緊跟發展的快節奏,否則,相對落后的醫療技術將導致中國公民整體健康素質的下滑,將對國家穩定以及中國的國際形象造成難以預測的影響,甚至導致中國在未知的嚴重傳染病的侵襲下蒙受巨大損失。本文的目的即為利用搜索引擎數據結合回歸模型探究疫情暴發的因素,對其進行監測防控,防止成為影響中國社會穩定的因素之一。
Wu Yuan等人在2015年就在其論文中探討了未來利用時空大數據技術應用于傳染病預警的可能性,并認為其能夠構建起更加完善的基于泛在網絡的傳染病疫情獲取途。Li等也在2010年利用Z-D現象預測法、灰色預測模型。自回歸滑動平均混合模型與小波預測模型等數學預測方式對我國傳染病預測現狀進行了詳細分析。與此同時, Wang與她的團隊更是將定量預測模型與百度上有關登革熱的相關關鍵詞的指數結合,對于上一年在全國范圍內爆發的登革熱疫情進行了分析,結果顯示,百度指數與登革熱疫情的關聯性非常明顯,又更進一步地說明了在信息時代,利用信息技術來輔助人類預防、監測甚至治療疾病的可行性。這些研究都具有結合先進技術與大量數據對問題進行分析的優點,但同時也都具有分析范圍相對小,數據涉及人群片面等問題。因此,利用多元線性回歸模型的數據分析與信息挖掘能力,可以有效地對全球范圍內的疾病發病情況及數據進行統計與分析。在此過程中,利用多元線性回歸模型對傳染病疫情進行預測,可以有效地幫助疫情暴發后治療方案的提出。
2 數據查找
本研究使用中國2010年12月至2018年12月間流感發病人數作為因變量(y),流行性疾病相關搜索內容(數據來源為百度指數網站)作為自變量,最終確定8個與流感相關的檢索詞作為本次驗證的具體指標,分別為:“流感”(X1),“病毒”(X2),“預防”(X3),“癥狀”(X4),“甲型”(X5),“傳染”(X6),“季節”(X7)和“疫苗”(X8)。
通過對上述8個檢索詞的相關數據在選定時間內的折線圖進行數據分析,如圖1和圖2所示,最終利用回歸模型對于檢索數據進行分析。考慮到未知或潛在的因素對于最終統計結果的不利影響,最終決定將每月流感發病人數作為因變量。這最終,本次統計研究納入建模分析共有8個自變量。由于無偏估計在數據分析上的特點,有必要采用Lasso和Ridge回歸 等稀疏估計方法建立模型,對流感流行趨勢進行預測,分析其影響因素。
4 總結
本研究首先介紹了多元線性回歸模型以及Ridge回歸模型和Lasso回歸模型的原理及其在數據統計分析方面的具體應用方法和模型預測性能,與百度指數相關結果數據結合,構建了適合于流感疫情預測的Lasso回歸模型。研究結果Lasso回歸模型的結果更加貼近真實情況,具有實際的應用價值。本文所構建的統計模型選擇了較少的變量達到較高的穩定性,使損失函數最小化。另外,本次實驗將三種模型結合共同分析八類檢索內容,擁有較強的分析能力。因此,本研究所提出的方法也適用于對模型預測效果進行綜合評估的情況。
下一步可以將檢索詞數目由8詞上升至20詞,同時向檢索內容中添加大量與流感有關內容,去除部分流感并發癥相關內容。此外,還可以將 2009年H1N1爆發第一波爆發流行的相關數據納入參考。弱化了對于異常的媒體關注熱點的反應,從而達到降低預測模型的效果。Lasso回歸模型具有的功能對于未來可能的傳染病疫情能夠發揮有效的監測作用,能夠成為未來人工智能輔助醫學領域預防以及遏制傳染病的重要手段。
參考文獻
[1]李園,吳蜀豫.登革熱的流行趨勢與防控(英文)[J].Science Bulletin,2015,60(7):661-664.
[2]ZhenDong L I,Chen X R,Peng L I,et al.Identification of Polygonum viviparum endophytic bacteria Z5 and determination of the capacity to secrete IAA and antagonistic capacity towards pathogenic fungi[J].Acta Prataculturae Sinica,2010,19(2):61-68.
[3]趙修文.基于本體的醫療搜索引擎的設計和實現[D].長沙:國防科學技術大學,2008.
[4]王若佳.融合百度指數的流感預測機理與實證研究[J].情報學報,2018,37(2):206-219.
[5]楊師華.基于Lasso回歸模型的遺傳性疾病與遺傳位點關聯分析[J].數學學習與研究:教研版,2019,(1):145-146.
[6]魯力,鄒遠強,彭友松,等.百度指數和微指數在中國流感監測中的比較分析[J].計算機應用研究,2016,33(2):392-395.