999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

空間數據挖掘驅動城市疫情監測常態化的作用研究

2022-01-12 06:52:34郭名靜
商業經濟 2022年2期
關鍵詞:數據挖掘疫情

郭名靜,景 琳

(1.東華理工大學 理學院; 2.江西應用科技學院 國際商務分院, 江西 南昌 330013)

發型傳染病在人類歷史上曾多次出現,比如天花、鼠疫、霍亂、甲型 H7N9 流感、SARS(Severe Acute Respiratory Syndrome),以及新型冠狀病毒肺炎(Coronavirus Disease 2019,COVID-19)等,給國家和人民生命財產安全造成了重大損失。雖然國內針對COVID-19已經取得重要研究成果,形成了卓有成效的疫情防控方案,但隨著全球疫情風險級別的不斷上調,城市疫情監測在未來很長一段時間將成為一種常態化工作。疫情監測是預測預警疫情的爆發并監測疫情的發展和結束,指在傳染病發生時,在人、植物或動物中進行的針對傳染病疫情的監測,監測疫情發展是獲取感染區域、規模、密度、時空分布和流動情況,反饋疫情數據給防控部門,協助部署和協調資源,幫助科研人員掌握疫情傳播模式和特點,幫助公眾遠離疫情嚴重場所,科學預防感染。由于疫情監測工作既涉及患者和醫療資源的大量人流,又需要物流分布信息,還具有時間和專題屬性。因此,各種通過傳感器網絡、定位設備和社交網絡獲取的空間數據成為當前研究疫情發展過程和輔助發現預測潛在疫情的重要戰略資源。

一、空間數據挖掘的研究現狀

空間數據是人們認識現實世界的基礎戰略資源和智慧源泉。信息技術的發展使對空間數據的采集、存儲和處理等技術迅速發展,使得空間數據快速增長,遠遠超出了人們的理解能力。當數據積累到一定程度,必然會反映出某些為人所感興趣的規律,而這些規律一般隱藏在數據深層。空間數據種類多樣,來源復雜,傳統的數據庫系統已經無法發現隱藏在數據背后的隱性知識,常規的數理統計模式停留在空間數據的處理階段,只完成了從數據到信息的過程,處理的數據量十分有限。現有的人工智能和機器學習等技術也都不能獨立的將數據最大限度利用,空間數據資源中蘊含的最大價值也遠沒有得到充分的挖掘和利用,迫切需要一種能夠將大量數據轉換成有用知識的新技術,以解決困擾空間數據利用面臨的瓶頸問題。

1989年召開的第一屆國際聯合人工智能學術會議(IJCAI)催生了從數據庫中發現知識 (knowledge discovery in database,KDD)的概念,通過知識發現可以從數據庫中獲取知識。因為空間數據與空間位置密切相關,所以KDD開始影響空間數據的利用。1994年GIS國際學術會議上,李德仁院士首次提出從地理信息系統數據中發現知識的概念,并率先從GIS空間位置數據中發現了用于指導位置空間分析的知識。隨后,空間數據挖掘滲入數據挖掘、知識發現以及地球空間信息學等相關學科,越來越引起全球學者研究和應用的極大興趣。空間數據挖掘可以為基于位置的空間數據的應用提供有價值的知識,帶來巨大價值,成為提升國家綜合能力和保障國家安全的新利器,提升政府治理能力的新途徑。空間數據挖掘是一種空間決策支持技術,重在最大限度提升數據資源的有效利用能力,實現更為準確的檢測、分析和預測,特高決策的針對性、科學性和可靠性。在疫情防控工作中,空間數據挖掘已經滲透入多個環節,特別是在傳染病傳播的測量傳染病的時空分布和模擬驗證傳染病傳播過程兩個階段是最適合空間數據挖掘的分析方法,例如,瘧疾分布特征的研究、H7N9疫情流行與環境因素的相關性研究、霍亂疫情爆發風險增加的地區以及SARS疫情監控和位置空間信息分析研究等。

目前,雖然空間數據挖掘取得了一定的研究和應用成果,但海量快變和多源高維的特點又給空間數據挖掘應用于疫情監測帶來了新的挑戰。在此次COVID-19疫情防控期間,“健康碼”技術的應用為政府采集了大量的居民行動軌跡數據,為常態化疫情防控工作的開展提供了寶貴的空間數據。但是伴隨著“健康碼”的普及,采集的數據的數量、大小和復雜性都在飛速增長,極大超越了常規的事務型數據源,導致數據難理解、難整合,限制了對數據的全面分析和深度應用的能力。鑒于空間對象種類的多樣性,“健康碼”采集的空間數據來源廣泛,每個空間對象基本由多個屬性描述,存在空間或非空間關系,增加了空間數據挖掘的維數,帶來了高維數據挖掘的困難。這些難點可能直接影響空間數據挖掘的準確性和可靠性,影響空間數據挖掘的正常發展。雖然這些問題越來越被重視,并取得了一定的理論方法和實際應用的成果,但是還不夠深入。如果正確解決這些難點,就可能避免利用錯誤信息而得到可靠性較低的、殘缺的,甚至錯誤的知識,就可能避免因為利用錯誤信息而導致的疫情防控決策失誤。

二、空間數據的加權聚類提取研究

李蘭娟院士曾多次公開提出要重視大數據在疫情防控中的應用。李德仁院士也呼吁建立一個基于位置大數據的疫情防控體系,結合多屬性特征約束挖掘空間位置數據中所蘊含的空間模式。這種針對區域內對象位置點群的聚集分布特征的發現屬于基于空間位置數據的城市空間分布模式研究,通過提取相似或相近密度的聚集點,將其與邊界外點區別識別。一般有兩種識別方法:一類是根據區域的指標聚集特性來標識區域邊界,如均勻格網法;另一類是根據點群的密度值利用等值線形成邊界。經典的基于密度聚類方法 (Density-based clustering algorithm,DBSCAN)可以利用數據點群的空間聚類直接提取聚集模式,在處理非規則凸型的位置數據點群時表現出了較好適用性。

(一)傳統D BSCA N算法

基于密度的DBSCAN算法可以發現稀疏數據點區域中的密集數據點,該算法利用相似度函數判定數據點的歸屬類,再根據密度相連原理提取數據點的最大集合,也叫做聚類簇。算法中判定數據點歸屬的相似度函數是基于歐幾里得距離(公式1),其中,位置數據集中數據點的位置坐標為(x,y),其中 i=1,…,n。

以武漢市中心城區范圍內地理坐標為東經114.15°~114.45°,北緯 30.45°~30.7°范圍內共計 22843 條新浪微博簽到POI數據(表1)為例,每一條POI位置數據包含5個屬性,其中,經度和緯度坐標共同構成了位置數據點的地理位置屬性特征,商戶公司名稱、類別和簽到次數均為位置數據點的非地理位置屬性特征。對餐飲和零售行業高熱點和熱點區塊進行聚類提取,得到3個餐飲行業的熱點區塊,總共包含98個高熱簽到位置數據點,簽到次數共計120361次(表2)。得到3個零售行業的熱點區塊,總共包含87個高熱簽到位置數據點,簽到次數共計302915次(表 3)。

表1 武漢市的新浪微博PO I數據集

表2 餐飲業熱點區塊的位置數據點統計(基于密度聚類提取)

表3 零售業熱點區塊的位置數據點統計(基于密度聚類提取)

(二)加權D BSCA N算法

DBSCAN算法提取的聚類簇只滿足地理位置的高聚集分布,而沒有考慮數據點的簽到次數屬性。因此,對簽到次數屬性值做變換得到一個按照公式(2)計算權重系數的 w,其中 j=1,…,n。

可見,w取值范圍是(0,+1),且 w取值越接近 +1 說明數據點(x,y)的簽到次數越高,即該點簽到熱度越高,在與簇中心點(x,y)距離相等的條件下,則越可能被劃入簇中。因此,可得加權DBSCAN算法中相似度函數的距離計算公式(3)。其中,參數ω的取值根據權重系數w的取值范圍而定。

仍然以表2數據集為例,動態加權聚類算法在餐飲行業中提取了3個熱點區塊,總共包含100個高熱簽到位置數據點,簽到次數共計140191次(表4)。提取了3個零售行業熱點區塊,總共包含94個高熱簽到位置數據點,簽到次數共計330360次(表5)。

表4 餐飲業熱點區塊的位置數據點統計(加權密度聚類提取)

表5 零售業熱點區塊的位置數據點統計(加權密度聚類提取)

(三)仿真效果對比分析

通過對比仿真結果可以發現,加權DBSCAN算法提取的高熱簽到點的數目要多于傳統DBSCAN算法,以簽到次數作為權重系數的加權DBSCAN算法提取的商戶網點的受歡迎熱度更高。傳統DBSCAN算法只是按照地理位置的距離遠近判定網點是否歸屬聚類簇,無法識別出地處較為偏遠的高熱簽到網點,可能會導致某些明顯的高熱點因為地理位置要素而被傳統算法忽視。而加權DBSCAN算法由于考慮了非位置屬性,可以避免高熱點的遺漏。例如,表5中零售行業的關鍵區塊3是沒有出現在傳統算法的提取結果表3中,但是區塊3的數據點平均簽到次數卻高達2688,與地處目標城市中心的區塊1的平均簽到次數差不多。因此,加權DBSCAN算法可以提取更多的高熱度的商戶集群。

三、加權的空間數據挖掘對疫情監測的作用

(一)熱點區塊探知對疫情監測關鍵區域探知的支持

根據武漢市衛生健康委員會2020年5月28日發布的《武漢市新冠肺炎疫情動態(2020年5月27日)》數據,截止2020年5月27日24時,全市累計報告確診病例50340例。其中武漢市中心城區內的江岸區6563例、江漢區5242例、硚口區6854例、漢陽區4691例、武昌區7551例、青山區2804例、洪山區4718例、東西湖區2478例。對比加權DBSCAN算法提取的熱點區塊空間位置分布情況,不管是在餐飲業還是零售業,最密集的高熱區塊正好覆蓋了武漢市主城區內確診病例數最多的四個行政區,即江岸區、江漢區、硚口區和武昌區。因此,對空間數據挖掘來探知行業熱點區塊,能準確發現疫情可能爆發或具有高傳播性的關鍵區域,支持相關部門疫情防控工作的開展。

(二)多屬性加權聚類分析對疫情監測科學性的支持

一旦感染區域分布與疫情實際傳播情況存在偏差,就有可能嚴重影響疫情防控工作的順利開展,甚至會造成人民生命財產的重大損失。因此,要保障城市應對重大疫情的疫情監測工作常態化的順利開展,全面考慮空間數據的多個維度才能最大程度準確獲取疫情可能爆發的重點區域或感染區域的空間分布。加權DBSCAN算法提取的熱點區塊和高熱點是綜合了空間數據的地理位置坐標屬性和簽到次數,考慮了重要的非空間位置屬性可能對判定位置點的分類歸屬的影響,使提取的關鍵區塊的空間分布模式更科學合理,避免了對某些距離相對較為分散的關鍵高熱點的遺漏。

(三)基于數據驅動知識發現對疫情監測大數據特性的支持

疫情監測工作需要獲取感染區域、規模、密度、時空分布和流動情況,發現疫情可能爆發的區域位置。這種空間分布模式的探究需要對數據實時處理,而不是事后的問卷調查和統計分析。疫情監測的原始空間數據來源多樣、數據體積巨大、數據量增長速度快速,具有典型的大數據特征。聚類分析屬于以數據驅動知識發現的第四研究范式,相比較傳統的實證研究、統計分析以及問卷調查等研究方法,直接聚類提取知識的研究方法更適合于具有大數據特征的空間數據挖掘分析。

四、結論

要保障城市疫情監測的常態化,提高城市對公共衛生突發事件的應對能力,就必須探索對多維的、大體量的空間數據的高效處理方法,挖掘疫情傳播的空間分布模式,發現并預測疫情可能爆發的重點區域。空間數據挖掘能夠科學探知城市疫情防控關鍵區塊或關鍵點,能夠合理指導疫情防控重點區域的工作部署,還能夠應對未來海量的疫情監測大數據的處理和分析。通過對空間位置數據的直接加權聚類提取,可以發現空間數據的某些屬性與疫情爆發和傳播的空間分布模式的必然關系,為城市疫情監測常態化工作實施提供重要科學依據。

猜你喜歡
數據挖掘疫情
戰疫情
探討人工智能與數據挖掘發展趨勢
抗疫情 顯擔當
人大建設(2020年5期)2020-09-25 08:56:22
疫情中的我
疫情當前 警察不退
北極光(2020年1期)2020-07-24 09:04:04
待疫情散去 春暖花開
文苑(2020年4期)2020-05-30 12:35:48
疫情期在家帶娃日常……
37°女人(2020年5期)2020-05-11 05:58:52
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 国产在线视频福利资源站| 中国毛片网| 欧美劲爆第一页| 国产精品开放后亚洲| 九色在线视频导航91| 国产男女XX00免费观看| 免费99精品国产自在现线| 色婷婷亚洲十月十月色天| 中国美女**毛片录像在线| 国产欧美精品午夜在线播放| 亚洲嫩模喷白浆| 免费在线看黄网址| 国产麻豆精品在线观看| 精品一区二区三区无码视频无码| 久久国产香蕉| 99精品在线看| 午夜毛片免费观看视频 | 麻豆精品在线| 免费一级无码在线网站| 中文无码日韩精品| 成人av专区精品无码国产| 2020国产免费久久精品99| swag国产精品| 国产亚洲男人的天堂在线观看| 一级福利视频| 伊人无码视屏| 91亚洲精选| 国产精品无码久久久久久| 亚洲香蕉在线| 91精品网站| 激情视频综合网| 亚洲免费毛片| 国产幂在线无码精品| 亚洲欧美综合精品久久成人网| 亚洲大学生视频在线播放| 欧美人与性动交a欧美精品| 精品福利视频导航| 熟女日韩精品2区| 国产女人18水真多毛片18精品| 国产成人a毛片在线| 亚洲综合狠狠| 亚洲成年人片| 亚洲高清无码久久久| 福利在线一区| 成人精品免费视频| 波多野结衣中文字幕久久| 久久亚洲中文字幕精品一区| 国产精品99久久久| 嫩草国产在线| 国产精品视屏| 中文字幕色站| 日韩区欧美区| 日本一区二区三区精品AⅤ| 57pao国产成视频免费播放| 亚洲AⅤ综合在线欧美一区| 免费观看精品视频999| 国产第一页亚洲| 日韩av高清无码一区二区三区| 99热这里只有精品久久免费| 国产精品护士| 国产福利在线观看精品| 亚洲视屏在线观看| 91 九色视频丝袜| 欧美视频在线播放观看免费福利资源| 亚洲第一福利视频导航| 国产农村精品一级毛片视频| 色天天综合| AV色爱天堂网| 精品欧美日韩国产日漫一区不卡| 毛片网站在线播放| 久久国产精品无码hdav| 都市激情亚洲综合久久| 国外欧美一区另类中文字幕| 二级毛片免费观看全程| 在线精品自拍| 国产午夜精品一区二区三区软件| 亚洲资源站av无码网址| 国产黑丝视频在线观看| 亚洲最大福利网站| 成人福利视频网| 亚洲精品波多野结衣| 色噜噜综合网|