999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據技術在疫情精準防控中的應用

2021-01-21 04:30:10李剛鄭佳尹華山黃文超
大數據 2021年1期
關鍵詞:關聯防控文本

李剛,鄭佳,尹華山,黃文超

廣州市數字政府運營中心,廣東 廣州 510623

1 引言

2020年年初,由新型冠狀病毒肺炎(COVID-19)帶來的全球性疫情對我國各地造成了巨大沖擊。在疫情全球流行的背景下,我國疫情得到了有效控制,這是我國政府治理能力整體提升的表現。自黨的十八屆三中全會提出“推進國家治理體系和治理能力現代化”以來,各地不斷加強政務信息系統統籌和整合,強化數據資源的匯聚和分析利用,政務信息化不斷朝數據化、智能化方向發展。

X市由于人口規模大、外來流動人口比例大、進出口繁榮,在疫情期間遭受到嚴重的沖擊。但是,總體來說,X市實現了對疫情的有效防控,有序開展復工復產,保證了經濟的平穩復蘇,這很大程度上要歸功于長久以來數字政府領域的積累和沉淀,比如以“四標四實”(即標準作業圖、標準建筑物編碼、標準地址庫、標準基礎網格,實有人口、實有房屋、實有單位、實有設施)為核心的基礎信息采集和大數據庫建設工作。

大數據技術應用為疫情數據的分析利用提供了重要的技術工具。通過對“四標四實”數據、重點人群數據、市民填報數據、基層摸查數據等不同來源的數據進行清洗、比對和挖掘分析,發現疫情線索,生成預警信息,為基層人員核查和輔助領導決策提供了重要的技術支撐。

下面針對疫情防控大數據建設及應用、大數據分析和挖掘技術在疫情防控中的應用兩個方面,介紹基于大數據疫情防控的一系列行之有效的方法和技術。

2 疫情防控 大數據建設及應用

2.1 “四標四實”基礎數據建設情況

為推進“平安城市”建設,X市于2017年開始實施“四標四實”專項工作,建設了“數字政府”基礎應用平臺,制定了《四標四實專項信息共享目錄》,并依托政務信息共享平臺匯集了35個部門及11個區的數據,對全市道路、街巷名稱不規范(包括無名、重名、一路多名、不標準)情況進行了全面排查清理,由民政部門依法確定的標準地名和公安機關依法確定的標準門樓牌組合生成標準地址。依托“標準作業圖”,全面采集實有人口數據,實現人員、房屋、地址精準關聯匹配,解決戶籍人員存在的“一人多址、人戶分離”、流動人口存在的居住登記和注銷問題,為衛生、消防、公安、稅務、交通、社保、城建、統計等各領域的政府服務提供了強有力的支撐。

X市通過“四標四實”工作匯聚了公安、住建、規劃、國土、交通、民政、水務、環保、農業等35個職能部門的與自然人相關的信息,它不僅包含居民身份、房屋地址等基礎信息,而且涵蓋了人房居住關系,人口流動情況,常住人口工商登記、社保繳納、就業、醫療,居民日常出行等個人全景式數據信息。目前,數字政府基礎應用平臺匯集超過2.5億條城市基礎數據,劃分出近2萬個城鄉“標準基礎網格”,定位視頻點152萬個,將全市人、房、業信息核準、更新后納入“四標四實”大數據庫。數字政府基礎應用平臺與市場監管等26個部門的應用系統進行對接,政府部門通過應用平臺實行數據交換和更新,全面優化了基層治理能力,是全市治理能力現代化的里程碑性工程。

2.2 疫情防控大數據應用

在疫情期間,該市以數字政府基礎應用平臺和“四標四實”大數據庫為依托,借助云計算、大數據技術,通過數據高度共享、系統高度融合、服務高度集成,建成疫情態勢實時感知、人員精準管控、企業精準幫扶的疫情防控指揮系統。該系統支撐疫情監測分析、防控救治、資源調配,有力地支持疫情防控和復工復產政策措施快速部署、快速落地,逐步成為全市數據樞紐和決策指揮“智慧大腦”。疫情防控指揮系統進一步整合匯聚15個部門的22類數據,建立暢通的數據通道,持續將確診人員、重點人員、集中觀察點等疫情防控相關數據與“四標四實”數據進行全面關聯,實現防控對象、防控設施精準上圖,形成疫情指揮“一張圖”。目前“一張圖”已匯聚各類信息2.76億條,通過小程序上報信息4 000多萬條(含線索5萬多條),監控重點人群(包括患者、密切接觸者、集中觀察人群)相關數據超過30萬條。

基于“四標四實”的精準疫情防控模塊,以“四標四實”大數據庫的數據為基礎,進一步匯聚整理了人房居住關系數據、政企事業單位數據以及單位從業人員數據、社保繳納數據,建立了人員群居關系、人口家庭關系、工作同事關系等數據單元。疫情期間再次疊加確診人群數據和紅碼人群數據、公共交通乘坐記錄等,建立數據規則模型,精準識別重點人群,輔助防疫人員進行重點跟蹤和布防。疫情防控大數據建設及應用情況圖1所示。

平臺根據業務數據類型,建立家庭人群、同住人群、同事人群、同樓人群、同社區人群、同行人群等數據實體,以確診人員、疑似病例為核心,以發現時間和隔離要求為輔助條件,設置相關算法規則,精準識別高危人員、重點人員以及應跟蹤觀察的人員等不同級別的群體。

3 大數據分析和挖掘技術在疫情防控中的應用

圖1 疫情防控大數據建設及應用情況

為了充分利用數據中的隱含信息,有效識別潛在的高危人群、感染人群,對聚集性感染事件進行預警,必須采用關聯規則、聚類分析等大數據分析和挖掘技術。X市疫情防控指揮系統構建了一套處理數據、挖掘數據的解決方案,并且在疫情防控實戰中通過不斷訓練增強了自身的應對能力。

3.1 基于關聯規則的重點懷疑對象挖掘

在“一張圖”中,人與人的關系分為同住關系、同事關系、同乘交通工具等,而現實情況更為復雜,大多數關聯關系沒有被人為編寫的關系數據庫所收納。然而這些關系造成的接觸正是疫情防控工作中的盲點、難點。如何基于已有可接觸的數據,推知間接的、隱含的、可以造成人員之間接觸的關聯關系,是應用數據挖掘的重點和難點。

應用關聯規則發現目標數據的經典案例出現在零售領域,即耳熟能詳的“啤酒與紙尿褲法則”,盡管在邏輯上難以推測出這兩種商品的消費關聯性,但是可以通過統計數據的積累,基于貝葉斯概率得到量化的二者間的關聯度[1-2]。COVID-19感染人員傳播途徑時空分析圖2所示。基于COVID-19感染人員傳播途徑時空分析的關聯規則聚類如圖3所示。

圖2 COVID-19感染人員傳播途徑時空分析

圖3 基于COVID-19感染人員傳播途徑時空分析的關聯規則聚類

在疫情防控中,經常有這樣一種情況:數據庫中有一位市民的居住地和工作地數據,也有其工作時間(如進入單位時健康碼掃碼所得)數據,沒有該市民的出行行程信息,但是該信息也是非常受關注的,關聯規則挖掘就可以用在此處[3-4]。通過對具有隱含信息的情報進行分析,獲取與其關聯的信息,比如,通過工作地、居住地信息,結合規則的抽取算法,可以推知較可能的出行方式和涉及的公共交通線路等信息,從而在這一群體中出現感染者或疑似感染者時,能夠快速對這一群體進行預警和監控。這一過程的意義在于為后續的重點人群篩選算法提供人群間關系的支持度和置信度數據。比如,某市民的居住地和工作地都在某地鐵線路附近,并且工作時間已知。通過對地理信息的分析,模型可以針對其通過地鐵出行,以及在某一時段在某一地鐵線路上出現的概率給出判斷,從而在該出行群體出現敏感對象時,量化該市民和該對象間的關系。

基于關聯規則挖掘疫情重點人群的模型充分利用了已有的數字政府基礎應用平臺的數據資源,訓練獲取了包括家庭住址同居人、工作單位同事、通勤可能接 觸人群、常去消費場所可能接觸人群、居住地附近活動可能接觸人群等一系列 關聯關系數據,如圖4所示。基于這種拓展,有效擴大了原本簡單的關聯規則,擴大了疫情緊急情況發生時的監控范圍,有效地防止了疫情擴散。

為了科學地制定市民關聯數據規則,本文采用基于規則模型的閾值數據抽取方法。對于每一個市民,在“四標四實”的基礎數據庫中,通過主成分分析、因子分析及基于機器學習的回歸算法等特征提取方法,建立與防疫相關的市民關聯向量,記為其中每個維度對應家庭住址、工作單位、通勤方式、常去消費場所、居民活動時間、重要人流密集區域、隱藏同居人和密接同行人等一系列關聯關系。假設市民A為疑似感染者,則可以定義基于樣本 性質,可以定義市民B的關聯向量為:如果A與B的第i個分量屬于同一個范疇(可根據“四標四實”中的距離標定數據給出),則B繼承A在該分量的值;否則,對應分量值滿足即:

針對疫情人員關聯信息網中重點人群的抽取過程,依據疫情發展的不同階段設計出兩種對應的數據抽取方法。

(1)閾值信息法

在疫情發展平緩的情形下,COVID-19檢測呈陽性人員較少,病毒傳播人群結構信息較明確,市民關聯信息較易獲取,故可以采取閾值信息法篩選重點懷疑對象人群。假設市民A為檢測呈陽性人員(信息由X市相關醫療機構提供)。

第一步:設置地理位置閾值信息Gε,根據歐幾里得范數多維球面區域初步篩選懷疑對象人群,其中分別為市民A和篩選對象I的原始個人地理位置信息,二者信息間距取歐幾里得范數E。

第二步:求解市民關聯模型閾值信息Fε,根據非線性高斯不規則球面區域進行確定,表示篩選對象J與市民A在關聯信息網中的節點相關性。市民關聯模型閾值信息Fε由傳染病微分方程模型——易感者-感染者-易感者(susceptibleinfectious-susceptible,SIS)模型確定:設S(t)為t時刻的易感者人數,I(t)為t時刻的感染者人數,N為群體總人數,則SIS模型可以表示為:

其中,r表示在單位時間內感染者接觸到的易感者人數,β表示傳染率,γ表示康復率,則市民關聯模型閾值信息Fε可以通過式(2)的解表示為:

(2)奇異值分解法

在疫情剛剛出現及新的突發情況出現的情形下,COVID-19感染人員情況不明,病毒傳播人群結構信息較為模糊,市民關聯信息很難獲取,需篩查的重點人群目標不明確,因此利用奇異值分解法(singular value decomposition,SVD)篩選重點懷疑對象人群。假設市民A為檢測呈陽性人員(信息由X市相關醫療機構提供)。

第一步:設置地理位置閾值信息Gε,根據歐幾里得范數多維球面區域初步篩選懷疑對象人群,其中n為大規模篩選懷疑對象人群模型的參數,分別為市民A和篩選對象I的原始個人地理位置信息。

圖4 基于關聯規則的重點懷疑對象挖掘

第二步:根據閾值信息法中給出的市民關聯模型閾值信息Fε,將重點懷疑對象人群集合擴大為符合的非線性高斯不規則球面區域。針對中的所有篩選對象J計算關聯信息網的節點相關性 Cov(CovNet)AJ,構造大規模市民關聯信息矩陣。由關聯信息網節點相關性 Cov(CovNet)AJ的定義可知,是一個對角線全為零的非負矩陣,因此由奇異值分解定理可知,存在矩陣U、V,滿足:其中并且根據奇異值分解定理,矩陣V的前m1列恰為的右奇異向量組,可以表示為其中為向量組中的向量個數,α常取0.05,m1表示右奇異向量組的子集中特值最大且加和幾乎等于之跡的最小向量組(SVD在此處起到篩選要點的作用,只考察最相關的奇異值,舍棄噪聲)。因此大規模篩選重點懷疑對象人群的數據抽取方向確定為向量組中每一個向量均表示一個與COVID-19感染者密切相關的人員(即m1個對象),vi表示其在關聯信息網中各維度信息與市民A的距離向量。

3.2 基于概率聚類算法的聚集性感染預警

根據人工采集統計的疫情信息,僅可以發現家庭聚集、企業聚集等少數特征明顯的聚集性感染情形,無法發現所采集條目文本外的隱含信息所關聯的傳播場景。例如當感染者在居民區附近的超市被感染時,這一信息不會被直接收入數據庫中,但是可能可以用已有信息向量來表示。基于概率聚類算法,在高維度、大數據量的居民綜合信息中,系統可以無監督地動態地發現具有高相似性的居民群體[5-6],如果所得聚類在緊密性、信息距離等指標上符合要求,就會推送給人工審閱,如果的確是缺失的觀察角度,就會被標注,進一步分析。通過這種方式,可以極大地擴充視野、查漏補缺,避免人工設計的不足[7-8]。

基于,期望最大化(expectation maxmum,EM)概率聚類的聚集性感染預警算法框架如圖5所示。具體算法步驟如下。

第一步:根據“四標四實”基礎數據平臺的相關個人信息(主要包括地理位置信息(居住位置和工作位置為主)、網格普查所得行程信息、基于歷史記錄數據的行為畫像等)建立個人行為向量。

第二步:將個人行為向量作為空間中的節點,建立基于EM概率聚類算法的聚集性 感染預警模型。記個人行為向量的維數為d,設聚集性感染的情形有k種,其中包括家庭聚集、企業聚集以及商業場所聚集等情形。設第j個聚類集合jχ的人行為向量集合可以表示為假設基于的概率參數模型可以用來描述人行為向量集合的分布,其中θ為隱含參數集合,為參數各成分均值向量,為參數各成分協方差矩陣,則它的混合密度為:

根據大數定理,當樣本量足夠大時,樣本集近似服從高斯分布。此時概率聚類模型參數集合可以通過EM算法給出。

3.3 基于非結構化數據的文本挖掘發現疫情線索

疫情期間,來自政府服務熱線、微信投訴平臺、各部門投訴渠道和網站的疫情相關線索數量巨大、文本眾多,各部門人力不足,無法通過人工充分利用這些非結構化的情報,使用文本挖掘的手段篩選文本數據中的關鍵信息、高頻熱詞、輿情趨勢以及把握群眾心理十分有必要。

文本數據中包含的有價值的信息之一是與疫情有關的地理空間信息,結合疫情防控指揮系統整合的數據,系統可以快速定位疑似聚集性感染發生地、劃定高危地區。利用BiLSTM+CRF模型進行文本序列標注,使用ERNIE語義模型進行實體抽取的訓練和微調,所獲得的模型可以識別出多級地址、主語、組織機構名和事項,從而從非結構化的文本中獲得有價值的信息。為了增加模型的精確度和提高對本地情報信息的敏感度,在MSRA-NER數據集的基礎上,訓練分兩步,即分別在源域進行學習和在目標域進行遷移學習,結合在先前積累的政務數據中篩選出的常見實體、事項、專有名詞庫,通過遷移學習,較快地得到了更精準的模型。

除地理信息等預定的需求實體信息外,十分常見而難以預先規定的重要信息是關于主體行為的謂詞信息。對于少部分契合政務數據庫中既有常見事項的信息,可以通過上述實體抽取技術獲取,而由于疫情的突然性和新穎性,疫情線索中涉及的絕大多數情報并非既有事項,市民使用的口語化表述往往不利于統計和進行進一步的數據治理。因此,對日常語言化的表述進行“序列到序列(seq2seq)”的文本生成十分有必要。這種方法本質上和機械翻譯使用的序列到序列的技術是類似的。針對漢語較復雜的短語、詞組結構(比如由于斷句的不同,句子可能產生歧義,這對文本生成是一個挑戰),此處采用多層次注意力(multi-flow attention)機制的結構,即在詞與詞(word-by-word)和段與段(span-by-span)兩個級別上的填充生成機制。于是,基于ERNIE-GEN模型[9]的結構,形成了一套文本縮寫工具,使得系統可以將口語化的疫情線索文本簡化為包含關鍵元素的簡單陳述句,便于進一步的數據治理和人工匯總使用。

通過上述技術,計算機可以將一段文本翻譯為只包含重點關注要素的簡單陳述句或結構化的記錄表,繼而可以將之加入“一張圖”的數據庫中,或通過聚類等方法加以利用,如圖6所示。

圖5 基于EM概率聚類算法的聚集性感染預警算法框架

在具體處理過程中,模型通過主題模型聚類方法,以及潛在語義分析、潛在狄利克萊分配(latent Dirichlet allocation)和概率潛在語義分析等手段發現等價詞與主題的表示集合[7]。這種等價是通過文本內詞之間的共現關系來實現的,特別適用于疫情文本非結構化數據的多主題標記特點[10]。而基于劃分的聚類方法(包括K-均值、非線性K-均值和核K-均值等算法)可以通過角距離的度量實現非結構化大規模語義分類[11]。對于常見主題結構的文本語義分析,也可以通過詞轉向量的方法將非結構數據結構化,然后通過結構數據分析方法提取疫情線索信息。基于上述方法的算法結構如圖7所示。

4 結束語

X市依托數字政府基礎應用平臺及“四標四實”基層治理數據,采用大數據分析和挖掘技術,快速構建了疫情防控指揮系統,在疫情防控工作中該系統發揮了重要作用。該平臺已應用于市委辦公廳、市政府辦公廳、市發改委、市公安局、市衛健委等76個部門、11個區、176個街道、2 790個村委、25家醫院,累計節約了十余萬小時的基層人力消耗,助力實現一個月左右的將本土每日新增病例控制在個位數,3個月左右本土每日新增病例基本為零。截至2020年7月21日,通過該系統發現并阻斷感染人52人,累計“紅碼”人員305 024人,集中隔離11 310人,居家隔離1 095人,直接減少經濟損失3 400萬元;在后續企業復工復產工作中,系統進一步整合了全市企業數據,支持了對全市30 933家重點企業和579個重點項目的精準幫扶,有力推動了經濟的快速復蘇。

圖6 基于非結構化數據的文本挖掘發現疫情線索

圖7 基于聚類方法的非結構化文本數據挖掘發現疫情線索算法結構

在平臺的建設和應用過程中,X市數字政府有關部門也發現了一些不足的地方:一是個別政府部門信息化建設相對薄弱,部分重要數據仍然通過電子表格的形式進行采集,影響了數據比對、清洗和分析的效率;二是對人工智能技術的利用尚不夠深入。下一步X市將全面加強疫情防控相關信息化建設工作,全面匯聚政務信息資源,充分利用最新人工智能技術,為疫情防控常態化提供更加有力的支撐。

猜你喜歡
關聯防控文本
配合防控 人人有責
環球時報(2022-04-25)2022-04-25 17:20:21
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
豬常見腹瀉病癥狀及防控
今日農業(2021年15期)2021-10-14 08:20:18
守牢防控一線 靜待春暖花開
人大建設(2020年3期)2020-07-27 02:48:40
在808DA上文本顯示的改善
夏季羊中暑的防控
今日農業(2019年14期)2019-09-18 01:21:44
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 1024你懂的国产精品| 啪啪免费视频一区二区| 精品欧美视频| 亚洲熟女偷拍| 日本免费精品| 亚洲欧美人成人让影院| 青青青视频蜜桃一区二区| 91丨九色丨首页在线播放| 有专无码视频| 日韩经典精品无码一区二区| 国产麻豆aⅴ精品无码| 国产成人精品视频一区视频二区| 国产激情无码一区二区免费| а∨天堂一区中文字幕| 亚洲精品无码抽插日韩| 无码精品国产dvd在线观看9久| 深夜福利视频一区二区| 亚洲嫩模喷白浆| 91午夜福利在线观看| 草逼视频国产| 国产激情第一页| 伊人久久婷婷五月综合97色| 国产剧情伊人| 国产精品一区二区在线播放| 久久中文字幕av不卡一区二区| 国产呦视频免费视频在线观看| 玩两个丰满老熟女久久网| 国产精品无码AV片在线观看播放| 久久窝窝国产精品午夜看片| 国产人在线成免费视频| h网站在线播放| 国产精品嫩草影院视频| 亚洲色图欧美激情| 国产成人精品视频一区二区电影 | 手机在线免费不卡一区二| 老司机精品久久| 免费人成视频在线观看网站| 成人国产一区二区三区| 黄色网站不卡无码| 91精品人妻互换| 亚洲成人在线免费| 2021国产在线视频| 亚洲高清免费在线观看| 中国毛片网| 丁香综合在线| 久久精品无码国产一区二区三区| 国产成人精品男人的天堂| 成人精品午夜福利在线播放| 谁有在线观看日韩亚洲最新视频| 国产又黄又硬又粗| 国产理论精品| 欧美激情网址| 国产伦精品一区二区三区视频优播| 亚洲最大福利网站| 国产XXXX做受性欧美88| 国产激情无码一区二区APP| 亚洲国产91人成在线| 波多野结衣在线se| 精品伊人久久久香线蕉 | www.狠狠| 欧美一级在线| 中国国产A一级毛片| 日韩专区第一页| 久久综合成人| www.日韩三级| 国产中文一区a级毛片视频| 91视频青青草| 国产亚洲欧美日韩在线一区二区三区| 婷婷综合缴情亚洲五月伊| 亚洲精品国产自在现线最新| 欧美中文一区| 亚洲国产日韩一区| 国内自拍久第一页| 国产麻豆精品久久一二三| 国产精品视频a| 国产极品美女在线| 91色在线视频| 亚洲性日韩精品一区二区| 麻豆精品久久久久久久99蜜桃| 国产精品va免费视频| 99久久精品免费视频| 精品三级网站|