中國信息通信研究院

2020年開年之際,新型冠狀病毒帶來的肺炎疫情洶涌而至。疫情突發性高、傳染性強、擴散性廣、風險性大,防控工作任務艱巨、時間緊迫、形勢嚴峻。在這場疫情阻擊戰中,大數據、云計算、人工智能等快速發展的新一代信息通信技術加速與交通、醫療、教育等領域深度融合,讓疫情防控的組織和執行更加高效,成為戰“疫”的強有力武器。可以看出,隨著疫情發展,數據驅動的疫情防控在迅速展開,各企業的疫情防控應用場景不斷涌現,應用范圍持續拓展。
雖然大數據和智能技術在疫情防控過程中可以發揮重大作用,但從此次疫情應對情況來看,特別是基于互聯網企業在數據驅動的疫情防控過程中發揮的作用來看,仍有很大空間值得挖掘和提升。
從各互聯網企業的案例中不難看出,大部分企業在疫情防控中的數據基本來源于政府公開數據,而目前政府公開的數據維度不夠豐富,難以滿足公眾需求。
在大數據時代,公眾的信息需求發生了變化,面對疫情,公眾關注的重點不僅僅是防控工作動態、自我防護知識、相關政策文件等信息,同時更加關注一些具體的、量化的疫情相關數據。
例如,公眾既希望獲知一個地方總體概況的統計數據(各個省市或區縣每天累計有多少疑似、確診、危重、出院或死亡病例?每天又新增或減少了多少?疑似病例中有多少人被排除了?密切接觸者中又有多少人被解除了觀察?),也希望獲知相關病人個體的數據(這些病人分別從哪里來?去過哪里?哪天發病?在哪家醫院就診?有什么病癥?目前情況如何?)。根據目前政府公開的信息和企業案例中提供的數據,絕大部分地區都還難以滿足這些需求。
此外,一些政府部門和基層組織在采集疫情相關數據時仍然采用手工作坊式的人海戰術,通常采用手工填表、電話問詢等方式,這既給基層工作人員增加負擔,也無法保證數據的真實性。例如,在采集患者個人信息時,由于沒有區分所留手機號是病患的還是病患家屬的,可能導致運營商系統核驗存在大量身份號與手機號不一致的結果,給后續數據分析的準確性和真實性造成困難。
從疫情分析的數據來看,目前公開渠道獲取的數據不規范,數據口徑、數據統計時間等維度不統一,為分析帶來很大困難。數據源混雜重復、數據質量不高的情況十分普遍,數據可信性有待提升。
疫情防控分析過程中,每時每刻都在產生大量的數據。一個疏忽錯登的身份號、一條記錄不詳的家庭住址、一次出行信息的瞞報、一例本人未知的密切接觸,都可能成為觸發新疫情的導火索。對大數據的預處理階段的不重視,數據處理的不規范,很可能導致真實數據獲取難度的增加。從現有數據上報形式和數據上報的質量來看,數據上報過程中還存在很多不規范、不合理的情況。
以上種種原因,導致數據的可用性差、質量差、不準確。防控分析大數據的意義不僅僅是要收集規模龐大的數據信息,還要對收集到的數據進行很好地預處理,讓數據分析和數據挖掘人員從可用性高的大數據中提取有價值的信息,這才是最終目標。
隨著新冠肺炎疫情防控形勢不斷升級,各地紛紛采取多樣的宣傳預防方式,其中,排查上報重點地區返鄉人員和確診患者信息,是一項十分重要的舉措,能夠幫助衛生監督機構及時掌握情況,迅速切斷傳播。雖然有關部門第一時間制作了隱去個人隱私信息的確診患者相同行程查詢工具,但在原始數據上報過程中,數據還是遭到不同程度的泄露。不久前有許多載有個人信息的文件,突然間在微信、微博等社交平臺上瘋狂轉發,內容包括相關人員的姓名、照片、工作單位、就讀學校、家庭住址、手機號碼及身份號等,給返鄉人員及確診患者的生活帶來極大困擾,不少人接到騷擾電話和謾罵短信,暴露出個人數據保護的不足。
《中華人民共和國民法總則》第一百一十條、第一百一十一條規定:公民享有隱私權,個人信息受法律保護,任何組織和個人不得非法收集、使用、加工、傳輸他人個人信息,不得非法買賣、提供或者公開他人個人信息。《中華人民共和國傳染病防治法》第十二條也有相關規定,疾病預防控制機構、醫療機構不得泄露涉及個人隱私的有關信息、資料。
在疫情防控的特殊時期,公眾知情權、公共安全與公民隱私權需要兼顧平衡。基于疫情防控這一公共利益的切實需要,可以對特殊人群的特定信息進行披露,但應當遵循合規原則,公開內容應確實必要,符合疫情防控目的,公開手段應合理適當,盡可能將負面影響降到最低。
為做好新冠肺炎疫情聯防聯控中的個人信息保護,積極利用包括個人信息在內的大數據支撐聯防聯控工作,中央網絡安全和信息化委員會辦公室在2020年2月4日發布《關于做好個人信息保護利用大數據支撐聯防聯控工作的通知》,明確為疫情防控、疾病防治收集的個人信息,不得用于其他用途。任何單位和個人未經被收集者同意,不得公開姓名、年齡、身份號碼等個人信息。
通知要求,各地區各部門要高度重視個人信息保護工作,除國務院衛生健康部門依據《中華人民共和國網絡安全法》《中華人民共和國傳染病防治法》《突發公共衛生事件應急條例》授權的機構外,其他任何單位和個人不得以疫情防控、疾病防治為由,未經被收集者同意收集使用個人信息。法律、行政法規另有規定的,按其規定執行。
通知還要求,收集必需的個人信息應參照國家標準的個人信息安全規范,堅持最小范圍原則,收集對象原則上限于確診者、疑似者、密切接觸者等重點人群,一般不針對特定地區的所有人群,防止形成對特定地域人群的事實上歧視。
通知明確,為疫情防控、疾病防治收集的個人信息,不得用于其他用途。任何單位和個人未經被收集者同意,不得公開姓名、年齡、身份號碼、電話號碼、家庭住址等個人信息,因聯防聯控工作需要,且經過脫敏處理的除外。
大數據的核心在于互聯互通。只有融會了多源數據,才能體現大數據的價值。在疫情防控中我們也看到數據分散割裂、聚而不通、通而不用的問題。這很大程度上是因為數據源與數據開發能力不匹配所導致的,即掌握數據的一方缺少足夠的數據開發利用能力,而擁有數據開發能力的一方沒有足夠的數據,致使數據無法流通并發揮最大作用。
同時,不同企業和政府部門的數據呈現“孤島”形態,數據亟需高效整合。全國各級地方政府部門、各大互聯網企業利用大數據防疫的挑戰之一就是數據的碎片化。從多個互聯網企業案例來看,數據常常散落在不同部門,而且這些數據存在不同的數據倉庫中,不同部門的數據技術也有可能不一樣,這導致地區內部、企業內部自己的數據都沒法打通。如果不打通這些數據,大數據的價值將非常難挖掘。大數據需要不同數據的關聯和整合才能更好地發揮優勢。如何將數據打通,并且實現技術和工具共享,是更好地體現大數據在防疫中的價值的關鍵。
編輯:張程? 3567672799@qq.com