劉奕
摘? ?要:大數(shù)據(jù)是國家提高公共衛(wèi)生保障能力和應(yīng)對流行病威脅的關(guān)鍵資源。從可得性和應(yīng)用價(jià)值來看,公共衛(wèi)生中涉及的大型數(shù)據(jù)源可以分為五大類,即醫(yī)學(xué)大數(shù)據(jù)、互聯(lián)網(wǎng)大數(shù)據(jù)、地理/氣象大數(shù)據(jù)、基于便攜設(shè)備的人類行為大數(shù)據(jù)和零售大數(shù)據(jù)。將多來源大數(shù)據(jù)納入公共衛(wèi)生體系,有助于改善公共衛(wèi)生體系信息報(bào)送的及時(shí)性、完整性以及對新發(fā)傳染病的監(jiān)測敏銳性,幫助傳染病防控政策精準(zhǔn)實(shí)施,但面臨著數(shù)據(jù)挖掘和共享、數(shù)據(jù)集成和處理技術(shù)、數(shù)據(jù)隱私保護(hù)以及管理體制和機(jī)制不適應(yīng)等方面的難題。為此,應(yīng)搭建公共衛(wèi)生大數(shù)據(jù)應(yīng)用協(xié)同網(wǎng)絡(luò),加大大數(shù)據(jù)應(yīng)用專項(xiàng)資金投入,健全公共衛(wèi)生大數(shù)據(jù)治理體系,加強(qiáng)專業(yè)人才培養(yǎng)。
關(guān)鍵詞:公共衛(wèi)生安全;大數(shù)據(jù);公共衛(wèi)生體系;新冠肺炎疫情
中圖分類號:TP311.13? ?文獻(xiàn)標(biāo)識(shí)碼:A? ?文章編號:1003-7543(2020)04-0005-12
隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)和社交媒體等的發(fā)展,全球的數(shù)據(jù)量和數(shù)據(jù)種類急劇增加,大數(shù)據(jù)已成為至關(guān)重要的經(jīng)濟(jì)資產(chǎn)。雖然大數(shù)據(jù)在打擊犯罪、市場營銷、金融、氣象預(yù)測、復(fù)雜物理模擬和環(huán)境治理等領(lǐng)域已顯示出廣闊的應(yīng)用前景,但除了在病毒學(xué)和微生物學(xué)研究中使用全基因組測序和生物信息之外,整體上看醫(yī)療保健領(lǐng)域的大數(shù)據(jù)應(yīng)用速度依然較慢。習(xí)近平總書記在中央政治局常委會(huì)會(huì)議研究應(yīng)對新型冠狀病毒肺炎疫情工作時(shí)的講話中明確指出,新型冠狀病毒肺炎疫情是對我國治理體系和能力的一次大考,應(yīng)健全國家應(yīng)急管理體系,補(bǔ)齊公共衛(wèi)生短板[1]。突如其來的新冠肺炎疫情,暴露出我國公共衛(wèi)生和疾病防控體系建設(shè)與經(jīng)濟(jì)發(fā)展不相適應(yīng)、重大公共衛(wèi)生事件初期科學(xué)防控預(yù)案缺乏、數(shù)據(jù)共享及轉(zhuǎn)化應(yīng)用渠道不通暢等問題[2]。積極應(yīng)對將大數(shù)據(jù)有效納入傳染病監(jiān)測和調(diào)查的挑戰(zhàn),使用人工智能、機(jī)器學(xué)習(xí)等新技術(shù)快速而及時(shí)地捕捉有關(guān)傳染性疾病的多來源動(dòng)態(tài)信息,改進(jìn)公共衛(wèi)生監(jiān)測系統(tǒng)和發(fā)展預(yù)測模型,對于我國在新的歷史時(shí)期提升應(yīng)對突發(fā)重大公共衛(wèi)生事件的能力和水平具有重大價(jià)值。
一、將新的大數(shù)據(jù)源納入公共衛(wèi)生體系的意義與價(jià)值
大數(shù)據(jù)指的是龐大而復(fù)雜的數(shù)據(jù)集合,具有極大量、多種類、生成速度快、準(zhǔn)確性高等特征。圍繞信用卡、互聯(lián)網(wǎng)、手機(jī)和社交網(wǎng)絡(luò)的使用,特別是來自微信、微博、視頻和音頻網(wǎng)站的非結(jié)構(gòu)化數(shù)據(jù)在近些年經(jīng)歷了指數(shù)級增長。雖然數(shù)據(jù)挖掘具有探索隱藏模式和規(guī)律的巨大潛力,但其本質(zhì)上是異構(gòu)的,需要以有組織的形式搜集并予以整合;加之測量技術(shù)、數(shù)據(jù)存儲(chǔ)設(shè)備以及鏈接不同數(shù)據(jù)集的能力特別是機(jī)器學(xué)習(xí)和人工智能等處理技術(shù)應(yīng)用成本的降低[3],搜集、組織和分析大數(shù)據(jù)集以發(fā)現(xiàn)有用信息的價(jià)值得以極大凸顯。公共衛(wèi)生體系預(yù)防疾病、改善健康的能力,很大程度上取決于收集和分析有關(guān)疾病和病因的人群水平數(shù)據(jù),以及采用循證干預(yù)措施的水平。對于傳統(tǒng)的傳染病監(jiān)測而言,基于實(shí)驗(yàn)室測試和公共衛(wèi)生機(jī)構(gòu)收集的醫(yī)學(xué)數(shù)據(jù)是判定的黃金標(biāo)準(zhǔn),但可能會(huì)在時(shí)間上有所滯后,而且存在產(chǎn)出成本高、對小區(qū)域和部分人群的監(jiān)控精確性不足等問題。與傳統(tǒng)的監(jiān)控方法相比,源自電子病歷、志愿者眾包數(shù)據(jù)以及社交媒體、互聯(lián)網(wǎng)和手機(jī)等其他數(shù)字來源生成的大數(shù)據(jù),可以提供有關(guān)傳染病威脅或暴發(fā)的更及時(shí)、詳細(xì)的本地化信息,是現(xiàn)有方法的必要補(bǔ)充。
(一)有助于改善公共衛(wèi)生體系的信息及時(shí)性
現(xiàn)有傳染病的傳統(tǒng)信息積累模型仍然是分級輻射模式的變體,由較小的報(bào)告中心向地方一級的公共衛(wèi)生機(jī)構(gòu)報(bào)告,再由其報(bào)告至國家級公共衛(wèi)生機(jī)構(gòu),累積的信息在總體級別進(jìn)行匯總、處理、更正后,有關(guān)的行動(dòng)再以自上而下的方式傳播到整個(gè)系統(tǒng)。從保證流程專業(yè)和規(guī)范的角度來看,這種方式是有效且經(jīng)濟(jì)的。但是,信息傳遞和處理步驟不可避免地會(huì)出現(xiàn)時(shí)間延遲,并將導(dǎo)致公共衛(wèi)生干預(yù)的響應(yīng)效率降低。在應(yīng)對迅速發(fā)展的傳染病威脅時(shí),醫(yī)學(xué)評估和循證案例積累的時(shí)滯,帶來的后果可能是嚴(yán)重的。雖然在國際層面和一些國家層面已經(jīng)建立起的信息直報(bào)系統(tǒng)被認(rèn)為可以成功識(shí)別潛在疾病的暴發(fā)并實(shí)現(xiàn)疾病暴發(fā)時(shí)的數(shù)據(jù)共享,但這種信息積累模型在可預(yù)測人群和疫情暴發(fā)的情況下才更為有效。在人群大規(guī)模流動(dòng)的情形下,傳染病將以意想不到的方式和速度傳播,疾病發(fā)生和報(bào)告之間的時(shí)間間隔以及數(shù)據(jù)空間分辨率的局限性使監(jiān)控系統(tǒng)的有效性大大降低。相關(guān)研究表明,從首次報(bào)告到區(qū)域或國家開始調(diào)查的時(shí)間,是疾病暴發(fā)嚴(yán)重程度和總持續(xù)時(shí)間的重要決定因素[4]。眾包數(shù)據(jù)以及來自智能手機(jī)、社交媒體和互聯(lián)網(wǎng)等多種不同技術(shù)和平臺(tái)的大數(shù)據(jù),可以提供個(gè)人水平上的實(shí)時(shí)信息,雖然無法直接產(chǎn)出準(zhǔn)確的病例數(shù),但可以用來增強(qiáng)醫(yī)療系統(tǒng)和實(shí)驗(yàn)室的監(jiān)控,有助于從疾病首發(fā)到報(bào)告監(jiān)測時(shí)間間隔的縮短,從而實(shí)現(xiàn)更及時(shí)、更有效的傳染性疾病管理。研究發(fā)現(xiàn),綜合6種基于互聯(lián)網(wǎng)的傳染病大數(shù)據(jù)分析系統(tǒng),能夠比官方公共衛(wèi)生監(jiān)測平均提前10天發(fā)現(xiàn)H5N1流感的暴發(fā)[5]。
(二)有助于增進(jìn)公共衛(wèi)生體系的信息完整性并提升分析精度
在使用常規(guī)傳染病報(bào)告系統(tǒng)的醫(yī)療機(jī)構(gòu)中,可能會(huì)發(fā)生漏診、漏報(bào)和延誤報(bào)告的情況,這些信息通常在匯總分析中被掩蓋。盡管傳統(tǒng)監(jiān)測系統(tǒng)遺漏的病例在臨床上可能不太嚴(yán)重,未被涵蓋的偏遠(yuǎn)地區(qū)在統(tǒng)計(jì)上也不夠顯著,但對于了解疾病傳播規(guī)律、進(jìn)行預(yù)測性建模和控制工作,以及衡量疾病造成的生產(chǎn)力損失可能非常重要。而大數(shù)據(jù)集的一個(gè)突出特點(diǎn)是N=全部,即不需要樣本,可以使用整個(gè)背景種群,故而不存在抽樣偏差問題。而且,智能手機(jī)和可穿戴設(shè)備提供了有關(guān)位置、活動(dòng)和聯(lián)系人的大量實(shí)時(shí)和高分辨率數(shù)據(jù),增加了在“難以到達(dá)”的人群和地區(qū)中獲取信息的機(jī)會(huì),使得以前所未有的細(xì)節(jié)和廣度深入了解人群行為及其健康風(fēng)險(xiǎn)因素成為可能。比如,借助大數(shù)據(jù),決策者可以超越年齡、性別、種族、民族等傳統(tǒng)指標(biāo)來進(jìn)一步細(xì)化患者,并在適當(dāng)?shù)牡乩矸秶鷥?nèi)進(jìn)行匯總,從而反映新發(fā)傳染病的群體和地理異質(zhì)性,對不同類型干預(yù)措施的潛在效應(yīng)進(jìn)行有效評估。
(三)能夠提高公共衛(wèi)生體系對新發(fā)傳染病的監(jiān)測敏感性,節(jié)約社會(huì)成本
傳統(tǒng)的傳染病監(jiān)控系統(tǒng)正受到來自新發(fā)傳染病的挑戰(zhàn),如COVID-19、MERS、SARS、Zika、Ebola等。為了滿足發(fā)現(xiàn)新疾病特別是發(fā)現(xiàn)可能與生物恐怖主義相關(guān)疾病的需求,北美、歐洲及其他地區(qū)的許多國家已投入大量資源開發(fā)綜合癥狀監(jiān)測系統(tǒng)。癥狀監(jiān)測使用確診前可辨別的臨床特征或癥狀發(fā)作提示的活動(dòng)作為疾病活動(dòng)變化的警報(bào),因而可以檢測新出現(xiàn)的疾病。除了可以通過大數(shù)據(jù)平臺(tái)增加新的信息源外,與傳統(tǒng)上用于監(jiān)測異?;顒?dòng)的統(tǒng)計(jì)過程相比,大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)可以為監(jiān)測系統(tǒng)提供重要的優(yōu)勢,比如依托貝葉斯模型建立的算法,可以使用當(dāng)前流行病學(xué)背景下的觀察數(shù)據(jù)和疾病先驗(yàn)概率來估計(jì)疾病事件實(shí)際發(fā)生的概率,從而增進(jìn)公共衛(wèi)生體系的戰(zhàn)略敏捷性。此外,傳統(tǒng)的以生物學(xué)為重點(diǎn)的監(jiān)測技術(shù),采取患者訪談和實(shí)驗(yàn)室檢查、后生成正式報(bào)告鏈條的模式,雖然通常被認(rèn)為是準(zhǔn)確的,但過程成本也是極其高昂的。大數(shù)據(jù)具有用公式化算法代替和支持人類決策的能力,可以更深入地了解和洞察影響健康的因素。與傳統(tǒng)的研究方法相比,它能夠提高統(tǒng)計(jì)的有效性,在公共衛(wèi)生系統(tǒng)中的應(yīng)用有望成為大數(shù)據(jù)領(lǐng)域的最佳實(shí)踐。與個(gè)人生活趨勢相匹配時(shí),從電子健康記錄中提取的數(shù)據(jù)不僅能夠提升單個(gè)患者的護(hù)理水平,而且可以發(fā)現(xiàn)潛在的健康風(fēng)險(xiǎn),預(yù)測公共健康趨勢并在整體上有效降低醫(yī)療成本。
(四)能夠提升預(yù)測模型的精確性,幫助傳染病防控政策精準(zhǔn)實(shí)施
近年來,對個(gè)人和人群進(jìn)行更精確描述分析的“精準(zhǔn)公共衛(wèi)生”,成為公共衛(wèi)生體系發(fā)展的重要方向。精準(zhǔn)公共衛(wèi)生是指通過應(yīng)用新興的方法和技術(shù)監(jiān)測人群中疾病、病原體暴露行為和易感性,從而提高預(yù)防疾病、促進(jìn)健康和減少人群健康差異,以及制定改善健康的政策和目標(biāo)明確的實(shí)施方案的能力。作為一種新興實(shí)踐,精準(zhǔn)公共衛(wèi)生鼓勵(lì)使用新數(shù)據(jù)、新技術(shù)和新方法更精細(xì)地預(yù)測和了解公共衛(wèi)生風(fēng)險(xiǎn),并針對更具體和同質(zhì)的亞人群定制治療方法。大數(shù)據(jù)可以通過改善監(jiān)測和評估效果來促進(jìn)精準(zhǔn)的公共衛(wèi)生;對于預(yù)測模型來說,作為公共衛(wèi)生體系了解疾病傳播情況、進(jìn)行疾病管理計(jì)劃的重要工具,納入大數(shù)據(jù)后,公共衛(wèi)生預(yù)測模型的有效性將有較大提升。與市場營銷和天氣預(yù)報(bào)等其他領(lǐng)域相比,將大數(shù)據(jù)應(yīng)用于傳染病動(dòng)態(tài)建模仍處于起步階段。傳染病與氣象事件的預(yù)測模型之間最大的區(qū)別是可用于參數(shù)化模型的信息的質(zhì)量和數(shù)量,傳染病模型對接觸速率參數(shù)和組內(nèi)組間接觸的異質(zhì)性特別敏感。目前大多數(shù)公共衛(wèi)生模型都假設(shè)組內(nèi)進(jìn)行隨機(jī)混合并僅關(guān)注較大的人口中心之間的混合;而新的大數(shù)據(jù)分析工具可以為傳染病模型提供詳細(xì)的運(yùn)動(dòng)信息,并捕獲種群內(nèi)接觸的異質(zhì)性。為了響應(yīng)媒體的關(guān)注以及由此引起的公眾關(guān)注變化,這種精確的運(yùn)動(dòng)數(shù)據(jù)還可以測量感染者和易感者之間的不同接觸率。通過智能手機(jī)和應(yīng)用程序,還可以收集有關(guān)人員、地點(diǎn)和時(shí)間的數(shù)據(jù),并據(jù)此評估其施行效果,調(diào)整干預(yù)措施。因此,從公共衛(wèi)生的角度來看,大量數(shù)據(jù)的收集構(gòu)成了流行病學(xué)研究中不可估量的資源,有助于分析人群的健康需求、評估基于人群的干預(yù)措施并制定明智的政策。
二、公共衛(wèi)生中的大數(shù)據(jù):來源及應(yīng)用前景
將傳統(tǒng)傳染病監(jiān)測與大數(shù)據(jù)集相結(jié)合,是公共衛(wèi)生體系發(fā)展的重要方向。一些數(shù)據(jù)來源如社交媒體、搜索引擎、衛(wèi)星數(shù)據(jù)、全球氣候、社交媒體、學(xué)校/工作出勤、藥品銷售等本身并未包含很多關(guān)于健康的信息,雖然不能替代公共衛(wèi)生機(jī)構(gòu)和研究人員提供的高質(zhì)量監(jiān)控?cái)?shù)據(jù),但如果將結(jié)構(gòu)化和非結(jié)構(gòu)化的多個(gè)傳統(tǒng)與非傳統(tǒng)數(shù)據(jù)源融合在一起,并通過使用一系列有助于從噪聲中提取信號的工具,它們所反映出的社區(qū)健康狀況的圖景將比僅從臨床數(shù)據(jù)中獲得的更為迅速和可操作。從可得性和應(yīng)用價(jià)值角度來看,公共衛(wèi)生中涉及的大型數(shù)據(jù)源大致可以分為五個(gè)大類,即醫(yī)學(xué)大數(shù)據(jù)、互聯(lián)網(wǎng)大數(shù)據(jù)、地理/氣象大數(shù)據(jù)、基于便攜設(shè)備的人類行為大數(shù)據(jù)、零售大數(shù)據(jù)。
(一)醫(yī)學(xué)大數(shù)據(jù)
從來源上看,醫(yī)學(xué)大數(shù)據(jù)主要包括臨床大數(shù)據(jù)、全基因組測序(WGS)數(shù)據(jù)和眾包大數(shù)據(jù)。這些大數(shù)據(jù)在流行病學(xué)和分子生物學(xué)研究中已得到一定程度的應(yīng)用,但其在傳染病監(jiān)測和調(diào)查中的作用尚待深度挖掘。
1.臨床大數(shù)據(jù)
在醫(yī)療領(lǐng)域,大數(shù)據(jù)來自醫(yī)院信息系統(tǒng)、醫(yī)生的工作、患者體檢、藥房、治療記錄和醫(yī)學(xué)成像等,產(chǎn)出的主要數(shù)據(jù)包括電子健康記錄(EHR)/電子病歷(EMR)、個(gè)人健康記錄(PHR)和醫(yī)學(xué)圖像。EHR目前已被許多國家采用,2012年電子健康記錄產(chǎn)生了約500 PB的數(shù)據(jù),2020年將達(dá)到25 000 PB[6]。盡管電子記錄是公共衛(wèi)生監(jiān)測數(shù)據(jù)的最直接來源,但也有許多因素會(huì)限制其利用。比如,這些大數(shù)據(jù)大多是非結(jié)構(gòu)化的,用于分析來自異構(gòu)源信息的工具尚在探索之中;高機(jī)密性的數(shù)據(jù)集即使是已取消標(biāo)識(shí)和匯總的數(shù)據(jù),隱私問題也會(huì)成為訪問的重要障礙;而且,EHR通常不會(huì)記錄包括環(huán)境或行為風(fēng)險(xiǎn)因素等重要的關(guān)注變量,在公共衛(wèi)生監(jiān)測活動(dòng)中的用途可能有限,故而大多數(shù)電子健康信息系統(tǒng)主要服務(wù)于臨床,而不是公共衛(wèi)生。
2.全基因組測序(WGS)數(shù)據(jù)
全基因組測序(WGS)數(shù)據(jù)的分析,是大數(shù)據(jù)在傳染病監(jiān)控和調(diào)查中最廣泛認(rèn)可的應(yīng)用之一。WGS可用于從特定暴發(fā)調(diào)查或疑似來源中吸納或排除病例,并以此幫助公共衛(wèi)生系統(tǒng)確定感染控制措施。在某些情況下,還可以使用進(jìn)化分析方法推斷某些病原體的起源和出現(xiàn),估計(jì)潛在的疾病來源并確定最可能的傳播鏈。然而,WGS的應(yīng)用仍有其局限性,工具性能的因素有可能導(dǎo)致影響分析的誤報(bào),目前無論是WGS還是任何單獨(dú)的技術(shù)尚不足以確定傳染病暴發(fā)及其原因;生物信息學(xué)相關(guān)研究還對報(bào)告數(shù)據(jù)處理和WGS方法的透明性提出了質(zhì)疑,并提出有必要對用于公共衛(wèi)生實(shí)踐的WGS方法論和生物信息學(xué)工具進(jìn)行標(biāo)準(zhǔn)化。
3.眾包大數(shù)據(jù)
作為一種基于眾包數(shù)據(jù)的主動(dòng)監(jiān)測方法,參與式人群監(jiān)測指的是志愿者通過互聯(lián)網(wǎng)或電話訪談形式主動(dòng)提供健康相關(guān)信息。參與式監(jiān)測在志愿者注冊時(shí)進(jìn)行背景調(diào)查,并對志愿者是否出現(xiàn)某些癥狀或行為進(jìn)行連續(xù)調(diào)查,由此可以對一般人群中疾病或健康事件等分布情況作出估計(jì)[7]。由于相關(guān)信息由志愿者主動(dòng)提供,參與式監(jiān)測數(shù)據(jù)較之公共衛(wèi)生系統(tǒng)被動(dòng)搜集的可靠性、完整性和針對性都更強(qiáng)。從2003年荷蘭和比利時(shí)最先發(fā)起參與式監(jiān)測系統(tǒng)——大流感調(diào)查Great Influenza Survey以來,參與式系統(tǒng)已被世界各國廣泛用于流感監(jiān)測,典型的如英國的流感調(diào)查Flusurvey、澳大利亞流感追蹤FluTracking、墨西哥呼吸道疾病監(jiān)測系統(tǒng)Reporta和在美國、加拿大上線的Flu Near You等。歐洲流感監(jiān)測網(wǎng)Influenzanet目前已覆蓋10個(gè)國家和地區(qū),有5萬名注冊志愿者,而且其可擴(kuò)展屬性決定了添加額外的參與者不會(huì)顯著增加成本。對流感網(wǎng)的評估顯示,其可以在前哨醫(yī)師發(fā)布之前成功檢測出病毒活性的變化[8]。然而,基于自愿者的監(jiān)測可能具有樣本自我選擇偏差、混雜因素等問題,自我報(bào)告的形式無法避免故意誤報(bào),對于未經(jīng)醫(yī)生和實(shí)驗(yàn)室測試證實(shí)的體征和癥狀識(shí)別也存在一定困難。
(二)互聯(lián)網(wǎng)大數(shù)據(jù)
互聯(lián)網(wǎng)大數(shù)據(jù)指的是個(gè)人在使用互聯(lián)網(wǎng)時(shí)留下的數(shù)字痕跡,其中涉及公共衛(wèi)生行為的大數(shù)據(jù)主要包括與公共衛(wèi)生有關(guān)的新聞報(bào)道、對健康相關(guān)主體信息的網(wǎng)絡(luò)搜索、微信、微博和網(wǎng)絡(luò)論壇上有意共享的相關(guān)信息等。
1.匯總新聞報(bào)道
事實(shí)表明,來自非醫(yī)學(xué)渠道的疫情信息非常重要。目前,世界上使用媒體新聞報(bào)道建立的疾病監(jiān)測系統(tǒng)包括GPHIN,ProMED-mail和HealthMap。監(jiān)測新興疾病計(jì)劃ProMED-mail是最早的基于事件的溫和監(jiān)測系統(tǒng),信息來源主要是媒體報(bào)道、官方報(bào)告、網(wǎng)上匯總和當(dāng)?shù)赜^察員得到的世界疫癥情報(bào)。ProMED-mail目前主要和托管于哈佛大學(xué)的HealthMap合作,并結(jié)合世界衛(wèi)生組織、GeoSentinel、世界動(dòng)物衛(wèi)生組織(OIE)、聯(lián)合國糧食及農(nóng)業(yè)組織(FAO)、EuroSurveillance、Google新聞、Wildlife Data Integration Network、百度新聞和SOSO信息等多個(gè)來源渠道。HealthMap每天24小時(shí)監(jiān)控、匯總和過濾以9種語言收集的信息,在一項(xiàng)針對2012年6個(gè)月內(nèi)111例傳染病暴發(fā)的研究中,HealthMap在首次正式報(bào)告之前的平均1.26天(p=0.002)就發(fā)布了預(yù)警[9]。
世界衛(wèi)生組織早在20世紀(jì)90年代后期就建立了“全球公共健康情報(bào)網(wǎng)”(Global Public Health Intelligence Network,GPHIN),總部設(shè)在加拿大。GPHIN使用與各國和地方報(bào)紙以及精選新聞通訊鏈接的新聞聚合器,可以收錄和挖掘9種不同語言的30 000多個(gè)全球新聞源,所考察的新聞涵蓋健康、體育、旅游和金融等多個(gè)領(lǐng)域。GPHIN每15分鐘掃描一次,能在不到1分鐘的時(shí)間內(nèi)完成翻譯和數(shù)據(jù)處理,并結(jié)合人工判讀識(shí)別發(fā)現(xiàn)和跟蹤公共衛(wèi)生威脅,以實(shí)現(xiàn)基于互聯(lián)網(wǎng)的實(shí)時(shí)、早期預(yù)警。GPHIN系統(tǒng)被認(rèn)為首先預(yù)測了MERS的暴發(fā),并且通過抗病毒藥物銷售量增加預(yù)測了SARS在中國的早期活動(dòng)[10]。
除了以上兩種代表性的全球監(jiān)測系統(tǒng)之外,有一些研究還嘗試通過對媒體報(bào)道的自定義查詢預(yù)測傳染病暴發(fā),但同時(shí)也發(fā)現(xiàn)了一些應(yīng)用局限。比如,媒體報(bào)道關(guān)注聳人聽聞故事的特性,決定了監(jiān)測結(jié)果有可能發(fā)生偏差,需要和其他醫(yī)學(xué)數(shù)據(jù)、眾包數(shù)據(jù)和智能手機(jī)數(shù)據(jù)相結(jié)合。未來隨著人工智能技術(shù)的發(fā)展,全球監(jiān)測系統(tǒng)有望通過搜索算法和維護(hù)系統(tǒng)的更新,實(shí)現(xiàn)功能的不斷完善。
2.搜索引擎
谷歌流感趨勢(Google Flu Trends)基于谷歌搜索引擎,每天使用查詢?nèi)罩靖櫶囟▍^(qū)域的總搜索量和輸入特定搜索詞的頻率,據(jù)此預(yù)測流感的發(fā)生時(shí)間和規(guī)模。谷歌流感趨勢的預(yù)測效果令人鼓舞,可以做到比美國疾病控制與預(yù)防中心(CDC)的FluView快7—10天[11];它甚至被證明可以預(yù)測腸胃疾病的暴發(fā)以及輪狀病毒在幼兒中的暴發(fā)[12]。然而,其失守的事件也屢屢提醒人們,使用互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行傳染病風(fēng)險(xiǎn)預(yù)測的方法,可能會(huì)在少數(shù)情況下過度擬合模型。2013年2月,谷歌流感趨勢估計(jì)的流感相關(guān)就診次數(shù)是CDC定點(diǎn)診所和醫(yī)院報(bào)告的兩倍[13]。盡管Google流感趨勢與實(shí)驗(yàn)室確診病例的相關(guān)性一直偏低,但通過與歷史監(jiān)測數(shù)據(jù)結(jié)合,可以顯著改善預(yù)測精準(zhǔn)度。另一個(gè)重要的局限是,其在流行病學(xué)中解釋特定年齡差異的能力有限,當(dāng)然通過IP地址捕獲位置等相關(guān)信息也是可以考慮的改進(jìn)方法。
3.平臺(tái)大數(shù)據(jù)
在平臺(tái)大數(shù)據(jù)監(jiān)測傳染病方面,已有研究主要關(guān)注在線餐廳評論論壇用于估計(jì)食源性疾病的風(fēng)險(xiǎn)或監(jiān)測疾病暴發(fā)的可行性問題。其中,Yelp(www.yelp.com)作為最經(jīng)常使用的飯店評論網(wǎng)站,理所當(dāng)然成為了主要研究對象。通過回顧顧客在Yelp上發(fā)表的評論,比如根據(jù)對兩個(gè)或兩個(gè)以上顧客生病且潛伏期大于10小時(shí)的“病”“嘔吐”“腹瀉”“食物中毒”等詞的搜索來確定病例,已有研究預(yù)測9個(gè)月內(nèi)發(fā)生的3次未報(bào)告的與餐廳相關(guān)的傳染病暴發(fā)[14],從而證明了在線餐館評論在識(shí)別食源性疾病暴發(fā)方面的有效性,特別是具有識(shí)別傳統(tǒng)監(jiān)測工具無法捕獲的小點(diǎn)源疾病暴發(fā)的潛力。除了評論文字中的監(jiān)測線索外,已有研究還通過建立統(tǒng)計(jì)模型,考察了評論的數(shù)量、長度、平均得分、負(fù)面評論的數(shù)量以及虛假評論數(shù)量,發(fā)現(xiàn)評論內(nèi)容與公共衛(wèi)生部門衛(wèi)生檢查結(jié)果之間的高度相關(guān)性[15]。此外,基于7種語言對于維基百科(Wikipedia)數(shù)據(jù)查詢的模型,可以對登革熱和流感的發(fā)病時(shí)間監(jiān)控前置多達(dá)4周。目前,美國的一些大城市已經(jīng)使用Yelp或Twitter的數(shù)據(jù)來確定檢查的餐廳名錄,對于平臺(tái)大數(shù)據(jù)的監(jiān)測在確定嚴(yán)重違反健康法規(guī)的場所方面取得了可喜的成果。可以預(yù)期,在我國通過對美團(tuán)點(diǎn)評、餓了嗎等平臺(tái)開展類似的分析,也有望取得較好的監(jiān)測效果。當(dāng)然,虛假評論的存在也要求通過電話、發(fā)送私人信息等形式對異常評論和評分進(jìn)行人工復(fù)核,或者從其他評論網(wǎng)站或地方衛(wèi)生和食藥監(jiān)管部門導(dǎo)入數(shù)據(jù)加以印證。也有研究指出,當(dāng)以大型連鎖餐飲為樣本或使用高排名的評論時(shí),模型準(zhǔn)確性更高。此外,由于公眾缺乏對各種病原體不同潛伏期的專業(yè)知識(shí),評論人也有可能將感染源歸于錯(cuò)誤來源。
4.社交網(wǎng)絡(luò)大數(shù)據(jù)
社交媒體提供了利用公眾集體智慧對傳染病早期傳播進(jìn)行控制的機(jī)會(huì);通過非結(jié)構(gòu)化的文本挖掘,公共衛(wèi)生管理部門可以獲取反映傳染病癥狀的被動(dòng)監(jiān)視實(shí)時(shí)數(shù)據(jù)。已有研究主要是基于Twitter和Facebook兩個(gè)平臺(tái)展開的,對Facebook的研究主要關(guān)注慢性疾病的發(fā)生風(fēng)險(xiǎn)評估,而Twitter則被更多用于監(jiān)測不同地區(qū)的流感、霍亂、大腸桿菌和登革熱等傳染性疾病的暴發(fā),并根據(jù)相關(guān)活動(dòng)解釋其原因。除了分析疾病的強(qiáng)度和原因之外,一些研究還使用社交網(wǎng)絡(luò)分析和空間集群的識(shí)別方法,分析了疾病暴發(fā)的空間特征[16]。比如Broniatowski等開發(fā)了自動(dòng)將相關(guān)推文分類的流感病毒監(jiān)測系統(tǒng),并測試了該系統(tǒng)2012—2013年流感季期間多個(gè)地理粒度的性能,發(fā)現(xiàn)與各級衛(wèi)生部門監(jiān)測的流感流行率相比,系統(tǒng)準(zhǔn)確度可以達(dá)到85%[17]。還有一些研究通過Twitter大數(shù)據(jù)了解人們的活動(dòng)模式,用以估計(jì)疾病暴發(fā)期間人群的接觸率[18],因?yàn)榕c從手機(jī)運(yùn)營商處獲得的呼叫記錄數(shù)據(jù)相比,帶有地理標(biāo)簽的推文提供的位置數(shù)據(jù)分辨率更高。此外,一些研究正在嘗試將對于Twitter建立的模型擴(kuò)展到Instagram使用;還有研究應(yīng)用社交網(wǎng)絡(luò)數(shù)據(jù)評估了流感疫苗的接種情緒,發(fā)現(xiàn)消極情緒比積極情緒傳播更有效,而且負(fù)面情緒較高與疫苗接種率較低之間存在相關(guān)性[19]。值得注意的是,雖然已有研究證明Twitter在公共衛(wèi)生方面具有廣泛的適用性,但使用社交媒體監(jiān)控傳染病的困難也是顯而易見的。目前的應(yīng)用范圍局限在學(xué)術(shù)界,各國衛(wèi)生部門都未將其大規(guī)模用于日常監(jiān)管實(shí)踐。推文中使用的語言是動(dòng)態(tài)的,并且可能具有明顯的地理異常,需要對同預(yù)期不符的結(jié)果進(jìn)行人工檢查,不斷更新流程的過程分類算法。查找“生病(sick)”之類的簡單算法將不起作用,因?yàn)椤拔覅捑肓斯ぷ鳌焙汀拔腋械讲皇娣钡韧莆亩疾荒鼙唤忉尀榕c疾病有關(guān),因而需要建立可以將囊括參考原始搜索詞但未反映個(gè)人疾病的推文內(nèi)容進(jìn)行有效分類的高級機(jī)器學(xué)習(xí)算法。而且,社交媒體監(jiān)視系統(tǒng)的準(zhǔn)確性會(huì)隨著媒體的關(guān)注而下降,因?yàn)槊襟w的關(guān)注會(huì)增加與傳染病有關(guān)但與實(shí)際感染無關(guān)的消息,掩蓋了真正的流行跡象。此外,社交網(wǎng)絡(luò)分析的潛在侵入性,也決定了需要在公共利益和保護(hù)個(gè)人隱私之間進(jìn)行謹(jǐn)慎權(quán)衡。
(三)地理/氣象大數(shù)據(jù)
在預(yù)測傳染病方面有價(jià)值的地理空間數(shù)據(jù)包括降水、溫度、海拔、土壤類型、植被、永久性和短暫性水體、洪水、土壤濕度和濕地、土地利用,以及人口密度和涉及人口統(tǒng)計(jì)學(xué)變量的普查數(shù)據(jù),這些數(shù)據(jù)主要來自衛(wèi)星影像遙感觀測和直接野外觀測,此外無人機(jī)也可能提供新的高分辨率環(huán)境數(shù)據(jù)源。迄今為止,地理大數(shù)據(jù)在研究中已經(jīng)用于預(yù)測許多媒介傳染病,包括裂谷熱、埃博拉病毒、登革熱、墨累谷腦炎和寨卡病毒。ArcGIS是ESRI為預(yù)測分析而開發(fā)的一種工具,具有疾病暴發(fā)地點(diǎn)查詢和基于歷史數(shù)據(jù)的疾病威脅監(jiān)測等功能,能夠通過多次迭代進(jìn)行假設(shè)檢驗(yàn),并生成預(yù)測性地圖。Attaway等使用ArcGIS分析溫度、降水、海拔、植被、人口密度以及其他可從公共來源獲得的變量,識(shí)別全年適合伊蚊活動(dòng)的位置及時(shí)間,進(jìn)而識(shí)別出可能存在自發(fā)性寨卡病毒感染危險(xiǎn)的地理區(qū)域[20]。地理大數(shù)據(jù)還能用來揭示區(qū)域衛(wèi)生問題,比如杜克大學(xué)的研究項(xiàng)目就將數(shù)百萬患者的記錄同地理信息系統(tǒng)數(shù)據(jù)相結(jié)合,通過構(gòu)建集成的臨床數(shù)據(jù)倉庫研究了區(qū)域公共衛(wèi)生的社會(huì)決定因素。雖然有關(guān)地理大數(shù)據(jù)的分析過程可以在較短時(shí)間內(nèi)完成,但分析建立在長期數(shù)據(jù)可用性的基礎(chǔ)之上,衛(wèi)星圖像信息在使用前也需要進(jìn)行大量預(yù)處理。
在氣候大數(shù)據(jù)方面,一些研究已經(jīng)證實(shí),天氣是傳染病發(fā)生的重要影響因素。Anyamba et al.通過建模計(jì)算出撒哈拉以南非洲由于厄爾尼諾現(xiàn)象而存在超過特定閾值的降雨和植被異常,這樣的氣候變化直接指向裂谷熱的暴發(fā);對模型性能的回顧分析表明,模型可以成功預(yù)測東非70%和蘇丹約50%的裂谷熱暴發(fā)[21]。與氣候和天氣有關(guān)的大型數(shù)據(jù)集可用于傳染病傳播規(guī)律的研究,比如海面溫度會(huì)影響降水,進(jìn)而影響地面溫度和植被,從而改變傳播疾病的媒介及傳播條件。通過使用天氣大數(shù)據(jù)、互聯(lián)網(wǎng)大數(shù)據(jù)和深度學(xué)習(xí),可以更有效地預(yù)測傳染病。以美國國家航空航天局(NASA)為例,其擁有的數(shù)據(jù)集包括35年的海表溫度和植被模式、37年的降水量和16年的地表溫度。此類長期的大型數(shù)據(jù)集可以監(jiān)測到氣候異常,這些異常雖然本身不甚重要,但可能成為傳播媒介的發(fā)展條件,對于研究傳染病傳播規(guī)律非常有價(jià)值。此外,鑒于空氣污染物是觸發(fā)呼吸系統(tǒng)疾病的已知誘因,各地通過室外傳感器搜集的監(jiān)測空氣質(zhì)量數(shù)據(jù),也可以用作呼吸道傳染病預(yù)測的重要數(shù)據(jù)源。
(四)基于便攜設(shè)備的人類行為大數(shù)據(jù)
移動(dòng)網(wǎng)絡(luò)運(yùn)營商通常會(huì)保留至少3個(gè)月的手機(jī)通話記錄(CDR),通過接入手機(jī)反映的基站位置信息,能夠獲得設(shè)備的粗略地理位置;在采取適當(dāng)措施確保匿名的情況下,來自手機(jī)的通話記錄數(shù)據(jù)可以用于位置前溯或者持續(xù)追蹤。COVID-19疫情發(fā)生后,工業(yè)和信息化部隨即部署了CDR大數(shù)據(jù)支撐服務(wù)疫情防控的相關(guān)工作,3家基礎(chǔ)電信運(yùn)營企業(yè)基于電子大數(shù)據(jù)分析,向用戶提供本人14天內(nèi)到訪地查詢的服務(wù),有效提升了對流動(dòng)人員行程查驗(yàn)的效率;另外還針對定點(diǎn)醫(yī)院、發(fā)熱門診、人員聚集區(qū)等重點(diǎn)區(qū)域的人流變化進(jìn)行了重點(diǎn)關(guān)注,為疫情態(tài)勢研判和精準(zhǔn)防控提供了有力支撐。迄今為止,智能手機(jī)上的許多復(fù)雜的功能尚未得到充分利用,這些功能用于傳染病監(jiān)視具有巨大潛力。智能手機(jī)可以收集、存儲(chǔ)和傳輸GPS坐標(biāo),詳細(xì)的GPS和WiFi數(shù)據(jù)為捕捉精細(xì)的個(gè)體運(yùn)動(dòng)提供了前所未有的機(jī)會(huì);藍(lán)牙傳感器可用于跟蹤距離,甚至更精細(xì)的信號或更細(xì)顆粒度的聯(lián)系網(wǎng)絡(luò)。而基于加速計(jì)、陀螺儀、環(huán)境溫度和光線等傳感器搜集的數(shù)據(jù),也可為相關(guān)研究提供支持。此外,移動(dòng)電話可用于解決全球醫(yī)療數(shù)據(jù)不均等問題,特別是對于中低收入國家更為重要,因?yàn)樵谶@些國家中,與社會(huì)和健康相關(guān)的常規(guī)數(shù)據(jù)通常不完整或根本不存在。
公共衛(wèi)生系統(tǒng)還應(yīng)重點(diǎn)關(guān)注通過可穿戴設(shè)備收集的用戶生理數(shù)據(jù),通常包括個(gè)人參數(shù)(血壓、心率、血糖)、心電圖、生命體征、氧氣水平、活動(dòng)信息、傳染病、運(yùn)動(dòng)和飲食等信息。由于人們越來越關(guān)注自己的健康,許多硬件如帶有第三方應(yīng)用程序的智能手機(jī)、蘋果手表、安卓手表和谷歌眼鏡已經(jīng)在醫(yī)療保健領(lǐng)域開發(fā)帶有傳感器的設(shè)備,并且在記錄個(gè)人的日常健康狀況以及患者的行為、體征和癥狀中起著關(guān)鍵作用。此外,人們的運(yùn)動(dòng)和飲食數(shù)據(jù)也可以對評估公共衛(wèi)生行為作出重要貢獻(xiàn)。據(jù)不完全統(tǒng)計(jì),僅在Apple iTunes商店中,就有40 000多種醫(yī)療保健應(yīng)用程序可用;到2017年,有超過17億人下載健康相關(guān)應(yīng)用程序[22]。將基于便攜設(shè)備的人類行為大數(shù)據(jù)納入公共衛(wèi)生體系勢在必行,但需注意此類大數(shù)據(jù)存在樣本偏差,社會(huì)經(jīng)濟(jì)地位較低的人、兒童和老年人的代表性可能不足,偏遠(yuǎn)農(nóng)村地區(qū)的地理位置分辨率較低。在疫情防控期間,需要電信運(yùn)營商與第三方共享手機(jī)通信記錄數(shù)據(jù),這就存在個(gè)人信息保護(hù)方面的風(fēng)險(xiǎn)。
(五)零售大數(shù)據(jù)
在收集零售信息識(shí)別傳染病暴發(fā)方面,藥店的處方藥和非處方藥零售可成為監(jiān)測數(shù)據(jù)的重要來源。藥品零售大數(shù)據(jù)在報(bào)告時(shí)效和地理分辨率方面具有顯著優(yōu)勢。以加拿大為例,對于嚴(yán)重的呼吸道疾病監(jiān)測,加拿大公共衛(wèi)生局會(huì)在癥狀發(fā)作后約10天獲得疾病數(shù)據(jù),17天后獲得實(shí)驗(yàn)室數(shù)據(jù);但交易完成48小時(shí)后就可獲得非處方藥銷售數(shù)據(jù)。研究表明,季節(jié)性抗病毒藥物銷售與確診流感病例的發(fā)病日期和確診病例總數(shù)密切相關(guān),非處方藥銷售量與實(shí)驗(yàn)室呼吸道病毒病例數(shù)和其他呼吸道病毒檢出數(shù)之間也存在顯著關(guān)聯(lián)[23]。英國的非處方藥零售數(shù)據(jù)目前已用于監(jiān)測流感活動(dòng)的時(shí)空格局,監(jiān)測商品涵蓋了成人和兒童的感冒藥、流感藥、咳嗽藥、溫度計(jì)和抗病毒產(chǎn)品(包括洗手液和濕巾紙)。對英國的研究也顯示,流感病例與溫度計(jì)和抗病毒洗手液的銷量之間存在顯著的正相關(guān),但國家一級的非處方藥零售同監(jiān)測病例的相關(guān)性不強(qiáng),而在更細(xì)的空間尺度和年齡組別上,藥品零售數(shù)據(jù)有助于擴(kuò)大現(xiàn)有的監(jiān)測范圍[24]。此外,還有研究發(fā)現(xiàn),非處方止瀉藥和抗惡心藥物的銷售同諾如病毒、大腸桿菌等活性相關(guān)[25]。除藥品監(jiān)控之外,有關(guān)食品銷售的零售數(shù)據(jù)也已被用于調(diào)查食源性疾病在人群中的暴發(fā)。IBM使用時(shí)空分析系統(tǒng),在考慮產(chǎn)品保質(zhì)期、可能的消費(fèi)日期以及產(chǎn)品包含特定病原體可能性的基礎(chǔ)上,通過比較零售掃描數(shù)據(jù)和食品流行病病例的位置,發(fā)現(xiàn)了12種最有可能致病的嫌疑食品。當(dāng)然應(yīng)用時(shí)還需注意,購買行為也許會(huì)受到公共衛(wèi)生信息發(fā)布或媒體關(guān)注度的影響。
基于大數(shù)據(jù)構(gòu)建公共衛(wèi)生體系的時(shí)代已經(jīng)到來。上述五類大數(shù)據(jù)遠(yuǎn)未涵蓋可用數(shù)據(jù)的全部,保險(xiǎn)理賠數(shù)據(jù)、學(xué)校出勤數(shù)據(jù)、工人曠工數(shù)據(jù)等也已被證明具有較好的監(jiān)測效果。大數(shù)據(jù)在傳染病監(jiān)測、增進(jìn)對疾病的了解、預(yù)測未來風(fēng)險(xiǎn)、實(shí)行有針對性的干預(yù)措施等方面已顯示巨大潛力,隨著可用數(shù)據(jù)規(guī)模和種類的增長及數(shù)據(jù)捕獲成本的持續(xù)降低,大數(shù)據(jù)在未來將成為公共衛(wèi)生體系的必要支柱。
三、將大數(shù)據(jù)納入公共衛(wèi)生體系面臨的挑戰(zhàn)
雖然上述多來源大數(shù)據(jù)在傳染病監(jiān)測方面的初步應(yīng)用較好地?cái)M合了現(xiàn)實(shí),顯示巨大的潛力和光明的前景,但將其應(yīng)用于我國公共衛(wèi)生管理實(shí)踐,在數(shù)據(jù)挖掘和共享、數(shù)據(jù)集成和處理技術(shù)、隱私保護(hù)、管理體制和人才儲(chǔ)備等方面仍存在不小挑戰(zhàn)。
(一)數(shù)據(jù)挖掘和共享的困難
一方面,數(shù)據(jù)尚未完全嵌入相關(guān)組織的業(yè)務(wù)流程和組織管理實(shí)踐中。在許多情況下,患者監(jiān)測數(shù)據(jù)并未整合到臨床診斷和治療中,臨床數(shù)據(jù)也未整合到公共衛(wèi)生服務(wù)和傳染病監(jiān)測中,因而需要更多的數(shù)據(jù)集成。另一方面,對數(shù)據(jù)的有限訪問是實(shí)現(xiàn)大數(shù)據(jù)潛力的主要障礙。公共衛(wèi)生大數(shù)據(jù)分散在不同的數(shù)據(jù)池中,這些數(shù)據(jù)集之間沒有太多聯(lián)系,由于數(shù)據(jù)共享機(jī)制不完善,醫(yī)院、科研單位和其他機(jī)構(gòu)之間存在著嚴(yán)重的信息壁壘,在機(jī)構(gòu)之間共享結(jié)構(gòu)化數(shù)據(jù)效率低下,而在不同組織之間共享非結(jié)構(gòu)化數(shù)據(jù)則更難以實(shí)現(xiàn)。已有的全球疾病監(jiān)測組織和系統(tǒng)集成度較差,并且生成的數(shù)據(jù)報(bào)告格式不完整、不一致且不兼容。隨著數(shù)據(jù)全球化的加快,公共衛(wèi)生中的大數(shù)據(jù)也將面臨不同程度的語言、術(shù)語和標(biāo)準(zhǔn)化障礙。
(二)數(shù)據(jù)集成和處理技術(shù)的挑戰(zhàn)
當(dāng)前的標(biāo)準(zhǔn)和技術(shù)尚不足以滿足公共衛(wèi)生大數(shù)據(jù)集成應(yīng)用的要求。數(shù)據(jù)缺乏統(tǒng)一的標(biāo)準(zhǔn)、一致的描述格式和表示方法,很難實(shí)現(xiàn)不同級別的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集成;各種數(shù)據(jù)庫使用不同的軟件和數(shù)據(jù)格式,使得數(shù)據(jù)比較、分析、傳輸、共享變得非常困難。涉及數(shù)據(jù)不準(zhǔn)確性、數(shù)據(jù)丟失和選擇性測量的問題會(huì)影響預(yù)測建模的結(jié)果和決策,模型校準(zhǔn)中的缺陷也可能會(huì)干擾推斷。盡管結(jié)合了傳統(tǒng)傳染病監(jiān)測方法和大數(shù)據(jù)的新型混合模型顯示較好的前景,但當(dāng)前技術(shù)手段在處理異構(gòu)和實(shí)時(shí)數(shù)據(jù)方面依然效率不高,很難同時(shí)兼顧分布式系統(tǒng)的可用性、一致性和分區(qū)容錯(cuò)性,信噪比問題尤其具有挑戰(zhàn)性,預(yù)測的可靠性尚無法與氣候?qū)W等領(lǐng)域相比,任何新穎的數(shù)據(jù)流在投入使用前都必須根據(jù)已建立的傳染病監(jiān)測數(shù)據(jù)和系統(tǒng)進(jìn)行驗(yàn)證。已有研究表明,將流行彈性行為納入有望提升模型的解釋力,因?yàn)閺娘L(fēng)險(xiǎn)感知到勤洗手、戴口罩、改變社交距離和減少出行行為等預(yù)防措施的采用,都將顯著影響疾病在人群中的傳播速度和傳播途徑。
(三)隱私保護(hù)與公共利益間的權(quán)衡難題
公共衛(wèi)生大數(shù)據(jù)比其他類型的大數(shù)據(jù)更加敏感,患者數(shù)據(jù)泄漏可能會(huì)帶來被孤立、名譽(yù)受損、傷害、歧視等嚴(yán)重后果。云計(jì)算等大數(shù)據(jù)技術(shù)、醫(yī)療保健信息的集中化趨勢和一些大型數(shù)據(jù)庫的建立,使得私人醫(yī)療數(shù)據(jù)面臨受到攻擊的巨大風(fēng)險(xiǎn),并為第三方出于商業(yè)目的在未經(jīng)授權(quán)的情況下濫用患者的健康信息提供了便利。對于數(shù)據(jù)隱私保護(hù)問題,尚無完美的解決方案。即使大數(shù)據(jù)庫使用匿名的個(gè)人加密數(shù)據(jù),仍然存在重新標(biāo)識(shí)用戶身份的風(fēng)險(xiǎn),并且可能通過數(shù)據(jù)鏈接技術(shù)重新確定個(gè)人身份;而完全刪除被認(rèn)為是識(shí)別信息的內(nèi)容,也將限制跨不同來源鏈接數(shù)據(jù)的用途??紤]到衛(wèi)生大數(shù)據(jù)在道德和倫理等方面的潛在問題,有必要就如何界定其在公共衛(wèi)生中的倫理用途和不道德用途進(jìn)行廣泛討論,特別是患者數(shù)據(jù)隱私風(fēng)險(xiǎn)如何與公共利益之間妥善權(quán)衡。
(四)管理體制和人才儲(chǔ)備不適應(yīng)大數(shù)據(jù)應(yīng)用的要求
大數(shù)據(jù)的價(jià)值取決于其對公共衛(wèi)生從業(yè)者和政策制定者的效用。目前,公共衛(wèi)生基礎(chǔ)設(shè)施尚不具備分析和使用這些異構(gòu)大數(shù)據(jù)的能力,跨學(xué)科的方法集成不夠,同時(shí)擁有數(shù)據(jù)處理技術(shù)和醫(yī)學(xué)知識(shí)的專業(yè)人才非常缺乏。在國家級公共衛(wèi)生監(jiān)測系統(tǒng)是監(jiān)測系統(tǒng)中心的前提下,需要改革管理體制和機(jī)制設(shè)計(jì),以便將這些非常規(guī)來源生成的大數(shù)據(jù)轉(zhuǎn)換為可直接操作的信息。地方公共衛(wèi)生部門存在人力資源和預(yù)算限制,妨礙了其訪問和有效利用各種大數(shù)據(jù)資源。為此,應(yīng)創(chuàng)造適當(dāng)?shù)闹贫群驼攮h(huán)境,探索實(shí)現(xiàn)共享公共衛(wèi)生數(shù)據(jù)的做法。比如,將數(shù)字疾病監(jiān)測組織作為公共衛(wèi)生系統(tǒng)的正式合作伙伴,以系統(tǒng)的方式將可操作的數(shù)據(jù)輸入監(jiān)視系統(tǒng)。
四、以大數(shù)據(jù)筑牢公共衛(wèi)生安全網(wǎng)的政策建議
大數(shù)據(jù)是國家提高公共衛(wèi)生保障能力和應(yīng)對流行病威脅的關(guān)鍵資源。為充分發(fā)揮大數(shù)據(jù)在筑牢公共衛(wèi)生安全網(wǎng)中的重要作用,需從加大投入、搭建網(wǎng)絡(luò)、優(yōu)化治理和人才培養(yǎng)四方面入手,使大數(shù)據(jù)更好地服務(wù)于公共衛(wèi)生管理與決策。
(一)搭建公共衛(wèi)生大數(shù)據(jù)應(yīng)用協(xié)同網(wǎng)絡(luò)
近10年間,我國在公共衛(wèi)生領(lǐng)域建立了各種醫(yī)療健康數(shù)據(jù)采集平臺(tái),但缺乏對跨系統(tǒng)多源數(shù)據(jù)的整合和綜合利用,多元化參與機(jī)制并未形成?!秶鴦?wù)院辦公廳關(guān)于促進(jìn)和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見》從加強(qiáng)公共衛(wèi)生業(yè)務(wù)系統(tǒng)建設(shè)、建設(shè)網(wǎng)絡(luò)直報(bào)系統(tǒng)等方面,為推進(jìn)公共衛(wèi)生領(lǐng)域大數(shù)據(jù)應(yīng)用指明了方向。下一步應(yīng)以出臺(tái)專項(xiàng)文件為指向,由國家相關(guān)部門牽頭,整合社會(huì)公共信息資源,就大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域的應(yīng)用展開多機(jī)構(gòu)跨學(xué)科聯(lián)合攻關(guān)。應(yīng)在法律上明確限定數(shù)據(jù)共享范圍、方式和內(nèi)容的前提下,搭建大規(guī)模協(xié)作網(wǎng)絡(luò),創(chuàng)建和動(dòng)員開放數(shù)據(jù)、開放學(xué)科、開放源代碼社區(qū)和開放協(xié)作平臺(tái),協(xié)調(diào)分析和處理公共衛(wèi)生大數(shù)據(jù)的能力,確保在共享知識(shí)和數(shù)據(jù)的環(huán)境下形成真正的“研究社區(qū)”;定期發(fā)布公共衛(wèi)生領(lǐng)域大數(shù)據(jù)應(yīng)用的最佳實(shí)踐,推動(dòng)相關(guān)研究從數(shù)量、深度到應(yīng)用廣度的飛躍。
(二)加大公共衛(wèi)生大數(shù)據(jù)應(yīng)用專項(xiàng)資金投入
近年來,各國均通過優(yōu)先項(xiàng)目的形式,努力探索公共衛(wèi)生領(lǐng)域應(yīng)用大數(shù)據(jù)的潛力。歐盟委員會(huì)于2016年以建立全面的國家公共衛(wèi)生數(shù)據(jù)倉庫的名義,收集醫(yī)生記錄、住院、藥物處方、實(shí)驗(yàn)室和放射學(xué)分析及其他廣泛的數(shù)據(jù)類型;美國國立衛(wèi)生研究院大數(shù)據(jù)知識(shí)(BD2K)計(jì)劃則使生物醫(yī)學(xué)科學(xué)家能夠更充分地利用研究界正在生成的大數(shù)據(jù)。我國應(yīng)設(shè)立專項(xiàng)資金和項(xiàng)目,支持多來源的國家和區(qū)域公共衛(wèi)生數(shù)據(jù)倉庫建設(shè),加快公共衛(wèi)生大數(shù)據(jù)的集成和共享。應(yīng)面向全國各行業(yè)征集公共衛(wèi)生大數(shù)據(jù)創(chuàng)新產(chǎn)品和服務(wù),重點(diǎn)資助利用大數(shù)據(jù)開展重點(diǎn)人群防控、傳染病信息監(jiān)測、傳染病輿情監(jiān)測、社區(qū)疫情排查、多源數(shù)據(jù)傳染病跟蹤分析的智能化公共衛(wèi)生監(jiān)控和解決方案,以及為抗體研發(fā)、醫(yī)療救護(hù)、疫情防控、防疫物資調(diào)動(dòng)等提供算力支撐的云計(jì)算公共服務(wù)平臺(tái)等。
(三)健全公共衛(wèi)生大數(shù)據(jù)治理體系
首先,應(yīng)要求利益相關(guān)者協(xié)作并調(diào)整其系統(tǒng)的設(shè)計(jì)和性能,重點(diǎn)就相關(guān)技術(shù)標(biāo)準(zhǔn)達(dá)成一致,包括建立統(tǒng)一的疾病診斷編碼、臨床醫(yī)學(xué)術(shù)語、檢查檢驗(yàn)規(guī)范、藥品應(yīng)用編碼、信息數(shù)據(jù)接口和傳輸協(xié)議等,促進(jìn)健康醫(yī)療大數(shù)據(jù)產(chǎn)品、服務(wù)流程標(biāo)準(zhǔn)化,以實(shí)現(xiàn)公共衛(wèi)生信息和創(chuàng)新技術(shù)的最大創(chuàng)新潛力。其次,在事關(guān)公共安全的特殊前提下,個(gè)人信息的公共屬性雖極大凸顯,但仍應(yīng)明確不需個(gè)人同意而進(jìn)行個(gè)人信息收集和利用的“例外規(guī)則”,并以法律形式規(guī)定適用的法定情形。要專門制定應(yīng)對疫情等特殊情形下采集和使用用戶數(shù)據(jù)的隱私保護(hù)標(biāo)準(zhǔn),將公民隱私權(quán)的讓渡嚴(yán)格限于防控疫情的目的和范圍,并保證政府、研究機(jī)構(gòu)、救援機(jī)構(gòu)、媒體和個(gè)人對數(shù)據(jù)的采集、處理、分析和對分析結(jié)果的共享在法律規(guī)定的基礎(chǔ)上進(jìn)行。最后,從保護(hù)個(gè)人健康信息機(jī)密性、隱私性和安全性出發(fā),明確個(gè)人醫(yī)療保健信息方面的法律適用,采取有力的技術(shù)和組織措施防止未經(jīng)授權(quán)的訪問和使用。在這方面,各國主要采取兩種模式:一種是政府根據(jù)基本隱私法專門制定法律法規(guī),如美國的HIPAA,澳大利亞的《健康記錄和信息隱私法》等;另一種是將個(gè)人醫(yī)療保健信息作為個(gè)人信息或敏感信息的一部分,通過法律來保護(hù)個(gè)人信息或敏感信息,如英國的《數(shù)據(jù)保護(hù)法》以及加拿大的《個(gè)人信息保護(hù)和電子文件法》等。而具體到此類信息在公共衛(wèi)生領(lǐng)域的應(yīng)用,需制定專門的法律法規(guī)平衡患者隱私保護(hù)同出于公共衛(wèi)生研究和監(jiān)測目的的數(shù)據(jù)共享。
(四)加強(qiáng)專業(yè)人才培養(yǎng)
由于大多數(shù)參與公共衛(wèi)生決策制定和實(shí)施的專業(yè)人員都不熟悉大數(shù)據(jù)科學(xué),因而為其提供相關(guān)領(lǐng)域的職業(yè)培訓(xùn)至關(guān)重要。在公共衛(wèi)生管理部門中,應(yīng)考慮招募頂尖技術(shù)專家擔(dān)當(dāng)首席公共衛(wèi)生數(shù)據(jù)科學(xué)家,為構(gòu)建大數(shù)據(jù)基礎(chǔ)上的公共衛(wèi)生體系提供人才和技術(shù)支持。要對醫(yī)療保健從業(yè)人員開展數(shù)據(jù)標(biāo)準(zhǔn)化專項(xiàng)培訓(xùn),倡導(dǎo)和采用標(biāo)準(zhǔn)代碼和標(biāo)識(shí)符。鼓勵(lì)高校開設(shè)公共衛(wèi)生與大數(shù)據(jù)技術(shù)應(yīng)用專業(yè),大力培養(yǎng)既熟悉公共衛(wèi)生業(yè)務(wù)又擅長大數(shù)據(jù)工程技術(shù)的高水平復(fù)合型人才;改進(jìn)衛(wèi)生信息學(xué)相關(guān)專業(yè)設(shè)置,加大對大數(shù)據(jù)科學(xué)課程的學(xué)習(xí)力度。對公共衛(wèi)生相關(guān)專業(yè)的學(xué)生加強(qiáng)數(shù)據(jù)科學(xué)技術(shù)的培訓(xùn),引入大數(shù)據(jù)分析和管理相關(guān)課程;鼓勵(lì)引進(jìn)企業(yè)師資,建設(shè)校企共建實(shí)訓(xùn)基地。
參考文獻(xiàn)
[1]習(xí)近平.在中央政治局常委會(huì)會(huì)議研究應(yīng)對新型冠狀病毒肺炎疫情工作時(shí)的講話[EB/OL].(2020-02-04)[2020-03-15].http://www.qstheory.cn/dukan/qs/2020-02/15/c_1125572832.htm.
[2]丁蕾,蔡偉,丁健青,等.新型冠狀病毒感染疫情下的思考[J].中國科學(xué):生命科學(xué),2020(3):247-257.
[3]渠慎寧,楊丹輝.突發(fā)公共衛(wèi)生事件的智能化應(yīng)對:理論溯源與趨向研判[J].改革,2020(3):14-21.
[4]WALDER C, OSGOOD N, SEITZINGER P. Big data for infectious diseases surveillance and the potential contribution to the investigation foodborne disease in Canada: An overview and discussion paper[R]. Report for the National Collaborating Centre for Infectious Diseases, May 2017.
[5]BARBOZA P, VAILLANT L, MAWUDEKU A, et al. Evaluation of epidemic intelligence system integrated in the early alerting and reporting project for the detection of A/H5N1 influenza events[J]. PLoS One, 2013, 8(3): e57252.
[6]FELDMAN B, MARTIN E, SKOTNES T. Big data in healthcare: Hype and hope[J]. Dr. Bonnie, 2013(1): 122-125.
[7]趙永謙,馬文軍.基于互聯(lián)網(wǎng)信息的公共衛(wèi)生監(jiān)測進(jìn)展[J].中華流行病學(xué)雜志,2017(2):272-276.
[8]GUERRISI C, TURBELIN C, BLANCHON T, et al. Participatory syndromic surveillance of influenza in Europe[J]. Journal of Infectious Diseases, 2016, 214(4): S386-S392.
[9]BAHK C Y, SCALES D A, MEKARU S R, et al. Comparing timeliness, content, and disease severity of formal and informal source outbreak reporting[J]. Bmc Infectious Diseases, 2015, 15(1): 135.
[10]DION M, ABDELMALIK P, MAWUDEKU A. Big data and the global public health intelligence network(GPHIN)[J]. Can Commun Dis Rep, 2015, 41(9): 209-214.
[11]CAMEIRO H A, MYLONAKIS E. Google trends: A web-based tool for real-time surveillance of disease outbreaks[J]. Clinical Infectious Diseases, 2009, 49(10): 1557-1564.
[12]RISHI D, LOPMAN B, SHIMSHONI Y, et al.Use of internet search data to monitor impact of rotavirus vaccination in the United States[J]. Clinical Infectious Diseases, 2012, 54(9): 115-118.
[13]LAZER D, KENNEDY R, KING G, et al. The parable of Google Flu: Traps in big data analysis[J]. Science, 2014, 343(6176): 1203-1205.
[14]HARRISON C, JORDER M, STERN H, et al. Using online reviews by restaurant patrons to identify unreported cases of foodborne illness-New York city, 2012-2013[J]. Morbidity and Mortality Weekly Report, 2014, 63(20): 441-445.
[15]KANG J, KUZNETSOVA P, LUCA M. Where Not to eat? Improving public policy by predicting hygiene inspections using online reviews[R]. Conference: EMNLP 2013, Seattle, USA.
[16]THAPEN N, SIMMIE D, HANKIN C, et al. Defender: Detecting and forecasting epidemics using noveldata: analytics for enhanced response[J]. PLoS ONE, 2015, 11(5):e0155417.
[17]BRONIATOWSKI D, MICHAEL P, DREDZE M. National and local influenza surveillance through twitter: An analysis of the 2012-2013 influenza epidemic[J]. PloS One, 2013, 8(12): e83672.
[18]JURDAK R, ZHAO K, LIU J, et al. Understanding human mobility from Twitter[J]. PLoS ONE, 2015, 10(7): e0131469.
[19]KASS-HOUT T, ALHINNAWI H. Social media in public health[J]. British Medial Bulletin, 2013, 108(1): 5-24.
[20]ATTAWAY, D, WATERS N, GERAGHTY E, et al. Zika virus: Endemic and epidemic ranges of aedes mosquito transmission[J]. Journal of Infection & Public Health, 2017, 10(1): 120-123.
[21]ANYAMBA A, CHRETIEN J, SMALL J, et al. Prediction of a rift valley fever outbreak[J]. Proceedings of the National Academy of Sciences, 2009, 106(3): 955-959.
[22]AITKEN M, GAUNTLETT C. Patient apps for improved healthcare: from novelty to mainstream[J/OL]. IMS Institute for Healthcare Informatics.(2013-10-01)[2020-03-15].https://www.mendeley.com/catalogue/patient-apps-improved-healthcare-novelty-mainstream/.
[23]MUCHAAL P, PARKER S, MEGANATH K, et al. Evaluation of a national pharmacy-based syndromic surveillance system[J]. Relevé Des Maladies Transmissibles Au Canada, 2015, 41(9): 203-206.
[24]TODD S, DIGGLE P, WHITE P, et al. The spatiotemporal association of non-prescription retailsales with cases during the 2009 influenza pandemic in Great Britain[J]. BMJ Open, 2014, 4(4): e004869.
[25]EDGE V, POLLARIF, LAI K, et al. Syndromic surveillance of Norovirus using over-the-counter sales of medications related to gastrointestinal illness[J]. The Canadian Journal of Infectious Diseases & Medical Microbiology, 2006, 17(4): 235-241.
(責(zé)任編輯:羅重譜)