“十三五”以來,國家積極布局大數據戰略,數據安全問題得到前所未有的高度重視。2017年12月8日,在中共中央政治局就實施國家大數據戰略的第二次集體學習會議上,習近平總書記強調要在推動實施國家大數據戰略的同時保障數據安全。為進一步加強科學數據管理、保障科學數據安全和提高開放共享水平,國家在2018年正式出臺的《國家科技資源共享服務平臺管理辦法》和《科學數據管理辦法》[1]中指出,財政性資金形成的科學數據必須匯交到國家科學數據中心,并要求把數據安全放在首要位置,強調在安全可控的前提下促進開放共享。2019年6月,國務院辦公廳發布的《中華人民共和國人類遺傳資源管理條例》,提出加強我國人類遺傳資源的有效保護和合理利用。
人口健康領域早已邁入大數據時代并涌現出一大批科學數據中心和倉儲平臺,如美國國立生物技術信息中心(National Center for Biotechnology Information,NCBI)、歐洲生物信息研究所(European Bioinformatics Institute,EBI)、日本DNA數據庫(DNA Data Bank of Japan,DDBJ)和我國的國家人口健康科學數據中心。人口健康科學大數據涵蓋臨床診療、醫藥研發、公共衛生、生命組學、疾病監測、人口管理等多種來源渠道的數據,涉及大量的重要信息和隱私信息,具有較高的商業、學術和社會價值,需要比其他領域數據具有更高的安全性保證。然而,在大數據環境下,人口健康科學數據會在越來越多的機構、系統和業務環節中動態流轉,在數據生命周期的不同場景面臨不同的安全挑戰,以系統為邊界的傳統安全管理方法不能滿足數據的場景化安全需求。因此,科學數據中心需要結合業務場景開展人口健康科學大數據安全治理活動,保障人口健康科學大數據從采集、傳輸、存儲到共享利用的全鏈條安全。
本文在研究國內外人口健康科學大數據安全治理政策及實踐的基礎上,分析人口健康科學大數據在生命周期各場景的安全風險,研究并構建基于場景化的人口健康科學大數據安全治理體系,以期為我國人口健康領域科學數據中心開展數據安全治理提供參考。
數據安全治理是數據安全和治理理論的融合,以數據分級分類為基礎,以信息合理、安全流動為目標。國際研究機構Gartner[2]在2015年提出數據安全治理概念和框架(簡稱“DPG框架”),指出數據安全治理是從決策層到技術層、從管理制度到工具支撐、自上而下貫穿整個組織架構的完整鏈條,通過平衡業務需求與安全、確定數據優先級、制定數據安全策略、選擇安全工具和同步策略配置5個步驟開展數據安全治理工作。Microsoft推出的專門強調隱私、保密與合規性的數據安全治理框架(簡稱“DGPC框架”)與組織現有的IT管理和控制框架、ISO/IEC 27001等安全標準協同工作,涵蓋人員、流程和技術3個部分。我國數據安全治理委員會在2018年發布的《數據安全治理白皮書》[3]中,提出了數據安全治理的核心理念和實現框架,其中核心理念為分級分類、角色授權和場景化安全,實現框架包括數據安全人員組織、數據安全策略和流程、數據安全技術支撐三大部分。阿里巴巴于2016年推出的《數據安全能力成熟度模型》[4](Data Security Maturity Model,DSMM),圍繞數據生命周期,結合大數據的業務需求,從組織建設、制度流程、技術工具、人員能力4個方面對組織機構的數據安全能力進行評估,并將其分為5個成熟度等級(圖1)。王淳、馬海群[5]從技術發展、政府決策、國家立法和數據安全宣傳4個方面構建了我國數據安全治理體系,并提出了數據安全治理路徑的協同模型。此外,政務領域和銀行領域也有相關的大數據安全治理研究[6-7]。這些理論和框架是對數據安全治理進行的有益探索,為構建人口健康科學大數據安全治理體系提供了參考和借鑒。

圖1 數據安全能力成熟度模型架構
美國已經建立起具有可操作性的完備人口健康數據安全與隱私保護法律體系,如《隱私權法》、《病人權利典章》、《個人可識別健康信息電子共享的國家隱私與安全框架》、《醫療記錄隱私法案》和《健康保險攜帶和責任法案》(HIPAA法案)[8]等。其中HIPPA法案中對基于場景的數據使用授權分級、基于角色的數據使用權限界定以及基于責任主體的數據使用邊界等都有較為明確的規定,并給出了數據隱私安全的管理和技術保障要求。英國出臺的《數據保護法》《網絡要素計劃》等政策法規已廣泛應用于人口健康數據保護領域,英國衛生部門也專門提出了人口健康數據的安全保護措施。歐盟在2018年5月正式實施的《一般數據保護條例》(GDPR)[9],被稱為“史上最嚴數據保護條例”,任何收集、傳輸、保留或處理涉及到歐盟所有成員國在內的個人信息的機構組織均受該條例的約束。美國國立衛生研究院、英國癌癥研究中心、英國醫學研究理事會等科研資助機構均在數據管理和共享政策中包含了數據安全與隱私保護的內容。如美國國立衛生研究院規定:涉及人類受試者的數據應遵循HIPPA隱私規則,受機構審查委員會監管,并且在數據共享前應進行數據匿名處理[10]。目前國外也出現有關人口健康大數據場景化安全的研究。如Hayat等[11]提出了健康醫療大數據生命周期的安全模型,分析了安全威脅并給出應對措施;Kobayashi等[12]利用健康醫療數據開放運動的5個場景,提出了開放共享與隱私安全的平衡策略。
2016年起,我國陸續出臺了《網絡安全法》《科學數據管理辦法》《國家健康醫療大數據標準、安全和服務管理辦法》《人類遺傳資源管理條例》《數據安全管理辦法》等一系列數據安全相關政策法規,規定數據采集、存儲、挖掘、應用、運營、傳輸等多個環節中的安全和管理,強調人口健康科學大數據安全可控,維護公眾健康、國家安全和社會公共利益。國內科學數據管理機構也意識到共享數據存在的安全問題,在科學數據共享管理辦法中規定了涉密數據和隱私數據的安全措施。如原國家人口健康科學數據管理平臺根據《GB/T 7156—1987文獻保密等級代碼》將數據劃分為公開、國家內部、部門內部、秘密、機密和絕密6個保密級別,并進行了法律限制和安全限制分級[13]。人口健康科學數據倫理得到高度重視,如李曉潔、叢亞麗[14]強調解決人口健康大數據倫理問題需要加強各方合作。
與歐美發達國家相比,我國人口健康科學大數據的安全工作尚不完善,人口健康領域數據安全和隱私保護的立法相對比較滯后,數據安全政策起步晚、落地難,不能給行業實踐提供可操作性的指導;科學數據管理平臺對數據類型劃分和限制共享數據識別的規定過于寬泛,缺乏分級分類評估標準和監管機構;科學數據安全管理多以信息系統為中心,沒有上升到數據安全治理層面,缺乏針對數據生命周期各場景的安全保護,不能很好地滿足科學數據管理與共享服務的需要。因此,建立一套適合我國國情的人口健康科學大數據安全治理體系具有重要意義。
人口健康科學大數據作為大數據的重要組成部分,除了具有體量巨大、類型繁多、處理速度快和價值密度低等共性特點外,還具有隱私性強、價值高、多維性、時空性、長期保存性等專業特殊性[15],并且數據會在采集、傳輸、存儲、處理、交換、利用等過程的多個場景中流動,因此加大了數據安全保護的難度。在特定數據流的場景下識別安全風險是構建數據安全治理體系的基礎。
圍繞人口健康科學數據中心,基于眾多的用戶角色以及角色之間多類型、多模態的數據流動,人口健康科學大數據流動過程可以劃分為數據創建、匯交、接收、存儲、審核、加工、開發、運維、分析、訪問等多個場景(圖2)。人口健康科學大數據流動以數據創建者為起點,數據創建者包括人口健康領域科研項目負責人、擁有科學數據的行業機構或個人。他們通過基礎研究、應用研究、試驗開發等活動產生原始性觀察及觀測數據、檢查檢測數據、監測數據、診斷治療數據、試驗數據、實驗數據、調查和考察數據、統計數據、按照某種需求系統加工的數據以及相關元數據等,并在創建過程中形成了不同的數據創建場景。數據創建者按照國家科學數據管理有關規定向科學數據中心匯交數據,構成數據匯交場景。人口健康數據中心管理員執行數據接收、檢查和入庫操作,并交由人口健康領域數據專家進行數據內容審核和評價。數據保存后,數據中心管理員對科學數據進行長期保存和全生命周期管理,數據中心開發人員對科學數據管理與服務系統進行開發測試,數據中心運維人員對科學數據存儲與備份環境進行運行維護,數據中心加工人員對科學數據進行加工和處理。人口健康科學數據中心依據數據共享層級向政府部門、教育機構、科研機構、醫療衛生機構、數據創建者、社會公眾等各種群體提供數據共享服務,共享方式包括全社會開放共享、協議開放共享、領地共享等多種方式,并與科技資源共享網及其他數據管理系統進行數據互聯互通。

圖2 基于場景化的人口健康科學大數據關鍵流程分析
在數據生命周期的不同場景,數據面臨的安全威脅會有很大不同。本文圍繞人口健康科學數據中心,分析不同角色與數據中心交互過程中的安全風險(表1),主要包括隱私倫理、外部威脅、內部泄密、大數據平臺風險等。

表1 數據生命周期各場景的安全風險
在數據創建場景,人群隊列、疾病隊列等大量涉及個人隱私的數據被采集,若處理不當會造成隱私泄露和倫理問題。數據匯交場景主要涉及個人或機構向科學數據中心匯交數據,存在數據被攻擊者直接竊取、個人生物特征數據泄露、數據非法跨境流動、線上/線下傳輸泄密、網絡通信故障導致數據丟失等風險。在數據存儲場景,可能存在存儲系統被黑客入侵、數據庫感染病毒/木馬、存儲設備損壞以及數據管理人員泄密等風險。數據處理場景包括數據檢查、轉換、加密、加工等多個方面,并且隨著環境變化需要進行數據格式遷移、軟件環境遷移等技術處理,這些技術手段在操作過程中有導致數據篡改、丟失或泄露的風險。數據使用場景包括數據創建者、數據管理者、系統開發測試人員、運維人員、第三方用戶等各類人員對科學數據的訪問和使用,存在非授權用戶訪問數據、敏感數據外傳、數據被篡改等安全風險。
大數據平臺環境包括系統運行的軟件環境、硬件環境和外部環境,可能存在系統軟件、支撐軟件和應用軟件被攻擊、機房環境遭破壞、存儲載體被干擾、服務器故障和過時、網絡邊界脆弱等安全風險。
另外,數據安全保密制度不健全、審核流程不規范等制度因素,以及科學數據管理人員安全意識不強、技術能力薄弱等人員因素,也會造成數據安全問題。
人口健康科學大數據安全治理是以治理的思維方式改進傳統數據安全管理,綜合運用數據安全管理法律制度、人員組織、技術方法以及流程標準等手段對數據的安全性進行全面管理,以確保人口健康科學大數據的安全流動和合理使用。
針對人口健康科學大數據的特點和存在的安全風險,圍繞數據生命周期過程的各個場景,初步考慮從制度規范、人員組織、技術支撐3個層面構建基于場景化的人口健康科學大數據安全治理體系框架(圖3)。

圖3 人口健康科學大數據安全治理體系框架
在制度規范層面,建立數據安全治理制度保障體系,制定安全治理工作總體方針,確定數據標識賦碼、科學分類、風險分級、安全審查規則,建立系統運維、數據監控、角色授權、技術保障、組織管理等安全策略;在人員組織層面,建立數據安全治理組織保障體系,成立專門的數據安全治理團隊,保證數據安全治理工作能夠長期持續執行;在技術支撐層面,建立數據安全治理技術保障體系,強化人口健康科學數據工程技術能力,注重內容安全和技術安全,采用數據分級管控技術、數據多重加密技術、訪問控制技術、去標識化技術、安全審計技術等多種關鍵技術和工具,通過數據活動流程控制,保障人口健康科學大數據全生命周期安全。
針對大數據平臺環境,建立《人口健康科學數據中心數據安全管理制度》,包括數據安全組織機構及職責、人員安全管理規定、機房安全管理規范、應用系統管理規定、網絡安全管理規定、數據備份管理規定、應急預案管理規定等管理制度和操作規程,滿足《網絡安全等級保護基本要求》第三級的管理要求;建立《人口健康科學數據管理與使用制度》,對數據制作、審核、登記、復制、傳輸、銷毀等環節進行嚴格管理,按照國家有關保密規定執行涉及國家秘密的科學數據的采集生產、加工整理、管理和使用,規范數據資源使用的申請、審批和監管流程。
針對人口健康科學數據中心數據流轉場景,制定《人口健康科學大數據分類分級指南》和《角色分類授權規范》,指導數據分類分級和用戶分類授權,綜合考慮數據的來源、內容、價值、敏感度等多維要素對數據進行類別和密級劃分,確定不同類別和級別的敏感數據的安全管控原則,確定不同角色在不同場景下對不同類別和密級數據的訪問和使用規則;制定《人口健康科學數據匯交管理辦法》,對數據匯交目的、范圍、人員和流程等進行規范;制定《人口健康科學數據倫理審查制度》,由倫理委員會核查數據是否合乎道德,并為之提供公眾保證,確保受試者的安全、健康和權益受到保護;制定《人口健康科學數據安全保密審查制度》,對數據的類別和范圍、利用目的、用戶資質、保密條件等進行審查,若數據涉及國家秘密則要按照保密管理規定程序報主管部門批準,并與用戶簽訂保密協議;制定《人口健康科學數據監控管理制度》和《人口健康科學數據安全成熟度模型》,對數據進行全生命周期安全監控和安全風險評估。
建立科學的數據安全組織保障體系,組建專門的數據安全治理團隊,調用多部門協同參與數據安全治理工作。設立數據安全治理領導小組,負責指導數據安全治理工作;設立數據安全治理工作的職能部門,貫徹執行領導小組的決議,開展人口健康科學數據中心日常數據安全治理工作,其成員涵蓋多個部門,包括網絡管理員、系統管理員、安全管理員、安全審計員、機房管理員、應用管理員等。組織機構的所有成員職責、分工和技能要求明確,定崗定責,重要崗位配備雙崗制輪換。工作人員應嚴格履行各自的安全角色和職責,對軟硬件設施及科學數據生命周期進行監控,保障數據中心的正常運行。
工作人員錄用時需要通過身份、安全背景和專業資格審查以及技術技能考核,并簽署保密協議和崗位責任協議;離崗時應辦理嚴格的調離手續,并承諾調離后的保密義務。數據安全職能部門定期對各類安全管理人員進行安全意識教育和崗位技能培訓,并告知相關的安全責任和懲戒措施。數據中心各部門可針對不同崗位制定不同的培訓計劃,開展安全保密制度、安全技術策略、崗位操作規程等方面的教育培訓,并定期對不同崗位的人員進行技能考核,以增強工作人員的安全意識、行為規范和業務水平,避免出現數據泄漏。
人口健康科學數據中心依照等級保護三級建設,按照國家網絡安全管理規定建立網絡安全保障體系,采用安全可靠的產品和服務,完善數據管控、屬性管理、身份識別、行為追溯、黑名單等管理措施,健全防篡改、防泄露、防攻擊、防病毒等安全防護體系,實施安全物理環境、安全通信網絡、安全區域邊界、安全計算環境、安全管理中心五大類技術措施,從外部到內部對數據中心進行縱深防御。
構建大數據安全治理防護體系,提升對大數據的安全管控技術能力,實現對大數據安全情況摸底、數據使用管控以及數據治理稽核等。加強人口健康科學數據全生命周期安全管理,實時監控數據匯交、保存和訪問過程,采用多種技術手段保障數據在采集、傳輸、處理、存儲、利用等流轉場景下的安全。在數據創建場景,采用數據梳理、質量評估等技術對數據進行分級分類,采用脫敏技術對數據進行去隱私化處理,采用校驗技術和加密技術確保數據的真實性和完整性;在數據匯交場景,采用VPN技術構建數據傳輸網絡通道,其中利用IP-Sec VPN構建批量數據上傳的網絡,利用SSL VPN系統作為外網訪問的安全手段,并提供傳輸加密、服務端存儲加密與數據自銷毀功能,全面保護數據隱私;在數據存儲場景,進行數據分級分類存儲和多用戶數據隔離,對敏感數據進行細粒度防護,采用數據備份技術和RAID技術,建立本地災備中心和異地災備中心,對重要數據提供異地實時備份;在數據處理場景,采用數據溯源、數據脫敏等技術確保數據分析挖掘過程中數據的安全性;在數據使用場景,采用訪問控制技術并根據科學數據共享級別和用戶角色權限控制用戶對數據的訪問,采用虛擬桌面技術提供數據的遠程訪問和在線分析。另外,對科學數據生命周期全過程進行行為監控、安全審計和日志管理。
人口健康科學大數據涵蓋人的全生命周期,在“健康中國”戰略的疾病防控、健康管理等方面發揮著重要支撐作用,需要加強安全管控。本文針對我國當前人口健康科學大數據安全工作亟待完善的問題,通過調查分析人口健康科學大數據的特點和數據生命周期各場景的安全風險,從組織、制度、技術等多個角度構建的基于場景化的人口健康科學大數據安全治理體系,可為我國開展人口健康科學大數據安全治理工作提供理論思路和框架參考,有助于豐富和發展人口健康科學數據管理機制,推進人口健康科學大數據的規范管理和開放共享。
下一步將圍繞人口健康科學大數據安全治理體系進行以下幾方面的深入研究:細化人口健康科學大數據流動過程中各場景的安全風險研究,對安全風險進行分類分級;對人口健康科學大數據進行多角度分類分級,并設計分類分級的場景化保護方案,建立強調整體的協同安全治理能力;開展人口健康科學大數據安全治理體系實證研究,對人口健康科學大數據場景化安全治理體系進行評估和改進。