許 杰,張鋒軍,陳 捷,曾夢岐,李慶華,牛作元
(中國電子科技集團公司第三十研究所,四川 成都 610041)
《中華人民共和國數據安全法》(下文簡稱:數據安全法)的正式發布標志著數據安全已經上升至國家戰略高度,數據已經成為國家基礎性戰略資源,沒有數據安全就沒有國家安全。數據安全法指出:“維護數據安全,應當堅持總體國家安全觀,建立健全數據安全治理體系,提高數據安全保障能力。”
數據安全治理[1-3]是以“讓數據使用更安全”為目的,在中國易于落地的數據安全建設的體系化方法論。數據安全治理的核心內容如下文所述。
3 個需求目標:數據安全保護(Protection)、合規性(Compliance)、敏感數據管理(Sensitive)。
(2)核心理念:分類分級(Classifying)、角色授權(Privilege)、場景化(Scene)。
(3)數據安全治理的建設步驟:組織構建、資產梳理、策略制定、過程控制、行為稽核和持續改善。
(4)核心實現框架:數據安全人員組織(Person)、數據安全使用的策略和流程(Policy&Process)、數據安全技術支撐(Technology)。
隨著信息化和數字化的發展,以及數據安全法的推動下,越來越多的政府部門、企事業單位、金融機構、能源集團、運營商等各行各業,對數據安全合規的需求急劇增加,紛紛開始了數據安全治理體系的建設和探索之路。本文結合數據在實際應用中數據面臨的安全風險[4-5]和用戶的安全需求給出了一種面向大數據環境下動態防御的數據安全治理架構,并對該架構下的關鍵技術[6]進行了研究,以滿足數據的合規使用以及數據在使用中的安全防護需求。
在大數據環境下包含了不同等級的數據,特別是敏感數據的分類分級。如果普通數據和敏感數據界定不清晰,將無法實現數據安全保護的精細化管控。數據的粗管粗放,將會出現“一管就嚴、一松就亂”的局面,如各類數據存在越權使用的情況,部分用戶操作和使用超過自身權限的數據,還存在數據接口開發不規范的情況,交互行為未進行嚴格控制,部分非業務需求的敏感數據可以跨系統訪問和交互。
數據使用者安全意識不足,違規或不當操作會泄露敏感數據,如存儲介質濫用、違規傳輸、違規共享等。數據使用者還可能被引誘或收買,在日常工作任務中主動收集、隱藏和轉移敏感數據。
外部間諜組織或其他國家網絡空間部隊,長期潛伏在網絡空間中,使用高級持續性威脅(Advanced Persistent Threat,APT)攻擊、間諜軟件、監聽等技術竊取國家重要戰略數據和關鍵技術信息,以及黑客組織或個人出于技術炫耀和利益竊取重要敏感數據。
數據在使用和傳輸過程中被非法篡改,導致數據失真,如果涉及重要技術指標或控制指令可能會造成非常嚴重后果。
使用數據破壞性惡意軟件或工具,對數據進行加密、刪除、覆蓋、粉碎等操作,破壞敏感數據完整性和可用性。
根據數據安全治理的概念,數據安全治理核心理念可以理解為在數據生命周期過程中,以數據為中心,以分類分級為基礎,以安全策略為驅動,通過權限管控,確保數據在各類場景下使用的安全。在該理念下,數據安全治理架構設計原則[7-8]應包含以下幾點。
2.1.1 數據分類分級
數據分類分級[9-10]是數據保護的核心基礎,只有對數據進行有效分類,才能夠避免一刀切的控制方式。在數據的安全管理上采用更加精細的措施,使數據在共享使用和安全使用之間獲得平衡,并對數據全面摸底,進行數據資產梳理、敏感數據發現及梳理、數據資產分級、用戶及敏感資產權限梳理。
2.1.2 細粒度權限管控
數據在分類分級后,應明確數據的訪問角色和使用方式,針對不同的角色賦予不同的訪問權限。數據細粒度權限管控是一種精細化的訪問控制行為,目的是限制主體對于客體的訪問,防止主體對客體的任何資源進行未授權的訪問。對大數據而言,訪問控制不僅要防止非法用戶對數據資源的惡意獲取訪問及篡改,而且要控制合法用戶的越權訪問和越權操作。
2.1.3 場景化安全策略
大數據環境下,不同的業務有不同的需求,各類業務根據業務特點、使用需求適應不同的使用場景。應根據不同的場景進行針對性地制定數據安全防護策略,即應將業務人員分為不同等級以及不同的角色,按照“數據訪問最小化原則”,在不影響業務正常開展的前提下,從時間和空間維度對用戶和數據行為進行約束。
遵循上述的數據安全治理架構設計原則,在該原則的基礎上結合用戶實際需求設計數據安全治理架構,如圖1 所示。

圖1 數據安全治理架構
圖1 中的數據安全治理架構以數據分級分類、授權管理、數據安全策略、統一審計、統一身份認證、人工智能等技術為基礎,構建包括數據梳理、行為分析、威脅分析、態勢感知、追蹤溯源、評估優化等主要能力的大數據安全治理體系。該體系體現了動態防護的理念,能夠作為大數據動態防御體系[11-15]的重要組成部分,為實現動態防御能力提供支撐。
本文基于上述的大數據安全治理架構,梳理出了大數據環境下數據安全治理的5 個關鍵技術,如圖2 所示。

圖2 大數據安全治理技術
數據安全風險主動感知技術是從多維度、全方位進行數據收集,并利用數據行為分析、內容分析、全流量分析技術對安全風險進行主動發現和感知。
數據安全風險分析技術架構包含兩個層次,分別是數據層和算法分析層,如圖3 所示。其中,算法分析層一般運行在實時流處理、近線增量處理、離線批量處理的大數據計算平臺上。

圖3 數據安全風險主動感知技術架構
數據層負責對各類分析所需數據進行采集和預處理。采集數據包括:安全類數據(防火墻、入侵檢測、病毒查殺、前置機、數據庫防火墻等)、用戶類數據(用戶權限、用戶行為等)、數據資產類數據(數據屬性、數據分級分類、數據共享等)、流量行為類數據(網絡流量、數據流量),采集后的數據經過抽取-轉換-加載(Extract-Transform-Load,ETL)處理后,按照算法分析層的要求為各類算法提供分析數據包,形成的算法包主要為數據實體和用戶提供安全風險監測。
算法分析層主要包括在線分析處理(實時流處理)、分析建模(近線增量處理)和離線分析(離線批量處理)3 類時效分析。分析算法主要包括特征統計學習、動態行為策略、時序前后分析3 類。其關鍵技術包括基線及群組分析、異常檢測、安全知識圖譜和強化學習,具體如下文所述。
(1)基線及群組分析。通過歷史策略,構建群組分析,可以跨越單個用戶或實體的局限,發現更大的事實,易于進行異常檢測;通過概率評估可以降低誤報,提升信噪比;通過組合基線分析、群組分析,可以構成全時空的上下文環境。
(2)異常檢測。該技術專注于發現統計指標異常、時序異常、序列異常、模式異常等異常信號。采用的技術包括孤立森林、K 均值聚類、時序分析、異常檢測、變點檢測等傳統機器學習算法;也可以利用深度學習技術,包括基于變分自編碼器(Variational Auto Encoder,VAE)的深度表征重建異常檢測、基于循環神經網絡(Recurrent Neural Network,RNN)和長短時記憶網絡(Long Short-Term Memory,LSTM)的序列深度網絡異常檢測、圖神經網絡(Graph Neural Network,GNN)的模式異常檢測等。
(3)安全知識圖譜。知識圖譜已經成為人工智能領域的熱點方向,在網絡安全中同樣也有巨大的應用潛力。知識圖譜可以從事件、告警、異常、訪問中抽取出實體及實體間關系,并構建成一張網絡圖譜,任何一個事件、告警、異常,都可以集成到網絡圖譜中,從而直觀、明晰地呈現多層關系,能夠讓安全分析師近似真實地復現攻擊全過程,了解攻擊的路徑與脆弱點,評估潛在的受影響資產,從而更好地進行應急響應與處置。
(4)強化學習。不同客戶的環境數據源具有多元性及差異性,以及用戶對異常行為的定義各有不同,因此,數據行為分析需要具有一定的自適應性,做到“入鄉隨俗”輸出更精準的異常風險。強化學習能夠根據排查結果自適應地調整正負權重反饋給系統,讓整體效果持續優化改進,進而得到更符合客戶期望的風險評分。
如圖4 所示,統一訪問控制與數據安全策略管理技術包括服務端與客戶端。服務端通過資源發現功能實現資源的管理和生成,并依據基于屬性的訪問控制安全策略進行判決,從而對數據進行管理,并基于資源和訪問控制實現數據安全策略的定制和下發,客戶端從服務端獲取數據安全策略。

圖4 統一訪問控制與數據安全策略管理技術架構
數據安全策略采用3 級結構模式,將組織中非常復雜的技術性數據安全策略由粗到細進行實現。第一級是權限控制策略,第二級是分級分類保護策略,第三級是數據防泄漏策略。
統一訪問控制與數據安全策略管理技術進行訪問權限的統一管理和下發,業務系統和數據庫防火墻通過調用應用程序接口(Application Programming Interface,API)接口,實現訪問判決功能。統一訪問控制與數據安全策略管理技術將訪問權限推送至對應的業務系統進行本地緩存,實現高效的本地權限查詢、匹配和判決功能。
如圖5 所示,業務行為分析與安全監控技術在業務系統關鍵數據訪問和處理點位上,采集系統行為上下文日志與數據流轉信息。經過數據采集、數據清理、數據集成、數據轉換、數據規約、數據存儲和結果展示等步驟,實現業務系統操作日志的采集、存儲、查詢、審計、可視化和聚合分析等功能。同時,使用狀態機建模技術、頻繁序列挖掘技術和異常檢測技術等關鍵技術對業務應用過程中行為活動上所表現出來的規律進行歸納和總結,建立正常業務行為基線,實現基于行為基線的異常行為分析、監控和異常上報等功能。最終達到對各個業務系統的提供安全保障,發現潛在安全威脅和預警的目的。

圖5 業務行為分析與安全監控技術架構
在數據采集層方面,以數據采集、數據清洗、數據集成、數據轉換和數據規約等技術為支撐,形成數據采集技術,完成底層數據來源的引接與采集。在數據存儲層方面,以數據管道、熱存儲和冷存儲等技術為支撐,并融合分布式隊列、分發網絡、檢索引擎、關系型數據庫、文件存儲和對象存儲等關鍵技術,確保采集數據的安全存儲。在數據計算層方面,主要運用了數據查詢技術、數據聚合技術和并行計算技術,確保分析數據的時效性和準確性。最后在狀態機建模技術、頻繁序列挖掘技術和異常檢測技術的支撐下,實現業務系統行為分析智能判斷,并融合數據可視化技術,對分析告警結果進行有效展示。
如圖6 所示,數據安全風險評估與策略調整技術在數據風險分析感知的基礎上,對風險感知信息進行綜合評估,將評估后的結果、應用場景、策略執行反饋信息等多維度信息作為輸入,通過環境(environment,E)、風險(risk,R)、主體(subject,S)、客體(object,O)、行為(act,A)五維度防御策略調整模型給出策略調整建議。

圖6 數據安全風險評估與策略調整技術架構
3.4.1 綜合風險評估引擎
由于多維風險檢測往往是異常檢測類型的弱指示器,在實際部署過程中,會出現誤告警事件,而真正的檢出問題往往淹沒在大量無關的告警中。為了解決這個問題,可以使用打分技術,針對每個用戶,給出綜合的風險評判分數或等級,直觀地呈現給管理者,從而可以更好地聚焦發現真正的安全風險,提升風險預警的實用價值。
風險綜合打分機制通常主要由算法、優化策略和閾值設定3 部分組成。
(1)算法
基于機器學習的方法主要是使用貝葉斯網絡、高斯核分布等方法,對直接帶權累加的方案進行優化。深度學習的方案則需要先針對預先設置的時間段對時間做編碼(encoding),然后使用長短時記憶網絡(Long Short-Term Memory,LSTM)模型進行分數預測。
(2)優化策略
優化策略包括對于數值的歸一化處理,以及從計量策略上的優化,比如歷史分數按照時間的推移,對風險等級的影響程度逐漸變小,總體分數按照事件數量有一定的衰減嗎,利用貝葉斯網絡根據事件實際分布動態調整權重等。
(3)閾值設定
風險綜合打分引擎的輸出是針對每個用戶/賬號的風險分數,需要結合相應的閾值,來判斷用戶的風險等級。通常,閾值的設定有人工設定、按環境變量動態變化或者根據歷史分數的預測值進行判斷3 種方法。
3.4.2 策略調整模型
策略調整模型以風險綜合分析評估后的結果、應用場景、策略執行反饋信息等多維度信息作為輸入,通過五維度防御策略調整模型給出策略調整建議。五維度具體為:環境(environment,E)、風險(risk,R)、主體(subject,S)、客體(object,O)、行為(act,A)。集合(E,R,S,O,A)是一個基本要素集,在實際的評估過程中,可根據需要對維度要素進行擴展。
模型將風險綜合分析評估后的結果作為模型中的風險信息(R),應用場景信息作為環境信息(E),策略執行反饋信息作為行為信息(A),主體(S)為用戶或數據,客體(O)為用戶或數據,構建五維調整判斷向量,按照設定的權值得出最終策略部調整建議,權值設定主要有人工設定、風險評定結果動態變化或者根據歷史分數的預測值3 種方法進行設定。
數據安全風險追蹤溯源技術通過采集數據全生命周期的行為日志,構建數據數量分布情況信息庫、數據等級分布情況信息庫、數據使用情況信息庫以及數據血緣關系庫;以數據標簽為基礎,將數據標簽與數據結合并貫穿于數據整個生命周期;利用大數據綜合關聯分析及機器學習對數據行為進行分析并實行監管;提供對已知和未知的數據安全威脅事件在事前、事中、事后的規避、發現和解決以及追蹤溯源等功能,為大數據安全提供動態閉環的智能化治理能力。數據安全風險追蹤溯源技術架構如圖7 所示。

圖7 數據安全風險追蹤溯源技術架構
如圖7,數據安全風險追蹤溯源技術首先通過數據資產的自動識別與發現和數據資產血緣分析,實現對數據資產全體系、全譜系的統一梳理。其次,基于數據資產構建以任務為中心的數據物理拓撲和邏輯拓撲,并基于任務、用戶、數據資產的上下文數據,利用機器學習和人工智能,動態構建面向任務和用戶的數據行為基線,通過數據行為基線可進行異常行為檢測。最后,通過基于人工智能的追蹤標識和內容標識學習和標記,以及通過基于機器學習的追蹤標識跨域更新技術對多源異構數據(結構化、半結構化、非結構化)進行追蹤標識和內容標識,實現全路徑數據追蹤溯源。
數據安全治理是數據安全保護的一種思路或體系,是一種將數據安全技術與數據安全管理融合在一起,并綜合業務、安全、網絡等多部門多角色的訴求,系統化總結歸納的方法。本文從技術的角度,圍繞數據安全治理的核心理念,給出了數據安全治理體系的架構,并對該架構下的關鍵技術進行了梳理和研究。本文提出架構和方法體現了數據安全治理的先進性和實用性,能夠為相關的研究提供指導和借鑒。