許 杰,張鋒軍,陳 捷,李慶華,牛作元,石 凱
(中國電子科技集團公司第三十研究所,四川 成都 610041)
隨著信息技術的快速發展,人類的生產生活與信息技術交匯融合的程度也越來越深。在融合的過程中,各類數據呈現指數級增長的特點。這些海量數據在聚集的過程中,對經濟發展、社會治理、人民生活都產生了重大而深刻的影響。與此同時,數據安全也成為事關國家安全和經濟社會發展的重大課題。《中華人民共和國數據安全法》的正式發布標志著數據安全已經上升至國家戰略高度,數據已經成為國家基礎性戰略資源,沒有數據安全就沒有國家安全。
當前,各類海量數據呈現出主體多樣化、處理活動復雜化的特點。大數據環境下,數據除了面臨傳統的安全威脅外,還要面臨諸多新型安全威脅。傳統的安全手段及體系呈現出的單點、靜態、被動防護的特點已不能有效應對大數據環境下的安全威脅。大數據的安全防御需要從大數據的流轉復雜、關聯融合、蘊含價值等特點入手[1],面向攻擊手段多樣、攻擊程序不斷更新迭代的新型安全威脅,圍繞數據全生命周期提供動態防御能力。在這種背景下,安全防御技術及體系需要從單點、靜態、被動防護向全面、動態、主動防護轉變[2-4]。
大數據除了面臨傳統安全威脅以外,同時還要面臨新型的安全威脅。
隨著信息化建設持續推進和技術不斷發展,數據呈現爆發式增長,同時各類應用系統也呈現出多樣化特點,使得數據的流轉更加錯綜復雜,導致數據暴露出更大的攻擊面。此外,由于數據平臺支撐的業務應用多種多樣,對外提供的服務接口千差萬別;因此,攻擊者有機會通過服務接口攻擊大數據系統,而如何保證多種服務接口的安全也成為大數據平臺面臨的極大挑戰。
大數據在全生命周期過程中呈現出數據動態化、密級多樣化、權屬復雜化、使用實時化、價值最大化的特點,這些特點導致了大數據環境下的攻擊手段多樣化。攻擊程序不斷更新迭代,使得大數據在全生命周期過程中被竊取、被濫用、被篡改的風險不斷增大。傳統的安全手段及體系呈現出單點、靜態防護的特點,在應對大數據環境下的安全威脅時會出現防護效果不佳,甚至失效的情況,也為數據安全威脅的追蹤溯源帶來了更大的挑戰。
大數據經挖掘分析后能產生具有極高價值的數據產品,這些產品能夠為經濟、社會、國家戰略等活動提供決策支撐;但與此同時,大數據產品極易吸引內部非法人員的攻擊竊取。這類攻擊呈現出長期潛伏、難以發現的特點,現有態勢感知及應急處置等協同防御手段無法有效應對此類威脅,更無法有效發現未知威脅,使得高價值數據面臨巨大的安全風險。
大數據系統及平臺的可靠、安全運行是信息系統運行的重要基本保障,但也往往成為對手首要攻擊對象。數據對經濟決策、社會治理、國家安全等活動具有重大意義,其安全的重要性不言而喻。近年來發生的由于內部管理不規范導致的斯諾登事件,美軍士兵運動信息被收集導致美軍事基地暴露,劍橋數據分析公司惡意影響美國總統大選等,證明網絡空間對抗的日益常態化、高級化、復雜化,也暴露出單純使用漏洞移除、打補丁、訪問控制、邊界防護等傳統安全防護技術的網絡空間靜態防御難以預防動態的內外部復雜攻擊,需要積極探索大數據安全動態化、體系化防御框架。
數據來源眾多、密級不同,對不同級別數據的管理和防護要求也不相同,為了高效安全使用多來源、多種類、多密級海量數據,充分體現并發揮大數據在各領域價值,需要對大數據進行綜合安全治理[5-7]。大數據綜合安全治理需要在分級分類基礎上,為數據添加屬性標識,并根據數據屬性進行細粒度全生命周期安全防護。在體系化安全防護中,首先,需制定數據安全防護基線,并對數據安全保密能力進行評估;其次,針對數據共享、數據應用等過程提供多層次安全保密服務,并制定針對不同密級數據的安全防護策略;最后,針對任何可疑數據行為,特別是內部行為提供追蹤溯源能力。通過大數據綜合安全治理,可為大數據在全生命周期過程中面臨的安全威脅提供事前預防、事中發現、事后溯源的體系化安全保密防御能力。
隨著云計算、大數據、人工智能等新技術的發展,針對大數據的攻擊手段呈現出多樣化、自動化、智能化的特點。為有效應對新的攻擊手段及新型安全威脅,迫使安全防護手段必須向智能化、動態化防護方向演進。數據在全生命周期流通過程中,訪問用戶的身份、數據的權屬關系、數據的訪問行為等都在動態發生變化;因此,安全防護系統需要對用戶身份和權限進行動態評估和識別,同時對數據資產也要進行動態梳理,并對數據的訪問行為進行動態監控,實現大數據的智能化、動態化、體系化安全防護。
基于以上對大數據安全風險的分析,面向大數據動態防御需求,圍繞大數據全生命周期活動,通過數據分類分級,構建“梳—管—控—監—評—溯”的動態防御體系模型。在該模型中,通過密碼保密、身份認證、數據安全標簽、權限管控、日志審計、分級分類、行為分析、流量分析等數據安全支撐技術共同形成數據安全服務增強、數據分級分類保護、數據追蹤溯源、數據安全防護能力評估等一系列安全防護能力,構建大數據動態防護體系,提供大數據動態防御能力。
圖1 中的大數據動態防御模型是從大數據生命周期和大數據平臺兩個維度全方位考慮動態安全防護能力,其形成的動態防護流程如下文所述。

圖1 大數據動態防御模型
(1)對數據生產者、數據消費者、數據提供者產生的數據進行梳理,重點是按照數據分類分級標準對各類敏感數據資產進行梳理,包括系統信息、人員信息、業務信息等,讓數據擁有者或管理者了解自己數據的分布情況。
(2)在數據各類應用場景下,根據數據等級、用戶防護需求,制定不同的數據安全防護策略,并將策略分發至各類安全防護設備,防護設備依據防護策略對數據各種流程進行管控,在對各類數據流程進行管控的過程中,應根據用戶的權限和數據的屬性實施細粒度權限管控,細粒度權限管控應涉及數據平臺自身安全、數據源與數據平臺間、數據平臺與業務應用系統間、業務應用系統與終端用戶(數據消費者)間等典型場景。
(3)對數據在生命周期各階段的行為進行監控,重點對異常數據資產進行監控,并提供數據安全態勢感知和態勢展示。
(4)對數據行為監控過程中發現的異常行為或威脅進行追蹤溯源,將溯源結果和各類安全設備反饋的安全策略執行情況進行綜合分析,對數據安全防護效能進行動態評估,并根據評估結果對安全策略進行及時調整。
通過上述過程的循環執行,持續進行數據梳理、策略制定、流程管控、行為監控、溯源評估、態勢展現的動態防護過程,能夠形成對數據實時可感、可知、可視的動態防護能力。
近年來,越來越多的科技工作者開始了大數據安全技術的研究,涉及到大數據自身安全和大數據技術應用到安全兩方面[8-10],本文提出的面向動態防御的大數據安全技術涉及大數據自身安全,主要包括以下5 個技術路線。
針對海量數據及屬性難維護、異構數據模型不統一、安全威脅不直觀、敏感數據資產可視能力不足等問題,數據資產可視化分級分類保護技術[11-12]根據數據分類分級標準,實現多來源、多種類、多密級、多種安全保密防護要求以及不同網絡環境的數據資產的綜合管理能力,支撐數據綜合安全治理裝備體系構建,滿足數據在不同應用場景下多密級安全保密策略的動態化、體系化管控需求。數據資產可視化分級分類保護技術主要包括數據分級保護策略自動化生成技術、敏感資產自動化發現技術、多場景數據資產威脅可視化分析處理技術。
4.1.1 數據分級保護策略自動化生成技術
數據在多應用場景下,存在多密級的情況,不同業務的安全防護需求在不同密級情況下要求也不同。針對大數據的多源異構數據,利用數據安全標識,在數據安全基線的基礎上,構建統一數據安全模型,自動生成安全防護策略,建立數據安全屬性與安全保密能力的連接關系,提供多層次安全防護策略,實現自動化數據安全防護。
4.1.2 敏感資產自動化發現技術
基于數據分類分級標準,研究敏感數據屬性分類機制,統一敏感數據結構描述方法,建立統一的敏感數據發現體系。此外,在統一發現體系基礎上,實現敏感數據資產及其屬性和數據關系的自動發現,全面盤點敏感數據資產,形成敏感數據地圖。
4.1.3 多場景數據資產威脅可視化分析處理技術
研究海量異構數據信息在數據生命周期各階段不同場景下的威脅可視化呈現方式和操作方式,并基于數據分類分級,將數據威脅與敏感數據自動關聯,實現敏感數據威脅的高效可視化管控,提升綜合安全治理決策效率。
面向大數據環境下的各類信息系統和業務系統,通過數據采集、傳輸、存儲、處理、交換和銷毀的各個環節存在的各種脆弱性和威脅,研究數據安全風險智能感知、風險評估和協同防御技術[13-15],為大數據動態防御體系提供用于智能化決策的預警信息并制定動態協同防御策略,有力支撐大數據動態防御體系構建。數據安全風險感知與協同防御技術主要包括全態化防御信息采集及行為分析技術、數據安全風險智能識別技術、數據安全態勢預測模型和評估指標體系、攻擊評估與協同防御技術。
4.2.1 全態化防御信息采集及行為分析技術
從多維度、全方位進行全態化數據收集,研究大數據系統中軟硬件、網絡、業務多種類信息精準、高效、可動態調整采集方法;并基于采集的數據,構建數據及網絡流量的行為特征模型,通過數據通信協議特征、訪問行為與訪問接口之間的關系,構建流量分析模型和內容分析模型,通過特征學習、關系學習等流量分析和內容識別手段發現隱藏在數據流量中的安全威脅。
4.2.2 數據安全風險智能識別技術
首先,研究并建立一種形式化數據安全風險描述模型,構建大數據環境下數據流經的環境安全風險集;其次,基于粗糙集理論研究數據安全風險篩選規則技術,從安全事件中學習規則,使獲得的各安全域的數據安全風險更加貼近真實情況,從而能夠準確實時地識別出數據安全風險。
4.2.3 數據安全態勢預測模型和評估指標體系
研究大數據環境下安全態勢數據采集和統一的信息交互表示協議和標準、系統配置漏洞、運行環境漏洞、目標代碼漏洞及其關聯環境漏洞,提出對漏洞、違規操作、攻擊行為的多維度監測識別手段。研究態勢量化評估和預測模型,利用機器深度學習態勢評估算法實現安全態勢綜合評估,基于攻擊意圖推演實現態勢趨勢預測和預警。
4.2.4 攻擊評估與協同防御技術
針對大數據環境下的惡意行為的攻擊階段、影響范圍、威脅程度進行智能化評估,并結合實際情況制定相應的防御措施,分級別、分層次、分范圍地對大數據系統進行協同防御策略制定和分發,形成圍繞“網絡—應用—平臺—數據”的協同防御系統,提供大數據系統網絡“一處發現威脅,全網協同防御”的能力。
數據安全服務增強技術針對大數據場景下數據安全服務面臨的身份仿冒、越權訪問、數據監聽、惡意攻擊等問題,提升大數據服務的身份安全驗證能力和數據共享使用時的細粒度訪問控制能力,提供數據服務系統配置自動化處理、動態編排、動態調整、快速集成等數據安全增強服務,保證各類敏感數據的合理、安全、保密等共享使用。數據安全服務增強技術主要包括數據服務Web 服務透明加固和細粒度參數保護技術,安全配置自動生成、動態部署及監控技術,安全服務能力在線編排與重構、調整調度、快速集成技術。
4.3.1 數據服務Web 服務透明加固和細粒度參數保護技術
針對數據服務缺乏細粒度管控,數據服務缺乏保護等問題,研究大數據服務場景下的Web 服務透明化加固和參數級管控技術,實現對業務透明的數據加密和參數粒度的數據安全管控。
4.3.2 安全配置自動生成、動態部署及監控技術
研究安全配置自動生成并將目標系統模型自動轉化為機器可識讀的配置劇本以及安全配置的形式化驗證方法,確保配置高層語義滿足一致性條件和正確性、安全性要求。研究在編排器和控制器上將高層安全配置劇本按照全局一致性和過渡一致性的約束下執行配置指令及以及系統運行狀態與抽象描述一致性監控方法。
4.3.3 安全服務能力在線編排與重構、調整調度、快速集成技術
面向服務節點應用場景的特定需要,通過對基礎安全服務按照一定模式流程的順序關聯調用,抑或針對基礎安全保密服務的模式化擴展,實現安全服務節點安全服務能力在線編排、重構、調整調度和快速集成。
數據安全能力綜合評估技術針對大數據環境下的各類數據安全設備和大數據平臺等對象實體,按照數據安全動態防護的思路,以數據安全能力動態評估與持續提升為目標,通過對各數據安全設備的數據安全策略執行效果、大數據平臺自身安全脆弱性情況,以及數據生命周期重要環節過程控制情況等進行稽查和評估,核實數據安全策略以及過程控制等執行情況,判斷各數據安全能力是否充分和有效發揮,達到對各數據安全設備、大數據平臺內生的數據安全能力的“可視、可查、可審”的目的,以及優化數據安全防護策略,為數據安全能力持續改進、迭代提升提供支撐。數據安全能力綜合評估技術主要包括數據安全能力智能稽查技術、數據安全風險智能評估技術。
4.4.1 數據安全能力智能稽查技術
研究數據安全設備的策略配置、安全配置等數據安全配置基線的智能構建以及實時監控技術,并構建數據安全綜合監控模型。
4.4.2 數據安全風險智能評估技術
通過對大數據平臺自身安全配置和安全漏洞進行掃描,基于人工智能和機器學習對數據行為綜合關聯分析,構建大數據安全能力智能評估模型,構建智能評估體系。
數據安全風險追蹤溯源技術針對大數據環境下的數據安全風險存在動態變化的新情況,對數據訪問行為監控、全路徑追蹤溯源以及安全風險根因分析等技術開展研究,實現數據的風險追蹤溯源,為安全防御策略制定提供支撐,確保數據全生命周期安全、可控。主要包括多源異構數據行為監控與全路徑追蹤溯源技術、數據安全風險根因分析技術。
4.5.1 多源異構數據行為監控與全路徑追蹤溯源技術
研究各類數據形態的數據實體,及數據流轉過程中實體之間的依賴關系提取技術,構建數據分布情況信息庫、數據等級分布情況信息庫、數據使用情況信息庫以及數據血緣關系庫。以數據標簽為基礎,將數據標簽與數據結合并貫穿于數據整個生命周期,利用大數據綜合關聯分析及機器學習對數據行為進行分析并實行監管。數據追蹤溯源是實現權責分離、數據安全管控的重要基礎,基于標識實現數據全生命周期的唯一性,通過對結構化、非結構化、半結構化的數據按照內容屬性、安全屬性、簽名屬性等不同視角進行標注,對每個數據的跨域訪問進行全路徑追蹤溯源。
4.5.2 數據安全風險根因分析技術
根據數據流轉、調用鏈等信息流勾勒數據流動畫像;利用強化學習、逆強化學習等算法建立根因追溯模型;基于圖搜索等根因追溯算法,進行根因定位;構建安全風險根因追溯評估指標,對根因追溯模型及算法準確性進行有效評估;研究基于數據安全風險根因的主動防御系統聯動機制,在發生安全風險時能夠及時采取對系統影響最小的應對措施進行阻斷。
本文在分析了大數據的安全風險和動態防御方面安全需求的基礎上,圍繞數據全生命周期,給出了面向動態防御的“梳—管—控—監—評—溯”大數據安全防御模型,對模型的動態防護流程進行了說明并對模型中涉及的數據資產可視化分級分類保護技術、數據安全風險感知與協同防御技術、數據安全服務增強技術、數據安全能力綜合評估技術以及數據安全風險追蹤溯源技術進行了討論和研究。本文提出的思路和方法體現了大數據安全體系化動態防御的先進性和實用性,能夠為相關的研究提供指導和借鑒。