數據的訪問、流轉途徑很多,當前針對每種途徑的監控及防護手段基本成熟,出現了諸如4A、字符堡壘、文件堡壘、桌面終端管控系統、DLP、入侵防護等安全設備。雖然每類技術大都能監控、記錄數據的訪問操作過程,發揮自己應有的作用,但大部分不具備甄別對敏感數據操作行為,更不能全面分析、呈現敏感數據流轉過程。
針對當前大數據平臺下的訪問日志解析與敏感數據流轉視圖展現能力的不足,本文提出一整套解決方案:首先采集大數據組件以及數據訪問操作行為日志,結合敏感數據分類分級、日志格式化基礎信息等進行析取和格式化,并標識敏感數據訪問。然后橫向關聯所有敏感數據訪問操作類日志,綜合分析敏感數據訪問、流轉途徑。最后通過可視化工具,繪制出敏感數據訪問操作流轉視圖。
對敏感數據進行分類分級定義,根據數據敏感程度采取與數據安全風險相適應的管理措施,為敏感數據訪問行為識別提供依據。
敏感數據分類包括:用戶身份和鑒權信息、用戶數據及服務內容信息、用戶服務相關信息三大類,每項大類又可分為多項子類。
用戶身份和鑒權子類信息包括:自然人身份標識、網絡身份標識、用戶基本資料、實體身份證明、用戶私密資料、用戶密碼及關聯信息。
用戶數據及服務內容子類信息包括:服務內容數據、聯系人信息。
用戶服務相關子類信息包括:業務訂購關系、服務記錄和日志、消費信息和賬單、位置數據、違規記錄數據、終端設備標識、終端設備資料。
敏感數據分為四個級別,分別為極敏感級、敏感級、較敏感級、低敏感級。
極敏感級數據分類包括:實體身份證明、用戶私密資料、用戶密碼及關聯信息。
敏感級數據分類包括:自然人身份標識、網絡身份標識、用戶基本資料、服務內容數據、聯系人信息、服務記錄和日志、位置數據。
較敏感級數據分類包括:消費信息和賬單、終端設備標識、終端設備資料。
低敏感級數據分類包括:業務訂購關系、違規記錄數據。
采集大數據平臺組件、平臺訪問控制設備、應用程序接口、網絡設備、安全設備等日志信息,通過標準化引擎對日志屬性進行解析、格式化,輸出統一格式的安全日志,并對標準化后的日志進行過濾、歸并等降噪處理,結合敏感數據分類、分級信息,通過正則表達式等模式匹配方法識別并標識敏感數據操作類安全日志,為敏感數據流轉過程分析提供數據支撐及依據。
數據采集范圍廣、采集方式豐富、采集能力強,確保采集數據的全面性、及時性及準確性。
1.采集范圍
采集范圍覆蓋敏感數據生成、傳輸、存儲、使用、共享、銷毀各個環節,包括:
大數據平臺組件(HDFS、HBase、Hive、Sqoop);
訪問控制設備(4A、字符堡壘、FTP堡壘,桌面終端管控系統);
安全設備(網絡DLP、終端DLP、入侵防護、網絡嗅探、數據庫嗅探);
網絡設備(交換機、路由器);
主機(各類操作系統);
數據庫(各類關系型數據庫);
中間件(各類中間件系統)。
2.采集方式
采集方式包括被動及主動兩種方式,被動采集支持SYSLOG、TRAP兩種方式,可實時接收日志信息;
主動方式支持FTP、SFTP、JDBC、webservice 協議,可周期、準實時采集設備日志信息。
結合日志知識庫信息,通過日志標準化引擎對設備原始日志信息進行解析和抽取,根據日志分類識別表達式識別出原始日志對應的安全日志分類,并按該分類所適用的屬性字段析取相應的值。然后由標準化引擎根據特征值公式進行計算、精準匹配出安全日志,最終輸出的安全日志信息包括日志類型、操作對象、操作命令、賬號、源 IP、目的 IP、報送設備IP、日志內容、日志級別、發生時間等相關屬性。
1.日志分類識別
通過正則表達式規則匹配算法的一系列特殊字符構建日志分類的匹配模式,然后依據匹配模式對原始日志進行匹配,匹配成功后析取正則表達式中的分組變量或特殊變量值,并將屬性變量及其值以key-vale形式緩存在map里,通過日志分類識別表達式及其已經析取出的變量值計算出所屬的日志分類。
原始日志樣例:<86>sshd[12915]: Accepted password for root from 186.31.27.53 port 4991 ssh2
日志分類識別規則樣例:<(d+)>([^;]+):s*(Accepted password) fors+(w+)s*froms*([w|W]+)s+ports+d+s+(w+)
日志分類識別規則樣例:if {原始數據析取變量:主賬號}="" then {BM數據庫事件:BM數據庫繞行操作事件} else {BM數據庫事件:BM數據庫堡壘操作事件}
2.安全日志識別
特征值公式是由解析的日志基礎屬性變量、邏輯關系符等邏輯表達式組成,最終通過內部表達式規則引擎算出結果。
特征值公式樣例:如果 {日志屬性:日志ID}=527并且{日志屬性:源地址}<>'128.12.17.10'則'繞行登錄' 否則 {日志屬性:日志ID}。
安全日志分類特征值樣例 :25。
對不具備分析意義的安全日志進行過濾,減少不可信、不重要的安全日志,析取出真實有價值的日志。對重復發生或大部分屬性相同的安全日志,在不影響后續事件分析的前提下對個體進行合并,減少事件總數量。
安全日志過濾、歸并規則以日志類型、源地址IP、目的地址IP、日志發生時間、操作命令等日志屬性值作為條件參數,支持等于、不等于、大于、小于、包含、LIKE、IN等數學函數表達式,如:{事件屬性:目的地址} like'192.132.12.%' and {日志 屬性:操作命令} in'rm,vi'。
結合敏感數據分類、分級定義的敏感數據特征屬性,利用正則表達式等模式匹配方法對安全日志相關屬性如操作對象、操作內容等進行匹配,匹配成功,則標識該安全日志為敏感數據操作日志。
基于以上步驟分析出的不同設備產生的敏感數據操作類標準日志,通過對日志相關屬性如日志類型、操作對象、操作命令、操作內容、時間、源IP、目的IP等進行多維、綜合關聯分析,輸出敏感數據在各流轉節點之間的流轉關系。
1.收集敏感數據源信息,確認敏感數據傳播擴散起始點,收集的數據源信息包括敏感數據源設備類型、數據源IP、訪問方式、訪問策略、開放的服務等。
百余年來中國的現代化進程中,“三農問題”一直困擾著中國人。其中,鄉村教育的困窘,從一個側面折射了近代中國農業、農村、農民的困苦和無奈。近年來,中國近代教育史研究專著和論文頗多,但相對而言,對近代中國鄉村教育實際狀況的探討仍顯薄弱,本文擬作補充。①
2.獲取所有敏感數據對象,保存至敏感數據對象列表SL中。敏感數據對象信息包括敏感數據源IP、敏感數據名稱、敏感數據形態、敏感數據存儲路徑、敏感數據分類、敏感級別、敏感數據生成時間等。
3.遍歷敏感數據對象列表SL中的對象,找出敏感數據對象流轉的第一級節點。以對象屬性敏感數據源IP、對象名稱、數據形態、存儲路徑為條件,與有敏感數據操作標識的標準化日志相關屬性(如:源IP、操作對象名稱、操作內容)進行匹配,匹配成功,則根據標準化日志相關屬性信息生成過程敏感數據對象,并存儲在過程敏感數據對象列表PL中,同時生成敏感數據訪問或流轉路徑節點對象,存儲在流轉路徑節點對象列表TL中。
重復以上步驟直至遍歷完SL中的所有對象。流轉路徑對象信息包括上一級節點IP、當前節點IP、流轉方式、流轉時間、敏感數據名稱、賬號。
4.遍歷過程敏感數據對象列表PL中的對象,找出該敏感數據對象訪問、流轉的下一級節點。以該過程敏感對象屬性如敏感數據源IP、對象名稱、數據形態、存儲路徑為條件,與有敏感數據操作標識的標準化日志相關屬性(如:源IP、操作對象名稱、操作內容)進行匹配,匹配成功,則將該對象移除PL列表,根據匹配的標準化日志相關屬性信息生成過程敏感數據對象,并存儲在過程敏感數據對象列PL表中,同時生成敏感數據訪問或流轉路徑對象,存儲在流轉路徑對象列表TL中。匹配失敗,則將該對象移除PL列表。重復以上步驟直至遍歷完PL中的所有對象。
根據輸出的敏感數流轉關系,利用可視化工具生成敏感數據流轉視圖。
敏感數據流轉視圖包括兩個要素,分別為流轉節點和節點之間有方向流轉路徑。流轉節點信息包括:節點IP、敏感數據名稱、敏感數據級別等。流轉路徑信息包括:流轉時間、流轉方式、操作賬號、操作命令。
1.首節點及一級流轉節點信息生成。以敏感數據源對象部分屬性值如敏感數據源IP、敏感數據名稱等為參數,遍歷查找流轉路徑節點對象列表所有節點對象數據,查找條件:敏感數據對象.敏感數據源IP=流轉路徑節點對象.上一級節點IP并且 兩個對象敏感數據名稱屬性值相等。匹配成功,則以當前敏感數據對象屬性值為準生成首節點信息,同時以所有與之匹配成功的流轉路徑節點對象屬性值為準生成所有一級流轉節點信息。
2.更多流轉節點信息生成。以流轉路徑節點對象A.當前節點IP=流轉路徑節點對象B.上一節點IP且兩個對象的敏感數據名稱相同為條件進行匹配,匹配成功,即表示敏感數據由A流轉到B,生成相應流轉節點信息。同理,遍歷分析所有流轉路徑節點對象,直至生成最后一個流轉節點信息。
3.通過可視化工具,利用敏感數據首節點、中間流轉節點、最后一個流轉節點之間的縱橫向關系,繪制出敏感數據流轉視圖。
本方案具有如下幾方面優點:
用于分析的數據源廣,確保發現任何訪問、操作敏感數據的蛛絲馬跡。參與分析的數據源包括大數據平臺組件、訪問控制設備、安全設備、網絡設備、主機、數據庫等。
采用全量、多層次綜合分析方法,全面、準確的發現敏感數據所有訪問流轉路徑,并利用可視化工具,生成敏感數據訪問視圖,清晰再現敏感數據范圍流轉軌跡。
充分利用現有網絡環境中網絡設備、安全設備的功能及價值,從而能更好的降低企業運營成本。