◆何姍姍 諶婧嬌 陳佳
淺談大數據分析的應用安全態勢系統設計與應用研究
◆何姍姍1諶婧嬌1陳佳2
(1.安徽三聯學院 安徽 246000;2.池州學院 安徽 247000)
互聯網技術的發展為人們帶來了豐富的信息資源,為各行業提供了發展的便利,但是黑客、病毒等各種安全問題,導致用戶的信息泄露、丟失或被篡改。本文對大數據時代互聯網安全的發展情況進行了分析,從安全指標量化、感知模型架構兩方面論述了安全態勢系統模型的具體建立方式,提出了采集服務器、分析平臺等安全態勢系統應用,以期為行業相關人員提供系統設計和應用的具體思路。
大數據分析;安全態勢;系統設計;系統應用
當前社會各行業的發展以及普通人的工作和生活均離不開互聯網信息化技術的支持,隨著用戶的增加、信息傳播效率的增加,當前的網絡信息正處于極速膨脹的階段,各種黑客、病毒等也充斥其中,這導致各行業的發展均因為安全問題受到威脅。為此,行業技術人員需要加強對網絡安全威脅的關注,通過相應的技術進行感知,以此來規避安全風險。考慮到當前龐大的信息數據量,行業技術人員需要積極將大數據分析技術與安全態勢系統相互結合,為互聯網活動提供安全保障。
在分析應用安全態勢的過程中,應用日志是一個重要的分析點位,能夠輔助技術人員充分掌握用戶的相關行為。當前互聯網用戶急劇增加,應用使用人數呈指數暴增,所產生的日志文件也隨之增多,安全態勢系統研究人員需要充分考慮日志的應用方法,從而更好地對應用日志進行管理和分析,進而實現對安全風險的有效規避[1]。例如,伊朗核電站在21世紀前期因蠕蟲病毒而出現丟失日志文件的情況,導致日志相關聯的上千臺離心機設備出現結構損傷;法國電視臺在黑客的影響下出現黑屏問題;棱鏡門中大量互聯網巨頭公司對用戶隱私進行監控記錄。應用安全問題的存在不僅對普通人的生活產生負面影響,甚至對一個國家的重要活動產生阻礙作用。
當前應用日志主要有兩種處理措施,分別為規范化和未規范化的處理方式。未規范化的應用日志處理措施在應用過程中直接將系統上傳的數據進行審計分析,這一措施常用的系統為SPlunk引擎,可以TB級別的原始日志進行實時監控和分析;規范化的應用日志處理措施則是在上傳之前先進行相應的標準化處理,避免出現大量的重復部分,同步做好分類、聚合等工作,在此基礎上進行規范處理。相對而言,國內在這方面的研究時間較短,而國際上已經出現了較多成果,也構建了相應的大數據生態系統,如MapReduce、HDFS等[2]。應用態勢感知系統設計初期,設計人員充分考慮了數據挖掘所面臨的大數據分析問題,提出了從網絡應用所蘊含的大量數據中找出安全問題的思路,明確了安全要素收集、提出以及分析等工作思路,以此實現對安全態勢的預估和分析,從而規避安全風險。劉效武(哈爾濱工程大學)在研究中將傳感器與安全態勢系統相互融合,設計了相應的模型;陳秀真(西安交通大學)對安全態勢模型進行了量化處理,提出了層次化的評估模型和具體的計算手段。當前,國內在安全態勢系統設計應用方面依然存在較長的路要走,需要相關人員進行更深入的研究和探索。
安全態勢系統模型的構建前提是對當前的安全指標進行量化處理,形成相應的體系結構,以此來確保系統模型的可行性和科學性。其中,系統模型主要從應用運行安全情況、用戶行為情況以及數據威脅情況這幾個方面進行指標量化。其中,應用運行安全情況主要涉及系統資源、用戶連接、應用服務等內容;用戶行為情況主要涉及應用受到的攻擊、應用內部資源下載、應用訪問等內容;數據威脅情況主要涉及威脅度較高的數據操作頻率、數據訪問頻率等內容,相關指數大小與非法攻擊頻次以及應用面臨的安全風險存在直接聯系。
安全態勢模型的系統架構的重要基礎,模型的構建需要結合當前的網絡數據情況開展。相關數據結果表明,現階段網絡信息種類和數量正處于快速增加的階段,數據安全風險感知所包含的種類極多,涉及用戶請求、數據庫操作、系統管理行為以及應用日志等大量信息數據,為了避免模型的應用效果受到影響,技術人員需要綜合考慮不同類型數據存在的粒度及格式差別,在應用與用戶之間以及應用與數據庫之間進行數據的采集匯總工作,通過數據分析對其中有問題的數據進行預警和過濾,實現異常數據阻斷的同時結合相關的關聯規則進行分析,獲取相應的態勢分析報告,下面進行詳細介紹。
數據采集匯總是安全態勢模型的基礎環節,關系到后續的分析、預警工作能否正常開展,主要工作內容是收集融合用戶行為數據、異常信息數據以及數據庫中的應用日志,并按照相關要求進行處理[3]。其中,用戶行為數據主要由用戶對應用的操作過程產生,模型通過處理將日志中沒有意義的內容剔除,為后續的分析通過數據基礎;數據庫應用日志主要包含了各自操作行為,通過記錄操作相關的用戶名、操作對象和時間、用戶地址等用于后續的分析處理。
數據過濾和預警階段主要對各種來源不同的安全事件進行數據匯總處理,確保各種數據具備規范的組織格式。一般而言,數據處理的工作目標在于為安全態勢感知工作提供數據基礎,系統模型需要對冗余的數據進行降噪和去重,通過歸一化處理的方式將關鍵信息從安全事件中選出來,確保后續的分析模塊可以對關鍵信息進行快速處理,這種處理方式在處理相似性較高數據的過程中可以取得良好的成效,能夠減少系統運行占用率,減少不必要計算成本。
關聯分析的前提是技術人員結合實際需求制定準確的關聯規則,通過逐級關聯匹配的方式將存在安全風險的事件從海量的信息數據中篩選處理,避免出現誤報等影響效率和問題,確保能夠及時做出相關預警,將異常的事件與正常的數據相互隔離,避免對應急響應工作造成影響。在具體進行關聯分析的過程中,系統需要先結合大數據相關技術從海量的信息數據中提取所需數據,確保信息數據獲取的高效性和準確性[4];其次,系統需要對采集的信息數據進行匯總和分類,主要信息類型包含用戶行為、用戶識別、業務類型等幾個方面,從而為安全管控措施的改進優化提供用戶行為相關的數據基礎;再次,為了避免用戶異常的行為操作對系統應用的運行產生負面影響,引發不必要的安全事件,系統需要對用戶行為進行風險分級,通過構建專家知識庫等對用戶行為進行評估,進而提升異常行為的阻斷準確性與阻斷效率;最后,為了合理應對大數據時代數據變化快、種類繁多的情況,系統需要結合應用運行實際情況對相關知識庫、標準庫進行更新升級,綜合考慮用戶行為的變化趨勢,提升安全態勢的預估準確性;這就要求技術人員利用挖掘算法對數據進行趨勢分析,綜合考慮IP、行為、時間等方面的異常因素建立更符合當前情況以及后續應用的規則數據庫,提升安全風險的預測準確性。此外,在安全指標體系的輔助下,系統可以將安全態勢量化,對用戶行為等進行預測分析。
關聯分析是整個安全態勢模型的關鍵組成部分,系統模型能夠對網絡中獲取的訪問數據、行為數據等進行采集,進而從數據、用戶、應用等各個方面進行分析,實現對應用威脅情況的準確預估,實現對應用與用戶以及數據庫之間的有效審計和防控。在具體條理性的指標體系輔助下,系統可以及時向管理員發出異常行為預警,進而我們能夠準確記錄非法訪問等情況,為追蹤、追責等提供基礎,具有大數據環境下的良好應用效果。
在基于大數據分析對應用安全態勢系統進行設計時,可以通過Hadoop架構模式,利用MapReduce以及HDFS進行大數據的分析運算,系統主要包含日志數據采集、安全態勢分析以及可視化圖表輸出三個部分,下面進行詳細介紹。
安全態勢系統的基礎運行環節為數據采集環節,系統需要通過專門的服務器對應用日志進行采集,確保分析平臺能夠對安全態勢進行評估審計。正如上文提及的日志數據處理類型,采集服務器可以分為規范化和非規范化兩種。其中,非規范化服務器主要通過Splunk對操作日志等進行采集;規范化服務器主要針對用戶操作日志,需要對復雜多樣的數據進行去重、降噪處理,將關鍵詞段在HDFS中以文本格式保存。
在采集服務器將各種應用日志數據采集完畢后,作為系統第二環節的安全態勢分析平臺需要對日志信息進行處理。這一平臺是Hadoop架構形成的,是系統的最關鍵部分,內部模塊主要有態勢感知模塊、專家知識庫、數據挖掘預測引擎等,實現對數據的關聯分析、融合處理以及風險預估。數據挖掘引擎可以結合關聯規則、風險特征以及數據庫中的事件標準對日志數據中的各種行為、事件進行關聯分析,對判定存在威脅的事件進行記錄并存儲。態勢感知模塊是用于分析潛在威脅的模塊,可以實時對當前的應用行為進行感知評估,避免潛在風險發展成事實。專家知識庫這一模塊可以定期將采集服務器中的數據匯總存儲,避免大量數據在采集服務器中堆積,產生不必要的運行壓力。
在安全態勢分析平臺確認具體結果的情況下,安全態勢系統的最終環節可以結合用戶需求將數據結果以可視化圖表的形式輸出,即為可視化服務器。管理員可以通過可視化圖表快速掌握潛在風險因素,提供相應的處理決定。同時,可視化服務器輸出的圖表具有Excel、Html等通用格式,具有較強的實用性。
大數據時代相關技術人員需要充分認識到當前數據規模大、種類多、更新變換速率快等特點,在安全態勢模型的構建過程中需要做好指標量化工作,從數據采集、數據過濾處理、關聯處理等方面建立適用于大規模數據網絡的安全態勢系統模型。系統實際架構的過程中,可以將其分為采集服務器、安全態勢分析平臺以及可視化服務器三個模塊,實現對大數據應用安全態勢進行準確評估。
[1]王帥,金華敏,沈軍,等.大數據應用安全方案及對策研究[J].廣東通信技術,2017,37(08):2-5.
[2]肖霞.基于大數據時代計算機網絡安全技術應用研究[J].遼寧高職學報,2018,20(01):78-80.
[3]巴志超.國家安全大數據綜合信息集成:應用架構與實現路徑[J].中國軟科學,2018(07):9-20.
[4]盧炳芳.數據挖掘算法在大數據安全防御中的應用與研究[J].通訊世界,2018(07):3-4.
基于大數據的醫療數據分析平臺的設計與實現(PTZD2021024)