趙佳璐 李格菲 葛曉囡 朱 磊 韋宇星 嚴毅恒 阿依登·塔布斯
1(國家信息中心 北京 100045)
2(廣西警察學院 南寧 530028)
3(廣西壯族自治區信息中心 南寧 530201)
4(上海市公安局網絡安全保衛總隊 上海 200040)
5(新疆維吾爾自治區公安廳網絡安全保衛總隊 烏魯木齊 830099)
隨著網絡安全等級保護工作的廣泛開展,測評過程中不斷產生并積累大量的測評數據,目前,這些數據普遍歸檔于各責任單位、主管部門、監管部門及各測評機構中,并未對其進行充分分析和有效利用.當前,全球網絡安全形勢日益嚴峻.全社會各部門如何在現有工作的基礎上有效應對網絡安全風險、確保自身重要數據安全成為當務之急.
本文以合規有效實用為前提,根據測評數據的特點,采用數據挖掘算法,創新性地設計了包括數據分類、數據再利用流程、典型應用場景3個維度的網絡安全等級保護測評數據再利用模型,統計分析測評基礎數據并進一步采用聚類分析等方式深度挖掘數據.最后,通過對政務領域測評數據的聚類挖掘證明了該模型的可靠性和實用性,為上述單位應對網絡攻擊提供了新思路和新方法.
隨著信息技術的飛速發展,各類網絡安全設備和信息系統已經滲透到社會經濟發展和人們生活的方方面面.因此,網絡安全問題成為全球日益關注的焦點.
網絡安全等級保護制度是應對網絡安全事件的關鍵措施之一,以對不同類型、不同等級的信息系統實施相應級別的安全防護[1].網絡安全等級保護測評是一種對信息系統進行安全評估的方法,旨在確定系統安全性的等級,并驗證系統是否滿足該等級的安全需求.測評結果可為決策者提供對系統安全狀況的參考,從而制定和執行適當的防護措施[2].然而,傳統的測評數據一般僅限于生成單次測評過程文檔和最終報告,未將數據匯聚并進行充分分析與挖掘應用,浪費了數據巨大的應用價值.
1.2.1 測評數據再利用的意義
通過深入分析和挖掘測評數據,可以實現數據資源的重新整合和最大化利用,產生新的知識和新的價值.具體概括如下:
1) 歷史趨勢和模式的識別.測評數據包含大量的歷史信息,通過分析過去的安全事件、問題和解決方案,可以揭示出特定的趨勢和模式.
2) 安全預警和預測.利用歷史數據可以構建預測模型,預測未來可能出現的安全問題,從而實現安全預警目標.這種預警和預測能力是提高系統安全性的關鍵因素.
3) 系統安全性能優化.通過對歷史測評數據的深入挖掘,可以找出本單位的網絡安全弱點和痛點,提出相應的優化措施,持續提高本單位系統的安全性能.
4) 決策支持.根據數據分析的結果,為網絡安全主管部門的決策提供依據,協助其制定更科學、更有效的安全策略和管理措施.
1.2.2 測評數據再利用面臨的挑戰
一方面,測評數據的解析和處理需要大量的專業知識,這在一定程度上限制了數據再利用的可能性.例如數據的整合和清洗工作,測評數據來自不同的測評系統、測評機構,存在數據存儲不一致、數據冗余、數據值缺失、數據包含噪聲等問題,需要進行數據整合和清洗,以構建一個統一可用的數據集.此外,需要選擇和應用適當的數據分析方法和工具,構建有效的數據再利用模型等.
另一方面,由于測評數據的敏感性,在數據的存儲、傳輸和處理過程中,需采用正確的數據脫敏手段,以防止數據被非法訪問、泄露或濫用[3].
模型框架包括數據分類、數據再利用流程、典型應用場景3個維度,如圖1所示:

圖1 網絡安全等級保護測評數據再利用模型框架
首先,將數據按照應用場景進行分類,統計分析測評基礎數據,形成不同角度的分析結論;其次,利用測評基礎數據以及初步分析結論作為輸入,根據各方應用需求構建基于數據挖掘的測評數據再利用模型,提供關聯分析、分類分析、聚類分析等功能,深入挖掘數據背后的信息.數據最重要的價值在于應用,為將數據真正應用到相關行業,根據多年測評經驗以及技術實踐,從系統單位、行業主管部門、監管部門、測評行業等角度出發分析典型應用場景,將數據以清晰易懂的方式展示出來,從而幫助相關各方安全有效利用數據,以數據作為一個強力支撐,為構建網絡安全體系發揮積極作用.
等級測評工作包括4個基本測評活動:測評準備活動、方案編制活動、現場測評活動、報告編制活動,每項測評活動都有相應的工作流程和輸出文檔[4].測評基礎數據主要從測評報告中獲取,數據分類情況如表1所示.

表1 測評基礎數據類型
測評基礎數據具有多樣性、敏感性、動態性、完整性、規范性的特點,如表2所示.不僅是數據挖掘的基礎,其自身也具有很高的數據支撐價值.

表2 測評基礎數據特點
1) 資產數據.
統計分析資產數據信息,從存儲、操作系統、數據庫、中間件等多個層面,了解相關國產化產品發展現狀、國產化產品替代能力以及不同行業基礎設施國產化率,分析信創供應鏈發展情況.
2) 評估和結論數據.
從大量系統的評估和結論數據中統計問題類型、原因、風險程度、整改建議等信息,深入分析單位安全管理能力、技術措施防護能力、應急保障能力、等級保護執行情況等,為單位整體安全發展提供數據支撐;統計行業內所有單位系統數據,分析行業整體安全態勢,為網絡安全攻防演練提供數據支撐.其中,漏洞掃描報告和滲透測試報告作為測評報告的附件,也可以直接被相關方利用,從中獲取系統漏洞信息,全面評估系統的安全性.
3) 系統、用戶和管理數據.
根據系統數據和用戶數據,統計各單位系統數量、系統類型、系統架構等信息以及建設單位和運維單位支撐數據,深入了解各單位信息化發展情況;同時結合管理數據,共同為單位信息化主管部門等級測評、風險評估等安全服務提供經費、配合時間人員參考,更好地開展信息化工作.
2.3.1 數據預處理階段
數據預處理階段主要針對測評基礎數據進行數據脫敏、數據清理[5]、數據轉換等,達到數據挖掘模型所要求的數據格式,增加數據挖掘效率和準確率[6].由于測評基礎數據中的系統漏洞IP地址、網絡拓撲情況、單位名稱等屬于敏感數據,需要首先根據數據挖掘場景制定不同的脫敏策略,保證數據可用性和安全性的平衡.
2.3.2 數據分析階段
數據分析階段主要結合實際應用需求,研究待挖掘數據,分析數據集中各字段對數據挖掘的影響程度,為數據建模作準備.
2.3.3 數據建模階段
數據建模階段首先根據應用需求以及數據集特點建立模型,然后經過多次實驗驗證模型適用性,分析數據挖掘結果,不斷調整模型.
2.3.4 數據可視化應用階段
數據可視化應用階段主要是分析挖掘結論,并將結論可視化展示給各相關方,從而幫助其安全有效利用數據.
2.4.1 掌握單位整體安全防護情況
從系統所在單位整體安全防護角度看,等級測評工作定期進行,不斷產生大量的測評數據.通過分析研究發現,同一單位多系統的測評數據再利用可以有效助力其安全管理和維護工作.例如,單位可以通過對多系統測評數據的分析,發現各個系統中的共性安全問題或系統間可能存在的安全漏洞.從而可以針對這些共性問題和漏洞制定出統一的安全防護策略,在減少運維壓力的同時提高單位的整體防護能力;對同一系統多年測評情況的總結及數據再利用,可以幫助單位了解系統的安全性隨時間、經費支持、整改措施的變化情況,以及系統的安全問題是否得到有效解決,隨著新的安全措施的施行是否出現新的衍生安全問題,系統的整體安全性能是否有所改善,從而幫助單位更好地規劃未來安全發展.
2.4.2 主管部門掌握行業安全態勢
從行業主管部門對行業安全態勢掌握的角度看,測評基礎數據以及挖掘結論是其掌握行業安全態勢、施行有效管理的重要工具.具體來說,行業主管部門可以對測評數據所揭示的各個系統的安全問題進行詳細分析,識別出行業內普遍存在的“主要矛盾”及可能出現的系統性風險,并根據這些問題制定并推廣全行業的防護策略或行業標準,提升整體的安全性.另外,通過分析行業整體安全趨勢,當發現整體安全性能下滑或新的安全風險出現時,主管部門就能及時介入,制定應對策略.最后,在安全管理上,行業主管單位可以在不同系統、不同單位或不同地區間進行橫向安全對比,推動安全工作相對落后的系統、單位或地區進行改善,同時促進安全工作較完善的系統、單位或地區的經驗分享,從而提升整個行業的安全管理水平.
2.4.3 協助監管部門阻斷網絡攻擊
從網絡安全監管部門阻斷網絡攻擊角度看,測評基礎數據以及挖掘結論可以幫助監管部門有針對性地進行網絡攻擊的預警、研判和應對.首先,測評數據可以為監管部門提供詳盡的網絡空間資產數據、安全隱患、設備人力配置等安全性信息,形成網絡系統資產完整畫像,通過對潛在弱點和漏洞的揭示,監管部門可以了解整個網絡系統中最短板,從而主動動態調整相應的防護策略,完善網絡安全防護措施,提高抵御網絡攻擊的能力.其次,測評數據可以幫助監管部門對網絡攻擊進行針對性的預防.通過對攻擊行為進行跨時間比較和趨勢分析,形成網絡攻擊預警模型,監管部門可以預見未來可能出現的安全威脅.如數據顯示某種新的攻擊方式發生的頻率正在增加,監管部門就可以提前制定相應的防御策略,避免或減輕其對網絡系統的影響.此外,監管部門還可以利用測評數據進行精細化的網絡安全管理.通過對不同類型、不同規?;虿煌袠I的網絡系統的測評數據進行對比分析,監管部門可以了解各類網絡系統的安全狀況,分析其獨特的安全問題和需求,進行有針對性的技術支持及安全監管,進一步完善各行業網絡安全的頂層設計和建設規劃.
2.4.4 測評行業服務國家戰略
從促使整體測評行業更好地服務于國家網絡安全戰略的角度看,對測評數據的再利用可以幫助測評行業提高服務質量,更好地服務于國家網絡安全戰略.例如,各測評機構通過大量測評數據可以了解常見的安全問題和對應實踐有效的安全措施,進一步調整優化測評流程和方法,使其更具針對性.此外,通過對測評結論的趨勢分析,各測評機構能夠了解自身服務是否有所改進以及用戶的安全狀況是否有所提升,在提升自身服務質量的同時增加用戶的信任和滿意度.最后,測評數據的再利用可以幫助測評行業持續學習和創新,在網絡安全技術不斷發展、新的安全威脅不斷出現的今天,測評機構需要通過不斷自我革新,才能持續提供高質量的服務,更好地服務于國家網絡安全戰略.
測評基礎數據挖掘步驟包括數據預處理、數據分析、數據建模、數據可視化應用4個階段,根據應用場景的不同,選擇不同的數據集,采用關聯分析、分類分析、聚類分析等方式對數據進行深入挖掘,從而得到需要的數據.本節以聚類算法在測評數據中的應用為例,通過聚類把系統分為具有不同特征的幾大類,分析研究各類的特征和薄弱點,針對性地提出安全方案.
本文聚類分析需求是通過測評基礎數據中10個安全層面的扣分情況,聚類挖掘不同類別系統隱含的信息.
基于數據集特點,選擇基于劃分的聚類算法K-means進行聚類,即把所有的數據對象劃分成N個不同的部分.其基本思想為:把整個數據集分成K個簇,質心為每個簇的平均值,經過不斷地循環,當每個中心點不再發生變化時停止.此時每個簇內相似性最大[7].
確定數據集和聚類算法后進行聚類分析.首先通過手肘法確定K值,然后采用IBM SPSS Modeler進行聚類分析.
測評數據挖掘結論可視化與展示可以大大提高數據的易用性和價值,幫助各方更好地理解和利用數據,包括數據分布圖、趨勢圖、關系圖、數據報告等方式.例如:通過數據分布圖展示不同類型的安全事件的數量分布;通過關系圖展示用戶行為與安全事件發生的關系;通過趨勢圖展示系統安全性能的變化趨勢等.
基于多年政務領域等級保護測評經驗,本節利用政務信息系統等級保護測評數據,結合數據再利用模型,采用聚類分析技術進行數據挖掘實驗,通過實驗結果分析得出結論,為各相關方提供有效參考.
實驗初始數據集為260個政務信息系統的扣分項匯總表,每個系統的扣分項匯總表初始導出結果如表3所示.匯總所需數據、匯總結果如圖2所示.

表3 扣分項匯總表

圖2 匯總結果
基于數據集特點,采用基于劃分的聚類算法K-means進行聚類,通過手肘法確定K值為4.將數據集和模型參數輸入IBM SPSS Modeler,得到聚類分析結果.
根據每類系統的分類情況,聚類分析結果如表4所示:

表4 聚類分析結果
4類系統基本對應等級保護測評結論的優良中差,第2類系統最多,其次是第3類,2級系統得分普遍高于3級系統,聚類結果較為合理,下面對每一類進行詳細分析.
第1類系統共42個,其中3級系統8個,2級系統34個,此類系統各層面扣分較少,技術和管理防護較為全面,且部分系統為采購的定制化成熟產品,例如檔案管理系統.其中2級系統較多,因為安全防護要求較3級低,易扣分項少.3級系統均為單位重要信息系統,包含大量重要業務數據和個人信息,安全防護要求高,有較為完善的制度體系和運維流程.
第2類系統共126個,其中3級系統69個,2級系統57個,此類系統占比最大,各層面扣分相對第1類較多.管理問題主要包括:網絡安全崗位不足,人員短缺;網絡安全制度體系不全面,部分操作規程及記錄表單缺失,無法將網絡安全落到實處;未針對重點崗位人員簽訂安全保密協議及崗位責任協議;未依據網絡安全應急預案定期開展應急培訓和應急演練;數據安全、個人信息保護不夠完善等.技術問題主要包括:部分服務器未安裝殺毒軟件或病毒庫未及時更新;未部署惡意代碼防范系統,無法對其進行檢測和清除;口令復雜度策略及口令有效期策略安全強度不達標等.針對以上問題,相關單位應進一步落實安全工作責任,做到權責分明、分工有序;及時修復漏洞,做好網絡安全監督檢查工作;強化網絡安全技術保護措施,落實網絡安全法要求;加強應急體系建設,提高預防和處置突發事件的能力.
第3類系統共62個,其中3級系統44個,2級系統18個,部分技術層面扣分較多,建設和運維管理層面扣分較多,此類系統僅具備基本的日常維護,除存在第2類系統所包含的問題外,還存在弱口令、開啟不必要端口、安全教育培訓不到位等問題,需各單位繼續加強網絡安全保障體系建設,逐步提高自身的網絡安全防護能力.
第4類系統共30個,其中3級系統28個,2級系統2個,此類各層面扣分較多,大部分是使用頻率較低建設時間較長的系統,且缺乏日常運行維護.
由于等級保護數據具有敏感性,所以實驗數據集較小,可能導致數據挖掘結果并不全面.此外,還可以繼續加入其他數據,例如系統資產情況,重新進行聚類分析,得出相應結論.
本文基于數據挖掘技術,針對測評數據再利用需求,設計了包括數據分類、數據再利用流程、典型應用場景3個維度的網絡安全等級保護測評數據再利用模型,通過聚類分析等方式對數據進行深入挖掘,讓測評數據賦能相關行業,輔助決策,為網絡安全保護帶來新的視角和解決方案.
在新一輪科技革命和產業變革加速演進的今天,推進數據挖掘再利用任重道遠.如何對測評數據進行脫敏、如何收集整合全行業測評數據以及如何將數據分析結果更好地應用在各行業中,是需要繼續研究的重點內容.本課題組將持續關注最新的技術進展,并積極探索和應用新的數據脫敏手段和數據挖掘技術,讓網絡安全等級保護測評數據以及其他合規性檢測數據在未來發揮更大的價值,共建聯防聯控的網絡安全保護體系.