◆扈瀟瀟
基于神經網絡的網絡空間安全監測體系研究
◆扈瀟瀟
(廣東省網警總隊管理監察等保科 廣東 510050)
隨著網絡攻擊手段日益豐富,對網絡流量的監測和分析成為網絡空間安全體系的重要一環。為了更加有效地監控網絡并識別網絡攻擊,需要采用自動化技術讀取網絡安全事件報告,同時自動分析結果。本文將網絡空間安全監測體系劃分為三個階段,在第二階段中,使用“詞袋模型”向量化關鍵詞,并通過神經網絡技術分析事件報告,實現網絡空間安全監測結果的自動化分析。試驗結果表明,本方法在適當選取參數時能夠以較大精確度實現對網絡事件的自動化安全風險分析。
網絡空間安全;監測;區塊鏈;神經網絡.
網絡空間是連接各種信息技術基礎設施的網絡,包括互聯網、各種電信網、各種計算機系統、各種關鍵工業設施中的嵌入式處理器和控制器,同時還涉及人與人之間相互影響的虛擬信息環境[1]。世界經濟論壇《2019年全球風險報告》中指出,網絡攻擊已成為全球五大風險之一,WannaCry勒索軟件、NotPetya惡意軟件和一系列數據泄露事件表明,網絡攻擊可以輕易導致全球經濟和社會的混亂。隨著當前生產生活對網絡信息系統依賴性的增強,針對網絡空間的攻擊事件仍將不斷增多,影響范圍也將更加廣泛[2]。
以云計算、移動寬帶、物聯網、三網融合、人工智能等為代表的新技術新應用的普及推廣,使得網絡互聯互通、信息資源共享共用的需求不斷增加,由此帶來的安全風險持續加大。與此同時,針對我國的網絡監控和攻擊力度不斷增強,攻擊技術不斷翻新,手段層出不窮。傳統上靠“打補丁”“堵漏洞”的網絡安全防護,只能防住已知應對威脅的技術手段,對未知攻擊基本無能為力,不能滿足新形勢下的網絡安全需要,因此加強網絡安全監測體系研究和建設,對于有效防范網絡各類攻擊,確保我國網絡空間安全,就顯得尤為重要和緊迫[3]。
隨著信息技術不斷進步,大量未知的網絡攻擊手段層出不窮,僅靠單一的網絡檢測手段難以對網絡空間安全進行有效監測。
為解決上述問題,國內外已經出現了一些針對性的研究成果。周詩濤[4]提出了一種三層結構的網絡空間安全監測預警平臺,三個層級分別為由公安機關負責的總監測中心、由各行業網絡監管部門負責的分監測中心,由各信息系統數據采集點組成的監測點。王艷偉[5]結合安全事件和安全信息事件管理的特點,提出一種新的網絡安全監測體系,通過定義一套開放聚合的框架和通用的數據輸入、輸出訪問接口來完成各類流量檢測引擎的快速適配和接入,實現多種檢測引擎的能力聚合和統一分析。Hortonworks[6]構建了網絡安全應用框架,該框架主要采用事件管理和安全信息管理方法,對網絡流量進行監測和分析。the CAESAIR[7]為安全專家提供分析工具,以支持專家完成國家級的網絡安全事件處理。
本文基于神經網絡技術特點,提出一種新的網絡空間安全監測體系架構,通過神經網絡學習功能,實現能夠自動發現網絡攻擊的高效網絡安全監測能力。架構整體分為三層,如圖1所示。

圖1 網絡空間安全監測體系架構圖
為了全面了解網絡的整體安全狀況,應從多個來源收集網絡安全事件的相關信息。網絡安全事件信息通常以半結構化文本的形式發布,如最新更新、事件報告、漏洞警報、通知、公告。為了實現對網絡空間安全態勢的全面監測,必須依托豐富數據資源和多渠道的信息。
目前,國家互聯網應急中心[8]依托與運營商、域名注冊商、安全服務廠商等相關部門的快速工作機制,與多個世界著名的網絡安全機構和各個國家級應急組織建立的網絡安全事件處理合作機制,并面向國內外用戶受理網絡安全事件報告,實現了及時掌握和處置突發重大網絡安全事件的要求。
上述網絡安全事件報告信息收集完成之后,從這些文件中獲取網絡威脅情報需要手動查看并確認重要信息、識別各種重要信息之間的隱性關聯,估計安全風險,并提出可行應對策略。
為提升事件分析效率,提出基于神經網絡的自動化分析流程。文本分析首先要進行預處理操作,即將文字轉化為數學模型,之后才能進一步進行算法分析。使用“詞袋模型”(bag of words)[9]作為實現事件分析過程自動化中文檔處理工具,其基本原理為將文檔看作是無序的關鍵詞的集合,通過統計每個關鍵詞在單個文檔中出現的頻率來對文檔進行向量表示,并通過神經網絡[10]實現聚類。
神經網絡的輸出結果是一個介于0到1之間的實數,代表對輸入事件的風險判斷,越接近1表示風險越高,越接近0表示風險越低。
讀取上一階段輸出的自動化風險判斷值后,技術人員需要對風險值較高的結果進行核驗分析,以確定風險是否真實存在并在存在風險時提出應對措施,最終總結為安全風險報告。

圖2 安全事件的自動化分析流程
實驗所使用的數據源有兩大來源:一是采自公開源的網絡安全威脅情報平臺1004份報告;二是由技術人員手動撰寫事件報告37份。數據源涉及的公開源的網絡安全威脅情報平臺包括微步在線、綠盟科技公司威脅情報中心、天際友盟、奇安信。上述1041份報告分為兩個部分:均勻隨機選擇520份用于訓練神經網絡;均勻隨機選擇521份用于測試結果。
在單臺電腦上進行實驗,實驗電腦所使用的軟、硬件配置:Intel Core i7 CPU主頻3.2GHz、8G內存、win10操作系統、python 3.7.2。
通過python語言實現自動化分析算法,并使用訓練集內的520份對算法中的神經網絡進行訓練。由于訓練集較小,為了達到充分收斂的訓練效果,設置樣本批量大小為20份,所有樣本訓練完后可以進一步打亂并重新設置批量,反復訓練。
訓練完成后,使用測試集內521份報告對自動化分析算法進行測試,并且人工核驗測試結果是否準確。為防止過擬合現象,進一步對比訓練誤差和測試誤差,當二者相差不超過10%時,認為結果有效。一旦發現結果無效,則重新打亂所有樣本,在不改變集合大小的前提下重新隨機選擇測試集和訓練集,并重復實驗。
為評價算法執行效果,使用拒真率和受偽率來衡量算法的效果。前者表示高風險項被判定為低風險項的概率,后者表示低風險項被判定為高風險項的概率。
定義如下記號:
令為所有測試樣本集合;



拒真率定義如下:

受偽率定義為:
經過實驗,在使用不同的正則因子時,拒真率和受偽率分別如表1所示。

表1 實驗結果
將上述結果表示在折線圖中,如圖3所示。

圖3 實驗結果
通過實驗結果可以看出,取正則因子為0.01時,拒真率和受偽率都較低,能夠在一定程度上幫助用戶對網絡事件的安全風險進行自動化分析。
本文研究了神經網絡技術在網絡空間安全監測體系中的應用,使用“詞袋模型”對安全風險事件進行向量化,并使用神經網絡對網絡事件報告進行聚類分析,進而輸出風險評估分數。實驗表明,選取正確參數時,模型能夠以低至0.092的拒真率和低至0.199的受偽率實現網絡安全事件報告的自動化分析,使用本模型可以在很大程度上降低網絡空間安全監測體系中的人工工作量。
[1]National security presidential directive 54/homeland security presidential directive 23 (NSPD-54/HSPD-23)[EB/OL]. https://epic.org/privacy/cybersecurity/EPIC-FOIA-NSPD54.pdf.
[2]瑞星2019年中國網絡安全報告與趨勢展望[J].信息安全研究,2020,6(02):98-107.
[3]董超.網絡安全2.0的發展思路和理念探索——基于網絡安全監測預警服務體系的研究與開發[J].信息安全與通信保密,2015.
[4]周詩濤. 網絡安全監測預警通報機制建設思路探討[C]. 2018第七屆全國安全等級保護技術大會論文集.2018.
[5]王艷偉,鄔江,羅赟騫,史春見. 一種基于開放聚合框架的網絡流量安全監測體系設計[J]. 微型機與應用,2018.
[6]Hortonworks. Mirror of Apache Metron[EB/OL]. https://github.com/apache/metron.
[7]Austrian Institute of Technology,“CAESAIR,” [EB/OL]. https://service.ait.ac.at/pydio/data/public/971d1f.
[8]國家互聯網應急中心發布《2018年我國互聯網網絡安全態勢綜述》[J].網信軍民融合,2019.
[9]丁凱. 基于空間結構與量化關系的優化視覺詞袋模型研究[D].安徽:合肥工業大學,2017.
[10]道輝,李洪升,張亮,劉如意,沈沛意,苗啟廣.輕量級神經網絡架構綜述[J].軟件學報,2019.