◆郭永和 劉 安 李 靜 張亞昊 程 杰
?
以數據驅動的網絡安全關鍵技術研究
◆郭永和 劉 安 李 靜 張亞昊 程 杰
(國家電網有限公司信息通信分公司 北京 100761)
網絡安全是信息社會的重要問題。隨著大數據、云計算和人工智能等新興技術的發(fā)展,網絡安全技術也面臨變革。數據驅動安全已經成為了網絡安全技術發(fā)展新方向。本文詳細探討了以數據驅動的網絡安全相關的關鍵技術,并對其發(fā)展前景和應用中面臨的挑戰(zhàn)進行分析。
數據驅動;網絡安全;大數據;云計算;人工智能
近年來,隨著大數據、云計算、人工智能等新一代信息技術的蓬勃發(fā)展,互聯(lián)網和信息產業(yè)開始轉向以數據驅動業(yè)務的新型商業(yè)模式。同時,黑客們的目標也在發(fā)生變化。以烏克蘭電網受攻擊停電事件、WannaCry勒索病毒事件、Facebook用戶信息泄露事件、萬豪酒店顧客信息大規(guī)模泄露為代表的網絡安全事件表明,網絡上的攻擊行為已不再單純的為了炫耀技術,而是逐漸成為了實現政治目的或獲取經濟上的收益的手段[1-2]。國際間網絡對抗日益加劇,各類新型網絡安全威脅層出不窮。網絡安全形勢日趨嚴峻。
傳統(tǒng)的企業(yè)信息安全體系以邊界防護和入侵檢測為技術基礎。即在企業(yè)內網和互聯(lián)網的邊界處部署防火墻、入侵防護系統(tǒng)和web應用防火墻等策略對來自互聯(lián)網的攻擊進行入侵檢測和訪問控制。這種傳統(tǒng)的防護策略在面臨新型安全威脅時越來越力不從心。首先,隨著云計算、移動互聯(lián)計算等新技術的興起,企業(yè)內網和互聯(lián)網的邊界變得日益模糊,從而導致傳統(tǒng)防護體系效果大大降低。第二,技術高超的黑客可以通過APT攻擊、利用0day漏洞的方式繞開邊界防護。而傳統(tǒng)的企業(yè)信息安全體系對已經滲透進內網的攻擊往往缺乏監(jiān)控和發(fā)現的能力[3-4]。第三,傳統(tǒng)的企業(yè)信息安全體系無法應對業(yè)務邏輯上的漏洞。
日趨嚴峻的網絡安全形勢催生了新的網絡安全需求,而新的網絡安全需求推動了新的網絡安全技術的發(fā)展?!耙詳祿寗拥陌踩北徽J為是大數據時代應對信息安全問題最有前景的一條途徑。
對于安全運維人員來說,他們首先需要了解內部的網絡存在的安全隱患。然而,隨著企業(yè)內部網絡規(guī)模的不斷擴大,加之人員流動造成的工作交接脫節(jié)等問題,安全運維人員發(fā)現對面臨的安全風險的掌握會越來越困難。主要問題如下:
(1)內部資產模糊不清。目前普遍存在的一個問題是,很多大型的企業(yè)和機構都存在IT資產不清的問題。企業(yè)內網中會時不時出現一些不在IT資產列表中當中的“野資產”。造成“野資產”出現的原因有可能是因為資產上線時管理流程不完善而沒有進行登記,也有可能是某一部門或個人出于某種需要而未經批準自己架設的服務器,甚至是個人自有的攝像頭、打印機等。由于這些資產不存在于企業(yè)的IT資產數據庫中,這就使得安全運維人員無法及時掌握它們的位置、ip地址、端口開放和存在的漏洞。“野資產”的存在降低了企業(yè)內網的安全性,在安全事件發(fā)生時會嚴重影響企業(yè)的應急響應速度。
(2)人員流動造成的安全隱患。有些企業(yè)的IT部門人員流動大,由于工作銜接上的問題,造成了一些安全隱患和信息丟失問題。例如,前一任安全運維人員在離開時,沒有將其配置的防火墻策略或者IPS策略詳細文檔化并交接給繼任者,這就導致后一任安全運維人員無法了解這些策略配置的原因,也不敢修改這些策略。使得某些原本應當是臨時性的策略長期有效,進而成為了安全的風險點。
(3)人員能力不足。專業(yè)能力強的安全運維人員永遠是一種稀缺資源。很多大型的非互聯(lián)網企業(yè)普遍存在著安全人員能力不足、人手不夠的問題。這就使得企業(yè)在日常安全運維工作中捉襟見肘,難以及時發(fā)現隱藏在海量數據中的安全風險和隱蔽攻擊。甚至在接收到外界提供的安全威脅情報時,也不知道如何處置。
上述這些問題在傳統(tǒng)的企業(yè)信息安全框架下很難得到徹底的消除。而大數據技術的發(fā)展,為解決這些問題提供了一條可行之道。2013年RSA信息安全大會以“Mastering data. Securing the world”為主題,引發(fā)了信息安全業(yè)界對數據分析的重視[5]。一個企業(yè)的內部網絡中每天都會產生大量數據,這些數據包括網絡設備日志、安全設備日志、數據庫日志、業(yè)務系統(tǒng)日志以及各類網絡流量等。一個大型企業(yè)每天甚至可以生產幾十甚至上百GB數據。如何利用好這些數據,從中發(fā)現隱藏的蛛絲馬跡,從而發(fā)現不在資產數據庫中的隱蔽資產,識別出被傳統(tǒng)安全設備所無法察覺的安全威脅和攻擊企圖,進而對安全事件快速響應,是數據驅動安全的首要目標。
數據驅動安全的第一步是獲取數據。根據數據的來源可以分為內部數據和外部數據。內部數據包括內部的流量、網絡設備日志、安全設備日志、主機日志、數據庫日志、業(yè)務系統(tǒng)日志、域名信息、已發(fā)現漏洞、資產負責人、基線配置及安全設備配置等。外部數據則主要以外部威脅情報、廠商提供的規(guī)則庫升級等。
獲取到的原始數據往往包含大量無效和冗余的信息,因此需要進行初步處理后方能進行持久化和進一步分析。例如,對于內部資產不清的問題,可以對流量中的報文進行分析,確定ip地址段歸屬、端口訪問關系,并通過指紋比對的方法,確定主機的操作系統(tǒng)、運行的服務等。結合主動掃描技術,可以有效的發(fā)現隱藏于企業(yè)內網的“野資產”。而對各類日志在去重之后可以按照時間關聯(lián),形成在某個時間點上的整個信息系統(tǒng)運行情況的快照。
初步處理后的數據需要進行持久化以供深度關聯(lián)分析。傳統(tǒng)數據持久化的主要手段是通過關系數據庫存儲。然而,采集的原始數據種類繁多,數據量巨大,且大多為非結構化數據。因此,在解決數據持久化問題時候可以考慮應用分布式NoSQL數據庫,如HBase、MongoDB、Cassandra、Neo4j等等。由于增加額外物理存儲是一筆不小的支出,企業(yè)可以考慮租用云計算服務商的云存儲服務來實現對數據的持久化。
數據分析是數據驅動安全技術的核心。數據分析技術包括模式匹配、數據挖掘和機器學習等。應用數據分析技術解決安全問題包含下面三個層次。
(1)入侵檢測。從技術原理上講入侵檢測技術包括基于異常的檢測和基于誤用的檢測。傳統(tǒng)的安全設備如IPS、WAF和防病毒系統(tǒng)大多應用基于誤用檢測的原理對包含在流量中的惡意攻擊載荷進行檢測,即通過匹配已知攻擊的特征進行識別?;谡`用的入侵檢測技術誤報率低,但是無法檢測未知攻擊。另一種入侵檢測技術是基于異常的檢測。這種技術的基本原理是構建一個正常行為的統(tǒng)計模型,然后將待檢測的數據與該模型進行匹配,若不在正常行為的范圍之內即認為是異常?;诋惓5臋z測提供了檢測未知攻擊的可能性,但是誤報率較高[6]。
(2)安全信息與事件管理。安全信息與事件管理(Security Information and Event Management)將不同入侵檢測系統(tǒng)和產品的報警信息統(tǒng)一收集和集中關聯(lián)分析,挖掘出有效的、具備可行動能力的信息提供給安全專家,從而輔助運維和管理人員采取及時有效的安全響應措施,應對更為復雜的網絡安全態(tài)勢變化。安全信息與事件管理系統(tǒng)使長期碎片化的攻擊行為有機會被關聯(lián)和復原出來,大量試探性掃描和信息收集行為也能更好的與實質入侵行為區(qū)分開來,避免海量低危報警淹沒了真正的高危行為。
(3)基于人工智能的自動化安全事件分析與處置。安全信息與事件管理系統(tǒng)將應用數據分析的思路解決網絡安全問題提升至全局層次,縮短安全事件的響應周期,大大提高安全運維的效率。然而,用好安全信息與事件管理系統(tǒng)要求分析人員具備很高的專業(yè)水平。面對不斷增長的網絡數據量和告警事件數量、日益復雜的網絡威脅形勢,依賴安全分析團隊的人力分析是無法持續(xù)提供安全檢測和防護能力的。日益發(fā)展的人工智能技術為實現安全事件的自動化分析和處置提供了可能。目前人工智能技術的基礎為機器學習。其根本思想是從假設空間 H中尋找假設函數f近似目標函數 f’。目前人工智能技術已經廣泛應用于自動駕駛、圖像識別、機器翻譯等各領域。通過在網絡安全領域運用人工智能技術,可以將網絡安全專家的力量從海量的低價值重復的安全事件分析和處置工作中解脫出來,能夠更好聚焦于那些真正重要的重大威脅事件的分析。
“以數據驅動安全”這一個概念一經提出,就得到了各大IT廠商和互聯(lián)網公司的積極響應。目前已經有多種產品和服務在實際中得到了應用。CISCO研究人員研究了數百萬不同流量上惡意流量和良性流量在使用TLS、DNS和HTTP等協(xié)議上的差異,提煉出了惡意軟件最明顯的一系列特性,在此基礎上推出了具備加密流量分析功能交換機和路由器產品,解決了傳統(tǒng)安全設備無法對加密流量檢測的問題[7]。騰訊優(yōu)圖運用人工智能技術實現對色情圖片的鑒別,大幅度降低企業(yè)因色情違規(guī)收到通報的次數。百度安全利用機器學習技術分析網頁,可以發(fā)現釣魚網站、網頁掛馬等威脅。阿里巴巴提供基于云計算和機器學習的安全服務,為部署在阿里云上的企業(yè)服務提供防護。支付寶利用大數據技術通過對歷史交易數據構建風險模型,通過智能風險控制實現對用戶賬戶安全的保護[8]。
盡管“數據驅動安全”的概念已經被安全業(yè)界廣泛接受,并且被認為前景光明。然而,在真正實踐的過程中,依然面臨著諸多挑戰(zhàn)。要真正實現以數據驅動安全的目標,單單依靠網絡安全廠商的努力是不夠的。這是因為數據驅動的安全與企業(yè)信息網絡內部的數據聯(lián)系緊密,需要各個企業(yè)根據自己自身情況定制開發(fā),這對沒有自主開發(fā)能力的非IT或非互聯(lián)網企業(yè)來說是個巨大的挑戰(zhàn)。此外,在運用機器學習技術對安全事件進行分析需要大量的訓練數據。而標記數據獲取成本高、難度大,導致網絡安全領域的標記數據非常稀有,相比較于在圖像識別、語音識別等領域更容易獲取標記數據,安全攻防領域能標記數據的人只有安全專家,獲取標記數據的人力成本和時間成本更高。
習近平同志提出“沒有網絡安全就沒有國家安全”。WannaCry勒索病毒、Mirai蠕蟲等層出不窮的嚴重安全事件為我們敲響警鐘。本文對“以數據驅動安全”的概念、關鍵技術及面臨的挑戰(zhàn)進行了詳細的論述。盡管“以數據驅動安全”被認為是應對未來安全威脅的一條可行路徑,其最終的實現依然需要克服諸多困難。這需要安全廠商和用戶的共同努力。
[1]國家計算機網絡應急技術處理協(xié)調中心.2014年我國互聯(lián)網網絡安全態(tài)勢報告[EB/OL]. http://www.cert.org.cn/publi sh/main/upload/File/2014%20secirity%20situation%20report.pdf.
[2]CHEN P, DESMET L, HUYGENS C. A study on advanced persistent threats[C]. Communications and Multimedia Security-15th International Conference. 2014.
[3]付鈺,李洪成,吳曉平,王甲生.基于大數據分析的APT攻擊檢測研究綜述[J].通信學報,2015.
[4]TANKARD C. Advanced persistent threats and how to monitor and deter them[J]. Network Security, 2011.
[5]YORAN A,COVIELLO A.Big Data Transforms Security [EB/OL].https://www.rsaconference.com/vid eos/big-data-transforms-security-video.
[6]賴英旭, 劉增輝, 蔡曉田等.工業(yè)控制系統(tǒng)入侵檢測研究綜述[J].通信學報, 2017.
[7]ANDERSON B, PAUL S, MCGREW D. Deciphering malware’s use of TLS (without decryption)[J]. Journal of Computer Virology & Hacking Techniques, 2016.
[8]支付寶風險引擎首次公開展示 AlphaRisk首秀Money20/20 Asia [EB/OL].https://www.csdn. net/article/a/2018-03-29/15944331.