張 濱(中國移動通信集團公司信息安全管理與運行中心,北京 100053)
大數據分析技術在安全領域的應用
張濱
(中國移動通信集團公司信息安全管理與運行中心,北京 100053)
本文從信息安全分析現狀出發,深入剖析了傳統基于特征的信息安全分析所面臨的問題和挑戰,提出基于大數據的安全分析方法,構建基于大數據的安全分析平臺,有效提升信息安全管控水平。文章詳細介紹了大數據技術在信息安全數據的存儲、檢索、分析等層面的應用,對典型應用場景的大數據分析方法進行了詳細闡述,并指出安全大數據分析的應用價值以及未來的發展方向。
信息安全;大數據;不良信息治理;安全態勢感知

張 濱 畢業于清華大學無線電系。高級工程師。現任中國移動通信集團公司信息安全管理與運行中心總經理,曾擔任江西省移動通信局副局長,中國移動通信集團公司計劃部、管理信息系統部副總經理,國務院國有資產監督管理委員會信息中心副主任。長期從事通信網規劃建設、信息化推進、信息安全管理工作,參與了中央企業信息化政策措施研究,組織了中國移動ERP項目的實施,在通信、互聯網、信息化和信息安全領域有較深入的研究。
傳統的基于特征的信息安全分析技術已廣泛應用惡意代碼檢測、入侵檢測等,但隨著數據規模的增加和一些新興威脅的出現,對安全分析檢測技術提出了更高要求。應用大數據分析技術進行信息安全問題分析已成為業界研究熱點。Gartner在2012年的報告中明確指出“信息安全正在變成一個大數據分析問題”。借助大數據安全分析方法,不但能夠解決海量數據的采集和存儲,基于機器學習和數據挖掘方法,能夠更加主動、彈性地去應對新型復雜的違規行為和未知多變的風險。BDSA(Big Data Security Analysis,安全大數據分析)應運而生。
根據IDC(國際數據公司)的相關統計,2015年大數據市場規模增長到170億美元,年增長率為40%;預計到2020年,全球數據總量將會增長44倍,達到35 ZB,而這個數值還在以每兩年就翻一番的速度迅猛增長。
在產業界和學術界,“大數據分析”都成為炙手可熱的產業領域。在學術界,國際頂級期刊《Nature》和《Sciences》分別出版了專刊《Big Data》和《Dealingwith Data》,從信息安全防護、互聯網技術和生物醫藥等多個方面討論了大數據應用相關問題。在產業界,CSA(云安全聯盟)2012年成立了專門的大數據工作組,該工作組由業內和院校的志愿者組成,確定該領域內的原則、綱領及所面臨的挑戰。CSA的報告《安全智能中的大數據分析》,重點討論了大數據在安全分析中的應用,并提出了利用大數據分析工具對結構化和非結構化數據進行分析如何改變了安全分析領域。同時,國家制定了《促進大數據發展行動綱要》,標志著大數據戰略正式上升為國家戰略。
收稿日期:2015-11-16
中國移動利用大數據分析技術在信息安全領域開展多項應用探索,如基于大數據技術的騷擾詐騙電話等不良信息治理、基于大數據分析技術的安全態勢感知分析、基于大數據分析技術的釣魚網站分析等,都取得了良好的效果,有效提升了信息安全管控水平。
大數據分析技術給信息安全領域帶來了全新的解決方案,但是如同其它領域一樣,大數據的功效并非簡單地采集數據,而是需要資源的投入,系統的建設,科學的分析。Gartner在2013年的報告中指出,大數據技術作為未來信息架構發展的十大趨勢之首,具有數據量大、種類繁多、速度快、價值密度低等特點。將大數據技術應用與信息安全領域可實現容量大、成本低、效率高的安全分析能力。
1.1信息安全分析引入大數據的必要性
大數據具有“4V”的特點:Volume、Variety、Velocity和Value,可實現大容量、低成本、高效率的信息安全分析能力,能夠滿足安全數據的處理和分析要求,將大數據應用于信息安全領域能夠有效的識別各種攻擊行為或安全事件,具有重大的研究意義和實用價值。
隨著企業規模的增大和安全設備的增加,信息安全分析的數據量呈指數級增長。數據源豐富、數據種類多、數據分析維度廣;同時,數據生成的速度更快,對信息安全分析應答能力要求也相應增長。傳統信息安全分析主要基于流量和日志兩大類數據,并與資產、業務行為、外部情報等進行關聯分析。基于流量的安全分析應用主要包括惡意代碼檢測、僵木蠕檢測、異常流量、Web安全分析等;基于日志的安全分析應用主要包括安全審計、主機入侵檢測等。
將大數據分析技術引入到信息安全分析中,就是將分散的安全數據整合起來,通過高效的采集、存儲、檢索和分析,利用多階段、多層面的關聯分析以及異常行為分類預測模型,有效的發現APT攻擊、數據泄露、DDoS攻擊、騷擾詐騙、垃圾信息等,提升安全防御的主動性。而且,大數據分析涉及的數據更加全面,主要包括應用場景自身產生的數據、通過某種活動或內容“創建”出來的數據、相關背景數據及上下文關聯數據等。如何高效合理的處理和分析這些數據是安全大數據技術應當研究的問題。
1.2安全大數據分析方法
安全大數據分析的核心思想是基于網絡異常行為分析,通過對海量數據處理及學習建模,從海量數據中找出異常行為和相關特征;針對不同安全場景設計針對性的關聯分析方法,發揮大數據存儲和分析的優勢,從豐富的數據源中進行深度挖掘,進而挖掘出安全問題。安全大數據分析主要包括安全數據采集、存儲、檢索和安全數據的智能分析。
(1) 安全數據采集、存儲和檢索:基于大數據采集、存儲、檢索等技術,可以從根本上提升安全數據分析的效率。采集多種類型的數據,如業務數據、流量數據、安全設備日志數據及輿情數據等。針對不同的數據采用特定的采集方式,提升采集效率。針對日志信息可采用Chukwa、Flume、Scribe等工具;針對流量數據可采用流量景象方法,并使用Storm和Spark技術對數據進行存儲和分析;針對格式固定的業務數據,可使用HBase、GBase等列式存儲機制,通過MapReduce和Hive等分析方法,可以實時的對數據進行檢索,大大提升數據處理效率。
(2) 安全數據的智能分析:并行存儲和NoSQL數據庫提升了數據分析和查詢的效率,從海量數據中精確地挖掘安全問題還需要智能化的分析工具,主要包括ETL(如預處理)、統計建模工具(如回歸分析、時間序列預測、多元統計分析理論)、機器學習工具(如貝葉斯網絡、邏輯回歸、決策樹、隨機森利)、社交網絡工具(如關聯分析、隱馬爾可夫模型、條件隨機場)等。常用的大數據分析思路有先驗分析方法、分類預測分析方法、概率圖模型、關聯分析方法等。可使用Mahout和MLlib等分析工具對數據進行挖掘分析。
綜上,一個完備的安全大數據分析平臺(如圖1所示)應自下而上分為數據采集層、大數據存儲層、數據挖掘分析層、可視化展示層。主要通過數據流、日志、業務數據、情報信息等多源異構數據進行分布式融合分析,針對不同場景搭建分析模型,最終實現信息安全的可管可控,展現整體安全態勢。
2.1基于用戶行為的不良信息治理
中國移動開展了基于大數據的不良信息治理工作,主要針對垃圾短信和騷擾詐騙電話開展基于異常行為的大數據分析。通過開源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大數據分析平臺,采集用戶的行為數據,構建用戶行為分析模型;分別提出了異常行為分類預測模型、統計預測分析模型、社交網絡分析模型等,將用戶的行為數據輸入到模型中,可以精準地挖掘出違規電話號碼,并且發現違規號碼與正常號碼之間存在大量相異的行為特征。通過用戶的行為,構建多維度的用戶畫像數據庫,支撐全方位的大數據不良信息治理服務,支撐大數據不良內容的智能識別等。實踐表明,大數據分析技術能夠挖掘出更多潛在的違規號碼,是對現有系統的有效補充。除此之外,中國移動還將大數據技術應用在安全態勢感知、手機惡意軟件檢測和釣魚網站的分析中,提升了現有系統的分析能力。
2.2基于網絡流量的大數據分析
在互聯網出口進行旁路流量監控,使用Hadoop存儲及Storm、Spark流分析技術,通過大數據分析技術梳理業務數據,深度分析所面臨的安全風險。主要分析思路是采集Netflow原始數據、路由器配置數據、僵木蠕檢測事件、惡意URL事件等信息,采用多維度分析、行為模式分析、指紋分析、孤立點分析及協議還原等方法,進行Web漏洞挖掘、CC攻擊檢測、可疑掃描、異常Bot行為、APT攻擊、DDoS攻擊挖掘等分析。

圖1 安全大數據分析平臺
2.3 基于安全日志的大數據分析
基于安全日志的大數據分析思路主要是融合多種安全日志,進行數據融合關聯分析,構建異常行為模型,來挖掘違規安全事件。主要的安全日志包含Web日志、IDS設備日志、Web攻擊日志、IDC日志、主機服務器日志、數據庫日志、網管日志、DNS日志及防火墻日志等,通過規則關聯分析、攻擊行為挖掘、情景關聯分析、歷史溯源等方法,來分析Web攻擊行為、Sql注入、敏感信息泄露、數據分組下載傳輸、跨站漏洞、嘗試口令破解攻擊等應用場景。
基于安全日志的大數據分析已經在國際上有廣泛的應用。如IBM QRadar應用整合分散在網絡各處的數千個設備端點和應用中的日志源事件數據,并將原始安全數據進行標準化,以區別威脅和錯誤判斷;IBM QRadar還可以與IBM Threat Intelligence一起使用,提供潛在惡意IP地址列表,包括惡意主機、垃圾郵件和其它威脅等;IBM Qradar 還可以將系統漏洞與事件和網絡數據相關聯,劃分安全性事件的優先級等。ZettaSet海量事件數據倉庫來分析網絡中的安全漏洞和惡意攻擊;Zettaset主要包括Orchestrator和SDW (Security Data Warehouse,安全數據倉庫)。Orchestrator是端到端的Hadoop管理產品,支持多個Hadoop分布;SDW是構建在Hadoop的基礎上,并且基于Hive分布式存儲。SDW于2011年Black Hat網絡安全會議面世,SDW可從網絡防火墻、安全設備、網站流量、業務流程以及其它事務中挖掘安全信息,確定并阻止安全性威脅。處理的數據質量和分析的事件數量比傳統SIEM多;對于一個月的數據負載,傳統SIEM搜索需要20~60 min,Hive運行查詢只需1 min左右。
2.4基于DNS的安全大數據分析
基于DNS的安全大數據分析通過對DNS系統的實時流量、日志進行大數據分析,對DNS流量的靜態及動態特征進行建模,提取DNS報文特征:DNS分組長、DNS響應時間、發送頻率、域名歸屬地離散度、解析IP離散度、遞歸路徑、域名生存周期等;基于DNS報文特征,構建異常行為模型,來檢測針對DNS系統的各類流量攻擊(如DNS劫持、DNS拒絕服務攻擊、DNS分組異常、DNS放大攻擊等)及惡意域名、釣魚網站域名等。
2.5APT攻擊大數據分析
高級可持續性威脅(APT)攻擊通過周密的策劃與實施,針對特定對象進行長期的、有計劃的攻擊,具有高度隱蔽性、潛伏期長、攻擊路徑和渠道不確定等特征。現已成為信息安全保障領域的巨大威脅。“震網”潛伏3年,造成伊朗納坦茲核電站上千臺鈾濃縮離心機故障。
收集業務系統流量、Web訪問日志、數據日志、資產庫及Web滲透知識庫等,提取系統指紋、攻擊種類、攻擊時間、黑客關注度、攻擊手段類型、行為歷史等事件特征,再基于大數據機器學習方法,發現Web滲透行為、追溯攻擊源、分析系統脆弱性,加強事中環節的威脅感知能力,同時支撐調查取證。
隨著移動互聯網、云計算等技術的日趨成熟,黑客網絡攻擊的手段和方法也日趨復雜,違規業務行為也變化多樣,給信息安全監管和不良信息治理帶來極大的挑戰。傳統的基于特征的信息安全防御手段已很難應對。只有充分地利用海量異構的大數據資源和大數據分析技術,才能有效防御新型攻擊。
中國移動已在不良信息治理、態勢感知、基礎網絡安全等方面開展大數據分析應用探索,并取得了一定的成效。電信行業面臨著復雜的網絡環境和多種安全挑戰,需要體系化地建設安全大數據分析平臺,利用大數據分析技術,有效提升各領域的信息安全管控水平,為業務發展保駕護航。
在近日召開的中國通信標準化協會網絡與信息安全技術工作委員會會議上,中國移動主導的“國際詐騙電話監控攔截技術要求”獲通過成為行業標準。
據了解,該標準基于中國移動在國際詐騙電話治理方面的成功實踐,定義了在網絡側對國際詐騙電話進行監控攔截的具體技術要求,包括總體技術架構、數據采集要求、疑似號碼分析、詐騙電話驗證、詐騙呼叫攔截等內容。目前,依托詐騙電話監控攔截系統,中國移動月均攔截國際詐騙電話2 000余萬次,切實保護了用戶權益。該標準的通過,標志著中國移動國際詐騙電話治理工作已成為行業最佳實踐,為“打擊治理電信網絡新型違法犯罪專項行動”的深入開展提供了有力支撐,并對全行業提高詐騙電話治理能力與水平起到了積極的促進作用。
中國移動匯總了7類詐騙類型樣本,樣本總結了現階段不法分子利用假冒短信詐騙的主要方式。包括冒充中國移動10086客服號碼、假冒各大銀行服務號碼、假冒知名電商如淘寶或京東平臺、假冒支付寶、假冒熱播綜藝節目欄目組、假冒客戶的親戚朋友、假冒學校等詐騙手法向客戶發送短信,誘騙用戶點擊訪問短信中出現的釣魚網站鏈接以竊取信息的詐騙短信。客戶出于對被假冒平臺的信任或受詐騙短信中中獎等信息的引誘,上當受騙導致信息被竊取的例子層出不窮。
中國移動提醒廣大客戶,對收到的相似短信加以甄別,若短信中出現需要點擊的鏈接一定要加以注意,若鏈接中出現需要填寫個人信息的內容更要倍加小心,以免手機被釣魚詐騙網站或病毒軟件侵襲,導致用戶受到損害。
據記者了解到,此前,中國移動自2014年7月起在全國范圍內開展“綜合治理不良網絡信息防范打擊通訊信息詐騙”行動的一階段工作已圓滿落幕并取得了良好的成效。截至2015年10月,中國移動月均攔截垃圾短信4億余條,封堵淫穢色情網站1.2萬余個,監測處置惡意軟件1萬余種,處置“響一聲”違規號碼22萬余個。
目前,中國移動“治防行動”二期工作在國務院批準建立的包括公安部、工信部、中宣部、中國人民銀行等23個部門和單位組成的打擊治理電信網絡新型違法犯罪工作部際聯席會議和中國移動安全領導小組的領導下穩步進行。這也是截至目前,領導級別最高,成員單位最多的一次針對手機使用環境的治理行動。據悉,“治防行動”二階段工作將在“電話詐騙”、“偽基站”、“釣魚網站”、“不良手機APP”等4個方面進行重點打擊,做到“四面圍堵”。 (摘自:新華網)
Big data application in information security analysis
ZHANG Bin
(China Mobile Information Security Center, Beijing 100053, China)
This article analyzes the situation of the information security, the problems and challenges in information security analysis, proposes big data security analysis, and builds big data security analysis system, on the idea of big data to effectively enhance information security management and control ability. The article describes in detail the core application of the big data method in the information security data storage,retrieval, analysis and so on, as well as the typical application scenarios of big data analysis methods,pointing out the value of big data security analysis system and the future direction.
information security; big data; illegal information control; security situation awareness
TN918
A
1008-5599(2015)12-0001-05