司德睿,華 程,楊紅光,陳彥偉
(北京啟明星辰信息安全技術有限公司,北京 100193)
隨著IT技術飛速發展和網絡空間環境的不斷變化,復雜攻擊快速興起,網絡安全呈現后果嚴重、影響廣泛化的趨勢,現有網絡安全體系面臨挑戰,主要有幾個方面。
(1)內部威脅危害大、難檢測
內部威脅是內部人利用合法獲得的訪問權對組織信息系統中信息的機密性、完整性以及可用性造成負面影響的行為。內部威脅攻擊者一般是企業或組織的員工(在職或離職)、承包商以及商業伙伴等,具有系統、網絡以及數據的訪問權。
CERT把內部威脅行為模式分為惡意活動、非惡意的失誤活動兩大類。惡意活動包含IT蓄意破壞、知識產權盜竊、欺詐(無授權增刪改查組織數據、與身份信息相關的盜取或犯罪)、其他。失誤活動包含被成功釣魚(外部攻擊者獲得內部人員憑證、惡意軟件獲得訪問權限)、敏感信息無意泄漏、通過移動設備和物理記錄的數據泄漏。
通常來說內部威脅具有以下特征:
①透明性:攻擊者來自安全邊界內部,因此攻擊者可以躲避防火墻等外部安全設備的檢測,導致多數內部攻擊對于外部安全設備具有透明性。
②隱蔽性:內部攻擊者的惡意行為往往發生在正常工作的間隙,導致惡意行為嵌入在大量的正常行為數據中,提高了數據挖掘分析的難度;同時內部攻擊者具有組織安全防御的相關知識,因此可以采取措施逃避安全檢測。所以內部攻擊者對于內部安全檢測具有一定的隱蔽性。
③高危性:內部威脅往往比外部威脅造成更嚴重的后果,主要原因是攻擊者自身具有組織的相關知識,可以接觸到組織的核心資產(如知識產權等),從而對組織的經濟資產、業務運行以及組織信譽進行破壞,對組織造成巨大損失。如2014年的美國CERT發布的網絡安全調查顯示僅占28%的內部攻擊卻造成了46%的損失。
在大數據時代,內部威脅往往帶來數據泄漏等危害,并因其隱蔽性、透明性而難以檢測。
(2)新型攻擊復雜攻擊難檢測
長期以來,依賴于特征碼樣本庫、已知規則來做檢測,檢測引擎里內置了無數個專家制定的規則,規則閾值是人為設定的。
隨著網絡攻防對抗加劇,攻擊者會采用變形、多態、混淆、加密等方式有效對抗樣本特征碼匹配檢測機制。在網絡攻擊武器庫源代碼泄漏、黑客分享攻擊源代碼等新形勢下,攻擊者在這些代碼基礎上可快速演化出新變種。而一些復雜攻擊具有針對高價值目標、長期潛伏、集中爆發、造成不可逆損失等特點,它的攻擊向量通常不會反復使用。對這些網絡攻擊無論事前還是事后,基于樣本或規則都難以檢測。
針對惡意軟件的行為進行檢測分析成為一種有效方式,但目前沙箱檢測是在選定懷疑對象后再觀察其行為進行檢測,而如何在大量數據中篩選出懷疑對象、獲得第一線索是很困難的。
(3)安全設備告警過多,企業運維難
當前企業購買的各種安全設備每天產生上萬條告警,大量的告警讓人無從下手、無法實際處理,有價值的威脅線索容易被忽略,告警日志中包含大量誤報等。客戶實際需要的是能采取行動的告警,即對事件進行關聯合并、按風險高低排序,每個事件涉及哪些主機和人員,給出每個事件的證據和相關背景信息等。這樣運維人員能較為容易地關注到重點事件,并快速研判和采取措施。
用戶實體行為分析(User Entity Behavior Analytics,UEBA)是一種面向用戶和實體的行為,采用高級數據分析方法刻畫正常行為、發現異常行為的技術。圍繞用戶發現異常行為、將風險定位到用戶是UEBA區別于傳統安全設備的一個特點。用戶實體行為分析圖如圖1所示。

圖1 用戶實體行為分析圖
U為用戶(User),UEBA以分析用戶為首要任務和目的;E為實體(Entity),UEBA不僅僅分析用戶行為,還分析主機、設備、應用等實體對象的行為。
B為行為(Behavior),UEBA重點聚焦于行為,面向行為分析更易于推測操作或活動的意圖,更貼近真實情況。UEBA收集多種數據包括LDAP和Windows域控等用戶信息、設備資產信息、網絡流數據、主機日志數據、應用日志、數據庫日志等數據,從數據中提取用戶和實體的各種行為。
A為分析(Analytics),高級分析能力是UEBA的核心,分析原理是基于統計、機器學習、深度學習等人工智能技術構建用戶和關聯實體的畫像和行為正常基線,將偏離了正常基線的可疑活動視為異常,并對異常進行多維度分析來發現安全威脅。UEBA分析無需特征碼,是另一種分析方法。
2014年Gartner認為UBA用戶行為分析是智能安全分析的突破口,隨后將UBA改為UEBA,增加面向Entity實體(含網絡、終端、應用、數據存儲)的行為分析。近年來,國外UEBA技術發展迅速,2018年RSA大會上展示的系統也都不謀而合地采用了UEBA技術。
UEBA與傳統的安全手段區別在于,傳統的安全手段關注安全事件(比如病毒和木馬),而UEBA是面向行為的分析,發現人和實體的可疑行為尤其是內部可疑行為,為安全人員的行動迅速指明方向。UEBA有兩個優勢:(1)更容易找到存在異常行為的人或者異常活動的實體。UEBA長時間、持續性地對用戶和實體的行為進行記錄和分析,通過歷史行為分析來檢測當前的一些操作是否存在異常,這樣就能大大削減告警的數量,能夠迅速地關注到存在的風險點。(2)基于“人”的視角判定,可以更直接地讓審計人員、安全人員快速地定位到這個“人”的惡意操作行為。
UEBA解決典型問題包括以下類型:
(1)發現員工泄露數據等惡意行為
數據泄密無小事,根據調研機構波洛蒙研究所的調查顯示,可能導致嚴重數據泄露的5種內部威脅分別為安全要求非響應者、內部人士疏忽行為、組織員工內外串謀、持久的惡意行為、心懷不滿的員工,員工惡意行為等是所有數據泄露事件中代價最高昂且最難檢測到的事件。
(2)發現賬號行為異常
賬號異常包括賬號被盜用、賬號和密碼被其他人獲知,賬號被濫用、人員利用賬號所做的操作與正常業務范圍不符。
企業內部賬號通常有相對穩定的行為模式,與正常偏離較大時候需監測確定賬號是否被盜用、被濫用。

圖2 用戶實體行為智能安全分析系統框架圖

圖3 V-UEBA流程示意圖
(3)發現APT高級持續威脅
隱藏在企業正常運行中的那些已被攻陷、被外部遠程控制的潛伏主機,可接收外部惡意指令,進行內網嗅探、橫向移動、數據收集、數據隱蔽外傳。這種威脅隱蔽性強難發現,損失難估量。
針對上述網絡安全威脅和用戶實際需求,啟明星辰自主研發V-UEBA系統對用戶和實體進行細粒度異常行為檢測和分析,場景涵蓋上述領域。
用戶實體行為智能安全分析系統(簡稱V-UEBA)由流量深度解析引擎和網絡用戶實體行為智能安全分析平臺組成,其中分析平臺包含數據接入、數據管理、分析引擎、檢測分析模型、分析與可視化、系統管理六個部分。分析平臺提供高擴展的插裝機制,支持新算法模型快速部署、已有算法模型更新后動態部署。系統框架如圖2所示。
V-UEBA提供了從識別異常到確認事件的全過程優化,包含數據采集、數據加工、檢測、分析、事件調查幾個環節,每個環節主要功能如圖3所示。
V-UEBA系統功能特點:
(1)多元異構海量安全數據處理
基于大數據計算和存儲技術,支持DIKI(D-Data網絡流數據、設備日志、應用服務器日志等數據;I-Information企業關聯信息例如用戶數據、資產數據、漏洞掃描數據;K-Knowledge安全知識;I-Threat Intelligence威脅情報)數據采集接入,并基于安全分析需要進行數據范式化、歸一化、過濾清洗、豐富化和標簽等加工處理,對部分安全設備告警數據提供語義自動理解識別能力,保證數據質量。
(2)高效智能發現能力,準確提供第一線索
V-UEBA利用深度學習等技術,對用戶和實體對象行為建立正常基線,監測對基線的偏離,自動讓異常行為浮出水面。
提供豐富的檢測算法,高級威脅類模型涵蓋攻擊鏈Kill-chain各種場景;異常用戶類模型涵蓋登錄異常、文件資源訪問異常、賬號異常、數據泄漏等多種場景。
V-UEBA分析引擎涵蓋基于實時流式批式、機器學習的算法分析引擎、規則分析與關聯分析引擎、全文檢索與統計可視化的交互分析引擎、圖分析引擎等,對告警提供自動合并和關聯,并可持續監測,告警少量精準。
(3)更快速的安全事件研判
V-UEBA自動為安全事件提供證據,這些證據經常是一段時間持續監測結果匯總,呈現方式能讓分析人員看清隨時間流逝此事件相關各種異常行為的發展變化,方便診斷。還提供用戶畫像、實體對象畫像,集成威脅情報數據,這些背景和上下文信息加速安全事件研判。
此外,提供面向專題的自動化分析功能,能自動關聯相關告警和繪制攻擊圖,一目了然地可視化呈現高危人員和設備、攻擊源、攻擊路徑。
(4)高級安全分析能力
V-UEBA提供高級人機交互分析工具——GQIM模型(Goal目標、Question問題、Indicator指征、Metrics度量),讓安全分析人員在干凈數據上探索數據規律、驗證猜測,直覺和經驗得到充分發揮。
UEBA是面向用戶和實體的行為進行分析,而流數據、日志數據是基于IP的通常以訪問-應答或會話為單位的機器數據,而面向IP是無法進行用戶和實體的行為分析。
V-UEBA能從機器數據中提取行為特征,為后續的用戶行為異常建模分析、實體行為異常建模分析提供輸入。
值得注意的是,通常情況下由于人員工位的不固定、會議室等公共區域的存在,特別是DHCP動態IP分配的環境下,IP與用戶、IP與實體的對應關系并不是一成不變的。V-UEBA能為每一條機器數據找到當時對應的用戶和實體。
V-UEBA系統用戶異常分析模型主要針對人員、賬號等行為進行分析,發現異常登錄和訪問、可疑賬號、數據泄漏等風險。
用戶行為分析參考了5W1H(Who人員、When時間、What對象、Where地點、Why原因、How方法)分析法,從多個維度自學習正常行為基線、發現與正常行為基線的偏離。
異常用戶行為類模型涵蓋多種場景,例如登錄行為異常,文件資源下載、拷貝、訪問等行為異常,賬號被盜用、賬號被濫用等行為異常,離職傾向員工可疑數據收集和外傳,點滴式數據泄漏、持續嘗試外傳等數據泄露行為。
這些用戶行為異常分析模型利用統計與機器學習技術,對用戶行為建立正常基線和監測對基線的偏離。
基線偏離包含用戶與自身歷史行為基線的偏離檢測、用戶行為與同組人員行為基線的偏離檢測。
人員組包含基于企業部門、崗位角色而構建的靜態組,以及基于一段時期內用戶密切聯系行為而構建的動態組。
V-UEBA系統實體異常分析模型主要針對設備活動進行分析,發現異常特別是失陷主機類風險。
由于攻擊者行為模式相對而言更不易改變,新一代高級威脅檢測分析方法更多面向攻擊者的技戰術TTP(Tactics戰術,Techniques技術,Procedures過程)進行檢測分析。非盈利組織MITRE的ATT&CK(Adversarial Tactics,Techniques,and Common Knowledge對抗戰術、技術和常識)是一個經過專家們精選的面向cybersecurity敵手行為而構建的kill-chain攻擊鏈領域知識框架模型。而著名的威脅情報標準STIX也來自MITRE組織,這使得參考了ATT&CK的檢測結果后續在威脅情報輸出共享等方面也更方便。
V-UEBA參考MITRE ATT&CK的攻擊鏈框架模型,基于行為模式分析來發現高級威脅關鍵環節的異常行為和識別攻擊。典型檢測模型包含DGA域名訪問異常發現、命令和控制類行為檢測(Command & Control,簡稱C&C檢測)、橫向移動類檢測、掃描類檢測、DDoS分布式拒絕服務攻擊類、反射型DDoS類檢測、0day Webshell檢測等惡意活動類檢測。
上述檢測模型算法也是利用機器學習、深度學習等技術,對實體對象行為建立正常基線和監測對基線的偏離,自動讓異常行為浮出水面。
異常分析需構建行為基線以及計算某次行為與其基線的偏離,算法有多種,常用算法例如基于密度的算法假設異常行為的某些特征的取值相對來說其分布是很稀疏的,通過計算其密度來表示偏離。比如最簡單的k近鄰,一個樣本和它第k個近鄰的距離就可以當做其與基線的偏離值,偏離值越大越異常。類似的還有孤立森林iForest算法通過劃分超平面來計算“孤立”一個樣本所需的超平面數量,此數量也可作為與基線的偏離值,不過此時偏離值越小表示越異常。
以基于流數據的端口掃描檢測為例,對流數據做端口掃描行為的特征(feature)提取,然后使用iForest孤立森林算法來進行異常檢測。它是一個基于Ensemble集成學習的快速異常檢測算法,對全局稀疏點敏感,由于每棵樹都是互相獨立生成的,因此可以部署在大規模分布式系統上并行處理來加速運算,是符合大數據處理要求的新式先進異常檢測算法。端口掃描檢測的iForest算法中選擇樹數量為100,樹高度為10,IP數量為2 000時,檢測率為96%。
面對大數據時代內部威脅、隱蔽復雜攻擊,利用統計與機器學習等技術面向用戶和實體行為進行異常分析優勢明顯。V-UEBA利用這些技術能清楚分辨出行為異常的用戶與實體,精準迅速找出威脅,對于安全分析的效果和效率都有較大提升。