李映壯



摘 ? 要:隨著互聯網由1.0向2.0演進,互聯網以前所未有的速度滲透到人們的日常生活。互聯網快速發展所積累的龐大數據,為大數據分析和人工智能創造了絕好的條件,另一方面,針對數據攻擊、數據泄露、數據濫用變得日益嚴重,甚至滋生非法活動。對于個體而言,數據隱私意識也在不斷增強。數據隱私保護問題成為廣受關注的網絡空間治理問題,因此要求數據運營者要積極、主動地進行數據防御。
關鍵詞:數據隱私 ?網絡空間治理 ?主動、數據防御
中圖分類號:TP309 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A ? ? ? ? ? ? ? ? ? ? ? ?文章編號:1674-098X(2019)02(a)-0159-05
Abstract: With the evolution of the Internet from 1.0 to 2.0, the Internet has penetrated into people's daily lives at an unprecedented rate. The huge amount of data accumulated by the rapid development of the Internet has created excellent conditions for big data analysis and artificial intelligence. On the other hand, data attacks, data breaches, and data abuse are becoming more serious and even breed illegal activities. For individuals, awareness of data privacy is also growing. Data privacy protection has become a widely concerned issue of cyberspace governance. Therefore, data operators are required to actively and proactively perform data defense.
Key Words: Data Privacy; Cyberspace governance; Initiative; Data defense
隨著數字經濟時代的到來,數據已成為關鍵的生產要素。數據賦權的意義不僅僅在于保護個人隱私,同時還有助于清晰產權,從而發揮出數據的最大經濟效能,各國目前正加快數據隱私保護的立法和相關制度建設。歐盟于2018年5月正式實施的《通用數據保護條例》(GDPR)規定數據主體享有知情同意權、訪問權、拒絕權、可攜權、刪除權(被遺忘權)、更正權、持續控制權等多項權利。其中一些權利在我國于2016年11月通過的《網絡安全法》中也得到了體現。數據隱私保護的相關立法對數據的處理和應用施加了約束,極大增強了數據主體對個人數據的控制能力和保護能力,因此,數據運營者主動對數據進行防御就尤其重要。
既然是主動防御,則肯定對應“被動防御”。被動防御的經典應用就是傳統事后被動審計、被動應急。傳統的數據攻擊檢測都是攻擊出現后,先被動處置,安全廠商再提取特征碼放入特征庫,這種做法顯然不能在主動、積極地進行數據防護。主動防御理念的安全策略不再依賴于特征,而是根據行為做出預先判斷并實時進行自動閉環阻止。從技術角度來說,可分為四個方面:身份認證,即確保數據訪問的全流程身份正常。攻擊預測,不依賴特征,實時預判各種針對數據的攻擊行為并告警。路徑還原,能夠精準還原攻擊的整個路徑,提供處置依據。實時封堵,能夠對可能導致數據泄露的行為進行自動閉環封堵。
1 ?基于有向圖的持續身份認證
1.1 生成數據訪問行為圖譜基線
首先從數據訪問日志中提取時間、源目的IP、來源URL、訪問URL等字段,并過濾出目的IP位于受保護站點列表的訪問日志,使用目的IP加上目的端口作為站點的唯一標志。對于指定時間段內同一個源IP訪問同一個站點的訪問日志進行提取,我們就可以得到此源IP訪問站點的URL訪問序列。為了規避URL序列中摻雜的靜態資源的干擾,我們需要對URL序列進行去噪,去噪方式如下:
(1)對于UPL,去掉其問號后的所有內容,即去掉參數部分。
(2)得到已經去掉參數的URL后,我們對其后綴進行判斷,如果其后綴屬于js(Javascript腳本)、css(樣式文件)、png/jpg/gif/jpeg(圖片文件)等,則認為是頁面的靜態資源請求,不屬于URL路徑分析的范疇,將其過濾掉。
經過過濾步驟后,我們就得到了一個源IP對于一個站點的所有動態請求的URL序列。我們將每一個URL作為圖的一個節點,而將一個URL到另一個URL的跳轉關系,作為圖的一條有向邊,這樣我們就可以得到一個源IP對于一個站點的訪問行為圖譜。如圖1所示。
另外,我們還可以基于源IP對于目的站點各個URL對應模塊的訪問時間間隔,生成用戶訪問時間序列圖譜,對于用戶在站點各個模塊停留時間的行為特征進行刻畫。如圖2所示。
由于歷史數據訪問日志中,有非常多的源IP訪問站點對,為了提高行為圖譜基線的生成性能,我們可以使用Spark的分布式算子并行的生成源IP訪問站點序列行為圖譜,在生成行為圖譜之后,我們將每一個行為圖譜對象序列化為二進制對象,存儲在HDFS上,供后續的實時URL比對模塊讀取。每一個序列化的圖譜對象,使用源IP加目的IP加目的端口作為它的標志。
1.2 異常身份檢測
(1)基于訪問行為圖譜的異常身份檢測。
根據URL的先后訪問關系從元素為N的URL集合中,提取出N-1個子序列,例如對于的URL集合,得到的子序列為。對于每一個子序列與行為圖譜進行比對,如果子序列中含有行為圖譜中不含有的節點,或者子序列對應的行為圖譜中不存在邊,則判定為該用戶的此次訪問行為異于歷史訪問行為,觸發身份驗證失敗訪問異常告警。
(2)基于訪問時間序列圖譜的異常身份檢測。
對于源IP訪問URL的時間間隔,與訪問時間序列圖譜進行比對,如果發現兩個URL之間的訪問時間間隔明顯異于訪問時間序列圖譜的時間間隔(例如與歷史停留時間間隔的均值相比超過了3倍的標準差),則判定為該用戶的此次訪問行為異于歷史訪問行為,觸發身份驗證失敗訪問異常告警。
2 ?基于機器學習分析的主動預測
(1)數據源采集。
網絡安全領域的數據源根據類型的不同,包括結構化數據,非結構化數據和半結構化數據,數據采集方式主要通過Syslog、SNMP、JDBC/ODBC、FTP/SFTP、TCP/UDP、File、Webservice等主流的數據采集方式進行采集,對于大量多源異構數據源,采用前置探針,對數據進行集中收集、規范化等工作,將數據整合后統一發送到大數據應用系統,應用系統將根據安全事件之間的相關性,進行關聯分析,得到更為準確的監測信息,發現攻擊源。
(2)數據預處理。
在對數據挖掘算法執行之前,必須對收集到的原始數據進行預處理,從而改進數據的質量,提高數據挖掘過程的效率、精度和性能。大數據預處理利用數據切片,數據分類,數據聚合,數據索引標記等技術對原始數據進行層級化的聚合、重組、清洗、提取、轉換、管理、切分等預處理操作,統一標準接口,統一數據標準,并通過分布式存儲管理技術,在滿足一致性要求的基礎上,實現安全、可靠、快速、有效地對多類型、多格式的數據統一存儲管理。
(3)分布式計算。
大數據分布式計算通過兩個或多個計算機互相共享信息,將需要進行大量計算的數據分割成小塊,由多臺計算機分別計算,再對運算結果進行統一合并。采用分布式任務調度機制,動態靈活的將計算資源進行分配和調度,從而達到資源利用最大化,計算節點不會出現閑置和過載的情況,采用分布式實時計算框架和分布式離線計算框架相結合的分布式計算框架和模塊化設計,構建一個支持多種分布式計算模型的統一動態調度、管理和計算的大數據分布式計算平臺,有效地支撐大數據挖掘分析。
(4)行為預測。
通過上述數據采集、數據預處理、數據分布式計算等過程,大數據已納入分布式存儲管理中,這些數據信息已可以用于查詢、統計、分析,得到大量對業務有用的信息,然而,隱藏和淹沒在這些大數據之中更重要的信息,如關聯分析、精細化分類、模式識別等,是無法用傳統查詢統計方法來獲取的。為了得到這些有用的信息,需要采用數據挖掘分析技術,自動智能地對大數據分析、探索、挖掘,探尋數據的模式及特征,實現對異常行為的主動預測。
3 ?基于時序關聯的攻擊路徑還原
傳統針對敏感數據算法模型流量分析,發現的基本是大量的單點、單一時刻的威脅,無法感知APT攻擊問題,本文提出一種基于洛克希德·馬丁(Lockheed Martin)公司的安全專家提出來的網絡攻擊按發展時間和程度統一分為七個階段,分別是偵查、工具制作、投送、攻擊滲透、安裝工具、命令控制和惡意活動,以用戶視角的行為時序圖,構建時序關聯的攻擊路徑還原模型,同時結合威脅情報關聯分析,推理形成用戶維度的數據泄露攻擊行為還原鏈。這種數據泄露路徑還原模型是一種多維度的攻擊推理算法,維度包含攻擊事件標記的危險程度、資產的重要等級、事件發生時間以及事件所處攻擊階段等。
通過將設備或算法檢測生成的告警數據,從資產的角度,使用泄露階段、時序關聯、攻擊的危險程度和資產重要程度,還原出數據泄露的路徑,能夠有效發現基于局域網資產的樹狀威脅拓撲,還原了資產被入侵的歷史痕跡,有效提高了威脅感知和預測能力。
4 ?分類分級的實時閉環封堵
當前出現攻擊時,如果經過人工審核確認后通過封堵IP的方式進行,該種方式過于簡單粗暴,極易造成因操作不當導致大面積業務故障。本方法將基于TCP會話重置和基于賬號的封堵方式引入敏感數據防泄漏處置,實現高危風險自動化封堵,無需人工干預且封堵影響范圍小。根據泄露的場景定制化制定封堵策略,能夠從三方面進行有效的封堵,第一類賬號異常,跟資源管理系統進行聯動封堵惡意賬號的活動;第二種通過調動一鍵封堵平臺下發黑洞路由實現IP封堵;第三種高危探測活動,通過TCP會話重置來實現精準級會話封堵。
從數據防御出發,針對9個高危場景分別實現分類分級自動封堵,最大限度降低封堵影響,提高業務連續性。
5 ?結語
雖然我們大多只聽說新聞報道的大公司數據泄露事件,但并非只有大公司才面臨數據泄露的風險。事實上,中小企業的敏感數據泄露問題也不小。攻擊者對中小企業下手的回報可能沒有對大公司的大,但小企業也不太可能具備能夠主動檢測、預防和緩解安全漏洞的策略。為避免敏感數據泄露,無論是大公司還是中小企業都需要關注網絡安全,積極利用主動防御的思路進行數據防護。同時,數據保護不是某一個部門的職責,而是所有數據運營者和使用者的事情,進行敏感數據的業務流程設計時,一定要回歸到業務的本質上去,回頭看看業務的本質是什么,需不需要這些敏感數據。
參考文獻
[1] 謝邦昌,蔣葉飛.大數據時代隱私如何保護[J].中國統計,2013(6):1-4.
[2] 陳明奇,姜禾,張娟,等.大數據時代的美國信息網絡安全新戰略分析[J].信息網絡安全,2012(8).
[3] 霍崢,孟小峰,黃毅.一種移動社交網絡中的軌跡隱私保護方法[J].計算機學報,2013(4):716-726.
[4] 周水庚,李豐,陶宇飛,等.面向數據庫應用的隱私保護研究綜述[J].計算機學報,2009(5):847-861.
[5] 馮登國,張敏,李昊.大數據安全與隱私保護[J].計算機學報,2014(1):33-35.