劉志勇,何忠江,阮宜龍,單俊峰,張超
(中國電信集團有限公司,北京 100032)
大數據已經逐步應用于產業發展、政府治理、民生改善等領域,大幅度提高了人們的生產效率和生活水平。適應、把握、引領大數據,將成為時代潮流。在大數據時代,數據是重要的戰略資源,是企業得以發展的核心,但數據資源的價值只有在流通和應用過程中才能夠充分體現。云計算、物聯網、大數據等新技術的迅猛發展,引發了數據規模的爆炸式增長和數據模式的高度復雜化,如何對大量且復雜的數據進行有效管理和合理分析成為企業亟待解決的問題[1]。為應對日益復雜的數據環境,加快數據應用與部署,大數據湖逐漸成為企業大數據運營管理的重要趨勢和發展方向,通過統一匯聚和管理各生產系統的運營數據,提供統一的存儲與數據服務,讓各類數據應用和數據開發人員各取所需,充分發揮數據價值[2]。大數據在收集、匯聚、存儲、使用、共享的過程中,對信息安全的要求越來越高,數據類型及數據量的增多使數據安全和隱私保護問題更加突出,傳統的基于邊界安全和基于已知特征的網絡安全防護方式,已無法有效應對大數據環境下新的安全威脅。因此,要建立完備的大數據安全防護機制和管理制度,根據各類數據應用的不同特點,完善全生命周期數據安全保障策略,防止數據越權訪問、私自篡改、泄露毀壞等問題發生。
大數據(big data)具有數據體量浩大(volume)、數據生成速度快(velocity)、數據種類繁多(variety)、數據價值高但密度低(value)的4V特點,如圖1所示。

圖1 大數據4V特點
由于采用分布式存儲方式,數據存儲路徑相對清晰,且數據量過大,導致攻擊者較容易利用相關漏洞實施不法操作,造成安全問題。
(1)大數據成為網絡攻擊的顯著目標。更加龐大敏感的數據提高了黑客的“收益率”,成為了黑客攻擊的最佳目標;數據中包含大量用戶信息,使得對大數據的開發利用很容易侵犯公民的隱私,增加了用戶個人隱私泄露風險。
(2)大數據的存儲管理風險加大。數據量非線性甚至指數級的速度增長,多種應用進程的并發以及頻繁無序的運行,極易造成數據存儲錯位和數據管理混亂;訪問控制和隱私管理、授權與驗證的安全模式、技術漏洞和成熟度、數據管理與保密等問題,以及物理故障、人為誤操作、軟件故障、木馬病毒和黑客攻擊等都嚴重威脅著數據的安全性。
(3)大數據的傳輸處理隱患增多。除數據非授權使用、泄露、被篡改、被破壞等風險外,由于大數據傳輸的異構、多源、關聯等特點,即使多個數據集各自脫敏處理,數據集仍然存在關聯分析造成個人信息泄露的風險。
(4)大數據實施訪問控制更加復雜。大數據應用范圍廣泛,被用于多種不同場景,被來自不同組織、部門、身份與目的的用戶所訪問,其訪問控制需求十分突出,導致難以預設角色、難以實現角色劃分、難以預知每個角色的實際權限、不同類型的大數據中可能存在多樣化的訪問控制需求等問題。
(5)大數據技術被應用到攻擊手段中。網絡攻擊者最大限度地收集更多有用信息,通過大數據分析讓攻擊更加精準;大數據已成為高級可持續攻擊(advanced persistent threat,APT)的載體,利用大數據發起僵尸網絡攻擊,控制上百萬臺傀儡機,傳統的基于內置攻擊事件庫的特征實施匹配檢測技術對檢測APT攻擊是無效的,將攻擊隱藏在大數據中,給安全服務提供商的安全分析制造了很大的困難[3]。
(1)數字化
面向云網安全協同和安全融云,建設“全網聯動、防控一體”安全中臺樞紐,打造以數據驅動的智能化安全運營體系,從被動防御向積極防御演進。隨著IT系統上云同步建立電信云內生安全體系,保障云上系統與數據安全,借助基礎網優勢,持續優化企業網絡安全建設;并進一步打造以骨干網、5G為中心的安全防護體系;構建5G核心網異常信令監測控制能力,打造差異化的5G安全防護體系,助力企業在5G時代提升整體競爭力;同時,逐步加強邊緣網絡安全防護能力,構建從終端到業務的零信任安全體系。重點攻關數據流動的阻斷防護和安全檢測技術,掌握敏感數據的識別、用戶身份識別和訪問控制、用戶行為分析、個人隱私保護、數據防泄露等關鍵技術,實現安全能力服務化,統一開放和安全原子能力賦能數字化平臺。
(2)體系化
構建貫穿大數據應用云管端的綜合立體防御體系,已滿足大數據戰略與市場應用的需要。綜合利用數據源驗證、大規模傳輸加密、非關系型數據庫加密存儲、數據防泄露、數據銷毀等技術,與系統現有網絡信息安全技術設施相結合,建立縱深的防御體系。集中的安全配置管理和安全機制部署成為平臺層安全趨勢。集中安全管理、準入控制、多因素認證、細粒度訪問控制、密鑰管理、數據脫敏、集中審計等安全機制,從機制上防止數據的未授權訪問和泄露。
(3)智能化
敏感數據識別技術作為數據安全監控的必要技術條件將逐步實現自動化;人工智能識別技術的引入,通過機器學習實現大量文檔的聚類分析,自動生成分類規則庫,內容自動化識別程度正逐步提高。大數據分析技術、機器學習算法的發展與演進將推動數據防泄露的智能化發展,DLP將實現用戶行為分析與數據內容的智能識別,實現數據的智能化分層、分級保護,并提供終端、網絡、云端協同一體的敏感數據動態集中管控體系。借助大數據分析、人工智能等技術,實現自動化威脅識別、風險阻斷和攻擊溯源,從源頭上提升大數據安全防御水平[4]。
(4)流通化
大數據要發揮其自身價值,必須安全、有效地流通、共享。之前應用廣泛的數據脫敏技術受到多源數據匯聚的嚴重挑戰而可能面臨失效,目前匿名化算法等前沿技術鮮有實際應用案例,普遍存在運算效率過低、開銷過大等問題,還需要在算法的優化方面持續進行改進,以滿足大數據環境下的隱私保護需求。“隱私保護計算”和“區塊鏈”成為近年數據安全流通領域常用的兩種技術框架,通常涵蓋聯邦學習、安全多方計算、同態加密等關鍵技術。
目前,中國電信通過建設集團企業級大數據平臺匯聚企業主要運營數據,開展精準營銷、精確管理、精細服務、精益運營等應用探索,對部分生產系統閉環注智,較好地支撐了企業數字化轉型。為解決大數據平臺在數據匯聚和應用過程中的數據安全問題,打造了以網絡基礎設施安全為基礎,以“數據和人”為核心的大數據安全深度防御體系,如圖2所示,結合不同場景,從數據的采集安全、存儲加工安全、應用共享安全等全生命周期進行綜合施策,以此實現“降低數據泄露風險、保障企業級數據與用戶隱私數據安全、夯實數字化基礎”的目標。
網絡基礎設施安全是大數據安全不可或缺的基礎保障。為滿足“云網融合”安全需求,正在推動構建覆蓋“云-網-應用-數據-終端”的一體化安全運營體系,從被動響應轉向主動防御,從單點防御轉向全網聯防聯動,建立安全與信息化“深度融合、全面覆蓋”的內生安全體系,保障云網業務數據安全、可靠、高效地運營。在網絡安全層面,大數據平臺實施物理隔離部署,日常管理維護、開發測試均通過“VPN+堡壘機”方式接入;網絡邊界出口部署流量控制、入侵檢測系統(intrusion detection system,IDS)、入侵防御(軟WAF)等安全防護設備,通過策略路由方式引流,防范南北向攻擊;利用云堤網絡鏈路資源和基礎清洗能力,結合網站防護設備(硬WAF),實現基于IP路由的雙向引流、清洗和綜合防護,防止大流量DDoS攻擊、Web攻擊;使用WAF+SSL證書進行應用層、傳輸層的防護,保證數據不被劫持、篡改,防止CC、SQL注入等攻擊。在主機安全層面,采用LDAP統一身份認證和主機權限控制;部署安全代理(agent)監控組件對主機實現7×24 h的安全防護,部署終端防護響應工具(EDR),通過預防、防御、檢測、響應等環節,為終端提供更加優良的隔離策略、病毒查殺和檢測處置能力。

圖2 打造以數據、人為核心的大數據安全防御體系
圍繞數據全生命周期,從采集、傳輸、存儲、處理、共享、銷毀等環節,以關鍵技術措施為突破,完善大數據安全技術體系,如圖3所示。
(1)在數據采集環節,實施連接限制、敏感數據識別、數據一致性和合法性校驗等手段,通過底層HDFS文件系統的訪問控制列表(access control list,ACL)權限管控實現數據源認證、接入安全、權限管理;開啟基于分析系統日志(Elastic search,Logstash,Kibana,ELK)開發的數據采集日志審計,實現對數據采集過程全流程操作可追溯,保證各類數據采集活動的合規性和安全性;對采集的數據進行分類分級標識,對不同類和級別的數據實施相應的安全管理策略和保障措施[5]。
(2)在數據傳輸環節,利用鏈路加密、加密協議、認證鑒權等機制對數據傳輸進行安全管理,構建傳輸安全通道;部署RSA、AES等密碼算法以及PKI系統進行身份認證和密鑰管理,防止數據丟失、泄露、篡改。建立數據傳輸接口安全管理工作規范,包括安全域內、安全域間等數據傳輸接口規范。
(3)在數據存儲與加工環節,采用多種加密算法(例如AES、FPR)實現數據脫敏、加密等手段。實現數據保密,提高個人信息的安全性;加強數據的統一調度與資源監控,以及日志分析和操作審計;對數據實施分權分域管理,嚴控集群公共數據的讀寫權限分配,數據模型采用分層架構,控制數據開放范圍。
(4)在數據應用與共享環節,實施數據脫敏、數據水印、導出管理、訪問頻度控制等手段,建立嚴格的審批流程,通過訪問控制列表(ACL)、業務日志監控(sentry)等技術實現對數據、表的共享訪問控制和操作控制。制定數據共享審計策略和審計日志管理規范,審計記錄詳細完整,為數據共享安全事件的處置、應急響應和事后溯源提供幫助[6]。
(5)在數據銷毀層面,針對不同的存儲方式、存儲內容,建立數據銷毀周期管理能力,明確需要進行數據銷毀的數據、方式和要求,明確銷毀數據范圍和流程;遵循可審計原則,建立數據刪除策略和管理制度,記錄數據刪除的操作時間、操作人、操作方式、數據內容等相關信息[5]。

圖3 數據全生命周期安全管理
著眼云網融合資源布局的多組織、大體系環境下的數據安全需求,建設企業級大數據平臺安全管理系統,構建大數據集群安全統一管控體系,通過數據分權分域管理、數據訪問授權、數據加密脫敏、敏感數據識別、安全審計實時風險告警、集群多租戶管理等安全能力,為大數據平臺提供安全防護和安全事件溯源能力。企業級大數據平臺安全管理系統能力架構如圖4所示。
(1)構建多租戶權限管理體系。圍繞以人為核心,建立租戶、用戶組、用戶三大要素所組成的3層用戶體系,對大數據平臺進行立體式的用戶管理,成功解決Hadoop平臺原生安全認證能力過于單一,無法精細化、多樣化地控制每一個用戶權限的問題。3層用戶體系把組織、用戶組、用戶的概念融為一體,提供對平臺資源統一分配、數據集中權限控制的能力,由上至下形成一條完整的管控鏈路,從全局實現平臺資源和數據的統籌分配管理,從局部解決了租戶內部資源管理與隔離。數據權限的管控與繼承,既實現了租戶與租戶之間的完全隔離,也滿足了租戶內部對資源、數據靈活調配的定制化需求。現在多租戶權限管理體系已經為全國31個省公司167個租戶、1 343個用戶組的日常生產經營提供底層用戶體系保障和安全管控服務。平臺用戶體系及資源管控如圖5所示。

圖4 企業級大數據平臺安全管理系統能力架構

圖5 平臺用戶體系及資源管控
(2)統一身份認證管理,利用云認證平臺提供大數據平臺人臉、聲紋、指紋、掃碼等多因子認證服務,業務系統集中單點登錄,實現對14個業務系統共計25 000個應用賬號的統一管理,形成“一人一賬號、一次登錄通行訪問”的用戶便捷操作和安全保障能力。在大數據集群的身份認證方面,Hadoop主要支持簡單機制和Kerberos機制兩種身份認證機制[4]。簡單機制根據用戶的有效UID確認用戶名,避免內部人員誤操作。Kerberos機制支持集群中服務器間的認證和客戶端(client)到服務器的認證,嚴格控制數據輸出,實現較強的安全性,同時保證較高的運行性能。技術上采用客戶端/服務器結構與多層加密技術,密碼和關鍵信息經過3層加密,先使用base64算法進行數據編碼在經過sha256加密,其次再生成隨機動態鹽,密碼和動態鹽拼接在一塊,經過sha-224類型的SHA算法加密生成最終的數據,用于防竊聽、防replay攻擊、保護數據完整性,使用對稱密鑰體制進行密鑰存儲,建立數據權限管理的基礎安全環境。
(3)統一資產管理。對大數據平臺內所有資產實施臺賬管理,與智能運維平臺聯動,建立“資產入網-資產變更-資產監視-資產退網”的流程,實現對主機、數據庫、業務系統、網絡拓撲圖、業務系統互聯關系等資產信息的全生命周期管控;在未知資產自動發現方面,通過端口掃描、協議探測等方式,可實現對網絡中的未知資產對象的發現與基本信息偵測。驗證試點全網數據資產測繪,通過集中式數據庫JDBC、CMDShell等API連接方式實現定向采集,利用分布式終端agent進行本地腳本直采,實現MySQL、Oracle、SQLServer等主流關系型數據庫以及HBase、Hive、MongoDB、Redis等主流大數據組件的資產數據采集,同時結合網絡流量的采集監測進行HTTP、FTP、SQL等協議解析,可動態發現敏感數據的流動方向、使用熱度等,結合平臺資產信息可發現未登記、已退網等情況的異常資產,實現資產數據查漏補缺和動態更新;數據資產信息采集后通過周期性北向接口進行自動數據上報形成全網重要數據資產地圖。
(4)統一日志審計管理。使用分布式數據抽取組件將數據進行加密傳輸,支持多種數據源類型可支持采集文件、網絡數據、主機的審計和運行指標、堡壘機日志等,可自動化解析、規范轉發以及數據庫的日志。Lambda架構如圖6所示,使用經典的Lambda架構,數據傳輸到消息隊列中,支持進行數據的無感分流;一方面使用分布式實時計算組件(Spark streaming)對接消息中間件進行實時數據指標的分析,形成用戶行為軌跡、賬號違規共享、執行高危指令、數據上傳下載、異常時段登錄、組件日志審計、Web系統日志審計等能力;另一方面數據存儲到ES(elastic search)搜索引擎中,使用腳本結合AI挖掘建模技術,采用隨機森林等算法對數據進行打標處理,根據多維評分模型,進行數據安全感知分析、威脅預判和預處理。

圖6 Lambda架構
(5)提供數據匿名化解決方案。配套常用對稱/非對稱加解密算法API,支持aes/des/MD5/sm2/sm3/sm4/rc4等多種加密能力,針對不同的業務場景可提供表級加密和字段級加密能力。大數據環境下的數據加密需要實現數據在靜態存儲及傳輸過程的加密保護,難點在于密鑰管理。在Hadoop2.6的版本之后,HDFS支持一種靜態加密方式,應用層加密是一種基于加密區的透明加密方法,將需要加密的目錄分解成若干個區,數據寫入加密區和客戶端讀取數據時,數據被透明地加密和解密。對于動態的傳輸數據,對應PRC、TCP/IP和HTTP,Hadoop提供了不同的動態加密方法用以保證客戶端和服務器傳輸的安全性。系統底層支持分布式的計算架構,利用分布式計算能夠橫向擴展的特性來提升數據加密性能。安全系統還對系統中所有的加/解密作業進行跟蹤,記錄每個作業的執行時間、運行狀態、執行結果、相關數據等信息,以保證所有加/解密行為的有記可查。數據匿名架構如圖7所示。
(6)構建統一的漏洞知識庫。包括數據訪問行為知識、用戶訪問組件行為知識、存儲組件漏洞庫等。從多個數據源獲取攻擊規則、軟件漏洞樣本、網絡威脅情報、漏洞數據以及與計算機和網絡安全相關的知識,對收集的知識進行統一化清洗處理,將分散的知識結構化為計算機可理解的知識庫,通過五元組模型(包含概念、實例、關系、屬性和規則),實現知識圖譜化。通過將零散的安全閾值規則整合成體系化的安全漏洞知識庫后,安全告警事件發現識別率提升30%,預防潛在安全風險能力提升20%。漏洞知識庫構建架構如圖8所示。
在解決數據匯聚和應用過程中大數據安全問題的同時,還有一些不足。一是重防范安全、輕共享安全,數據應用面臨多種能力開放模式:如數據專區、挖掘建模、營銷開發、服務封裝,個人用戶信息保護難度越來越大,傳統的“一事一議”方式無法滿足越來越多的數據開放需求,數據安全共享成為迫切需要解決的問題。二是安全風險監測智能化能力不足,依賴傳統的基于規則過濾的黑名單制的日志審計,對疑似符合已知威脅模式/特征的行為產生告警,無法識別看似合法的風險隱患;檢測水平取決于運營人員自身的經驗和水平,缺少對AI新技術的有效使用。三是過于依賴網絡和邊界安全,缺乏數字化轉型“企業邊界正在瓦解,基于邊界的安全防護體系正在失效”這一大背景下的應對措施。

圖7 數據匿名架構
(1)引入聯邦學習、區塊鏈等技術在確保隱私安全前提下促進數據有序流通共享
隱私保護是建立在數據安全防護基礎之上的保障用戶個人信息的更深層次的安全要求。在數據共享方面,探索引入安全多方計算、聯邦學習等隱私計算技術,在原始數據不出平臺的情況下,與合作伙伴開展聯合建模、聯合營銷、聯合風控等場景的數據聯合計算,實現 “數據可用不可見”的安全體驗;采用區塊鏈技術進行數據服務調用的存證、授權、計費等,以確保數據計算和利用的合法合規,提供計算數據、過程的驗證審計、數據監控等能力,保證計算過程真實可信、數據的真實性和數據質量;使用同態加密/部分同態加密技術,保護計算外包時的數據安全。在數據發布方面,利用數據匿名化算法(包括差分隱私、K匿名、L 多樣性、T 接近等)有條件地發布部分數據或數據的部分屬性內容,達到隱私性和可用性的平衡。

圖8 漏洞知識庫構建架構
(2)建立基于軟件定義邊界的零信任數據訪問控制體系
基于SDS(software defined security,軟件定義安全)實現安全能力原子化、安全服務鏈編排,實現云網融合的安全產品與能力,提供多樣化、可定制的云網安全服務。構建以身份為中心的信任體系和動態訪問控制,建立全新的零信任微邊界,引入角色挖掘、風險訪問控制、半/非結構化數據的訪問控制、針對隱私保護的訪問控制、基于密碼學的訪問控制等新技術以實現對數據可信的訪問控制,依據控制策略對資源進行不同的授權訪問,從而保障數據資源在合法范圍內得以有效使用和管理。持續開展信任評估,一旦環境發生變化就要去驗證訪問者是不是真實可信的,基于身份再次進行信任評估、基于環境的風險重新判定,基于行為的異常做出“檢測+響應+阻止”,進而全面降低攻擊者在網絡中橫向移動的風險。
(3)利用大數據和AI技術實現從被動防御到主動監測的轉變
通過大數據分析、人工智能等技術,實現基于用戶實體行為分析技術的審計監控,構建從數據采集、傳輸、使用、共享全鏈路的智能化風險檢測能力[4]。在數據流轉、接口監測方面,對TCP/UDP應用層服務及數據庫協議進行解析和內容還原,基于文檔指紋、圖片特征、關鍵字匹配識別流量中的敏感數據,通過連續時間變量分析、概率分布對比(非參數檢驗/密度估計)和稀有度統計分析等離散變量、聚類K-means/DBSCAN、離散森林(isolation forest)、LOF等無監督學習算法,構建和持續優化正常訪問流量通道和行為模型,實現采集數據鑒別、傳輸接口、流動數據、共享接口、服務接口監測和風險預警能力。在數據使用和操作方面,通過機器學習算法和預定義規則對照行為基線判斷用戶行為是否異常,通過權限變化監控、用戶安全風險綜合評估,進行數據安全感知分析,對數據安全威脅預判、預處理,從源頭上提升大數據安全防御水平,提升對未知威脅的防御能力和防御效率。
大數據時代,數據在流動和共享過程中不斷創造新的價值。大數據不僅是數字化轉型的重要驅動力,更是轉型之后企業數字化發展的重要載體和工具。需要構建以數據為中心的、動態的數據安全防護體系,通過聯邦學習、安全多方計算、人工智能和零信任的新技術研究應用,持續提升大數據安全效能,才能為企業數字化轉型提供堅強保障與重要支撐。