童端+呂捷+許宏

摘 要:大數據的迅速走熱使得大數據的安全問題至關重要。論文首先從大數據帶來的新風險和挑戰為出發點,分析了傳統數據安全和大數據安全研究的聯系與區別,著重研究了大數據背景下的安全策略問題,包括對傳統數據備份和數據恢復技術的研究、差分隱私技術的原理和實施性分析等,進而提出了大數據環境下的應用體系和信息體系的安全研究方案。
關鍵詞:流動性威脅;差分隱私;安全沙箱;APT
中圖分類號: TP39 文獻標識碼:A
Research on Data Security Based on Big Data
Tong Duan, Lv Jie, Xu Hong
(School of Information Engineering, Nanjing University of Finance & Economics, Jiangsu Nanjing 210046)
Abstract: The rapid heat of big data makes security issues critical. Starting with the new risks and challenges posed by big data, this article analyzes the relationship and difference of traditional data security and big data security, focusing on security policy issues under the background of big data, including the research of the traditional data backup and data recovery technology and the principle and implementation analysis of differential privacy technology. And then put forward the application system of big data environment and the security research scheme of information system.
Key words: Liquidity Threat; Differential Privacy; Sandbox; Advanced Persistent Threat
1 引言
隨著信息技術的快速發展和互聯網規模的迅速擴張,一些安全性問題日益明顯,諸如未經授權數據集的使用和訪問、對大量可能敏感數據的提取和使用工具所產生的安全性問題等。當今社會很多無效率事例都能暴露人們的隱私,例如在銀行自動取款機前、超市便利店、機場安全線和城市交叉口等地方,人們都處于攝像機的監視之下。一旦這些資源是聯網的,這些相關聯的數據流就可能被人竊取而濫用。除此之外,作為一個高成本效益的代理平臺—云媒體,可能會啟動僵尸網絡或應用大規模并行程序來破解密碼系統[1]。劃分邊界是傳統的網絡安全解決方案的基本思想,這種思想主要是通過在內外網邊界建立一些網關設備或網絡流量設備來解決安全問題。但是隨著移動互聯網技術和云服務技術的出現,各種移動終端可以在WiFi網絡和4G網絡自由穿梭,網絡邊界實質上已經消亡了。
大數據的走熱導致人們對數據保護和數據隱私問題的關注度加深,收集大量數據的責任機構和組織必須確保它的安全,確保數據不會落入未授權的個人手中。大數據背景下發生的網絡攻擊和泄密事件的范圍更廣,影響更深, 因此大數據背景下的信息安全尤為重要。
2 大數據帶來的風險和挑戰
2.1 大數據的存儲方式給數據安全帶來新的風險
目前,大數據大多采用云存儲,云存儲的優點主要體現在三方面:容量大、成本低、可擴展。云存儲在為我們帶來方便的同時,也帶來了安全隱患。
(1)可靠性問題。2011年亞馬遜的云數據中心出現了服務器大面積宕機事件,2010年微軟在美國西部幾周時間內出現至少三次托管服務中斷事件,因此用戶能否訪問到自己的云存儲數據直接取決于服務商的可靠度。
(2)數據安全問題。存儲在云端的數據也會由于服務商的失職而被泄露、更改甚至消失。2011年,Google郵箱發生的用戶數據泄漏事件,其規模之大,直接讓15萬Gmail用戶的所有郵件和聊天記錄被刪除,以及部分用戶的賬戶被重置。2012年盛大云在無錫的數據中心因為一臺物理服務器磁盤發生損壞,導致用戶數據的丟失。
(3)數據權屬問題。存儲在云端的數據很有可能在互聯網上的任何數據中心,極有可能被未經授權的第三方訪問。2016年,國內最大的實時公交軟件“酷米客”的大量后臺數據被竊取泄露,而數據竊取者是它的同行業競爭對手“車來了”。此次泄漏事件導致“酷米客”的間接損失將近20億,其中包括大量的核心商業數據。因此,數據量的增長、變化和速度提升等都需要新的方法來預防和管理。
2.2 大數據的分析對計算機的結構提出了挑戰
大數據時代,除了要處理傳統的結構化數據,半結構化和非結構化的數據也增長迅速,這些呈指數增長的新型數據沖擊了傳統的數據分析技術。
(1)數據存儲模式的轉變帶來的流動性威脅。傳統的數據都是靜態的,都是經過分析提取然后存到數據庫里,需要時再被調出來研究使用;而大數據是隨時隨地會動態產生的,必須邊掃描邊分析[2],這種動態的流動性威脅對計算機的結構提出了新需求。
(2)大數據的快速有效處理提出了新挑戰。大數據時代,各種應用場景的數據分析不再局限于離線環境,對在線分析的需求也越來越高,傳統數據庫的存儲能力無法滿足呈指數增長的數據量,數據類型的多樣化使得傳統數據庫的處理壓力成倍增長,這就需要更新更快的大數據分析框架來提升數據的處理能力。Spark Streaming[3]和Storm[4]是目前有代表性的在線大數據分析框架。Spark Streaming是一個準實時的流處理框架,處理響應時間一般以分鐘為單位,也就是說處理實時數據的延遲時間是秒級別的;Storm處理數據的方式是以條為單位,一條一條處理的,Storm是一個實時流處理框架,處理響應是毫秒級的。由于二者的處理速度和響應速度都很快,因而對集群資源配置的要求都比較高。endprint