摘 要:大數據(Big Data)是當前學術界和產業界的研究熱點,正影響著人們日常生活方式、工作習慣及思考模式。本文回顧了大數據的基本概念,提出大數據安全層次體系,在此基礎上分析了大數據安全在信息安全標準、法律法規、數據生命周期保護和大數據信息平臺4個方面的研究進展。大數據安全的發展需要法律法規、標準和關鍵技術的共同支撐和推動。
關鍵詞:大數據 安全 身份認證 訪問控制
當今,社會信息化和網絡化的發展導致數據爆炸式增長。大數據時代是安全與發展并重、機遇與挑戰并存的網絡時代1。我國也在完善信息安全相關事宜,2017年6月1日正式實施的《中華人民共和國網絡安全法》,明確個人信息保護義務,支持網絡安全技術的研究、開發、應用和推廣。2016年12月,國家互聯網信息辦公室發布《國家網絡空間安全戰略》,提出“實施國家大數據戰略,建立大數據安全管理制度,支持大數據、云計算等新一代信息技術創新和應用”。大數據目前已經成為國家信息資源方面重要戰略,但信息安全是大數據發展的重要基石,在充分發揮大數據價值的同時,解決大數據安全面臨的問題和挑戰也同樣重要。
1 大數據基本概念
在學術界,圖靈獎獲得者Jim Gray提出了科學研究的第四范式,即以大數據為基礎的數據密集型科學研究;2008年《Nature》推出了大數據專刊對其展開探討;2011年《Science》也推出類似的數據處理專刊,IT產業界行動更為積極,持續關注數據再利用,挖掘大數據的潛在價值。目前,大數據已成為繼云計算之后信息技術領域的另一個信息產業增長點。2011年5月,美國麥肯錫全球研究院發布了《大數據:創新、競爭和生產力的下一個前沿》報告2,“大數據”一詞被正式提出,自此其成為科研、金融和商業等眾多領域的熱門話題。大數據的定義可用4Vs特征表示,典型的有兩類:1)國際數據公司的大數據定義:使用種類、速度、體量和價值(variety、velocity、volume、value)定義大數據。其中:種類(variety)包括結構化、半結構化和非結構化等各種類型的數據;速度(velocity)意味著大數據的采集、處理等環節必須快速及時,以便最大化大數據的價值;體量(volume)表示數據量大;價值(value)指大數據具有很大的社會價值。2)美國國家標準與技術研究院(NIST)的大數據定義:將IDC的4Vs特征中的“value”替換為“variability”,即“變化”這一特征,突出數據隨時間發生變化的特點。充分理解大數據的定義和特征,可以更好地理解大數據面臨的各種問題。
2 大數據安全體系
在大數據架構的基礎上,提出一種分層的大數據安全體系。
2.1法律、法規及標準:法律、法規是約束或規制大數據各環節中行為的基礎。大數據安全標準是引領和指導大數據安全工作落實的規范。大數據安全相關法律、法規和標準的制定不僅給予數據充分有效的保護,同時也能促進數據的開放、共享,推動大數據應用的發展。隨著大數據的安全問題越來越引起人們的重視,包括美國、英國、歐盟和中國在內的很多國家和組織都制定了大數據安全相關的法律法規和政策以推動大數據應用和數據保護。
2.2大數據生命周期層。主要涉及數據保護的相關技術:數據質量、數據生命周期管理、數據權屬和隱私保護。大數據安全與隱私保護已成為國際標準化的熱點和焦點,目前有多個標準化組織都正在開展大數據和大數據安全相關的標準化工作。全國信息安全標準化技術委員會在2016年4月成立了大數據安全標準特別工作組,主要負責制定和完善中國大數據安全領域標準體系。其中,一些標準已進入報批或公開征求意見階段,將為中國大數據安全的管理、技術和應用提供重要
支撐。
2.3大數據綜合應用平臺層。主要涉及大數據平臺安全保護的相關技術:身份認證、訪問控制、數據加密和審計。傳統的數據處理手段無法滿足大數據應用對海量數據進行高速處理的需求,因此涌現出了很多新的技術,如分布式存儲和處理架構、非關系型數據庫等。處理模式和應用場景的改變給傳統安全保護技術帶來巨大挑戰。
3 大數據平臺安全關鍵技術
3.1 身份認證和訪問控制
單點登錄是解決復雜的云計算環境中統一身份認證和管理的一種方案,單點登錄可以減少了訪問云服務的時間并節省了認證、授權和審計的基礎設施。同時,使用用戶ID和密碼的傳統驗證方式不足以抵御云計算環境中復雜的攻擊方式,多因子認證在傳統標準安全憑證的基礎上附加使用多種安全憑證,進一步加強認證的安全性。目前訪問控制分為兩大類:一是基于屬性加密的訪問控制。基于屬性加密的訪問控制是一種利用密文機制實現客體訪問控制的方法,主要可以分為兩種:基于密鑰策略的屬性加密和基于密文策略的屬性加密。在基于密鑰策略的屬性加密中,引入了訪問結構,密文與屬性集合相關聯,密鑰與訪問策略關聯,只有當用戶提供的屬性集可以達到密鑰的訪問結構時才能解密文件,基于密鑰策略的屬性加密主要用于訪問靜態數據。在基于密文策略的屬性加密中,密文由訪問結構生成,密鑰是用戶的屬性集合,只有當用戶的屬性滿足密文中的訪問結構時才能解密該段密文。二是基于角色的訪問控制。角色是否分配給用戶由用戶的信任度決定,信任度由以下因素計算獲得:用戶使用的主機的安全狀態和網絡可用性、與角色相關的服務提供商的保護狀態,并提供了量化信任度計算過程的數學公式。
3.2 數據加密
數據加密的一個重要問題是如何對密文數據進行處理。對稱加密和非對稱加密為此問題提供了解決方案。一是對稱加密,又稱私鑰加密,即信息的發送方和接收方用同一個密鑰去加密和解密數據。它的最大優勢是加/解密速度快,適合于對大數據量進行加密,但密鑰管理困難。二是非對稱加密。不像普通的對稱密碼學中采用相同的密鑰加密、解密數據,非對稱密鑰加密技術采用一對匹配的密鑰進行加密、解密。具有兩個密鑰,一個是公鑰一個是私鑰,它們具有這種性質:每把密鑰執行一種對數據的單向處理,每把的功能恰恰與另一把相反,一把用于加密時,則另一把就用于解密。用公鑰加密的文件只能用私鑰解密,而私鑰加密的文件只能用公鑰解密。 公共密鑰是由其主人加以公開的,而私人密鑰必須保密存放。
作者簡介:楊海軍,男,陜西大荔縣,陸軍邊海防學院,學歷,2006級碩士,研究方向,計算機,分布式計算。