彭 超,靳黎忠,李中文,邢 帥,張華龍
(太原清眾鑫科技有限公司,山西 太原 030006)
相較于傳統意義上的“資源”,數據資源更為靈活——數據的刪除和修改能夠在極短時間內完成,并且數據的拷貝不需要任何成本[1]。近年來,數據已經深度融入社會生產生活的各個領域中,對社會的生產與運作發揮著不可替代的作用,伴隨著人工智能產業的不斷發展,社會各領域對數據的需求量也大幅增加,諸如智慧醫療、智能家電、公共交通、現代化辦公、電商直播等產業都需要龐大的數據作為支撐,因此,保障數據安全對于數據的正常使用至關重要,一旦數據被竊取或者被篡改,將會帶來不可估量的損失。相較于傳統資源,數據的安全保障條件更為嚴苛,其潛在的威脅主要包括:
(1)外部攻擊。不法分子入侵數據庫后進行對數據的竊取、篡改和惡意刪除等操作。
(2)內部攻擊。內部工作人員有意或者無意的操作造成數據泄露和數據丟失。
(3)存儲介質因素。存儲介質損壞造成數據丟失,因物理因素(磁盤損壞)造成的數據丟失。
(4)非人為不可抗力因素。由于自然災害等因素引起的關鍵數據丟失以及損失。
本文將從數據自產生到消亡的整個生命周期的角度,對數據的安全性進行分析,詳細闡述各個階段的安全隱患和風險。
數據的整個生命周期流程如下。
(1)生產數據:由設計人員生產出所需要的數據。
(2)存儲數據:設計人員將產生的數據臨時存放在個人設備中。
(3)審核數據:工作人員對存儲的數據查核。工作人員對數據的屬性、數據的內容查核,確保供給的數據是有效數據。若審核通過,數據被傳送至系統共享庫中;若審核不通過,數據被返回給數據生產者繼續修改[2]。
(4)數據入庫:數據由工作人員在審核后傳送進共享數據庫中。各類享有權限的職員均可對數據實施對應的處理。
(5)數據應用:擁有權限的工作人員能夠對共享數據庫里的數據進行處理。例如具備查詢權限可以對數據進行讀取,具備修改權限可以對數據進行修改。
(6)數據消亡:數據在經歷完整的應用周期后進入消亡階段,數據庫對其進行毀滅性刪除。
為保證數據的安全性,以上數據生命周期的各個階段都有著類似的安全性需求,具體有身份認證、訪問控制、數據加密、數據信任、數據完整性保障等需求。身份認證是保護數據安全的基礎需求,指對數據的操作方進行身份的驗證,保證對方的身份真實有效,身份認證是訪問控制的前提條件。訪問控制是針對系統中主體對客體的訪問進行控制,以保證數據的安全。其中,主體是指改變數據流動的主動方,諸如用戶、應用等;客體是指包含或者接收信息的被動方,諸如文件、數據等。數據加密是指需要對數據進行加密服務,以防止數據發生泄漏,對于加密后的數據,即使數據在傳輸過程中被竊取,竊取者也無法對其進行解密,從而無法得到真實有效的數據,保證了數據的機密性。數據信任是指要實現數據的不可否認性,也就是數據的發送方不能在消息發出后對該條數據的發送進行否認,數據的接收方不能在接收消息后對接收到的消息進行否認。數據的完整性需求是指數據在傳輸過程中不會被非授權地修改、刪除。
數據采集是指盡可能地收集目標對象、設備、服務等數據產生方的數據,傳輸匯總到相應區域,為之后的數據挖掘分析提供基礎[3]。物聯網的發展將大數據推向了發展高潮,物聯網大部分是非結構化數據和半結構化數據,采集的方式一般有報文和文件。目前,Python的爬蟲是針對于Web獲取數據的主要方式,獲取到的數據可以被很好地利用。
近年來,大數據已滲入社會的各個產業之中,當下大數據通常存儲在大數據平臺之中,基于云存儲技術,多節點、分布式地對數據進行存儲。然而數據量的增大在給人們生活帶來便利的同時,也增加了數據的安全隱患。大量數據的集中存儲增加了數據泄露及被篡改的風險,因此如何確保數據在存儲過程中的安全一直是人們研究的熱點。
(1)數據加密。作為一種可靠的數據庫安全防護技術,數據加密得到了快速的發展與廣泛應用。網絡傳輸中的報文容易被捕獲與利用,對其加密是最重要的安全手段。數據加密的基本思路是通過一定的算法變動原文的表現形式,以偽裝需要保障的重要信息,使得沒有權限的破壞者不能了解被保護信息的內容。當下,一直廣泛應用的數據加密方法主要有:應用系統加密、前置代理加密、后置代理加密、表空間加密、文件系統加密和磁盤加密[4]。
(2)硬件存儲安全。硬盤是存放數據的重要媒介,其中,固態硬盤由于沒有機械部件,而且主控和顆粒之間的信息傳遞效率非常高,固態硬盤的讀取速度可以達到機械硬盤的數倍,在實際應用中具有良好的存儲性能。而可信固態硬盤是在固態硬盤的基礎上加入了安全機制,通過安全存儲接口與協議,嚴格控制用戶存取的數據,保證了數據的機密性。可信固態硬盤以其低延遲、吞吐量大、安全性高的綜合優勢,被廣泛應用于機密數據的存儲。
數據傳輸的安全性是保證數據在傳輸過程中不被篡改、泄露或竊聽等。數據加密技術經常被用來保證數據傳輸過程中的安全性,數據加密算法能夠極大地提高數據的安全性,也是當前最主流的防護措施之一。但是傳統的加密算法成本過高,操作復雜,在實際使用中,無法實現廣泛應用。隨著技術水平的不斷提高,一些新興的加密算法能夠很好地應對數據傳輸中所面臨的安全問題,不過這些加密算法各有優缺點。基于屬性的加密算法通過將私鑰與用戶的屬性相關聯,實現了加密數據的細粒度訪問控制,但該算法效率較低,無法應用于海量數據存儲;全同態加密算法在不解密數據的前提下,實現對加密數據的檢索等操作,它的缺點是對數據的處理效率也很低;可搜索加密技術能實現對密文數據的查詢以及排序,同時也存在支持的數據結構類型單一、時間消耗大、擴展性差等缺點。
數據使用安全主要包括安全訪問控制和數據共享安全兩部分。
(1)安全訪問控制。訪問控制是數據安全的重要一環,它規定了誰可以訪問組織的信息資源誰不可以訪問。通過身份驗證和授權,訪問控制系統可以確保用戶的真實資格,訪問控制通過匹配多種登錄憑據以識別用戶。許多訪問控制系統還包括多因素身份驗證,多因素身份驗證是一種需要使用多種身份驗證方法來驗證用戶身份的辦法[5]。
(2)數據共享安全。網絡犯罪威脅可能源于內部人員的惡意攻擊,影響惡劣,情節嚴重,對于正常的用戶來說也可能成為受害者。數據是否能夠在安全的環境中進行有效共享,有針對性共享,如何防范內部攻擊等都是值得高度重視的事情[6]。
數據匿名處理技術是一種為大眾所知的隱私保護手段,這種方法通過刪去敏感數據來保障用戶的隱私。但是這種方法需要把握好刪除的“度”,如果刪除過少,即匿名化不夠,攻擊者會有較大概率攻擊成功;如果刪除太多,數據集失去了大片的重要數據,會使得數據失去了本身的意義[7]。
數據銷毀是通過建立一定機制將數據進行永久性銷毀,防止有人惡意利用介質進行恢復,使得機密文件數據丟失或被惡意利用。2015年,又有學者提出了一種基于時間戳屬性的數據自毀方案,對數據的存在時間加以限定,只有在允許的時間內,擁有密鑰的用戶可以對數據進行操作,一旦過期,數據將自動銷毀,任何人都無法讀取到原數據。
大數據應用具有極高的商業價值和社會價值,妥善存儲和管理好大數據對于國家和社會都意義重大。要想發揮出大數據應用的最大價值,需要針對具體的行業開發出專門的對應行業的大數據管理模式,這種模式保障了數據的科學高效應用,并且可保障敏感數據的安全。
本文針對數據的各個生命周期進行了安全性分析,總結出了各個階段的風險特征,闡明了數據各個周期的安全性情況,提出了相應解決方法。總之,數據安全將是一個與數據長期共存的棘手問題,需要我們時刻保持警惕,不斷更新安全技術,不斷強化安全意識,才能確保數據安全。