張靖雨 王瀟楓 周楠
摘要 大數據時代,數據在成為國家戰略資源和創新生產要素,資產和戰略價值急速攀升的同時,伴隨著海量數據的不斷產生,安全性也成為人們無法忽略的問題。而機器學習是一門新興學科,應用廣泛。本文以大數據為基礎,分析了以機器學習來解決一定范圍的數據安全問題。
【關鍵詞】大數據 數據安全 機器學習
1 引言
隨著計算機等多種學科的發展,機器學習應運而生,且得到廣泛應用。如檢測垃圾郵件、檢測信用卡的欺詐、人臉識別、識別語音等。通過已有的研究成果可知,機器學習已經在數據安全方面得到了一些應用。
本文對大數據的概念、特點進行了分析,并以此為基礎分析了當前數據安全的重要性,探討了如何利用機器學習解決一定的數據安全問題。
2 大數據概述
2.1 大數據的產生和來源
網絡的普及使得人們的網絡行為成為常態化,而大數據就伴隨著這些網絡而產生,一些企業、部門對著些數據進行采集。這些行為滲透面廣泛,如社交軟件的言論、網絡購物數據等等。和傳統結構和意義的數據不同,這些數據包含了數據的生產者一些真實的信息,如習慣、喜好、意圖等。總的來說,大數據具有極大的價值,大數據時代已經到來。
2.2 大數據的特點
不同于傳統意義上的數據,大數據來源廣泛,可以來源于人、機、物。這就決定了大數據規模龐大且具有高復雜。總的來說大數據具有以下幾個特征:高速行、多樣性、大規模。
3 基于大數據的數據安全
數據的產生、流通和應用更加普遍和密集。然而,新的技術、需求和應用場景給數據安全防護帶來了全新的挑戰。
3.1 新技術帶來的挑戰
分布式計算存儲架構、數據深度發掘及可視化等新技術提升了數據資源的存儲規模和處理能力,但也為數據安全保護帶來了新挑戰。首先,系統安全邊界模糊、可能引入的未知漏洞、分布式節點之間和大數據相關組件之間的通信安全已逐漸成為新的安全薄弱環節其次,分布式數據資源池能夠匯集眾多用戶數據,卻造成了用戶數據隔離的困難。大數據往往在云端存儲,而云端的開放性強、使用范圍、用戶數據較龐大,使數據安全風險更加集中。
3.2 新需求帶來的挑戰
大數據時代下,各方對數據資源的占有和利用的需求持續增加,數據被廣泛收集并共享開放。移動智能終端、傳感器、智能聯網設備廣泛應用,使得虛擬世界正在成為現實世界的完整映射。數據的廣泛、多源收集對數據安全本身及個人信息保護帶來了新的挑戰,數據來源和真實性驗證存在困難,個人信息過度收集、未履行告知義務等現象侵害了個人合法權益。
3.3 新應用場景帶來的挑戰
當前,數據應用浪潮逐漸從互聯網、金融、電信等熱點行業領域向融合業務、物聯網、傳統制造等行業和領域拓展滲透。數字化生活、智慧城市、工業大數據等新技術新業務新領域創造出紛繁多樣的數據應用場景,使得數據安全保護具體情境更為復雜。頻繁的數據共享和交換使得數據溯源中數據標記的可信性、數據標記與數據內容之間捆綁的安全性等問題更加突出。一旦發生數據安全事故,導致的損失往往是不可估量的,且危害具有延續性、擴散性。可見,數據安全問題已經成為大數據時代不可忽略的一個問題。
4 機器學習概述
機器學習是一門新興的交叉科學,已被應用在多個領域,如信用卡詐騙檢測、語音識別、垃圾郵件檢測等。機器學習策略豐富,包括機械學習、類比學習、歸納學習、演繹學習等。如今機器學習已經被應用到了大數據一些領域,如基于大數據利用機器學習對微博用戶行為進行分析等。
5 機器學習技術在數據安全的應用
機器學習具有一定的智能行為,方法多樣,而大數據具有高復雜性和多樣性,因此機器學習可以為數據安全提供一些新的思路。
(1)大數據中的一個重要環節是存儲,往往用戶信息的泄露都是由于存儲機制不健全,導致受到惡意攻擊,從而導致數據安全事故。對大數據存儲建立防火墻,利用機器學習對防火墻異常進行檢測,應對各種攻擊。
在機器學習過程中,自學習與訓練是基礎,大數據中數據量巨大,但受到入侵的數據占少數,因為產生的樣本數量較少,這樣使學習模型與訓練較為困難。機器學習使用監督學習方法解決這個問題,利用統計學習模型,從海量的數據中獲得隱蔽的、可以理解的、有效的信息,通過這些信息甄別出與正常數據不同的異常數據。
模型中首先建立數據特征集,其次針對數據特征建立統計模型,針對每個測試樣本,利用Chebyshev不等式計算異常值(用P表示),得到異常程度。用μ表示均值,σ2表示方差,x表示隨機變量。用公式Pr(|X-μ|>=kσ)<=1/k2進行統計。找到偏離正常值的異常數據,并進行進一步分析,從而采取措施對異常數據進行防御,預防數據安全問題發生。
不同于傳統的入侵檢測,監督學習使入侵者更難繞開,增加了檢測的靈活性和效率。而大數據數量巨大,統計數據更具有說服力、且容易聚類,符合機器學習對數據的基礎需求。
(2)隨著移動網絡的普及,截止到2017年6月,我國手機用戶超過7億,用戶更多的網絡行為都與軟件相關,在大量的軟件中惡意軟件數量也不斷增長。這些惡意軟件威脅著用戶的數據安全。針對此問題,機器學習可發揮一定的作用。在訓練過程中,從大數據中己知軟件行為中提取樣本,區分惡意軟件和正常軟件的行為特征,并進行存儲。隨后建立相應的算法、模型,最終的出檢測結果,甄別出惡意軟件。在此過程中,可通過自學習進行不斷地修正、補充。當新型惡意軟件出現時,機器學習通過發現這些新型惡意軟件與己學習過的惡意軟件的特征聯系與共同點,提前進行判斷、預測和分析,從而進行一定的預警,進而提高檢測的效率。
6 結論
大數據時代使數據發揮了極其重要的作用,同時也增加了數據安全風險。機器學習為數據安全提供了新的思路。本文通過對大數據特點機器學習技術模型進行分析,得出大數據特點適用于機器學習的模型建立及訓練學習,機器學習具有一定的靈活性,對惡意攻擊檢測有一定的優勢。
參考文獻
[1]程學旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰,大數據系統和分析技術綜述[J].軟件學報,2014,25 (09):1889-1908.
[2]章博亨,劉健,朱宇翔,吳帆,程維,基于大數據和機器學習的微博用戶行為分析系統[J].電腦知識與技術,2017:1009-3044.
[3]張巍,任環,張凱,李成明,姜青山.基于移動軟件行為大數據挖掘的惡意軟件檢測技術[J].集成技術,2016 (05).