【摘 要】如今,大量的數據是所有企業的共同目標,旨在從這些來源解鎖新經濟。Hadoop是為分析并行計算體系結構中的大規模數據倉庫而開發的。這個過程中的主要任務是運用適當的策略來處理這個“大數據”。因此,目前的行業關注的是如何利用這些“大數據”實現業務增長。毫無疑問,在hadoop上建立數據庫可以提供一種分析和直覺分析的新方法。除了實驗和poc之外,如今Hadoop被更多地考慮用于生產。隨著Hadoop被考慮用于實時生產場景,并且生產數據的主要部分通常是敏感的,或者受到許多控制措施的影響,在決定為任何企業安裝Hadoop之前,考慮Hadoop中的安全方面就變得非常重要。本文評估了Hadoop生態系統中的各種問題,以及市場上頂尖的大數據玩家對Hadoop生態系統的流行分布。
【關鍵詞】大數據;Hadoop;Hadoop安全工具
1引言
在今天,有的單位幾乎沒有獲得所需試驗數據的機會,因為要么不知道如何使用該技術,要么根本不夠成熟,以處理他們的大數據。大多數頂級組織都在尋找大數據框架,以幫助他們尋找新的機會。他們可以分析數據,在尋找潛在機會的競賽中領先。Hadoop策略基本上是從選擇正確的發行版開始的。Hadoop主要用于分析并行計算體系結構中的大規模數據倉庫。由于這些數據可以在公共場合免費獲得,開發人員最初從不關心安全問題。但正如我們所知,隨著Hadoop的發展,它的功能不再局限于最初的需求,隨著Hadoop上新技術的發展,它現在幾乎被應用于所有行業,從醫療、股票交易到機器人等,只要涉及計算密集型任務。由于其中一些作品涉及敏感數據,安全性成為一個大問題。本文擬提供一些有益的啟示,主要大數據服務提供商為解決這些安全問題而使用的問題和策略的說明。
2現有的數據公司簡述
在過去的幾年里,大數據市場已經出現了很多工具和提供商的參與。他們中的一些人用Hadoop插件提供他們的本地工具。其他人則提供了新的Hadoop平臺。在市場上數量眾多的大數據廠商中,排名前四位的廠商如下:
Cloudera公司是由雅虎、谷歌等頂級公司的專業人士于2008年創立的Cloudera是采用ApacheHadoop核心并圍繞其開發定制軟件的先驅。在用戶群方面,它仍然具有領先地位。盡管它在發行版中仍然使用apachehadoop作為核心,但它還有一個名為Cloudera管理套件的專有產品。該產品有助于自動化Hadoop的部署,并為管理集群提供GUI基礎。Hortonworks成立于2011年,并很快加入了Hadoop的主要分銷商集團。它為大數據提供了基于核心apachehadoop的開源數據平臺。Hortonworks是唯一一家發布ApacheHadoop的Hadoop供應商,沒有添加任何獨占組件。Hortonworks發行版HDP2.0可以直接從他們的網站上免費下載,安裝非常簡單。Hortonworks團隊負責Hadoop最近的許多新增功能,包括Yarn,它是basic MapReduce的增強版。
apachehadoop的開源版本有許多限制。大多數Hadoop發行商都試圖通過發行版來克服這些問題。所有的發行商都在核心開源Hadoop組件之上添加了自己的風格。MapR已經用自己的專有文件系統MapRFS替換了HDFS組件。MapRFS公司有助于將企業級功能添加到Hadoop中,實現更有效的數據管理和易用性。IBM為云端和本地的商業企業提供了Spark和Hadoop套裝。組織希望花更少的時間創建EnterpriseReadyHadoop基礎設施,花更多的時間獲得洞察力。IBM提供了一個完整的解決方案,包括Spark,可以快速方便地擴展分析。在本地、云上可用,并與當前使用的其他系統集成。
3大數據的保密性(安全)問題
對于任何Hadoop集群,任務都是保護整個應用程序集,而不是像簡單的關系數據庫那樣。所有為Hadoop提供靈活性、可伸縮性和高性能的特性都會帶來特定的安全挑戰。以下被認為是當今IT行業大數據的多個關鍵安全問題。
1、Hadoop的數據放置技術和多租戶問題Hadoop通常用于服務多個應用程序和“租戶”,每個應用程序和租戶可能來自同一家公司的不同組,也可能來自完全不同的公司。通常,一個租戶的數據不會與其他租戶共享,但考慮到Hadoop數據放置技術的性質,您必須實現安全控制以確保安全性和隱私性。Hadoop當前的數據放置策略不太適合或不太適合這種需要改變租戶數據放置方式的多租戶情況。為了滿足這些需求,應該探索Hadoop中不同的塊放置策略。2、對基于角色的數據訪問的控制對于大多數RDBMS和數據倉庫來說是至關重要的,Hadoop和它們沒有什么不同。RDBMS平臺使用角色、組、安全方案和其他一些功能來限制用戶對較小數據組的訪問。Hadoop中也應該提供類似類型的控制措施。3、節點間通信問題任何Hadoop集群中的節點之間的通信(跨不同的Hadoop發行版)在默認情況下是不安全的-它們使用TCP/IP上的未加密RPC。這樣就可以對傳輸中的數據進行檢查和篡改。
4解決方案
許多商業和開源工具可用于處理前面討論的大數據Hadoop的安全方面。一些最常用的工具是apachesentry apachesentry是Cloudera的開源工具之一。它是Hadoop的一個授權模塊,提供了為apt用戶和應用程序處理不同訪問級別所需的定義良好的RBAC。它支持RBAC、細粒度授權和多租戶管理。apacheknox apacheknox系統充當Hadoop中不同服務的身份驗證和訪問請求點。它為Hadoop提供了外圍級別的安全解決方案。另一個優點是它提供了不同級別的身份驗證和不同的令牌驗證場景。它還提供SSO解決方案,并允許將其他身份管理解決方案與集群集成。ApacheRhino ApacheRhino旨在為整個Hadoop生態系統中的數據提供整體安全解決方案。它提供了一個框架,這是加密編解碼器提供塊級加密的數據存儲在Hadoop。另外還提供了基于令牌的身份驗證和SSO解決方案。它支持不同的密鑰分配和管理,使得MR能夠根據需要對每個數據塊進行解密來執行程序。通過在單元級別啟用身份驗證和Hbase表的加密,可以增強Hbase的安全性,此外它提供了審計日志框架,便于審計跟蹤。因此在我們實際的工程應用中可以使用該方法來提高我們數據的安全性。
5結論
一般來說,行業存儲和處理大量敏感數據,這些數據受多個行業法規和治理控制的約束,例如銀行數據、醫療保健數據等。為了遵守這些法規,Hadoop發行版和Hadoop生態系統組件必須提供強大的能力,以防止對其的任何攻擊它存儲和處理的數據,并隨時采取必要措施確保適當的安全性。盡管Hadoop的安全環境變化很快,但所有Hadoop組件的變化率并不一致,這就是Hadoop生態系統中安全能力的程度可能不均衡的原因。因此,某些組件可能與比其他組件更強大的安全技術兼容。因此在實際的工程中是可以采用這種組件的形式來對我們所使用的數據進行處理。
參考文獻:
[1]張振宇,馮躍,孟兆博.高可用電站大數據平臺探索與實踐[J].電站系統工程,2021,37(03):73-74.
[2]姜宇澤,陳詩洋.數據安全技術發展現狀及挑戰解析[J].通信世界,2021(08):17-19.
作者簡介:
衛鑫,2001年出生,漢研究方向:大數據質量分析。
(作者單位:西南科技大學城市學院)