存儲大量數據對企業來說一直是個挑戰,相比之下,如何以易于訪問和有效的方式管理數據更是嚴峻的挑戰,“數據湖”就是一個有效的解決方案。
數據湖和大數據技術,如Hadoop、HDFS、Hive和HBase,這些在當下是非常流行的解決方案,特別是對于那些需要用更好的方式來存儲和處理大量數據和分析的組織來說。由于它們能夠以各種形式從各種應用程序提供原始數據,所以通常比企業數據倉庫的成本更低。采用這些技術的目的是,組織可以輕松地搜索他們需要的信息,無論來源或格式,幫助他們在日常的業務運作中更有效地分析利用。
除了以上優勢,數據湖還為企業提供了一個能力——將數據貨幣化。由于太多企業在沒有考慮長期目標的情況下構建數據湖,使得他們缺少將數據湖轉化為可擴展的、彈性的數據貨幣化平臺的能力,導致他們在數據湖中錯失了機遇。
因此,下面有五個常見的企業實施錯誤,可以幫助企業更好地部署數據湖。
太多Hadoop。當Hadoop發行版或群集在企業中大量應用時,這時存儲的也許只是大量重復數據。許多企業一點一點地按部門部署Hadoop,造成數據孤島,阻礙大數據分析,使得員工無法利用所有數據進行全面分析。這實質上只是重復了數據倉庫、集市的問題。
太多的管理。一些組織對于數據湖的管理設定了太多限制,例如數據湖的查看、訪問和處理權限,沒有權限的人不能夠訪問數據庫,導致數據無用。
缺乏有效的管理。太多的管理會適得其反,但缺乏有效的管理也不行。如果數據湖沒有被有效管理起來,那么數據湖會迅速被大量低質量的數據所淹沒,導致數據被“污染”或“篡改”,最終使得業務不再信任這些數據,使整個數據湖再次變得無用。
非彈性架構。組織錯誤最常見的是用非彈性架構來構建他們的數據湖。由于數據存儲成本很高,組織往往一次一個服務器緩慢而有機地擴展其大數據環境,通常從基礎服務器開始,最終添加高性能服務器以跟上業務需求。隨著時間的推移,數據存儲的增長超出了計算需求的增長,維持如此龐大的物理環境不僅繁瑣,成本也是問題。
“寵物計劃”。IT團隊經常把數據湖的實施視為“寵物計劃”,認為如果建立數據湖,就會推動業務團隊去使用它。 IT團隊希望構建數據湖,并對IT數據執行分析,以證明他們可以代表業務執行分析。但是從業務的角度看,IT使用案例是一個出乎意料的低價值工作,沒有為業務利益相關者建立可信度。
創建協同價值創造平臺
利用數據湖進行數據貨幣化的障礙遠大于實施數據湖的挑戰。但企業如果不了解各種機遇,企業就很難看到更大的局面,并為其數據湖投入足夠的資源。
對于抓住機遇,成功克服這些障礙的組織,“數據湖未來”即將到來。 這個未來是專為那些完全接受數據和分析的特性的人所保留的,并且理解數字資產的力量是永不枯竭的,并且可以以接近于零的邊際成本在無數用例上使用。 他們將數據湖看作是“協同價值創造平臺”,不僅將推動新的效率水平,而且將推動新的數據貨幣化機會。
與任何新興技術一樣,完全進入數據湖還需要時間。endprint