Thor Olavsrud 沈建苗
數據分析和相關的數據技術與社交媒體、移動和云計算一道已成為數字時代的幾大顛覆者。隨著許多公司從2017年開始從數據生成型企業轉向數據驅動型企業,數據和分析已成為許多企業的重心。2018年,這些技術需要開始實現價值。
多年來數據在企業界迅速積累。隨著數據源從互聯網轉移到移動端和機器,物聯網會進一步加快生成數據的速度。
實時流數據平臺提供商DataTorrent的首席執行官Guy Churchward說:“這迫切需要以一種經濟高效的方式來擴展數據管道。”
對于許多企業來說,由Apache Hadoop之類的技術作為支撐,解決方案就是創建數據湖――面向整個企業的數據管理平臺,用于以原生格式存儲企業的所有數據。數據湖有望消除信息孤島,因為它提供了單一數據存儲庫,整個企業可以將該存儲庫用于從業務分析到數據挖掘的各個方面。很多廠商號稱原始、無人管理的數據湖是無所不包的大數據萬靈藥。
雖然數據湖已被證明存儲海量數據很有效,可是從這些數據中獲取可付諸行動的洞察力卻很難。
Churchward說:“數據湖讓許多公司順利地度過了數據‘靜態和‘批處理時代。然而早在2015年,這種架構被過度使用的弊端開始顯露出來,現在數據湖成了實時數據分析的致命弱點。先放置數據再分析數據,這立刻使公司處于極大的劣勢。獲取洞察力,并盡快采取行動,然而依賴過時事件數據的公司無法看清情況、應采取的行動以及任何可能的即時補救措施。……