堵俊平
大數據的發展階段
大數據技術發展分為三個階段:
第一,起步階段。大數據的起步是在2003年左右,以Google的三篇大數據論文為標志,從號稱“大數據的三駕馬車”開始。一篇論文解決的是分布式存儲問題,一篇論文解決的是分布式計算問題,還有一篇論文解決的是分布式數據庫訪問的問題。Google三篇論文發表之后,2006年hadoop就橫空出世了,從而開啟了整個大數據時代。
大數據發展的前提,是要有海量的數據產生。在這個前提之下,人們對于數據處理的能力、數據分析的能力,有著與數據大規模增長相適應的需求,從而催生出新的技術。
第二,發展階段。Hadoop問世之后,以Hadoop為核心構建的大數據開源生態系統也生機勃勃。后面像hbase,一個開源的NoSQL,加上后面出來的一些基于Hadoop的SQL引擎,從而讓整個大數據走向了數倉的時代。
再后來出現了storm,它是引領流計算的重要產品,包括Spark Streaming,都是一脈相承的。后面到Hadoop 2.0也就是YARN時代,計算執行引擎跟資源管理進行了剝離,從而誕生了統一的資源調度平臺,調度不同大數據的應用,整個Hadoop或者大數據的生態圈在往前繼續的進化,出現了像Spark這種大數據內存計算非常優秀的引擎,它的開源也進一步推動了大數據技術快速發展。
第三,成熟階段。近兩年,大數據的重要發展期是Hadoop邁上了3.0后,開啟了大數據擁抱容器化、與云整合的過程。未來大數據跟AI會有更多樣的融合,因為整體的技術趨勢是往“從數據到智能”這個方向發展的。
AI與大數據的關系……p>