門 威,王 輝
(河南廣播電視大學 信息技術中心,河南 鄭州 450008)
大數據環境下基于MapReduce和并行數據庫的混合模式探究
門 威,王 輝
(河南廣播電視大學 信息技術中心,河南 鄭州 450008)
基于MapReduce編程模式的數據倉庫技術和并行數據庫技術是解決大數據分析問題的兩種重要途徑。MapReduce是一種基于并行運算的編程模型,其優點在于處理大規模非結構化、松散的數據集,但在性能,特別是連接操作的性能上存在很大的缺陷;并行數據庫是建立在集群計算環境和MPP的高性能數據庫,其優點是具有高效的結構化數據查詢處理能力,但其容錯能力和擴展能力薄弱。因此,兩者都不能成為大數據分析的理想解決方案。本文在綜合分析的基礎上,結合二者優點,探索基于MapReduce和并行數據庫的混合架構,并對多種架構方案進行詳細分析,最后對各研究方向進行分析、歸納和展望。
大數據分析;并行數據庫;MapReduce
在大數據分析過程中,需要處理PB級甚至更高級別的數據,查詢分析復雜、數據量大已成為其基本特點。數據處理能力的不足和日益增長的數據分析處理需求之間的矛盾需亟待解決。構建適合于大數據分析的數據倉庫架構是解決大數據分析問題的關鍵途徑之一。下面分別從大數據發展趨勢、數據倉庫面臨的問題及其特性需求三個方面進行論述。
(一)發展趨勢
隨著大數據存儲、分析技術的發展及其應用領域的不斷擴大,數據本身及應用、處理環境發生了一系列變化,這些變化主要表現在以下幾個方面。……