摘 要:隨著科學技術的進步,計算機也得到了高速發展。但是,現階段由于大數據的規模影響,導致計算機對數據的存儲、分析以及管理還存在很多問題。分布式文件系統可以有效的解決計算機的這一問題,尤其是在大數據分析模式下,分布式MOLAP技術的應用,有效的降低了計算機在進行數據存儲和分析階段受到大數據規模的影響。本文將重點基于大數據分析的前提下,對分布式MOLAP技術進行分析,為相關工作提供參考。
關鍵詞:大數據分析;分布式MOLAP技術;分析
中圖分類號:TP311.1 文獻標識碼:A 文章編號:1004-7344(2018)17-0293-02
1 引 言
計算機技術、互聯網技術以及大數據分析都是近年來科學技術發展的產物。但是,隨著時代的進步與發展,數據信息呈現爆炸式的增長,給數據的處理和分析帶來了極大的挑戰。如果處理不當,會對相關企業造成巨大的經濟損失。分布式MOLAP技術能夠對多維度的數據結構實現信息分類分布,可以有效的處理大數據的規模化的影響,在大數據分析領域應用十分廣泛。因此,分析研究分布式MOLAP技術具有重要的現實意義。
2 大數據分析的分布式MOLAP技術的重要性
分布式MOLAP技術的實現,需要通過程序編輯模型MapReduceh,因此MOLAP技術又被稱作DOLAP。雖然大數據分析的分布式MOLAP技術還存在很多的問題,在實際的使用階段,還存在很多制約因素導致其結果產生偏差,但該項技術在大數據分析當中具有以下幾點重要作用:
(1)確保了大數據分析的準確性:由于大數據的內容十分廣泛,包含了很多領域的數據信息,傳統的數據處理工作繁重復雜,很容易出現差錯,導致大數據分析的結果存在一定的誤差。采用分布式MOLAP技術,通過將大數據進行分類,可以有效的提升數據處理的工作效率,減少相關數據處理的工作量,確保了大數據分析的準確性。
(2)降低了大數據分析的難度:通過分布式MOLAP技術,可以實現對大數據的分類簡化,將一些雜亂無用的數據信息進行剔除,降低了大數據分析的難度。
3 大數據分析的分布式MOLAP技術模型建立
通過建立多維度的數據模型,可以實現大數據分析的分布式MOLAP技術。該項技術的主要工作內容就是維和事實。利用這兩方面的相互結合的特點,成為了大數據分析的理論基礎和便利條件。因此,分布式MOLAP的核心就是確定維和事實之間的映射關系。
傳統的ROLAP技術,通過關系數據庫以及星型模型,實現了對維和事實的區分,達到了將二者分開儲存的目的,最后借助外鍵,對維和事實的映射關系進行確定。隨著科學技術的發展,數據的存儲量越來越龐大,大數據更加的多樣化和復雜化,采用傳統的ROLAP技術,工作效率很低,無法滿足社會相關部門的對大數據分析的需求。分布式MOLAP技術的出現,解決了這一問題,因此在大數據分析中應用日益廣泛。在進行分布式MOLAP數據模型建立時,應注意以下要點:
3.1 維信息
通過建立多維度的數據模型,對數據庫中的數據進行簡單的分類,維將所有的數據項分類至一個無重疊的數據結構中,并且提供數據項的篩選、組織和標識方法。因此,在建立分布式MOLAP數據模型時,對維信息的內容和數據進行簡化,應遵循以下約束條件:
(1)維有且只有1個維層次;
(2)維是由多個維級別組成的集合。可以記作{a1,a2,…am},設ai(i∈[1,m])為任意一個維級別,則,i僅包含1個維屬性,且包含ni個維值;
(3)維可以被當作是各維級別的屬性取值,所組成的屬性結構。處于同一級別的節點存在相同數量的子節點。
3.2 度 量
度量是一個獨立變量,它是分布式MOLAP技術分析的參考維值分析對象。度量所參考的是指維當中,最低級別的維值。
3.3 單元格
單元格,是由不同的度量組成的,且這些度量都是以相同的維值作為主要的參考對象。
3.4 實例分析
以廣東省某運營商網絡的通話記錄為例,可以根據通話記錄的特點,建立以下維度的設置:短信類型、品牌維度、城市維度、漫游標志維度、通話類型維度、時間維度等。根據通話的長度以及收費情況,作為分布式MOLAP的度量。
(1)短信維度的分級設置:普通短信、短信批發、網站短信、彩信等四個維度;
(2)品牌維度的分級設置:根據運營商的套餐品牌進行劃分,包含大概23個品牌維度;
(3)城市維度的分級設置:按照廣東省的不同城市進行劃分,包含廣州、深圳、珠海等22個城市維度;
(4)漫游標志維度的分級設置:根據客戶通話時的漫游標志,包含不漫游、省內漫游等7個漫游標志維度;
(5)通話類型維度的分級設置:根據客戶通話的類型進行分級,包含省外長途、省內長途、國際長途等9個通話類型維度;
(6)時間維度的分級設置:按照小時進行時間維度的分級設置。
4 大數據分析的分布式MOLAP技術維編碼的算法及數據的存儲
4.1 維編碼的算法
一般情況下,維編碼的算法具有兩種表現形式:十進制和二進制。
(1)二進制:又稱為位圖編碼,它利用不同編碼的拼接,實現了對維級別信息的概括,對維的遍閱則通過位置的移動來實現,但此種算法相比較十進制,還存在計算不詳細的缺陷;
(2)十進制:采用這種算法,通過對每一個維級別的維值進行編碼,數據編碼較為詳細,但是無法實現編碼和維值之間的映射。一般情況下,為了避免細數,降低錯誤產生的幾率,分布式MOLAP技術都采用這種算法。
例如:如果a是維信息d的一個維級別,采用十進制進行編碼方法如下:
Input:Dimension d:A targel dimension;
Function:Dimension Coding;
1.FOR i=1 TO |a(d)|;
2.FOR j=0 TO |md(ai)|-1;
3.Dimension value of V■■∈md(ai)
4.V■■.code=j;
5.END FOR
6.END FOR
4.2 數據的存儲
分布式MOLAP技術,在進行數據存儲工作時,需要大量的存儲空間。一旦數據立方體(如圖1)存在多個維值,很容易造成存儲空間不足的情況,造成后續的數據無法進行正常的存儲。在此背景下,DOLAP技術的應用,借助計算得到的“多維組數”,不需要進行數據的存儲工作,同時也降低了對數據存儲空間的需求。此外,DOLAP技術還能夠簡化維,確保同一級別的維在編碼方便處于一致裝填。因此,在進行存儲時,只需要對相應級別的維信息進行存儲,也對存儲空間的要求較低。
5 結束語
綜上所述,隨著科學技術的發展,人們對數據的需求越來越高,大數據已經成為人們日常生活必不可分的一部分。現階段,龐大的數據量導致傳統的技術手段已經無法滿足時代的發展。分布式MOLAP技術的應用,滿足了人們對大數據分析的需求。因此,相關工作者應當深入研究分布式MOLAP技術,掌握并合理運用這項技術,推動大數據分析的進步與發展。
參考文獻
[1]宋 杰,郭朝鵬,王 智,等.大數據分析的分布式MOLAP技術[J].軟件學報,2014,25(4):731~752.
[2]楊明紅,楊振華.分布式MOLAP技術在大數據分析的分析[J].電腦迷,2017(2).
[3]劉 磊.大數據分析的分布式MOLAP技術要點[J].電腦知識與技術,2018(1).
[4]張少榮.基于大數據分析的分布式MOLAP技術[J].數字通信世界,2016(11).
收稿日期:2018-5-11