999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分布式數(shù)據(jù)庫的ROLAP數(shù)據(jù)自助分析系統(tǒng)的研究與應(yīng)用

2018-04-25 09:45:32張波
科技創(chuàng)新與應(yīng)用 2018年11期
關(guān)鍵詞:數(shù)據(jù)分析

張波

摘 要:文章通過對某保險公司的分布式數(shù)據(jù)庫架構(gòu)下數(shù)據(jù)自助分析平臺中的應(yīng)用方案進行研究與應(yīng)用,提出在自助分析系統(tǒng)中使用分布式MPP數(shù)據(jù)庫進行海量數(shù)據(jù)處理的思路,對開源分布式數(shù)據(jù)庫GreenPlum進行了重點分析,同時結(jié)合ROLAP自助分析系統(tǒng)的功能特點,給出系統(tǒng)部署的應(yīng)用建議。研究內(nèi)容對于分布式數(shù)據(jù)庫在大數(shù)據(jù)決策分析系統(tǒng)的落地具有一定的實用價值。

關(guān)鍵詞:分布式數(shù)據(jù)庫;BIG LAKE;ROLAP;數(shù)據(jù)分析

中圖分類號:TP311.1 文獻標志碼:A 文章編號:2095-2945(2018)11-0055-02

Abstract: Through the research and application of the data self-help analysis platform under the distributed database architecture of an insurance company, this paper puts forward the idea of using distributed MPP database for mass data processing in the self-help analysis system, analyzes the open source distributed database GreenPlum emphatically, and through the function characteristics of ROLAP self-help analysis system, the application suggestions of system deployment are given. The research content has certain practical value to the distributed database in big data decision analysis system landing.

Keywords: distributed database; BIG LAKE; ROLAP; data analysis

1 概述

近幾年,隨著移動互聯(lián)網(wǎng)的高速發(fā)展,大數(shù)據(jù)、云計算等新技術(shù)的不斷推進,保險公司面臨著海量的數(shù)據(jù)處理、復(fù)雜的數(shù)據(jù)結(jié)構(gòu)分析、精細化業(yè)務(wù)需求、平臺能力開放共享等多重壓力,所以需要先進的技術(shù),搭建公司全新的大數(shù)據(jù)處理平臺及自助分析系統(tǒng)。國內(nèi)外有一個非常火熱的詞匯“BIG LAKE”(數(shù)據(jù)湖泊),目的是不需要再對數(shù)據(jù)像以前那樣經(jīng)過定制,生成特定的業(yè)務(wù)報表,而是要保存原始數(shù)據(jù),什么時候想分析就從原始數(shù)據(jù)上直接處理。依托云計算分布式數(shù)據(jù)庫技術(shù),處理、整合海量數(shù)據(jù),實現(xiàn)原始清單粒度的ROLAP技術(shù)的自助分析系統(tǒng),將會極大提高數(shù)據(jù)挖掘的價值,為企業(yè)經(jīng)營提供決策、營銷、服務(wù)建議的支撐工作。

2 云計算下的分布式數(shù)據(jù)庫

2.1 SQL on Hadoop和MPP技術(shù)選型

數(shù)據(jù)倉庫是數(shù)據(jù)分析類系統(tǒng)的核心,傳統(tǒng)數(shù)倉一般采用完全共享的架構(gòu)部署,隨著存儲數(shù)據(jù)的增長,性能負載將急劇增加,導(dǎo)致存儲I/O瓶頸、系統(tǒng)應(yīng)用加載時間長等問題。作為IT的最新演進成果,大數(shù)據(jù)分布式數(shù)據(jù)庫技術(shù)已成為一系列可能改變未來生活和企業(yè)發(fā)展技術(shù)的基石,選型上有Hadoop(分布式系統(tǒng)基礎(chǔ)架構(gòu))、MPP(Massive Parallel Processing,海量并行處理結(jié)構(gòu))架構(gòu)兩種技術(shù)架構(gòu)。這兩種都可處理大規(guī)模數(shù)據(jù)的并行計算,共同之處在于:

(1)存儲數(shù)據(jù)分布在多個節(jié)點服務(wù)器上。

(2)支持橫向擴展來提高整個系統(tǒng)的計算能力和存儲容量。

(3)采用分布式并行計算框架。

(4)支持X86開放集群架構(gòu)。

但在數(shù)據(jù)存儲、計算方法、效率、功能上,也存在明顯差異:

(1)MPP按照關(guān)系數(shù)據(jù)庫行列表方式存儲數(shù)據(jù)(有模式),Hadoop按照文件切片方式分布式存儲(無模式)。

(2)數(shù)據(jù)分布機制不同,MPP采用Hash分布,計算節(jié)點和存儲緊密耦合,而Hadoop按照文件切塊后隨機分配,節(jié)點和數(shù)據(jù)無耦合。MPP采用SQL并行查詢計劃,Hadoop采用Mapreduce框架。

(3)MPP數(shù)據(jù)庫在計算并行度和算法上比Hadoop效率更高且靈活。在同樣的環(huán)境下測試對比中,Mapreduce對單表的計算尚可,但對于復(fù)雜查詢,如多表關(guān)聯(lián)等,性能很差。

(4)MPP數(shù)據(jù)庫采用SQL作為主要交互式語言,SQL語言簡單易學(xué),大幅簡化了數(shù)據(jù)的操作和交互過程。而對MapReduce編程明顯是困難的,這幾年SQL-on-HADOOP技術(shù)大量涌現(xiàn)出來,這些技術(shù)包括:Hive、Impala、SPARK SQL等,雖然易用上有所提高,但仍與MPP數(shù)據(jù)庫有較大差距。SQL-on-Hadoop大多不支持數(shù)據(jù)局部更新和刪除功能(update/delete),基本上都缺少索引和存儲過程等特征綜上,MPP在更靈活,適合于統(tǒng)計分析一類的業(yè)務(wù)場景,結(jié)合我公司的自助分析系統(tǒng)的應(yīng)用場景,選用開源的MPP軟件GreenPlum作為系統(tǒng)的分析引擎。

2.2 開源分布式數(shù)據(jù)庫GreenPlum

GreenPlum(簡稱:GP)數(shù)據(jù)庫也是關(guān)系型數(shù)據(jù)庫,是由數(shù)個獨立的數(shù)據(jù)庫服務(wù)組合的分布式邏輯數(shù)據(jù)庫,GP于2016年開源。GP的基本組件為Master節(jié)點、Segment節(jié)點以及它們之間的高速互聯(lián)網(wǎng)絡(luò)。Master節(jié)點是訪問入口,負責(zé)處理客戶端的連接和SQL命令入口,在Segment節(jié)點之間分配工作負載,整合Segment處理結(jié)果并將最終結(jié)果呈現(xiàn)給客戶端程序。Segment節(jié)點負責(zé)數(shù)據(jù)存儲和查詢,由Master生成執(zhí)行計劃,處理邏輯數(shù)據(jù),并將結(jié)果返回至Master,節(jié)點間可通過高速互聯(lián)網(wǎng)絡(luò)進行彼此的數(shù)據(jù)交互。

GP能夠提升大數(shù)據(jù)分析的處理能力,關(guān)鍵原因有兩點:一是采用MPP并行處理架構(gòu),使得對大數(shù)據(jù)量的處理工作可被分配至多個Segment并行執(zhí)行,發(fā)揮了并行計算的性能優(yōu)勢;二是采用完全不共享的數(shù)據(jù)庫體系,使得每個Segment都具有獨立使用的磁盤子系統(tǒng)及數(shù)據(jù)傳輸通道,數(shù)據(jù)存取的I/O能力強。

3 ROLAP自助分析系統(tǒng)的規(guī)劃與設(shè)計

OLAP技術(shù)一般分為ROLAP和MLAP兩種,ROLAP技術(shù)擴展性更好,可以在不影響模型的情況下無限擴展指標和維度,數(shù)據(jù)加工負擔(dān)小,適合快速迭代的數(shù)據(jù)分析場景特點。ROLAP自助分析是一種敏捷靈活的分析方法,簡化了用戶對多樣化信息的訪問,為數(shù)據(jù)分析和挖掘創(chuàng)造了良好的條件。

結(jié)合我公司保險大數(shù)據(jù)的業(yè)務(wù)場景需求,基于ROLAP的思想,可以將清單粒度的業(yè)務(wù)指標和維度數(shù)據(jù)放在分布式GP數(shù)據(jù)倉庫存儲,同時為用戶提供一個靈活定制的前臺功能,前臺采用B/S架構(gòu),展現(xiàn)層采用HTML+CSS+JS等語言開發(fā),服務(wù)器端以JAVA、SQL等語言處理業(yè)務(wù)邏輯及數(shù)據(jù)的抽取、清洗采用Mybatis技術(shù)框架,前后臺獨立開發(fā)。

用戶可以對單指標或多指標組合,系統(tǒng)隨之自動生成動態(tài)SQL邏輯,利用強大的分布式數(shù)據(jù)庫GP的并行查詢優(yōu)勢,快速在前端生成數(shù)據(jù)分析結(jié)果。在設(shè)計過程中,為達到最優(yōu)的效率以及靈活可擴展,我們采用獨創(chuàng)的一指標一事實表的數(shù)據(jù)存儲模型方式,對查詢接口方面做了大量優(yōu)化,更是引入Redis緩存數(shù)據(jù)庫,在數(shù)據(jù)分析效率方面也是表現(xiàn)極佳。圖2是自助取數(shù)分析的邏輯關(guān)系圖。

4 結(jié)束語

大數(shù)據(jù)時代,全球數(shù)據(jù)生產(chǎn)量在高速增長,數(shù)據(jù)將改變企業(yè)的傳統(tǒng)業(yè)務(wù)模式,對系統(tǒng)提出新的挑戰(zhàn)。傳統(tǒng)數(shù)據(jù)處理技術(shù)在原始清單粒度的數(shù)據(jù)分析應(yīng)用中出現(xiàn)了明顯的性能瓶頸,用戶無法靈活自主,快速的獲得想要的信息。而MPP數(shù)據(jù)庫具有很強的大規(guī)模并行數(shù)據(jù)分析處理能力,能夠解決數(shù)據(jù)量過大后系統(tǒng)處理能力低效、數(shù)據(jù)加載耗時較長等問題,因此基于大數(shù)據(jù)分布式數(shù)據(jù)庫技術(shù)實現(xiàn)ROLAP自助分析,將使我們的業(yè)務(wù)人員對數(shù)據(jù)倉庫中的指標和維度進行提取和拖拽分析,3-5分鐘便可以滿足任務(wù)數(shù)據(jù)需求,快速、靈活、敏捷地發(fā)現(xiàn)以前無法得到的分析方向,為業(yè)務(wù)人員開啟了數(shù)據(jù)世界的自由掘?qū)氈茫嬲龑崿F(xiàn)大數(shù)據(jù)時代業(yè)務(wù)數(shù)據(jù)分析的新模式,最終讓公司在市場競爭中更具活力。

參考文獻:

[1]魏進武,靳淑嫻,張基恒.大數(shù)據(jù)關(guān)鍵技術(shù)及運營商落地建議[J].郵電設(shè)計技術(shù),2015.

[2]劉瑋.企業(yè)的變革思維——大數(shù)據(jù)時代的來臨[J].辦公自動化,2014.

[3]何清,莊福振.基于云計算的大數(shù)據(jù)挖掘平臺[J].中興通訊技術(shù),2013.

[4]IT架構(gòu)設(shè)計研究組.大數(shù)據(jù)時代的IT架構(gòu)設(shè)計[M].北京:電子工業(yè)出版社,2014.

[5]薩師煊,王珊.數(shù)據(jù)庫系統(tǒng)概論[M].北京:高等教育出版社,2010.

[6]Hive DB. http://www.hivedb.org[EB/OL].

[7]邵佩英.分布式數(shù)據(jù)庫系統(tǒng)及其應(yīng)用[M].科學(xué)出版社,2005.

猜你喜歡
數(shù)據(jù)分析
電子物證檢驗的數(shù)據(jù)分析與信息應(yīng)用研究
基于matlab曲線擬合的數(shù)據(jù)預(yù)測分析
商情(2016年40期)2016-11-28 11:28:07
分眾媒體趨勢下場景營銷的商業(yè)前景
商(2016年32期)2016-11-24 17:39:41
佛山某給水管線控制測量探討
科技資訊(2016年18期)2016-11-15 18:05:53
SPSS在環(huán)境地球化學(xué)中的應(yīng)用
考試周刊(2016年84期)2016-11-11 23:57:34
大數(shù)據(jù)時代高校數(shù)據(jù)管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
我校如何利用體育大課間活動解決男生引體向上這個薄弱環(huán)節(jié)
體育時空(2016年8期)2016-10-25 18:02:39
Excel電子表格在財務(wù)日常工作中的應(yīng)用
淺析大數(shù)據(jù)時代背景下的市場營銷策略
新常態(tài)下集團公司內(nèi)部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
主站蜘蛛池模板: 亚洲国产看片基地久久1024| 色哟哟精品无码网站在线播放视频| 久久99这里精品8国产| 亚洲欧美一区在线| 亚洲天堂日本| 国产制服丝袜91在线| 91精品福利自产拍在线观看| 2021天堂在线亚洲精品专区| 国产又粗又猛又爽视频| www.av男人.com| 久久亚洲国产视频| 亚洲第一区精品日韩在线播放| 91久久青青草原精品国产| 久久久久亚洲精品成人网 | 99视频在线精品免费观看6| 精品国产香蕉伊思人在线| 日本高清在线看免费观看| 19国产精品麻豆免费观看| 中文无码伦av中文字幕| 国产成人无码综合亚洲日韩不卡| 天天视频在线91频| 日韩免费毛片视频| 无码一区中文字幕| 亚洲欧美不卡视频| 亚州AV秘 一区二区三区| 精品国产Av电影无码久久久| 亚洲va在线观看| 91热爆在线| 日韩国产精品无码一区二区三区| 国产欧美性爱网| 国产自在线播放| 久久人体视频| 久久永久视频| 香蕉在线视频网站| 色哟哟国产成人精品| 干中文字幕| 婷婷五月在线| 国产成人免费高清AⅤ| 少妇露出福利视频| 欧美专区在线观看| 91无码人妻精品一区| 亚洲精品视频免费看| 九九九精品成人免费视频7| 久久中文字幕av不卡一区二区| 国产chinese男男gay视频网| 国产精品网址在线观看你懂的| 日韩精品高清自在线| 91九色最新地址| 国产精品嫩草影院视频| 91最新精品视频发布页| 日韩一区二区三免费高清| 精品一区二区久久久久网站| 亚洲精品第五页| 色亚洲激情综合精品无码视频| 92精品国产自产在线观看| 欧美日本视频在线观看| 白浆视频在线观看| 久久人妻系列无码一区| 亚洲国产成人在线| 亚洲大尺码专区影院| 九九香蕉视频| 99久久国产综合精品2023| 大陆精大陆国产国语精品1024 | 欧美劲爆第一页| 国产亚洲欧美在线人成aaaa| 中国一级特黄大片在线观看| 国产青榴视频在线观看网站| 国产小视频a在线观看| 色综合久久久久8天国| 色婷婷亚洲十月十月色天| 亚洲一本大道在线| 国产欧美日韩va另类在线播放| 九九视频在线免费观看| 国产97视频在线观看| 国产精品冒白浆免费视频| 亚洲无码精品在线播放 | 手机永久AV在线播放| 免费国产一级 片内射老| 久久精品人妻中文视频| 亚洲AV无码乱码在线观看代蜜桃| 久久久受www免费人成| 欧美a在线|