999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于內存計算技術的高性能數據中心研究

2017-05-31 08:40:32蔡穎嘉沈松鄭俊華
軟件導刊 2017年5期
關鍵詞:大數據

蔡穎嘉 沈松 鄭俊華

摘要摘要:大數據時代數據量劇增,信息增長速度超乎想象,成為影響數據中心性能的關鍵因素。如何在海量數據處理中保持良好性能是一個極具挑戰性的問題。為解決海量數據的讀取和統計問題,開展了高性能數據中心實現技術研究。分析了當前IT技術發展趨勢,通過對內存計算技術和數據建模技術研究,采用內存計算技術和數據建模技術構建新型的數據中心,實現了數據中心性能的大幅提升。

關鍵詞關鍵詞:高性能數據中心;內存計算;數據建模;數據倉庫;大數據

DOIDOI:10.11907/rjdk.162794

中圖分類號:TP301

文獻標識碼:A文章編號文章編號:16727800(2017)005000605

1內存計算技術特點

內存計算技術是將大量的數據直接裝載到內存中進行計算和處理。內存計算技術大大減少了從硬盤讀寫數據的時間,消除CPU和主內存的帶寬瓶頸,計算速度得到大幅提升。內存計算技術融合了硬件與軟件技術創新。硬件創新包括具有多核架構和以TB計的內存服務器,可實現大規模并行擴展。軟件創新包括內存數據庫,為最大限度發揮內存計算技術潛力而專門設計了行、列存儲。并行處理在數據庫層進行,而不是在通常的客戶端-服務器架構中的應用程序層。使用內存計算的數據庫,在理想狀態下可使數據處理速度提高1 000倍以上[1]。

采用內存計算技術的數據庫系統,具有傳統數據庫不可比擬的優勢:基于大容量內存的高效數據讀取和處理,行存儲和列存儲的混合模式同時支持OLTP和OLAP,充分利用硬件并行計算技術建立數據的并行處理機制,高效的數據壓縮可以優化內存利用,虛擬建模減少數據冗余,高效的動態聚合能夠快速計算和匯總數據,能夠在數據庫層面進行數據密集型運算等[2]。

目前內存數據庫在業界居于領先地位的產品是SAP公司的HANA,本文在高性能數據中心實現技術的研究中采用SAP HANA作為技術平臺。

2數據中心平臺性能提升

數據中心平臺的核心是數據庫系統,采用內存數據庫搭建數據中心平臺,能夠借助內存計算技術的并行處理、內存技術、壓縮(去重)技術等解決空間問題,大幅提高數據中心平臺性能。

2.1系統架構

基于內存計算的數據中心核心是SAP HANA內存數據庫。如圖1所示是一個三節點的可伸縮HANA系統架構,主節點服務器A是一個完整的HANA系統,由5個服務組件構成,與單節點的HANA系統是一樣的。

Name Server是名字服務器,相當于整個HANA數據庫系統環境中的“通信員”,通過名字服務器可以知道當前HANA服務器的部署情況、數據在節點的分布情況以及節點的運行狀態。

Index Server是索引服務器,是HANA的核心組件,承擔內存管理、事務管理、元數據管理器及權限認證、多版本并發控制等眾多管理工作。

Pre-processor Server是預處理服務器。由于HANA加入了對文本數據的特殊處理,因此需要預處理服務器分析文本數據和提取信息用于優化文本搜索功能。

Statistics Server是匯總統計服務器,負責收集所有數據庫組件運行的狀態、執行效率和資源的消耗狀態等信息,同時還監控HANA Studio的訪問,并返回不同的提示信息給登錄用戶。

XS Server是一個擴展應用服務器,可以將持久層的數據模型封裝成HTTP方式提供給外部使用,它還具有對這些發布出去的服務進行搜索的功能,并且內置一個應用服務器[3]。

2.2內存計算性能提升關鍵技術

2.2.1基于大容量內存的高效數據讀取和處理

傳統數據庫所依賴的磁盤讀取數據速度是毫秒級,而從內存讀取數據的速度是納秒級,這使基于內存的數據讀取速度比基于磁盤的數據讀取速度要快100萬倍。內存數據庫能簡單地將數據從磁盤移到內存,它利用了創新的內存技術來最大限度發揮多核多CPU系統架構特性。傳統內存計算技術下所有的CPU內核都通過同一個前端總線來訪問內存,在多核多CPU架構下會出現數據鏈路阻塞。為解決這些問題,出現了快速通道互連(QPI)技術。圖2所示為一個多核多CPU架構,每個CPU集成了多個QPI通道(圖2中的①~④),用于點對點連接I/O控制器和其它CPU,實現快速通訊。每個CPU還配置了對應的本地內存,可通過內嵌的內存控制器直接訪問。這種內存訪問方式稱為NUMA(非一致性內存訪問)。

內存數據庫專門針對多核架構設計了并行化的數據處理,如HANA數據庫底層代碼廣泛使用了優化并行處理的SIMD(單指令多數據流),如SSE3和SSE4等指令,使CPU盡量去訪問和計算本地內存數據,而不是從其它CPU的本地內存中讀取數據,從而更好地發揮了NUMA和QPI的優勢[3]。

2.2.2行存儲和列存儲混合模式

行存儲適合于OLTP交易系統使用,而列存儲適合為OLAP分析系統提供支持。傳統數據庫是按照行方式存儲數據的,而內存數據庫如HANA 既支持行存儲也支持列存儲,因此可對OLTP和OLAP同時提供高效支持。通常HANA的行存儲用來存放和更新系統表,以及用于數據庫的元數據管理和應用服務器的內部數據管理,而列存儲用來保存業務數據信息,兩者各司其職。

圖3展示了一個數據庫表,表中存儲了商品、價格和貨幣單位3個列。在行存儲模式下,用戶只需要訪問價格,讀取數據要掃描所有行的所有列,順序掃描整個數據存儲區域,這將耗費大量時間。而在列存儲模式下,價格信息都存儲在臨近的內存地址,緩存的存儲塊如果包含了該地址的5個整型數的長度字節,其它數據則基本不用讀取,讀取速度大大提高。

由此可見,使用列式存儲技術,相鄰內存空間存儲的是同一個列的數據值,可只讀取數據庫表中所需的列;使內存控制器高速緩存的缺失次數最小化,提高了CPU緩存的命中率;能夠高效利用CPU緩存,如數據檢索和聚合都可在一個連續的內存地址空間完成;能夠利用同列數據的重復性或相似性來提高數據的壓縮效率。列式存儲在數據查詢分析、統計運算方面效率非常高。

2.2.3高效并行處理機制

并行處理目的是為了最大化地利用所有的計算資源,達到負載均衡,進而支持更多的并發訪問來提升系統整體性能。

基于多核多CPU架構的內存數據庫使并行處理數據變得相對簡單,因為內存數據庫不但可以像傳統數據庫的表分區那樣按行作水平分區,還可以按列作垂直分區,這意味著不同行和不同列的數據都可以輕松進行并行處理。如圖4所示,“銷售數量”這一列的數據按垂直分區分布到了服務器A的CPU內核A來處理;而對于“折扣”這一列,可以按水平分區將大于等于0.90的數據分布給服務器A的CPU內核C,其它分布給服務器B的CPU內核D處理,這種并行處理對開發人員來說是透明的。

3利用融合建模技術提高數據模型性能

數據建模是數據中心建設的關鍵,建模技術直接影響數據的處理性能。基于內存計算技術的數據中心平臺提供了更多更高效的建模方式,有助于提高數據處理能力。

3.1數據中心數據架構

一個完整的企業數據中心數據架構包括持續數據加載層、企業數據倉庫層、架構式數據庫層、語義層和應用層[4],如圖5所示。

(1)持續數據加載層PSA(Persistent Staging Area)用于存儲源系統準確、詳細的業務數據,相當于源系統數據的一個副本。這些數據通過清洗轉換,加載到企業數據倉庫層,這些數據還可為運營報告和數據挖掘提供比數據倉庫層更細顆粒度的數據支持[5]。

(2)企業數據倉庫層是將數據按照數據規范和技術規范統一化、標準化,按主題分門別類重新存放,數據覆蓋整個企業的范圍,具有集成、準確和完整特征,可支持企業運營決策和數據挖掘。企業數據倉庫層通常以關系數據庫作為平臺,本文研究中采用SAP HANA。

(3)架構式數據庫層是將數據按照維度和業務數據的度量構建成數據立方體。數據立方體是一個可從多個角度探索和分析數據的數據結構,是支撐商務智能分析的主要數據模型。架構式數據庫層以OLAP為平臺,本文采用的是SAP BW。

(4)語義層面向業務人員,它用直白的業務術語將數據立方體、關系數據庫的庫表甚至XML和Web Service數據展現出來,使復雜的數據源有統一的訪問方式和易于業務理解的展現方式,為業務人員提供自助性訪問和分析數據的能力。本文語義層采用SAP Universe。

(5)應用層主要是BI前端展現工具以及基于這些工具開發的業務應用。本文應用層采用SAP BO商務智能軟件。

數據分析模型構建是企業數據中心建設最為核心的工作。傳統的方法主要是在架構式數據庫層用數據立方體來構建數據分析模型。隨著內存數據庫的出現,數據模型的構建方式也有了新的改變。內存數據庫的技術特性使其既可作為OLTP使用,也可作為OLAP使用。基于內存數據庫構建的數據倉庫層,可同時用于構建數據分析模型,帶來全新的技術優勢和用戶體驗。

3.2兩種數據建模方式

3.2.1基于數據立方體的建模方式

數據立方體是架構式數據庫層的數據模型,組成的要素是維度和業務數據的度量。以商品銷售為例,將時間、客戶、商品作為維度,以銷售數量、銷售價格和銷售金額作為度量,構建一個商品銷售分析的立方體數據模型。

SAP BW是一個架構式數據庫平臺,如圖6所示。它除了支持通常的數據模型功能外,還具有以下特性:

(1)數據立方體可通過語義層的Universe映射成面向業務模型。Universe是SAP BO的核心專利技術,隱蔽了基本數據源的復雜性,用戶可通過業務語言來實現數據的表達,是業務人員自主創建數據分析應用的基礎[5]。

(2)數據立方體除支持標準的MDX訪問外,還提供了SAP自有的Query訪問。Query是SAP的一項簡單報表工具,可通過圖形化界面的拖拉操作生成查詢。Query的數據源不僅支持關系數據庫庫表,還支持數據立方體。Query生成的查詢實際就是數據源的一個帶查詢條件的數據子集,這個數據子集既可提供給普通的查詢和報表使用,也可提供給SAP BI工具作數據分析使用[6]。

(3)數據立方體是基于關系型數據庫建立的,每個立方體在關系數據庫有對應的維度表和事實表,這些維度表和事實表對用戶開放,SQL可直接訪問,為快速響應查詢提供了一條直接有效的途徑。

3.2.2基于內存數據庫的建模方式

內存數據庫HANA提供了基于列存儲的虛擬模型來支持數據建模,能在企業數據倉庫層實現類似數據立方體的數據模型。數據立方體通常將數據倉庫的細顆粒度數據按維度聚合,生成的結果集保存在數據模型中。而虛擬模型與數據立方體的本質區別在于它只是HANA的列視圖,無需保存數據。只有當發出查詢請求時,才從數據庫表的細顆粒度數據中進行聚合計算,實時生成計算結果集。由于內存數據庫的性能優勢,這種計算能夠瞬時完成,避免在數據模型中保存冗余數據。HANA動態聚合如圖7所示[3]。

HANA工作臺提供了圖形化的建模工具。雖然建模結果就是生成列視圖,但HANA仍然提供了多個不同的建模對象,用于實現不同復雜度的分析需求。包括屬性視圖用于建立維度,分析視圖用于建立度量,分析權限提供安全控制,計算視圖可以使用比較復雜的SQL進行數據處理,或將不同的數據模型合并成一個新的數據模型。

虛擬數據模型架構如圖8所示,特點如下:

(1)虛擬模型與數據立方體一樣,可以使用MDX直接訪問,這是多維數據分析的標準方式。

(2)虛擬模型可通過語義層訪問。語義層除了使用Universe外,還可使用Information Space(信息空間),將虛擬模型映射成面向業務的模型。信息空間是SAP另一種語義層技術,它是面向分析主題的信息集合,可對虛擬模型的多維數據集進行封裝過濾,與分析主題相關的內容才能使用[3]。

(3)虛擬模型可以映射為BW的數據立方體,除支持標準的MDX訪問外,還可將虛擬模型映射到BW Virtual Provider,通過SAP自有的Query訪問。

(4)虛擬模型是HANA的列視圖,其數據存儲在相應的數據庫表中,這些數據庫表可由SQL直接訪問。但由于虛擬模型并不存儲聚合計算結果,因此這種訪問方式意義不大,僅僅為不熟悉MDX的用戶提供了另一種選擇。

3.3融合建模

以上兩種建模方式,各有其優缺點和適用性,下面以BW和HANA為實現平臺進行分析比較。

3.3.1基于數據立方體的建模方式

BW建模優點:①為數據建模提供支持。例如提供了現成的數據模型可以激活即用,提供現成的數據對象便于進行數據分析,提供會計年度和會計期間的時間特性支持財務數據分析,能定義依賴時間的維度層次結構來支持隨時間改變的屬性和特性;②匯總和聚合的結果保存在數據模型中,在數據分析時不需要大量計算,這種以空間換時間的方式可以獲得數據分析性能的提高;③數據模型提供了有效的數據質量保障機制,在數據加載到模型時會進行嚴格審查,從而保證模型中數據的規范性和準確性。

BW建模缺點:①數據建模處在架構數據庫層,模型的數據存儲在企業數據倉庫層的關系數據庫上,這種跨兩個層次的結構降低了數據模型的性能;②數據立方體模型存儲空間是幾何級數增長的,不適用于分析業務的明細數據,因為這些數據的數量本身就很大,加載到模型后變得更加龐大,往往導致訪問性能急劇下降;③模型做聚合計算時不能提供數據服務,所以需要安排專門的時間窗口來處理。

3.3.2基于內存數據庫的建模方式

HANA建模優點:①模型和數據存儲都處于企業數據倉庫層,可發揮內存數據庫超強的計算能力,同時也利用了HANA中各類優化器和引擎提供的支持,性能優異;②數據模型不會另外存儲數據,不會出現存儲空間的暴增和訪問性能的急劇下降;③聚合值動態實時計算,即使業務數據發生更新,聚合值也能與更新數據始終保持一致,不需要為數據模型的聚合計算安排專門的時間窗口。

HANA建模缺點:①用于建模的數據沒有BW豐富,處理與時間相關的屬性和特征較麻煩;②支持這種模型的BI軟件相對較少。

BW on HANA是BW遷移到HANA上的產品,其HANA架構已經融合了BW的許多功能,例如數據建模、數據管理和分析/計劃引擎等,如圖9所示。它同時支持上述兩種建模方式,帶來了一種新的建模思路,就是將兩種建模方式融合起來,混合使用,可將其稱為融合建模方式。

(1) 建模原則。①為提升數據分析性能,應優先選擇內存數據庫建模,尤其是需要大量業務明細數據的分析場合;②需要用到諸如與時間相關的屬性和特性的應用,應采用BW的數據立方體建模;③對于僅支持數據立方體建模的BI軟件應用,應采用BW的數據立方體建模。

(2)兩種模型數據統一加工。BW on HANA繼承了BW的數據加工方式。原始數據首先通過ETL工具抽取到PSA,經過加工進入到企業數據倉庫層。這些數據是數據立方體建模和內存數據庫建模的基礎數據,基于統一的數據加工過程生成。在這個基礎上,BW通過數據傳輸進程和轉換,將數據倉庫的數據加工并加載到數據立方體,HANA則是將數據倉庫的數據通過列視圖映射到虛擬模型。這個統一的數據加工過程保證了兩種建模方式的數據一致性。

(3) 兩種模型數據的統一訪問。數據立方體和虛擬模型都支持MDX和Query的訪問方式,需要將兩種模型數據混合使用時,可以通過在語義層建立Universe,將兩種模型數據整合到一個語義模型里,實現數據的統一訪問,如圖10所示。

4性能測試結果

通過內存計算技術、數據建模技術和應用優化技術,可以實現數據中心性能提升。通過性能測試來檢驗效果,從平臺性能和應用性能兩個層次進行性能測試。

4.1平臺性能測試

數據中心平臺性能測試采用TPC-H測試規范,在10G測試數據上運行TPC-H的標準Select語句,得出表1的測試記錄,經過計算,得出此次HANA測試的最終性能分數QphH@10G為26842.03。

根據TPC官網發布的資料,將IBM DB2、MS SQL Server在性能相近的硬件平臺上的性能測試與HANA的測試結果進行對比(見表2),可以明顯看到HANA的性能優勢。

4.2應用性能測試

應用性能測試通過測試用例進行,模擬200個用戶在線訪問,從系統中選取多個復雜、中等、簡單等級的查詢頁面進行測試。從結果可以看到,最慢的頁面加載時間在5秒之內,測試結果見表3。

查詢復雜度標準為:簡單指查詢1~3個數據模型或數據庫表;中等指同時查詢3~8個數據模型或數據庫表;復雜指同時查詢8個以上數據模型或數據庫表。

5結語

本文基于內存計算技術的高性能數據中心研究,在一定程度上解決了海量數據造成的數據分析性能下降、業務決策支撐手段不足的問題,為實現有效的數據集成和信息共享、提高企業管理和生產經營效率具現實意義。當前,大數據處理技術日漸成熟,如何進一步利用內存計算高性能技術,通過大數據分析幫助業務部門快速解讀數據,通過大數據挖掘為業務決策提供依據,仍將是下一步需要研究的熱點。

參考文獻參考文獻:

[1]趙剛.大數據技術與應用實踐指南[M].北京:電子工業出版社,2014.

[2]尹東升,陳磊,周斌.跟我學SAP HANA[M].北京:清華大學出版社,2014.

[3]劉剛,舒戈.SAP HANA實戰[M].北京:機械工業出版社,2014.

[4]SAP BI——建模與實施[Z].培訓教材.

[5]CINDI HOWSON,ELIZABETH NEWBOULD.SAP business objects BI 4.0完全參考手冊[M].第3版.北京:清華大學出版社,2015.

[6]張俊.SAP BW/BO實戰指南——像學習Office一樣學習BW/BO[M].北京:機械工業出版社,2015.

責任編輯(責任編輯:杜能鋼)

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 日韩无码黄色网站| 国产伦片中文免费观看| 中文字幕 91| 丰满人妻一区二区三区视频| 亚洲成aⅴ人片在线影院八| 毛片基地美国正在播放亚洲| 精品欧美一区二区三区久久久| 亚洲免费福利视频| 一本大道东京热无码av| 九九久久99精品| 国产精品一老牛影视频| 亚洲第一综合天堂另类专| 久久国产乱子| 精品国产香蕉伊思人在线| 亚洲,国产,日韩,综合一区 | 国产一区在线视频观看| 亚洲中文无码h在线观看| 久久婷婷色综合老司机| 欧美成人影院亚洲综合图| 四虎永久免费地址| 国产剧情无码视频在线观看| 日韩欧美高清视频| 国产亚洲精品精品精品| 伊人AV天堂| 国产精品一区二区不卡的视频| 亚洲嫩模喷白浆| 九色国产在线| 韩国v欧美v亚洲v日本v| 国产精品九九视频| 香蕉久人久人青草青草| 亚洲av无码片一区二区三区| 午夜国产理论| 无码在线激情片| 永久免费精品视频| 国内精品视频区在线2021| 一本大道在线一本久道| 国产成人精品综合| 波多野结衣AV无码久久一区| 精品无码一区二区在线观看| 日韩精品一区二区三区免费在线观看| 国产视频只有无码精品| 天天色综网| 欧美日韩导航| 成年人视频一区二区| 国产一级α片| 久久亚洲精少妇毛片午夜无码| 亚洲欧美成人网| 国产91丝袜在线播放动漫 | 日韩一级二级三级| 欧美中文字幕无线码视频| 亚洲综合激情另类专区| 91色在线视频| 亚洲人成日本在线观看| 亚洲精品大秀视频| 91精品国产91久久久久久三级| 国产理论一区| 在线看国产精品| 国产亚洲精品精品精品| 国产91高跟丝袜| 亚洲精品视频在线观看视频| 在线另类稀缺国产呦| 国产在线91在线电影| 97久久精品人人做人人爽| 谁有在线观看日韩亚洲最新视频| 九九久久精品免费观看| 色综合国产| 亚洲欧美另类专区| 日韩欧美国产综合| 91麻豆久久久| 亚洲天堂区| 波多野结衣无码视频在线观看| 国内精品视频区在线2021| 成人午夜在线播放| 四虎永久免费在线| 怡春院欧美一区二区三区免费| 毛片网站观看| 亚洲中文精品人人永久免费| 国产中文在线亚洲精品官网| 欧美日韩国产在线播放| 不卡无码网| 国产青青操| 中文字幕av一区二区三区欲色|