999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大型商業銀行基于Hadoop分布式數據倉庫建設初探

2017-08-12 12:22:06孫元浩
計算機應用與軟件 2017年8期

楊 頲 韓 路 許 勤 孫元浩

1(中國銀行股份有限公司上海市分行 上海 200233) 2(星環信息科技(上海)有限公司 上海 200233)

?

大型商業銀行基于Hadoop分布式數據倉庫建設初探

楊 頲1韓 路1許 勤1孫元浩2

1(中國銀行股份有限公司上海市分行 上海 200233)2(星環信息科技(上海)有限公司 上海 200233)

商業銀行的數據規模隨著傳統業務擴展和互聯網發展水平的不斷提高而與日俱增,使得銀行對數據的存儲、管理和應用要求越來越高。通過搭建基于Hadoop技術的大數據平臺,利用分布式文件系統HDFS、SQL分析引擎Inceptor、Nosql數據庫工具Hyperbase、流處理工具Stream等架構,探索了大型商業銀行Hadoop分布式數據倉庫的構建過程,最終實現了由基于集中式存儲架構的傳統關系型數據倉庫向分布式數據倉庫的遷移工作。該分布式數據倉庫實現了結構化數據和非結構化數據的存儲、ETL調度管理、歷史數據檢索、交互式分析以及流數據處理。應用表明,相比基于集中式存儲架構的傳統關系型數據倉庫,分布式數據倉庫可大幅提高數據存儲和數據服務的效率。

分布式數據倉庫 Hadoop 數據批處理 歷史數據查詢 交互式分析

0 引 言

隨著銀行在業務開展過程中內部數據快速增長以及互聯網浪潮下外部數據的采集成本不斷降低,傳統集中式數據分析平臺在數據存儲和分析應用上都面臨了巨大挑戰[1]。如何運用大數據理念及技術,有效整合內外部數據,為銀行提供客戶分析、精準營銷、差異化定價、風險管理等服務,同時做好爆炸式增長數據的存儲、管理工作是全行業共同面臨的問題。

本文基于Hadoop大數據平臺構建了分布式數據倉庫[2],設計了數據采集加工流程、規范以及調度、配置平臺,完成了從集中式數據倉庫向分布式數據倉庫的重點應用遷移和部分新場景的開發工作,大幅提升了數據加工和服務效率。本文從系統建設背景、應用架構設計、ETL設計、應用成果等方面做重點介紹。

1 傳統數據倉庫面臨的問題

1.1 傳統存儲技術與大數據快速增長的矛盾

由于所在銀行的傳統數據倉庫經歷了十多年積累,涵蓋了較全面的各類業務數據,數據總量增長了近30倍,平均每年增幅接近30%。數據倉庫采用了傳統關系型數據庫,屬于集中式存儲架構體系,其成本高、擴容困難、故障恢復耗時長等缺陷日益突出,使得在對海量數據進行綜合運用時極為困難,無法滿足對數據運用的完整性要求。傳統數據庫還不能有效管理、處理非結構化數據,不能便捷地收集和存儲外部數據來源,并與內部數據有效的整合。

1.2 大數據處理緩慢與需求快速響應的矛盾

傳統數據庫不再適用海量數據的存儲,搜索和分析,效率低,業務需求實現周期長。大數據時代快速增長的數據量帶來的另外一個問題是,數據處理的時效性要求越來越高。傳統數據庫的集中式架構決定了其數據處理的能力存在瓶頸,對于TB級數據的處理捉襟見肘。現階段,各業務單位,特別是一些監管部門的數據需求,不但要求分析查詢的時間范圍大、處理邏輯復雜,而且往往有比較嚴格的時間要求,傳統數據庫已無法滿足業務部門的時效性要求。

2 分布式數據倉庫架構設計

分布式數據倉庫數據平臺有效整合現有傳統數據分析平臺和基于互聯網技術的大數據平臺,如圖1所示,實現數據采集、存儲管理、數據管控、數據挖掘分析、實時決策分析等功能。

圖1 分布式數據倉庫邏輯架構

2.1 數據源層

從各渠道運用不同方式獲取源數據,并進行分析清理,抽取有效數據進行整合處理后供后續分析使用。數據采集支持結構化數據、半結構化和非結構化數據。結構化數據由總行核心系統、外圍系統以及分行特色業務系統每天產生的傳統業務數據組成,非結構化、半結構化數據由平臺系統日志、運營日志、互聯網模式下海量文字、音頻、視頻信息(包括社交網絡、法院、人民銀行、銀聯等公開信息)。

2.2 數據儲存層

通過構建分布式文件系統(HDFS)以及其上的非關系型數據庫,在支持海量異構數據儲存的同時,具備良好的容量擴展能力[3]。針對數據異構集成,一方面,進一步做好銀行內部結構化數據的清理梳理、完善和升級各類業務數據要素。另一方面,通過Hadoop大數據技術實現對非結構化和半結構化數據的集成,采用多種組織方式,支持多種類型、多種存儲方式的系統結構,實現對大數據量和繁雜數據類型的有效存儲,滿足大數據的全數據運營需要。

基于Hadoop技術的分布式文件系統(HDFS),突破了集中式數據倉庫在容量擴展時影響上層應用運行、擴展能力局限的缺點,在確保集群數據完整性、可靠性的同時,通過直接擴充集群節點的方式,在管控層自動調度下實現文件自動備份、遷移,實現存儲容量的線性擴充。

2.3 數據計算層

Hadoop技術的核心計算架構MapReduce利用HDFS分布式存儲和自身分布式計算的特點,實現計算單元與文件分塊的結合,將計算任務分解并分派至不同計算單元進行運算,再將計算結果聚合,實現更快、吞吐量更大、可線性擴展的數據計算能力,適用于大量數據的離線、批量處理[4]。

Spark技術是基于內存的分布式計算架構,占有更少的硬盤讀取資源和網絡資源,適合大量數據的實時分析、決策任務[5]。

流處理技術負責實時抓取業務流中產生的數據,計算并挖掘生命周期較短的數據的價值,為部分實時性要求較高的業務場景提供實時決策[6]。

2.4 數據服務層

基于儲存層和計算層的海量儲存能力和高速計算能力,實現結構化數據、非結構化數據的整合,并通過數據挖掘技術,為客戶從不同側面構建360度視圖,包括資產負債畫像、現金流畫像、風險偏好畫像、情緒畫像等[7]。對于特定業務場景,利用實時決策、機器學習、數據沙箱等技術對源數據進行分析清理,抽取有效信息進行整合、歸集,建立對應數據集市,用于支持后續營銷、管理和業務場景優化。

2.5 應用發布層

經服務層加工后的擁有較高業務價值的信息,通過多種渠道提供給行內各業務環節,實現多種形式的數據展現,支持各類管理和市場決策需求,包括儀表板、報表/指標、OLAP分析等。同時,為了進一步提高信息自動化的處理水平,在安全可控的情況下將數據直接提供給各類業務系統,實現無需人工干預的自動化的業務決策和處理。

2.6 數據管控層

安全管理上,通過建立統一的數據管控功能,實現數據ETL處理、任務調度管理、元數據管理、數據標準化、數據生命周期管理等數據監控、管理手段,以提升數據質量,便于上層應用分析統計。另一方面,通過建立嚴格的安全管理手段,從硬件、網絡、應用等不同層次實現數據訪問的安全可控。

3 ETL架構設計

開發了大數據集成管理平臺,如圖2所示,提供了包括集成開發環境、代碼管理、作業調度、數據ETL等一整套解決方案,降低了大數據開發的技術要求,傳統數據庫開發人員可以快速轉型到大數據平臺進行開發。

圖2 ETL工具架構

在數據ETL平臺上實現了對文本文件的校驗、轉換以及貼源層、模型層、展現層等多層次數據加工、處理工作,并制定了統一的開發規范和數據規范,保證數據質量。作業調度監控功能對管理平臺內發布的任務進行靈活調度配置和監控,支持任務之間的順序、依賴、互斥等邏輯關系。調度管理精度細化至表級別,實現了每張表的加工狀態、執行時間監控,并對異常狀態進行報警,保證了每日數據的時效性。此外,管理平臺提供了統一的集成開發環境,使用統一的開發界面,實現了大數據開發的代碼管理、版本管理和項目發布管理,支持開發、投產、運維工作的分離,滿足信息安全工作的要求。

4 表結構設計

在數據從傳統數據倉庫向分布式數據倉庫遷移的過程中,如何選擇數據在大數據平臺中采用的儲存格式和結構是影響后續數據計算性能的關鍵。因此,需要根據數據的分布特點以及使用場景(邏輯架構如圖3所示),結合星環TDH平臺各組件的性能特點和優勢,設計最合適的儲存格式和表結構。

圖3 大數據平臺表結構設計

4.1 統計分析/批處理

數據批處理是數據倉庫中最主要的應用場景之一,每日都有大量的業務數據文件以全量或增量形式導入數據倉庫,大數據平臺需要對這些文件進行批量導入、清洗、加工、展現,并根據不同業務需要進行定制化開發和統計分析。

(1) 貼源層

數據倉庫的貼源層以文本表形式儲存,文本表具有無壓縮、行式儲存的特性,實現了對原始文本文件到數據倉庫的過渡,同時支持從Sqoop、Flume、Oracle、DB2等不同數據來源獲取原始數據。

(2) 模型層

在完成原始數據的文本文件導入數據倉庫后,需要對貼源層數據進行批量加工和整合。在此過程中包含大量的Join、Group by操作,同時數據級別經常在100 GB以上。ORC表是一種優化的列式存儲格式[8],壓縮比高,并支持分區、分桶兩種結構優化策略,對大數據量的Join、Group by操作有較大的性能優勢,適用于批量數據加工場景。對于有事務性要求的任務,可選用ORC事務表進行儲存。ORC事務表在ORC表的基礎上滿足了事務性要求,支持數據的增、刪、改、查以及回滾等操作,滿足銀行在傳統數據倉庫中對數據一致性和事務性的需求。

在設計模型層中ORC表的結構時,可根據批處理的SQL語句、表的大小以及主鍵進行針對性的優化。例如,將常用于Where條件的字段或者日期字段作為ORC表的分區字段,可在批處理和查詢操作過程中減少計算引擎對表的掃描文件數,從而大幅提高批處理和查詢效率。此外,對于常用的Join字段或者Group by的字段作為分桶字段,可優化分布式計算引擎的執行計劃,更均衡地分配計算任務,提高計算效率。

(3) 交互式分析

數據的即席交互式分析和報表實時展現是銀行數據的重要使用場景之一,查詢統計性能要求較高,且包含多表的Join、Group by操作以及任意字段的靈活組合查詢,因此ORC表無法滿足要求。Holodesk表是基于SSD和內存的分布式列式存儲結構,對Group by和多表間的Join操作進行了針對性優化,復雜查詢請求的返回時間可控制在秒級別,可滿足數據交互式分析和自由查詢的性能要求。

4.2 并發檢索查詢

Hyperbase是基于HBase優化的Nosql數據庫,適用于非結構化數據的存儲和固定條件的歷史數據檢索;Elastic Search支持對歷史數據進行全文檢索、關鍵字檢索、范圍檢索等復雜條件的查詢;對于既有固定條件,又包含部分關鍵字檢索需求的使用場景,則通過將歷史數據儲存于Hyperbase,并在Elastic Search中建立全文索引字段實現[9]。

4.3 實時處理

對于流式數據的實時處理場景,數據以Stream表的格式儲存,實現從Kafka、Socket、Stream等不同數據源采集數據,并支持通過SQL對流數據進行簡單的邏輯處理和計算,降低了流計算應用的開發成本。對于實時數據服務,基于面向數據服務的架構(DSOA),通過標準數據服務實時采集數據[10],儲存于Hyperbase中,常用于采集外部非結構化數據場景。

5 分布式數據倉庫應用成果

目前基于大數據平臺的分布式數據倉庫已全面上線,負責全轄每日業務數據的批處理加工和實時展現,并提供統一數據管理和大數據應用服務。如圖4所示,縱坐標為數據服務耗時的時間取對數。在數據批處理效率上,相比傳統數據倉庫每日耗時8小時以上,基于大數據平臺的批處理耗時達到1小時以內;歷史數據檢索服務實現海量歷史數據的高速查詢、搜索,單個業務自主查詢速度從原有的半小時提升至秒級別,大幅提高各類渠道數據請求的響應效率;在交互式分析上,基于Holodesk提供客戶360度視圖的實時自由查詢服務。客戶畫像寬表包含500個字段,文件大小約50 GB,任意字段組合查詢結果返回從20分鐘提升到10秒以內,大幅提高自由查詢功能模塊使用體驗。

圖4 分布式數據倉庫效率提升對比

6 結 語

本文通過搭建基于Hadoop技術的分布式數據倉庫,充分整合了銀行數據資源,在信息化建設過程中積累的海量業務數據基礎上,擴充了數據采集的范圍,積極納入行外非結構化數據,同時延長了數據保存周期。此外,根據不同的數據應用場景,使用不同的Hadoop技術并進行針對性的優化,從而大幅提高了在數據批處理、歷史數據檢索和交互式分析等數據使用場景上的服務效率。基于Hadoop技術的分布式數據倉庫有效彌補了基于集中式存儲架構的傳統數據倉庫在面對數據快速增長和快速響應分析的挑戰時遇到的性能瓶頸,并為業務分析人員提供了更高時效性的數據資源和更強的數據分析能力。進一步發揮分布式數據倉庫的存儲和性能優勢,利用機器學習技術對清洗、整合后的數據進行深層分析、挖掘,更充分地發揮數據資產的價值,是下一步的主要研究、探索方向。

[1] 黃蕾.大數據時代下銀行業的變化和發展趨勢[J].中國經貿,2016(18):46-46.

[2] 邱焯.以技術驅動大數據發展[J].上海信息化,2016(12):68-71.

[3] 信懷義.基于商業銀行大數據訪問規律的HDFS副本策略優化研究[J].軟件,2015,36(11):74-79.

[4] 常廣炎.Hadoop云計算及其關鍵技術[J].軟件導刊,2015,14(9):7-9.

[5] 王磊,時亞文.基于Spark的大數據計算模型[J].電腦知識與技術,2016,12(20):7-8.

[6] 張新宇,許占功.流計算引擎在傳統金融企業的實踐[J].中國金融電腦,2016(4):35-38.

[7] 胡明國.大數據時代下客戶立體畫像在銀行業應用研究[J].中國城市金融,2016(1):40-42.

[8] Zhu F,Liu J,Xu L,et al.A Lightweight Evaluation Framework for Table Layouts in MapReduce Based Query Systems[M]//Web Technologies and Applications.Springer International Publishing,2015.

[9] Bai J.Feasibility analysis of big log data real time search based on Hbase and ElasticSearch[C]//Ninth International Conference on Natural Computation.IEEE,2014.

[10] 李鳳云,黃迎春,馮永新.基于WebService的SOA實現技術研究[J].科技視界,2012(23):17-19.

APRELIMINARYSTUDYONTHECONSTRUCTIONOFLARGECOMMERCIALBANKSBASEDONHADOOPDISTRIBUTEDDATAWAREHOUSE

Yang Ting1Han Lu1Xu Qin1Sun Yuanhao2
1(BankofChinaShanghaiBranch,Shanghai200233,China)2(Transwarp(Shanghai)Inc.,Shanghai200233,China)

With the expansion of traditional business and the development of Internet, the rapid growth of data volumes in commercial banks requires stronger abilities on storage, management, application on a huge amount of data. Based on Hadoop and its various frameworks, including HDFS, Inceptor, Hyperbase, Stream, a distributed data warehouse for commercial banks was constructed. Various applications were migrated from the relational data warehouse based on centralized storage architecture, including the storage of heterogeneous data, management of ETL processing, historical data retrieval, interactive analysis and streaming data processing. Compared to the relational data warehouse, it is shown that the efficiency of data storage and services are substantially promoted on the distributed data warehouse.

Distributed data warehouse Hadoop ETL processing Historical data retrieval Interactive analysis

2017-06-02。楊頲,碩士,主研領域:大數據,機器學習。韓路,碩士。許勤,高工。孫元浩,碩士。

TP311

A

10.3969/j.issn.1000-386x.2017.08.013

主站蜘蛛池模板: 欧美亚洲一二三区| 中文字幕人成乱码熟女免费| 国产av无码日韩av无码网站| 国产无人区一区二区三区| 狂欢视频在线观看不卡| 伊人五月丁香综合AⅤ| 国产真实乱子伦精品视手机观看| 免费一级毛片在线观看| 2021无码专区人妻系列日韩| 亚洲欧美综合在线观看| 国产三级国产精品国产普男人| 午夜不卡视频| 美女一级毛片无遮挡内谢| 97se亚洲综合| 91亚洲免费| 综合色亚洲| 白浆免费视频国产精品视频| 国产亚洲欧美另类一区二区| 免费观看三级毛片| 国产91丝袜在线播放动漫| 欧美在线黄| 国产精品亚洲综合久久小说| 日韩精品无码免费一区二区三区 | 日本黄色a视频| 一区二区影院| 国产成人久久综合777777麻豆| 人妻丰满熟妇啪啪| 国产精品开放后亚洲| 91av国产在线| 国产精品丝袜在线| 国产99视频免费精品是看6| 国产一区二区三区精品欧美日韩| 国产精品精品视频| 18禁高潮出水呻吟娇喘蜜芽| 小13箩利洗澡无码视频免费网站| 波多野结衣视频网站| 亚洲av日韩综合一区尤物| 亚洲久悠悠色悠在线播放| 99在线观看国产| 免费一级毛片不卡在线播放| 青青网在线国产| 亚洲日本中文字幕天堂网| 日韩AV无码免费一二三区| 黄色污网站在线观看| 日韩欧美亚洲国产成人综合| 亚洲中文字幕久久无码精品A| 毛片网站观看| 99手机在线视频| 亚洲av成人无码网站在线观看| 国产欧美成人不卡视频| 国产亚洲日韩av在线| 色婷婷在线播放| 亚洲动漫h| 成人噜噜噜视频在线观看| 日本久久久久久免费网络| 国产精品网址你懂的| 欧美在线精品一区二区三区| 国产成人精品亚洲日本对白优播| 国产综合网站| 日韩欧美国产另类| 久草视频中文| 91精品免费高清在线| 波多野结衣亚洲一区| 日韩高清欧美| 国产真实自在自线免费精品| 国产在线日本| 99精品免费欧美成人小视频| 4虎影视国产在线观看精品| 欧洲一区二区三区无码| 国产黄网永久免费| 中国国产一级毛片| 亚洲视频a| 18禁黄无遮挡网站| 欧洲成人免费视频| 在线亚洲小视频| 永久免费av网站可以直接看的| av尤物免费在线观看| a级毛片免费网站| 久草视频精品| 无码中文AⅤ在线观看| 97精品伊人久久大香线蕉| 91成人在线免费观看|