盧康權
中國人民銀行杭州中心支行科技處 浙江 杭州 310001
隨著互聯網技術迅猛發展,物聯網技術的大量運用以及移動互聯網的日益普及,大數據概念也應運而生。大數據不僅僅是一種新技術,也不是單一的新產品,而是一種新現象,是近來計算機研究的一個新熱點。大數據泛指超大規模的數據集合,可從中挖掘出極具價值的信息,但利用傳統技術無法進行及時分析和處理[1]。本文通過分析大數據計算框架、大數據關鍵技術,在金融監管領域應用大數據技術進行信息處理。
大數據的4V特征[2]對計算能力提出了擴展要求。計算能力擴展一般分為兩種方式:第一是垂直擴展(scale up),是指向系統中的單個節點添加資源,通常涉及向單個計算機添加CPU或內存等,每一個組件的功能均會對總體性能造成限制。垂直擴展的好處是對上層應用系統透明,缺點是高性能資源成本較高,并且擴展上限是現有業界的軟硬件技術水平。傳統關系型數據庫、中間件等軟件一般采用垂直擴展。第二是水平擴展(scale out),是指向系統添加更多節點,比如向分布式軟件應用程序添加新計算機。隨著硬件價格的下降和性能的不斷提高,低成本的節點可以不停地添加到一個集群中,提高集群的整體計算能力。彈性的水平擴展架構本質來說就是分布式架構,因此不會局限于任何單一計算機的資源容量,幾乎可以線性擴展所有資源。水平擴充的優點是可以利用低成本的組件,擴充能力強,缺點是上層應用系統需要適當改造。分布式計算架構廣泛應用于大數據系統。
大數據計算框架從本質上來說就是分布式計算架構的拓展。分布式計算的發展經歷了多種不同技術路線的演化[3-6]。從20世紀80年代開始,人們就從操作系統等系統軟件進行研究,探索通過網絡以分布式替換單機式操作系統,盡管其理論、技術都已較為成熟,由于技術條件、市場等原因,沒有被用戶接受。在20世紀90年代,基于專有多級網絡計算需求,業界開始研究部署分布計算環境(中間件),支持分布式應用,產生了一系列事務處理、遠程過程調用、消息隊列和面向對象等各類中間件,目前仍廣泛應用在信息系統中?;谠诨ヂ摼W上進行大規模分布式計算的需求,陸續出現了Web Services網以及網格計算等協同技術,解決了中間件需要專有協議等缺陷,進一步提高了跨維度網絡資源的共享程度。
為滿足大數據處理對存儲和計算能力的巨大需求,數據中心內部運用的分布式計算技術得到了長足進步。隨著網絡技術發展,局域網主流傳輸速度可以輕松達到萬兆以上,數據中心內集群節點間的互聯速度可與單一節點內部數據傳輸速度相媲美。同時單一節點的計算能力也突飛猛進,通過由普通PC組成的集群可以提供超大的存儲容量和超強的計算能力。為了提高可靠性和可用性,通過分布式存儲為同一數據創建若干個副本,或者通過算法提供一定冗余數據。傳統高性能計算中的并行調用接口抽象度不高, 對開發人員的技術能力要求很高,較難推廣。現代大數據分布式計算架構,通過高層次抽象,提供類似傳統編程方式的接口,屏蔽并行處理細節,可以把大規模的計算自動并發和分布式執行。
Google公司開發了基于集群的分布式、并行處理整體基礎架構,該技術是利用冗余和同步技術來處理可能的節點失效問題,包括GFS(分布式文件系統)、MapReduce(分布式計算模式)和BigTable(大規模分布式數據庫)等關鍵技術[7]。這為其他的大數據架構提供了一個很好的參考思路。
分布式文件系統,用于處理大型分布式的大量數據訪問。運行于普通的PC硬件上,必須提供防止單節點的損壞帶來數據丟失的高冗余性。HDFS是分布式文件系統在開源大數據軟件Hadoop中的實現。MapReduce,通過并行方式處理大規模數據集的數據以提升性能。包括兩項核心操作:映射和歸納) 操作。對外提供了簡單的接口服務,其后臺復雜的并行處理和流程調度對開發人員是透明的。Hadoop也通過MapReduce編程模型進行計算資源調度。BigTable是用于存儲和處理大規模結構化數據的非關系型數據庫,是一系列分布式、多維度排序的映射表。HBase實現了類似的分布式數據庫。
以某金融監管機構為例,通過金融監管大數據平臺建設,有效提升數據治理水平。統一匯集政府部門、監管及金融機構等多方基礎數據,多層次、多角度開展數據分析與展示,反映全省金融運行態勢,在線分析蘊藏的金融風險,為業務履職和決策提供有力支撐。平臺基于Elastic MapReduce(EMR)搭建,包括 Hadoop、Spark、Kafka、HBase等核心開源組件,構建了統一的大數據平臺和底層應用支撐環境等基礎設施。建設覆蓋全省的統一身份認證系統,為各系統提供單點登錄和統一門戶。打通底層數據通路,實現互聯互通,通過大數據平臺,為全省系統內數據的一點匯聚提供統一服務,逐步推動改變各個業務“數據孤島”的現狀。開發一批有省域特色的金融監管應用。如:數字大屏、駕駛艙、數據倉等應用。
基于大數據的金融監管平臺解決方案主要包括如下關鍵特性:
(1)統一基礎平臺規劃,避免多次投入重復建設。統一規劃建設全省大數據應用基礎技術平臺,功能涵蓋數據的采集融合、統計運算、建模分析和可視化展示,平臺可供全省員工開展工作所用。避免各地市/各業務條線在項目建設過程中對基礎功能的重復研究、重復設計、重復建設和資金的重復投入。此外,通過對大數據基礎技術平臺的統一管理運維,也能確保平臺運維的專業化和標準化,避免“各管一片、標準不一”的現象,節省重復運維成本。
(2)統一數據整合治理,規范采集渠道與流程。對全省的數據資源進行統一規劃治理,制訂形成一套全省統一的數據治理標準規范,并統一管理數據采集來源,規范數據統計口徑,優化數據分類分級,制定數據資源目錄,形成全省統一管理數據,各業務部門及分支機構統一使用數據的良好局面。逐步打破數據藩籬,打通數據孤島,解決各業務條線數據互相孤立的問題。
(3)統一數據質量管控,解放人力為履職提質增效。建設基于大數據平臺的統一數據采集系統,將監管所需各外部單位數據的采集工作納入平臺進行統一管理。制定數據質量管理標準,將以往各個業務條線日常需要投入大量人力進行的數據收集、格式訂正、檢查核對、統計匯總和問題反饋等工作全部納入平臺自動化管理。并為業務數據管理人員設計開發數據監控界面,提供“一站式”數據質量管理服務。
(4)統一業務數據倉建設,提供“自助式”數據服務。通過開展全省數據治理和統一管理,可整合形成完整的全省經濟金融數據倉,解決以往數據分散,整合困難的難題?;谄脚_中完整的全省經濟、金融大數據智庫,配合合理的數據權限管理機制,全省各業務工作人員可便捷的訪問和共享所需數據,可自行開展本業務或跨業務的自動化數據分類查詢、統計分析等應用。避免以往不同部門間、同部門不同科室間在共享數據時耗費大量的人力溝通成本和整理加工耗時。
(5)統一應用系統部署,滿足業務履職所需。圍繞機構的履職目標,分期分批規劃開展與央監管履職密切相關的大數據業務應用場景,如:金融統計類、經濟/產業分析類、政策評估類、金融風險防控類、金融監管類和金融服務類等數據應用場景。其次,規劃過程中不僅關注宏觀和事后的各類金融統計分析,也加強對履職相關的關鍵業務數據采集的全量化、明細化、實時化。實現關鍵業務的非現場監管與現場檢查協同,提升事中甚至事前的監測預警。
隨著大數據技術的發展,必然可以通過數據挖掘技術,在低價值密度的數據分布中發現大數據的高價值。大數據在行業管理、數據標準化與決策分析等領域將大有作為,將極大提升中大型企業的網絡信息服務水平。