劉博
摘要:本文主要對聯通大數據平臺的概述、系統架構、系統功能以及河北省大數據的現狀進行了介紹。
關鍵詞:大數據、互聯網、采集、分析、處理;
河北聯通是河北省最大的互聯網接入提供商,任何個人、企業的上網的行為都以數據的形式流淌在河北聯通的網絡里,網絡覆蓋的廣、接入方式豐富是河北聯通得天獨厚的優勢。
運營商大數據的全面性、多維性、中立性、完整性是其它企業很難比擬的,而且通過這些不同維度數據的交叉關聯,可以創造更多的新數據和新價值。
一、系統概述
依據河北省業務發展需求及河北聯通集成公司集成公司IT系統的實際情況,本期工程建設為新建河北聯通集成公司數據開放平臺,初步完成大數據支撐平臺搭建,具備對各類數據源的采集、分析、處理能力;具備數據聚合和數據標準化能力,具備數據服務和數據管控能力,增強對外服務及支撐水平。
二、系統功能
本次系統平臺分采集層、基礎平臺層、服務層、應用層、系統管控功能五層功能架構,同時包括系統所需的全部系統軟件、功能組件。
采集層:主要采集同步河北聯通信息化部的大數據平臺數據和外部合作數據。
數據基礎層:構建分層分域的數據存儲及運算體系,實現對海量的結構化、非結構化、流數據的加工和存儲。
數據開放層:將系統加工存儲的數據通過API、租戶等方式向各類應用進行能力開放,實現對應用和業務的統一支撐和管理。提供各類可視化報表加工、模型開發工具。
應用層:本期項目重點支撐對金融和公安行業,為外腦合作、外部應用以租戶的方式實現資源共享。
管控功能:實現系統元數據、ETL、數據質量、生命周期、數據安全、數據資產的管理功能。
三、系統架構
3.1 數據基礎層
大數據基礎平臺是穩定、可靠的企業級大數據基礎平臺產品,滿足如下企業級產品的特征:
統一資源管理分配:改進的YARN資源管理框架,可在同一份數據集上運行多種計算框架(Storm, Docker等),動態創建SQL統計、數據挖掘、機器學習、流數據處理等計算集。
多租戶業務支持:在組織內部,當多部門使用統一平臺統一數據集運行不同業務時,通過租戶的方式實現對數據和計算資源管理和分配。各業務在相對獨立的環境中運行,實現了數據與資源的邏輯隔離。
五維安全功能方案:當多源異構數據匯入整合時,系統安全風險陡然增加。需要通過安全規則引擎,用戶集成認證,權限管理分配,安全操作審計和數據加密保護五個維度來提供大數據基礎平臺安全整體功能,保護數據在訪問和處理過程中的安全。
自動化部署配置:大數據基礎平臺由數十個組件構成,這些組件相互交織又分工不同,對管理人員要求較高,技術難度較大。通過圖形化的界面實現大數據基礎平臺的自動化安裝部署和優化配置,不僅可以減輕管理人員的部署壓力,還能保證平臺的優化配置。
標準運維服務:針對以往遇到問題只能從網絡搜集零散的知識,且陷入缺乏標準解決方案這樣的困境,團隊提出由駐場,售后和研發三級人員組成的運維體系,使用運維案例中沉淀下來的最佳實踐經驗,高效解決生產過程中遇到的問題。
開放集成接口:通過一系列Web Service,Java,Thrift等形式的接口將大數據基礎平臺的管控,資源分配,安全審核等能力開放出來,方便和各類系統進行融合以及在平臺上的二次開發。
3.2基礎組件Hadoop
Hadoop是數據操作平臺基礎核心,其基于Hadoop生態圈系統,支持多種核心功能和組件,主要包括:
分布式文件系統HDFS
資源管理與調度YARN
安全組件及能力Ranger
分布式列數據庫Hbase
數據加載處理Sqoop,Flume, Kafka等
服務管理與YARN集成Slider
數據倉庫Hive
通過整合先進云計算技術并集成/優化/封裝,支持對海量結構化、半結構化和非結構化數據的存儲與高速處理,同時完全支持對數據的高并發讀寫訪問以及快速的SQL查詢操作,我們對交付版本在服務期內提供高效、全面且專業的技術支持和保障。Hadoop在集成開源發布版本的同時,還從社區中精選出核心且優先級高的Patch集成到Hadoop中,確保產品的健壯性,保障其在商用項目應用時更加穩定、可靠的運行,提升客戶體驗度和滿意度。Hadoop的研發團隊中有眾多開源社區Contributor,通過對開源組件的不斷研究并結合項目實施過程中出現的問題,在開源組件原有基礎上進行了重構與優化,使我們的產品具有更強的數據處理、更快的處理速度以及更加便捷的實施優勢。
3.3 內存計算Spark
為數據的分析計算提供了基于內存計算的且高效穩定的spark計算框架,需要支持三種模式的處理能力:批處理、流式處理以及基于SQL操作的數據分析查詢,分別支撐各種業務場景和客戶需求。
3.4 平臺管控管理
該模塊是在Hadoop之上的一站式界面管理系統,提供如下功能模塊,管理員可通過界面的簡單操作,完成數據平臺的部署,管理,監控告警及日常管理的工作:
導航式部署:以便捷易用的方式實現了大數據基礎平臺軟件的一鍵式自動安裝部署,并且支持用戶自定義擴展部署,管理員能夠通過配置參數根據部署集群硬件環境自動優化,最大化利用集群資源,幫助用戶節省寶貴時間和精力完成集群環境搭建。
圖表化監控告警:提供底層硬件健康狀態、集群各組件健康狀態的全流程多維度監控體系。其中包括主機資源CPU、內存、硬盤、網卡等各項指標監控,還涵蓋HDFS、YARN、Hbase、Hive等各組件的多達150項的指標監控;支持指標告警項的配置,系統將在監控集群信息時,捕獲告警閾值超出的指標進行記錄和展示;支持自定義配置監控指標及圖表的展現類型,幫助運維人員直觀快速的定位和解決問題,為系統持續健康穩定的運行提供保駕護航。
一站式集群管理:提供界面化的集群管理功能,提升運維的高效性和便易性,讓集群管理變成傻瓜式操作。包括服務啟停,節點擴容縮容,配置文件修改,機架感知等。
多元化資源管理:提供對集群計算資源、存儲資源、數據權限等的統一分配管理功能,從而使集群中數據存儲規范化、資源分配高效化、訪問權限隔離化,確保數據隱私與資源隔離。
四、結語
大數據平臺的建設是為了適應聯通行業業務的迅速發展需求而提出的,通過工程建設,將會增加行業業務系統的容量,提高網絡的服務質量,有利于聯通業務和收入的持續發展。