李輝 帥強 李偉


摘? 要:隨著企業信息化、智能化的深入和新信息技術的廣泛應用,集團化的企業級業務管理系統產生的海量數據不斷涌向數據中心,實時運行的計量自動化系統設備數據對數據中心的存儲和應用支撐面臨諸多問題。本文介紹基于云南電網大數據中心的計量自動化系統數據存儲、大數據分析應用場景支撐關鍵設計,對大數據中心廣泛的海量的數據存儲和應用提供設計思路。
關鍵詞:大數據中心;計量自動化系統;數據存儲
中圖分類號:TM762? ? 文獻標識碼:A? ? 文章編號:1671-2064(2019)24-0000-00
0 引言
隨著信息云計算、大數據及物聯網等信息技術的發展,利用云計算平臺的分布式存儲架構和分布式處理系統實現智能電網海量數據的大規模存儲,為數據挖掘與輔助決策等高級應用提供高性能的分布式計算環境,利于實現不同區域之間的資源與信息共享[1]。云南電網大數據中心是實現全省包括營銷、調度、財務、資產等核心業務域的集中存儲和大數據應用場景分析支撐。
省級計量自動化系統是對電網網架結構設備運行數據的統一“采集、存儲、應用”,是全面服務企業生產、營銷、規劃、建設等業務應用的核心基礎系統平臺。計量自動化系統采集的原始數據可通過CDMA/GPRS等網絡獲取,每天采集的數據量大多以TB為單位進行存儲,每次采集間隔的時間大約為15分鐘[2]。目前按照云南電網公司大數據平臺的數據分析應用需求,開展省級計量自動化系統包括計量運行、設備終端運行及檢測類的采集和事件數據,以及計量資產、終端管理和相關的統計類數據。
1 大數據平臺架構
云存儲是一種網絡在線存儲模式,其核心技術之一是存儲虛擬化,核心是運用分布式存儲技術,對不同形式的異構存儲設備通過虛擬化計算進行整合,實現云存儲中多個存儲設備之間的協同工作,共同為用戶提供數據存儲服務[3]。云南電網大數據平臺采用云存儲的方式,其邏輯架構如圖1所示。
大數據平臺邏輯架構各業務系統通過數據同步(CDP或OGG等方式)進入貼源層(ODS),需經過的數據整合、加工、聚合和挖掘,形成數據倉庫層(DW)和數據集市層(DM)數據,為各類綜合性的查詢統計輔助分析決策應用系統提供業務數據。數據貼源層(ODS層)核心數業務系統同步進來的原始數據,經過一系列的數據整合處理(清洗、轉換、映射等)復雜操作將數據傳輸至數倉層(DW層),可以有效避免或減少對業務源系統的影響。數據倉庫層(DW層)長期(或永久)存儲規范的、全局邏輯關聯一致的業務明細數據,經過規范化整合處理、寬表加工或數據加工聚合,形成對象化的業務明細數據或者是各種層級各種口徑的統計匯總數據,數倉層可直接向集市層(DM)或分析型應用系統提供數據。數據集市層(DM層)面向應用分析主題構建、存儲根據業務分析需求將數據經數據挖掘、數據分析、復雜計算等加工處理后的數據集合,包括指標型數據、高度匯總型數據或算法挖掘后的明細數據。
2 計量數據存儲設計
2.1 大數據平臺數據存儲基本原則
在大數據平臺中對各業務系統數據按照數據量、類型及實際業務需求的表在大數據平臺的的存儲也有一定差異,基本數據存儲原則如:(1)主數據表存儲方式:以日期為分區,每天增加一個分區存儲一份最新的主數據,每個分區的生命周期通常以天為固定周期,也就是一張表最多有固定周期天的個分區。(2)小業務表存儲方式:以日期為分區,每天把增量數據合并到昨天的全量分區,以此疊加。(3)采集量測數據存儲方式:由于采集量測數據數據量極大,如果以日期分區進行儲存,每天存儲一份,會占用太多的存儲空間,且數據量大,使用時會造成過多的平臺資源被占用以及數據查詢效率很低,嚴重影響數據的正常使用。所以存儲方式改為以單位(如地市)和年月為分區的二級分區表,生命周期為永久,只保留一份數據。例如:某個地市某個月的數據,就存儲在這個地市和這個月的分區,如:dsbm=.../sjny=yyyymm。這樣數據占用內存將大大減少,用戶查詢數據只要條件命中地市和年月就大大提高數據的查詢效率。
2.2 計量自動化系統數據存儲
按照大數據平臺架構設計,計量自動化系統在大數據平臺中ODS層、DW層及DM層所存儲的邏輯如圖2所示。
計量自動化數據存儲邏輯設計中:(1)從計量業務系統中依據CDP數據全量方式進行同步抽取,并在ODS層安裝一天一個分區進行數據存儲,主要針對數據量小于500M的主數據設備臺帳及其他統計數據,DW層存儲同理。(2)從計量業務系統中依據CDP數據增量方式進行同步抽取,ODS僅按照分區存儲每天的增量數據(目前按照4天分區存儲),最后通過對DW的歷史地市+年月分區數據4天的數據進行刪除后再插入最近4天數據,主要包括采集量測數據。(3)從計量業務系統中依據OGG數據增量方式進行同步抽取,ODS層存儲歷史全量數據表、增量數據表,并進行兩張表合并到新全量表分區中,增量分區表數據與原歷史數據合并同步到數倉存儲,主要針對大于500M的設備臺帳數據、業務應用數據(電量計算、采集率、抄表率)、采集量測數據等。(4)依據分析庫按照域數據進行分類存儲,計量自動化數據中的DW層數據最終同步至DM層市場域(主要包括營銷管理系統和計量自動化系統數據)中進行存儲。
2.3 支撐數據應用清洗轉換
針對業務系統同步過來的原業務系統數據,對某些應用的分析需要進行處理操作,如計量設備某個點數據未采到,則需要通過處理進行補全的清洗轉換操作,通常針對操作簡單、易修改直接通過大數據平臺ODPS的SQL進行數據清洗轉換,難的需要進行邏輯腳本或程序進行處理;通過MapReduce進行數據清洗轉換,ODPS提供了MapReduce編程接口,用戶可以使用MapReduce提供的接口(Java API)編寫MapReduce程序處理ODPS的中的數據;最后可使用Python中的Pyodps第三方庫,能有效支持odps讀寫等操作,但會存在數據量處理較小、處理速度較慢等方面的影響,在通常情況下數據清洗轉換有以下幾種規則:
(1)數據類型轉換:如datetime和String相互轉換,根據應用需求進行數據類型轉換。(2)數據過濾:針對臟數據、空數據、無用數據進行數據過濾,讓數據更加具有實用性。(3)數據填充修改:針對空數據、臟數據等相關數據,與數據關口部門協商,進行缺值填充和更改臟數據。(4)表合并:將主表和字表以一定的業務邏輯合并成一張大表,方便應用需求取數、減少取數代碼和邏輯。(5)枚舉轉換:將各業務系統獨有的枚舉,通過業務邏輯編制一套各系統統一共用的枚舉代碼,將原系統枚舉替換為新的枚舉代碼,加強數據整合性。
3 結語
本文對大數據中心計量自動化系統數據存儲及應用支撐設計進行技術研究,通過對大數據平臺架構設計的設計介紹,依據平臺架構對各種業務系統的數據同步至云數據中心后的存儲方式進行設計和技術研究,有效解決各業務系統不同增量和數據量在大數據平臺中存儲的問題,以計量自動化系統按照CDP全量、CDP增量和OGG增量數據同步上云后,依據云南電網大數據平臺的分層架構,對ODS貼源層、DW數倉層進行進行數據同步后的按日分區存儲、增量數據與歷史數據表合存儲等設計思路,對企業級業務系統在大數據平臺中的存儲方式具有可移植性和廣泛的應用性。
參考文獻
[1] 戚偉強,蔣鴻城,裴旭斌,等.基于云平臺的電力數據中心自動運維體系研究[J].電力信息與通信技術,2016(7):97-101.
[2] 徐振中.電網計量自動化系統的建設與應用[J].電子世界,2016(17):157+159.
[3] 鄧維,劉方明,金海,李丹.云計算數據中心的新能源應用:研究現狀與趨勢[J].計算機學報,2013(3):582-598.
收稿日期:2019-11-04
作者簡介:李輝(1991—),男,云南玉溪人,研究生,研究方向:應用技術、數據的挖掘與分析、數據資產運營。