文 星
(中國南方電網超高壓輸電公司,廣東 廣州 550000)
在大數據時代背景下,社會對于數據處理的需求逐漸提升,特別表現在電力企業。電力系統信息化水平提升,相應擴大了數據處理量,導致企業無法高效獲取信息,不僅會延緩業務應用系統,降低生產效率,還會降低海量數據統計分析性能,同時無法及時掌握業務生產,也不滿足決策層需求[1]。在現有技術上,電力系統無法開發出多覆蓋數據、智能分析以及輔助決策支持處理,不能滿足決策層與管理層的快速智能分析要求,所以必須科學分析電力信息系統大數據處理方法。
大數據處理分為聯機分析處理和聯機事務處理。其中,聯機事務處理為基于交易的處理系統,特征在于將客戶原始數據傳輸到計算中心處理,在短時間內給出處理結果,可以處理同時發生的事務,用戶為操作人員和底層管理人員。聯機分析處理為數據庫系統應用,能夠進行復雜分析操作,比較關注決策支持,提供有效查詢結果,還可以確保用戶快速存取歷史數據,深入了解數據,面向高級管理人員和決策人員[2]。
在信息系統內,統計業務需求不同,屬于混合應用場所。例如,在企業管理系統中,財務信息平臺可以實時查詢和統計財務流程監控、會計憑證以及財務主數據等,屬于聯機事務處理應用場景,工程生產管理系統中,狀態檢修評價平臺能夠按照設備運行數據和錄音專家庫評分機制評估設備狀態,屬于聯機分析處理應用場景。
在電力信息系統大數據處理中,應用分布式技術,建設分布式存儲、并行計算以及多維索引技術,同時分析電力信息系統的相關特點,對系統問題予以處理。
為實現分布式存儲的效益,在大量數據資源處理中應用分布式文件系統能夠提供分布式、擴容擴展文件系統,通過該系統能夠解決數據訪問問題,同時在將分布式文件系統添加到電力信息系統內,提升電力信息系統的數據處理能力,且滿足存儲需求[3]。系統組成包括主設備與從設備,主設備主要是存儲元數據信息,從設備負責數據信息存儲,通過主、從設備結構合理部署分布式文件系統,能夠提升系統功能,擴展系統性能。分布式文件系統在出現故障時,利用文件副本能夠實現對數據信息快速恢復的目的。
分布式平臺搭建時,通過Map Reduce軟件可以以大并行方式科學計算數據。通過Map Reduce軟件框架能夠將任務發送至多個機器內,通過并行方式,同時處理大數據集,還可以確保結構化查詢語言逐漸過渡到Map Reduce軟件,簡化結構化查詢語言的處理流程,還可以縮短數據分析時間。結構示意如圖1所示。

圖1 Map Reduce軟件結構示意圖
通過圖1可知,Map和Reduce屬于獨立性的計算節點,能夠同時運算,相應提升大數據運算和處理效率,同時將計算節點逐漸轉化為存儲節點,計算本地數據,以免由于大量數據傳輸所致網絡堵塞問題[4]。
此外,分布式技術系統中,基于計算機服務器可以準確分解任務,同時匯總計算與結果,將業務運算分配至計算集群中以此實現并行計算。盡管單臺計算機的內存優先,但應用Hadoop思維方式可以由多臺計算機組成集群,所有內存運行一個任務,可以借助大存儲量分布存儲數據。在每個計算機內存內可以并行完成任務,高效完成任務。
利用分布式存儲與計算可以滿足計算集群橫向擴展性,同時降低系統成本。該框架組成包括對象管理服務器、客戶端代理以及對象服務器等。客戶端代理可以接收用戶任務,訪問對象管理服務器,確保任務分配的合理性[5]。對象管理服務器可以利用任務服務器索引表,合理分配任務,同時監控對象服務器,而對象服務器完成計算后,對象管理服務器可以接收計算結果,同時為用戶提供結果。
基于大數據的多維索引主要包括以下幾點。利用Filter階段可以初步過濾大數據候選集,通過Refinement階段能夠確保數據信息的詳細化收集,同時確保信息數據的完整性,將所需數據信息輸出去,利用索引技術能夠提升大數據信息查詢和分析的效率。此外,通過分布式平臺轉變傳統Hadoop,落實單列索引和多列索引,提升信息查詢效率。為了全面提升應用支持效果,必須注重分布式平臺建設,以此支持二級和互補等多種索引,提升索引效果。
按照數據緩存技術,以對象方式將業務系統數據緩存至內存內,提供高效索引與訪問,此種方案可以消除關系庫內的輸入輸出性能和數據查詢時間的困境,而利用內存計算技術,可以提升業務需求數據讀取速度,以此提升計算效率。
在設計過程中應當提升數據檢索與存取速度,在檢索內存數據中嘗試簡化分布式查詢的描述,定義如下數據塊。按照用戶需求與業務應用,用戶會多次調用查詢結果,返回給用戶的數據多為數據序列集合的數據塊,由用戶設置數據塊數量。在分布式查詢中,基于本地數據查詢的數據被稱為基礎數據塊,返回給用戶的被稱為結果數據塊[6]。為了獲取結果數據塊,需要多次調用基本數據塊。
為了確保插入件位置中序列定位的準確性,需要應用二分法搜素明確二進制位置,在此種方法支持下,插入位置可以準確定位。在處理數據時,具體的數據處理方法分為本地查詢和樹合并,過程如下。
本地查詢按照用戶查詢條件,在本地數據遍歷后將滿足條件數據添加至BD,BD為有序序列,新添數據為改進二分法排序,能夠確保插入位置搜索的準確性,同時將其插入到BD中。當BD數據大量超過N時,則必須移除首尾元素,以此獲得局部結果。樹合并是按照業務設置多級合并,在不同層次下,不同收集器節點可以收集不同下屬BD,不會出現收集交叉問題,因此必須由一個收集器節點收集BD,將數據順序插入至ID。在插入操作時,應用改進二分法查找位置,準確搜索插入位置,同時將其插入到ID序列中,然后判斷ID大小是否大于N,如果大于則刪除首尾元素。
基于多種處理方法搭建的分布式平臺,在滿足電力信息系統穩定性提升的同時,海量數據的存儲效果也能得到滿足,加大復雜計算和高效查詢,應用框架如圖2所示。

圖2 分布式平臺應用框架圖
通過分析分布式平臺應用框架圖可知,該平臺能夠接收終端信息,采集檔案、關系以及設備信息等數據。通過業務算法可以并行計算大數據,利用業務應用服務接口可以及時反饋相關結果,通過業務應用系統可以傳輸標準化指令。
在存儲環境方面,通過該系統在Hadoop架構上進行存儲,不但能夠接收采集信息,而且能夠同時并行ETL設備,同時針對關系型數據庫能夠獲取綜合化分析數據和檔案數據[7]。通過開發工具集可以從業務應用邏輯逐漸轉變到分布式平臺,提供多種功能,如庫表結構和索引定義等,同時能夠對所提供的各項功能實現相應的管理。基于Map Reduce實行并行計算,可以高效處理數據,并且實現計算。監控工具可以監控系統運行狀態,使工作者做好檢修與養護,促使管理系統始終處于安全穩定的運行狀態。運行調度工具利用MapReduce任務,遵循運行業務和任務規劃,使任務關聯性和依賴性持續提升,確保任務執行準確性。業務應用服務接口可提供數據結構,滿足外部服務系統的運行,并且可滿足業務標準化運行水平,如并行計算和數據查詢等均可在外部服務系統運行。
通過調研某地區電力企業的生產運營數據,涉及到7.28×108條數據信息,通過Oracle數據庫平臺和分布式并列計算平臺可以統計終端通信流量、低壓數據完整率、用戶負荷查詢以及表底電量計算等。比較用電信息采集業務效果如圖3所示。由圖3可知,該系統平臺能夠加強系統大數據處理性能,比原有性能高出7倍以上。

圖3 數據庫平臺和分布式并行計算平臺對比分析
在現代經濟發展過程中,電力資源需求量的增加,使得產生的用電數據量持續增加,加劇了電力信息系統的數據分析難度。此次研究在電力信息系統平臺搭建中應用分布式技術,通過構建算法和模型,處理電力大數據存儲、計算以及查詢難題。技術人員必須深入分析和研究大數據技術,合理應用現代化技術,以挖掘大數據內在價值信息,加強電力企業數據應用和決策水平,實現電力行業的長久穩定發展。