趙小凡,杜舒明,梁雪青
摘 要:電網數據中臺建設和實踐探索的目的是夯實電網數據應用基礎,提升數據應用的質量以及服務水平,借助技術手段,采集、分析數據,彌補數據系統存在的漏洞。文章圍繞電網數據中臺數據質量展開探索,提出數據質量校驗的實踐方案,為政府科學決策、電網建設與質量服務效能提升、資源共享與數據精準分析等方面提供參考。
關鍵詞:電網數據;數據質量;數據校驗
中圖分類號:C39 文獻標識碼:A 文章編號:1674-1064(2021)12-0-03
DOI:10.12310/j.issn.1674-1064.2021.12.018
電網質量保障要確保電力調度系統中各類運行數據正常傳輸,依靠技術手段和平臺建設,解決數據采集、數據傳輸、外界因素的影響和網絡傳輸速度延遲等問題,保障數據運行中不會因為上述不正常因素造成傳輸中斷,造成源數據異常和錯誤,影響和干擾數據調度綜合數系統中數據運行的正確性與及時性。因此,需要可靠的數據質量校驗方法,保障各類數據質量以及系統運行穩定。
1 電網企業數據平臺和系統功能優化的背景
結合國家電網企業相關數據分析,接入智能電表等各類終端5.4億臺,采集數據日增量超過60 TB,車聯網接入充電樁超過28萬個,電商平臺注冊用戶2.25億,在線采集全國約4.71億用戶的用電信息,線上繳費率超過50%。電網企業信息化系統建設為業務進展和企業經營提供支持,保障電網運行穩定和數據傳輸暢通無阻,為電力用戶提供優質的服務,實現各級業務展開和部門及時溝通,并以信息化手段全方位監測電力系統。
雖然借助技術手段處理電力系統數據以及業務開展有很大的優勢,但是也存在一些不足之處:一是電力業務上仍是“部門級”,各業務系統圍繞各自部門的業務單獨運用,造成業務流程斷點,形成數據壁壘;二是技術上信息化資產和能力未能積累,電力系統中的業務服務能力和數據共享與處理能力都相對薄弱,建設成本投入較大;三是管理和服務理念上有待強化。
從現階段各部門系統數據的實際應用看,各部門仍未充分發揮數據在業務運行、工作效率等方面的作用和價值,要完整采集所有數據信息,實現數據信息的實時共享,挖掘數據信息的作用價值,確保數據信息在各部門業務運行中的價值最大化。針對這一現狀,首要任務是要采集與整合數據資源,加強數據資源的實時共享與對外合作程度,全面優化改進中臺系統。數據中臺能夠將系統的前臺與后臺有效銜接,通過加強數據的建模、數據信息的聚合,創建多元化的系統平臺,更好地支撐前臺與后臺的運作。
數據中臺與企業部門業務活動聯系密切,在企業業務運作中發揮至關重要的優勢作用。一方面,通過建立完整的數據模型實現了數據信息的準確出入,最大限度地避免了多個數據源數據信息重復歸集的現象產生,提升了系統處理和分析數據的運行質量和效率;另一方面,節省系統數據處理時間和成本,通過提高處理運行效率,減少數據信息重復濫用現象。
2 數據應用系統功能分析
2.1 數據校驗與修復
數據校驗功能要立足于長期業務工作,并對其各項業務數據經過系統分析總結而成。國家電網經過數據中臺建設可以在綜合數據調度平臺運行中及時發現和解決各種問題,根據企業業務的實際需求應用系統對數據分析,經過數據校驗與修復建立數據規則庫,利用數據規則庫確定問題解決的路徑,通過一系列規則建立推理過程[1]。
數據校驗與修復的具體操作方案可以通過同步與采集組件從外系統接入模型設備信息和各類運行數據,然后校驗數據。如果校驗結果顯示數據問題,就會自動根據相應的規則進行修復,再將修復的結果錄入數據庫,反映至人機界面,便于用戶判斷及操作。
2.2 缺失數據處理
數據平臺采集數據會出現數據缺失的情況,對后續數據分析和處理造成很大的影響,要盡可能彌補統計領域和數據庫領域數據缺失造成的損失。
統計領域中處理缺失數據的方法主要有單一填補法和多重填補法。單一填補法是對缺失的數據構造單一替代數據進行填補,填補方式通常有平均值或中間數填補法、回歸填補法、最大期望填補法、hot deck填補法等。其中,hot deck填補法采用與缺失數值最相似的觀測變應量值作為填充值,但其無法準確反映原有數據的情況,因為相似性填補方式會造成數據集的不確定性,產生數據偏差[2]。多重填補法是通過應用多個數據值進行填補,其優勢在于通過對缺失數據分布情況的模擬保持變量之間的關系,通過采集完整數據集,利用系統規則獲得相應的結果,填補方式通常有趨勢得分法等。
2.3 異常數據檢測
數據出現異常情況主要由兩種原因造成:一是數據的固有變異性;二是度量或執行錯誤。
檢測與校驗數據異常問題的方法要通過數據審計,深入挖掘數據質量。第一,數據概化,采用數據統計方式概化描述數據分布,并自動獲取數據的分布特點以及相關情況。第二,圍繞個別數據質量問題以及異常情況進一步挖掘和分析,可以將數據按照距離細化為不同的數據層,按照每一數據層統計數據特征,結合定義的距離算出每個數據節點與中心的距離,以此作為判斷數據異常的依據。第三,采用數據統計發現數據異常情況,這種方法大體依靠數據挖掘算法,通過數據算法準確辨別數據異常情況,挖掘數據價值,在此基礎上采用決策樹算法進行數據模擬,通過數據算法發現數據偏差[3]。
2.4 邏輯錯誤檢測
數據編輯修正研究的核心內容在于運用自動化方法,尋找并解決與業務邏輯運行相違背的數據錯誤,對此,要充分考慮到電力調度范圍內各項數據的不同特點,針對不同數據的不同特征實現具體化、差異化應用,最大程度地反映數據邏輯錯誤。
對于這一方式的數據錯誤檢測思路,主要是以相關領域的知識原理為應用基礎,建立起相應的規則體系,借助自動化設備、技術,實現各項數據的自動化處理,這種自動化處理結果主要通過嚴謹的數學模型,體現各項數據的實際變量,同時依據相應的數據編輯修正規則有針對性地做出最小的改動,以達到規則要求的實際效果。
2.5 不一致數據處理
電力調度范圍內常會出現多個獨立數據源相互重疊。數據內容相互重復的現象,造成數據不一致、不統一的情況,而多幾個數據源數據內容的集成清晰成為當前最重要的內容,如何從數據不一致情況中提煉出最精確的數據結果是集成清晰工作面臨的一大難題。當前主要通過排序、融合和依據規則的方式,進行不一致數據處理,系統平臺將不一致數據自動識別為上下獨立性沖突和依賴性沖突。獨立性沖突受到外部環境隨意性因素的影響而導致出現數據不一致情況,因而常需要通過人為干預和固定的方式進行處理。依賴性沖突多受到系統內部不同數據源之間的差異、重疊等因素的影響,針對這種情況常通過轉換系統內部學習規則,運用相關知識原理加強系統學習的方式,解決數據不一致問題。
除此之外,要評估各項數據值依據不同的指標參數,注重評估值的完整性,依據各項數據值的線性組合序列確定唯一可信的數據值。
3 質量校驗方法實踐分析
3.1 數據校驗索引的構建
基于關聯規則電網不安全大數據下獲取的不安全數據,要針對這類不安全數據利用電網大數據技術進行質量校驗研究,對于計算出的誘發度,以增量式校驗方法全面校驗誘發因子,確定增量數據記錄結果。
隨著電網企業業務數據的增多,數據質量校驗涉及的數據為結構化數據,所有數據都會如實記錄在HBase表中,要及時更新數據,校驗數據庫中的歷史數據及增量數據,結合數據規則完成相應處理。對增量式校驗要保障在電網大數據誘發計算結果全部錄入并儲存到基準表。電網每天會產生1萬左右的數據量,為提高數據質量,要對比電網大數據,對照基準表每條數據記錄,經過數據索引,檢索兩張表中是否同時存在某一待比對字段值,其對應的記錄是否一致,完成對電網數據記錄和數據校驗。
此外,要結合數據校驗規則,設計快速數據索引表。要結合數據校驗的索引構建,建立快速索引和存儲機制,提高數據校驗的計算速度,提高數據質量校驗效果。
3.2 數據中臺設計的總體思路
建設數據中臺要圍繞需求導向,結合電力企業的業務及數據分析應用的需求,設立數據校驗統一標準,建設數據模型,實現數據接入轉換和整合貫通,突破數據壁壘,建立健全電網企業數據質量把控與服務管理體系,打造電網建設、電力產業以及金融經濟等各個模塊的數據互通共聯,實現數據接入、傳輸及整合,提升數據應用的服務效能。
第一,打造電力企業數據共享的管理體系要融合人員、組織、客戶、供應商等各項數據,建立多維度管理內容。
第二,圍繞企業大數據應用,要積極開發數據化產品,利用企業內外數據支撐數據管理體系和數據分析應用的構建,提高數據服務能力,推動企業數據運營和系統服務水平,利用各種數據分析和校驗方法挖掘其價值。
第三,要建立企業內外管理一體化,集政府決策、社會服務、領導決策等內容的精細化管理,實現內外互通,支撐企業內部決策與管理,并對外為社會提供服務,積淀具有高價值的數據服務空間。
第四,構建數據中臺,要充分借助現代信息技術和通信技術,讓電力系統各環節數據實現人機交互,提升數據采集、獲取信息、靈活應用等能力,建立統一化的數據中臺,打造一網通辦、實時數據更新的一套業務流程。
總體來說,為全面加強數據中臺系統信息化建設,要從以下幾個方面入手,注重數據信息外部價值與內部價值的有機結合。
首先,要充分明確中臺系統建設理念,從數據內外部環節結合的方向考慮并改進,打破內外部數據壁壘,實現數據信息內外部環境的交互作用;制定統一的數據標準版,實現數據信息出入口徑的統一,為后續數據信息的處理分析以及價值挖掘夯實基礎;重視數據信息的資產化功能,通過對數據進行收集整合并形成系統建模,促使數據信息形成可通用的信息資產。促進中臺數據信息與企業業務之間的聯系,通過為企業決策提供更精確的數據分析結果,全面體現數據信息的作用和價值;優化數據的智能化程度,充分利用算法等技術提高數據信息的智能化服務水平,為系統前臺、后臺提供更全面的需求。
其次,注重數據信息功能作用的重點建設。一是指數據的接入,注重數據收集轉換、復制遷移等功能的提取,將不同獨立數據源有序接入中臺系統。二是指數據的管理與存儲、計算,依據相應的數據標準和要求,結合中臺系統提供的多個數據源,對各項數據實行差異化具體分析與存儲,運用AI算法進行數據的分析處理。三是數據建模要提取中臺系統內部數據集,借助建模工具建立相應的數據模型,包括證據整合模型、分析應用模型等。
最后,中臺系統數據信息的服務功能包括數據信息的自動化識別記錄以及數據智能化監控功能,只有明確系統優化改進的建設理念與建設功能,才能確保系統設計方案制定的完整性和可行性。
3.3 數據校驗與修復的架構
數據平臺建設主要用于完成對系統數據調度、對外網多元業務數據的采集與質量校對、對歷史數據與新的數據的整合融通,實現統一化、系統化的數據模型構建,完成調度整合數據的發布與共享,通過信息技術和通信技術展現不同階段業務信息,為調度信息化提供數據支持和參考依據。
對于綜合性數據平臺建設的邏輯結構可以劃分為基礎服務層、數據整合層、模型層等。基礎服務層主要包含統一任務調度服務、電網社會模型服務、通用數據訪問服務、權限管控服務。數據整合層主要包含數據整合、設備同步、加工處理、管理監控、數據維護、數據校驗、遷移重載、共享發布。數據模型層主要包含電網設備對象模型和整合數據模型。通過在其綜合數據平臺的數據處理層進行數據校驗,平臺能夠以最快的速度識別、記錄、校驗和修復,及時發現數據異常問題。
4 結語
電網運行和每天涉及的業務量會產生大量數據,要通過數據系統支持完成數據質量校驗事務,通過分析不同數據完成業務和工作調度。
在電網信息化建設和運行管理與服務中,涉及內容和影響因素較多,因此,要通過信息技術等手段和平臺建設完成對數據的精確測量和分析,通過綜合評價方法系統評估。同時,要圍繞需求導向,以數據質量為切入點,建立系統化管理體系。
參考文獻
[1] 谷泓杰,黃麗麗,王佳妮.電網綜合數據質量評價系統及其軟件實現[J].電工技術,2021(10):122-124,128.
[2] 冷俊.大力推進數字化轉型 打造高質量發展新引擎[N].國家電網報,2021-04-01(003).
[3] 梅傲琪,張銳,周立德.以數據質量為核心的電網調度數據治理應用研究[J].機電信息,2020(33):14-15.