基于相關性分析的配電網多源數據質量提升方法

2022-06-21 01:14:24蒙小胖，孫常浩，蔡雷鳴，施廣德，金舒

計算機時代 2022年6期

蒙小胖，孫常浩，蔡雷鳴，施廣德，金舒

摘? 要：智能配電網采集數據來源廣、數據質量較差，價值密度低。因此首先對配電網中各類系統采集的數據應用K-means聚類算法進行特征提取，結合局部異常因子（LOF）算法進行異常檢測，篩選出異常數據;隨后根據數據的多維特征運用相關性分析結合數據特征對異常數據進行修正;最后通過實際工程應用，驗證多源數據質量提升方法的數據修正效果。

關鍵詞：數據質量; 關聯分析; 智能配電網; 聚類算法; 多源數據

中圖分類號：TP3? ? ? ? ? 文獻標識碼：A ? ? ?文章編號：1006-8228（2022）06-01-05

A quality improvement method of multi-source data in distribution network

based on correlation analysis

Meng Xiaopang1， Sun Changhao2， Cai Leiming2， Shi Guangde2， Jin Shu2

（1. Shaanxi Regional Electric Power Group Co.， LTD， Baoji， Shaanxi 721000， China; 2. Guodian Nanjing Automation Co.， Ltd.）

Abstract： The data collected by distribution network has the characteristics of wide sources， poor data quality and low value density. Therefore， a strategy for improving the quality of multi-source data in the intelligent distribution network is proposed. Firstly， the K-means clustering algorithm is applied to the data collected by various systems in the distribution network for feature extraction， and the local outlier factor （LOF） algorithm is used for abnormal detection to screen out abnormal data. Then， according to the multi-dimensional characteristics of the data， the abnormal data is corrected by correlation analysis combined with the data characteristics. Finally， the effect of multi-source data quality improvement algorithm is verified by practical engineering application.

Key words： data quality; correlation analysis; intelligent distribution network; clustering algorithm; multi-source data

0 引言

智能配電網信息化和智能化的程度不斷提升，配電網采集數據逐步呈現多源、異構的大數據特征[1]。對海量多源數據進行整合，可以為配電網運行態勢感知[2]，運行狀態綜合評價提供重要數據支撐。

配電網數據采集終端由于數量多、分布廣并且部分終端環境惡劣，工況復雜，在采集和通信過程中經常發生數據丟失或異常現象[3]。異常數據嚴重影響數據挖掘分析的效率，對缺失或者異常數據進行統計分析會使得結果與實際值差別較大，影響預測精度和運行控制決策的準確性[4]。因此，如何對配電網采集的多源數據進行異常檢測和數據預處理是配電網大數據分析的前提和基礎。

近年來，對于大數據技術在配電網中應用已有很多研究成果。文獻[5]對大數據在電網中的應用場景進行了總結。文獻[6]提出一種基于大數據分析的配電網態勢感知方法，通過對配電網運行歷史數據進行分析預測電網運行的趨勢。文獻[7]運用大數據技術對配電網運行歷史數據進行挖掘和評估，實現配電網的風險預警。但研究成果大多集中在數據分析層面，對底層多源數據融合以及數據質量的提升研究較少。對于配電網的大數據分析應用而言，數據的多源融合是基礎，數據質量的好壞，對數據挖掘效率和結果準確性有重要影響。文獻[8]采用插值法對電網采集數據中缺失較少且變化較為平緩的數據進行修正，取得較好效果;文獻[9]提出一種基于數據動態治理和修復策略的配電網數據質量提升管理平臺架構。文獻[10]提出基于自適應模糊神經網絡模型對風電缺失數據進行填補，取得較好效果，但不適用于大面積數據缺失。以上對數據質量提升的研究大多基于某一維度或者某一方法對數據異常進行修正，應對大數據量和連續、大面積的異常數據處理較為困難。配電網中各個系統采集數據之間關聯性較強，其多維關聯性特征不可忽視。因此，本文根據配電網數據的多維相關性特點，采用聚類算法和相關性分析結合的方法提升數據修正的效率和效果，從而提升配電網整體數據質量，成為大數據分析和應用的有力支撐。

1 多源數據質量提升整體架構

多源、異構的數據場景給數據集成帶來困難并且使得信息系統產生數據質量問題。針對這些問題，本文提出一種多源融合數據質量提升架構如圖1所示。

架構包含數據來源層，數據存儲層，數據質量管理層以及數據發布層。該框架通過分析不同數據源數據特征進行分庫存儲;隨后通過數據質量管理模塊對數據整體質量進行把控;最后將修正數據進行整理發布，支撐智能配電網的大數據分析應用。

2 多源數據質量提升方法

系統數據質量管理模塊首先對缺失數據進行檢測，并進行補0操作;隨后采用K-means聚類法對系統輸入數據進行特征提取，結合LOF算法進行異常數據篩查。數據修正模塊通過多維數據相關性特征來進行數據修正。

2.1 異常數據檢測方法

LOF算法是一種基于數據密度對異常點進行篩選的高精度算法，能夠量化數據的異常程度，在數據清洗和異常檢測中具有廣泛應用。傳統LOF算法需要計算數據集合中所有數據兩點之間的距離，導致復雜度達高，難以應對大規模數據[11]。

本文運用K-means算法[12]與LOF算法結合進行異常數據檢測，首先運用K-means算法將相同數據特征的數據進行聚類，隨后運用LOF算法對每個類簇中的數據進行異常篩查，最后將待檢測數據集篩選出異常數據。K-means算法可以用于數據特征提取，降低LOF算法復雜度，LOF算法對類簇內異常值進行檢測可以增強K-means數據特征提取的準確性和效果。

2.1.1 K-means聚類法數據特征提取

配網系統采集數據具有較強的周期性，采用數據挖掘中的K-means聚類法對數據進行分析，獲取采集數據的數據特征。

K-means算法的主要思想是將n個對象劃分為K個類簇[C1…CK]，每個類簇具有較高的相似度。算法的優化目標是最小化類簇的平方誤差E。

[E=i=1Kx∈Cix-ui22]? ⑴

其中，[ui=1Cix∈Cix]為類簇[Ci]的聚類中心。

其算法流程如下。

⑴ 從數據集合D中選取K個初始聚類中心點。

⑵ 計算集合內各個數據點到聚類中心點之間的歐幾里得距離（公式2），選取最近的聚類中心點并納入到該類中。

⑶ 計算完所有數據點后對各個類簇重新計算聚類中心。

⑷ 判斷聚類中心是否發生變化，如果發生變化則返回步驟⑵，如果不發生變化則輸出結果。

2.1.2 LOF算法概念

LOF算法的核心概念有以下四點。

⑴ 第k距離鄰域：給定一個數據集合D，對于集合內的任意一點p，計算其他點與p點的歐幾里得距離并從小到大排序，第k個記為該點的第k距離，第k距離以內的所有點為第k距離鄰域，記作[Nk（p）]。其中歐幾里得距離可以表示為：

[distp，q][=（p1-q1）2+（p2-q2）2+…+（pn-qn）2] ⑵

其中，[ p]和[q]分別為n維空間中的兩個數據點，[dist（p，q）]為兩個點之間的歐幾里得距離。

⑵ 可達距離：空間中p點和o點之間的可達距離定義為點o的第k距離和[dist（p，o）]之間的最大值，記為[reach-dist（p，o）]。

⑶ 局部可達密度：數據點p的局部可達密度[lrdk（p）]為它鄰近點之間平均可達距離的倒數。

[lrdk（p）=1o∈Nk（p）reach-dist（p，o）Nk（p）]? ⑶

⑷ 局部異常因子：局部異常因子為點p鄰域內點的局部可達密度與點p的局部可達密度之比的平均值，記為[LOFk（p）]。

[LOFk（p）=1Nk（p）o∈Nk（p）lrdk（o）lrdk（p）]? ⑷

根據局部異常因子的定義，[LOFk（p）]值在1左右說明點p數據密度與其鄰域內點的數據密度相當;當[LOFk（p）]遠大于1或者遠小于1則說明點p與其他點較為疏遠，為異常點。

2.1.3 算法流程

基于K-means聚類和LOF算法的數據異常檢測流程如圖2所示。

通過兩種算法結合，我們可以提取數據集合的特征，并篩選出數據集合中的異常數據。隨后通過數據的多維相關性，來對異常數據進行修正和填補。

2.2 多維數據相關性分析原理

本文相關性分析算法采用皮爾遜相關系數法[13，14]來衡量不同來源數據之間的相關性;隨后通過熵權法計算變量之間的權重關系。

2.2.1 皮爾遜相關系數

皮爾遜相關系數的計算公式如下：

[ρx1，x2=Cov（x1，x2）σxσx2]? ⑸

其中，[x1，x2]分別為n維數據變量，[σx1， σx2]分別為[x1]和[x2]的標準差，[Cov（x1，x2）]兩者間協方差。協方差計算公式如下：

[Cov（x1，x2）=i=1nx1（i）-x1x2（i）-x2n-1]? ?⑹

皮爾遜相關系數用于評價兩個數據之間的相關性，當相關系數大于某一特定值則認為兩個數據具有強相關性。

2.2.2 熵權法確定權重

熵權法[15]通過指標所含信息量大小來確定權重，能夠有效地利用數據，排除主觀因素影響。首先根據公式⑺計算各個變量之間的熵。

[Εj=i=1mρx1，x2lnρx1，x2lnm ]? ⑺

各個變量的權重也可以由公式⑻獲得。

[ωj=1-Εjj=1m1-Εj ]? ⑻

權重[ωj]體現了指標信息量的大小，能夠量化指標對于結果的影響。[j=1mωj=1]。

2.3 基于多維數據特征的配電網數據修正方法

配電網數據采集周期選定為T=24h。采集的數據集合[C={c1， c2，…，cM}]中包含有M個屬性（如電流、電壓等）。對于屬性[ci]的異常數據集合，基于多維數據特征的數據修正方法如下。

⑴ 運用K-means聚類法對集合C中的各項屬性歷史數據進行特征提取，運用LOF異常檢測算法篩選出異常數據集合和正常數據集合。

⑵ 選取各屬性的正常數據集合，通過關聯分析計算各個屬性之間的皮爾遜系數。對于需要修正的屬性[ci]，篩選出與其強相關的m個屬性建立各個屬性之間的皮爾遜相關系數矩陣[Σ]，運用熵權法確定各自權重[wj，j=1，2，…，m];

⑶ 屬性[ci]的異常數據集記為[Xi={xi1， xi2， …，xin}]，對于其中一條異常數據記為[xik， k=1，2..n]，在m個強關聯屬性中選取[ci]的一個強關聯屬性[cj]，在其數據集合[Yj={yj1， yj2， ...，yjn} ]中尋找與[xik]相同時間歷史數據點記為[yjk]，[ yjk]所處類的聚類中心記為[yj*k]。

⑷ 在選取所有m個強關聯屬性后，通過加權求和求得原始數據的最優修正結果：[xi*k=j=1mwjyj*k]。

⑸ 選取[Xi]中的下一條異常數據，重復步驟⑶和⑷直到所有異常數據被修復。

數據數據質量提升流程可以總結如圖3所示。

3 實際應用驗證

這里以陜西地電電力公司應用的數據服務中心的運行采集數據作為實例驗證本文提出的數據質量提升策略的有效性。

數據服務中心接入數據包括：電力公司的營銷系統、配電自動化系統、故障搶修管理系統的業務數據。

3.1 關鍵技術驗證

本文以配電自動化系統中遙測數據50組采集數據為例，驗證數據質量提升技術的應用效果。

首先根據歷史數據關聯性分析，得到與饋線A端斷路器A相電流采集數據強關聯的屬性（皮爾遜系數）。如表1所示。

隨后通過本文的數據質量提升方法進行異常數據的檢測和修正，修正后的歷史數據存入修正庫。

通過數據質量管理流程前后饋線電流缺失數據修正情況如圖4所示，異常數據修正情況如圖5所示。

從數據質量管理結果來看數據修正方法能夠有效檢測并修正缺失數據和異常數據，并且對于連續、大面積缺失或者異常數據有較好效果。

3.2 算法對比

為了進一步驗證算法在異常數據辨識、修正效率和效果上的優勢。本文運用不同算法到同一算例中進行仿真，評價指標選用精確率（precision rate）和召回率（recall rate）來測試算法效果。最終結果如圖6所示。

從圖6可以看出本文運用的改進LOF算法與LOF算法的精確率和召回率均在90%左右，對比于傳統運用統計學[3σ]方法提升較大。而根據圖7在不同樣本數據條件下的算法運行效率，LOF算法對樣本數量最為敏感，其次為統計法，而改進的LOF算法由于首先運用K-means法進行據類處理，能夠在數據數量較大時保持較高的求解速度。

4 結束語

本文提出一種基于數據多維特征分析的數據質量提升策略，針對配電網采集數據量大、質量低的情況，通過聚類算法與相關性分析的結合，對異常數據進行多維數據修正，從而提高數據質量。實際應用表明，策略能有效提高配電網數據質量，擁有較高的運行計算效率，應對連續、大面積數據異常效果較好，可以為智能配電網大數據分析應用提供基礎和有力支撐。

參考文獻（References）：

[1] 吳爭榮，俞小勇，董旭柱，等.基于狀態估計的配電網實時態勢感知與評估[J].電力系統及其自動化學報，2018，30（1）：140-145

[2] Sharma A，Nazir S，Ernstsen J. Situation awareness information requirements for maritime navigation： A goal directed task analysis[J]. Safety Science，2019，120：745-752

[3] 艾欣，趙旭州，胡寰宇，等.G1-熵權-獨立性權法在電網發展態勢感知中的應用[J].電網技術，2020，44（9）：3481-3490

[4] 冷喜武，陳國平，蔣宇，等.智能配電網監控運行大數據應用模型構建方法[J].電力系統自動化，2018，42（20）：115-123

[5] 孫立華，胡牧，孟慶強，等.配網線損大數據高性能計算解決方案[J].計算機與現代化，2016（12）：42-50

[6] 王珣，陳小卉，尹悅.用電行為大數據分析探索與實踐[J].電力需求側管理，2018，20（1）：54-58

[7] 黃蔓云，衛志農，孫國強，等.基于歷史數據挖掘的配電網態勢感知方法[J].電網技術，2017，41（4）：1139-1145

[8] 劉科研，吳心忠，石琛，等.基于數據挖掘的配電網故障風險預警[J].電力自動化設備，2018，38（5）：148-153

[9] HeXing，AiQian， QiuRC， et al.A big data architecture design for smart grids based on random matrix theory[J].IEEE Transon Smart Grid，2017，8（2）：874-886

[10] 秦麗文，梁朔，高立克，等.全面數據質量管理框架在配電網領域的應用分析[J].電力系統及其自動化學報，2020，32（4）：62-68

[11] Goldstein， Markus..FastLOF： An Expectation-Maximiza-tion based Local Outlier Detection Algorithm[C].Proceedings-International Conference on Pattern Recognition，2012：1-6

[12] 張春平，楊波，楊志.分布式內存電網關鍵技術研究及應用[J].計算機與現代化，2016（12）：51-56

[13]唐偉斌，李濤，鄒品晶，等.基于皮爾遜相關系數的電網夏季空調負荷預測研究[J].電力需求側管理，2017，19（6）：7-13

[14] 林俐，周鵬，王世謙，等.考慮相關性的地區風電出力對調峰容量的影響分析[J].現代電力，2016，33（6）：21-26

[15] ChenWen，ZhouKaile，YangShanlin，et al.Dataquality of electricity consumption data in a smart grid environment[J].Renewable and Sustainable Energy Reviews，2017，75：98-105