王鵬飛, 湯銘, 杜元翰, 李效龍
(1.國網江蘇省電力有限公司信息通信分公司, 江蘇, 南京 210024;2.國電南瑞科技股份有限公司信息系統集成分公司, 江蘇, 南京 211100)
當前國內的用電信息采集系統包括居民用電計量系統、企業用電計量系統和變電站負荷流量計量系統。張慧[1]認為居民用電計量系統以居民用電電能表為核心設備,目前國內絕大部分地區均已經普及了實時費控電能表系統,可以將居民用電按照尖峰平谷4個時段進行分別計量,當前部分地區開始逐漸普及擁有遠程物聯網抄表功能和實時錄波功能的電能表系統。妙紅英等[2]指出企業用電計量系統包括企業用電專變的電流互感器和電壓互感器系統支持的用電負荷計量系統,該計量系統與變電站負荷流量計量系統結構相似,但后者結構更為復雜多變,精密度和難度系數也更高。
馬吉科等[3]在實現用電信息采集系統自診斷功能的過程中,其核心原理為對某一負荷的用電數據特征進行大數據畫像,當該畫像數據出現突變時,即有可能出現計量系統的故障。但也可能會出現用戶大負荷用電器的增撤或者用戶實施了竊電行為。
使用多列神經網絡技術,判斷畫像數據變化的同時,在不完備數據的前提下[4],實現對計量系統故障、用電器配置變更、用戶竊電等三大主要可能性做出基于大數據深度挖掘的主動判斷,是該研究的核心創新點。
部分居民用電計量系統僅可記錄每月的用電量數據,所以考察所有計量設備的每月雙向分時用電量數據作為該數據挖掘的數據來源,采用綜合差值法對上述數據進行升維,使單一數據來源條件下的數據細節得到充分展現,解決數據不完備問題。
圖1中,對數據求取以下多次差值,以實現數據的升維。

圖1 基于差值法的數據升維方案
計算雙向尖峰平谷計量數據環比差值,得到8個直接環比差值數據;計算雙向尖峰平谷計量數據的同比差值,得到8個直接同比差值數據;針對上行或者下行數據,計算尖時與峰時數據差值、峰時與平時數據差值、平時與谷時數據差值、谷時與尖時數據差值,得到8個計量時段間的差值結果;對本月計量時間段差值結果按照第1步和第2步,分別計算其環比差值和同比差值,各得到8個二次差值數據,共16個二次差值數據。至此,得到40列差值升維數據,使可提供給畫像模塊的數據量得到充分擴充。
基于設計需求,需要對計量系統故障、用電系統變更、竊電行為影響等3種計量數據畫像變更的影響原因作出判斷,所以構建3列相對獨立的多列神經網絡進行數據挖掘分析。每列神經網絡構建結構2個相同但獨立運行的神經網絡模塊。最終分別輸出3個二值化結果[5]。該架構如圖2所示。

圖2 多列神經網絡架構圖
圖2中,未對48列輸入數據進行模糊化處理,其原因為該48列輸入結果的量綱統一為kWh,可以在輸入神經網絡時將其強制轉化為最適應神經網絡運行的雙精度浮點變量(Double)格式,神經網絡之間和神經網絡節點之間的數據傳導,也采用雙精度浮點變量(Double)格式數據。經過二值化模塊輸出的數據雖然收斂到1.000和0.000附近,但其數據結構仍然為雙精度浮點變量(Double)格式,需要在后續故障判斷模塊中給出如式(1)的判斷過程將其整理為邏輯型變量[6],

(1)
式中,當神經網絡輸出值大于0.900時,故障判斷模塊輸出邏輯真值(Logical格式),當神經網絡輸出值小于0.100時,故障判斷模塊輸出邏輯假值(Logical格式),當神經網絡輸出值介于0.100和0.900之間時,認為該神經網絡模塊未有效收斂,該神經網絡模塊自身故障。
即該神經網絡模塊可能存在2種自身故障模式。
(1)其中1列輸出的二值化結果介于0.100和0.900之間。
(2)同時出現2列或3列輸出的二值化結果大于0.900。
在對該神經網絡模塊進行數據訓練時,應確保在多次判斷過程中,均不出現上述2種自身故障,方認為該神經網絡在訓練中充分收斂。
上述多列神經網絡整體設計中,每1列神經網絡模塊均包含1個降維模塊和1個二值化模塊。3列神經網絡中,對應的降維模塊和二值化模塊內部結構相同但訓練收斂過程中的待回歸變量賦值內容不同,以形成對3種不同計量系統故障原因的判斷功能。以下討論該降維模塊和二值化模塊的設計過程。
(1)降維模塊
降維模塊將經過前置基于差值法升維計算的48列數據進行降維處理,輸出1個雙精度浮點型變量(Double格式),因為數據降維過程會造成大比例的信息損失,損失信息量需要使用降維模塊的待回歸變量進行消化[7]。所以,常規降維模塊的節點設計采用多項式回歸函數,其基函數如式(2):
(2)
式中,Xi為輸入變量集中的第i個輸入量,Y為節點輸出量,j為多項式階數,Aj為第j階多項式的待回歸系數。
因為該多項式回歸函數擁有6個待回歸系數,所以能有效的處理數據降維過程中的信息損失量。借鑒相關研究的設計方案,采用40%的降維壓縮率,每一層隱藏層將數據維度壓縮40%,故形成表1中的降維模塊分層架構。

表1 降維模塊分層架構設計參數表
表1中,除輸入層和輸出層外,共設計3層隱藏層架構,隱藏層共包含32個節點,整個模塊共包含81個節點。所有節點均采用式(2)的六階多項式回歸函數進行節點設計。該降維模塊輸出的數據,輸入到二值化模塊中進行二值化處理。
(2)二值化模塊
二值化模塊的統計學意義在于使降維模塊輸出的結果實現二值化,即使其投影向1.000或0.000進行偏移。與降維模塊需要的較大數據處理量不同,二值化模塊的設計較為簡單,數據挖掘需求較為單一。大部分數據投影整理工作均交由降維模塊處理,二值化模塊僅提供一次后置的數據重投影處理[8]。
二值化模塊采用二值化函數進行節點設計,其節點基函數可寫作式(3):
Y=∑(A·eXi+B)-1
(3)
式中,Xi為輸入變量集中的第i個輸入量,Y為節點輸出量,e為自然常數,此處取近似值e=2.718 281 828,A、B為節點待回歸系數。
因為二值化模塊無數據升維與降維操作,其隱藏層設計目的為確保模塊內擁有足夠的待回歸系數資源,且使該模塊占用的算力資源足夠小。所以,該二值化模塊的架構設計采用表2方案。

表2 二值化模塊分層架構設計參數表
表2中,該二值化模塊的輸入層和輸出層均為1個節點,隱藏層分別包含3個、7個、3個節點,整個模塊含輸入層輸出層在內,共包含15個節點,所有節點均采用式(3)二值化函數進行節點設計。
該系統在早期系統中并無可參照系統作為仿真驗證參照組數據。本實驗對比的早期方法指,對居民用電計量系統、企業用電計量系統、變電站負荷流量計量系統進行分別管理,利用較為復雜的工作流程,特別借助計量人員的現場確認和設備拆檢確認故障類型[9-10]。所以,仿真驗證參照組數據來自早期計量稽查工作的綜合日志數據。
觀察組數據來自該系統經過充分訓練收斂后,帶入近3年相關數據進行數據仿真運行,從而確定其實際數據挖掘效能。仿真系統為電力CAE系統中的SimuWorks模塊,該模塊在電力管理信息系統驗證中屬于成熟技術,具有較強的穩定性和可用性。
判斷人工介入的早期判讀結果和該系統給出的判讀結果,可以得到表3中的仿真驗證對比數據。

表3 判斷敏感性仿真驗證對比數據
表3中,t值來源與使用SPSS24.0對仿真數據進行雙變量t校驗的直接輸出結果,該結果小于10.000時,認為數據存在統計學差異,且t值越小,認為數據差異性越大。P值來源為使用SPSS24.0對仿真數據進行雙變量t校驗的log變量輸出值,當P<0.05時,認為該雙變量t校驗結果處于置信空間內,當P<0.01時,認為該雙變量t校驗結果具有顯著的統計學意義。經過分析,上述4組比較結果中,均出現t<10.000,P<0.01的分析結果,證實該系統較早期方法有顯著的統計學差異。在計量系統故障、用電系統變更、竊電行為影響和總和敏感性方面,該系統較早期方法分別實現了14.3%、83.7%、36.3%、34.8%的計算效能提升。
使用多列神經網絡系統可以將功能細分化,在僅考察電能計量系統的上行和下行計量結果中的每月尖峰平谷分時數據,即可判斷計量系統的主要故障,給出該故障的實際原因。該系統投入使用后,針對居民、廠礦企業、變電站的計量系統故障自診斷管理將實現統一化,對未來電力計量系統的整體管理效率提升有積極意義。