劉 蘇,黃 純,侯帥帥,黃世付,李建奇
(1.湖南大學電氣與信息工程學院,湖南省長沙市 410082;2.常德國力變壓器有限公司,湖南省常德市 415000;3.湖南文理學院計算機與電氣工程學院,湖南省常德市 415006)
戶變關系是低壓拓撲關系中的核心內容,也是準確性和完整性相對較低的環節[1]。低壓配電網處于電網的末端,直接服務用戶,但由于其現場接線形式和戶變關系復雜,現有電網營銷管理系統中的戶變關系存在缺失和錯誤,且缺乏有效的校核手段,需要研究有效的戶變關系識別方法[2]。
近年來,隨著智能電表等終端設備在配電網的普及,電網對臺區配電變壓器(以下簡稱臺變)和用戶電氣量的采集更為方便,為分析戶變關系提供了信息基礎[3]。目前,臺變和用戶電氣量相似性的原理是識別戶變關系的重要切入點[4-6]。文獻[7-10]采用Pearson相關系數法判斷臺變與用戶電壓序列的相似性,但相似度閾值難以確定,對缺失電壓數據需采用插值辦法彌補,過程較煩瑣。文獻[11]采用灰色關聯分析(grey relational analysis,GRA)進行戶變識別,也需要對缺失數據進行插值處理。文獻[12]采用改進調頻特征信號與離散Fréchet距離結合的戶變關系識別算法,識別準確率高,但對硬件設備和通信條件要求較為苛刻。文獻[13]采用離散Fréchet距離量度用戶與臺變電壓曲線之間的相似度,解決了相似度系數閾值選取的問題,但需要多個訓練樣本進行多次驗證。文獻[14]采用離群點算法對戶變關系進行糾錯,但該算法依賴于待測對象鄰域內數據點個數的選取。文獻[15]采用改進離群點算法分析用戶環域內的離散程度,避免了數據點個數的選取,但待校驗用戶的環域范圍對結果影響較大,且不同臺區環域范圍取值不同,不具有普遍性。文獻[16]采用高級量測體系數據,利用電壓數據建立多元回歸模型,以各分支線建立方程的殘差平方和最小為優化目標進行求解,但是過程較煩瑣。文獻[17]利用電壓數據進行相關性分析,得到準確的戶變關系,但沒有對電壓數據缺失的情況進行分析。文獻[18]在電壓數據分析的基礎上,利用負荷間節點電壓和支路電流的相關系數,綜合進行相關性分析。
還有一些研究通過聚類算法來識別戶變關系。文獻[19]根據同一臺區下臺變和用戶電壓過零偏移特征相似的原理,采用k-means算法對臺變和用戶進行聚類,但這種方法對初始聚類中心敏感,聚類中心數目和聚類參數會對結果造成影響。文獻[20]采用核模糊均值聚類,不斷優化聚類參數,避免了初始聚類中心和聚類參數的影響,提高了聚類精度和效率,但算法復雜。當智能電表上傳的電壓數據存在缺失或異常時,傳統方法如Pearson相關系數法和灰色關聯分析算法需要對帶有缺失或異常的電壓序列進行數據清洗和插值。不同插值算法補全的電壓數據不同,可能影響戶變關系的識別結果。
本文依據臺變電壓和用戶電壓相似性的原理,采用導數動態時間彎曲(derivative dynamic time warping,DDTW)算法和基于密度的有噪空間聚類應用(density-based spatial clustering of application with noise,DBSCAN)算法對戶變關系進行識別。與動態時間彎曲算法(dynamic time warping,DTW)相比,DDTW算法增加了對電壓曲線形狀特征和變化趨勢的分析,可解決DTW算法在不同臺區電壓接近時戶變關系誤判率高的問題。依據計算得到的DDTW距離,采用DBSCAN算法對臺變和用戶進行聚類,以識別戶變關系。為減小DBSCAN算法中參數半徑和密度閾值對聚類結果的影響,引入概率的思想,多次改變參數進行聚類得到戶變關系的概率性結果。本文方法無須考慮電壓數據缺失問題,也無須人為設定閾值,戶變關系識別準確率高。
低壓配電網接入用戶眾多,當負荷波動時,臺變和用戶電壓也處于波動狀態。在同一臺區下,由于電氣距離相對較近,臺變低壓側電壓和用戶側電壓的波動曲線呈現相近的趨勢;在不同臺區下,用戶由于電氣距離相對較遠,電壓的波動曲線相似度較低[21-24]。本文基于電壓波動曲線的相似性原理對戶變關系進行識別與校驗。
本文利用DDTW算法對臺變和用戶電壓時間序列的相似性進行分析。首先,對每個電壓時間序列中的元素進行處理,用斜率和標準化的思想提取電壓波形的形狀特征和變化趨勢。然后,利用動態規整的思想調整2個電壓序列不同時間點元素的對應關系,為2個電壓序列找到最優彎曲路徑,使沿該路徑的2個電壓序列的距離最 小[22]。DDTW距離越小,則2個電壓序列越接近,越有可能屬于同一臺區。
電壓序列A和B的DDTW距離dDDTW(A,B)定義為:

式中:C為原序列經處理后的序列A′*和B′*的動態時間彎曲路徑組成的集合;s為每一條路徑中元素的個數;lr為路徑中第r個點的坐標;d(·)為距離函數。
DDTW距離的詳細計算過程如附錄A所示。


2個電壓序列的DDTW距離越小,說明二者電氣距離越近,越有可能屬于同一臺區。但實際中很難設定一個合適的DDTW閾值來判斷2個電壓是否屬于同一臺區。本文依據電壓序列間的DDTW距離,采用DBSCAN算法進行戶變識別,無須人為設定閾值。
DBSCAN算法包括鄰域半徑μ和密度閾值δ這2個重要參數。戶變識別時,將臺變與用戶節點進行編號,以任意節點的電壓序列為中心、μ為半徑畫圓,以DDTW量度節點電壓序列間的距離,統計圓中節點個數是否達到密度閾值δ,若達到則歸為一類。由密度關系導出的最大密度相連的節點集合,作為聚類的一個類別,直至除噪聲以外的所有節點確定所屬類別。
參數μ和δ的設定對聚類結果會產生影響。為避免這種影響,設置μ在0~μbest以步長0.1變化,δ在1~δbest以步長1變化,通過多次聚類,得到臺變和用戶節點屬于同一臺區的概率性結果。其中,μbest和δbest分別為μ和δ的最優值,見式(3)和式(4),詳細推導過程如附錄B所示。



基于DDTW距離和DBSCAN算法的低壓臺區戶變關系識別方法的具體實現步驟如下。
步驟1:導入低壓臺區用戶智能電表和臺變的歷史電壓時間序列。
步驟2:計算臺變低壓側電壓序列和用戶電壓序列間的DDTW距離。
步驟3:設定初始聚類參數μ和δ,根據步驟2中的DDTW距離對臺變和用戶進行聚類。
步驟4:記錄步驟3結果中臺變和用戶屬于一類的次數。
步驟5:改變聚類參數μ和δ,重復步驟4,直至達到預定聚類次數。
步驟6:計算臺變和用戶屬于同一臺區的概率性結果,對戶變關系進行識別。
戶變關系識別的算法流程圖見附錄C圖C1。
DTW算法只考慮電壓數據大小的差異,其計算的結果僅反映臺變與用戶電壓數據的接近程度。DDTW算法不僅能反映2個電壓數據之間的大小差異,還能反映電壓曲線的形狀特征和變化趨勢間的差異。因此,DDTW算法比DTW算法更適用于識別戶變關系。
為了衡量臺變與用戶電壓數據的接近程度,設電壓距離度為α,采集到的m個臺變和m個用戶的電 壓 時 間 序 列 分 別 為X={x1,x2,…,xm}和Y={y1,y2,…,ym},則有

簡單低壓網絡的拓撲結構如圖1所示,在Simulink中建立包括2個臺變(T1和T2)與4個用戶(C1、C2、C3和C4)的簡單網絡仿真模型。

圖1 簡單低壓網絡拓撲Fig.1 Topology of Simple low-voltage network
設臺變T1和T2的電壓分別為UT1和UT2,用戶C1的電壓為UC1,則UC1與UT1和UT2的DDTW距離差 ΔdDDTW(UT1,UT2,UC1)和DTW距 離 差ΔdDTW(UT1,UT2,UC1)分別如式(6)和式(7)所示。

定義電壓距離度之比為k,表示不同臺變到用戶的電壓距離度之比。UT2與UC1和UT1與UC1的電壓距離度之比k(UT2,UT1,UC1)為:

在圖1中,多數情況下UT1高于UT2。但是當臺變T1的負荷過大,臺變T2的負荷過小時,UT2可能略高于UT1。本算例給定4個用戶的有功功率和無功功率的數據,不斷改變線路參數R,使UT2從遠小于UC2至略高于UT1的范圍內變化。以C1、C2、T1和T2的關系為例,多次仿真得到ΔdDDTW(UT1,UT2,UC1)和ΔdDTW(UT1,UT2,UC1)隨k(UT2,UT1,UC1)的變化,以及ΔdDDTW(UT1,UT2,UC2)和ΔdDTW(UT1,UT2,UC2)隨k(UT2,UT1,UC2)變 化 的 曲 線,如 附 錄C圖C2所示。由圖C2可知,若ΔdDDTW(UT1,UT2,UC1)<0,則用戶C1屬于臺區1,戶變關系識別結果與圖1設定一致。若ΔdDDTW(UT1,UT2,UC2)<0,則用戶C2屬于臺區1,戶變關系識別結果與圖1設定一致。
通過改變線路參數,模擬UT2從遠小于UC2到略高于UT1,臺變與用戶電壓接近程度不同時,考察DTW與DDTW這2種算法的戶變識別準確性。結合附錄C圖C2,將UT2的變化范圍分成5個階段,以用戶C2為例,將k(UT2,UT1,UC2)記為k。
階 段1:UT2遠 小 于UC2,UT2逐 漸 靠 近UC2,且α(UT2,UC2)>α(UT1,UC2),此 時k>1,UC2更 接 近UT1。
階 段2:UT2小 于UC2,UT2逐 漸 靠 近UC2,且α(UT2,UC2)=α(UT1,UC2),此時k=1,無法判別UC2與UT1和UT2的接近程度。
階段3:UT2小于UC2,UT2繼續靠近UC2。當UT2超 過UC2時,逐 步 靠 近UT1,且UT2小 于UT1,α(UT2,UC2)<α(UT1,UC2),此 時0.2<k<1,UC2更接近UT2。UT2不等于UC2,故k值存在下限0.2。
階段4:UT2小于UT1,UT2逐漸靠近至等于UT1,且α(UT2,UC2)=α(UT1,UC2),此時k=1。
階 段5:UT2繼 續 增 加 至 略 大 于UT1,且α(UT2,UC2)>α(UT1,UC2),此 時k>1。直 至T2與T1間線路參數 為0,UT2始終略大于UT1,DDTW算法結果穩定在-0.3~-0.2。
在上述5個階段中,DDTW算法和DTW算法準確性比較如表1所示。

表1 DDTW算法和DTW算法準確性比較Table 1 Comparison of accuracy of DDTW and DTW algorithms
由表1可知,DTW算法進行戶變關系識別時只考慮電壓數據的接近程度,將電壓數據更相近的臺變和用戶劃歸為同一臺區,容易產生誤判。例如在階段3,UC2和UT2數據 更接近,誤判 用戶C2屬 于臺變T2。而DDTW算法結果不僅受臺變和用戶電壓數據接近程度的影響,還受電壓曲線的形狀特征和變化趨勢的影響,用于戶變關系識別時具有較高的準確性。
建立低壓配電臺區拓撲模型如圖2所示。3臺變壓器T1、T2和T3,低壓側出口處節點分別用1、5和9表示。節點2至4和6至13為用戶的電壓節點。

圖2 配電臺區拓撲模型Fig.2 Topology model of distribution station area
4.2.1 采樣時間間隔對DDTW算法的影響分析
采用MATLAB/Simulink建立該臺區的仿真模型,假定各用戶功率在[2,4]kW隨機變化,用戶的功率因數為0.90~0.95,獲得一天內臺變和用戶的電壓序列。取變壓器的三相電壓平均值作為變壓器低壓側電壓,各節點電壓曲線見附錄C圖C3。
以用戶C1為例,UC1分別與UT1、UT2和UT3計算最優彎曲路徑如附錄C圖C4所示。
在采樣時間間隔分別為0.25、0.50、1.00、2.00、4.00 h時,13個節點電壓序列之間的DDTW距離如附錄D所 示。在不同時間間隔 下,UC1、UC2、UC3和UT1的相似性較大,UC4、UC5、UC6和UT2的相似性較大,UC7、UC8、UC9、UC10和UT3的相似性較大。因此,DDTW算法能夠對臺變與用戶的電壓時間序列相似性進行準確分析,并且不受采樣時間間隔的影響。
4.2.2 電壓數據缺失對DDTW算法的影響分析
智能電表在采集、傳輸數據過程中,其上傳的電壓時間序列存在缺失,導致在相同的時間內,進行相似性比較的電壓時間序列不等長。Pearson算法[7]和GRA算法[11]只能對等長的電壓序列進行分析,對非等長的電壓序列必須進行插值,過程煩瑣,且戶變關系識別結果受插值方法的影響較大。
改變插值方法和電壓數據缺失率來考察傳統方法及不同插值方法對戶變關系識別準確率的影響。分別設置電壓數據缺失率為10%、20%、30%、40%、50%和60%,采用DDTW算法、最鄰近點插值的GRA算法、線性插值的GRA算法、三次樣條插值的GRA算法、最鄰近點插值的Pearson相關系數法、線性插值的Pearson相關系數法和三次樣條插值的Pearson相關系數法得到10個用戶的戶變關系準確率結果見附錄C圖C5。
由附錄C圖C5可知,在電壓數據缺失時,Pearson算法和GRA算法必須對缺失電壓數據插值,且戶變關系的結果受插值方法的影響較大。而DDTW算法不需要進行插值,直接刪去缺失值所在位置,對不等長的電壓序列進行相似性判別,準確率高于Pearson算法和GRA算法。
4.2.3 電壓數據異常對DDTW算法的影響分析
由于電力設備發生故障或者外界環境變化,智能電表上傳的數據可能會出現異常。臺變和單相用戶正常電壓在[198,242]V范圍內波動。當采集到的電壓遠遠超過這個范圍時,電壓數據呈現異常狀態。Pearson算法和GRA算法必須刪除異常的電壓數據,并對異常點進行插值。而DDTW算法在電壓序列含有少量異常點時,不需要預處理,可直接對含有異常數據的電壓序列進行相似性分析。相比于Pearson算法和GRA算法,電壓數據異常對DDTW算法的影響更小。
改變用戶C1在06:00時和C3在07:00時的電壓數據,并設其他用戶的電壓數據無異常。同理,改變用戶C1在06:00時和09:00時的電壓數據,以及用戶C3在07:00時 和18:00時 的 電 壓 數 據。采 用DDTW算法、GRA算法和Pearson算法判斷用戶C1和C3所屬的臺區,判斷結果如附錄C圖C6所示。由附錄C圖C6可知,電壓數據異常時,DDTW算法仍然可以準確識別用戶C1和C3的所屬臺區,比Pearson算法和GRA算法的準確率更高。
改變用戶C1和C3電壓數據異常點個數和電壓數據異常量,DDTW算法對用戶C1和C3所屬臺區識別準確的個數隨電壓數據異常點個數、異常量的變化曲線如附錄C圖C7所示。
當用戶C1和C3的電壓數據異常時,DDTW算法可以準確識別用戶C1和C3所屬的臺區,基本不受電壓數據異常量的影響。當用戶C1和C3的電壓數據異常點個數都達到6時,DDTW算法無法準確判斷用戶C1和C3所屬的臺區。綜上所述,DDTW算法可以直接計算含有少量異常點的電壓序列的相似性,且準確率高。而GRA算法和Pearson算法受電壓數據異常點個數和異常量的影響均較大。
4.2.4 用戶聚類分析
由于配電網結構和負荷情況的復雜性,難以設置統一的DDTW算法閾值并根據閾值實現不同配電網不同運行狀態下的戶變關系的自動識別。因此,采用DBSCAN算法,基于臺變與用戶電壓序列的DDTW距離對用戶進行聚類,不僅可以對用戶所屬臺區進行判別,還可以反映用戶之間的鄰近關系。將概率思想引入DBSCAN算法,無須人為設定閾值,且戶變關系的概率性結果準確率高。
1)一次聚類
設置DBSCAN算法的聚類半徑μ為2,密度閾值δ為4,根據附錄D表D3中13個節點間的DDTW距離進行聚類。經過一次聚類后,聚類結果見附 錄C圖C8(a)。由 圖C8(a)可 知,C1、C2、C3和T1屬于一類,C4、C5、C6和T2屬于一類,C7、C8、C9、C10和T3屬 于 一 類。設 置μ為2,δ為5,聚 類 結 果 見圖C8(b)。由圖C8(b)可知,C1、C2、C3、T1、C4、C5、C6和T2屬于一類,C7、C8、C9、C10和T3屬于一類,聚類結果與圖1原設置不符。因此,聚類參數設置不合適會導致聚類結果不準確。
2)多次聚類
依據附錄B進行多次聚類,得到臺變和用戶屬于同一臺區的概率性結果,見附錄E表E1。由表E1可 知,經 過 多 次 聚 類 后,C1、C2、C3和T1屬 于 同 一 臺區的概率在0.98以上,C4、C5、C6和T2屬于同一臺區的概率在0.98以上,C7、C8、C9、C10和T3屬于同一臺區的概率在0.97以上。因此,引入概率思想的DBSCAN算法,避免了聚類參數的影響,可得到正確的戶變關系。
收集某地區的臺區電壓透抄統計表,從中抽取3個鄰近臺區的配電變壓器及每個臺區中20個用戶2020年12月4日的電壓數據,時間間隔為15 min。利用本文算法對60個用戶所屬臺區進行分析。根據臺變三相電壓的有效值,得到3個臺區的臺變電壓平均值,見附錄C圖C9。
由附錄C圖C9可知,3個臺變電壓比較相似。采用DDTW算法計算3個臺變平均電壓與60個待檢測用戶電壓的DDTW距離,根據DDTW距離對臺變和用戶進行多次聚類,得到臺變和用戶屬于同一臺區的概率性結果。本文算法結果與實際情況比較如表2所示。

表2 本文算法結果Table 2 Results of proposed algorithm
由表2可知,本文算法得到臺區1、臺區2和臺區3中各20個待識別用戶的戶變結果與實際記錄一致,準確率均為100%,工程適用性好。
針對配電網戶變關系缺失或異常的問題,本文提出了一種基于DDTW距離和引入概率思想DBSCAN算法的戶變關系識別方法。該方法具有以下特點。
1)采用DDTW算法量度電壓序列間的相似性,解決了智能電表上傳數據缺失導致電壓序列不等長的問題。與傳統方法相比,不需要進行插值,簡單易行,且準確率高。
2)采用DDTW算法量度電壓序列間的相似性,解決了智能電表上傳數據異常導致傳統方法必須進行插值預處理,否則產生誤判的問題。在異常數據點個數少時,DDTW算法可以直接對含有異常數據的電壓序列進行相似性分析。
3)DDTW算法不僅考慮了電壓數據的接近程度,還分析了電壓曲線的形狀特征、變化趨勢之間的差異程度,解決了DTW算法在戶變關系識別時誤判的問題。
4)DBSCAN算法根據臺變和用戶DDTW距離的差異性,自動地進行戶變關系識別。聚類算法不僅分析了臺變和用戶電壓序列之間的相似性,還分析了用戶電壓序列之間的相似性,使聚類結果更加準確。
5)引入概率思想的聚類算法,避免了聚類參數對戶變識別結果的影響,解決了閾值選取的問題,戶變關系識別準確率高,具有較好的應用前景。
附錄見本刊網絡版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網絡全文。