許中,欒樂,莫文雄,羅思敏*,葉宗林,陳超,賴軒達,解明輝
(1.廣東電網有限責任公司廣州供電局,廣東省 廣州市 510000;2.西安交通大學電氣工程學院,陜西省 西安市 710049)
配電網是指從輸電網或地區發電廠接受電能,通過配電設施就地分配或按電壓逐級分配給各類用戶的電力網[1]。近年來,隨著我國經濟的快速發展,電力負荷的增長明顯加快,對城市配電網的供電能力、電能質量、供電可靠性都有了更高的要求[2-5]。配電網作為與用戶直接相連的電力網,不僅規模龐大、設備繁多,且供電環境復雜,據統計,80%以上的停電事故由配電網故障引起[6]。因此,研究一種精確、高效的配電變壓器停電預測方法具有重要的實際意義。
目前配電網停電預測方法的研究主要集中在配電網可靠性評估[7-12]和基于大數據技術的配電網停電預測方面。文獻[13]分析了配電網故障數據之間的關聯性,并基于Logistic分類算法建立故障識別模型進行停電預測。文獻[14]針對極端天氣下配電網停電問題,利用歷史災損記錄和災害數值模擬數據,構建災害時間貝葉斯網絡模型進行停電預測。文獻[15]針對臺風災害,綜合考慮氣象、電網及地理因素,提出一種基于隨機森林算法的用戶停電區域預測評估方法。文獻[16]針對超高溫、暴雨等惡劣天氣條件,采用XGBoost 算法建立了線路停電數量預測模型。文獻[17]提出建立貝葉斯網絡預測颶風情況下的配電網停電概率。文獻[18]考慮配電網下面的植被情況和雷達檢測數據,通過建立隨機森林模型來提高停電預測結果的準確性。
本文將基于配變運行數據得到的停電預測特征之外的因素作為誤差因素,采用最小誤差熵估計[19]。針對基本的最小熵回歸算法運行時間較長的問題,提出了快速最小誤差熵算法;然后針對停電預測適用Logistic 回歸的情況,提出了基于Logistic 的快速最小誤差熵回歸算法,建立了配電網變壓器特征變量數據的配網停電預測模型,以實際數據為例驗證了所提方法的有效性。
最小誤差熵算法通過最小化回歸算法中誤差所包含的信息量從而使得回歸模型所包含的信息量最大化。最小誤差熵算法采用二階Renyi熵[20]來表示模型誤差中所包含的信息量:

式中:E為回歸誤差的隨機變量;H(E)為E的熵;pE(e)為E的概率密度函數;e為設定的概率密度函數自變量取值;EP(·)為對應隨機變量的期望。利用Parzen 窗方法[21],E的概率密度函數p^E(e)可以表示為

式中:n為隨機變量E的采樣樣本數;K為核函數;ei為樣本值;h為帶寬。一般情況下,選擇高斯核函數作為核函數,即則隨機變量的信息熵的估計量為

由于對數函數單調遞增,實際應用中,最小化時可以將其移除而不影響最小化的結果。故變換后的隨機變量對應的信息熵的估計量為

對于線性回歸模型,y=wTx+e需要從數據樣本中估計出w。由于ei=yi-wTxi,則對應的變換后的誤差信息熵的估計量為關于w的函數:

估計量R^(w)可以通過用梯度下降法極小化式(5)來求解。由于式(5)中含有二重求和運算,最小誤差熵算法的時間復雜度為O(n2),這就使得隨著樣本數目的增大,最小誤差熵算法所需要的時間會快速增加。
在對配電網變壓器的停電狀況進行預測時,由于在訓練樣本中,配變的預測結果為“停電”與“不停電”2種情況,即預測結果為布爾變量,而一般的回歸模型的預測結果是連續變量,因此需要建立起這2 種不同變量類型間的聯系,將區間(-∞,+∞)的結果映射到[0,1]。Sigmod 函數非常適合實現這一點,對應的算法即為Logistic回歸。
Logistic 回歸通過Sigmod 函數,在線性回歸的基礎上,將線性模型在區間(-∞,+∞)的預測結果映射到[0,1]。由于一個事件的概率值恰好在[0,1],故Sigmod 函數的預測結果具有概率上的意義,預測值可以代表一個事件發生的概率,當預測概率小于0.5時,分類結果為負類,即表示不停電;當預測概率大于0.5時,分類結果為正類,表示停電。因此,在配變停電故障的預測過程中,Logistic回歸可以建立配電網變壓器的各種特征參數與其停電概率之間的關系。
常用的二項Logistic回歸模型為以下條件概率分布:

式中:x∈Rn是模型輸入;n為模型輸入的維數;Y=1 和Y=0 是Y的2 個可能取值;P(Y=1|x)和P(Y=0|x)分別為Y取得這2 個可能取值的概率;w∈Rn和b∈Rn是參數,w為權值向量,b為偏置。為了表達方便,可以將權值向量和輸入向量進行擴充,即w=(w(1),w(2),…,w(n),b)T,x=(x(1),x(2),…,x(n),1)T。
一個隨機變量X的微分熵[22]如式(8)所示:

假設一個隨機變量x接近與其均值和方差相同的高斯分布,將其概率密度函數GramCharlier展開式[23]代入式(8),化簡后可得:

式中:σ為隨機變量x的方差;k3(x)和k4(x)分別為x的三階和四階累積量,即偏度和峭度。
對于線性回歸模型,其誤差的熵為

參考線性回歸與Logistic 回歸的轉換,快速最小誤差熵回歸的配電網變壓器停電概率預測結果也為連續變量,因此也需要疊加一個Sigmod函數,將配電變壓器的各種特征參數映射到[0, 1],稱為Logistic 快速最小誤差熵算法。則對于模型:

Logistic快速最小誤差熵算法的誤差可以表示為

在得到式(10)的過程中,線性回歸的誤差被作為一個隨機變量進行推導,并沒有使用關于線性回歸的信息。因此,式(10)的表達式與回歸算法的形式沒有關系。故Logistic快速最小誤差熵算法誤差的熵與線性回歸誤差的熵的表達式(10)相同。
為了求出H(ew)的最小值,H(ew)關于w的導數為

其中:

為了獲得能夠最小化H(ew)的w,使用如下所示的梯度下降迭代格式:

式中:和分別表示第k次和k+1次迭代得到的線性回歸系數向量;α表示迭代步長,由Arimijo準則確定。
由于這些式子的計算復雜度均為O(n),故快速最小誤差熵算法的計算復雜度也為O(n)。因此理論上可以認為快速最小誤差熵算法的運算速度快于傳統的最小誤差熵算法。
本文通過實驗比較快速最小誤差熵算法與最小誤差熵算法的程序運行時間消耗。設線性回歸模型y=w*Tx+e,其中模型參數取x~N(0,I10),w*=[1 -1 1 -1 1 -1 1 -1 1 -1]T。其中,噪聲信號采用高斯噪聲e~N(0,1),快速最小誤差熵算法的迭代歩長取最小誤差熵算法高斯核的核函數參數取h=10[24]。實驗中采用從100 到500的樣本數量。算法時間復雜度驗證時,取90%的樣本作為訓練集,10%的樣本作為驗證集。實驗結果如表1所示。
從表1 中可以看到,在算法平均運行時間和最快運行時間2 方面,快速最小誤差熵算法均比最小誤差熵算法耗時少。

表1 2種算法對于高斯誤差的運行時間Tab.1 Running time of two algorithms for Gaussian error
考慮配網中與停電相關的因素以及實際可獲取運行數據,本文選取重過載時長、最大有功負載率、平均有功負載率、重三相不平衡時長、最大三相不平衡度以及平均三相不平衡度作為停電特征向量,利用Embedded 特征選擇方法進行配變最優停電特征的選擇,選用Logistics回歸作為基分類器,懲罰項選用L1 范數,懲罰項權重取0.45,得到配電變壓器最優停電特征子集。
選取某地區供電公司實際1 265條數據作為樣本數據,對本文提出的快速Logistic最小誤差熵模型進行驗證。將數據隨機分為訓練集和驗證集2 個部分,其中訓練集占80%,驗證集占20%。表2中給出特征變量的樣例。

表2 訓練集中的特征變量數據樣例Tab.2 Sample of feature variable data in training set
在訓練集上運行Logistic快速最小熵算法,得到預測模型的參數:

然后利用測試集對配電變壓器的停電概率進行預測,測試集的部分輸出結果如表3所示。

表3 測試集中的部分預測結果Tab.3 Partial prediction results in test set
使用錯誤率和F測量2種評價標準對模型的預測結果進行評價。Logistic快速最小熵算法的停電預測結果見表4,可以看出,算法預測的準確率在88%左右,表明配電變壓器的停電預測模型較為穩定,可以對是否停電進行區分,能夠輔助運維人員預測設備的停電情況,并根據設備停電情況對有停電隱患的設備進行有針對性的關注和管理,減少停電的發生。

表4 Logistic 快速最小熵算法預測結果評價Tab.4 Evaluation of prediction results of Logistic fast minimum entropy algorithm
本文對Logistic 快速最小誤差熵算法以及Logistic 回歸算法的預測效果進行對比分析,并采用與Logistic 最小誤差熵預測模型相同的數據集。
對2種算法分別進行30次預測,圖1是2種算法預測結果的F 測量評價。從圖1 中可以看出,2種算法的F測量值都在0.80以上,但Logistic快速最小誤差熵的預測效果要明顯好于Logistic回歸的效果。

圖1 2種算法停電預測結果的F測量Fig.1 F-measurement of outage prediction results based on two algorithms
在最小熵回歸算法的基礎上,提出了快速最小誤差熵算法,基本保持了最小熵回歸的回歸效果,并且顯著地減少了算法的運行時間;針對配變停電預測適用Logistic回歸的情況,提出了基于Logistic的快速最小誤差熵回歸算法,根據供電公司實際數據進行算法驗證,預測效果要明顯好于Logistic回歸的效果。