基于自然梯度提升的靜態電壓穩定裕度預測及其影響因素分析

2022-09-27 05:05:20王強，陳浩，劉煉

電力系統及其自動化學報 2022年9期

王強，陳浩，劉煉

（三峽大學電氣與新能源學院，宜昌 443000）

隨著我國經濟的發展，對于電力負荷的需求日益增長，使得電力系統越來越接近其穩定運行的極限[1]。然而，電力系統穩定裕度的降低導致發生全網性事故的概率大大增加，且頻繁發生的大停電事故都會引起巨大的社會經濟損失[2]。因此，進行靜態電壓穩定裕度VSM（voltage stability margin）在線監測，對于電力系統的穩定運行具有重要意義，也有助于充分挖掘電力系統的運行潛力。

傳統基于機理分析的VSM評估方法，例如連續潮流法[3]、奇異值分解法[4]等，通常根據當前運行點到電壓崩潰點的距離，來評估當前運行點的電壓穩定狀況。然而，該類方法依賴于離線計算，其計算速度難以滿足VSM在線監測的實際要求[5-6]。

隨著新一代智能電網的建設，廣域測量系統WAMS（wide area measurement system）/相量測量單元PMU（phasor measurement unit）逐漸普及，為電力數據的儲存與采集提供便利[7]。因此，為有效利用PMU監測數據，研究人員逐漸將機器學習技術應用于VSM 評估中。應用機器學習方法無需建立系統數學模型，只需建立運行狀態變量到系統VSM間的非線性映射關系，并根據該映射關系便能實現VSM在線預測。與機理分析相比，機器學習方法具有計算速度快、泛化能力強的優點[8-9]。在最近的研究中，例如決策樹[10-11]、梯度提升決策樹GBDT（gradient boosting decision tree）[12]、極限梯度提升XGBoost（extreme gradient boosting）[13]、隨機森林RF（random forests）[14]、反向傳播BP（back propagation）神經網絡[5-6]等機器學習算法已得到初步應用。

盡管機器學習方法在電力系統VSM 評估領域中已有了一定進展，但仍然存在著以下問題：①隨著現代電力系統的廣域互聯、大規模新能源的并網，以及大量電力電子設備的投入運行，現代電力系統的VSM評估問題更加復雜[15]，傳統算法的綜合性能可能無法滿足VSM在線預測的實際需求，一些新型機器學習算法展現出了更加優異的性能，若將新型算法應用于VSM 預測中有望進一步提升VSM預測的精準度；②機器學習模型通常只給出預測的結果，即存在“黑箱問題”[16]，人們無法捕獲到預測模型從數據中所獲取到的知識，因而難以將特征輸入量與模型預測聯系起來。

針對上述問題，本文采用自然梯度提升NGBoost（natural gradient boosting）[17]算法來構建VSM預測模型。NGBoost 具有優良的綜合性能，能夠彌補傳統算法在精度、魯棒性及泛化能力上的不足，保證預測結果的可靠性。同時，引入沙普利值加性解釋SHAP（Shapley additive explanations）[18]理論對NGBoost 模型進行解釋，構建基于SHAP 理論的VSM預測影響因素分析架構，量化各輸入特征對于模型預測的邊際貢獻。結合預測結果，通過全局分析角度可得到各特征的重要性程度，以及各特征對于模型預測的正負影響。通過個體分析角度可以明確單個樣本中各特征對VSM 預測的具體影響過程，從而找到導致系統VSM 降低的關鍵因素，進而為預防措施的制定提供理論依據。

1 VSM 與離線樣本集的構建

1.1 VSM

采用連續潮流法繪制系統的P-V曲線來描述節點電壓與負荷有功功率間的相關性，并通過P-V曲線得到系統的電壓穩定臨界點，P-V曲線示意如圖1所示。

圖1 P-V 曲線示意Fig.1 Schematic of P-V curve

從圖1 可以看出，當負荷有功功率增大時節點電壓會逐漸降低，當增加到負荷有功功率極限時系統將無法提供足夠的無功功率從而導致電壓崩潰，此時系統則位于電壓穩定的臨界點。因此，電力系統當前運行點的負荷有功功率到電壓穩定臨界點的負荷有功功率之差可以綜合反映電力系統的VSM。VSM可表示為

式中：Pmax為電壓穩定臨界點的負荷有功功率；P0為電力系統當前運行點的負荷有功功率。

1.2 離線樣本的構建

使用PSS/E 軟件進行模擬仿真，并調用Python程序進行仿真數據的自動采集。在構建樣本時，應綜合考慮多種影響因素，包括發電機/負荷功率的不確定性、網絡拓撲結構變化等。模擬仿真的具體步驟如下。

步驟1考慮負荷功率的不確定性，將各個負荷視為一個服從概率分布的隨機變量，并根據其分布函數確定負荷參數。同時，考慮實際中的發電機、線路傳輸容量等約束條件，利用最優潮流來確定相關變量，例如有功/無功功率分布、分接開關位置等。然后，生成初始的發電機/負荷功率分布。

步驟2發電機/負荷功率在不同的增長方式下將會產生不同的電壓穩定邊界，發電機/負荷功率的具體增長方式可表示為

式中：PG為發電機有功功率；PL、QL分別為負荷有功功率、無功功率；為發電機初始有功功率；、分別負荷初始有功功率、無功功率；分別為發電機有功功率、負荷有功功率和負荷無功功率的增長方向，在實際中，可在電網的優化調度及負荷預測中獲取[19]；λ為負荷參數。

為獲得更多的樣本，將不同區域內的負荷增長率設置為不同，并保持功率因數不變。同時，增長的負荷由同一區域內的發電機按初始出力比值共同承擔。

步驟3拓撲結構變化是另一個需要考慮的因素。在實際中，可信的緊急事故列表可在電力公司中獲取到。根據網絡拓撲結構和發電機/負荷功率增加方式，使用連續潮流法來確定電壓穩定的臨界點，并通過式（1）計算VSM，記錄該過程中系統所有運行點的運行狀態變量。

以當前運行點的狀態變量為特征，并建立特征與相應VSM 間的對應關系。所選擇的特征類型如表1所示。

表1 選擇的特征類型Tab.1 Selected feature types

2 基于NGBoost 的VSM 預測模型

2.1 NGBoost 算法

NGBoost 是一種針對概率預測的監督學習方法，對于輸入特征的預測則通過條件概率分布的形式實現。NGBoost 由基學習器（例如回歸樹）、概率分布（例如正態分布）、評分規則（例如最大似然估計）3個模塊構成，并使用自然梯度對這些模塊進行整合。

評分規則S與概率分布p和標簽y相關，并記為S（p，y），為使預測結果真實分布的期望值得到最佳的分數，則評分規則S需滿足

式中：Ey～q()為標簽y服從q概率分布的期望函數；q為標簽y的真實分布。在訓練中，適當的評分規則可用于校準模型的概率分布輸出，為限制概率分布的參數化，概率分布則根據預測參數θ來確定。若選用最大似然估計MLE（maximum likelihood estimation）作為評分規則S，則S可表示為

式中：pθ(y|x)為預測參數θ的條件概率密度函數；x為標簽y所對應的特征向量。

評分規則S在條件概率密度函數pθ(y|x)上關于預測參數θ的梯度記為，并且梯度方向為誤差下降最快的方向。對于自然梯度g，通過求解相應的優化問題[17]可表示為

式中，IS(θ)為在預測參數θ上統計流形的黎曼度量，其可由評分規則S推導出[17]。此外，自然梯度具有參數不變的性質，且更高效和穩定。

若有訓練集，則NGBoost算法的具體訓練過程可描述如下。

輸入：訓練集D、迭代次數M、學習率η、預測參數θ、評分規則S、基學習器f。

步驟1計算初始預測參數

步驟2執行M次迭代，在第m（m=1，2，…，M）次迭代中，計算自然梯度，預測參數θ(m)的每個組成部分對應一個基學習器。

步驟3以為輸出，擬合f(m)。例如在擬合回歸樹時，通常采用樣本方差作為分割準則。

步驟4通過線性搜索的方式獲取比例系數

步驟5計算

輸出：θ(0)和

通過上述訓練，若給定測試集E，其預測參數θ則可計算為，進而產生條件概率密度為的概率預測。其中，ρ(m)為比例系數；f(m)(x)為擬合的基學習器。

2.2 VSM 預測模型的建立

構建VSM 預測模型的本質是建立特征到相應VSM間的非線性映射關系，將所獲取的離線樣本構造成矩陣J的形式，即

式中：b為樣本數目；c為樣本中的特征維數；xi,j為輸入特征，i=1，2，…，b；j=1，2，…，c；yi為相應的VSM。

首先，將離線樣本集中的一部分樣本作為訓練集，另一部分樣本作為測試集；然后，將訓練集輸入NGBoost算法，并根據第2.1節中所描述的步驟進行迭代學習，探索輸入特征與VSM間的非線性映射關系，建立NGBoost驅動的VSM預測模型；最后，在訓練集上對VSM預測模型的性能進行測試。

3 基于SHAP 的VSM 預測影響因素分析

3.1 SHAP 理論

SHAP 是由Shapley 值啟發的可加性解釋模型。Shapley值是合作博弈論中的一個概念，常用于量化每個玩家對于游戲的貢獻。將SHAP用于解釋NGBoost 模型時，樣本中每個特征都會分配到一個數值（即SHAP 值），并根據SHAP 值來量化每個特征對于模型預測結果的貢獻。對于某個具體的樣本，其第i個特征的SHAP值的計算公式為

式中：Φi為某個具體樣本中第i個特征的SHAP值；N為訓練集中所有特征的集合，其特征維數為c；{}i為第i個特征；Z為從特征集N中選取的特征子集，特征維數為 ||Z；fx(Z∪{i})和fx(Z)分別為在特征子集Z的基礎上添加特征i和不添加特征i的情況下NGBoost模型的預測值。

3.2 VSM 預測的影響因素分析架構

將SHAP 理論用于分析VSM 預測中的關鍵影響因素時，可分為全局分析和個體分析兩個角度。

（1）全局分析。通過對SHAP 值按照特征維度聚合計算平均絕對值，可得到影響VSM預測的關鍵特征，根據關鍵特征分布則能夠大致掌握影響電壓穩定的主導特征。此外，通過繪制特征輸入值與該特征SHAP 值間的散點圖，便可以了解到特征輸入值與預測影響間的聯系。

（2）個體分析。對于某個具體樣本，其預測值等于基準值（即訓練集中所有樣本的VSM 平均值）加上該樣本中所有特征的SHAP 值。因此，根據某個特征的SHAP 值便可以了解到該特征使系統的VSM降低或升高的具體數值。

綜上所述，本文基于NGBoost 的VSM預測及其影響因素分析的具體框架如圖2所示。

圖2 VSM 預測及其影響因素分析的具體框架Fig.2 Specific framework of prediction of VSM and analysis of its influencing factors

首先，通過模擬仿真獲取包含大量運行數據和VSM 的離線樣本集，并將一部分樣本用于訓練，另一部分用于測試；然后，將訓練集輸入NGBoost算法進行離線訓練，構建NGBoost驅動的VSM預測模型，并在測試集上對模型性能進行評價；最后，將訓練好的NGBoost 模型用于擬合SHAP 模型，對訓練集進行全局分析，對具體的單個樣本進行個體分析。

在NGBoost 模型的預測精度滿足要求后，便可以將其應用于VSM 的在線監測中。首先，使用PMU 進行電力系統在線運行數據的實時采集；然后，在調度中心接收到系統在線運行數據時，選取出相應的狀態變量，輸入已訓練好的NGBoost 模型進行VSM值的在線預測；結合預測結果并通過擬合好的SHAP模型得出影響VSM預測的關鍵因素。

4 算例分析

在新英格蘭39 節點系統上進行性能測試，以驗證所提出的VSM 預測方法的有效性。新英格蘭39 節點系統拓撲如圖3 所示，該系統由39 個節點、10 臺發電機和46 條輸電線路組成。采用第1.2 節中所描述的方法進行模擬仿真，完成仿真步驟后共收集到2 130個樣本用于后續的測試。所有測試均在一臺裝有Intel Core i5處理器和8 GB內存的計算機上進行。

圖3 新英格蘭39 節點系統拓撲Fig.3 Topology of New England 39-bus system

4.1 性能評價指標

本文采用均方根誤差RMSE（root mean squared error）和殘差平方誤差R-squared（residual squared error）[20]作為預測模型的性能評價指標。對于RMSE指標，其計算公式為

式中：d為測試集的樣本個數；yi為VSM的實際值；為VSM的預測值。RMSE值越小，則預測模型的擬合效果越好。對于R-squared指標，其計算公式為

式中，為測試集中所有樣本的VSM 平均值。Rsquared值介于0到1之間，越接近1，則模型的預測效果越好。

4.2 NGBoost 模型的預測效果分析

將全部樣本的80%用于訓練，另外20%用于測試，并將回歸樹作為NGBoost 算法的基學習器，其他參數均設置為默認參數。依據式（8）和式（9），計算出測試集的RMSE 和R-squared 分別為0.007 1、0.987 6。NGBoost 模型的擬合效果如圖4 所示，其中每個點代表1個樣本，越靠近斜線則說明擬合效果越好。從圖4可看出，所有點與斜線基本重合。

圖4 NGBoost 模型的擬合效果Fig.4 Fitting effect of NGBoost model

此外，NGBoost 模型對整個測試集（包含426個樣本）的計算時間為1.26 s，對單個樣本的計算時間為2.96 ms。可見，NGBoost 算法的計算速度能夠滿足在線預測時數據處理速度的要求，即PMU 數據的處理時間應小于33 ms[19]。

4.3 不同算法間的對比分析

為進一步驗證NGBoost 算法的優異性能，選取工程領域中常用的3 種算法LightGBM[21]、RF、深度殘差網絡DRN（deep residual network）[22]進行對比分析。對于上述3 種算法采用默認參數，并從以下3個方面對不同算法進行綜合比較。

（1）在原始樣本集基礎上，訓練和測試都使用相同的數據集以比較不同算法的預測精度，具體的測試結果如表2所示。

表2 不同算法的預測精度Tab.2 Prediction accuracy of different algorithms

（2）考慮到在實際中可能存在著數據噪聲的情況，因而在樣本集中添加不同信噪比的高斯白噪聲以分析不同算法的魯棒性，具體的測試結果如圖5所示。

圖5 不同噪聲水平下各算法的預測精度Fig.5 Prediction accuracy of different algorithms at different noise levels

（3）改變原始網絡的拓撲結構生成新的樣本用于測試，以分析不同算法的泛化能力。圖6給出了兩種N-1故障下不同算法的R-squared。

圖6 N-1 故障下不同算法的預測精度Fig.6 Prediction accuracy of different algorithms under N-1 failure

通過上述測試結果可看出，在原始樣本集中NGBoost 的精度遠高于另外3 種算法。其中，相較于LightGBM、RF 和DRN，NGBoost 的RMSE 分別降低了0.005 2、0.005 0、0.002 9，且R-squared 分別提升了0.016 1、0.015 1、0.008 4。此外，NGBoost 是基于多棵回歸樹的集成模型，并以條件概率分布的形式作為輸出，因而增加了輸出的多樣性。因此，NGBoost的魯棒性和泛化能力也優于另外3種算法，在噪聲水平為15 dB及N-1故障下，NGBoost的預測精度幾乎未受到影響。

LightGBM 和RF 也均為回歸樹的集成學習模型，由于采用了默認參數，因而在原始樣本集中LightGBM 的預測精度略低于RF。同時，LightGBM和RF也都存在因回歸樹過深從而導致模型泛化能力降低的情況，但LightGBM 在leaf-wise 上增加了1個最大深度限制[21]，因而泛化能力略好于RF。此外，這兩種算法對于噪聲點也同樣敏感，在噪聲水平達到15 dB 的情況下，LightGBM 和RF 的Rsquared分別降低了0.007 2和0.008 9。

DRN屬于深度學習的范疇，通過對時空位置建模，DRN能夠很好地挖掘圖像、語音、文本等高維數據，但回歸樹模型在處理表格數據時更具優勢。在原始樣本集中，DRN 的預測精度僅次于NGBoost，但是DRN 對樣本質量的依耐性較強，因而在噪聲水平為15 dB的情況下R-squared降低了0.007 4。同時，在兩種N-1故障下DRN的R-squared為0.971 1，下降了0.008 1。

4.4 影響因素分析

4.4.1 全局分析

通過對SHAP值按照特征維度聚合計算平均絕對值，得到樣本集中最關鍵的5個特征，如圖7所示。

圖7 SHAP 平均絕對值最大的5 個特征Fig.7 Five features of maximum mean absolute value of SHAP

這5個特征分別為96號特征（29號節點處的負荷有功功率）、158 號特征（輸電線路26-27 的有功功率）、161 號特征（輸電線路12-13 的有功功率）、114 號特征（28 號節點處的負荷無功功率）、112 號特征（26 號節點處的負荷無功功率）。圖7 中每個點代表1 個樣本，橫坐標為SHAP 值，SHAP 值越大則對預測結果的影響越大，正負號表示正向或負向影響，每個點的顏色越深則表示該特征的輸入值越大。從圖7 可以看出，這5 個特征的特征輸入值越大，反而會對電壓穩定狀況造成負面的影響，并會增大電壓失穩的風險。

以96 號特征為例，繪制特征輸入值與該特征的SHAP 值間的散點圖如圖8 所示，以分析該特征的輸入值對預測的影響。

圖8 96 號特征的輸入值與SHAP 值Fig.8 Input and SHAP values of Feature 96

從圖8可看出，在96號特征（29號節點處的負荷有功功率）輸入值小于270 MW時，對電壓穩定的影響是正向的；當其大于270 MW時，則影響是負向的，并會增加電壓失穩的風險。因此，將特征的輸入值與SHAP值相聯系，可進一步挖掘特征輸入值與系統VSM間的隱含規則。在實際中，若29號節點處的負荷有功功率大于270 MW，則可以提示該負荷處于“警告狀態”。類似地，對于其他特征也可以進行相同的分析。

另外，以96 號特征和158 號特征為例，繪制散點圖如圖9所示，以分析96 號特征和158 號特征對預測結果的影響。

圖9 96 號特征與158 號特征對于模型預測的交互影響Fig.9 Interaction effect of Features 96 and 158 on model prediction

從圖9可發現，96號特征即29號節點處的負荷有功功率在270～295 MW 范圍內時，輸電線路26-27 的有功功率越大反而會對模型預測造成負面的影響；當29號節點處的負荷有功功率超過295 MW時，輸電線路26-27 的有功功率越大則更有利于維持系統的電壓穩定。

4.4.2 個體分析

對于單個樣本的分析，則以測試集中第1 個樣本為例，訓練樣本的基準值為0.210 4，模型的預測值為0.071 6。各特征的特征輸入值與SHAP 值如表3所示。

表3 各特征的輸入值和SHAP 值Tab.3 Input and SHAP values for each feature

從表3可看出，單個樣本中SHAP值最大的5個特征與全局分析中最關鍵的5 個特征并不一致。表3中96號特征對模型預測的正向貢獻量最大，其特征輸入值為264 MW，使系統的VSM 提高了0.083 1，其次是168 號特征。但是，173 號特征和158 號特征對于模型預測的負向影響最大，分別使系統的VSM降低了0.115 6和0.083 7。在所有特征的綜合影響下，NGBoost模型的預測值為0.071 6。

因此，對單個樣本進行個體分析，可以形象地了解到樣本中的各個特征在該輸入值下使得系統VSM升高或降低的具體數值。再結合全局分析，便可以進一步明確VSM 的降低或升高是由哪些特征的輸入值偏高或偏低所造成的，進而可幫助調度人員及時發現安全隱患，有效保障電力系統的安全穩定運行。

5 結論

為提升VSM 預測的精準度和增強預測模型的可解釋性，提出一種基于NGBoost 的VSM 預測方法，以及一種基于SHAP理論的VSM預測影響因素分析架構。結合新英格蘭39 節點系統上的算例分析結果，得出以下結論：

（1）與LightGBM、RF 和DRN 相比，NGBoost 具有最佳的預測精度、魯棒性、泛化能力，保證了預測結果的可靠性；

（2）所提出的基于SHAP理論的VSM預測影響因素分析架構，能夠及時給出導致系統VSM降低或升高的關鍵因素，可為后續預防措施的制定提供依據；

（3）所提方法不僅可用于電力系統的VSM 預測，還可為其他監督學習問題，以及為其他預測模型的可解釋性問題提供參考。

另外，由于樣本數據的限制，文中所有測試均是在理想仿真環境下進行的，在實際電網中對所提方法繼續驗證將是下一階段的工作。