吳云亮, 鄧韋斯, 姚海成, 蘇寅生, 周毓敏
(中國南方電網電力調度控制中心, 廣州 510000)
電網運行斷面是電力系統調度運行監控的重要內容。美國大停電、加拿大大停電、印度大停電等電網事故表明,及時、準確地生成與監控電網運行斷面,對確保系統安全穩定運行,防止事故擴大具有重要作用[1-2]。
傳統模式下,電網運行斷面生成主要是從電網物理特性出發,采用圖論、復雜網絡理論等相關理論對電網分區,從而實現對運行斷面的辨識[3-5]。文獻[3-4]以系統中廠站地理位置為初始狀態,形成初始分區,利用圖論中割集算法生成分區間運行斷面。文獻[5-6]則利用復雜網絡理論,利用社團發現方法中的GN分裂算法對網絡實施深度分區,以提高網絡分區與網架特征的匹配程度;文獻[7]在傳統復雜理論分區方法基礎上進一步優化,提出了線路樞紐性評價指標,改進提升分區效果。
近年來,隨著電網發展,特別是新能源大規模接入和電力現貨市場的改革深化,電力系統對運行斷面在線生成的需求日益迫切[8-10]。而上述傳統運行斷面生成方法由于需要對電網物理特性進行大量復雜的分析判定,耗時較長,難以滿足實時運行需要。為此,采用機器學習等人工智能算法實現運行斷面的在線自動生成成為當前電網運行控制領域研究的熱點[11-12]。文獻[13]提出了一種電網運行仿真大數據架構,在此基礎上提出了一種基于改進支持向量機模型的關鍵斷面是否生效判定方法,通過將運行斷面與電網運行特征參數校驗,判斷運行斷面是否起作用。文獻[14]利用機器學習中的聚類算法,提出了一種基于改進K-means算法的運行斷面相似性匹配方法,通過電網特征參數聚類,定位相似運行場景,從而為運行斷面生成提供參照。文獻[15]則采用K-鄰近法,利用選定的電網特征參數對運行斷面進行聚類分析,在線生成運行斷面。
由于現代大電網規模龐大,利用機器學習有關算法解決運行斷面生成問題時,將面臨規模龐大的運行狀態參數。準確高效地實施特征選擇,不僅是避免“維數災”、提升計算效率的必然途徑,也是消除干擾因素、提升判定準確性的有效方法[14]。
為此,針對電網運行斷面在線生成問題實際特點,提出了基于兩層模式的特征選擇與在線生成方法。第一層采用過濾式特征選擇,剔除大量無關的干擾因素,輸出基礎因素集。第二層采用包裹式特征選擇,在基礎因素集中進一步利用序列后向搜索算法,輸出生成準確性最佳的在線生成智能體。并基于中國某地區電網數據構造算例,驗證所提出方法的有效性。
利用機器學習算法解決電網運行斷面在線生成的核心思路是通過對電網運行歷史數據挖掘,研究電網運行狀態參數與運行斷面之間的對應關系,據此訓練形成運行斷面生成智能體,并將其用于在線分析。然而電網運行狀態參數規模異常龐大,表1列舉了文獻[14]所提出的13個方面運行斷面生成中所需要考慮的電網運行狀態參數類型。參照該類型劃分,以中等規模的地市級電網220 kV主網架為例,其電網運行狀態參數將超過500項。不加區分地將所有運行狀態參數均用于機器學習訓練,將導致出現參數“維數災”問題。

表1 電網運行狀態參數類型
為此,提出一種基于兩層結構的電網運行斷面特征選擇與在線生成方法,其實施框架如圖1所示。基本思路是從電網運行歷史數據出發,利用所提出的兩級結構運行斷面特征選擇與生成方法逐一分析各運行斷面的在線生成特征因素集,并輸出對應的在線生成智能體;從電網實時運行數據中提取特征因素集中各因素的實時參數,由各智能體輸出其對應運行斷面的狀態,并生成該狀態下的運行斷面集。
兩級結構的運行斷面特征選擇與在線生成方法是上述實施流程的核心。在該框架下,第一層為

圖1 實施框架Fig.1 Implementation framework
基于過濾式結構的特征選擇層。在該層中,龐大的電網運行狀態參數將構成初始因素集,過濾式特征選擇層將從消除重復因素和無關因素兩個維度出發過濾初始因素集,輸出基礎因素集。將采用Fisher分和信息增益兩種過濾式特征選擇方法,分別從特征類別距離角度和概率統計角度對電網運行參數進行特征選擇;并將兩類選擇結果交叉處理,取其交集作為輸出量,以獲得同時滿足兩方面要求的因素。第二層為基于包裹式結構的特征選擇與智能體訓練層,該層中將采用序列向前算法動態調整所選擇的基礎因素集,通過跟蹤調整基礎因素集中的因素,同時得到滿足訓練精度要求的運行斷面特征因素集和與之匹配的運行斷面生成智能體。
機器學習是一種多學科交叉專業,其根本特征在于利用計算機對歷史經驗的學習實現對人類分析判斷過程的模擬,以解決聚類、選擇、判斷等實際問題。典型的機器學習算法包括神經網絡算法、決策樹算法、強化學習算法、支持向量機算法等。
與其他算法相比,支持向量機算法具有較為嚴格的統計學理論基礎,能夠較好地解決非線性、小樣本下的數據分析問題,具有較好的數據泛化能力[16-18]。為此,選用支持向量機作為運行斷面生成智能體的核心算法,其模型和算法可參考文獻[16-18]。
對于單個運行斷面,僅存在生成或不生成兩個輸出狀態。因此,其智能體訓練中采用準確率指標評價智能體訓練效果,可表示為
(1)
式(1)中:AC_R為評價結果準確率;N為智能體校驗環節中樣本數;N1為智能體輸出結果正確的樣本數。
所謂Fisher分本質上是一種對不同類樣本離散程度的量化評價指標,其公式為
(2)

在利用Fisher分進行運行斷面特征選擇時,其實施流程如圖2所示。其包括以下實施要點。
(1)Fisher分計算與因素排序。根據待分析運行斷面在訓練集中是否生成,將樣本劃分為正類、負類兩個類型,其中正類為該運行斷面生成的訓練樣本集合,負類反之。利用式(2)依次計算初始因素集中各因素的Fisher分值,并將其按照從大到小的順序排列。
(2)依次構建運行斷面生成判定支持向量機智能體,并計算準確性評價指標。先給定一個空集合Ω。按照Fisher分值排列后的因素順序,依次將因素添入集合Ω中。以訓練集數據為基礎,構建基于集合Ω的支持向量機智能體;將智能體用于校驗集,計算其準確性評價指標。
(3)選定準確性最高的分類器,并輸出其對應的因素集Ω。待遍歷所有因素后,統計并定位所有組合方式下驗證集準確性指標最大的支持向量機智能體。該智能體對應的集合即為基于Fisher分法選定的基礎因素集H。

圖2 基于Fisher分的過濾式特征選擇流程Fig.2 Filter feature selection process based on Fisher score
所謂信息增益是指某項因素加入因素集合后,該集合信息熵的增加幅度。信息增益可表示為
J(A)=Info(D)-InfoA(D)=
(3)

利用信息增益進行過濾式特征選擇時,其實施流程與Fisher分方式下流程基本一致,區別在于因素排序的依據是其信息增益,而不是Fisher分。規定利用信息增益法所得的基礎因素集為K。
Fisher分和信息增益法分別從兩個維度對初始因素集中因素進行了特征選擇。Fisher分側重于從因素相關性角度出發,篩選出與待分析運行斷面聯系最緊密的因素集;而信息增益法更側重于因素變化過程分析,篩選出于待分析運行斷面變化模式最接近的因素集。
過濾式特征選擇需要兼顧兩個方法選擇的差異。為此,將兩種方法選定的基礎因素集作交集,輸出最終的基礎因素集,即
L=H∩K
(4)
式(4)中:L為第一層過濾式特征選擇層所輸出的基礎因素集。
經過第一層過濾式特征選擇,能夠剔除大量非相關的“噪聲”因素。為進一步降低因素維度,提高其生成準確性和有效性,第二層將采用序列后向包裹式特征選擇算法實施特征選擇。
序列搜索算法是一種經典的包裹式特征選擇算法,按照搜索方向不同,可分為序列后向搜索和序列前向搜索。序列后向搜索是指基于給定的因素集合,每次剔除一項因素,直至集合所對應的智能體評價指標能達到最大。序列前向搜索則與之相對,是指每次增加一項因素,直至獲得最大評價指標。考慮到經過第一層過濾,基礎因素集中的因素數量已經較少,因此選用序列后向搜索算法。
基于序列后向搜索的第二層過濾式特征選擇與生成智能體訓練實施步驟如圖3所示。該實施過程包括如下實施要點。
(1)計算基礎因素集下的準確性評價指標。將第一層所輸出的基礎因素集作為特征集,利用歷史數據訓練支持向量機智能體;并統計訓練完畢的支持向量機智能體在驗證數據集的準確性評價指標。
(2)遍歷基礎因素集中所有因素,計算并統計剔除一項因素后新因素集的準確性評價指標。遍歷基礎因素集中所有因素,逐一將其從基礎因素集中剔除,并基于剔除一項因素后的因素集訓練智能體,計算其準確性評價指標。統計所有因素剔除后的準確性評價指標。
(3)判定新因素集下準確性評價指標變化情況。將上一步中所得的準確性評價指標最大值與原基礎因素集對比。若新因素集準確性評價指標更大,則將該因素集替代原基礎因素集,返回步驟(1),重復上述過程;否則,搜索結束,輸出基礎因素集和訓練所得的運行斷面生成智能體。

圖3 基于序列后向搜索的包裹式特征選擇流程Fig.3 Wrapped feature selection process based on sequential backward search
截取南方某省區一地區電網,在其基礎上簡化構造算例,以驗證所提出方法的有效性。簡化后該地區電網220 kV網架結構如圖4所示。該網架結構圖中共有變電站節點10座,發電廠節點6座,輸電線路26條。

圖4 算例網架Fig.4 Power grid in the case
算例中選取了2018年全年逐日運行狀態作為基礎數據,將1—11月逐日運行參數作為訓練數據集,并將12月上半月數據作為校驗數據集,下半月數據作為測試數據集。
采用文獻[4]所提出的運行斷面生成方法,對全年數據分析共得到運行斷面5項,分別為:①線路12→13雙回+線路11→6雙回;②線路12→13雙回+線路6→7雙回;③線路13→14+線路6→7雙回+線路13→15;④線路16→15雙回+線路16→7+線路16→8;⑤線路16→15雙回+線路16→7+線路8→7。
按照表1中介紹的電網運行斷面生成中所需要考慮的運行狀態參數類型,該算例中所涉及的初始因素集共142項。
以運行斷面①為例,提出的運行斷面特征選擇各階段所選擇的因素數量變化如圖5所示。經過第一層過濾式特征選擇,基礎因素集共有14項因素。其中,經過Fisher分過濾后剩余20項,信息增益過濾后剩余19項,兩者取交集后剩余14項。在此基礎上進一步利用包裹式特征選擇對14項因素甄別,經過5輪逐次后向搜索剩余7項特征因素。

圖5 特征因素數量變化Fig.5 The changes of numbers of characteristic factors
進一步觀察各階段所篩選出來的因素集,表2中分別給出了特征因素集、基礎因素集獨有、H獨有、K獨有四個類型集合中的因素。可以發現所選擇的因素均與該運行斷面所形成的封閉分區有關,包括該分區內發電廠發電功率、變電站負荷和線路運行狀態。最后所得的特征因素集為該分區與主網相連的線路運行狀態和分區內的發電廠有功功率,與傳統調度經驗所得的直觀結論相一致。

表2 各環節特征選擇結果
進一步利用所生成的運行斷面在線生成智能體對測試數據集計算分析。統計逐日各時段測試分析結果,并計算當日均值。如圖6所示,當月準確性評價指標達95%,最低準確率為80%,也即最多存在1個運行斷面判定不準;而每次計算耗時不超過10 s,完全能夠滿足調度運行在線分析決策要求。

圖6 測試情況分析Fig.6 Test analysis
提出了一種基于兩層結構的電網運行斷面特征選擇與在線生成方法,能夠通過對歷史數據的挖掘分析,在線生成電網運行斷面,對支撐電力市場改革不斷深化下系統運行控制具有重要作用。展望后期還有如下研究內容有待進一步研究。
(1)研究基礎數據高效修正方法,解決智能體訓練過程中由于基礎數據質量不足導致訓練失敗的問題。
(2)研究適應規模小樣本的智能體訓練算法,以提升智能體的訓練效果。
(3)研究特征選擇中的專家庫算法,在特征選擇過程中引入專家經驗,提高訓練效果。