李春燕, 趙晨宇, 胡 博, 陳正宇, 廖慶龍, 萬凌云, 謝開貴
(1. 輸配電裝備及系統安全與新技術國家重點實驗室, 重慶大學, 重慶 400044; 2. 國網重慶市電力公司電力科學研究院, 重慶 404100)
“十三五”以來,我國電力行業走上綠色高效轉型發展的快速路。截至2020年10月底,全國發電裝機21億kW,其中水電3.7億kW、風電2.3億kW、太陽能發電2.3億kW,預測顯示2020年底,全國發電裝機將達到21.4億kW,非化石能源裝機占比達到43.7%,比2015年提高8.7%。與傳統能源發電相比,風光發電具有無污染、可再生和成本低廉等優勢,但受風力和光照等不確定因素影響同時具備波動性和間歇性的典型特征[1]。因此大規模可再生能源并網將對電力系統安全穩定運行帶來消極影響。評估含可再生能源的電力系統可靠性對推動電力系統發展意義深遠[2]。
目前,國內外對含新能源電力系統的可靠性研究主要基于模擬法(如序貫蒙特卡洛法),通過隨機抽樣刻畫風/光等可再生能源的不確定性,進而計算系統的可靠性指標。文獻[3]采用蒙特卡洛法對含風電和光伏的電力系統長期性能進行評估;文獻[4]利用基于Well-being模型的蒙特卡洛模擬法分別評估含不同風/光容量配置的發電系統的可靠性,并研究風/光配置容量對可靠性的影響。文獻[5]通過模擬風電、光伏出力場景,研究風電、光伏的波動性和負荷的不確定性對電力系統可靠性造成的影響。基于序貫蒙特卡洛模擬的可靠性評估算法可以計及變量的時序相關特性,實現更精確的可靠性指標計算,然而其計算需要大量的場景輸入,運算時間較長,計算復雜度較高。隨著大數據技術在電力行業的應用與發展,應用場景約簡技術實現時間序列聚合,選取較少的典型場景代表原始數據集,可以在簡化計算的同時保證計算結果的精度[6]。
現有場景約簡技術主要包含K-means聚類、層次聚類法、模糊C均值聚類及譜聚類等。文獻[7]基于K-means聚類對風電場歷史故障數據進行分析,通過典型場景刻畫了故障歷史數據特征和類別屬性,驗證了采用典型場景集代表全數據集的可行性。文獻[8]采用最近鄰聚類方法對場景進行削減,計算速度快,簡便易行。但由于以上算法的原理較為簡單,應用于高維數據時存在聚類結果不穩定、平滑原始時序數據的波動特征等弊端。文獻[9]根據層次聚類得到各集合的容量,對每個集合的代表場景進行加權,獲得能夠反映輸入數據波動特征的典型場景集。雖然層次聚類可以獲得相對穩定的典型場景集,但該算法時間復雜度大,結果依賴合并點和分裂點的選擇。
對可靠性評估的典型場景研究目前主要面向元件狀態場景和風光荷輸入場景。由于風光荷場景具有強不確定性,對風光荷典型場景進行篩選,以典型場景代表全場景可以一定程度上描述其不確定性。考慮風電、光伏出力與負荷之間的相關性具有重要價值。文獻[10]提出一種基于改進K-means的典型場景集選取方法,對包括風功率和電力負荷的時序數據集進行聚類分析和場景優選,計及了負荷和風電出力相關性。雖然該算法實現了風-荷聯合典型場景選取,但K-means算法處理高維數據時效果有限,而考慮光伏出力會進一步增加數據的維度。
上述研究為典型場景的提取提供了思路,但應用于電力系統可靠性評估時,仍存在兩方面問題:①風電、光伏出力具有較強的波動性,且風電具有反調峰特性,風電、光伏和負荷三類數據存在明顯的時序相關性,因此需要對風-光-荷高維數據進行場景聚類,同時保留時序特性;②聚類算法會損失極端場景。而在可靠性評估過程中,高負荷水平、低電源出力等極端場景對可靠性評估結果有不可忽視的影響。
基于上述研究,本文提出一種面向可靠性評估的風-光-荷典型場景集選取方法,對包括風電出力、光伏出力和電力負荷的時序數據集進行降維和兩階段聚類,生成考慮風、光、負荷相關性的分層時序典型場景集,對場景集進行優選,得到考慮極端場景對可靠性評估影響的典型場景集。應用于電力系統可靠性評估當中,以傳統時序負荷仿真法計算結果作為參照,對比分析算法的計算速度及各項指標誤差。
為實現面向可靠性評估的風-光-荷典型場景生成,目前主要存在以下3個問題:
(1)為使聚類結果適用于可靠性評估,需要選擇合適的曲線特征對風-光-荷場景進行聚類。
(2)為保留風-光-荷場景的風、光、負荷相關性及時序特征,需要對高維數據進行聚類,現有聚類算法對高維數據直接聚類效果并不理想,需要采用多次聚類和降維算法改進聚類算法。
(3)現有研究多采用聚類中心作為典型場景,由于聚類算法的特性,極端場景一般不作為聚類中心出現,但電力系統可靠性評估對負荷水平較高的場景非常敏感,忽略極端場景會明顯影響評估結果的精度。因此需要計及極端場景的典型場景優選方法。
為解決以上問題,本文基于DBSCAN和K-means聚類提出了一種適用于含新能源電力系統可靠性評估的典型場景生成的兩階段聚類方法。首先,選用凈負荷持續曲線作為風-光-荷場景特征,基于分層抽樣的思想,采用DBSCAN聚類算法將風-光-荷場景分層;然后采用SAX降維算法對原始風-光-荷時序曲線進行降維,使用K-means聚類算法對每層曲線進行分別聚類,得到保留時序特征的風-光-荷場景聚類結果。最后依據基于核密度估計發電系統狀態的可靠性評估結果指標對各層曲線集進行場景優選,生成計及極端場景影響的時序風-光-荷典型場景集,應用于含新能源的電力系統可靠性評估,具體流程如圖1所示。

圖1 基于分層抽樣的典型場景生成方法Fig.1 Stratified sampling based typical scenario generation method
運用典型場景進行可靠性評估可以大大削減計算量,提高計算效率。典型場景生成的關鍵點和難點在于如何對大量原始場景進行削減,實現減小計算負擔的同時保證削減后的場景集盡可能逼近原始場景。本文目的是尋找適用于可靠性評估的典型場景,因此需要對原始場景中可靠性評估相關特征進行發掘,利用特征篩選典型場景。
分層抽樣法是將總體單位按其屬性特征分成若干層,在層中按一定比例隨機抽取樣本單位。本方法通過劃類分層,增大了各層級中單位間的共同性,使得樣本代表性較好,抽樣誤差較小。因此更適用于總體情況復雜,各單位之間差異較大,單位較多的情況。
電力系統的失負荷量與失負荷概率與系統某時刻的凈負荷水平有著不可分割的關系。凈負荷指某一時刻系統的用電負荷與同時刻新能源出力差值,由于某一時刻可靠性評估指標與該時刻負荷水平直接相關,凈負荷值越大,失負荷概率越高,切負荷量也越大。為舍棄負荷曲線冗余特征,提高計算效率,本文首先基于密度對日凈負荷持續曲線進行聚類,得到依據負荷水平的負荷樣本分層,從而確定負荷輸入的優先級,約簡對可靠性評估指標影響較小的場景,提高計算效率。
在將每天各時刻的凈負荷按照從大到小的順序進行重排形成日凈負荷持續曲線后,本文引入并改進基于密度的有噪應用中的空間聚類算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)算法對日凈負荷持續曲線進行聚類。DBSCAN算法是一種基于密度的聚類算法。此算法不需要預先指定簇的個數,而是根據樣本數據點分布密度進行聚類,因此可以識別數據量稀少的離群值,應用在場景削減中可以保留極端場景。
DBSCAN算法需要設定兩個重要參數: DB領域半徑值(Epsilon,Eps)和領域密度閾值(Minimum Points,MinPts)。Eps表示個體之間距離臨界值,MinPts表示臨界距離半徑中個體數量的臨界值。傳統DBSCAN算法中Eps和MinPts由經驗設置再根據聚類結果進行調整,存在較大的盲目性。本文采用繪制k-距離曲線方法[13],選取k-距離曲線圖明顯拐點位置為聚類參數確定Eps。MinPts的選取遵從原則:
(1)
式中,si為點i的Eps領域內個體的數量;Np為Eps領域個數。對于樣本數據集D=(X1,X2, …,Xm),其中X為風-光-負荷原始場景數據,m為原始場景個數,DBSCAN算法流程如圖2所示。

圖2 DBSCAN算法流程圖Fig.2 Flow chart of DBSCAN algorithm
利用上述算法對日凈負荷持續曲線進行聚類實現對風-光-荷原始場景集D的分層,得到分層場景集{D1,D2,...,Ds},所得不同場景集在峰值負荷大小及負荷分布上有明顯分級。
基于分層場景集{D1,D2,...,Ds},本文采用改進的K-means聚類算法對每一層風-光-荷場景進行削減,得到保留時序特征的分層典型場景集。
K-means聚類算法是一種簡單、高效的無監督聚類分析算法。隨機選取空間中k個點為中心進行聚類,計算每個對象與k個點對最靠近聚類中心的對象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至所有數據點到其所在類中心的距離和達到最小值。K-means聚類使用方法簡便,且具有較好的計算效率,但該算法對高維數據聚類效果不理想。
為了實現對高維海量的風電、光伏和負荷數據聚類,同時保留其時序特征,需要對數據進行降維處理。符號聚合近似(Symbolic Aggregate Approximation,SAX)是一種將連續時間序列轉化為離散字符變量的算法,可以有效地降維、降噪,且結果更為直觀,具有處理速度快,便于狀態分析等優勢,在異常數據檢測,模式識別等領域應用廣泛[11,12]。本文主要介紹SAX參數優化的相關部分。


圖3 風電出力曲線的SAX表達Fig.3 SAX expression of WP curve
(2)
(3)
式中,β為字符斷點值;L為負荷曲線X轉化后的離散狀態表示。
本文從準確度A、信息量E、化簡率R三個角度,綜合考慮負荷曲線SAX表達的效果。其含義如下:準確度A反映分段后的風-光-荷曲線表征原曲線的能力;信息量E采用信息熵衡量分段后的曲線還原原曲線的能力,信息熵越小,則通過現有信息進行預測時的確定性越大,其所含信息量越大;化簡率R則表征原始曲線的被壓縮程度。通過三個指標對算法效果進行評估,達到綜合效果最優,即得到最優的風-光-荷曲線降維表達。
將風-光-荷曲線SAX表達的優化過程轉化為多目標優化問題,其中目標函數為:
Objective=max(A,E,R)
(4)
其中
(5)
(6)
(7)
2≤l≤lm
(8)
2≤w≤wm
(9)

針對多目標整數規劃問題,相較其他算法,粒子群算法更為簡單有效,具有精度高、收斂快等優勢[14]。本文采用基于模擬退火的粒子群算法,其在搜索過程中具有概率突跳的能力,能夠有效地避免搜索過程陷入局部極小解的情形[15]。
改進后的參數優化算法流程主要有以下7個步驟:
Step 1:輸入粒子數目N,學習因子c1,c2,退火常數λ,最大迭代次數M,初始溫度T0;
Step 2:隨機初始化種群位置和速度;
Step 3:利用目標函數計算每個粒子適應度并記錄最優個體Pg;
Step 4:將T賦值為初始溫度T0,i賦值為1;

Step 6:更新粒子位置和速度,計算新目標值并更新各粒子適應度值;
Step 7:判斷i是否大于等于M或滿足閾值,若符合條件,結束算法;若不符合,i自增1后返回Step 5,直到i滿足退出條件。
其中粒子數N=8。通過隨機初始化生成代表分段數和字符數的粒子集后,根據目標函數和自變量約束進行優化。在退火過程中不僅接受較優的解,也以一定的概率接受較差的解,同時這種概率受到溫度參數的控制。
3.2節所述算法所得聚類中心為數據分布中心,為考慮可靠性評估相關因素,需要依據場景對應的可靠性指標在聚類所得場景集中進行典型場景篩選。
本文基于核密度估計參數估計建立元件故障模型[16]擬合發電機停運容量分布,對IEEE RTS-79標準測試系統進行發電系統快速可靠性評估得到第i類對應的日平均停電時間期望為:
(10)
式中,LOLEij為第i類第j天對應的日停電時間期望;ni為第i類所包含風-光-荷聯合曲線條數。
|LOLEi,LOLEij′|=min|LOLEi,LOLEij|
(11)
則第i類場景集典型場景選取j′作為此類的典型場景輸入可靠性評估算法。
本文首先選取DBSCAN聚類算法對日凈負荷持續曲線進行聚類,能夠實現對大量數據的快速初步聚類,得到不同凈負荷水平的場景集。然后采用改進K-means聚類算法,以對初步聚類結果進行高質量的二次聚類,同時保留風-光-荷出力的時序特征,最后對聚類結果進行篩選,得到適用于可靠性評估的風-光-荷典型場景集。整體算法流程如圖4所示。

圖4 基于DBSCAN和改進K-means 的兩階段聚類流程圖Fig.4 Flowchart of two-stage clustering based on DBSCAN and improved K-means
在聚類評價中采用DB (Davies-Bouldin) 指標作為算法評價指標,DB指標計算公式如式(12)所示,其值越小,則類間的相似度越低,類中相似度越高,聚類效果越好。
(12)
式中,c為聚類數;Wi為i類內數據點到聚類中心Cj的平均距離;Wj為j類內數據點到聚類中心Cj的平均距離;Cij為聚類中心i與j之間的距離。
本文算例采用的平臺為1.7 GHz CPU和8 GB內存的計算機,使用MATLAB 2014a進行算法仿真。為減少數據異常及缺失對數據分布的影響,保證聚類結果的正確性,本文已去除全零負荷并采用分段多項式擬合對曲線進行平滑處理,詳見文獻[17]。
為測試算法的高效性,本文采用IEEE 8 736 h標準負荷數據[18],共計364條負荷曲線進行聚類,對以下4種算法進行對比:
方法1:未改進的K-means聚類算法;
方法2:AP聚類算法;
方法3:文獻[13]中自FCM算法;
方法4:本文所述DBSCAN和K-means兩階段聚類算法。
為了算法的統一性,方法1,2,3均為在Matlab自帶K-means算法的基礎上進行實現。由于傳統K-means算法需要事先輸入聚類數目,為了方便比較,令方法1和方法3的聚類數c=15。方法4兩階段聚類最終聚類數為15。對上述四種算法的DB值及總計算時間分別進行計算,得到結果如表1所示。

表1 算法結果對比Tab.1 Algorithm performance comparison
方法1由于算法復雜度低,計算時間最短,然而傳統K-means算法在數據迭代過程中收斂慢,在本文數據下,達到聚類迭代最大次數時,聚類中心尚未達到穩定,導致K-means算法的DB指標值高于其他算法;方法2中AP聚類通過相似度矩陣進行聚類,具有自適應的聚類數, DB指標優于傳統K-means算法,但此類算法復雜度較高,所需總計算時間明顯長于其他算法。方法3所需計算時間短,DB指標更優,算法表現上較好。方法4改進之后由于增加了一次聚類及降維過程,總計算時間有一定增長,但仍小于方法2,且DB指標明顯優于其他算法。結合DB指標和計算時間看,方法3和方法4較有優勢。
為測試算法的有效性,本文將以上四種聚類算法的結果作為典型場景輸入IEEE RTS-79標準系統中,利用枚舉法進行發電系統可靠性評估,所得結果如表2所示。

表2 基于狀態枚舉法的發電系統可靠性評估結果Tab.2 Reliability evaluation result of power generation system based on enumeration method
表2中,EENS指標(Expected Energy Not Supplied)表示測試系統運行一年的失負荷量。由表2可知,方法2和方法3所得EENS指標與全部場景輸入所得差值非常大,方法1差值較小,且差值隨聚類數的增大逐漸減小,方法4差值最小,原因主要是:①由于可靠性評估的失負荷狀態主要發生在負荷水平較高的情況下,而在聚類過程中,負荷水平較高的場景往往是類別中的邊緣點,通常不能作為聚類中心,因此以聚類中心作為典型場景評估所得年失負荷量會明顯偏低;②方法1、3、4都需要人為指定聚類數目,聚類數的多少會明顯影響可靠性評估的結果。
另外,方法3算法對滿足正態分布的數據聚類效果較好,但由于季節、天氣等因素影響,用電數據并不呈正態分布,因此方法3用于用電數據聚類效果一般。而方法4算法簡單,可以通過經驗結合枚舉法找出最優聚類數,且聚類結果較好。結合計算效率和有效性,方法4較有優勢。
根據比較可以看出,DBSCAN和改進K-means兩階段聚類算法在實際應用中,能夠獲得較高的聚類效率和較好的應用效果。
數據集來自比利時某電力公司官方網站2017~2018年負荷、風力發電數據及某光伏電站一年光伏發電上網數據[19],選取負荷曲線,風電出力曲線及光伏出力曲線各365條,并對有效曲線進行了離差歸一化處理。圖5給出了數據集對應凈負荷持續曲線DBSCAN聚類后的聚類中心。

圖5 凈負荷持續曲線聚類結果Fig.5 Result of net load duration curve clustering
從圖5可見,類1到類5的按峰值負荷大小有明顯階梯狀分層,類2最大,類5最小。類1,2,3場景峰值負荷較大,用電峰谷差也較為明顯,類4,5場景負荷水平較低,用電情況較為穩定。以上結果表明采用凈負荷持續曲線的DBSCAN聚類可以對風-光-荷場景實現較好的分層效果。
將各層聚類中心代入IEEE RBTS-6測試系統采用枚舉法進行發電系統可靠性評估計算,得到可靠性指標如表3所示。

表3 各層聚類中心可靠性評估結果Tab.3 Reliability indices of clustering centers
表3中,LOLP指標(Loss of Load Probability)為測試系統一天的失負荷概率,LOLE指標(Loss of Load Expectation)為測試系統一天的失負荷量。由表3可知,類2聚類中心作為輸入計算所得失負荷量最大,類5聚類中心計算所得失負荷量最小。凈負荷持續曲線峰值越大,計算所得失負荷量越大。由此可見,凈負荷大小與失負荷量呈正相關,本文對凈負荷持續曲線分層對后續可靠性評估計算正確有效。
表3中分類結果的原始數據集即為根據凈負荷持續曲線分層后的場景集,利用改進K-means分別對每一層進行聚類,經過多次試驗,本文設k=3。聚類結果為5層,每層3類,共15類場景集。對所得場景集進行篩選,用基于核密度估計的可靠性評估算法在每一類中篩選出最終適用于可靠性評估的典型場景,舍棄部分相似場景后結果如圖6所示,各典型場景出現概率如表4所示。

圖6 DBSCAN和K-means兩階段聚類后篩選所得典型日Fig.6 Typical scenarios from DBSCAN and K-means two-stage clustering

表4 各典型場景對應概率Tab.4 Probability of typical scenarios
本文對IEEERTS-79標準測試系統進行改進,在節點7添加風電出力輸入,節點22添加光伏出力輸入,該系統接線圖如附圖1所示。改進后測試系統上采用圖6中所示的時序典型場景及各場景對應概率,依概率進行基于序貫蒙特卡洛抽樣的可靠性評估,得到的可靠性指標與輸入一年365天風-光-荷數據對比如表5所示。

附圖1 IEEERTS-79標準測試系統接線圖 App.Fig.1 Diagram of IEEERTS-79 reliability test system

表5 典型場景與全場景輸入的序貫蒙特 卡洛仿真結果對比Tab.5 Comparison of sequential Monte Carlo simulation results using typical scenarios and full scenarios
表5中,LOLF指標(Loss of Load Frequency)為電力不足頻率,即單位時間內停電的次數。從表5可見,典型場景輸入計算所得EENS指標對比全場景輸入誤差率為2.82%,較其他聚類算法所得典型場景輸入誤差較小,誤差不為零的原因是聚類算法原理導致聚類過程中可能會丟失對可靠性評估指標影響較大的邊緣點,采用本文算法選取典型場景可以一定程度減少此類誤差,但不能完全消除。而運用典型場景進行可靠性評估較原方法計算時間縮短60%,顯著提升了計算效率。由此可見,利用本文所提出的DBSCAN和改進K-means聚類典型場景生成方法所得的時序典型場景適用于可靠性評估計算,兼具高效性與準確性。
本文提出了一種適用于含可再生能源電力系統可靠性評估的DBSCAN和改進K-means兩階段聚類典型場景生成方法。首先基于分層抽樣的思想,采用密度聚類將凈負荷持續曲線分層,然后采用SAX算法改進K-means聚類算法對風-光-荷原始曲線進行降維聚類,依據核密度估計可靠性評估LOLE指標對各層曲線集進行場景篩選,最終生成保留時序特征的風-光-荷典型場景。
該算法在保證聚類算法效率的同時,對高維數據聚類效果良好。最終所得時序風-光-荷典型場景用于電力系統序貫蒙特卡洛可靠性評估,顯著提升算法效率的同時保證了可靠性評估的準確性。
場景約簡技術作為一種穩定、高效的簡化計算方法,在可靠性評估中具有很大的研究價值。下一步研究可以嘗試關注極端場景,在聚類過程中保留邊界點,細化高負荷水平場景的分類,從而進一步減小可靠性評估誤差。
附錄