面向類別不平衡負(fù)荷序列模式識(shí)別的兩階段選擇集成學(xué)習(xí)策略

2023-02-13 07:04:40王圓圓王世謙白宏坤

電力系統(tǒng)及其自動(dòng)化學(xué)報(bào) 2023年1期

王圓圓，韓丁，王世謙，白宏坤，王磊，劉洋

（1.國(guó)網(wǎng)河南省電力公司經(jīng)濟(jì)技術(shù)研究院，鄭州 450052；2.四川大學(xué)電氣工程學(xué)院，成都 610065）

伴隨智能電網(wǎng)和能源互聯(lián)網(wǎng)的發(fā)展，人工智能技術(shù)與傳統(tǒng)電網(wǎng)技術(shù)的日益融合，成為電網(wǎng)管理者快速感知電力系統(tǒng)多源數(shù)據(jù)規(guī)律、實(shí)施精準(zhǔn)控制和決策的重要輔助手段[1-4]。當(dāng)前，集成學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等人工智能理論在電力用戶負(fù)荷模式識(shí)別中已受到廣泛重視，其對(duì)電網(wǎng)企業(yè)開(kāi)展精細(xì)化用戶用電行為建模、制定個(gè)性化用電服務(wù)及提升企業(yè)市場(chǎng)競(jìng)爭(zhēng)力具有重要價(jià)值[5-8]。

集成學(xué)習(xí)因具有良好的算法穩(wěn)定性、準(zhǔn)確度增益和算法普適性被引入計(jì)算機(jī)視覺(jué)、生物、醫(yī)學(xué)及工程等多個(gè)學(xué)科領(lǐng)域。近年來(lái)，集成學(xué)習(xí)在電力負(fù)荷模式識(shí)別領(lǐng)域的研究中備受重視。負(fù)荷模式直觀表現(xiàn)為負(fù)荷時(shí)間序列的曲線形態(tài)和時(shí)段負(fù)荷水平，它反映了用戶該時(shí)間尺度下的用電行為規(guī)律。負(fù)荷模式是精細(xì)化開(kāi)展用電行為畫(huà)像、辨識(shí)需求響應(yīng)潛力用戶的理論基礎(chǔ)[9-11]，文獻(xiàn)[12]結(jié)合負(fù)荷序列的時(shí)域和頻域特征，構(gòu)建基于長(zhǎng)短期記憶LSTM（long short-term memory）神經(jīng)網(wǎng)絡(luò)的日負(fù)荷模式辨識(shí)及提取算法；文獻(xiàn)[13]針對(duì)傳統(tǒng)K-means聚類方法中聚類結(jié)果穩(wěn)定性差和距離度量不能反映負(fù)荷曲線趨勢(shì)相似度的問(wèn)題，提出一種基于中心優(yōu)化和雙尺度相似性度量的負(fù)荷聚類式分類方法。隨著智能儀表的普及應(yīng)用，用戶級(jí)負(fù)荷數(shù)據(jù)大量累積，海量用戶負(fù)荷數(shù)據(jù)高性能處理成為重要研究課題。針對(duì)大規(guī)模負(fù)荷數(shù)據(jù)的分類效率問(wèn)題，文獻(xiàn)[14-15]提出結(jié)合自動(dòng)編碼器特征降維和無(wú)監(jiān)督聚類的負(fù)荷分類方法；文獻(xiàn)[16]提出一種分布式并行LSTM神經(jīng)網(wǎng)絡(luò)負(fù)荷模式識(shí)別模型，將負(fù)荷數(shù)據(jù)切分為樣本規(guī)模更小的子塊存放在分布式文件存儲(chǔ)系統(tǒng)中，在各個(gè)計(jì)算節(jié)點(diǎn)完成負(fù)荷分類任務(wù)；文獻(xiàn)[17-18]為解決數(shù)據(jù)分塊帶來(lái)的分類精度下降問(wèn)題，基于Hadoop大數(shù)據(jù)計(jì)算平臺(tái)，提出分布式并行集成反向傳播神經(jīng)網(wǎng)絡(luò)BPNN（back propagation neural network）的負(fù)荷模式分類方法，采用Bagging式集成學(xué)習(xí)對(duì)各子計(jì)算節(jié)點(diǎn)部署的基分類器進(jìn)行融合決策，彌補(bǔ)子節(jié)點(diǎn)分類器的精度損失。以Bagging為代表的并行式集成學(xué)習(xí)與負(fù)荷數(shù)據(jù)分布式處理具有良好的算法適配性，成為提升用戶側(cè)大數(shù)據(jù)處理效能的重要方法，但相關(guān)研究均未考慮集成學(xué)習(xí)廣泛存在的基分類器冗余問(wèn)題。當(dāng)基分類器集群陷入同質(zhì)化時(shí)，基分類器便失去差異性，集成學(xué)習(xí)就會(huì)失效且增加無(wú)效數(shù)據(jù)處理成本[19]。目前，基分類器集成的經(jīng)典方法包括異質(zhì)基分類器集成、隨機(jī)子空間集成和Boosting、Bagging集成等[20]。異質(zhì)基分類器集成對(duì)基分類器的選擇缺乏通用標(biāo)準(zhǔn)；隨機(jī)子空間集成面臨特征子空間冗余的類似問(wèn)題；Boosting集成易受數(shù)據(jù)噪聲影響，算法魯棒性差，且為串行式算法邏輯，對(duì)大量負(fù)荷數(shù)據(jù)的處理存在效率缺陷；Bagging集成魯棒性較強(qiáng)，與主流的分布式計(jì)算框架具有良好的適配性，但基分類器冗余問(wèn)題嚴(yán)重。選擇集成策略是應(yīng)對(duì)Bagging集成學(xué)習(xí)中基分類器冗余的有效方法[21]，其選擇部分性能優(yōu)越的基分類器參與集成，可獲得效率提升和同等甚至更高的性能增益。

伴隨智能電表的廣泛應(yīng)用，用戶負(fù)荷數(shù)據(jù)體量和用電行為復(fù)雜性均不斷提升[22-23]，負(fù)荷樣本潛在的類別不平衡問(wèn)題增強(qiáng)，增加了精準(zhǔn)分類的難度[24-25]。類別不平衡表現(xiàn)為分類模型中少數(shù)類樣本的辨識(shí)度被多數(shù)類淹沒(méi)，是電力數(shù)據(jù)模式分類領(lǐng)域的重要難題之一。少數(shù)類樣本過(guò)采樣技術(shù)是解決類別不平衡問(wèn)題的有效方法，文獻(xiàn)[26]采用生成對(duì)抗網(wǎng)絡(luò)合成竊電監(jiān)測(cè)樣本，克服少數(shù)類樣本數(shù)目不足的問(wèn)題。深度學(xué)習(xí)模型通過(guò)學(xué)習(xí)樣本分布規(guī)律能獲取較高質(zhì)量的新樣本，但算法復(fù)雜且需要大量數(shù)據(jù)資源驅(qū)動(dòng)。文獻(xiàn)[17]引入基于k-近鄰采樣原理的合成少數(shù)類過(guò)采樣技術(shù)SMOTE（synthetic minority over-sampling technique），有效提升了少數(shù)類負(fù)荷樣本的分類精度；文獻(xiàn)[18]針對(duì)SMOTE算法近鄰樣本選擇盲目的問(wèn)題，采用邊界合成少數(shù)類過(guò)采樣技術(shù)BSMOTE（borderline synthetic minority over-sampling technique）加以改善。上述SMOTE方法均未考慮少數(shù)類樣本的密度分布特性，采樣過(guò)程與類別重疊現(xiàn)象的耦合作用也會(huì)削弱分類模型的泛化性能。

本文為解決集成學(xué)習(xí)負(fù)荷模式識(shí)別中的類別不平衡及基分類器冗余等問(wèn)題，提出一種計(jì)及類別平衡的兩階段選擇集成學(xué)習(xí)TSSEL（two stage selective ensemble learning）電力負(fù)荷序列模式識(shí)別方法。采用一種基于密度聚類的高斯合成少數(shù)類樣本過(guò)采樣技術(shù)DCB-GSMOTE（density clusteringbased Gaussian synthetic minority over-sampling technique），解決少數(shù)類負(fù)荷樣本在模式識(shí)別任務(wù)中被多數(shù)類淹沒(méi)的問(wèn)題。同時(shí)，設(shè)計(jì)一種包括基分類器聚類剪枝及優(yōu)化集成的兩階段選擇集成負(fù)荷分類模型。

1 類別不平衡處理

1.1 DCB-GSMOTE算法基本概念

DCB-GSMOTE根據(jù)少數(shù)類樣本集的密度分布特性進(jìn)行自適應(yīng)人工樣本合成采樣，其對(duì)樣本集的密度分布表征借鑒DBSCAN（density-based spatial clustering of applications with noise）算法的直接密度可達(dá)圖理念涉及的相關(guān)基本概念如下。

（1）ρ-鄰域。已知一聚類簇Z，設(shè)其中一樣本xi的鄰域半徑為ρ，定義xi的ρ-鄰域Nρ(xi)為

（2）核心點(diǎn)。已知樣本xi，若其ρ-鄰域Nρ(xi)內(nèi)至少存在κ個(gè)樣本點(diǎn)，則稱xi為核心點(diǎn)。

（3）直接密度可達(dá)。已知樣本xi、xj，若xi為核心點(diǎn)，且滿足xj∈Nρ(xi)，則稱xj對(duì)xi直接密度可達(dá)。

（4）直接密度可達(dá)圖。設(shè)V是Z中所有滿足直接密度可達(dá)條件的樣本集合，將直接密度可達(dá)樣本對(duì)的加權(quán)圖路徑定義為直接密度可達(dá)邊，路徑權(quán)重表征為樣本對(duì)的歐式距離；設(shè)E為Z中所有直接密度可達(dá)邊的集合，稱G(Z,ρ,κ)=(V,E)為聚類簇Z在ρ和κ參數(shù)條件下的直接密度可達(dá)圖。

1.2 DCB-GSMOTE算法基本流程

步驟1判別少數(shù)類日負(fù)荷序列樣本。已知日負(fù)荷標(biāo)簽樣本集D，按負(fù)荷模式類別差異劃分為M類樣本子集{Dm|m=1,…,M}。若樣本子集Dm的樣本數(shù)量小于最大樣本子集數(shù)量的1/5，則判定該類負(fù)荷樣本子集為少數(shù)類，對(duì)其進(jìn)行樣本合成。

步驟2少數(shù)類樣本密度聚類。設(shè)Dm為少數(shù)類樣本集，對(duì)其實(shí)施DBSCAN聚類，得到若干聚類簇{Dm,c|c=1,…,C}，其中，Dm,c為第c個(gè)聚類簇，C為聚類簇總數(shù)。記錄各聚類簇的聚類中心樣本。

步驟3聚類簇構(gòu)建直接密度可達(dá)圖。記錄DBSCAN聚類后每個(gè)聚類簇Dm,c的直接密度可達(dá)圖G(Dm,c,ρ,κ)。

步驟4確定每一聚類簇Dm,c的樣本合成數(shù)目。計(jì)算各聚類簇的樣本數(shù)目分布比例，按比例在各聚類簇中合成新樣本。

步驟5采樣路徑搜索。每次合成新樣本時(shí)在Dm,c隨機(jī)選定一真實(shí)樣本xr，在G(Dm,c,ρ,κ)中采用Dijkstra算法搜索xr到聚類中心xcenterc的最短加權(quán)圖路徑，其中，為xr到最短加權(quán)圖路徑經(jīng)過(guò)的樣本點(diǎn)，?為直接密度可達(dá)。將Jr?center作為本次的采樣路徑。

步驟6新樣本合成。在Jr?center中隨機(jī)選擇一段直接密度可達(dá)邊作為本次的采樣區(qū)間。

在采樣區(qū)間內(nèi)設(shè)定插值距離l，其服從的均勻分布可表示為

隨機(jī)生成插值坐標(biāo)q為

為增強(qiáng)合成樣本的多樣性，對(duì)q添加一隨機(jī)擾動(dòng)向量o。o的每一維度均服從的正態(tài)分布為

式中，σ為相對(duì)標(biāo)準(zhǔn)差。

最后生成本次的新樣本xsynthetic為

步驟7重復(fù)步驟5、6，直到少數(shù)類樣本總數(shù)目達(dá)到最大樣本子集數(shù)目的1/5。

2 負(fù)荷模式識(shí)別的兩階段選擇集成策略

集成學(xué)習(xí)中基分類器的差異性和準(zhǔn)確率是影響集成性能的關(guān)鍵因素，其中，差異性是指基分類器對(duì)樣本做出不同錯(cuò)分的趨勢(shì)，差異性和準(zhǔn)確率高的基分類器集群可以獲得更好的集成增益。兼顧基分類器的差異性和識(shí)別準(zhǔn)確率，提出基于差異性模糊增量的聚類剪枝策略CBPS（clustering-based pruning strategy）和基于正則化代理集成分類精度損失的優(yōu)化選擇集成OBSI（optimization-based selection integration）策略的兩階段選擇集成負(fù)荷模式識(shí)別方法。

2.1 CBPS策略

所提基于差異性模糊增量DFI（diversity fuzzy increment）的CBPS首先構(gòu)建基分類器的DFI特征向量，基于DFI特征向量采用近鄰傳播AP（affinity propagation）聚類將基分類器集群劃分為若干類，剪枝除聚類中心外的其余冗余基分類器個(gè)體。同時(shí)，為確定基分類器池的最佳聚類剪枝數(shù)目，提出基于歐式冗余度和余弦冗余度雙度量指標(biāo)的基分類器集群冗余度評(píng)價(jià)方法。

2.1.1 DFI特征向量

采用Q-統(tǒng)計(jì)量構(gòu)建基分類器的DFI特征向量，該指標(biāo)隸屬成對(duì)差異性度量的范疇，用于度量?jī)苫诸惼髦g的決策差異性[27]。第m類負(fù)荷樣本分類任務(wù)中基分類器u和基分類器v的Q-統(tǒng)計(jì)量可表示為

式中：au,v、du,v分別為基分類器u和v對(duì)訓(xùn)練樣本集作出＜正確，正確＞、＜錯(cuò)誤，錯(cuò)誤＞分類的概率；bu,v、cu,v分別為基分類器u和v對(duì)訓(xùn)練樣本做出＜正確，錯(cuò)誤＞、＜錯(cuò)誤，正確＞分類結(jié)果的概率[21]。

表1為au,v、bu,v、cu,v和du,v服從的聯(lián)合分布，其中，hu(xk)、hv(xk)分別為基分類器u和v對(duì)訓(xùn)練樣本xk的分類結(jié)果；yk為xk的類別標(biāo)簽。

表1 兩基分類器間的聯(lián)合分布Tab.1 Joint distribution for two base classifiers

基于Q-統(tǒng)計(jì)量，構(gòu)建基分類器集群的整體差異性指標(biāo)φm為

式中，L為基分類器數(shù)目。

為描述基分類器個(gè)體對(duì)集群整體差異性變化的影響，定義第m類訓(xùn)練樣本中基分類器u的DFI為Eu,m，其公式可表示為

式中，Ωu?Ω、Ωu?Ω分別為包含和不包含基分類器u的基分類器集合。

設(shè)樣本總類別數(shù)為M，分別計(jì)算不同類別對(duì)應(yīng)的差異性模糊增量，構(gòu)建基分類器集群的DFI特征矩陣E為

2.1.2 基分類器集群最佳聚類中心數(shù)目評(píng)估

歐氏距離和余弦距離常用于數(shù)據(jù)序列的相似性評(píng)估。對(duì)基分類器集群完成一次聚類后，計(jì)算所有聚類中心的基分類器子集DFI特征向量的平均歐氏距離和余弦距離，歐式冗余度指標(biāo)ERI（European redundancy index）IERI和余弦冗余度指標(biāo)CRI（cosine redundancy index）ICRI可表示為

式中：LAP為基分類器聚類中心的數(shù)目；Eu,、Ev,分別為DFI特征矩陣E的第u和v行向量。IERI越大或者ICRI越小意味聚類中心基分類器子集的平均差異性越大，基分類器冗余度越低。聚類時(shí)將IERI和ICRI取最值時(shí)的聚類中心數(shù)目Lmost作為最佳剪枝結(jié)果。

2.1.3 CBPS算法基本流程

步驟1基分類器池生成。已知日負(fù)荷標(biāo)簽樣本集D，抽樣訓(xùn)練生成L個(gè)基分類器，構(gòu)成原始基分類器池。

步驟2DFI特征向量構(gòu)建。根據(jù)D計(jì)算基分類器池中所有基分類器對(duì)的Q-統(tǒng)計(jì)量，進(jìn)而生成所有基分類器的DFI特征向量集合，構(gòu)建DFI特征矩陣E。

步驟3基分類器集群聚類。設(shè)定偏好度參數(shù)，采用AP聚類算法對(duì)E矩陣行向量完成一次聚類，確定本次聚類的聚類中心數(shù)目。

步驟4基分類器集群聚類剪枝。按照步驟3完成多次聚類，直到選定ERI和CRI特性曲線的拐點(diǎn)。根據(jù)拐點(diǎn)聚類結(jié)果，將所有聚類中心對(duì)應(yīng)的基分類器作為CBPS去冗余的基分類器集合。

2.2 OBSI策略

為提升選擇集成模型的泛化能力，將OBSI策略引入集成邊界的概念，構(gòu)建最小正則化代理集成精度損失函數(shù)優(yōu)化基分類器集成參與權(quán)重。

2.2.1 考慮模型復(fù)雜度的最大化Margin集成策略

集成邊界最早由Schapire提出，是一種描述樣本正確分類傾向程度的度量。已知負(fù)荷標(biāo)簽樣本驗(yàn)證集Dverify={(xn,yn)|n=1,…,N}，其中，xn、yn分別為第n個(gè)樣本和類別標(biāo)簽；設(shè)經(jīng)CBPS策略剪枝得到基分類器集合為ΩCBPS，H(X)={hu(xn)|xn?Dverify;u?ΩCBPS}為ΩCBPS對(duì)Dverify的分類結(jié)果集合。則ΩCBPS對(duì)樣本xn的集成邊界Υ(xn,yn)可表示為

式中：υu(píng)為基分類器u的集成參與權(quán)重；?(xn)為基分類器集成分類結(jié)果。若分類正確，則yn?(xn)=1；反之，yn?(xn)=-1。

基于集成邊界，定義集成學(xué)習(xí)分類精度損失為

優(yōu)化集成通過(guò)最小化集成精度損失，提升集成模型的泛化能力。為控制集成復(fù)雜度、抑制優(yōu)化帶來(lái)的集成過(guò)擬合問(wèn)題，添加基于基分類器集成參與權(quán)重的正則項(xiàng)，構(gòu)建的優(yōu)化問(wèn)題可表示為

式中，μ為正則項(xiàng)和集成損失項(xiàng)的平衡因子，用于控制模型復(fù)雜度，υ=(υ1…υu(píng)…υLmost)；。

2.2.2 基于Huber函數(shù)的代理?yè)p失優(yōu)化集成

由于所提集成學(xué)習(xí)分類精度損失函數(shù)?loss(H(X))屬于非凸、不連續(xù)的目標(biāo)函數(shù)，代理?yè)p失優(yōu)化可有效改善其優(yōu)化過(guò)程。采用截?cái)郒uber函數(shù)作為代理?yè)p失函數(shù)，引入?yún)⒁蜃觘來(lái)調(diào)節(jié)代理?yè)p失函數(shù)對(duì)異常值和噪聲數(shù)據(jù)的敏感度，增強(qiáng)優(yōu)化結(jié)果的魯棒性和穩(wěn)定性，本文設(shè)定為0.6。截?cái)郒uber函數(shù)可表示為

式中，p為集成學(xué)習(xí)分類的精度損失。

基于Huber代理?yè)p失函數(shù)的最小正則化代理集成分類精度損失函數(shù)可表示為

2.2.3 基于K折交叉驗(yàn)證的基分類器選擇

采用K折交叉驗(yàn)證法從原始標(biāo)簽樣本訓(xùn)練集中獲得K個(gè)驗(yàn)證集Dverify，重復(fù)OBSI策略，獲得K次ΩCBPS集成參與權(quán)重優(yōu)化結(jié)果，記為Λ

式中，υs,u為第s次OBSI策略求解中第u個(gè)基分類器的集成參與權(quán)重。

將ΩCBPS中基分類器u的K次集成參與權(quán)重記為(υ1,u…υs,u…υK,u)，計(jì)算權(quán)重大于0的次數(shù)占比Ru為

式中，符號(hào)函數(shù)sign(·)在自變量大于0時(shí)取值為1，反之為-1。當(dāng)Ru≥0.5時(shí)，該基分類器予以保留，采用多數(shù)投票法參與集成學(xué)習(xí)負(fù)荷模式識(shí)別任務(wù)。

2.3 所提負(fù)荷模式識(shí)別算法總體流程

本文所提負(fù)荷模式識(shí)別算法總體流程如下。

步驟1已知日負(fù)荷標(biāo)簽樣本集D，將其按照類別劃分為M個(gè)樣本子集{Dm|m=1,…,M}，對(duì)每類樣本子集按照比例4：6隨機(jī)劃分為訓(xùn)練子集Dtrain,m和測(cè)試子集Dtest,m兩部分，對(duì)Dtrain,m的少數(shù)類樣本進(jìn)行DCB-GSMOTE類別平衡處理得到，合并各類樣本子訓(xùn)練集及測(cè)試集分別得到訓(xùn)練樣本集和測(cè)試樣本集Dtest。

步驟2對(duì)采用Bootstrap重抽樣提取L個(gè)同等規(guī)模的負(fù)荷標(biāo)簽樣本子集，前向輸入L個(gè)待訓(xùn)練的基分類器（以BPNN為例），采用Adam優(yōu)化求解各自的目標(biāo)損失函數(shù)（本文采用交叉熵?fù)p失函數(shù)），通過(guò)早停法確定學(xué)習(xí)次數(shù)，訓(xùn)練生成L個(gè)基分類器，構(gòu)成基分類器集合Ω。

步驟3計(jì)算并記錄Ω中每個(gè)基分類器對(duì)的分類結(jié)果，將其記為。基于Htrain(X)，根據(jù)式（6）～（9）構(gòu)建基分類器的DFI特征矩陣E。

步驟4CBPS階段，采用AP算法對(duì)E中所有基分類器的DFI特征向量進(jìn)行聚類，根據(jù)式（10）、（11）確定基分類器池聚類剪枝的最佳保留數(shù)目LAP，將保留的基分類器集合記為ΩCBPS。

步驟5OBSI階段，采用K折交叉驗(yàn)證，首先將按照各類樣本的比例隨機(jī)劃分為K等份記為。

步驟6計(jì)算并記錄ΩCBPS中每個(gè)基分類器對(duì)Dverify,s的分類結(jié)果，記為Htest(X)={hu(xk)|xk?Dverify,s;u?ΩCBPS}。根據(jù)式（12）～（16）計(jì)算ΩCBPS中基分類器的集成參與權(quán)重。

步驟7重復(fù)步驟6共K次，根據(jù)公式（17）計(jì)算得到K次基分類器集成參與權(quán)重Λ。

步驟8針對(duì)ΩCBPS中每個(gè)基分類器，以基分類器u為例，根據(jù)式（18），計(jì)算其K次集成參與權(quán)重大于0的次數(shù)占比Ru，若Ru≥0.5則予以保留，采用多數(shù)投票法參與集成學(xué)習(xí)負(fù)荷模式識(shí)別任務(wù)，完成對(duì)負(fù)荷標(biāo)簽樣本集Dtest的分類。

3 算例驗(yàn)證

3.1 數(shù)據(jù)來(lái)源

算例所用數(shù)據(jù)來(lái)自UCI數(shù)據(jù)平臺(tái)，包括電力系統(tǒng)暫態(tài)穩(wěn)定模擬數(shù)據(jù)集EGSSDS（Electrical Grid Stability Simulated Data Set）和電力用戶日負(fù)荷數(shù)據(jù)集Electricity Load Diagrams 20112014 Data Set（ELDDS）兩種。EGSSDS自帶標(biāo)簽信息，ELDDS所需日負(fù)荷樣本類別標(biāo)簽參考文獻(xiàn)[17]通過(guò)K-means及K-medoids聚類優(yōu)選得到。數(shù)據(jù)集的基本信息如表2所示。

表2 數(shù)據(jù)集基本信息Tab.2 Basic information of data sets

3.2 分類效果評(píng)價(jià)指標(biāo)

在二分類場(chǎng)景中，評(píng)估指標(biāo)除采用分類準(zhǔn)確率Acc以外，引入召回率Pre、查準(zhǔn)率Ppr、Gmeans、Fvalue4種二分類評(píng)估指標(biāo)[24]。其中，Pre為少數(shù)類樣本中被正確分類的占比；Ppr為劃分為少數(shù)類別的樣本中少數(shù)類的真實(shí)占比；Gmeans為所有多數(shù)類和所有少數(shù)類正確分類占比的幾何平均值，可以反映分類器對(duì)各類別的偏向程度，該值越接近全部樣本的分類準(zhǔn)確率Acc表明類別平衡效果越好；Fvalue為Pre、Ppr的調(diào)和平均值，該值越大表明算法在提升少數(shù)類分類精度時(shí)對(duì)多數(shù)類分類結(jié)果的影響越小。

在多類別分類場(chǎng)景中，混淆矩陣是評(píng)估分類性能的重要方法，但混淆矩陣難以定量描述算法對(duì)負(fù)荷類別的混淆均衡程度。因此，基于混淆矩陣提出類別混淆均衡熵指標(biāo)。

二分類的混淆矩陣Mconfusion可表示為

式中：NTP、NTN分別為正確分類成為正類和負(fù)類的樣本數(shù)；NFP、NFN分別為錯(cuò)誤分類成為正類和負(fù)類的樣本數(shù)。

在多類別分類場(chǎng)景下的混淆矩陣可以視為多個(gè)二分類混淆矩陣的組合，即將待研究類別看作正類，其余類別統(tǒng)歸為負(fù)類。定義第m類樣本為正類時(shí)的二分類調(diào)和平均準(zhǔn)確率Γm為

Γm可以度量在二分類場(chǎng)景下的類別混淆程度，類別混淆越嚴(yán)重，Γm值越低。在此基礎(chǔ)上，定義類別混淆均衡熵Sb為

Sb值越大，表示分類模型對(duì)負(fù)荷各類別的混淆程度越均衡，同時(shí)表明過(guò)采樣算法類別平衡效果越好。

3.3 DCB-GSMOTE算法性能驗(yàn)證

為驗(yàn)證DCB-GSMOTE算法的有效性，分別開(kāi)展EGSSDS二分類和ELDDS多類別負(fù)荷分類實(shí)驗(yàn)。

3.3.1 EGSSDS暫穩(wěn)數(shù)據(jù)集分類測(cè)試

由EGSSDS中隨機(jī)抽取暫態(tài)不穩(wěn)定和暫態(tài)穩(wěn)定數(shù)據(jù)各2 000條作為驗(yàn)證集，再分別抽取4 000條和400條數(shù)據(jù)作為訓(xùn)練集。對(duì)比經(jīng)過(guò)DCB-GSMOTE算法平衡處理和其他算法（包括SMOTE和BSMOTE，其中BSMOTE在下文中簡(jiǎn)寫(xiě)作BS）處理后樣本在BPNN分類模型中的分類效果，實(shí)驗(yàn)結(jié)果如表3所示。

表3 EGSSDS二分類結(jié)果Tab.3 Binary classification results of EGSSDS

由表3結(jié)果可知，類別不平衡問(wèn)題不作處理時(shí)，由于少數(shù)類樣本訓(xùn)練不足容易錯(cuò)分，導(dǎo)致Ppr很高但Pre很低，EGSSDS整體分類精度較低；經(jīng)過(guò)各類別平衡算法處理后，EGSSDS分類性能均有明顯的提升。其中，DCB-GSMOTE各項(xiàng)分類評(píng)估指標(biāo)均為最高，其Gmeans與Acc差值為0.09%，而SMOTE和BS分別為0.22%、0.08%，平均來(lái)看，類別平衡效果相對(duì)更好；同時(shí)，DCB-GSMOTE的Fvalue比SMOTE和BS分別高出3.62%和2.19%，算法對(duì)多數(shù)類樣本的分類結(jié)果影響最小，性能更佳。在各項(xiàng)評(píng)估指標(biāo)對(duì)比中，DCB-GSMOTE多優(yōu)于SMOTE和BS算法，且各項(xiàng)分類評(píng)估指標(biāo)值更為均衡，這表明DCB-GSMOTE算法具備更好的綜合性能。

3.3.2 ELDDS負(fù)荷數(shù)據(jù)集分類測(cè)試

為對(duì)比測(cè)試DCB-GSMOTE算法的魯棒性，對(duì)比測(cè)試不同高斯噪聲含量下ELDDS負(fù)荷數(shù)據(jù)集的多類別分類結(jié)果。在開(kāi)展ELDDS負(fù)荷分類實(shí)驗(yàn)之前，根據(jù)文獻(xiàn)[17]中K-means、K-medoids聚類算法組合獲取負(fù)荷樣本的類別標(biāo)簽，截?cái)噙x取接近各聚類中心的負(fù)荷標(biāo)簽樣本，構(gòu)成日負(fù)荷標(biāo)簽樣本集D。D包括5類日負(fù)荷樣本，共計(jì)16 620條負(fù)荷曲線，各類日負(fù)荷曲線的典型用電模式如圖1所示。

圖1 各類負(fù)荷曲線典型模式Fig.1 Typical modes of various load curves

將D按4：6的比例切分為原訓(xùn)練樣本集Dtrain和測(cè)試樣本集Dtest。各類訓(xùn)練集負(fù)荷樣本數(shù)量為3 770：1 502：284：320：818（判定第3、4類為少數(shù)類負(fù)荷標(biāo)簽樣本），對(duì)Dtrain中的少數(shù)類樣本進(jìn)行類別平衡處理，獲得樣本增強(qiáng)的訓(xùn)練樣本集。同樣選擇BPNN為分類器訓(xùn)練并測(cè)試ELDDS負(fù)荷分類效果，實(shí)驗(yàn)結(jié)果如圖2所示。

圖2 不同噪聲含量下算法準(zhǔn)確率和Sb對(duì)比Fig.2 Comparison of accuracy andSbamong algorithms under different noise levels

在低噪聲場(chǎng)景下，各算法性能基本持平。隨著樣本集噪聲含量的增加，尤其達(dá)到0.9以后，經(jīng)BS和SMOTE算法處理的ELDDS負(fù)荷分類準(zhǔn)確率Acc和類別混淆均衡熵Sb均顯著減小，而DCBGSMOTE的 Acc和Sb下降不明顯，相較BS和SMOTE表現(xiàn)出更優(yōu)的穩(wěn)健性和抗噪性，算法魯棒性更強(qiáng)。

3.4 TSSEL算法性能驗(yàn)證

3.4.1 實(shí)驗(yàn)過(guò)程參數(shù)配置

為測(cè)試所提TSSEL策略的有效性，本節(jié)實(shí)驗(yàn)選取3種機(jī)器學(xué)習(xí)分類模型作為參與集成學(xué)習(xí)的基分類器，分別為BPNN、決策樹(shù)CART（Classification and Regression Tree）及LSTM神經(jīng)網(wǎng)絡(luò)。首先，以BPNN為基分類器，根據(jù)第2.3節(jié)步驟2，通過(guò)Bootstrap算法從重復(fù)抽取與訓(xùn)練集同等規(guī)模的負(fù)荷標(biāo)簽樣本子集100個(gè)，訓(xùn)練分類器模型生成BPNN基分類器池，集群規(guī)模為100個(gè)；根據(jù)第2.3節(jié)步驟3，基于構(gòu)建基分類器集群的DFI特征矩陣E；根據(jù)第2.3節(jié)步驟4，通過(guò)CBPS算法剪枝得到去冗余基分類器集合。圖3為基分類器集群ERI和CRI的分布特性，由圖3可知，基分類器集群規(guī)模LAP達(dá)到37時(shí)，冗余度指標(biāo)IERI和ICRI達(dá)到最值，保留此時(shí)所有聚類中心的基分類器構(gòu)成集合ΩCBPS，完成第一階段選擇集成。

圖3 基分類器集群ERI和CRI分布特性Fig.3 Distribution characteristics of ERI and CRI of base classifiers

基于去冗余的基分類器集群ΩCBPS，開(kāi)展第2階段選擇集成實(shí)驗(yàn)。為確定超參數(shù)μ的合理取值，μ取值范圍從0.001～100按指數(shù)級(jí)變化，根據(jù)第2.3節(jié)步驟6，計(jì)算OBSI策略的優(yōu)化結(jié)果υ，得到υ*-μ特性曲線簇如圖4所示，圖4的每根折線表示ΩCBPS中每個(gè)基分類器的υ*-μ特性曲線。當(dāng)平衡因子μ達(dá)到1時(shí)，各基分類器的集成參與權(quán)重系數(shù)υ*剛趨于穩(wěn)定。選擇此時(shí)的μ值在滿足集成精度要求的同時(shí)，可抑制集成負(fù)荷分類模型的過(guò)擬合問(wèn)題。

圖4 基分類器υ*-μ特性曲線簇Fig.4 υ*-μcharacteristic curve cluster of base classifiers

3.4.2 ELDDS負(fù)荷分類性能測(cè)試

根據(jù)第2.3節(jié)步驟5～7，采用5折交叉驗(yàn)證，重復(fù)步驟5共5次，計(jì)算每次的ΩCBPS集成參與權(quán)重，獲得集成參與權(quán)重矩陣Λ。根據(jù)第2.3節(jié)步驟8得到OBSI策略保留的基分類器集合，共計(jì)9個(gè)基分類器，通過(guò)多數(shù)投票法參與Dtest的負(fù)荷分類任務(wù)。

將BPNN、CART和LSTM分別作為基分類器實(shí)施DCB-GSMOTE類別平衡及兩階段選擇集成，同時(shí)基于ELDDS數(shù)據(jù)集對(duì)比基分類器采用不同集成策略時(shí)（無(wú)類別平衡處理）的負(fù)荷分類效果。Dtest的負(fù)荷分類準(zhǔn)確率Acc及類別混淆均衡熵Sb分別如表4和表5所示。

表4 不同算法分類Acc對(duì)比Tab.4 Comparison of classification accuracy among various algorithms

表5 不同算法Sb對(duì)比Tab.5 comparison ofSbamong various algorithms

在表4和表5中，本文所提計(jì)及類別平衡的TSSEL負(fù)荷模式識(shí)別策略，較Bagging、Adaboost集成表現(xiàn)出更高的分類準(zhǔn)確率Acc和類別混淆均衡熵Sb。通過(guò)3種不同的基分類器（BPNN、CART和LSTM）集成負(fù)荷分類實(shí)驗(yàn)驗(yàn)證了所提方法具備一定普適性。實(shí)驗(yàn)結(jié)果表明，通過(guò)TSSEL選擇集成策略遴選差異化強(qiáng)、準(zhǔn)確率高的基分類器參與負(fù)荷分類任務(wù)的組合決策，可以在保證負(fù)荷分類效果的同時(shí)，有效降低集成學(xué)習(xí)的算法規(guī)模。

3.4.3 算法穩(wěn)定性測(cè)試

為驗(yàn)證所提TSSEL策略算法的穩(wěn)定性，以BPNN為基分類器，對(duì)比TSSEL、Bagging集成學(xué)習(xí)BEL（bagging ensemble learning）在多次重復(fù)實(shí)驗(yàn)中對(duì)ELDDS測(cè)試集Dtest的分類準(zhǔn)確率波動(dòng)情況。其中，BEL的基分類器數(shù)目分兩種來(lái)對(duì)照測(cè)試（L和LTSSEL，即100和9）。各集成BPNN分類模型訓(xùn)練所需的負(fù)荷標(biāo)簽樣本集均采用經(jīng)過(guò)DCB-GSMOTE類別平衡后的。各集成BPNN算法的縮寫(xiě)名稱分別記為：TSSEL-BPNN(LTSSEL)、BEL-BPNN(LTSSEL)和BEL-BPNN(L)。實(shí)驗(yàn)重復(fù)300次，結(jié)果如圖5所示。

圖5 TSSEL算法的穩(wěn)定性測(cè)試Fig.5 Stability test of TSSEL algorithm

在圖5中，TSSEL-BPNN分類正確率主要分布于區(qū)間[0.964，0.966]之間；BEL-BPNN（L）分類正確率主要分布于區(qū)間[0.958，0.962]之間；BEL-BPNN(LTSSEL)分類正確率主要分布于區(qū)間[0.956，0.961]之間。BEL-BPNN（L）分類正確率的分布區(qū)間比BEEBPNN(LTSSEL)減小20%，表明提升基分類器的集成規(guī)模可以增強(qiáng)BEL-BPNN的分類穩(wěn)定性。本文所提TSSEL-BPNN分類準(zhǔn)確率的分布區(qū)間比BELBPNN(LTSSEL)減小60%，減小量較BEL-BPNN（L）提高40%，這表明基學(xué)習(xí)機(jī)池中冗余基分類器不僅對(duì)樣本分類準(zhǔn)確率有影響，也會(huì)降低集成分類算法的穩(wěn)定性，因此，所提TSSEL策略可有效提升負(fù)荷分類算法的穩(wěn)定性。

4 結(jié)論

針對(duì)集成學(xué)習(xí)負(fù)荷模式識(shí)別中的類別不平衡問(wèn)題及基分類器冗余問(wèn)題，提出一種計(jì)及類別平衡的TSSEL電力負(fù)荷序列模式識(shí)別方法。通過(guò)算例分析論證得出以下結(jié)論。

（1）DCB-GSMOTE類別平衡算法能根據(jù)負(fù)荷樣本的密度分布特性實(shí)施過(guò)采樣，較SMOTE和BS算法具有更好的負(fù)荷類別平衡效果和算法魯棒性，可有效抑制類別不平衡問(wèn)題導(dǎo)致的少數(shù)類負(fù)荷樣本辨識(shí)度被多數(shù)類淹沒(méi)的問(wèn)題。

（2）面向負(fù)荷模式識(shí)別的TSSEL策略，通過(guò)CBPS和OBSI策略縮減基分類器池規(guī)模，可有效改善基分類器冗余問(wèn)題對(duì)負(fù)荷分類精度集成增益的影響，同時(shí)可增強(qiáng)負(fù)荷分類模型的算法穩(wěn)定性。

（3）采用DCB-GSMOTE算法和TSSEL策略的負(fù)荷模式識(shí)別算法，從數(shù)據(jù)層和算法層分別解決類別不平衡問(wèn)題和基分類器冗余問(wèn)題對(duì)負(fù)荷模式識(shí)別性能的影響，較傳統(tǒng)Bagging、Adaboost集成能取得更優(yōu)的分類精度，且算法框架具有一定普適性，為電力用戶負(fù)荷數(shù)據(jù)高性能處理提供了有價(jià)值的研究思路，對(duì)開(kāi)展用戶多層級(jí)需求響應(yīng)潛力畫(huà)像及用戶側(cè)需求響應(yīng)資源聚合評(píng)估研究具有參考價(jià)值。