999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向類別不平衡負(fù)荷序列模式識(shí)別的兩階段選擇集成學(xué)習(xí)策略

2023-02-13 07:04:40王圓圓王世謙白宏坤
關(guān)鍵詞:模式識(shí)別分類

王圓圓,韓 丁,王世謙,白宏坤,王 磊,劉 洋

(1.國(guó)網(wǎng)河南省電力公司經(jīng)濟(jì)技術(shù)研究院,鄭州 450052;2.四川大學(xué)電氣工程學(xué)院,成都 610065)

伴隨智能電網(wǎng)和能源互聯(lián)網(wǎng)的發(fā)展,人工智能技術(shù)與傳統(tǒng)電網(wǎng)技術(shù)的日益融合,成為電網(wǎng)管理者快速感知電力系統(tǒng)多源數(shù)據(jù)規(guī)律、實(shí)施精準(zhǔn)控制和決策的重要輔助手段[1-4]。當(dāng)前,集成學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等人工智能理論在電力用戶負(fù)荷模式識(shí)別中已受到廣泛重視,其對(duì)電網(wǎng)企業(yè)開(kāi)展精細(xì)化用戶用電行為建模、制定個(gè)性化用電服務(wù)及提升企業(yè)市場(chǎng)競(jìng)爭(zhēng)力具有重要價(jià)值[5-8]。

集成學(xué)習(xí)因具有良好的算法穩(wěn)定性、準(zhǔn)確度增益和算法普適性被引入計(jì)算機(jī)視覺(jué)、生物、醫(yī)學(xué)及工程等多個(gè)學(xué)科領(lǐng)域。近年來(lái),集成學(xué)習(xí)在電力負(fù)荷模式識(shí)別領(lǐng)域的研究中備受重視。負(fù)荷模式直觀表現(xiàn)為負(fù)荷時(shí)間序列的曲線形態(tài)和時(shí)段負(fù)荷水平,它反映了用戶該時(shí)間尺度下的用電行為規(guī)律。負(fù)荷模式是精細(xì)化開(kāi)展用電行為畫(huà)像、辨識(shí)需求響應(yīng)潛力用戶的理論基礎(chǔ)[9-11],文獻(xiàn)[12]結(jié)合負(fù)荷序列的時(shí)域和頻域特征,構(gòu)建基于長(zhǎng)短期記憶LSTM(long short-term memory)神經(jīng)網(wǎng)絡(luò)的日負(fù)荷模式辨識(shí)及提取算法;文獻(xiàn)[13]針對(duì)傳統(tǒng)K-means聚類方法中聚類結(jié)果穩(wěn)定性差和距離度量不能反映負(fù)荷曲線趨勢(shì)相似度的問(wèn)題,提出一種基于中心優(yōu)化和雙尺度相似性度量的負(fù)荷聚類式分類方法。隨著智能儀表的普及應(yīng)用,用戶級(jí)負(fù)荷數(shù)據(jù)大量累積,海量用戶負(fù)荷數(shù)據(jù)高性能處理成為重要研究課題。針對(duì)大規(guī)模負(fù)荷數(shù)據(jù)的分類效率問(wèn)題,文獻(xiàn)[14-15]提出結(jié)合自動(dòng)編碼器特征降維和無(wú)監(jiān)督聚類的負(fù)荷分類方法;文獻(xiàn)[16]提出一種分布式并行LSTM神經(jīng)網(wǎng)絡(luò)負(fù)荷模式識(shí)別模型,將負(fù)荷數(shù)據(jù)切分為樣本規(guī)模更小的子塊存放在分布式文件存儲(chǔ)系統(tǒng)中,在各個(gè)計(jì)算節(jié)點(diǎn)完成負(fù)荷分類任務(wù);文獻(xiàn)[17-18]為解決數(shù)據(jù)分塊帶來(lái)的分類精度下降問(wèn)題,基于Hadoop大數(shù)據(jù)計(jì)算平臺(tái),提出分布式并行集成反向傳播神經(jīng)網(wǎng)絡(luò)BPNN(back propagation neural network)的負(fù)荷模式分類方法,采用Bagging式集成學(xué)習(xí)對(duì)各子計(jì)算節(jié)點(diǎn)部署的基分類器進(jìn)行融合決策,彌補(bǔ)子節(jié)點(diǎn)分類器的精度損失。以Bagging為代表的并行式集成學(xué)習(xí)與負(fù)荷數(shù)據(jù)分布式處理具有良好的算法適配性,成為提升用戶側(cè)大數(shù)據(jù)處理效能的重要方法,但相關(guān)研究均未考慮集成學(xué)習(xí)廣泛存在的基分類器冗余問(wèn)題。當(dāng)基分類器集群陷入同質(zhì)化時(shí),基分類器便失去差異性,集成學(xué)習(xí)就會(huì)失效且增加無(wú)效數(shù)據(jù)處理成本[19]。目前,基分類器集成的經(jīng)典方法包括異質(zhì)基分類器集成、隨機(jī)子空間集成和Boosting、Bagging集成等[20]。異質(zhì)基分類器集成對(duì)基分類器的選擇缺乏通用標(biāo)準(zhǔn);隨機(jī)子空間集成面臨特征子空間冗余的類似問(wèn)題;Boosting集成易受數(shù)據(jù)噪聲影響,算法魯棒性差,且為串行式算法邏輯,對(duì)大量負(fù)荷數(shù)據(jù)的處理存在效率缺陷;Bagging集成魯棒性較強(qiáng),與主流的分布式計(jì)算框架具有良好的適配性,但基分類器冗余問(wèn)題嚴(yán)重。選擇集成策略是應(yīng)對(duì)Bagging集成學(xué)習(xí)中基分類器冗余的有效方法[21],其選擇部分性能優(yōu)越的基分類器參與集成,可獲得效率提升和同等甚至更高的性能增益。

伴隨智能電表的廣泛應(yīng)用,用戶負(fù)荷數(shù)據(jù)體量和用電行為復(fù)雜性均不斷提升[22-23],負(fù)荷樣本潛在的類別不平衡問(wèn)題增強(qiáng),增加了精準(zhǔn)分類的難度[24-25]。類別不平衡表現(xiàn)為分類模型中少數(shù)類樣本的辨識(shí)度被多數(shù)類淹沒(méi),是電力數(shù)據(jù)模式分類領(lǐng)域的重要難題之一。少數(shù)類樣本過(guò)采樣技術(shù)是解決類別不平衡問(wèn)題的有效方法,文獻(xiàn)[26]采用生成對(duì)抗網(wǎng)絡(luò)合成竊電監(jiān)測(cè)樣本,克服少數(shù)類樣本數(shù)目不足的問(wèn)題。深度學(xué)習(xí)模型通過(guò)學(xué)習(xí)樣本分布規(guī)律能獲取較高質(zhì)量的新樣本,但算法復(fù)雜且需要大量數(shù)據(jù)資源驅(qū)動(dòng)。文獻(xiàn)[17]引入基于k-近鄰采樣原理的合成少數(shù)類過(guò)采樣技術(shù)SMOTE(synthetic minority over-sampling technique),有效提升了少數(shù)類負(fù)荷樣本的分類精度;文獻(xiàn)[18]針對(duì)SMOTE算法近鄰樣本選擇盲目的問(wèn)題,采用邊界合成少數(shù)類過(guò)采樣技術(shù)BSMOTE(borderline synthetic minority over-sampling technique)加以改善。上述SMOTE方法均未考慮少數(shù)類樣本的密度分布特性,采樣過(guò)程與類別重疊現(xiàn)象的耦合作用也會(huì)削弱分類模型的泛化性能。

本文為解決集成學(xué)習(xí)負(fù)荷模式識(shí)別中的類別不平衡及基分類器冗余等問(wèn)題,提出一種計(jì)及類別平衡的兩階段選擇集成學(xué)習(xí)TSSEL(two stage selective ensemble learning)電力負(fù)荷序列模式識(shí)別方法。采用一種基于密度聚類的高斯合成少數(shù)類樣本過(guò)采樣技術(shù)DCB-GSMOTE(density clusteringbased Gaussian synthetic minority over-sampling technique),解決少數(shù)類負(fù)荷樣本在模式識(shí)別任務(wù)中被多數(shù)類淹沒(méi)的問(wèn)題。同時(shí),設(shè)計(jì)一種包括基分類器聚類剪枝及優(yōu)化集成的兩階段選擇集成負(fù)荷分類模型。

1 類別不平衡處理

1.1 DCB-GSMOTE算法基本概念

DCB-GSMOTE根據(jù)少數(shù)類樣本集的密度分布特性進(jìn)行自適應(yīng)人工樣本合成采樣,其對(duì)樣本集的密度分布表征借鑒DBSCAN(density-based spatial clustering of applications with noise)算法的直接密度可達(dá)圖理念涉及的相關(guān)基本概念如下。

(1)ρ-鄰域。已知一聚類簇Z,設(shè)其中一樣本xi的鄰域半徑為ρ,定義xi的ρ-鄰域Nρ(xi)為

(2)核心點(diǎn)。已知樣本xi,若其ρ-鄰域Nρ(xi)內(nèi)至少存在κ個(gè)樣本點(diǎn),則稱xi為核心點(diǎn)。

(3)直接密度可達(dá)。已知樣本xi、xj,若xi為核心點(diǎn),且滿足xj∈Nρ(xi),則稱xj對(duì)xi直接密度可達(dá)。

(4)直接密度可達(dá)圖。設(shè)V是Z中所有滿足直接密度可達(dá)條件的樣本集合,將直接密度可達(dá)樣本對(duì)的加權(quán)圖路徑定義為直接密度可達(dá)邊,路徑權(quán)重表征為樣本對(duì)的歐式距離;設(shè)E為Z中所有直接密度可達(dá)邊的集合,稱G(Z,ρ,κ)=(V,E)為聚類簇Z在ρ和κ參數(shù)條件下的直接密度可達(dá)圖。

1.2 DCB-GSMOTE算法基本流程

步驟1判別少數(shù)類日負(fù)荷序列樣本。已知日負(fù)荷標(biāo)簽樣本集D,按負(fù)荷模式類別差異劃分為M類樣本子集{Dm|m=1,…,M}。若樣本子集Dm的樣本數(shù)量小于最大樣本子集數(shù)量的1/5,則判定該類負(fù)荷樣本子集為少數(shù)類,對(duì)其進(jìn)行樣本合成。

步驟2少數(shù)類樣本密度聚類。設(shè)Dm為少數(shù)類樣本集,對(duì)其實(shí)施DBSCAN聚類,得到若干聚類簇{Dm,c|c=1,…,C},其中,Dm,c為第c個(gè)聚類簇,C為聚類簇總數(shù)。記錄各聚類簇的聚類中心樣本。

步驟3聚類簇構(gòu)建直接密度可達(dá)圖。記錄DBSCAN聚類后每個(gè)聚類簇Dm,c的直接密度可達(dá)圖G(Dm,c,ρ,κ)。

步驟4確定每一聚類簇Dm,c的樣本合成數(shù)目。計(jì)算各聚類簇的樣本數(shù)目分布比例,按比例在各聚類簇中合成新樣本。

步驟5采樣路徑搜索。每次合成新樣本時(shí)在Dm,c隨機(jī)選定一真實(shí)樣本xr,在G(Dm,c,ρ,κ)中采用Dijkstra算法搜索xr到聚類中心xcenterc的最短加權(quán)圖路徑,其中,為xr到最短加權(quán)圖路徑經(jīng)過(guò)的樣本點(diǎn),?為直接密度可達(dá)。將Jr?center作為本次的采樣路徑。

步驟6新樣本合成。在Jr?center中隨機(jī)選擇一段直接密度可達(dá)邊作為本次的采樣區(qū)間。

在采樣區(qū)間內(nèi)設(shè)定插值距離l,其服從的均勻分布可表示為

隨機(jī)生成插值坐標(biāo)q為

為增強(qiáng)合成樣本的多樣性,對(duì)q添加一隨機(jī)擾動(dòng)向量o。o的每一維度均服從的正態(tài)分布為

式中,σ為相對(duì)標(biāo)準(zhǔn)差。

最后生成本次的新樣本xsynthetic為

步驟7重復(fù)步驟5、6,直到少數(shù)類樣本總數(shù)目達(dá)到最大樣本子集數(shù)目的1/5。

2 負(fù)荷模式識(shí)別的兩階段選擇集成策略

集成學(xué)習(xí)中基分類器的差異性和準(zhǔn)確率是影響集成性能的關(guān)鍵因素,其中,差異性是指基分類器對(duì)樣本做出不同錯(cuò)分的趨勢(shì),差異性和準(zhǔn)確率高的基分類器集群可以獲得更好的集成增益。兼顧基分類器的差異性和識(shí)別準(zhǔn)確率,提出基于差異性模糊增量的聚類剪枝策略CBPS(clustering-based pruning strategy)和基于正則化代理集成分類精度損失的優(yōu)化選擇集成OBSI(optimization-based selection integration)策略的兩階段選擇集成負(fù)荷模式識(shí)別方法。

2.1 CBPS策略

所提基于差異性模糊增量DFI(diversity fuzzy increment)的CBPS首先構(gòu)建基分類器的DFI特征向量,基于DFI特征向量采用近鄰傳播AP(affinity propagation)聚類將基分類器集群劃分為若干類,剪枝除聚類中心外的其余冗余基分類器個(gè)體。同時(shí),為確定基分類器池的最佳聚類剪枝數(shù)目,提出基于歐式冗余度和余弦冗余度雙度量指標(biāo)的基分類器集群冗余度評(píng)價(jià)方法。

2.1.1 DFI特征向量

采用Q-統(tǒng)計(jì)量構(gòu)建基分類器的DFI特征向量,該指標(biāo)隸屬成對(duì)差異性度量的范疇,用于度量?jī)苫诸惼髦g的決策差異性[27]。第m類負(fù)荷樣本分類任務(wù)中基分類器u和基分類器v的Q-統(tǒng)計(jì)量可表示為

式中:au,v、du,v分別為基分類器u和v對(duì)訓(xùn)練樣本集作出<正確,正確>、<錯(cuò)誤,錯(cuò)誤>分類的概率;bu,v、cu,v分別為基分類器u和v對(duì)訓(xùn)練樣本做出<正確,錯(cuò)誤>、<錯(cuò)誤,正確>分類結(jié)果的概率[21]。

表1為au,v、bu,v、cu,v和du,v服從的聯(lián)合分布,其中,hu(xk)、hv(xk)分別為基分類器u和v對(duì)訓(xùn)練樣本xk的分類結(jié)果;yk為xk的類別標(biāo)簽。

表1 兩基分類器間的聯(lián)合分布Tab.1 Joint distribution for two base classifiers

基于Q-統(tǒng)計(jì)量,構(gòu)建基分類器集群的整體差異性指標(biāo)φm為

式中,L為基分類器數(shù)目。

為描述基分類器個(gè)體對(duì)集群整體差異性變化的影響,定義第m類訓(xùn)練樣本中基分類器u的DFI為Eu,m,其公式可表示為

式中,Ωu?Ω、Ωu?Ω分別為包含和不包含基分類器u的基分類器集合。

設(shè)樣本總類別數(shù)為M,分別計(jì)算不同類別對(duì)應(yīng)的差異性模糊增量,構(gòu)建基分類器集群的DFI特征矩陣E為

2.1.2 基分類器集群最佳聚類中心數(shù)目評(píng)估

歐氏距離和余弦距離常用于數(shù)據(jù)序列的相似性評(píng)估。對(duì)基分類器集群完成一次聚類后,計(jì)算所有聚類中心的基分類器子集DFI特征向量的平均歐氏距離和余弦距離,歐式冗余度指標(biāo)ERI(European redundancy index)IERI和余弦冗余度指標(biāo)CRI(cosine redundancy index)ICRI可表示為

式中:LAP為基分類器聚類中心的數(shù)目;Eu,、Ev,分別為DFI特征矩陣E的第u和v行向量。IERI越大或者ICRI越小意味聚類中心基分類器子集的平均差異性越大,基分類器冗余度越低。聚類時(shí)將IERI和ICRI取最值時(shí)的聚類中心數(shù)目Lmost作為最佳剪枝結(jié)果。

2.1.3 CBPS算法基本流程

步驟1基分類器池生成。已知日負(fù)荷標(biāo)簽樣本集D,抽樣訓(xùn)練生成L個(gè)基分類器,構(gòu)成原始基分類器池。

步驟2DFI特征向量構(gòu)建。根據(jù)D計(jì)算基分類器池中所有基分類器對(duì)的Q-統(tǒng)計(jì)量,進(jìn)而生成所有基分類器的DFI特征向量集合,構(gòu)建DFI特征矩陣E。

步驟3基分類器集群聚類。設(shè)定偏好度參數(shù),采用AP聚類算法對(duì)E矩陣行向量完成一次聚類,確定本次聚類的聚類中心數(shù)目。

步驟4基分類器集群聚類剪枝。按照步驟3完成多次聚類,直到選定ERI和CRI特性曲線的拐點(diǎn)。根據(jù)拐點(diǎn)聚類結(jié)果,將所有聚類中心對(duì)應(yīng)的基分類器作為CBPS去冗余的基分類器集合。

2.2 OBSI策略

為提升選擇集成模型的泛化能力,將OBSI策略引入集成邊界的概念,構(gòu)建最小正則化代理集成精度損失函數(shù)優(yōu)化基分類器集成參與權(quán)重。

2.2.1 考慮模型復(fù)雜度的最大化Margin集成策略

集成邊界最早由Schapire提出,是一種描述樣本正確分類傾向程度的度量。已知負(fù)荷標(biāo)簽樣本驗(yàn)證集Dverify={(xn,yn)|n=1,…,N},其中,xn、yn分別為第n個(gè)樣本和類別標(biāo)簽;設(shè)經(jīng)CBPS策略剪枝得到基分類器集合為ΩCBPS,H(X)={hu(xn)|xn?Dverify;u?ΩCBPS}為ΩCBPS對(duì)Dverify的分類結(jié)果集合。則ΩCBPS對(duì)樣本xn的集成邊界Υ(xn,yn)可表示為

式中:υu(píng)為基分類器u的集成參與權(quán)重;?(xn)為基分類器集成分類結(jié)果。若分類正確,則yn?(xn)=1;反之,yn?(xn)=-1。

基于集成邊界,定義集成學(xué)習(xí)分類精度損失為

優(yōu)化集成通過(guò)最小化集成精度損失,提升集成模型的泛化能力。為控制集成復(fù)雜度、抑制優(yōu)化帶來(lái)的集成過(guò)擬合問(wèn)題,添加基于基分類器集成參與權(quán)重的正則項(xiàng),構(gòu)建的優(yōu)化問(wèn)題可表示為

式中,μ為正則項(xiàng)和集成損失項(xiàng)的平衡因子,用于控制模型復(fù)雜度,υ=(υ1…υu(píng)…υLmost);。

2.2.2 基于Huber函數(shù)的代理?yè)p失優(yōu)化集成

由于所提集成學(xué)習(xí)分類精度損失函數(shù)?loss(H(X))屬于非凸、不連續(xù)的目標(biāo)函數(shù),代理?yè)p失優(yōu)化可有效改善其優(yōu)化過(guò)程。采用截?cái)郒uber函數(shù)作為代理?yè)p失函數(shù),引入?yún)⒁蜃觘來(lái)調(diào)節(jié)代理?yè)p失函數(shù)對(duì)異常值和噪聲數(shù)據(jù)的敏感度,增強(qiáng)優(yōu)化結(jié)果的魯棒性和穩(wěn)定性,本文設(shè)定為0.6。截?cái)郒uber函數(shù)可表示為

式中,p為集成學(xué)習(xí)分類的精度損失。

基于Huber代理?yè)p失函數(shù)的最小正則化代理集成分類精度損失函數(shù)可表示為

2.2.3 基于K折交叉驗(yàn)證的基分類器選擇

采用K折交叉驗(yàn)證法從原始標(biāo)簽樣本訓(xùn)練集中獲得K個(gè)驗(yàn)證集Dverify,重復(fù)OBSI策略,獲得K次ΩCBPS集成參與權(quán)重優(yōu)化結(jié)果,記為Λ

式中,υs,u為第s次OBSI策略求解中第u個(gè)基分類器的集成參與權(quán)重。

將ΩCBPS中基分類器u的K次集成參與權(quán)重記為(υ1,u…υs,u…υK,u),計(jì)算權(quán)重大于0的次數(shù)占比Ru為

式中,符號(hào)函數(shù)sign(·)在自變量大于0時(shí)取值為1,反之為-1。當(dāng)Ru≥0.5時(shí),該基分類器予以保留,采用多數(shù)投票法參與集成學(xué)習(xí)負(fù)荷模式識(shí)別任務(wù)。

2.3 所提負(fù)荷模式識(shí)別算法總體流程

本文所提負(fù)荷模式識(shí)別算法總體流程如下。

步驟1已知日負(fù)荷標(biāo)簽樣本集D,將其按照類別劃分為M個(gè)樣本子集{Dm|m=1,…,M},對(duì)每類樣本子集按照比例4:6隨機(jī)劃分為訓(xùn)練子集Dtrain,m和測(cè)試子集Dtest,m兩部分,對(duì)Dtrain,m的少數(shù)類樣本進(jìn)行DCB-GSMOTE類別平衡處理得到,合并各類樣本子訓(xùn)練集及測(cè)試集分別得到訓(xùn)練樣本集和測(cè)試樣本集Dtest。

步驟2對(duì)采用Bootstrap重抽樣提取L個(gè)同等規(guī)模的負(fù)荷標(biāo)簽樣本子集,前向輸入L個(gè)待訓(xùn)練的基分類器(以BPNN為例),采用Adam優(yōu)化求解各自的目標(biāo)損失函數(shù)(本文采用交叉熵?fù)p失函數(shù)),通過(guò)早停法確定學(xué)習(xí)次數(shù),訓(xùn)練生成L個(gè)基分類器,構(gòu)成基分類器集合Ω。

步驟3計(jì)算并記錄Ω中每個(gè)基分類器對(duì)的分類結(jié)果,將其記為。基于Htrain(X),根據(jù)式(6)~(9)構(gòu)建基分類器的DFI特征矩陣E。

步驟4CBPS階段,采用AP算法對(duì)E中所有基分類器的DFI特征向量進(jìn)行聚類,根據(jù)式(10)、(11)確定基分類器池聚類剪枝的最佳保留數(shù)目LAP,將保留的基分類器集合記為ΩCBPS。

步驟5OBSI階段,采用K折交叉驗(yàn)證,首先將按照各類樣本的比例隨機(jī)劃分為K等份記為。

步驟6計(jì)算并記錄ΩCBPS中每個(gè)基分類器對(duì)Dverify,s的分類結(jié)果,記為Htest(X)={hu(xk)|xk?Dverify,s;u?ΩCBPS}。根據(jù)式(12)~(16)計(jì)算ΩCBPS中基分類器的集成參與權(quán)重。

步驟7重復(fù)步驟6共K次,根據(jù)公式(17)計(jì)算得到K次基分類器集成參與權(quán)重Λ。

步驟8針對(duì)ΩCBPS中每個(gè)基分類器,以基分類器u為例,根據(jù)式(18),計(jì)算其K次集成參與權(quán)重大于0的次數(shù)占比Ru,若Ru≥0.5則予以保留,采用多數(shù)投票法參與集成學(xué)習(xí)負(fù)荷模式識(shí)別任務(wù),完成對(duì)負(fù)荷標(biāo)簽樣本集Dtest的分類。

3 算例驗(yàn)證

3.1 數(shù)據(jù)來(lái)源

算例所用數(shù)據(jù)來(lái)自UCI數(shù)據(jù)平臺(tái),包括電力系統(tǒng)暫態(tài)穩(wěn)定模擬數(shù)據(jù)集EGSSDS(Electrical Grid Stability Simulated Data Set)和電力用戶日負(fù)荷數(shù)據(jù)集Electricity Load Diagrams 20112014 Data Set(ELDDS)兩種。EGSSDS自帶標(biāo)簽信息,ELDDS所需日負(fù)荷樣本類別標(biāo)簽參考文獻(xiàn)[17]通過(guò)K-means及K-medoids聚類優(yōu)選得到。數(shù)據(jù)集的基本信息如表2所示。

表2 數(shù)據(jù)集基本信息Tab.2 Basic information of data sets

3.2 分類效果評(píng)價(jià)指標(biāo)

在二分類場(chǎng)景中,評(píng)估指標(biāo)除采用分類準(zhǔn)確率Acc以外,引入召回率Pre、查準(zhǔn)率Ppr、Gmeans、Fvalue4種二分類評(píng)估指標(biāo)[24]。其中,Pre為少數(shù)類樣本中被正確分類的占比;Ppr為劃分為少數(shù)類別的樣本中少數(shù)類的真實(shí)占比;Gmeans為所有多數(shù)類和所有少數(shù)類正確分類占比的幾何平均值,可以反映分類器對(duì)各類別的偏向程度,該值越接近全部樣本的分類準(zhǔn)確率Acc表明類別平衡效果越好;Fvalue為Pre、Ppr的調(diào)和平均值,該值越大表明算法在提升少數(shù)類分類精度時(shí)對(duì)多數(shù)類分類結(jié)果的影響越小。

在多類別分類場(chǎng)景中,混淆矩陣是評(píng)估分類性能的重要方法,但混淆矩陣難以定量描述算法對(duì)負(fù)荷類別的混淆均衡程度。因此,基于混淆矩陣提出類別混淆均衡熵指標(biāo)。

二分類的混淆矩陣Mconfusion可表示為

式中:NTP、NTN分別為正確分類成為正類和負(fù)類的樣本數(shù);NFP、NFN分別為錯(cuò)誤分類成為正類和負(fù)類的樣本數(shù)。

在多類別分類場(chǎng)景下的混淆矩陣可以視為多個(gè)二分類混淆矩陣的組合,即將待研究類別看作正類,其余類別統(tǒng)歸為負(fù)類。定義第m類樣本為正類時(shí)的二分類調(diào)和平均準(zhǔn)確率Γm為

Γm可以度量在二分類場(chǎng)景下的類別混淆程度,類別混淆越嚴(yán)重,Γm值越低。在此基礎(chǔ)上,定義類別混淆均衡熵Sb為

Sb值越大,表示分類模型對(duì)負(fù)荷各類別的混淆程度越均衡,同時(shí)表明過(guò)采樣算法類別平衡效果越好。

3.3 DCB-GSMOTE算法性能驗(yàn)證

為驗(yàn)證DCB-GSMOTE算法的有效性,分別開(kāi)展EGSSDS二分類和ELDDS多類別負(fù)荷分類實(shí)驗(yàn)。

3.3.1 EGSSDS暫穩(wěn)數(shù)據(jù)集分類測(cè)試

由EGSSDS中隨機(jī)抽取暫態(tài)不穩(wěn)定和暫態(tài)穩(wěn)定數(shù)據(jù)各2 000條作為驗(yàn)證集,再分別抽取4 000條和400條數(shù)據(jù)作為訓(xùn)練集。對(duì)比經(jīng)過(guò)DCB-GSMOTE算法平衡處理和其他算法(包括SMOTE和BSMOTE,其中BSMOTE在下文中簡(jiǎn)寫(xiě)作BS)處理后樣本在BPNN分類模型中的分類效果,實(shí)驗(yàn)結(jié)果如表3所示。

表3 EGSSDS二分類結(jié)果Tab.3 Binary classification results of EGSSDS

由表3結(jié)果可知,類別不平衡問(wèn)題不作處理時(shí),由于少數(shù)類樣本訓(xùn)練不足容易錯(cuò)分,導(dǎo)致Ppr很高但Pre很低,EGSSDS整體分類精度較低;經(jīng)過(guò)各類別平衡算法處理后,EGSSDS分類性能均有明顯的提升。其中,DCB-GSMOTE各項(xiàng)分類評(píng)估指標(biāo)均為最高,其Gmeans與Acc差值為0.09%,而SMOTE和BS分別為0.22%、0.08%,平均來(lái)看,類別平衡效果相對(duì)更好;同時(shí),DCB-GSMOTE的Fvalue比SMOTE和BS分別高出3.62%和2.19%,算法對(duì)多數(shù)類樣本的分類結(jié)果影響最小,性能更佳。在各項(xiàng)評(píng)估指標(biāo)對(duì)比中,DCB-GSMOTE多優(yōu)于SMOTE和BS算法,且各項(xiàng)分類評(píng)估指標(biāo)值更為均衡,這表明DCB-GSMOTE算法具備更好的綜合性能。

3.3.2 ELDDS負(fù)荷數(shù)據(jù)集分類測(cè)試

為對(duì)比測(cè)試DCB-GSMOTE算法的魯棒性,對(duì)比測(cè)試不同高斯噪聲含量下ELDDS負(fù)荷數(shù)據(jù)集的多類別分類結(jié)果。在開(kāi)展ELDDS負(fù)荷分類實(shí)驗(yàn)之前,根據(jù)文獻(xiàn)[17]中K-means、K-medoids聚類算法組合獲取負(fù)荷樣本的類別標(biāo)簽,截?cái)噙x取接近各聚類中心的負(fù)荷標(biāo)簽樣本,構(gòu)成日負(fù)荷標(biāo)簽樣本集D。D包括5類日負(fù)荷樣本,共計(jì)16 620條負(fù)荷曲線,各類日負(fù)荷曲線的典型用電模式如圖1所示。

圖1 各類負(fù)荷曲線典型模式Fig.1 Typical modes of various load curves

將D按4:6的比例切分為原訓(xùn)練樣本集Dtrain和測(cè)試樣本集Dtest。各類訓(xùn)練集負(fù)荷樣本數(shù)量為3 770:1 502:284:320:818(判定第3、4類為少數(shù)類負(fù)荷標(biāo)簽樣本),對(duì)Dtrain中的少數(shù)類樣本進(jìn)行類別平衡處理,獲得樣本增強(qiáng)的訓(xùn)練樣本集。同樣選擇BPNN為分類器訓(xùn)練并測(cè)試ELDDS負(fù)荷分類效果,實(shí)驗(yàn)結(jié)果如圖2所示。

圖2 不同噪聲含量下算法準(zhǔn)確率和Sb對(duì)比Fig.2 Comparison of accuracy andSbamong algorithms under different noise levels

在低噪聲場(chǎng)景下,各算法性能基本持平。隨著樣本集噪聲含量的增加,尤其達(dá)到0.9以后,經(jīng)BS和SMOTE算法處理的ELDDS負(fù)荷分類準(zhǔn)確率Acc和類別混淆均衡熵Sb均顯著減小,而DCBGSMOTE的 Acc和Sb下降不明顯,相較BS和SMOTE表現(xiàn)出更優(yōu)的穩(wěn)健性和抗噪性,算法魯棒性更強(qiáng)。

3.4 TSSEL算法性能驗(yàn)證

3.4.1 實(shí)驗(yàn)過(guò)程參數(shù)配置

為測(cè)試所提TSSEL策略的有效性,本節(jié)實(shí)驗(yàn)選取3種機(jī)器學(xué)習(xí)分類模型作為參與集成學(xué)習(xí)的基分類器,分別為BPNN、決策樹(shù)CART(Classification and Regression Tree)及LSTM神經(jīng)網(wǎng)絡(luò)。首先,以BPNN為基分類器,根據(jù)第2.3節(jié)步驟2,通過(guò)Bootstrap算法從重復(fù)抽取與訓(xùn)練集同等規(guī)模的負(fù)荷標(biāo)簽樣本子集100個(gè),訓(xùn)練分類器模型生成BPNN基分類器池,集群規(guī)模為100個(gè);根據(jù)第2.3節(jié)步驟3,基于構(gòu)建基分類器集群的DFI特征矩陣E;根據(jù)第2.3節(jié)步驟4,通過(guò)CBPS算法剪枝得到去冗余基分類器集合。圖3為基分類器集群ERI和CRI的分布特性,由圖3可知,基分類器集群規(guī)模LAP達(dá)到37時(shí),冗余度指標(biāo)IERI和ICRI達(dá)到最值,保留此時(shí)所有聚類中心的基分類器構(gòu)成集合ΩCBPS,完成第一階段選擇集成。

圖3 基分類器集群ERI和CRI分布特性Fig.3 Distribution characteristics of ERI and CRI of base classifiers

基于去冗余的基分類器集群ΩCBPS,開(kāi)展第2階段選擇集成實(shí)驗(yàn)。為確定超參數(shù)μ的合理取值,μ取值范圍從0.001~100按指數(shù)級(jí)變化,根據(jù)第2.3節(jié)步驟6,計(jì)算OBSI策略的優(yōu)化結(jié)果υ,得到υ*-μ特性曲線簇如圖4所示,圖4的每根折線表示ΩCBPS中每個(gè)基分類器的υ*-μ特性曲線。當(dāng)平衡因子μ達(dá)到1時(shí),各基分類器的集成參與權(quán)重系數(shù)υ*剛趨于穩(wěn)定。選擇此時(shí)的μ值在滿足集成精度要求的同時(shí),可抑制集成負(fù)荷分類模型的過(guò)擬合問(wèn)題。

圖4 基分類器υ*-μ特性曲線簇Fig.4 υ*-μcharacteristic curve cluster of base classifiers

3.4.2 ELDDS負(fù)荷分類性能測(cè)試

根據(jù)第2.3節(jié)步驟5~7,采用5折交叉驗(yàn)證,重復(fù)步驟5共5次,計(jì)算每次的ΩCBPS集成參與權(quán)重,獲得集成參與權(quán)重矩陣Λ。根據(jù)第2.3節(jié)步驟8得到OBSI策略保留的基分類器集合,共計(jì)9個(gè)基分類器,通過(guò)多數(shù)投票法參與Dtest的負(fù)荷分類任務(wù)。

將BPNN、CART和LSTM分別作為基分類器實(shí)施DCB-GSMOTE類別平衡及兩階段選擇集成,同時(shí)基于ELDDS數(shù)據(jù)集對(duì)比基分類器采用不同集成策略時(shí)(無(wú)類別平衡處理)的負(fù)荷分類效果。Dtest的負(fù)荷分類準(zhǔn)確率Acc及類別混淆均衡熵Sb分別如表4和表5所示。

表4 不同算法分類Acc對(duì)比Tab.4 Comparison of classification accuracy among various algorithms

表5 不同算法Sb對(duì)比Tab.5 comparison ofSbamong various algorithms

在表4和表5中,本文所提計(jì)及類別平衡的TSSEL負(fù)荷模式識(shí)別策略,較Bagging、Adaboost集成表現(xiàn)出更高的分類準(zhǔn)確率Acc和類別混淆均衡熵Sb。通過(guò)3種不同的基分類器(BPNN、CART和LSTM)集成負(fù)荷分類實(shí)驗(yàn)驗(yàn)證了所提方法具備一定普適性。實(shí)驗(yàn)結(jié)果表明,通過(guò)TSSEL選擇集成策略遴選差異化強(qiáng)、準(zhǔn)確率高的基分類器參與負(fù)荷分類任務(wù)的組合決策,可以在保證負(fù)荷分類效果的同時(shí),有效降低集成學(xué)習(xí)的算法規(guī)模。

3.4.3 算法穩(wěn)定性測(cè)試

為驗(yàn)證所提TSSEL策略算法的穩(wěn)定性,以BPNN為基分類器,對(duì)比TSSEL、Bagging集成學(xué)習(xí)BEL(bagging ensemble learning)在多次重復(fù)實(shí)驗(yàn)中對(duì)ELDDS測(cè)試集Dtest的分類準(zhǔn)確率波動(dòng)情況。其中,BEL的基分類器數(shù)目分兩種來(lái)對(duì)照測(cè)試(L和LTSSEL,即100和9)。各集成BPNN分類模型訓(xùn)練所需的負(fù)荷標(biāo)簽樣本集均采用經(jīng)過(guò)DCB-GSMOTE類別平衡后的。各集成BPNN算法的縮寫(xiě)名稱分別記為:TSSEL-BPNN(LTSSEL)、BEL-BPNN(LTSSEL)和BEL-BPNN(L)。實(shí)驗(yàn)重復(fù)300次,結(jié)果如圖5所示。

圖5 TSSEL算法的穩(wěn)定性測(cè)試Fig.5 Stability test of TSSEL algorithm

在圖5中,TSSEL-BPNN分類正確率主要分布于區(qū)間[0.964,0.966]之間;BEL-BPNN(L)分類正確率主要分布于區(qū)間[0.958,0.962]之間;BEL-BPNN(LTSSEL)分類正確率主要分布于區(qū)間[0.956,0.961]之間。BEL-BPNN(L)分類正確率的分布區(qū)間比BEEBPNN(LTSSEL)減小20%,表明提升基分類器的集成規(guī)模可以增強(qiáng)BEL-BPNN的分類穩(wěn)定性。本文所提TSSEL-BPNN分類準(zhǔn)確率的分布區(qū)間比BELBPNN(LTSSEL)減小60%,減小量較BEL-BPNN(L)提高40%,這表明基學(xué)習(xí)機(jī)池中冗余基分類器不僅對(duì)樣本分類準(zhǔn)確率有影響,也會(huì)降低集成分類算法的穩(wěn)定性,因此,所提TSSEL策略可有效提升負(fù)荷分類算法的穩(wěn)定性。

4 結(jié)論

針對(duì)集成學(xué)習(xí)負(fù)荷模式識(shí)別中的類別不平衡問(wèn)題及基分類器冗余問(wèn)題,提出一種計(jì)及類別平衡的TSSEL電力負(fù)荷序列模式識(shí)別方法。通過(guò)算例分析論證得出以下結(jié)論。

(1)DCB-GSMOTE類別平衡算法能根據(jù)負(fù)荷樣本的密度分布特性實(shí)施過(guò)采樣,較SMOTE和BS算法具有更好的負(fù)荷類別平衡效果和算法魯棒性,可有效抑制類別不平衡問(wèn)題導(dǎo)致的少數(shù)類負(fù)荷樣本辨識(shí)度被多數(shù)類淹沒(méi)的問(wèn)題。

(2)面向負(fù)荷模式識(shí)別的TSSEL策略,通過(guò)CBPS和OBSI策略縮減基分類器池規(guī)模,可有效改善基分類器冗余問(wèn)題對(duì)負(fù)荷分類精度集成增益的影響,同時(shí)可增強(qiáng)負(fù)荷分類模型的算法穩(wěn)定性。

(3)采用DCB-GSMOTE算法和TSSEL策略的負(fù)荷模式識(shí)別算法,從數(shù)據(jù)層和算法層分別解決類別不平衡問(wèn)題和基分類器冗余問(wèn)題對(duì)負(fù)荷模式識(shí)別性能的影響,較傳統(tǒng)Bagging、Adaboost集成能取得更優(yōu)的分類精度,且算法框架具有一定普適性,為電力用戶負(fù)荷數(shù)據(jù)高性能處理提供了有價(jià)值的研究思路,對(duì)開(kāi)展用戶多層級(jí)需求響應(yīng)潛力畫(huà)像及用戶側(cè)需求響應(yīng)資源聚合評(píng)估研究具有參考價(jià)值。

猜你喜歡
模式識(shí)別分類
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
紫地榆HPLC指紋圖譜建立及模式識(shí)別
中成藥(2018年2期)2018-05-09 07:19:52
教你一招:數(shù)的分類
淺談模式識(shí)別在圖像識(shí)別中的應(yīng)用
第四屆亞洲模式識(shí)別會(huì)議
可拓模式識(shí)別算法中經(jīng)典域的確定方法
給塑料分分類吧
主站蜘蛛池模板: 人妻精品久久无码区| 91福利免费视频| 美女一区二区在线观看| 亚洲大学生视频在线播放| 2022国产91精品久久久久久| 日本不卡在线| 亚洲综合狠狠| 亚洲一级毛片在线观播放| 日本手机在线视频| 久久美女精品国产精品亚洲| 成人亚洲国产| 久久夜色撩人精品国产| 四虎国产精品永久一区| 97超级碰碰碰碰精品| 亚洲有无码中文网| 日本AⅤ精品一区二区三区日| 欧美精品影院| 免费一级毛片在线播放傲雪网| 国产99在线观看| 亚洲AV电影不卡在线观看| 一区二区三区四区精品视频| 亚洲伊人电影| 99久久国产自偷自偷免费一区| 国产在线98福利播放视频免费| 久草中文网| 国产高清在线精品一区二区三区 | 欧美日本在线| 欧美午夜理伦三级在线观看| 欧美a在线视频| 色婷婷色丁香| 呦视频在线一区二区三区| 亚洲av无码成人专区| 老司机午夜精品网站在线观看| 国产无码在线调教| 日韩123欧美字幕| 极品私人尤物在线精品首页| 91网红精品在线观看| 国产国语一级毛片在线视频| 午夜色综合| 亚洲欧美另类色图| 国产在线91在线电影| 国产免费精彩视频| 夜精品a一区二区三区| 在线无码私拍| 国产黄色免费看| 国产不卡网| 一区二区三区精品视频在线观看| 欧美A级V片在线观看| 尤物亚洲最大AV无码网站| 无码国内精品人妻少妇蜜桃视频| 久久大香香蕉国产免费网站| 日韩资源站| 91久久精品日日躁夜夜躁欧美| 蝴蝶伊人久久中文娱乐网| 国产成人免费观看在线视频| 东京热一区二区三区无码视频| 亚洲经典在线中文字幕| 久久久久无码国产精品不卡 | 亚洲综合经典在线一区二区| 波多野结衣爽到高潮漏水大喷| 国产在线一二三区| 成人永久免费A∨一级在线播放| 凹凸精品免费精品视频| 日韩精品无码免费一区二区三区| 她的性爱视频| 色国产视频| 中文字幕一区二区视频| 亚洲无码视频图片| 五月激激激综合网色播免费| 色婷婷色丁香| 伊人久久大香线蕉综合影视| 亚洲乱伦视频| 国产精品美女网站| 国产成人精品第一区二区| 四虎免费视频网站| 亚洲男人的天堂久久香蕉网| 青青草国产免费国产| 91网红精品在线观看| 亚洲欧洲综合| 波多野结衣一区二区三区四区| 国产亚洲精品无码专| 国产在线精品99一区不卡|