999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于日負(fù)荷指標(biāo)及改進(jìn)分布式K-means聚類的用戶用電規(guī)律研究

2023-10-19 00:51:12李柏新雷才嘉方兵華黃裕春賈巍馬乙歌
電測(cè)與儀表 2023年10期
關(guān)鍵詞:特征

李柏新, 雷才嘉, 方兵華, 黃裕春, 賈巍, 馬乙歌

(廣東電網(wǎng)有限責(zé)任公司廣州供電局, 廣州 510620)

0 引 言

負(fù)荷聚類和用電規(guī)律研究是進(jìn)行精細(xì)化負(fù)荷預(yù)測(cè)的前提,不僅可以依據(jù)不同的用電規(guī)律劃分用戶類型,還可以與實(shí)際用戶匹配展開用電特性分析[1]。此外,直接處理海量負(fù)荷數(shù)據(jù)不僅耗費(fèi)計(jì)算資源,還會(huì)由于原始數(shù)據(jù)中存在干擾和低價(jià)值數(shù)據(jù),引發(fā)模型訓(xùn)練難以收斂、耗時(shí)延長(zhǎng)、增大預(yù)測(cè)誤差等問(wèn)題,有必要針對(duì)負(fù)荷數(shù)據(jù)提出一種更高效的降維及聚類方法。

目前,主流的聚類算法包括K-means聚類[2]、層次聚類[3]、模糊聚類[4]、譜聚類[5]等。比如,文獻(xiàn)[6]提出了一種針對(duì)電力大數(shù)據(jù)的三層過(guò)濾機(jī)制,在第二層過(guò)濾中通過(guò)并行計(jì)算的多初始聚類中心對(duì)原始K-means算法進(jìn)行了改進(jìn),彌補(bǔ)了太過(guò)依賴初始聚類中心的缺點(diǎn);文獻(xiàn)[7]利用Spark的RDD編程模型的可擴(kuò)展性和分布式功能來(lái)實(shí)現(xiàn)CURE算法的計(jì)算過(guò)程的并行化,從而提高了算法的數(shù)據(jù)處理速度,使算法能夠適應(yīng)數(shù)據(jù)規(guī)模的擴(kuò)展,并通過(guò)算例表明:基于Spark的CURE聚類算法不僅保證了聚類的準(zhǔn)確性,而且提高了算法的實(shí)時(shí)性;文獻(xiàn)[8]根據(jù)數(shù)據(jù)結(jié)構(gòu)的特點(diǎn),合理地優(yōu)化了譜聚類算法中特征向量的提取過(guò)程,避免了傳統(tǒng)方法導(dǎo)致數(shù)據(jù)信息丟失的問(wèn)題,并以每日負(fù)荷數(shù)據(jù)為例對(duì)現(xiàn)有融合研究結(jié)果進(jìn)行比較,結(jié)果表明該算法具有較高的聚類質(zhì)量和魯棒性。以上方法均對(duì)原始聚類算法進(jìn)行了改進(jìn),并取得了更好的聚類效果,但是對(duì)于日負(fù)荷數(shù)據(jù)而言,本身具有顯著的變化特征,如果能結(jié)合負(fù)荷特征指標(biāo)實(shí)現(xiàn)數(shù)據(jù)降維,會(huì)極大提升聚類算法的效率。

提出了一種基于“峰谷”時(shí)段日負(fù)荷指標(biāo)的數(shù)據(jù)降維及改進(jìn)分布式K-means聚類算法。首先根據(jù)樣本負(fù)荷數(shù)據(jù)的核密度(KDE)分布劃分“峰”、“谷”期,并利用8個(gè)典型日負(fù)荷指標(biāo)實(shí)現(xiàn)原始負(fù)荷數(shù)據(jù)的降維;然后利用熵權(quán)法改進(jìn)的分布式K-means算法進(jìn)行聚類,與原始K-means算法比較后發(fā)現(xiàn),具有更強(qiáng)的樣本辨識(shí)能力,并通過(guò)算例證明了文中所提算法的有效性和時(shí)效性;最后根據(jù)聚類結(jié)果分析每種負(fù)荷類型的用電特性,并與實(shí)際的負(fù)荷類型相匹配,得到4類典型用電規(guī)律的數(shù)據(jù)集,為不同類型負(fù)荷的精細(xì)預(yù)測(cè)提供支持。

1 負(fù)荷數(shù)據(jù)來(lái)源及預(yù)處理方法

1.1 負(fù)荷數(shù)據(jù)的來(lái)源

電力數(shù)據(jù)具有多源異構(gòu)[9]的特點(diǎn),而且保密性要求高,開放程度低。因此,獲取海量負(fù)荷數(shù)據(jù)首先需要與電力公司配合,并進(jìn)行脫敏處理。此外,政府和第三方機(jī)構(gòu)大多有專門的數(shù)據(jù)網(wǎng)站和開源數(shù)據(jù)庫(kù),通過(guò)搭建API接口可實(shí)現(xiàn)數(shù)據(jù)采集。同時(shí),電力用戶側(cè)的數(shù)據(jù)比較分散,一般需要訪問(wèn)企業(yè)、樓宇的相關(guān)網(wǎng)站,通過(guò)對(duì)HTML爬蟲后整理獲得。

總的來(lái)說(shuō),電力數(shù)據(jù)比較割裂,且各個(gè)系統(tǒng)間互聯(lián)性較低,需要結(jié)合用戶ID、采集日期DATA等用戶信息標(biāo)識(shí)對(duì)獲取的原始數(shù)據(jù)進(jìn)行融合與處理。

1.2 負(fù)荷數(shù)據(jù)的預(yù)處理方法

在負(fù)荷數(shù)據(jù)采集的過(guò)程中,不可避免會(huì)由于通信中斷、信號(hào)干擾、人工操作失誤等,造成數(shù)據(jù)異常和數(shù)據(jù)缺失等,需要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。若單日m個(gè)時(shí)間節(jié)點(diǎn)負(fù)荷數(shù)據(jù)表示為一個(gè)樣本,則n條日負(fù)荷數(shù)據(jù)組成n×m階的日負(fù)荷矩陣L。

(1)處理缺失值

單缺失值:根據(jù)負(fù)荷曲線平緩變化的特點(diǎn),采取前后數(shù)據(jù)均值插補(bǔ)的方法,計(jì)算方法如下:

li,j=(li,j-1+li,j+1)/2

(1)

式中l(wèi)i,j為第i天第j個(gè)時(shí)間節(jié)點(diǎn)的負(fù)荷;li,j-1和li,j+1分別為該節(jié)點(diǎn)前、后時(shí)刻的負(fù)荷數(shù)據(jù);若單個(gè)缺失值恰為單日的首、尾節(jié)點(diǎn)位置,則取臨近節(jié)點(diǎn)的值填充。

多個(gè)連續(xù)缺失值:由于樣本連續(xù)缺失值數(shù)量直接影響插值結(jié)果的偏差,因此文中取較小的閾值(連續(xù)缺失值占比6%)來(lái)確保插值結(jié)果的準(zhǔn)確度。超過(guò)閾值時(shí)認(rèn)為該日樣本無(wú)效;否則,采用平滑修正法根據(jù)前后數(shù)據(jù)插值,計(jì)算公式如下:

(2)

式中 Δt1和T1分別為前向采集開始和截止的節(jié)點(diǎn)數(shù)目;Δt2和T2分別為后向采集開始和截止的節(jié)點(diǎn)數(shù)目。

(2)處理異常值

先計(jì)算n條同時(shí)刻樣本的均值和方差,從而設(shè)置閾值加以判斷,然后根據(jù)前后節(jié)點(diǎn)數(shù)據(jù)進(jìn)行插值修正,均值和方差計(jì)算公式如下:

(3)

(4)

li,j=α·(li,j-1+li,j+1)/2+β·li,j+1

(5)

式中α和β分別為該節(jié)點(diǎn)前、后時(shí)刻的負(fù)荷數(shù)據(jù)權(quán)重,且滿足α+β=1。

(3)數(shù)據(jù)標(biāo)準(zhǔn)化

常用的數(shù)據(jù)標(biāo)準(zhǔn)化方法有三種:Min-Max歸一化方法、Z-score規(guī)范化方法和Max最大值歸一化。其中,Max方法將原始數(shù)據(jù)縮放,可以保留“峰谷”差值信息,其標(biāo)準(zhǔn)化處理方法如下:

(6)

2 基于日負(fù)荷指標(biāo)的負(fù)荷數(shù)據(jù)降維

2.1 原始降維方法及指標(biāo)的局限

主成分分析(PCA)[10]、奇異值分解(SVD)[11]、線性判別分析(LDA)[12]等降維方法雖然能從數(shù)據(jù)自身規(guī)律提煉出更少的特征,為后續(xù)學(xué)習(xí)器訓(xùn)練降低難度,并提高了效率,但是降維過(guò)程本身也會(huì)由于高維矩陣消耗大量的計(jì)算資源。對(duì)日負(fù)荷而言,如果能通過(guò)負(fù)荷變化特征,用低維日負(fù)荷指標(biāo)代替高維原始負(fù)荷數(shù)據(jù),會(huì)極大地縮短模型運(yùn)行時(shí)間,提升負(fù)荷聚類的效率。

日負(fù)荷特征降維需要構(gòu)造出能體現(xiàn)負(fù)荷基本特性和變化規(guī)律的特征指標(biāo)。現(xiàn)階段,國(guó)內(nèi)外日負(fù)荷指標(biāo)還沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),大概有以下7種:日最大負(fù)荷Pmax、日最小負(fù)荷Pmin、日平均負(fù)荷Pav、日峰谷差ΔP、日峰谷差率α、日最大負(fù)荷利用小時(shí)數(shù)T、日負(fù)荷率β。以上指標(biāo)雖然能反映日負(fù)荷的基本特征,但總體比較粗糙,還需要結(jié)合負(fù)荷“峰谷”變化規(guī)律構(gòu)建更加顯著的日負(fù)荷特征指標(biāo)。

2.2 基于KDE模型的顯著日負(fù)荷指標(biāo)構(gòu)建方法

文獻(xiàn)[13-14]在劃分“峰谷”時(shí)具有極大的主觀性,因此如何根據(jù)海量負(fù)荷樣本確定典型的“峰谷”時(shí)段是建立不同時(shí)段負(fù)荷特征指標(biāo)的前提。由于核密度估計(jì)(Kernel Density Estimation,KDE)方法不使用有關(guān)數(shù)據(jù)分布的先驗(yàn)知識(shí),并且不對(duì)數(shù)據(jù)分布附加任何假設(shè),所以是一種從樣本自身研究數(shù)據(jù)分布概率的方法,適用于從眾多負(fù)荷數(shù)據(jù)中挖掘典型的日負(fù)荷曲線,劃分“峰谷”時(shí)段。

假設(shè)某時(shí)刻有n個(gè)負(fù)荷樣本,x1、x2,…,xn為對(duì)應(yīng)的負(fù)荷值,則負(fù)荷的KDE模型如下:

(7)

式中fh為負(fù)荷的概率密度函數(shù);h為帶寬;K為核函數(shù)。其中,帶寬h反映了整個(gè)KDE曲線的平坦度:h越大,樣本數(shù)據(jù)點(diǎn)在曲線形狀中的比例越小,使得KDE模型更注重整體變化規(guī)律,曲線越平坦;反之,KDE模型更注重細(xì)節(jié),曲線就越波折。

為了確保負(fù)荷概率密度函數(shù)fh的連續(xù)性,核函數(shù)K(x)一般為單峰平滑,且關(guān)于y軸對(duì)稱的非線性函數(shù),滿足以下特性:

(8)

比較常用的核函數(shù)有Uniform函數(shù)、Epanechikov函數(shù)、Gaussian函數(shù)和Quartic函數(shù)。選用Gaussian函數(shù)作為核函數(shù),公式如下:

(9)

比如,當(dāng)h選用0.5時(shí),負(fù)荷概率密度函數(shù)fh可以表示為:

(10)

在KDE曲線上,概率密度最大值對(duì)應(yīng)的負(fù)荷值即為該時(shí)刻負(fù)荷樣本的典型值。針對(duì)樣本其它時(shí)刻分別進(jìn)行KDE處理后,便可整合得到典型日負(fù)荷曲線,從而進(jìn)行“峰谷”劃分。

結(jié)合全天、峰期、谷期3個(gè)時(shí)段,對(duì)原始7個(gè)簡(jiǎn)單日負(fù)荷指標(biāo)進(jìn)行組合變換后,得到表1中的8個(gè)顯著特征指標(biāo)。

表1 日負(fù)荷特征指標(biāo)和計(jì)算方法

表1中,Pup-av為峰期的負(fù)荷平均值,Pdown-av為谷期的負(fù)荷平均值。通過(guò)以上8個(gè)日負(fù)荷指標(biāo)來(lái)表征原始日負(fù)荷數(shù)據(jù),便可結(jié)合負(fù)荷自身變化特征實(shí)現(xiàn)多維負(fù)荷數(shù)據(jù)的降維。

3 基于熵權(quán)法的改進(jìn)分布式K-means聚類算法

3.1 K-means算法的缺陷

K-means算法是基于劃分的經(jīng)典聚類算法之一,通常歐式距離用作衡量樣本間相似度的指標(biāo),在計(jì)算效率上具有其它方法無(wú)法比擬的優(yōu)勢(shì)。數(shù)據(jù)點(diǎn)越近,歐式距離越小,相似度就越大;由此將相似性較高的數(shù)據(jù)對(duì)象歸為同一類,而相似性較低的數(shù)據(jù)對(duì)象則為不同的類。但是在實(shí)際操作過(guò)程中,兩類具有不同變化規(guī)律的負(fù)荷,如果滿足“互補(bǔ)性”要求,則很容易被錯(cuò)誤劃分為一類,如圖1所示。

圖1中,Type1和Type2兩種負(fù)荷雖然具有截然相反的“互補(bǔ)性”變化規(guī)律,但由于二者到聚類中心的歐式距離相等,兩個(gè)樣本自然被錯(cuò)誤劃分為同一類簇。不難判斷,如果這兩類負(fù)荷到該聚類中心的距離均小于Type1和Type2與其它聚類中心的距離,則兩類負(fù)荷始終被劃分為一個(gè)類簇。因此,基于歐式距離的K-means聚類方法存在局限性。

3.2 改進(jìn)分布式K-means聚類算法

熵權(quán)法是一種客觀賦權(quán)法,通過(guò)比較各個(gè)評(píng)價(jià)指標(biāo)自身的信息有序地來(lái)判定其權(quán)重。某項(xiàng)特征的樣本差異越大,表示狀態(tài)越混亂,該特征在所有特征中所占的權(quán)重也越大,樣本間的差異被放大。

假如有n個(gè)日負(fù)荷數(shù)據(jù)樣本,經(jīng)過(guò)負(fù)荷指標(biāo)降維后,每個(gè)樣本有m個(gè)特征,則組成一個(gè)n×m維度的日負(fù)荷樣本集Pn×m,則其熵值的計(jì)算方法如下:

(11)

(12)

式中j=1、2…m;pij為日負(fù)荷樣本集的第i行,第j列數(shù)據(jù);根據(jù)熵值Ej計(jì)算結(jié)果,得包含m個(gè)日負(fù)荷特征的信息熵集合為{E|E1,E2,…,En}。當(dāng)樣本數(shù)據(jù)差異較小時(shí),Ej的值趨近于1。根據(jù)熵權(quán)法計(jì)算對(duì)應(yīng)特征的權(quán)值wj,即:

(13)

由此得到特征指標(biāo)的權(quán)重值矩陣[w1,w2,…,wn],且滿足0

結(jié)合如圖2的分布式聚類算法,得到熵權(quán)法改進(jìn)的K-means算法流程如下:

圖2 分布式K-means聚類算法的流程圖

(1)在日負(fù)荷特征矩陣Pn×m中參照層次聚類結(jié)果選取聚類中心,并將其作為n個(gè)輸入,復(fù)制m份后分發(fā)給m臺(tái)計(jì)算機(jī)。第i個(gè)聚類中心為Ci(i=1、2…k),記為Ci=[ci1,ci2,ci3,…cim];

(2)記Pj=[pj1,pj2,pj3,…,pjm],對(duì)Pn×m中所有樣本Pj(j=1、2…n),派發(fā)給各個(gè)計(jì)算機(jī)節(jié)點(diǎn),依次計(jì)算到第i個(gè)聚類中心Ci的加權(quán)歐氏距離:

(14)

(3)每個(gè)節(jié)點(diǎn)單獨(dú)運(yùn)算一次,將n個(gè)輸入派發(fā)給c個(gè)內(nèi)核,找出每個(gè)Pj對(duì)應(yīng)最小的dist(Pj,Ci),將其劃分到聚類中心Ci所在的類簇;

(4)對(duì)每個(gè)簇,更新聚類中心Ci;記類簇Ci中樣本數(shù)目為NCi,則其計(jì)算公式為:

(15)

(5)重復(fù)(3)和(4)的操作,直至新的聚類中心趨于穩(wěn)定,或者該算法的損失函數(shù)式趨于收斂。

(16)

3.3 聚類效果的檢驗(yàn)指標(biāo)

(1)聚類有效性檢驗(yàn)

聚類有效性指標(biāo)用于度量聚類的效果,主要希望同一簇的樣本彼此之間盡量相似,不同簇之間的樣本盡可能不同。常用的聚類算法的評(píng)價(jià)指標(biāo)有:離差平方和(SSE)、卡林斯基-哈拉巴茲指數(shù)(CHI)、輪廓系數(shù)(SIL)、戴維斯-布爾丁指數(shù)(DBI)等。記K為聚類數(shù),則各個(gè)聚類效果評(píng)價(jià)指標(biāo)的計(jì)算方法如下:

SSE指標(biāo)的計(jì)算公式為:

(17)

式中Xi為第i類簇中的樣本數(shù)據(jù);Ci為對(duì)應(yīng)第i類簇的聚類中心。SSE指標(biāo)值越小,說(shuō)明聚類效果越好。

CHI指標(biāo)的計(jì)算公式為:

(18)

式中i為當(dāng)前的類簇;trB(i)為類簇間離差矩陣的跡;trW(i)表示類簇內(nèi)離差矩陣的跡。CHI指標(biāo)越大,說(shuō)明聚類效果越好。

Silhouette指標(biāo)的計(jì)算公式為:

(19)

(20)

式(19)、式(20)中,M為樣本數(shù);a(n)為樣本n到類內(nèi)其它樣本的平均距離;b(n)為樣本n到類間其它樣本平均距離的最小值。Silhouette指標(biāo)越大,聚類效果越好。

DBI指標(biāo)計(jì)算公式為:

(21)

(22)

式中d(Xi)為類簇內(nèi)的平均距離;d(Ck,Cj)為兩個(gè)聚類中心的歐氏距離。DBI指標(biāo)越小,說(shuō)明聚類效果越好。

(2)聚類時(shí)效性檢驗(yàn)

傳統(tǒng)聚類評(píng)價(jià)指標(biāo)只考慮有效性,但是對(duì)大數(shù)據(jù)而言,時(shí)效性同樣重要,主要涉及到三個(gè)部分:基于日負(fù)荷指標(biāo)降維方法的耗時(shí)、熵權(quán)法指標(biāo)賦權(quán)計(jì)算的耗時(shí)、K-means聚類算法的耗時(shí)。為了驗(yàn)證本章所提算法在時(shí)效上的優(yōu)越性,在控制處理相同負(fù)荷數(shù)據(jù)條件下,時(shí)效性指標(biāo)可以表示為:

Ktn=t2n/t2n-1

(23)

式中n=1,2,…,10表示10個(gè)數(shù)據(jù)樣本;t2n為指標(biāo)降維及改進(jìn)K-means算法的耗時(shí),t2n-1為原始K-means算法的耗時(shí);當(dāng)0

4 算例分析

選取某市區(qū)供電網(wǎng)格2015年歷史負(fù)荷數(shù)據(jù),采集間隔為15 min,共計(jì)260 922個(gè)日負(fù)荷樣本。算例編譯環(huán)境為Anconda,編譯語(yǔ)言為python,分布式計(jì)算采用ODPS架構(gòu)。

4.1 基于KDE的負(fù)荷數(shù)據(jù)分布及峰谷時(shí)段劃分

根據(jù)全樣本的KDE分布特征,提取對(duì)應(yīng)96節(jié)點(diǎn)的典型負(fù)荷數(shù)據(jù),得到日負(fù)荷曲線來(lái)劃分“峰谷”時(shí)段,結(jié)果如圖3所示。

全樣本的“峰”、“谷”期的劃分結(jié)果為:(1)峰期:08:00~11:30,15:00~23:00;(2)谷期:23:00~08:00、11:30~15:00。

4.2 日負(fù)荷指標(biāo)的降維及權(quán)值計(jì)算

根據(jù)表1的負(fù)荷指標(biāo)計(jì)算方法,提取出每個(gè)樣本的8個(gè)顯著日負(fù)荷特征,與原96節(jié)點(diǎn)數(shù)據(jù)比較,數(shù)據(jù)量減少了91.67%,由此實(shí)現(xiàn)原始數(shù)據(jù)的降維。

結(jié)合熵權(quán)法對(duì)降維后的特征進(jìn)行加權(quán),計(jì)算結(jié)果如表2所示。

表2 日負(fù)荷特征指標(biāo)的權(quán)值表

日負(fù)荷特征指標(biāo)的權(quán)重計(jì)算結(jié)果,將用于改進(jìn)K-means算法的中歐式距離的加權(quán)計(jì)算過(guò)程,增加算法對(duì)不同類型負(fù)荷的辨別能力,挖掘新的負(fù)荷類型。

4.3 聚類效果分析

(1)聚類有效性分析

算例中聚類數(shù)K取值為2~20,構(gòu)造以下3個(gè)場(chǎng)景,并對(duì)每個(gè)場(chǎng)景下4個(gè)指標(biāo)(SSE、DBI、Sillouette、CHI)對(duì)應(yīng)的最佳聚類用“ ”進(jìn)行標(biāo)記,結(jié)果如下:

場(chǎng)景一:預(yù)處理前的K-means聚類效果。

圖4中根據(jù)“肘部”法則,場(chǎng)景一的SSE指標(biāo)曲線“拐點(diǎn)”對(duì)應(yīng)的最佳聚類數(shù)6;DBI和Silluoette指標(biāo)呈現(xiàn)單一變化趨勢(shì),原則上無(wú)法挑選出最佳K值,考慮到畸變數(shù)據(jù)影響,以區(qū)間極小值對(duì)應(yīng)的6為最佳聚類數(shù);CHI指標(biāo)對(duì)應(yīng)的最佳聚類數(shù)為3。

圖4 場(chǎng)景一的負(fù)荷聚類效果

綜合分析,聚類數(shù)取值為K=6,并根據(jù)分類結(jié)果得到日負(fù)荷樣本的聚類曲線,如圖5所示。

由圖5知,未剔除畸變數(shù)據(jù)的負(fù)荷樣本總體上實(shí)現(xiàn)了負(fù)荷的分類,但在每類負(fù)荷中明顯存在“毛刺”現(xiàn)象;且在type2、type4負(fù)荷中,紅色聚類中心線沒(méi)能體現(xiàn)出10:00~15:00之間存在的“峰”期。

場(chǎng)景二:除畸變后K-means的聚類效果。

如圖6所示,通過(guò)式(1)、式(2)缺失值處理,以及式(3)~式(5)異常數(shù)據(jù)處理后,場(chǎng)景二的SSE指標(biāo)“拐點(diǎn)”對(duì)應(yīng)的K仍為6;DBI指標(biāo)曲線明顯存在極小值,且對(duì)應(yīng)的K為6;Silluoette和CHI指標(biāo)也明顯存在極大值,對(duì)應(yīng)的K均為8。以上說(shuō)明數(shù)據(jù)預(yù)處理對(duì)提升聚類效果有一定影響,但仍舊未能統(tǒng)一最佳聚類數(shù)。

圖6 場(chǎng)景二的負(fù)荷聚類效果

當(dāng)K=6時(shí),得到日負(fù)荷樣本的聚類曲線如圖7所示。

圖7 場(chǎng)景二條件下的負(fù)荷聚類結(jié)果

由圖7知,與場(chǎng)景一比較,每類負(fù)荷中沒(méi)有“毛刺”現(xiàn)象,且每一類樣本的變化規(guī)律較為一致,說(shuō)明通過(guò)缺失值彌補(bǔ)和異常值替換后消除了畸變數(shù)據(jù)影響,使得聚類效果有了質(zhì)的提升。但是,仔細(xì)觀察發(fā)現(xiàn),如“→”標(biāo)記,type1、type2負(fù)荷中存在很窄的“間隙”,說(shuō)明類中樣本仍舊存在細(xì)微的差異。

場(chǎng)景三:除畸變后改進(jìn)K-means的聚類效果。

如圖8所示,場(chǎng)景三的SSE、DBI、Silluoette和CHI指標(biāo)統(tǒng)一了K值,即最佳聚類數(shù)均為8。說(shuō)明基于日負(fù)荷指標(biāo)降維和熵權(quán)改進(jìn)的K-means算法顯著提升了聚類效果,能從現(xiàn)有聚類結(jié)果中發(fā)現(xiàn)新的類簇。

取K=8得到日負(fù)荷樣本的聚類曲線如圖9所示。

圖9 場(chǎng)景三條件下的負(fù)荷聚類結(jié)果

由圖9知,與場(chǎng)景二比較,場(chǎng)景三多出了兩個(gè)聚類簇。其中,type2、type6原屬場(chǎng)景二中同類,區(qū)別在于05:00~18:00時(shí)間段最低負(fù)荷值,前者在0.1左右,后者基本為0;type3、type8也由場(chǎng)景二中同類分裂而來(lái),兩類負(fù)荷在12:00左右的谷值負(fù)荷差距明顯,前者為0.8,后者為0.9。因此,場(chǎng)景三的基于日負(fù)荷指標(biāo)降維和改進(jìn)K-means算法能夠挖掘出負(fù)荷樣本間更加細(xì)微的差別,從而實(shí)行更精細(xì)的聚類結(jié)果。

對(duì)以上三個(gè)場(chǎng)景的最佳聚類數(shù)K和聚類效果有效性指標(biāo)進(jìn)行統(tǒng)計(jì),結(jié)果如表3所示。

表3 不同場(chǎng)景下的聚類效果

由表3分析知,場(chǎng)景三聚類數(shù)最多,能夠?qū)⒓?xì)小差別的類簇進(jìn)一步劃分,具有更高的類簇辨識(shí)能力;從場(chǎng)景一到場(chǎng)景三,SSE和DBI指標(biāo)的數(shù)值依次減少,說(shuō)明剔除畸變數(shù)據(jù)、日負(fù)荷指標(biāo)降維及改進(jìn)K-means聚類方法能夠一定程度上提高聚類效果;Sillouette指標(biāo)基本不變化,說(shuō)明該指標(biāo)在最佳聚類場(chǎng)景下具有很強(qiáng)的穩(wěn)定性;從場(chǎng)景一到場(chǎng)景二,CHI指標(biāo)顯著減小,說(shuō)明該指標(biāo)對(duì)畸變數(shù)據(jù)比較敏感。

(2)聚類時(shí)效性分析

構(gòu)造10個(gè)不同數(shù)據(jù)量的樣本集,然后記錄各部分的時(shí)間。作出時(shí)效性指標(biāo)Ktn隨樣本占比M的變化曲線,探究算法的時(shí)效性與數(shù)據(jù)量的關(guān)系,如圖10所示。

圖10 時(shí)效性指標(biāo)隨數(shù)據(jù)量變化

由圖10知,Ktn基本分布在[0,1]范圍,且呈現(xiàn)出“1/Mn”型變化規(guī)律,說(shuō)明基于日負(fù)荷指標(biāo)降維及熵權(quán)法改進(jìn)分布式K-means算法在應(yīng)對(duì)大量負(fù)荷數(shù)據(jù)時(shí),可以顯著提升工作效率。

4.5 典型日負(fù)荷曲線與用戶特征分析

通過(guò)聚類得到的典型負(fù)荷,各自具有不同的時(shí)序性變化規(guī)律,能夠直接反映出用戶的用電特征,甚至可以對(duì)每種典型曲線包含的負(fù)荷類型進(jìn)行初步匹配。8類典型負(fù)荷曲線之間既存在差異,又有一定的相似性,大致歸屬以下4種規(guī)律類型,如表4所示。

對(duì)每種規(guī)律類型包含的負(fù)荷進(jìn)行以下分析:

(1)第1種規(guī)律類型

全天負(fù)荷具有“高低雙峰”的特點(diǎn),其中白天09:00~14:00為低峰負(fù)荷段,晚間20:00~22:00為高峰階段,而凌晨和早間的負(fù)荷水平較低。據(jù)此特點(diǎn)分析,type1負(fù)荷大致為商場(chǎng)、店鋪等典型商業(yè)負(fù)荷,負(fù)荷大小與其人流量、營(yíng)業(yè)及休息時(shí)間相適應(yīng)。

(2)第2種規(guī)律類型

該類具有晚間“單高峰”的特點(diǎn),在8:00~16:00保持較為平緩的中等負(fù)荷水平,在晚間20:00左右達(dá)到高峰,至凌晨負(fù)荷達(dá)到最低水平。據(jù)此分析,type4極有可能為上班族的家庭負(fù)荷,白天離家后,冰箱、空氣凈化器等電器繼續(xù)保持工作,直至晚間回家后,做飯、照明、娛樂(lè)等活動(dòng)導(dǎo)致用電增加,在20:00點(diǎn)左右達(dá)到用電高峰,23:00休息后負(fù)荷又恢復(fù)至低水平狀態(tài)。

(3)第3種規(guī)律類型

全天負(fù)荷具有極為典型的“U”型變化特征,在白天5:00~17:00之間負(fù)荷水平很低,而在晚間及凌晨負(fù)荷水平保持較高,且負(fù)荷波動(dòng)較小。據(jù)此知,該大類很可能是公園路燈、公路照明等室外負(fù)荷,或者公共場(chǎng)所的室內(nèi)照明,以及利用分時(shí)電價(jià)將生產(chǎn)任務(wù)更多地轉(zhuǎn)移到晚間進(jìn)行的工業(yè)負(fù)荷。對(duì)照明負(fù)荷而言,根據(jù)type2和type6白天負(fù)荷最低值是否為0,可以判斷前者主要為室內(nèi),后者為室外。

(4)第4種規(guī)律類型

該類型具有顯著的“三峰”特征,09:00~11:00、14:00~17:00、18:00~21:00為三個(gè)峰期階段,且峰期負(fù)荷差別較小;中午12:00和晚間16:00左右有兩個(gè)短時(shí)的“谷期”,與吃飯和午休時(shí)間基本重合。由此推測(cè),type3、type5、type7、type8為普通上班負(fù)荷,該大類應(yīng)該包含普通工廠、車間、寫字樓、科研教學(xué)等場(chǎng)所的商業(yè)、科教,或者工業(yè)負(fù)荷等。

通過(guò)以上分析,將供電區(qū)域的日負(fù)荷數(shù)據(jù)進(jìn)行聚類后,可以根據(jù)負(fù)荷規(guī)律對(duì)其屬性進(jìn)行標(biāo)記,比如商業(yè)、居住、工業(yè)及科教等,構(gòu)造同類負(fù)荷的數(shù)據(jù)集合,為精細(xì)化負(fù)荷預(yù)測(cè)提供高質(zhì)量數(shù)據(jù)。

5 結(jié)束語(yǔ)

基于日負(fù)荷指標(biāo)將原始負(fù)荷數(shù)據(jù)進(jìn)行降維,利用熵權(quán)法對(duì)分布式K-means算法的距離計(jì)算實(shí)施加權(quán),提升了聚類算法對(duì)高相似度樣本的辨識(shí)能力,且具有較高的時(shí)效性;通過(guò)算例驗(yàn)證了所提算法的可行性,并對(duì)典型負(fù)荷的用電特性展開分析。同時(shí),存在以下不足:

(1)畸變數(shù)據(jù)的處理,其假設(shè)條件是各節(jié)點(diǎn)負(fù)荷值在均值附近隨機(jī)正態(tài)分布,從而過(guò)濾偏離度較大的數(shù)值,實(shí)際上并非完全符合正態(tài)分布規(guī)律,在過(guò)濾過(guò)程中會(huì)損失很多有效樣本;

(2)基于熵權(quán)法改進(jìn)的K-means聚類算法雖然能夠提升辨識(shí)能力,劃分更多的類簇,但同時(shí)說(shuō)明其魯棒性較差,容易受小樣本數(shù)據(jù)的影響。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個(gè)P’維非線性不可約特征標(biāo)的非可解群
月震特征及與地震的對(duì)比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠(chéng)的四個(gè)特征
詈語(yǔ)的文化蘊(yùn)含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 国产精品成人一区二区不卡| 欧美日韩综合网| 欧美激情网址| 日韩亚洲综合在线| 成人a免费α片在线视频网站| 蜜桃视频一区| 国产91无码福利在线| 欧美乱妇高清无乱码免费| 亚洲av无码久久无遮挡| 国产精品一区不卡| 看你懂的巨臀中文字幕一区二区| 99热这里都是国产精品| 嫩草国产在线| 日本一本正道综合久久dvd| 久久久久久高潮白浆| 亚洲一区二区日韩欧美gif| 91精品福利自产拍在线观看| 露脸真实国语乱在线观看| …亚洲 欧洲 另类 春色| 日韩精品无码免费一区二区三区| 精品人妻系列无码专区久久| 亚洲人妖在线| av在线手机播放| 欧美国产视频| 99热亚洲精品6码| 91精品网站| 在线看片中文字幕| 亚洲精品第五页| 欧美不卡视频在线| 2021国产精品自产拍在线观看| 国产人碰人摸人爱免费视频| 亚洲中文字幕av无码区| 国产黑丝一区| 亚洲区第一页| 欧美一级黄色影院| 午夜精品影院| 久久一色本道亚洲| 国产成人艳妇AA视频在线| 国产鲁鲁视频在线观看| 国产欧美日韩一区二区视频在线| 九色在线观看视频| 国产专区综合另类日韩一区| 国产精品19p| 亚洲国产精品一区二区高清无码久久| 狠狠色婷婷丁香综合久久韩国| 91久久偷偷做嫩草影院精品| 午夜电影在线观看国产1区| 精品国产毛片| 拍国产真实乱人偷精品| 黄色免费在线网址| 91精品啪在线观看国产91九色| 欧美国产精品不卡在线观看| 伊人久久大线影院首页| 国产无码性爱一区二区三区| 美女被操91视频| 国产在线无码一区二区三区| 国产中文一区a级毛片视频| 国产尹人香蕉综合在线电影| 国产新AV天堂| 国产亚洲高清视频| 欧美自拍另类欧美综合图区| 亚洲欧美精品在线| 手机在线国产精品| 91免费国产在线观看尤物| 亚洲第一区在线| 男女性午夜福利网站| 日韩 欧美 国产 精品 综合| 久久综合丝袜日本网| a级毛片一区二区免费视频| 亚洲人成人伊人成综合网无码| 99一级毛片| 超碰免费91| 国产成人8x视频一区二区| 精品人妻一区无码视频| 国产麻豆aⅴ精品无码| 欧美日韩一区二区在线播放| 国产女人水多毛片18| 久久精品人妻中文系列| 国产高清国内精品福利| 成人a免费α片在线视频网站| 亚洲国产天堂在线观看| 天天婬欲婬香婬色婬视频播放|