999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進型密度峰值算法的電力負荷聚類分析

2022-10-12 14:11:30曾四鳴李鐵成李順梁紀峰范輝楊軍吳賦章
科學技術與工程 2022年25期
關鍵詞:定義特征

曾四鳴, 李鐵成, 李順, 梁紀峰, 范輝, 楊軍, 吳賦章

(1.國網河北省電力有限公司電力科學研究院, 石家莊 050001; 2.武漢大學電氣與自動化學院, 武漢 430072; 3.國網河北省電力有限公司, 石家莊 050021)

隨著新能源接入比例的不斷增加,電網的安全經濟運行對需求側響應提出了更高要求[1],面對海量異質靈活資源參與系統運行調節,精準制定負荷標簽數據庫和構建用戶畫像是提高需求側響應措施實施有效性的基礎[2]。而在制定負荷標簽數據庫和構建用戶畫像中,首先需要對用戶用電特性進行可靠、精簡的分析,且用戶用電特性由用戶日負荷曲線體現。此時,制定一個高質量的標簽數據庫與構建精準用戶畫像的關鍵在于如何從海量用戶用電數據中提取出有價值的信息以反映用戶用電特性[3]。電力日負荷曲線聚類是一種依據同類用戶負荷曲線的相似性將負荷曲線劃分到不同類別中以提取同類群體用戶的用電特性的方法[4]。因此,提高電力日負荷曲線聚類質量是進行精準用戶畫像的保障,進一步支撐需求側響應策略的有效實施[5]、電力負荷的準確預測[6]以及分時電價的合理制定[7]等,在新能源高比例接入與海量異質靈活資源參與系統運行調節背景下具有十分重要的應用價值。

在電力負荷聚類分析方面國內外已經展開了一些研究工作,其算法可分為兩類:直接法和間接法。直接法是直接將原始數據作為聚類輸入,但隨著智能電網的建設,數據規模和維數不斷攀升,其計算效率面臨巨大挑戰,如文獻[8]采用動態時間彎曲距離來量度負荷曲線相似性,提高了分類可靠性,但距離計算較為復雜,算法效率較低;文獻[9]提出基于云模型確定聚類算法的初始聚類中心和最佳聚類數,但仍然以原始數據作為聚類輸入,數據維數過高導致計算過程復雜,不能滿足實時聚類的需求。間接法是將原始數據先進行降維處理后,再進行聚類,但存在信息丟失嚴重的問題,如文獻[10]通過提取原始電量特征(如最大負荷利用小時數、日負荷率等)對功率曲線進行降維處理,明顯提升了計算效率,然而所提取特征不完善,難以最大限度保證負荷曲線的整體、局部形態特征;文獻[11-14]分別采用不同的降維技術對原始功率曲線進行降維處理,能夠很好地提高聚類效率,卻帶來曲線失真等新的問題;文獻[15]提出增加特征指標進行日負荷曲線聚類能更加精細化描述負荷曲線?;趧澐?、基于層次、基于密度的傳統聚類算法存在質量不佳、計算效率低、曲線失真等缺陷,其主要原因有:①初始聚類中心選取隨機,最佳聚類數難以確定;②數據規模和數據復雜度較大,導致計算效率低;③算法對參數選取敏感帶來結果魯棒性差。以上這些研究工作,對傳統聚類算法存在的不足有改善作用,但仍然存在,亟待進一步提升聚類質量。

密度峰值聚類算法不僅能夠快速自適應確定聚類中心,還保留了傳統聚類算法計算簡單、快速的優勢[16],但仍然存在以下兩點不足:一是針對離聚類中心遠近不同的數據點采取一步劃簇方法容易導致誤差擴大且結果不可靠;二是對截斷距離敏感。為改進密度峰值聚類算法第一點不足,設計了兩步劃簇方法[17],解決了離聚類中心遠近不同的數據點密度測量不均勻和誤差擴大的問題。為改進第二點不足,提出了利用信息熵[18]、基尼不純度[19]等方法確定截斷距離的改進密度峰值聚類算法,進一步地提出了基于K近鄰、模糊加權K近鄰的方法避免計算截斷距離。

現首先采用所提特征指標選取方法選取指標;其次,采用熵權法給每種指標賦予合理權重;再次,將實際電力負荷數據輸入改進的聚類算法中驗證該聚類算法的聚類準確率;最后,將各類模擬的電力負荷數據輸入改進的聚類算法中驗證該算法的魯棒性。以期通過仿真達到特征提取方法選取指標夠滿足實際工程需要,聚類算法能夠自適應地確定鄰域參數和初始聚類中心,克服傳統聚類算法的缺陷,體現聚類算法在聚類質量、魯棒性方面的顯著優勢。

1 負荷特征指標選取

電力用戶用電特性可以用功率曲線表征,也可從功率曲線獲取特征指標來描述?,F有研究通過增加特征指標提升聚類效果,而增加特征指標并不能保證聚類質量的提升,因為若增加的特征指標存在冗余,將會給聚類效果帶來負面影響。在原始電量特征集中提取了能夠反映用戶用電特性的完備特征指標進行特征指標完善,最大限度地保證各類負荷曲線形態特征,且特征指標不產生冗余效應以提升算法效率。原始電量特征集包含參數有:日用電量、日最大負荷、日最小負荷、日平均負荷、日谷峰差、谷電系數、日負荷率、峰時耗電率、日最大負荷利用小時數、峰期負荷率、谷期負荷率、平期負荷率等。其中,日最大負荷利用小時數可由日負荷率表示,日平均負荷可由日用電量獲得,日谷峰差和日峰谷差率可由日最大負荷和最小負荷計算,日負荷率可由日用電量和日最大負荷描述等。據此,從原始電量特征集所提的完備的特征指標及物理意義如表1所示。

表1 各類特征指標及物理意義Table 1 Characteristic indexes and physical significance

2 改進型密度峰值算法原理

隨著大數據技術的不斷發展,聚類這種無監督學習的數據挖掘方法出現了較多經典算法,如K均值聚類[20]、基于密度的聚類算法(density-based spatial clustering of applications with noise,DBSCAN)[21]等,而這些傳統的聚類算法均需要人為設置鄰域參數。雖然這些算法由于簡單、快捷得到了廣泛的應用,但均因存在對參數敏感的缺陷,限制了在數據更高維、規模更大場合的應用。針對傳統算法缺陷同時傳承傳統算法簡單、快捷的優點,采用改進型密度峰值算法進行聚類分析。該算法為了自適應確定鄰域參數和初始聚類中心,采用一種新的鄰域概念—自適應最近鄰[22],其根據數據自身特性自適應地確定鄰域參數,結合改進的密度峰值算法的優勢進行電力負荷聚類。

根據商業負荷用電一般規律,選擇峰時段為:9:00—12:00,18:00—21:00;谷期時段為:22:00—6:00;平期為:6:00—9:00,12:00—18:00,21:00—22:00。

2.1 改進型自適應最近鄰

自適應最近鄰是一種不同于傳統近鄰的新定義,其最大的優勢在于無需提前確定任何參數,其參數由數據自身結構特點決定。它的核心思想為:若樣本點i出現在點j的r鄰域內,則點j為點i的自適應最近鄰。為了便于描述尋找自適應最近鄰的搜索算法,給出如下定義。

定義1(自適應最近鄰居)對于數據點x,稱數據點y為數據點x的自適應最近鄰居,若x在y的r鄰域內,且對數據集合中任何一點z,都至少存在一個數據點的r鄰域包含z。

定義2(特征值sk)數據集的sk為使得任意數據點x都至少被另外一個數據點y(y≠x)的r鄰域包含的最小r值,其數學表達式如式(1)所示。

sk=min{r|?x∈X, ?y∈X,y≠x,

stx∈nnr(y)}

(1)

式(1)中:nnr(y)為數據點的r鄰域,即距離點y最近的r個點的集合;sk也被稱為平均自適應鄰居數。

根據自適應最近鄰居的定義可知,密集區域的樣本點往往具有更多的自適應最近鄰居;反之,稀疏區域的樣本點具有較少的自適應最近鄰居,符合數據分布特點。根據特征值的定義可知,鄰域值的確定不需要人為提前設置,從數據自身結構特點出發,總能找到一個合適的鄰域參數,便于后續高質量聚類。

在自適應地確定每一個電力負荷樣本數據點的特征值和自適應最近鄰居以及自適應最近鄰包含數量的過程中,由于存在離群點時特征值會過大,從而導致計算復雜度增加,甚至后續樣本點合理劃簇失敗。為了識別并剔除離群點,采用了一種改進型自適應最近鄰搜索算法,其優化思想為:隨著r鄰域對應參數值的不斷增加,若自適應最近鄰居為零的樣本點個數持續不變,則停止繼續搜尋,輸出結果。算法流程如表2所示。

表2 改進型自適應最近鄰搜索的算法流程Table 2 Flow of improved natural nearest neighbor search algorithm

2.2 自適應最近鄰密度峰值算法

通過2.1節的改進,能夠在后續聚類過程中針對傳統聚類算法對參數敏感以及初始聚類中心難以確定等問題進行優化,以此來改進整個算法。改進型密度峰值算法能夠更加準確地獲取每個樣本點的自適應最近鄰居。據此計算每個樣本點i的局部密度ρi和其與較高密度點的最近距離δi,以局部密度做橫軸,以距離做縱軸,繪制決策圖。在決策圖中選擇最近距離和局部密度均較大的數據點作為初始聚類中心。進一步地,給出如下定義。

定義3(數據點的局部密度)結合定義1,將局部密度定義為

(2)

式(2)中:k(i)=min{sk,nb(i)},nb(i)為點i的自適應最近鄰居數;dij為點i、j之間的歐氏距離;ANN(i)為點i的自適應最近鄰域。

定義4(與較高密度最近距離)點i與較高密度點的最近距離δi定義為

(3)

定義5(離群點)由于離群點距離正常點較遠,難以被其他數據點識別為自然最近鄰居,因此由自適應最近鄰居搜索算法和自適應最近鄰的定義可知,離群點的自適應最近鄰居數為0,即nb(i)=0的數據點可以認為是離群點。

定義6(樣本相似度)對于兩個不同的非離群點i和j,兩者相似性定義為

(4)

式(4)中:avedi為數據點i與其自適應最近鄰的平均距離;αij為縮放系數;inter(i,j)為數據點i和j的自適應最近鄰集合的交集;這里常數設置為1的目的是避免沒有自適應最近鄰交集的兩點相似度為零,增強相似性度量的穩健性。

定義7(隸屬度)將數據點i對簇C的隸屬度定義為

(5)

式(5)中:ω(i,j)為權重;yj為數據點j的簇標記。

定義9(簇核心區)對于一個未被分配聚類中心的數據點i,其自適應最近鄰為ANN(i),將點i、ANN(i)以及從ANN(i)出發、相似可達概念經過的點統稱為該簇的簇核心區。

定義10(簇間相似度)若有兩簇Cp和Cq,兩個簇中互為自適應最近鄰居的點對數量為DN(Cp,Cq),這兩個簇的所有數據點的平均自適應最近鄰數分別為mnb(Cp)和mnb(Cq),兩簇間的相似度定義為

(6)

式(6)中:p1=|Cp|/(|Cp|+|Cq|);|Cp|和|Cq|分別為兩個簇的樣本數;當S(Cp,Cq)≥1時,合并兩簇。

利用表2算法和決策圖確定初始簇中心后,進行兩步分配策略,其核心思想如下。

(1)將初始聚類中心密度按降序排列,不斷挑選出剩余未分配的聚類中心,分配簇標簽,并確定對應的簇核心區域。

(2)按照隸屬度定義(見定義7)將未分配的非離群點分配給隸屬度最高的簇。

具體地,可進行兩次分配,第一次分配:賦予從未被訪問過的聚類中心中挑選局部密度最大的點以及該點的自適應最近鄰居以簇標簽,并標記已訪問;然后,對該被賦予標簽的集合(除了該聚類中心以外)的每個點,尋找其最相似的自適應最近鄰,如果被認為是最相似的自適應最近鄰在被標記集合的范圍之外,則將該點歸到該標簽下,直到所有的點均被遍歷為止;再繼續對剩余的未被訪問過的聚類中心重復上述步驟,最終確定每一個初始聚類中心的簇核心區。第二次分配:經過上述步驟后,對仍然未被訪問過的點計算每個點對每個簇核心區的隸屬度,并將點歸于對應隸屬度最大的簇;重復此過程,直到余下的點都被訪問。最后,計算簇間距離,若此距離不小于1,則合并相應的兩簇,并返回聚類結果。算法流程如圖1所示。

2.3 聚類質量檢驗指標

聚類質量的好壞需要通過可靠的檢驗指標來衡量。高質量的聚類結果要求簇內樣本間具有較高的相似性,簇間的樣本具有較高的差異性[23]。評價聚類有效性指標眾多,其中輪廓系數[24](Silhouette coefficient, SC)、戴維森堡丁指數[25](Davies-Bouldin index,DBI)能夠同時考慮類間距離和內距離,均能全面體現聚類結果的有效性。因此,上述兩項指標適用于對電力負荷數據的聚類質量的檢驗。

在聚類準確率檢測方面,曲線聚類后的歸屬類別與聚類之前的歸屬類別一致,則認為聚類準確。將聚類準確率定義為

(7)

式(7)中:Lc,all為聚類準確的日負荷曲線總條數;Lall為日負荷曲線總數。

3 算例分析

為驗證本文方法的有效性以及優越性,算例分析設置如下。

(1)以實際日負荷曲線數據為基礎,分別采用傳統聚類算法(K-means)、僅選取典型特征指標的聚類算法、特征指標選取完善后的聚類算法(本文算法)進行用戶負荷聚類,并進行對比分析。

(2)選取典型負荷曲線構造模擬數據并加入一定比例的擾動,驗證本文算法的魯棒性。

(3)分析特征指標選取差異以及權重配置變化對本文算法魯棒性的影響。本文算法流程如圖1所示。

圖1 自適應最近鄰密度峰值聚類算法流程Fig.1 Natural nearest neighbor density peak clustering algorithm flow

3.1 實際日負荷曲線聚類分析

3.1.1 數據來源

以某市2018年某日實測312個典型電力用戶的日負荷曲線為研究對象,數據細粒度為1 h/點,每條曲線共計24個功率點。經數據預處理后,算例共有305條有效日負荷曲線(輕工企業80條、重工業108條、市政居民117條,分別定義為第一、二、三類負荷曲線)。

3.1.2 聚類結果及對比分析

計算每條負荷曲線的9個特征指標值,得到305個9維數值向量,采用熵權法得到權重向量W=[0.056, 0.108, 0.142, 0.121, 0.166, 0.152, 0.200, 0.021, 0.034];然后,將特征指標數值向量每一維分別乘以對應的權重系數得到的新向量,作為聚類輸入;利用傳統聚類算法、基于典型特征指標的聚類算法、本文算法對該305條日負荷曲線進行分類,并在聚類質量、聚類效率方面進行對比分析。聚類結果分別如圖2~圖4所示,傳統聚類算法的聚類結果中歸于一、二、三類的曲線數依次為96、108、101,基于典型特征指標的聚類算法的聚類結果中歸于一、二、三類的曲線數依次為94、108、103,本文算法的聚類結果中歸于一、二、三類的曲線數依次為85、108、112。由于第二類曲線與其他兩類曲線的負荷水平以及形態相差較大,所以三種聚類算法都能將其準確區分;而第一類和第三類負荷水平曲線存在較大的相似性,容易產生誤分情況。

圖2 基于傳統聚類算法的日負荷曲線聚類結果Fig.2 Clustering results of daily load curve based on traditional clustering algorithm

圖3 基于典型特征指標聚類算法的日負荷曲線聚類結果Fig.3 Clustering results of daily load curve based on typical characteristic index clustering algorithm

對各簇的形態特性分析為:第一類為單峰型,曲線所反映的特性比較符合事業單位、輕工業電力用戶的用電行為,僅白天負荷水平高;第二類為平峰型,比較符合重工業電力用戶的用電行為,負荷形態比較平穩,持續保持較高負荷水平;第三類為三峰型,曲線所反映的特性比較符合市政居民用電行為,早、中、晚分別會出現對應的小高峰、次高峰、最高峰。

對三種方法的聚類準確率進行計算,傳統聚類算法、基于典型特征指標的聚類算法、本文算法的聚類準確率分別為94.7%、95.4%、98.4%。傳統聚類算法、基于典型特征指標的聚類算法的聚類準確率和聚類結果高度相似,說明在用戶用電特性分析中可采用特征指標代替功率向量作為聚類輸入,且能夠滿足實際工程的需要;通過本文算法所得的聚類準確率與前兩種算法對比可知,采用完備的特征指標作為輸入,聚類準確率明顯提升。

進一步對3種算法聚類結果性能進行對比,如表3所示,可知在聚類結果相似的情況下,傳統聚類算法和選取典型特征指標的聚類算法在聚類有效性指標方面較為接近,在完善特征指標選取后,聚類有效性指標方面表現比前兩者更優。

3.2 算法的魯棒性驗證

為了驗證本文算法相比于傳統算法具有優良的魯棒性,分別選取單峰型、雙峰型、平峰型、三峰型、避峰型五類典型的日負荷曲線,在每一類典型日負荷曲線上的每一個功率點處添加比例為r的隨機干擾,通過仿真模擬得到五類日負荷曲線(每一類100條,總計500條)。由于各點擾動比例相同,所以在負荷水平較高時波動較大,在負荷水平較低時波動較小。

表3 三種算法聚類結果性能對比Table 3 Performance comparison of three clustering algorithms

從模擬數據中提取特征指標,并得到聚類結果。改變隨機干擾比例,分別采用三種算法進行用電負荷聚類分析,利用聚類質量檢驗指標大小、聚類準確率共3個指標檢驗新算法的魯棒性,如表4所示。

圖4 基于本文算法的日負荷曲線聚類結果Fig.4 Clustering results of daily load curve based on clustering algorithm

由表4可知,隨著擾動比例的增加,DBI指標數值增大,SC指標數值減小,分類準確率降低。對于3種不同算法,當隨機擾動比例增加時,各項指標值和聚類準確率都呈現變差的趨勢。具體地,對于傳統算法,當隨機擾動超過10%時,各項指標已經開始出現偏差,聚類準確率也出現波動,因此該算法受隨機擾動影響大,魯棒性差;對于基于典型特征指標算法,當隨機擾動比例超過25%時對于聚類質量開始明顯下降;對于本文算法,當隨機擾動比例超過35%時,各項指標和聚類準確率才會出現明顯偏差。因此,本文算法的魯棒性相比傳統聚類算法有明顯提升,且隨著特征指標的完善,魯棒性更優。

3.3 對聚類效果產生影響的其他因素分析

特征指標完善前聚類準確率等各方面的檢驗指標表現均較差,主要原因為選取典型特征指標難以表達原始負荷曲線的局部、整體特征,容易導致誤分類,同時魯棒性較差,且隨著擾動增加,上述情況會愈加明顯;隨著特征指標的完善,上述情況都會得到明顯改善。在3.1.2節中,采用基于典型特征指標算法和本文算法對實際日負荷曲線聚類的分析亦可得出相同的結論。在此特別強調,相比于選取典型特征指標時,雖完善特征指標會增加聚類數據的維數,影響聚類效率,但相比于原始數據維數已經大大降低,而且還能顯著提升聚類質量和魯棒性。因此,完善特征指標不但滿足精細化聚類的要求,還提升聚類綜合效果。

以從實際負荷數據得到的9類特征指標數據為基礎,分別在等權重、經驗權重[26]、熵權法3種方式下,采用本文算法分別計算各種指標和聚類準確率,結果如表5所示。

由表5可知,聚類效果會受到權重配置的影響,雖然經驗配置權重方法較為主觀,但能夠一定程度上體現各指標的貢獻度,通過配置權重可以減弱干擾對聚類結果的影響,在一定程度上提升聚類效果;通過經驗權重和熵權法的聚類效果對比可知,合理配置權重可進一步提高聚類質量和抗干擾的能力。

表4 3種算法魯棒性比較Table 4 Robustness comparison of three algorithms

表5 不同權重配置方式下聚類效果對比Table 5 Comparison of clustering effect under different weight configurations

4 結論

在海量異質靈活資源參與高比例新能源接入系統運行調節背景下,針對現有用戶用電行為特性分析方法魯棒性差、效率低的問題,采用了一種基于特征指標完善和改進型密度峰值算法的日負荷聚類分析方法。通過仿真分析可得到如下結論。

(1)采用特征指標描述電力用戶用電特性能夠滿足實際工程需要,而且特征指標的完善,不但可以更加精細地反映用戶的用電特性,還能更好地區分曲線差異。

(2)改進的密度峰值算法能夠自適應地確定鄰域參數和初始聚類中心,能克服傳統聚類算法的缺陷。

(3)相比于傳統K-means聚類算法和基于典型特征指標的聚類算法,本文算法在聚類質量、魯棒性方面具有顯著優勢,雖然在計算時長上略大于傳統K-means聚類算法和基于典型特征指標的聚類算法,但其足以滿足電網優化運行與調度對計算快速性的要求。

在用戶用電特征分析中樣本密度近似且距離較近是造成聚類分析不準確的因素之一,在自然最近鄰居定義的基礎上如何定義更加準確可靠的簇間相似度以及合并條件將是下一步研究工作的重點。此外,將本文方法的聚類結果服務于建立電力用戶畫像模型,聚類準確性是關注重點,而不同場景中所關注的重點不同,因此本文方法是否能夠應用于其他場景也是后續研究重點。

猜你喜歡
定義特征
抓住特征巧觀察
永遠不要用“起點”定義自己
海峽姐妹(2020年9期)2021-01-04 01:35:44
定義“風格”
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
主站蜘蛛池模板: 中文字幕在线视频免费| 日韩美毛片| 人人91人人澡人人妻人人爽| 欧美综合成人| 久综合日韩| 亚洲一区毛片| 日本91视频| 国产视频资源在线观看| 国产日本欧美亚洲精品视| 国产国产人成免费视频77777| 色综合天天综合中文网| 男女性午夜福利网站| 91久久国产成人免费观看| 波多野结衣无码AV在线| 日韩av手机在线| 91精品国产情侣高潮露脸| 欧美在线导航| 国产 日韩 欧美 第二页| 亚洲欧美自拍视频| 国产欧美日韩免费| 综合亚洲网| 亚洲欧美成人在线视频| 亚洲综合狠狠| 在线国产欧美| 日韩黄色精品| 夜夜操天天摸| 国产一区二区精品高清在线观看 | 欧美黑人欧美精品刺激| 亚洲国产综合自在线另类| 欧美成人午夜在线全部免费| 一级成人欧美一区在线观看| 91精品人妻一区二区| 青草精品视频| 波多野结衣久久精品| 91亚洲国产视频| 国产乱视频网站| 99爱在线| 精品無碼一區在線觀看 | 国产成人1024精品| 欧美精品黑人粗大| 欧美激情视频二区三区| 免费观看欧美性一级| 国产无码在线调教| 欧美一区中文字幕| 国产日韩精品一区在线不卡| 日本午夜在线视频| 视频国产精品丝袜第一页| 国产无吗一区二区三区在线欢| 欧美一区二区啪啪| 91成人试看福利体验区| 91久久性奴调教国产免费| 91亚瑟视频| a亚洲视频| 成色7777精品在线| 亚洲男人的天堂在线| 色噜噜综合网| 91久久偷偷做嫩草影院| 97免费在线观看视频| 亚洲av综合网| 日韩午夜福利在线观看| 久久这里只精品热免费99| 国产性生大片免费观看性欧美| 九一九色国产| 婷婷亚洲最大| 亚欧成人无码AV在线播放| 热re99久久精品国99热| 亚洲一级无毛片无码在线免费视频| 就去色综合| 一级黄色网站在线免费看| 欧美日韩激情在线| 久久精品欧美一区二区| 日韩在线2020专区| 香蕉伊思人视频| 成人午夜福利视频| 久草热视频在线| 国产地址二永久伊甸园| 欧美有码在线| 九九九精品视频| 国产99免费视频| 国产精品分类视频分类一区| 不卡无码h在线观看| 一级毛片高清|