999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于降維聚類技術的電力負荷數據挖掘研究

2021-11-29 05:24:04萬嘉琳
能源與環保 2021年11期
關鍵詞:數據挖掘

郭 璟,萬嘉琳,劉 凱,秦 玥,金 晶,曾 斐

(國網上海浦東供電公司,上海 200122)

隨著社會經濟的高速發展,各類數據的規模急劇增加,得出數據背后的有效信息是十分艱巨而有用的工作,數據挖掘技術是必要的方法。數據挖掘技術在信息提取、信息預測方面體現出強有力的技術支持。而電力行業是國家發展的支柱性產業,電力負荷數據作為電力產業的寶貴信息,在向智慧電網發展轉變過程中,電力網絡規模越來越大,電力負荷數據爆炸性增長[1],利用數據挖掘技術對電力負荷數據進行有效挖掘,是十分必要的。而利用聚類分析和降維算法對電力負荷數據進行研究,解決行業面臨的痛點,具有重要的現實價值。

1 數據挖掘理論

1.1 數據挖掘的功能與常用技術

數據挖掘就是從海量數據中提取出有價值、有意義的信息,然后將這類信息用以指導實踐工作。數據挖掘的步驟比較簡單,主要包括數據清洗、數據集成、數據選擇、數據變換、模式評估以及知識表示[2]。數據挖掘主要的實現方式如圖1所示,其整個過程包括7個不同的階段,某一個階段一旦出現問題就會導致整個挖掘過程失敗。數據挖掘的功能很多,最直接的功能就是對數據進行類別的劃分,也可以對海量數據進行聚類和趨勢分析,然后結合當前的知識,根據歷史有用信息實現數據預測,提高效率。

圖1 數據挖掘過程示意

數據挖掘所包含的技術十分繁多,包含有關聯分析、人工神經網絡、聚類分析、決策樹技術、統計分析方法以及遺傳算法等[3]。本文主要以聚類分析為主,聚類分析就是通過算法學習的方式,將海量數據進行分類,讓數據依照預定的指標歸納為不同的類別,在該種劃分依據下,具有相同或者相似屬性的數據相互靠近,集合成一類數據。使具有不同屬性的數據不斷調整相互遠離。

1.2 數據挖掘在電力負荷數據中的應用

隨著電力行業的變革,對電力負荷數據的有效信息提取也是十分有價值的,利用數據挖掘技術對電力負荷數據進行分析,以某種度量方式將數據進行無監督的歸納,以共性抽取的方式提取出共同模式信息[4]。根據數據差異性的不同找出主要影響因素,依靠聚類分析的方法,可以從宏觀和微觀2種角度出發,觀察電力負荷數據的分布情況,并能定位異常電力負荷數據[5]。然后,將歷史數據作為神經網絡模型對進行輸入,對數據模型進行訓練和優化測試。通過不斷更新的數據,將最新的電力負荷數據放置到模型中,從而達到對未來電力負荷的準確預測。

2 K-means聚類分析算法

2.1 K-means聚類算法

聚類分析算法具有廣泛的應用,諸多類型的聚類分析算法被研究學者提出,聚類分析算法一般有劃分聚類、層次聚類、基于密度、網格和基于模型的算法[6]。本文主要是基于劃分聚類算法,劃分聚類算法是根據定義的度量距離對數據進行劃分,該距離被定義為歐式距離,劃分聚類算法包括常見的CLARANS算法、K-means算法以及K-means各種改進算法[7]。

K-means算法的實現步驟如圖2所示。

圖2 K-means算法流程

假設某一個數據集合里面具有N個數據對象,聚類數目為K個。首先遵照隨機性原則,從N個數據對象中抽取出K個聚類數目作為初始的聚類中心。其次,比較其他剩余數據對象與初始聚類中心的距離,距離最近的數據對象將被劃分到聚類中心所在類別中,當全部數據對象劃分后,發生變化的類簇的聚類中心發生了更新。然后,測量計算結果是否符合預期效果,一旦發生不符合的結果,重新進行距離計算,劃分類別,直至達到設計要求。通過分析算法實現過程就可以了解,該算法簡單高效、數據均勻性好、空間復雜度低、算法可伸縮性較好。但其缺點也比較明顯,容易受到異常點的干擾和噪聲影響,不適用于非凸數據集合。聚類分析的評價指標主要為戴維森堡丁(DBI)指數,DBI為指標考量類內聚合度和類間的分散度[8],DBI指數的計算公式分別見式(1)、式(2)。

(1)

(2)

式中,d(xk)和d(xj)分別為類內數據到類別中心的距離;d(ck,cj)為不同類別的向量距離。

2.2 數據采集與數據預處理

實驗數據取自美國代頓市某一年的居民住宅用戶1 436條的年度電力負荷數據,該數據存儲于美國開放能源信息網站,該網站致力于數據開放功能[9]。通過篩取1 395條數據組成有效的負荷曲線,從而構建出本文的實驗數據集。首先,將電力負荷數據集轉換成矩陣形式,將包含12個月的原始1 436條電力負荷曲線數據,構建成1 436×12維的數據矩陣,用x(i,r)表示第i條負荷曲線在r月上的電力負荷數據值。其數據矩陣形式X如公式(3)所示。

(3)

為了剔除異常數據值,針對一條曲線中12位數據值,如果缺失數值連續2位以及2位以上缺失或者數值不連續且不少于3位,則直接將該條數據刪除。對于原始數值中的異常篩選采用式(4)和式(5)分析曲線的組內均值和方差。而對于異常點的判斷標準是組內均值變化幅度超過了組內標準差的3倍以上,則判定為異常數值點,判別公式見式(6),經過上述的處理與剔除,篩選出1 395條數據,構建出1 395×12的實驗數據集矩陣。

(4)

(5)

(6)

為了保證減小數據量綱的復雜性同時提高計算效率[10],采用歸一化處理,將上述數據采取歸一化,使數值全部映射到0~1的統一區間,歸一化處理數據的公式見式(7):

xs=(x-xmin)/(xmax-xmin)

(7)

便于對數據的觀察和處理,也降低了實際計算成本。歸一化后電力負荷曲線的樣本分布情況如圖3所示。

圖3 電力負荷曲線總體分布情況

圖3中,數據體現出雜亂無章的分布情形,并且無法挖掘出有效的信息,需要進一步對數據進行降維處理,通過適當的聚類分析,得出客戶的用電分析行為模式。

3 電力負荷數據降維聚類分析

3.1 降維算法分析

數據體量的增加往往伴隨著數據維度的增加,數據維度的增加導致高位空間的數據稀疏性增加[11],導致數據價值的降低,利用數據挖掘技術獲取有用數據信息的成本增加,產生“維度災難”。所以針對高維度數據的降維處理是十分必要的。降維有助于減少數據存儲空間[12],利于分清數據背后的規律,并且有效去除冗余特征。其主要分為線性降維和非線性降維[13],其算法分類如圖4所示。

圖4 降維算法分類

選取降維算法PCA、KPCA、LLE、MDS、ISOMAP進行對照,將電力負荷數據進行壓縮。然后利用K-means算法進行最佳聚類,選取最佳聚類數K′=2,得到不同維度與DBI指標的關系,如圖5所示。同時,上述5種降維算法對應DBI的組內方差見表1。由表1的數據可知,線性降維算法與非線性降維算法在對聚類精度的影響方面顯示出不同。當維度為11時,PCA算法的DBI值對應組內方差為0.692 3,是非線性降維算法均值的2.46倍。由此,可以看出線性降維算法處理本文的實驗數據集效果比較差。并且5種算法在維度D=2時DBI的值都處于最小值,此時的聚類精度最高,那么輸出維度為2時可以作為該數據集的最佳輸出維度。由圖5和表1可以看出,KPCA算法和ISOMAP算法的降維效果最好,同時KPCA、ISOMAP的降維精度比較高。

圖5 不同降維算法在不同維度上的降維聚類精度對比

表1 不同降維算法對應DBI的組內方差

3.2 結合降維技術的聚類分析組合算法

選取降維算法KPCA和ISOMAP兩種方式,將實驗數據集合降維至維度為2。然后利用K-means聚類到最佳聚類數K′=2。將12維的電力負荷數據在二維平面展開后如圖6和圖7所示。

圖6 KPCA+K-means組合算法聚類結果

圖7 ISOMAP+K-means組合算法聚類結果

KPCA+K-means組合算法的聚類結果分布均勻,深色點表示聚類中心,淺色點表示電力負荷曲線平面點。而ISOMAP+K-means結果顯示數據稀疏區和數據密集區對比區分明顯。為了對比加入聚類分析方法,以及降維方法的對照,采用K-means、KPCA+K-means、ISOMAP+K-means三種算法,比較聚類精度和不同聚類數目下的時間,其對比如圖8和圖9所示。

圖8 3種算法在不同聚類數的聚類精度對比

圖9 3種算法在不同聚類數目下的聚類時間對比

對比KPCA+K-means組合算法與K-means的DBI指標,組合算法的聚類精度有所降低,而相比較下,ISOMAP+K-means組合算法的聚類精度比K-means的精度提升很多,大約為24.31%。KPCA+K-means組合算法會在提取數據的特征過程中造成部分信息的丟失。而在不同聚類數目下,計算時間最長的是ISOMAP+K-means組合算法,相比于K-means和KPCA+K-means組合算法的時間增加65.61%和74.89%,ISOMAP+K-means組合算法的計算效率最快。

綜上所述,由于ISOMAP+K-means組合算法將實驗數據集分為稀疏區和密集區分離開,聚類精度較高,但是計算速度不快。相比而言,KPCA+K-means組合算法數據分布均勻,可以有效地使計算速度提高。

4 結論

本文針對高維度的電力負荷數據作為分析對象,采用聚類分析作為挖掘技術的主要手段,對數據進行降維。采用美國開放能源信息網站的電力數據作為初始實驗數據集,然后對數據進行預處理。選取聚類能力最強的K-means算法作為聚類的主要手段。然后通過對比5種降維技術,采納ISOMAP和KPCA降維算法與K-means分別組合。通過綜合分析,得出結論:結合降維算法,聚類分析的聚類精度和聚類效率都會有所增強。在未來的研究中,提高K-means的并行算法能力是十分重要的研究方向,將是后續研究的重點。

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 日日噜噜夜夜狠狠视频| 婷婷激情亚洲| 一区二区三区国产精品视频| 91在线无码精品秘九色APP| 久久96热在精品国产高清| 欧美一级爱操视频| 亚洲资源站av无码网址| 久久综合干| 色吊丝av中文字幕| 久久亚洲AⅤ无码精品午夜麻豆| 亚州AV秘 一区二区三区| 久久久久无码精品| 亚洲三级片在线看| 亚洲一区二区三区麻豆| 久久综合色天堂av| 国产夜色视频| 亚洲精品国产精品乱码不卞 | a免费毛片在线播放| 天天综合网亚洲网站| 嫩草国产在线| 欧美特黄一级大黄录像| 久久一日本道色综合久久| 免费A∨中文乱码专区| 精品人妻一区二区三区蜜桃AⅤ| 国产一区二区三区在线精品专区| 国产熟女一级毛片| 88av在线播放| 四虎国产永久在线观看| 青青草原国产免费av观看| 蜜桃视频一区二区| 午夜视频www| 久久熟女AV| 激情综合婷婷丁香五月尤物| 国产午夜不卡| 亚洲成在人线av品善网好看| 日韩av手机在线| 久草视频福利在线观看| 国产综合无码一区二区色蜜蜜| 不卡无码h在线观看| 欧美一级99在线观看国产| 国产午夜精品一区二区三区软件| 欧美 亚洲 日韩 国产| 久久精品国产在热久久2019| 99在线观看视频免费| 中文字幕在线播放不卡| 国产成人免费高清AⅤ| 丝袜国产一区| 亚洲成人免费看| 欧美翘臀一区二区三区| 国产亚洲欧美日韩在线观看一区二区| 亚洲人成网站在线播放2019| 国产精品美乳| www.av男人.com| 久久精品中文字幕免费| 久久午夜夜伦鲁鲁片不卡| 亚洲欧美一级一级a| 亚洲精品无码日韩国产不卡| 日韩高清一区 | 国产精品网址你懂的| 2020精品极品国产色在线观看 | 欧美笫一页| 成人福利在线观看| 91在线精品免费免费播放| 欧美成人手机在线观看网址| 夜夜拍夜夜爽| 国产在线一区视频| 99精品视频在线观看免费播放| 日本国产在线| 精品国产福利在线| 国内精品伊人久久久久7777人| 无码在线激情片| 色综合天天娱乐综合网| 狠狠色香婷婷久久亚洲精品| 亚洲色大成网站www国产| 又大又硬又爽免费视频| 日本在线国产| 伊人久久综在合线亚洲2019| 久久精品国产免费观看频道| 97精品伊人久久大香线蕉| A级毛片无码久久精品免费| 欧美日韩国产精品综合 | 亚洲成a人片在线观看88|