999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GAN的不平衡負荷數據類型辨識方法

2021-07-01 07:13:08盧錦玲張夢雪郭魯豫
電力科學與工程 2021年6期
關鍵詞:分類模型

盧錦玲,張夢雪,郭魯豫

(華北電力大學 電氣與電子工程學院,河北 保定071003)

0 引言

隨著智能電網的發展,越來越多的傳感器和智能電表安裝到配電網絡中,用來監控和預測電能的使用。從負荷監控點收集的隨時間變化的功率損耗數據形成負荷曲線。客戶的負荷曲線顯示了其電力消費行為,通過對負荷曲線分類,提取用電模型,對于電力系統的負荷預測、風險預警、需求響應分析等具有重要意義。

負荷分類問題的研究在國內外已經取得了一定成果。總體來說,負荷分類方法包括以K-means、模糊 C 均值聚類(fuzzy C-means,FCM)、自組織映射(self-organizing maps,SOM)等為代表的無監督聚類和以BP神經網絡、支持向量機(support vector machine,SVM)等為代表的有監督分類。文獻[2]結合多種聚類算法構建用戶的用電模式分析模型,并提出一種新方法來評估聚類效果,實現了典型用電模式的自動識別。文獻[3]結合深度學習中的卷積自編碼器,提出了一種多維模糊C均值聚類方法,對日趨海量的負荷數據進行了有效的分類。文獻[4]基于牽引負荷實測數據,提出了一種改進的自適應 FCM方法,以自動獲取最佳聚類數,提高了牽引負荷分類的精度。文獻[5]提出了一種基于遺傳算法優化的BP神經網絡負荷分類方法,采用遺傳算法對BP網絡的初始權重和閾值進行優化,得到了較好的分類效果。文獻[6,7]采用高斯混合模型聚類和SVM算法相結合,提出了一種利用負荷數據進行用戶辨識的方法,并驗證了算法的有效性。文獻[8]首先通過無監督算法獲得負荷數據的標簽,然后采用稀疏自動編碼神經網絡學習負荷曲線的特征,實現了負荷曲線的高精度分類。然而,上述研究都是在假設負荷類別相差不大的前提下展開的,均沒有考慮負荷類別不均衡這一問題。

不平衡分類屬于分類問題的一種,即不同類別的樣本數目存在較大的差距。近年來,類別不平衡問題在機器學習分類任務中日益凸顯,如欺詐識別、垃圾郵件檢測等。欺詐交易與垃圾郵件樣本較少,屬于小樣本類別,其分類是否正確對結果影響巨大。負荷曲線的隨機性較強且模式多樣,但是各個模式下的負荷樣本數量不均衡,傳統的分類模型往往對于不平衡的負荷數據分類具有較大的偏向性,即產生小類樣本負荷數據錯分或被大類負荷數據吞噬等現象,進而導致分類效果欠佳[9]。針對不平衡分類問題,傳統方法一般對數據進行過采樣或欠采樣處理,其中隨機過采樣和隨機欠采樣只是簡單的隨機復制小類樣本或丟失大類樣本,因而對于分類效果的提高往往不理想。為此本文提出一種基于生成式對抗網絡(GAN)的小類負荷樣本的過采樣方法,首先基于K-Means算法為負荷數據加上標簽,然后采用GAN對小類負荷數據進行樣本擴充,最后使用SVM算法進行分類建模。

1 K-means聚類

采用神經網絡對負荷數據分類時,需要對訓練數據進行學習以獲得良好的分類性能,本文采用K-means聚類為局部數據添加類別標簽,并通過基于聚類結果 GAN方法擴大訓練數據中的小樣本類簇數據規模。

聚類是無監督學習算法的一種。聚類分析是在缺乏足夠的先驗知識,難以人工標注類別的情況下,通過樣本的某些特征,以相似性為基礎,利用某種度量準則,可以對未知類別的數據進行自動模式識別的一種分析方法。K-means算法以其簡單、運算速度快、時空復雜度低等優點,在聚類分析領域得到了廣泛的應用[10]。其基本思想是最小化所有樣本到聚類中心的距離平方和。最小化損失函數為:

式中:Ci為第i個簇;μi為簇Ci的中心。

具體步驟如下:

步驟1:隨機選取k個樣本點作為各個簇的中心點{μ1,μ2,???,μk}。

步驟2:計算所有樣本點與各個簇中心之間的歐式距離,對每個樣本點進行分類,并將其劃分到距離最近的一個簇中[11]。

式中:i=1,2,???,k;ni表示簇 Ci中所包含樣本點數;x表示簇Ci中的樣本點。

步驟4:重復步驟2、3,直到簇中心在迭代過程中變化不大時停止,即得到最佳聚類結果。

2 GAN原理

GAN是Goodfellow在2014年提出的一種生成式模型,其思想源于零和博弈,由生成器和判別器構成,生成模型可以看作一個樣本生成器,它負責學習數據樣本的分布規律,通過輸入隨機噪聲,產生新的樣本數據,判別模型類似于一個二分類器,它負責判斷輸入數據是否為真實數據,并使準確率最大化。二者通過對抗訓練不斷提升各自網絡的性能,最終到達二者之間的納什均衡點。

圖1 生成式對抗網絡結構圖Fig.1 Structure chart of generative adversarial network

對于生成器網絡,從分布 Pz中采樣的噪聲數據z作為網絡輸入[13],然后生成器的輸出G(z)是一個新的隨機變量,其分布用PG表示,生成器優化目標生成可信樣本來欺騙判別器,為了完成這項任務,需要定義損失函數LG來更新生成網絡的參數θ(G)。LG最小化表示分布為PG的生成樣本從判別器的角度來看幾乎與真實樣本相同。

對于判別器網絡,其輸入樣本來自生成器或真實樣本,輸出一個連續值以測量輸入樣本,判別器網絡和生成器網絡交替進行訓練[14],對于不同的輸入樣本,判別器的輸出值如式(3)和式(4)所示:

判別器網絡通過訓練來區分Pr和PG,也就是最大化 E[D(?)]和 E[D(G(?))]之間的差異,類似的,需要定義一個損失函數LD來更新判別器的網絡參數,當判別器區分生成樣本和真實樣本的能力很強時,LD的值應該很小。損失函數LG和LD定義如下:

式中:E表示計算期望;G(z)表示生成器生成的數據;D(~)為判別器網絡的輸出。

對于給定的判別器,最大化LD意味著最小化-E[D(G(?))],從而可得式(5)。對于給定的生成器網絡,判別器網絡應最大化 E[D(?)]同時最小化 E[D(G(?))],從而得式(6)。基于此,GAN式的訓練過程其實是一個極大極小博弈問題,通過不斷對生成器和判別器進行迭代優化,使二者達到納什均衡[15],其博弈過程的目標函數為:

針對負荷曲線樣本擴充問題,使用傳統的過采樣方法難以充分挖掘曲線的各種特征并建立模型,擴充的數據缺乏真實性和多樣性。而采用GAN模型能夠充分學習真實負荷數據的分布特征,并能同時保證生成數據的多樣性。

卷積神經網絡以其強大的特征提取能力在圖像識別、分類等領域發揮著巨大潛力。本文采用卷積神經網絡代替傳統的多層感知器來構建生成器和判別器網絡模型,以提高GAN的學習能力。生成器網絡輸入為100維噪聲向量,由于負荷數據為一維時間序列,通過全連接層和1D上采樣使維度碰撞,并采用1D卷積層對時間序列進行特征提取并對維度進行縮減,卷積核大小和數量根據實驗進行選取,步長均取 1,填充方式取 valid,同時為了加快網絡訓練速度,提高網絡的魯棒性,每個卷積層后面均添加批量歸一化(batch normalization,BN)層[16]。考慮到 BN 層會是輸出規范化到 N(0,1)的正態分布,輸出層后不添加BN層。為減少稀疏梯度的可能,輸入層和隱藏層激活函數采用LeakyReLU,鑒于負荷數據均為大于0的數,輸出層使用ReLU作為激活函數,將結果規范化到(0,1)之間。各層網絡經過設計,輸出為24維向量。

判別器的主要任務是對生成樣本和真實樣本進行特征提取并劃分類別,因此判別器網絡同樣采用1D卷積層,生成器網絡的網絡結構和參數如表1所示,判別器網絡的結構及參數如表2所示。

表1 生成器結構及參數Tab.1 Structure and parameters of generator

表2 判別器結構及參數Tab.2 Structure and parameters of discriminator

3 支持向量機分類模型

Vapnik首先提出使用支持向量機(support vector machine,SVM)進行模式識別和分類[17]。基于統計學原理,SVM以一個或一組高維超平面的形式實現其功能,相比于神經網絡等傳統機器學習方法,具有更小的泛化誤差。

SVM的基本目標是尋找一個超平面來分離n維空間中不同類的數據點。超平面與訓練數據點之間的距離稱為函數間隔,函數間隔用來表示分類結果的可信度。作為最大間隔分類器,SVM得到的超平面與最近訓練數據點的函數間隔最大,具有最優的分類效果。

如圖2所示,以線性可分的二分類問題為例,假定T={(xi,yi)}為訓練集,其中xi為n維特征向量,yi為類別標簽,其取值+1或-1,表示不同的類別。尋找其最優分類超平面可轉化為式(8)優化問題的最優解。

圖2 SVM示意圖Fig.2 Diagram of SVM

式中:ω為超平面的法向量;||?||表示 L2范數;b為超平面的截距。

顯然求得其最優解即可得最優分類超平面和決策函數,然而式(8)為一個包含不等式約束的凸二次規劃問題,為方便求解,引入拉格朗日乘子,并將其轉化為對偶問題,如式(9)所示。

式中:αi、αj為拉格朗日乘子;〈,〉表示內積運算。

求解對偶問題的最優解 α*、b*,可得決策函數如式(10)所示。

上述分析是在假設數據線性可分的前提下展開,然而實際的樣本數據并不一定是線性可分,因此需要采用更復雜的分類方法。針對線性不可分問題,SVM首先引入懲罰系數和松弛變量[18],優化的目標函數如式(11)所示。

式中:C為懲罰系數;ξ為松弛變量。

然后將樣本數據映射到更高維的空間,并在高維空間中尋找最優分類超平面[19],決策函數改寫為:

式中:?表示原始低維空間到高維空間的映射。

由于高維空間中的點積運算是復雜的,難以顯示表達,因此定義合適的核函數來隱式表示,核函數應滿足:

常用的核函數有高斯核函數、徑向基核函數、多項式核函數等[20]。

4 基于GAN的負荷類別平衡模型

負荷數據的類別不平衡性會導致機器學習算法在訓練的過程中無法充分學習不同類別樣本之間的差距,進而造成較差的分類結果。因此針對此問題,本文提出一種基于GAN-SVM不平衡負荷數據分類模型。模型的總體框架如圖3所示。

圖3 GAN-SVM模型框架Fig.3 The framework of GAN-SVM model

對日負荷曲線進行聚類后,首先判斷是否存在不平衡問題,然后確定合成數據量,再通過GAN進行樣本生成,之后將樣本平衡后的數據集作為SVM模型的輸入,從而實現對不均衡負荷數據的分類。本文樣本不平衡問題的判斷依據為:其中一類負荷數據的樣本量小于最大類負荷數據樣本量的十分之一。

5 算例分析

本文算例采用Python3.7作為編程語言,在操作系統為Win10的PC機上進行仿真分析。其中GAN采用Goole工程師開發的Keras框架進行搭建。K-means、SVM 等其他機器學習算法使用scikit-learn機器學習庫進行搭建。

實驗數據采用愛爾蘭智能電表2009年11月~12月的實測用戶用電數據,共包含6 370個用戶,數據采集頻率為30 min,將對每個用戶用電數據進行歸一化處理后的月平均(除去周末)負荷曲線作為該用戶的典型日負荷曲線,歸一化后的所有負荷曲線如圖4所示。

圖4 歸一化后的日負荷曲線Fig.4 Curve of normalized daily load curve

5.1 負荷曲線聚類

5.1.1 聚類結果評價指標

本文選用輪廓系數(silhouette cofficient,SC)和Davies-Bouldin指數(DBI)作為聚類結果的評價指標。

SC指數綜合了聚類的類內凝聚度和類間分離度,取值范圍[-1,1],SC值越接近邊界值表示聚類效果越佳,計算方法如式(14):

式中:SC(i)表示第i個樣本的輪廓系數;ai表示樣本i到同一類內其他樣本的平均距離;bi表示樣本i到非本身所在類的其他樣本的平均距離。

DBI指數表示任意兩類別的類內樣本到類中心平均距離之和與兩類中心點之間的距離的比值,取最大值。DBI越小則類內距離越小,類間距離越大,同時聚類效果也最好,計算方法如式(15):

5.1.2 聚類結果展示

由于實際的用戶用電數據缺乏真實類別,因此在對用戶日負荷曲線進行分類時,首先采用K-means算法對負荷曲線數據集進行聚類,為數據建立標簽,以獲取訓練數據集。聚類結果的DBI與SC指數隨聚類數K的變化如圖5所示。

圖5 不同聚類數K下的DBI與SC指標Fig.5 The indexs of DBI and SC under different cluster number K

綜合考慮DBI最小、SC最接近邊界值時的K值作為最優聚類數。根據圖5,K=4與K=7時相比,雖然DBI指數較小,但是此時SC指數離邊界值較遠,因此綜合考慮DBI與SC指數,確定最優聚類數為K=7,各類負荷的均值中心如圖6所示。

圖6 聚類中心Fig.6 Clustering center

根據圖5各負荷類型的均值中心可以看出,用戶側用電方式多種多樣,不同負荷之間的差異較大。第1類、第2類、第3類、第7類負荷水平較低,不同的是類別1用電量相對穩定,日負荷曲線大致呈一條水平線,類別2和類別3的用戶用電集中在10:00~15:00,而類別7則是上午時段較高,下午和夜間相對較低;第4類負荷始終保持在較高水平,尤其是5:00~12:00用電量偏高;第5類負荷上午用電量較高,下午時段用電量驟降,第6類則相反,上午時段處于較低水平,15:00左右負荷水平驟升,屬于典型的夜間負荷。由此可見,K-means能夠很好地劃分不同類型的負荷。各類負荷的分布如表3所示。

表3 聚類結果Tab.3 Results of clustering

由表3可知,第1、3、7類負荷占比較多,第 2、4、5、6類負荷占比較少,其中最大類負荷為第1類。第1類負荷曲線數量與第5、6類的比值分別接近16:1、59:1,均判斷為少數類。

5.2 基于GAN的類別平衡模型性能評估

本文通過對比GAN與隨機過采樣、隨機欠采樣、SMOTE等傳統樣本不平衡處理方法在負荷數據集上的表現以及不同樣本不平衡比例分類精度的影響對所提方法進行有效性評估。

實驗中使用經K-menans聚類后的電力負荷數據,由上文可知,負荷共有7種類型,其中第5、6類滿足不平衡條件,采用WGAN算法分別對這兩類負荷進行數據擴充(擴充至與大類樣本量相當)。

考慮到負荷曲線的波動性,若將少數類所有樣本均作為GAN的輸入,則可能出現生成器受邊界樣本影響而導致學習不充分甚至失敗的情況,因此本文采用歐式距離法,按照距離聚類中心的遠近對所有樣本進行排序,并最終選取占樣本總數1/3且歐式距離最小的樣本,作為GAN的輸入。在模型的實際仿真中,本文采用每訓練一次生成器,訓練15次鑒別器的策略進行模型訓練。設定epochs為20 000,當判別器判斷準確率接近50%時停止訓練,此時輸入100維隨機向量到生成器,就能得到所需的負荷樣本。少數類的擴充樣本如圖7所示。

圖7 擴充結果展示Fig.7 Extended result

從圖7可以看出,GAN算法能夠準確地學習原始負荷數據的分布,生成效果較好,而且生成的樣本具有多樣性,能夠提高分類模型的泛化性。

接下來進行模型的性能評估,分別將擴充前后的數據集輸入SVM分類器(其參數采用網格搜索法確定)。同時將本文所提出的方法同其他幾種傳統的不平衡處理方法(包括隨機欠采樣、隨機過采樣、SMOTE方法)進行對比,結果如表4所示。

表4 各模型分類結果Tab.4 Classification results of each model

從表4可知,與不進行平衡處理相比,這些方法均降低了數據集的類別不平衡度,并在一定程度上提高了分類準確率。在所采用的方法中,隨機過采樣與隨機欠采樣的分類準確率均低于80%,精度較差。SMOTE算法的分類精度較高,接近90%,而經GAN算法平衡后的數據集分類精度最高,達到了94.779%。

在傳統的類別不平衡處理方法中,隨機過采樣是采用隨機復制樣本的策略來擴充少數類樣本,實際上沒有為模型引入新的樣本,導致模型的泛化性不足,產生過擬合,從而分類準確度較低。隨機欠采用是采用隨機丟棄大量多數類樣本的策略來減小不平衡的比例,同樣存在過擬合問題。SMOTE方法是隨機過采樣的一種改進方案,其基本思想是分析少數類樣本,人工合成新的樣本并將其添加到數據集中,具有較高的泛化性。

6 結論

本文提出了一種適用于不平衡負荷分類的機器學習方法,以SVM算法為基礎,配合GAN數據合成算法,為類別不平衡數據分類問題提出了一種解決方案。

通過算例分析,進行樣本合成方法的分類準確率要明顯高于簡單的通過隨機復制或丟棄樣本來降低不平衡度的方法。而在樣本合成算法中,本文所提出的基于深度學習中的 GAN進行自動生成樣本的方法要優于 SMOTE等采用人工合成新樣本的方法。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 丰满人妻中出白浆| 欧美亚洲国产一区| 女人18一级毛片免费观看| 国产三级精品三级在线观看| 国产无码精品在线播放| 十八禁美女裸体网站| 2022国产无码在线| 精品少妇人妻av无码久久| 天天干天天色综合网| 999国产精品永久免费视频精品久久| 欧美在线精品一区二区三区| 青青草国产免费国产| 免费毛片在线| 国产一二三区在线| 欧美午夜在线播放| 欧美亚洲第一页| 国产成人高清亚洲一区久久| 精品视频在线一区| 四虎国产精品永久在线网址| 干中文字幕| 亚洲综合色婷婷中文字幕| 成人精品免费视频| 欧洲在线免费视频| 日本精品视频一区二区| 永久免费无码成人网站| 欧美www在线观看| 国产精品19p| 99青青青精品视频在线| 日本午夜影院| 四虎精品国产AV二区| 男人天堂亚洲天堂| 老司国产精品视频91| 就去吻亚洲精品国产欧美| 亚洲国产综合自在线另类| 国产裸舞福利在线视频合集| 91成人在线观看视频 | 亚洲日韩高清在线亚洲专区| 波多野结衣国产精品| 噜噜噜综合亚洲| 国产成人亚洲毛片| 国产xx在线观看| 欧美性天天| 久久性妇女精品免费| 日本久久久久久免费网络| 天堂成人在线| 亚洲成人高清无码| 色AV色 综合网站| 青青青视频蜜桃一区二区| 亚洲精品国产综合99| 黄色不卡视频| 欧美a级在线| 激情综合图区| 女人天堂av免费| 国产aaaaa一级毛片| 亚洲美女一区| 精品成人一区二区三区电影| 亚洲精品国偷自产在线91正片| 国产精品乱偷免费视频| 麻豆国产精品视频| 国产精品部在线观看| 国产亚洲成AⅤ人片在线观看| 小13箩利洗澡无码视频免费网站| 亚洲bt欧美bt精品| 欧美精品影院| 久久久久人妻一区精品| 欧美中文字幕在线视频| 中文字幕伦视频| 一级毛片在线播放免费观看| 成人免费午夜视频| 国产福利2021最新在线观看| 色亚洲成人| 国产亚洲现在一区二区中文| 国产精品亚洲一区二区三区z | 无码中字出轨中文人妻中文中| 欧美日韩中文字幕二区三区| 91精品国产一区| 精品在线免费播放| 日韩精品一区二区深田咏美| 色妞www精品视频一级下载| 国产精品第一区| 午夜国产不卡在线观看视频| 亚洲人妖在线|