999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop分布式計算的混合神經網絡負荷分類模型

2023-03-15 12:40:04劉洋王劍唐明張宇棟
科學技術與工程 2023年4期
關鍵詞:分類模型

劉洋,王劍,唐明,張宇棟

(1.中國民用航空飛行學院 航空電子電氣學院,廣漢 618307;2.清華四川能源互聯網研究院,成都 610200;3.國家電網公司西南分部,成都 610095)

電力物聯網是推動發電、售電、用電等多環節全時空全面互聯,打造出的一個智慧電網共享平臺[1]。該平臺充分利用“大云物移智鏈邊”等新技術,將所有與電相關的設備連接起來,既包含了電力能源的互聯互通,又包含了通信數據的互聯互通[2]。

電力物聯網將會連接海量的電力實體,在感知層利用各種傳感器采集與電力相關的信息與狀態,可以預見數據的體量以及維度將呈爆炸增長趨勢;應用層作為電力物聯網的核心目標,需要從海量的數據中,及時、準確地提取出有效信息,為電力用戶、售電公司、發電企業等提供控制與決策支持[3]。面對海量數據的快速存儲與高效分析,需要先進的通信技術、大數據技術以及人工智能方法等作為支撐。隨著電力物聯網建設不斷深入,應用層對用戶的管理日趨精細化,從海量用電數據中挖掘電力用戶的用電模式,針對普通用戶提供智慧用電解決方案,有助于售電公司建立基于電力物聯網的全新營銷服務模式,并提升用戶側在電力市場行為交易的參與深度以及互動程度[4-5]。

用電模式提取作為負荷數據挖掘領域的一個傳統研究方向,長久以來專家學者對此已開展了大量研究,并取得豐碩成果。傳統方法分為無監督聚類與有監督分類,前者多采用K-means、模糊C均值(fuzzy c-means, FCM)等各種聚類方法為基礎,后者較常用人工智能神經網絡作為負荷分類方法[6-9]。聚類算法不適用于異常值較多的數據類型劃分,且往往需要根據經驗指定類別數目,缺乏有效依據;BP(back propagation)神經網絡雖然具有較好的效果,但是這些分類方法僅從數學層面訓練了負荷曲線與類別標簽之間的映射關系,而忽略了負荷數據的時序相關性。此外,神經網絡在面對海量數據的時候,分類效率將受到嚴重影響。

為此,采用分布式存儲、并行計算方式處理電力物聯網背景下的海量數據,提出一種基于Hadoop分布式計算平臺的混合神經網絡分類模型。考慮到負荷數據的時序特性,使用一維卷積神經網絡(one-dimensional convolutional neural network,1DCNN)搭建“負荷特征提取器”,使用長短期記憶網絡(long-short-term memory network,LSTM)搭建“序列分類器”,二者共同構成“混合神經網絡負荷分類模型”,解決負荷分類效率低、精度低等問題,以應對爆炸式增長的電力負荷數據帶來的挑戰。

1 時序負荷數據分類

電力負荷數據屬于時間序列數據,智能測量儀表以特定的時間間隔采集電力數據,如1 d采集24個數據或者96個數據,甚至更多。因此,負荷曲線的表示形式可以用式(1)表示,數據具有明顯的時序特性。

(1)

式(1)中:xk為第k條負荷數據;上標m為一條曲線共采集m個負荷數據點;上標i為1 d中采集的第i個電力數據。

對于每一條負荷曲線,包含一個類別標簽。

yi={c}

(2)

式(2)中:yi為第i條負荷曲線所屬的類別;c是一個實數,表示負荷類別,取值范圍是[1,n],其中n為負荷類別數。

時間序列分類是時序數據挖掘研究的熱點問題。不同于傳統分類研究,由于時間序列數據具有非離散性以及時序相關性等特點,時序分類研究需要考慮序列元素的前后依賴關系[10]。常規的時序數據分類方法通常需要進行復雜煩瑣的特征工程處理,對提取的序列特征再進行分類。

近年來,深度學習技術發展迅猛,不少學者將卷積神經網絡(convolutional neural network,CNN)與循環神經網絡(recurrent neural network,RNN)進行結合,用于處理序列數據,并取得了良好的效果[11-12]。在機器學習領域,研究人員提出一種CNN-RNN網絡模型,使用CNN提取圖片特征,再利用RNN生成圖片文字序列[13]。基于此,提出一種“1DCNN-LSTM混合神經網絡分類模型”用于時序負荷數據分類。

2 一維卷積-循環神經網絡混合分類模型

2.1 一維卷積神經網絡

卷積神經網絡是一種用于處理具有類似網狀結構數據專用的神經網絡,如時間軸上進行采樣形成的一維時序網格和二維圖像像素網格[14-15]。卷積神經網絡的一個重要應用領域為圖片分類,該模型利用疊加卷積層(Conv)與池化層(Pool)提取圖像特征,全連接層(FC)根據所提取的特征對圖像進行分類,如圖1所示。

Reshape為整形

一維與二維卷積網絡類似,其主要區別在于一維卷積網絡對應輸入一維序列數據,使用一維卷積核,只在一個維度上進行卷積操作,如圖2所示。使用1DCNN構建負荷“特征提取器”,用于提取負荷數據的分類特征,后續用于循環神經網絡“分類器”,對時序負荷曲線進行分類。

圖2 一維卷積操作

2.2 循環神經網絡

普通的循環神經網絡在用于處理序列數據時,無法解決長期依賴問題,并且由于梯度彌散問題使得模型難以訓練[16]。而為此所提出的LSTM網絡,解決了此問題并且使網絡容易訓練[15]。

LSTM網絡在普通RNN的基礎上,引入了“門”機制,來選擇“記住”或者“遺忘”某個時刻的狀態信息。LSTM神經網絡的細胞單元由“遺忘門”“輸入門”和“輸出門”組成[2]。

(1)遺忘門。遺忘門對前一個時刻傳遞進來的細胞狀態進行選擇性遺忘。如圖3所示,根據t-1時刻的隱藏狀態ht-1以及t時刻的輸入向量xt計算遺忘門ft(使用σ函數獲得0~1的取值,1表示“完全記憶”,0表示“徹底遺忘”),由ft控制更新t-1時刻的細胞狀態Ct-1。

ft=σ[Wf(ht-1,xt)+bf]

(3)

it=σ[Wi(ht-1,xt)+bi]

(4)

(5)

遺忘門處理后的細胞狀態與輸入門選擇后的細胞狀態進行合并,作為t時刻的最終細胞狀態Ct,并傳遞給下一時刻。

(6)

(3)輸出門。LSTM細胞單元t時刻的輸出ht由細胞狀態Ct與輸出門ot共同決定。

ot=σ[Wo(ht-1,xt)+bo]

(7)

ht=ottanhCt

(8)

式中:Wi、Wo、Wf、WC為不同門控機制對輸入向量xt的權重;bi、bo、bf、bC為偏置向量。

2.3 1DCNN-LSTM混合神經網絡模型

所提的1DCNN-LSTM混合神經網絡如圖3所示,模型的核心為卷積層和LSTM層,卷積層與后接的全連接層組成一個“1DCNN特征提取器”,用于從原始負荷曲線中提取負荷特征;LSTM層與后接的全連接層構成一個“LSTM序列分類器”,根據提取的負荷特征進行分類,得到負荷曲線的分類結果。

圖3 1DCNN-LSTM混合神經網絡模型

2.3.1 1DCNN特征提取器

所用一維卷積神經結構如圖4所示,輸入的序列數據經過兩次卷積(Conv)、最大池化(MaxPool)操作,整形(Reshape)為一維特征向量,最后使用一個全連接層(FC)進行降維處理。每個卷積步驟中,還包含了一個批量標準化(batch-normalization, BN)操作與ReLU激活函數[17-18]。

圖4 1DCNN特征提取器

(1)batch-Normalization。batch-Normalization算法對中間計算數據進行標準化處理,加速網絡收斂速度,降低網絡對權值初始化的敏感度,算法描述如下。

輸入:小批次輸入X={x1,x2,…,xbatch-size}待學習的參數:γ、β輸出:{yi=BNγ,β(xi)}μX←1batch-size∑batch-sizei=1xiσ2X=1batch-size∑batch-sizei=1(xi-μX)2^xi=xi-μXσ2X+εyi=γ^xi+β≡BNγ,β(xi)

(2)ReLU。為避免出現梯度消失或是梯度爆炸,采用ReLU激活函數對Batch-Normalization后的數據進行處理,ReLU激活函數可表示為

(9)

2.3.2 LSTM序列分類器

LSTM序列分類器結構示意圖如圖5所示,使用單層的LSTM網絡結構,輸入1DCNN提取的序列特征,在最后一個隱藏單元輸出分類結果。

圖5 LSTM序列分類器

3 分布式并行計算

隨著電力數據體量的急劇增長,為了處理呈爆炸增長的負荷數據,特選用分布式大數據平臺Hadoop作為計算框架。將混合神經網絡分類算法在Hadoop平臺并行化,使得所提分類算法具備更加高效的大體量數據計算能力。

3.1 Hadoop分布式計算框架

3.1.1 Hadoop分布式文件系統(HDFS)

HDFS(Hadoop distributed file system)是Google文件系統(google file system,GFS)的實現,是基礎分布式計算數據存儲管理系統。該系統采用流式文件訪問方式,具有高容錯性、高可靠性、高吞吐量等特點,該系統結構如圖6所示。

圖6 HDFS結構

HDFS是一種主從存儲結構,其NameNode管理整個系統的命名空間、管理數據塊映射信息并處理Client讀寫請求;DataNode則負責存儲數據塊,并執行讀/寫操作。

3.1.2 MapReduce工作流程

MapReduce計算過程分為Map階段和Reduce階段,計算模型如圖7所示。該計算框架對輸入數據進行劃分(split),不同的數據分塊交由對應的“Map作業”進行計算處理,“Reduce作業”對“Map作業”的結果進行匯總、排序處理,得到最終計算結果(Final result)。

圖7 MapReduce計算模型

3.2 基于Hadoop的分布式集成分類模型

將所述的混合分類模型在Hadoop平臺并行化。采用隨機抽樣方式,將負荷數據分塊存儲到分布式文件系統;基于MapReduce計算模式,“Map作業”在各節點并行訓練子分類模型,“Reduce作業”則根據各子分類器的分類結果,使用“多數投票方式”得到最終的負荷曲線分類結果。該分布式集成分類模型結構如圖8所示。

圖8 分布式集成分類模型

4 算例分析

首先在單機實驗環境對“混合神經網絡”分類方法的正確性進行驗證,并對比傳統方法分類效果,驗證該方法的優越性。其次,在分布式實驗環境對基于Hadoop平臺的分布式集成分類模型的有效性以及高效性進行測試。

測試環境分為單機環境以及分布式環境,單機環境為單臺普通PC;分布式環境為3臺虛擬機配置的Hadoop平臺,所用Hadoop版本為2.9.1。實驗硬件配置如表1所示。

表1 實驗硬件配置

4.1 混合神經網絡分類模型測試

在單機模式下使用標準數據集以及少量真實負荷數據對本文所提分類模型的效果進行測試。

4.1.1 UCR時間序列分類實驗

(1)UCR時間序列數據。使用帶類別標簽的UCR時間序列數據來驗證所提混合神經網絡分類模型的有效性以及高效性。UCR時間序列數據包含了多個領域的時間序列基準數據集,是時序數據分類領域的標準數據集之一,采用其中與電力負荷有關的兩個數據集(ItalyPowerDemand、PowerCons)進行實驗。這兩個數據集的數據格式如表2所示。兩個數據集的平均數據曲線如圖9所示。

圖9 UCR平均數據曲線

表2 UCR數據集

(2)實驗結果。使用ItalyPowerDemand(簡稱IPD)與PowerCons(簡稱PC)兩個標準時序數據集測試本文所提的混合分類模型,對比普通一維時序CNN和LSTM分類模型的分類精度與模型訓練效率,實驗結果如表3所示。

表3 UCR數據實驗結果

對比CNN和LSTM分類模型,在UCR標準時序數據集上,混合神經網絡模型在準確率以及模型訓練迭代次數兩方面都有較明顯的優勢。

4.1.2 愛爾蘭負荷數據實驗

(1)數據預處理。愛爾蘭用戶用電數據是由愛爾蘭可持續能源管理局(Sustainable Energy Authority of Ireland, SEAI)所發布的實測用電數據。對愛爾蘭負荷曲線進行標準化處理,并采取均勻采樣的方式從負荷曲線中抽取24個負荷數據。由于愛爾蘭開源負荷數據缺乏原類別標簽,采用典型聚類方法對愛爾蘭負荷數據進行劃分,選取5類負荷曲線分別記為“類別1”“類別2”“類別3”“類別4”“類別5”,以此構成算例所用帶標簽的愛爾蘭負荷數據,并按7∶3的比例劃分訓練集與測試集,各類別負荷曲線趨勢如圖10(a)所示。

使用提取的部分愛爾蘭負荷數據進行實驗,測試本文所提混合神經網絡模型的有效性,并與普通CNN與LSTM進行對比。

(2)1DCNN負荷特征提取器。將經過預處理的愛爾蘭負荷數據輸入混合神經網絡訓練分類模型。負荷數據首先經過一個一維時序卷積神經網絡處理,提取時序負荷數據的分類特征,5個類別的負荷曲線及其所對應的分類特征如圖10(b)所示。

圖10 負荷曲線及其分類特征

負荷曲線數據經過1DCNN處理之后,得到的特征曲線在時間維度上具有了更為明顯的分類特征,有利于LSTM分類器進行分類。

(3)1DCNN-LSTM分類效果。使用1DCNN、LSTM以及所提的混合神經網絡分類模型分別對提取的愛爾蘭負荷數據進行分類實驗。對比3種模型在模型訓練迭代過程中的誤差與準確率變化趨勢,并使用混淆矩陣作為混合神經網絡模型在測試集上的評價標準。

訓練誤差變化:3種分類方法訓練階段誤差與迭代次數變化關系如圖11所示。3種分類模型的訓練誤差都能在有限的步驟內收斂,其中1DCNN和混合模型網絡模型的誤差波動范圍相較LSTM更小,混合模型具有最快的誤差收斂速度。

圖11 訓練誤差對比

訓練準確率變化:3種分類方法訓練過程的分類準確率與迭代次數變化關系如圖12所示。3種方法經過訓練都能得到非常好的分類精度,然而1DCNN與LSTM的準確率具有較大的波動性,收斂迭代次數也明顯高于混合模型。

圖12 訓練準確率對比

測試集混淆矩陣:混淆矩陣是表示和評估分類算法準確度的一種常用形式,其對角線元素表示預測類別等于真實類別的樣本數目,非對角線元素是分類算法錯誤標記的樣本數目;對角線元素數值越大、非對角線元素數值越小則表明分類模型的分類效果越好。所提的混合神經網絡分類模型應用于愛爾蘭負荷數據測試集的混淆矩陣如圖13所示??梢钥闯?,分類結果中,類別1和類別3各錯分一條負荷曲線,分類準確率為99%。

圖13 混淆矩陣

4.2 集成分布式分類模型測試

在Hadoop平臺使用海量負荷測試集成分布式分類方法的有效性。從類別1、類別2、類別3、類別4、類別5共5類負荷中選取10 000條曲線用于算法測試,其余曲線用于算法訓練。在單機計算與分布式計算模式下分別進行負荷分類,測試集在單機模式下的分類準確率為94.23%,在分布式計算模式下分類準確率為95.78%。并行化方法不僅能夠提高負荷數據的分類精度,并在計算效率上有著極大的提升。

4.2.1 并行訓練結果

該集成分布式分類模型在計算過程分配了4個“Map作業”,訓練出了4個子分類器,各分類器的分類準確率為95.28%、95.76%、95.84%、94.80%。

由于采取隨機抽樣將愛爾蘭負荷存儲到HDFS上,數據塊之間的差異性不大,因此每一個“Map作業”所訓練的子分類模型的誤差精度差別較小,且都保持較高的分類精度。實驗表明該混合神經網絡分類方法在Hadoop平臺并行化之后,對于海量負荷數據具有較好的分類效果。

4.2.2 計算效率對比

為了對分布式并行化計算的效率進行測試,使用等量的海量負荷數據、相同的分類模型,分別在“單機串行計算模式”與“Hadoop分布式并行計算模式”下分別進行實驗,統計不同模式下計算所用時間,實驗結果如圖14所示。

在數據體量較小時,由于Hadoop平臺存在通信延遲以及固有系統開銷,兩者的計算時間花銷均很低且差異不大,串行計算效率甚至會高于并行計算效率;但隨著數據量的擴增,并行計算效率優勢逐漸顯現,當數據達到一定體量時,串行計算無法繼續進行;此外,通過合理設置Hadoop集群節點數量,計算效率優勢將會更加明顯。

5 結論

提出一種基于Hadoop分布式計算平臺的混合神經網絡分類模型,基于1DCNN搭建“負荷特征提取器”,使用LSTM搭建“序列分類器”,提出了一種時序負荷數據分類方法;在Hadoop平臺上將該分類模型并行化,為電力物聯網背景下的海量負荷的快速存儲與高效分析提供一種解決思路。

通過算例分析,本文所提分類方法對于時序負荷分類有著良好的效果,能夠高效處理海量負荷數據,并且并行化分類結果有著較高的可信度。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 中文字幕av一区二区三区欲色| 色国产视频| 久久国产乱子伦视频无卡顿| 国产全黄a一级毛片| 秋霞国产在线| 四虎影视库国产精品一区| 性视频一区| 九色综合视频网| 色吊丝av中文字幕| 国产一区二区三区日韩精品| 精品国产福利在线| 激情综合网激情综合| 2024av在线无码中文最新| 久久成人免费| 午夜精品久久久久久久无码软件| 青青国产视频| 国产激情在线视频| 无码在线激情片| 亚洲人成人无码www| 国产精品视频白浆免费视频| 99视频在线观看免费| 亚洲婷婷在线视频| 国产精品香蕉| 精品福利国产| 亚洲AⅤ综合在线欧美一区| 亚洲av片在线免费观看| 亚洲综合色区在线播放2019 | 欧洲日本亚洲中文字幕| 国产欧美自拍视频| 亚洲中文在线看视频一区| 激情六月丁香婷婷四房播| 91系列在线观看| 久久免费成人| 亚洲综合中文字幕国产精品欧美| 亚洲成肉网| 国产精品露脸视频| 理论片一区| 欧美日本二区| 国产网友愉拍精品视频| 国产精品综合久久久| 人妻出轨无码中文一区二区| 国产精品美女网站| 99ri国产在线| 国内精品小视频在线| 日韩欧美高清视频| 日韩成人在线网站| 国产亚洲欧美在线人成aaaa| 日a本亚洲中文在线观看| 99人妻碰碰碰久久久久禁片| 日韩毛片在线播放| 精品伊人久久久久7777人| 美女无遮挡免费视频网站| 国产午夜福利在线小视频| 丰满少妇αⅴ无码区| 色有码无码视频| 国产青青草视频| 久久国产精品娇妻素人| 人妻少妇乱子伦精品无码专区毛片| 国产一区二区网站| 国产流白浆视频| 日本人妻丰满熟妇区| av在线手机播放| 亚洲大尺度在线| 美女扒开下面流白浆在线试听| 99久久精品免费看国产电影| 欧美一区二区福利视频| 亚洲中文精品久久久久久不卡| 国产精品亚洲va在线观看| 666精品国产精品亚洲| 婷婷激情亚洲| 福利一区在线| 亚洲高清在线天堂精品| 啦啦啦网站在线观看a毛片| 美女国产在线| 一区二区三区高清视频国产女人| 国产欧美网站| 国产无人区一区二区三区| 成人免费网站久久久| 欧美成人A视频| 国产一线在线| 五月婷婷综合网| 国产精品性|