999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于殘差連接長短期記憶網(wǎng)絡(luò)的時間序列修復模型

2021-01-21 03:23:36鄭楷洪陳子鵬葉純壯馬千里
計算機應(yīng)用 2021年1期
關(guān)鍵詞:記憶方法模型

錢 斌 ,鄭楷洪,陳子鵬,肖 勇,李 森,葉純壯,馬千里*

(1.南方電網(wǎng)科學研究院有限責任公司,廣州 510663;2.華南理工大學計算機科學與工程學院,廣州 510006)

0 引言

時間序列在諸多領(lǐng)域都有著豐富的應(yīng)用[1-3]。然而由于存在噪聲或傳感器故障等原因,現(xiàn)實時間序列不可避免地含有缺失值,這使得現(xiàn)有分析算法的推斷變得尤為困難[4-5]。因此,如何有效地對缺失數(shù)據(jù)進行修復具有重要的現(xiàn)實意義。

傳統(tǒng)的時間序列缺失修復方法有均值替代、移動平均法、空間自回歸、多項式插補、線性插值等[6-8],但是,傳統(tǒng)的統(tǒng)計方法無法有效提煉缺失數(shù)據(jù)背后蘊藏的事件信息,這會對缺失修復效果造成一定影響。針對傳統(tǒng)缺失修復方法的不足,文獻[9]提出了基于T2橢圓圖的異常數(shù)據(jù)識別和基于最小二乘支持向量機的缺失修復方法,但該方法以社會經(jīng)濟指標可信為前提條件,無法從時間序列自身挖掘規(guī)律。文獻[10]提出了一種基于遺傳優(yōu)化算法的時間序列缺失修復方法,該方法考慮時間序列的歷史信息,借助遺傳算法優(yōu)化多重插補的參數(shù),尋找最優(yōu)的修復值;但該方法將時間序列視為線性序列,未考慮時間序列中的非線性,修復效果不佳。

由于神經(jīng)網(wǎng)絡(luò)可以較好地建模數(shù)據(jù)中的非線性特性,可以將其應(yīng)用于時間序列的缺失修復。文獻[11]提出了自適應(yīng)BP 神經(jīng)網(wǎng)絡(luò)來修復缺失的時間序列,但該方法未對時間序列中的時序依賴關(guān)系進行有效的建模。因此,文獻[12-13]提出了基于長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)[14]的缺失修復方法,可以有效建模時間序列的時序依賴信息;但這些方法需要對數(shù)據(jù)進行預處理,無法在含缺失值的情況下進行模型訓練,而且,不恰當?shù)念A處理方法會引入較大偏差,從而誤導模型的訓練過程,影響后續(xù)的缺失修復效果。

針對以上問題,本文提出了基于殘差連接LSTM 網(wǎng)絡(luò)的時間序列修復模型,使用長短期記憶網(wǎng)絡(luò)對時間序列中的時序依賴關(guān)系以及非線性特性進行建模;并且,在長短期記憶網(wǎng)絡(luò)的基礎(chǔ)上,引入殘差連接[15-16],挖掘缺失數(shù)據(jù)和它們最近的非缺失數(shù)據(jù)的潛在關(guān)聯(lián)性,引入殘差連接的具體做法是構(gòu)建一種殘差和單元(Residual Sum Unit,RSU),可以有效聚合歷史信息。本文同時考慮了單變量輸入和多變量輸入的情況,并且,本文的方法無需對缺失數(shù)據(jù)進行預填補,可以直接在含缺失值的情況下進行模型訓練。實驗證明,與現(xiàn)有最先進的方法相比,基于殘差連接LSTM 網(wǎng)絡(luò)的時間序列修復模型可以取得較好的缺失修復效果。本文的主要貢獻如下:

1)本文提出了基于殘差連接LSTM 網(wǎng)絡(luò)的時間序列修復模型,使用長短期記憶網(wǎng)絡(luò)對時間序列中的時序依賴和非線性特性進行建模,同時構(gòu)建殘差和單元聚合歷史信息,進一步提升缺失修復效果。

2)通過在單變量和多變量數(shù)據(jù)集上定量和定性的實驗分析,本文提出的模型均取得比現(xiàn)有較先進方法更好的缺失值修復效果。此外,本文模型無需進行數(shù)據(jù)預填補,可以直接在含缺失值的情況下進行訓練。

1 長短期記憶網(wǎng)絡(luò)

長短期記憶網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體,能建模時序數(shù)據(jù)的時間依賴和非線性特性,是當下對時序數(shù)據(jù)建模的首選模型。長短期記憶網(wǎng)絡(luò)由記憶單元組成,通過輸入、輸出和遺忘門來決定流入流出記憶單元的信息多少。長短期記憶網(wǎng)絡(luò)記憶單元的結(jié)構(gòu)如圖1所示。

圖1 中:xt是時間步t的輸入數(shù)據(jù),ht是時間步t長短期記憶網(wǎng)絡(luò)的隱藏狀態(tài),it、ft、ot分別是長短期記憶網(wǎng)絡(luò)的輸入門、遺忘門和輸出門,gt是當前加入的信息,ct是記憶單元的信息,σ表示sigmoid 激活函數(shù),?是逐元素的乘法,⊕是逐元素的加法。

圖1 長短期記憶網(wǎng)絡(luò)記憶單元結(jié)構(gòu)Fig.1 Structure of memory unit of LSTM network

給定長度為T的輸入序列x={x1,x2,…,xT},長短期記憶網(wǎng)絡(luò)可以將其編碼為一個隱藏狀態(tài)序列h={h1,h2,…,hT},其中,xt∈Rn,ht∈Rm,t=1,2,…,T。在時間步t,長短期記憶網(wǎng)絡(luò)的計算公式如下:

其中:Wi、Wf、Wo、Wc是由可訓練參數(shù)組成的映射矩陣;bi、bf、bo、bc是偏置項。簡便起見,可以將一個長短期記憶網(wǎng)絡(luò)記為函數(shù)FLSTM,在長短期記憶網(wǎng)絡(luò)的前向傳播過程中,隱藏狀態(tài)的更新公式為:

2 殘差連接LSTM網(wǎng)絡(luò)

2.1 模型構(gòu)建

本文中使用長短期記憶網(wǎng)絡(luò)來建模時間序列中的時序依賴和非線性特性,結(jié)合殘差連接進一步挖掘缺失數(shù)據(jù)與最近非缺失數(shù)據(jù)的潛在關(guān)聯(lián),提高網(wǎng)絡(luò)修復能力。基于殘差連接LSTM(ReSidual Imputation Long-Short Term Memory,RSILSTM)網(wǎng)絡(luò)的時間序列修復模型如圖2所示。

圖2 RSI-LSTM模型結(jié)構(gòu)Fig.2 Structure of RSI-LSTM model

首先,模型輸入是含缺失值的時間序列x={x1,x2,…,xT},其中,xt∈Rn(t=1,2,…,T)。接著,使用長短期記憶網(wǎng)絡(luò),將輸入序列編碼為一個隱藏狀態(tài)序列h={h1,h2,…,hT},其中,ht∈Rm(t=1,2,…,T)。特別的,在時間步t,長短期記憶網(wǎng)絡(luò)可以將輸入xt,編碼為一個隱藏狀態(tài)ht。

在長短期記憶網(wǎng)絡(luò)的基礎(chǔ)上,引入殘差連接的具體做法是構(gòu)建一種殘差和單元,用來聚合長短期記憶網(wǎng)絡(luò)的隱藏狀態(tài)和之前時刻的殘差信息,有利于挖掘缺失數(shù)據(jù)和它們最近的非缺失數(shù)據(jù)的潛在關(guān)聯(lián)性,提高網(wǎng)絡(luò)修復能力。在時間步t,殘差和rt的計算公式為:

其中:rt∈Rm,ht是時間步t長短期記憶網(wǎng)絡(luò)的隱藏狀態(tài),Wr∈Rm×m是由可訓練參數(shù)組成的映射矩陣,Wrrt-1代表了之前時刻的殘差信息。

2.2 模型訓練

模型訓練的前向傳播分為兩種情況:近似過程和修復過程。如圖2 所示,虛線表示近似過程,實線表示修復過程。如果下一個時刻輸入值xt已知,則使用殘差和rt-1乘以一個映射矩陣Wout得到y(tǒng)t-1,用來近似下一時刻的輸入值xt,目的是利用序列中未缺失的值來指導網(wǎng)絡(luò)進行有效學習;如果下一個輸入值xt是缺失值,則用yt-1修復xt。計算公式為:

其中,Wout∈Rn×m是由可訓練參數(shù)組成的映射矩陣,可以把殘差和rt-1映射到維度n,用于近似或修復當前時刻的輸入值xt。根據(jù)當前的輸入是否為缺失值,可以用一個統(tǒng)一的形式ut來表示當前的輸入值:

其中:?是逐元素的乘法,⊕是逐元素的加法,I{xt}是逐元素的指示函數(shù),指示向量xt每個維度是否缺失。因此,如果xt已知,則作為網(wǎng)絡(luò)的輸入值;如果xt是缺失值,則使用yt-1修復xt,作為當前時刻網(wǎng)絡(luò)的輸入值。在長短期記憶網(wǎng)絡(luò)的前向傳播過程中,可以將隱藏狀態(tài)的更新公式重寫為:

并且,在網(wǎng)絡(luò)訓練的反向傳播過程中,如果當前時刻的目標值缺失,則該時刻的損失不可定義。因此,時刻t損失函數(shù)的計算方式如下:

其中,I{xt}是逐元素的指示函數(shù),指示向量xt每個維度是否缺失。如果定義上標k表示樣本集合的第k個樣本k=1,2,…,N,總的訓練損失函數(shù)為:

其中:Lreg(||ω||)是對模型所有參數(shù)ω的二范數(shù)正則項;λ是常量,用來調(diào)節(jié)兩個損失函數(shù)的權(quán)重,在實驗中設(shè)為1E -4。

2.3 算法流程

1)對原始含缺失值的時間序列進行歸一化處理,將數(shù)據(jù)映射到[0,1]區(qū)間之內(nèi),得到含缺失值的時間序列x={x1,x2,…,xT},并按照7∶3的比例將樣本集劃分為訓練集和測試集。

2)將時間序列x逐時刻輸入LSTM,在時間步t-1,LSTM將輸入xt-1編碼為隱藏狀態(tài)ht-1。

3)在時間步t-1,根據(jù)LSTM 的隱藏狀態(tài)ht-1和前一時刻的殘差和rt-2,計算殘差和rt-1。

4)如果下一個時刻輸入值xt已知,則使用殘差和rt-1乘以一個映射矩陣Wout得到y(tǒng)t-1,用來近似下一時刻的輸入值xt;如果下一個輸入值xt是缺失值,則用yt-1修復xt。

5)使用隨時間反向傳播(BackPropagation Through Time,BPTT)算法[17]更新網(wǎng)絡(luò)參數(shù);并且,如果當前時刻的目標值缺失,則該時刻的損失不可定義,不計算該時刻的損失。

6)網(wǎng)絡(luò)迭代直到收斂,最后,如果輸入值xt是缺失值,則可以使用上一時刻的預測值yt-1作為xt的修復值,將整條時間序列的缺失值修復完畢,即可得到完整的時間序列。

3 實證分析

3.1 數(shù)據(jù)來源

本文采用2016年1月1日到2018年6月30日南方某省的區(qū)域日供電量數(shù)據(jù),供電量數(shù)據(jù)計量單位為天,因此每個區(qū)域有912 個時間點。隨機抽取10 個區(qū)域的序列數(shù)據(jù)作為樣本集,作為模型在單變量情況下的輸入。

考慮到氣象因素對電力數(shù)據(jù)的影響,本文還采用了2012年1 月1 日到2014 年12 月31 日兩個地區(qū)的電力負荷數(shù)據(jù)。數(shù)據(jù)集來源于第九屆電工數(shù)學建模競賽A 題,除了地區(qū)電力負荷數(shù)據(jù),該數(shù)據(jù)集還提供每日的最高溫度、最低溫度、平均溫度、相對濕度和降雨量5 個氣象因素數(shù)據(jù)。本文分別抽取每日的6:00、12:00 和18:00 作為原始數(shù)據(jù),因此總的樣本集有6個,分別記為Electric1~Electric6,每個樣本集中包含1 096個時間點,每個時間點的數(shù)據(jù)為一個6 維的向量,包含電力負荷數(shù)據(jù)以及5 個氣象因素數(shù)據(jù),作為模型在多變量情況下的輸入。

同時,本文還使用了兩個通用的時間序列數(shù)據(jù)集Libras和Character Trajectories,數(shù)據(jù)來源于UCI 庫[18],以進一步地進行多變量情況下的模型效果驗證。

對于每一個數(shù)據(jù)集的時間序列,本文取前70%的序列作為訓練集,后30%作為測試集。接著,為了處理輸入不同量綱的問題,需要對原始的序列s={s1,s2,…,sT}進行歸一化:

其中:xt∈Rn,st∈Rn(t=1,2,…,T),smax和smin分別表示時間序列的最大值和最小值。并且,對于現(xiàn)實缺失數(shù)據(jù),無法獲得對應(yīng)的真實值來進行算法的性能評估。因此,在完整的時間序列的基礎(chǔ)上,以一定的缺失率構(gòu)造含有缺失值的數(shù)據(jù)。將缺失率設(shè)置為10%,讓完整的序列數(shù)據(jù)按10%的概率隨機缺失,構(gòu)造出含有缺失值的時間序列,作為模型的輸入;同時,缺失值對應(yīng)的真實值將被用于評估修復算法的性能。

3.2 算例設(shè)置

本文同時考慮了單變量輸入和多變量輸入兩種情況。在單變量的情況中,使用南方某省的區(qū)域日供電量序列作為模型輸入。在多變量的情況中,使用了兩個地區(qū)的電力負荷數(shù)據(jù),結(jié)合氣象數(shù)據(jù)作為模型的多變量輸入;同時,本文還使用了兩個通用的時間序列數(shù)據(jù)集(http://archive.ics.uci.edu/ml)來輔助進行多變量情況下的模型效果驗證。本文采用均方誤差(Mean Squared Error,MSE)作為評價指標:

其中:n代表序列中缺失值的數(shù)量分別代表第i個缺失值對應(yīng)的真實值和修復值。

對于區(qū)域日供電量數(shù)據(jù)集,模型的輸入是單變量的,因而將所提出模型(RSI-LSTM)與常用的單變量缺失修復方法進行對比,對比方法包括卡爾曼(Kalman)濾波[19]、線性插值(Interpolation)[20]、移動平均(Moving Average,MA)[21]和基線模型長短期記憶(LSTM)網(wǎng)絡(luò)。同時,也將所提出模型與兩種先進的缺失修復方法進行對比,分別是生成對抗填補網(wǎng)絡(luò)(Generative Adversarial Imputation Net,GAIN)[22]和雙向循環(huán)填補(Bidirectional Recurrent Imputation for Time Series,BRITS)[23]。表1是上述方法的數(shù)據(jù)缺失修復結(jié)果。

從表1 中可以看出,RSI-LSTM 的修復性能優(yōu)于GAIN、BRITS[23]、Kalman濾波[19]、Interpolation[20]和MA[21],表現(xiàn)為均方誤差的總體降低,這說明了RSI-LSTM可以更好地建模時間序列的信息,修復缺失的時間序列。同時,RSI-LSTM 相比基線模型LSTM,修復誤差有一定的降低,進一步證明了引入殘差連接的有效性,因為引入殘差連接有利于挖掘缺失數(shù)據(jù)和它們最近的非缺失數(shù)據(jù)的潛在關(guān)聯(lián)性,提高網(wǎng)絡(luò)的缺失修復能力。

表1 單變量數(shù)據(jù)集上修復誤差(MSE)對比Tab.1 Comparison of imputation error(MSE)on univariate time series datasets

對于地區(qū)電力負荷數(shù)據(jù)集以及兩個時間序列數(shù)據(jù)集,輸入是多變量的。因此,本文將RSI-LSTM 與4 種近年來最先進的修復方法GAIN[22]、BRITS[23]、基于傅里葉的延遲k最近鄰算法(Fourier-based Laggedk-Nearest Neighbor,F(xiàn)Lk-NN)[24]以及動態(tài)缺失值的挖掘(Dynamics mining with missing values,DynaMMo)算法[25]進行了對比實驗,這些方法描述如下。

1)GAIN。使用生成對抗網(wǎng)絡(luò)來進行缺失修復,并提出一種提示向量來輔助模型訓練,但訓練數(shù)據(jù)較少時訓練困難。

2)BRITS。該方法使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來進行時間序列的缺失值修復,但在連續(xù)缺失的情況下效果較差。

3)FLk-NN。結(jié)合滯后的k最近鄰方法和傅立葉變換的集成方法,該方法較為復雜,需要大量的人工選擇的超參數(shù)。

4)DynaMMo。該方法基于期望最大化方法和卡爾曼濾波。它在存在缺失值的情況下學習線性動力學系統(tǒng),并對缺失值進行估計。該方法假設(shè)時間序列具有潛在的線性動力學特性,然而時間序列更多地表現(xiàn)為非線性。

表2 是上述模型的修復結(jié)果。可以看出,RSI-LSTM 的修復性能明顯優(yōu)于GAIN、BRITS、FLk-NN 以及DynaMMo,修復效果相比這幾種方法有較大的提升。通過與這4 種近年來最先進的方法作對比,RSI-LSTM 可以取得當前最好的結(jié)果;同時,相比基線模型LSTM,RSI-LSTM 的修復效果也有一定的提升,驗證了所提出模型的有效性。

表2 多變量數(shù)據(jù)上修復誤差(MSE)對比Tab.2 Comparison of imputation error(MSE)on multivariate time series datasets

更進一步地,本文隨機抽取其中1 個區(qū)域的電力負荷數(shù)據(jù)序列,使用上述各種多變量缺失修復方法對其進行修復,并計算數(shù)據(jù)序列中缺失時間點的修復值和真實值的絕對誤差,絕對誤差在0 附近波動,偏離0 越遠,說明誤差越大。結(jié)果如圖3所示。由圖3可以看出,對于電力負荷數(shù)據(jù)序列絕大多數(shù)的缺失時間點,RSI-LSTM 相比其他方法,可以取得更好的修復效果。具體地,本文模型的誤差曲線相較其他對比方法更為平滑,在0附近波動較小。

為了能更直觀地展示缺失值修復效果,隨機抽取1 個區(qū)域的日供電量序列,畫出上述各種單變量缺失修復方法的修復結(jié)果(由于Interpolation 效果較差,在此不做可視化)。如圖4 所示,對于絕大多數(shù)的缺失時間點,RSI-LSTM 相比其他方法,可以取得較好的修復效果,修復值大多和原始的時間序列重合;而相比基線模型LSTM,RSI-LSTM 在峰值處可以取得較好的效果。因為殘差和單元可以更好地挖掘缺失數(shù)據(jù)和它們最近的非缺失數(shù)據(jù)的潛在關(guān)聯(lián)性,提高網(wǎng)絡(luò)的修復能力。

圖3 不同模型的絕對誤差對比Fig.3 Absolute error comparison of different models

圖4 不同模型的修復結(jié)果對比Fig.4 Imputation results comparison of different models

4 結(jié)語

1)RSI-LSTM 使用長短期記憶網(wǎng)絡(luò)對時間序列中的時間依賴和非線性特性進行建模,并且引入殘差連接,挖掘缺失數(shù)據(jù)和它們最近的非缺失數(shù)據(jù)的潛在關(guān)聯(lián)性;同時,該模型可以直接在含缺失值的情況下進行模型訓練。

2)本文同時考慮了單變量輸入和多變量輸入兩種情況,實驗結(jié)果證明了該模型對時間序列缺失修復的有效性。

3)目前RSI-LSTM 只是應(yīng)用于時間序列的缺失值修復上,以后的研究工作中,將考慮將該模型擴展到含缺失數(shù)據(jù)的時間序列預測或分類等問題。

猜你喜歡
記憶方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
記憶中的他們
3D打印中的模型分割與打包
兒時的記憶(四)
兒時的記憶(四)
記憶翻新
海外文摘(2016年4期)2016-04-15 22:28:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 免费观看精品视频999| 东京热一区二区三区无码视频| 国产成人成人一区二区| 91福利免费| 天天操精品| 一本大道视频精品人妻| 国产成人高清精品免费软件| 在线观看国产精美视频| 亚洲国产成人麻豆精品| 思思热精品在线8| 欧美福利在线观看| 日本黄色不卡视频| 亚洲成人网在线播放| 久久久久夜色精品波多野结衣| 一级毛片基地| 国产一区二区色淫影院| 国产成人一级| 尤物特级无码毛片免费| 国产美女91呻吟求| 2021国产精品自产拍在线观看 | 亚洲中文久久精品无玛| 午夜丁香婷婷| 国产91久久久久久| 国产精品视频导航| 毛片免费观看视频| 亚洲第七页| 国产亚洲欧美在线中文bt天堂| 99精品在线看| 亚洲成a人片7777| 精品国产美女福到在线不卡f| 欧美午夜视频| 国产真实乱子伦视频播放| 四虎国产在线观看| 国产日本视频91| 国产免费久久精品99re丫丫一| 国产人前露出系列视频| 日韩AV无码免费一二三区| 青青青视频91在线 | 91国语视频| 亚洲国产成人自拍| 久久精品丝袜| 日韩在线观看网站| 日本黄网在线观看| 国产人成乱码视频免费观看| 国产成人一区免费观看| 亚洲日本中文字幕乱码中文| www.99精品视频在线播放| 伊人中文网| 情侣午夜国产在线一区无码| 久久久久国产精品嫩草影院| 国产亚洲精品自在久久不卡 | 久久综合伊人77777| 亚洲欧洲国产成人综合不卡| 九九热视频在线免费观看| 亚洲性一区| 久久青草热| 亚洲国产天堂久久综合| 国产性猛交XXXX免费看| 亚洲国产第一区二区香蕉| 国产毛片一区| 久青草免费视频| AV无码国产在线看岛国岛| 亚洲午夜天堂| 97久久精品人人做人人爽| 亚洲最大福利网站| 色播五月婷婷| 欧洲极品无码一区二区三区| 国产成年无码AⅤ片在线| 国产精品久久精品| 欧美综合中文字幕久久| 国产无码制服丝袜| 亚洲一级毛片免费观看| 91色国产在线| 四虎永久在线| 色综合婷婷| 国产一级特黄aa级特黄裸毛片| 538精品在线观看| 久久亚洲国产视频| 免费 国产 无码久久久| 久久黄色免费电影| 日本道综合一本久久久88| 91探花国产综合在线精品|