999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)RNN的多變量時(shí)間序列缺失數(shù)據(jù)填充算法*

2019-11-12 09:37:04孫曉麗宋曉祥
關(guān)鍵詞:效果模型

孫曉麗,郭 艷,李 寧,宋曉祥

(中國人民解放軍陸軍工程大學(xué) 通信工程學(xué)院,江蘇 南京 210007)

0 引言

多元時(shí)間序列數(shù)據(jù)在醫(yī)療保健[1]、神經(jīng)科學(xué)[2]、語音識(shí)別[3]、金融營銷[4-5]、氣象[6-7]、交通工程[8-9]等諸多應(yīng)用領(lǐng)域都有豐富的應(yīng)用。然而由于多種原因,如醫(yī)療事故、節(jié)約成本、異常現(xiàn)象以及設(shè)備故障等,這些多變量時(shí)間序列不可避免地會(huì)存在部分缺失數(shù)據(jù)。缺失數(shù)據(jù)的存在會(huì)影響數(shù)據(jù)分析的精度、正確的模型建立,甚至?xí)頌?zāi)難性的后果。因此,如何對缺失數(shù)據(jù)進(jìn)行準(zhǔn)確地填充已經(jīng)成為大數(shù)據(jù)研究領(lǐng)域的一個(gè)熱點(diǎn)。

缺失數(shù)據(jù)的填充是數(shù)據(jù)得以進(jìn)一步開發(fā)利用的關(guān)鍵。目前,專家學(xué)者在各個(gè)領(lǐng)域進(jìn)行了大量的研究工作,提出了許多有效的缺失數(shù)據(jù)填充算法[10]。處理時(shí)間序列數(shù)據(jù)中隨機(jī)信息缺失的標(biāo)準(zhǔn)方法有插值法[11-12]和填充法[13-15]。其中,插值法試圖通過利用單個(gè)序列中的時(shí)間關(guān)系來重建缺失數(shù)據(jù)。填充法則試圖通過利用多個(gè)數(shù)據(jù)序列來填充缺失數(shù)據(jù)。文獻(xiàn)[16]以靜態(tài)數(shù)據(jù)為研究背景,將模型約束為線性模型來填充缺失數(shù)據(jù)。然而,這種方法不能捕捉非線性和時(shí)間序列的特性。除此之外,包括自回歸移動(dòng)平均模型(Autoregressive Integrated Moving Model,ARIMA)[17]、季節(jié)性差分自回歸滑動(dòng)平均模型(Seasonal ARIMA,SARIMA)[18]等在內(nèi)的自回歸方法旨在將時(shí)間序列中的非平穩(wěn)部分進(jìn)行剔除,擬合出參數(shù)化的平穩(wěn)模型。基于矩陣分解的方法也經(jīng)常[19]被用來解決缺失數(shù)據(jù)填充問題,但是通常只適用于靜態(tài)數(shù)據(jù),并且需要較強(qiáng)的假設(shè)。

遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)具有很好的性能,如強(qiáng)大的預(yù)測能力以及捕獲長期時(shí)間依賴關(guān)系和可變長度觀察的能力。近年來,RNN,如LSTM[20]和門控遞歸單元(Gated Recurrent Unit,GRU)[21],在時(shí)間序列或序列數(shù)據(jù)的許多應(yīng)用中凸顯了至關(guān)重要的地位。文獻(xiàn)[22]提出了多向遞歸神經(jīng)網(wǎng)絡(luò)(Multi-directional Recurrent Neural Network,M-RNN)的方法,并利用雙向RNN來進(jìn)行數(shù)據(jù)填充,但是刪除了缺失變量之間的關(guān)系,將M-RNN的輸入值作為常數(shù)進(jìn)行處理,在網(wǎng)絡(luò)中得不到充分的更新。文獻(xiàn)[23]將深度神經(jīng)網(wǎng)絡(luò)的思想與卡爾曼濾波器相結(jié)合,提出了一種非線性狀態(tài)空間模型——深度卡爾曼濾波器。文獻(xiàn)[24]引入隨機(jī)遞歸神經(jīng)網(wǎng)絡(luò)(Stochastic Recurrent Neural Network,SRNN),將RNN與狀態(tài)空間模型相結(jié)合,形成隨機(jī)序列神經(jīng)生成模型。

為了更好地解決多元時(shí)間序列的缺失數(shù)據(jù)問題,本文提出了一種基于RNN的缺失數(shù)據(jù)填充算法。該算法通過利用RNN自身能夠捕捉長期時(shí)間依賴關(guān)系以及預(yù)測能力的特性,在RNN的基礎(chǔ)上引入了衰減機(jī)制,從而使得改進(jìn)后的模型能夠充分利用觀測數(shù)據(jù)中的隱藏信息來提高數(shù)據(jù)填充的準(zhǔn)確率。而后,通過對現(xiàn)有的觀測數(shù)據(jù)進(jìn)行學(xué)習(xí),實(shí)現(xiàn)對缺失數(shù)據(jù)的填充,提高了數(shù)據(jù)填充的準(zhǔn)確率。本文以上海空氣質(zhì)量數(shù)據(jù)集以及AReM數(shù)據(jù)集為實(shí)驗(yàn)數(shù)據(jù),對所提算法進(jìn)行檢驗(yàn)。實(shí)驗(yàn)結(jié)果表明,與其他算法相比,在缺失率較低的情況下,所提算法的填充誤差更小,填充效果更優(yōu)。

1 缺失數(shù)據(jù)表示

假設(shè)一組含有N個(gè)變量、時(shí)間長度為T的多元時(shí)間序列數(shù)據(jù)X表示為:X={x1,x2,…,xT}T∈T×N,對于t∈{1,2,…,T},xt表示為t時(shí)刻時(shí)所有變量的觀測值,即N,那么則表示為t時(shí)刻第n個(gè)變量的觀測值。設(shè)st為時(shí)間戳,即t時(shí)刻觀測到數(shù)據(jù)的時(shí)間。

對于多元缺失數(shù)據(jù),給定每個(gè)時(shí)刻每個(gè)變量的觀測值一個(gè)缺失向量m∈{0,1},并且有:

(1)

(2)

對缺失時(shí)間序列數(shù)據(jù)進(jìn)行以上處理,可以在原數(shù)據(jù)集的基礎(chǔ)上得到{X,M,Δ},其中:

2 LSTM

長短時(shí)記憶(Long-Shokl-Term Memory,LSTM)網(wǎng)絡(luò)[20]是RNN的一種,能夠解決一般RNN存在的長期依賴問題,并且可以解決長序列訓(xùn)練過程中出現(xiàn)的梯度爆炸和梯度消失的問題,因而LSTM適用于處理、預(yù)測時(shí)間序列中時(shí)間間隔較長的問題。LSTM的結(jié)構(gòu)如圖1所示。

圖1 LSTM結(jié)構(gòu)圖

一個(gè)經(jīng)典的LSTM網(wǎng)絡(luò)由單元或者記憶塊組成,并且LSTM單元一般會(huì)有兩個(gè)輸出:單元狀態(tài)C和隱藏狀態(tài)h,將其傳遞到下一個(gè)LSTM單元,因此LSTM有三個(gè)輸入:t-1時(shí)刻的單元狀態(tài)Ct-1、隱藏狀態(tài)ht-1以及t時(shí)刻的輸入xt,有兩個(gè)輸出:t時(shí)刻的單元狀態(tài)Ct、隱藏狀態(tài)ht。記憶塊通過三種門控制記憶隱藏狀態(tài)和前面時(shí)刻發(fā)生的時(shí)間,三種門分別為:遺忘門、輸入門和輸出門。

LSTM的計(jì)算更新過程可以表示為:

it=σ(Wxixt+Whiht-1+bi)

(3)

ft=σ(Wxfxt+Whfht-1+bf)

(4)

(5)

(6)

ot=σ(Wxoxt+Whoht-1+bo)

(7)

ht=ot⊙tanh(Ct)

(8)

若此時(shí)的LSTM單元為網(wǎng)絡(luò)中的最后一個(gè)單元,那么,網(wǎng)絡(luò)最終的輸出為:

y=softmax(W⊙ht+b)

(9)

其中,softmax為激活函數(shù),W為權(quán)重矩陣,b為偏置矩陣。

3 提出的模型

3.1 γ-LSTM模型

結(jié)合時(shí)間序列中缺失數(shù)據(jù)的填充過程進(jìn)行分析,會(huì)注意到,以往的RNN算法中,若缺失數(shù)據(jù)的丟失時(shí)間間隔過長,那么就導(dǎo)致缺失數(shù)據(jù)對當(dāng)前時(shí)刻的輸出影響隨著時(shí)間間隔的增加而有所減弱。因此,本文在RNN的基礎(chǔ)上引入了衰減機(jī)制,來捕獲輸入變量、隱藏變量與相應(yīng)缺失數(shù)據(jù)時(shí)間間隔的關(guān)系,并且衰減系數(shù)γ的值因變量而異。改進(jìn)后的RNN結(jié)構(gòu)如圖2所示,將其稱之為γ-LSTM。

圖2 γ-LSTM結(jié)構(gòu)圖

由圖2可以看出,γ-LSTM在LSTM的基礎(chǔ)上,使用時(shí)間衰減系數(shù)γt對LSTM單元的輸入進(jìn)行修正,并使用缺失向量mt對網(wǎng)絡(luò)的中間結(jié)果進(jìn)行一定的修正,使其更加充分地捕獲數(shù)據(jù)間的相關(guān)關(guān)系,定義γt為:

γt=exp{-max (0,Wγδt+bγ)}

(10)

(11)

(12)

γ-LSTM對于輸入的xt做了相應(yīng)的處理,以其是否為缺失數(shù)據(jù)進(jìn)行數(shù)值的確定,且有:

(13)

(14)

(15)

此時(shí)γ-LSTM的計(jì)算過程表示為:

(16)

(17)

(18)

(19)

(20)

ht=ot⊙tanh(Ct)

(21)

3.2 γ-PLSTM模型

由圖1的結(jié)構(gòu)圖可以看出,t時(shí)刻LSTM門的輸入包含兩部分:網(wǎng)絡(luò)輸入與t-1時(shí)刻網(wǎng)絡(luò)的輸出,若在t時(shí)刻時(shí)輸出門關(guān)閉(值接近0),那么t時(shí)刻網(wǎng)絡(luò)的輸出將為0,t+1時(shí)刻LSTM網(wǎng)絡(luò)的門將僅與網(wǎng)絡(luò)的輸入有關(guān)系,因此會(huì)導(dǎo)致歷史信息的缺失,從而影響最終的結(jié)果。因此,文獻(xiàn)[26]提出了一種LSTM的變體“貓眼”LSTM (Peephole LSTM,PLSTM),其在LSTM的基礎(chǔ)上增加了“貓眼”連接(圖3中的虛線部分),允許門查看細(xì)胞狀態(tài)。PLSTM模型的計(jì)算過程如下:

圖3 PLSTM結(jié)構(gòu)圖

(22)

(23)

(24)

(25)

(26)

ht=ot⊙tanh (Ct)

(27)

LSTM中,單元狀態(tài)C用于存儲(chǔ)信息,有效地保持信息在多個(gè)時(shí)間步長中的清晰度;隱藏狀態(tài)h用于上層輸出,并且捕獲單元狀態(tài)中與當(dāng)前時(shí)刻輸出密切相關(guān)的部分。而PLSTM通過“貓眼”連接,即便是在信息匱乏的情況下,也可以生成精確的時(shí)間間隔事件。

為了更全面地解決缺失數(shù)據(jù)填充問題,考慮數(shù)據(jù)缺失時(shí)間間隔對當(dāng)前時(shí)刻產(chǎn)生數(shù)據(jù)的影響,在PLSTM的基礎(chǔ)上,同樣引入衰減機(jī)制。引入衰減機(jī)制的PLSTM被稱為γ-PLSTM,模型的結(jié)構(gòu)如圖4所示。

圖4 γ-PLSTM結(jié)構(gòu)圖

對單元狀態(tài)C以及隱藏狀態(tài)h增加衰減處理,同樣地,衰減系數(shù)γt定義如公式(10),得到衰減處理后的結(jié)果見公式(11)、(12)。

對網(wǎng)絡(luò)輸入x作相同的處理,見公式(13),此時(shí)模型的更新計(jì)算過程為:

(28)

(29)

(30)

(31)

(32)

ht=ot⊙tanh (Ct)

(33)

在缺失數(shù)據(jù)填充的模型中,在每個(gè)時(shí)間步長內(nèi)都使用γ-PLSTM,并在其最后一個(gè)單元的輸出后增加一個(gè)softmax層和dropout層,最終輸出填充的缺失值。

4 數(shù)據(jù)集及評(píng)價(jià)方法

4.1 數(shù)據(jù)集

全國空氣質(zhì)量數(shù)據(jù)集來源于全國城市空氣質(zhì)量實(shí)時(shí)發(fā)布平臺(tái),記錄了全國190個(gè)站點(diǎn)自2014年5月13日至2019年8月17日每天每個(gè)小時(shí)PM2.5、PM10、SO2、NO2、O3、CO含量以及分別對應(yīng)的24小時(shí)均值與AQI實(shí)時(shí)值。從中選取上海三個(gè)月的空氣質(zhì)量數(shù)據(jù)作為仿真數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。

AReM數(shù)據(jù)集來源于UCI數(shù)據(jù)庫,該數(shù)據(jù)集數(shù)據(jù)是由無線傳感器記錄而來,實(shí)驗(yàn)者執(zhí)行特定動(dòng)作時(shí)被其身上所佩戴的傳感器所記錄,有6個(gè)屬性,大約5萬條數(shù)據(jù)記錄,并且數(shù)據(jù)的分布具有一定的規(guī)律。從中選取1 000條記錄作為仿真數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。

4.2 評(píng)價(jià)方法

為了更好地評(píng)價(jià)缺失值的填充效果,使用均方誤差(Mean-Squared Error,MSE)、平均相對誤差(Mean Relative Error,MRE)、均方根誤差(Root Mean Squared Error,RMSE)來計(jì)算輸出的缺失填充值與原數(shù)據(jù)之間的誤差,定義如下:

(34)

(35)

(36)

5 仿真

本文選取上海空氣質(zhì)量數(shù)據(jù)以及AReM數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),用以驗(yàn)證所提方法的有效性。實(shí)驗(yàn)中,首先對數(shù)據(jù)進(jìn)行歸一化處理,然后按照缺失率為10%、20%、30%、40%、50%從完整數(shù)據(jù)集中任意刪除對應(yīng)數(shù)量的數(shù)據(jù)。為了方便對數(shù)據(jù)進(jìn)行處理,針對不同的變量,都隨機(jī)刪除相同數(shù)量的數(shù)據(jù),每個(gè)變量的缺失率都與整個(gè)數(shù)據(jù)集的缺失率相同。

歸一化過程表示為:

(37)

針對LSTM、γ-LSTM、PLSTM、γ-PLSTM模型,使用不同缺失率的上海空氣質(zhì)量數(shù)據(jù)、AReM數(shù)據(jù)進(jìn)行檢驗(yàn),得到數(shù)據(jù)填充的效果如表1~表4所示。

表1 空氣質(zhì)量數(shù)據(jù)集下四種算法的MSE(%)比較

表2 空氣質(zhì)量數(shù)據(jù)集下四種算法的MRE比較

表3 AReM數(shù)據(jù)集下四種算法的MSE(%)比較

表4 AReM數(shù)據(jù)集下四種算法的MRE比較

由表1~表4可以看出,四種算法都可以實(shí)現(xiàn)對缺失數(shù)據(jù)的填充,隨著缺失率的升高,填充數(shù)據(jù)的MSE、MRE誤差都隨之增大,偶爾出現(xiàn)波動(dòng),但并不影響大體規(guī)律。四種算法中,γ-PLSTM的填充效果較為顯著,填充數(shù)據(jù)的MSE、MRE誤差較其他三種小;在缺失率較低時(shí),PLSTM的填充效果優(yōu)于γ-LSTM,但隨著缺失率的升高,γ-LSTM的效果則有明顯改善且效果要優(yōu)于PLSTM,也證明了衰減機(jī)制的作用;PLSTM、γ-PLSTM的效果分別比LSTM、γ-LSTM的效果好,很好地說明了在學(xué)習(xí)的過程中,對單元狀態(tài)進(jìn)行監(jiān)控,能夠更多更好地獲得歷史信息,從而更好地實(shí)現(xiàn)對缺失數(shù)據(jù)的填充。

對所提算法與現(xiàn)有算法(稀疏貝葉斯學(xué)習(xí)(Sparse Bayesian Learning,SBL)、RNN)進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5、圖6所示。

圖5 空氣質(zhì)量數(shù)據(jù)下不同算法填充效果比較

圖6 AReM數(shù)據(jù)下不同算法填充效果比較

通過圖5、圖6可以看出,四種算法都可以實(shí)現(xiàn)缺失數(shù)據(jù)的填充,但是填充的效果不盡相同。由實(shí)驗(yàn)結(jié)果可以看出,相對于其他三種算法而言,SBL算法適合處理精度要求不嚴(yán)格的缺失數(shù)據(jù),RNN算法的填充效果相較于SBL而言更優(yōu),而本文所提的γ-LSTM和γ-PLSTM算法則較RNN而言填充效果更好。不難看出,伴隨著缺失率的升高,四種算法的填充誤差有所增加,且SBL的誤差最大,γ-PLSTM的填充誤差最小;整體而言,γ-LSTM的填充效果要優(yōu)于RNN。

總體而言,通過SBL、RNN、γ-LSTM、γ-PLSTM四種算法的比較,可以清晰地發(fā)現(xiàn)所提兩種算法γ-LSTM、γ-PLSTM在缺失數(shù)據(jù)填充中的優(yōu)越性;通過LSTM、PLSTM與本文所提兩種算法的比較,體現(xiàn)出增加衰減機(jī)制的作用以及在缺失率相對較高情況下“貓眼”連接與衰減機(jī)制共同作用的有效性。

6 結(jié)論

本文提出了一種基于LSTM的缺失數(shù)據(jù)填充算法來解決多變量時(shí)間序列的缺失數(shù)據(jù)填充問題。在LSTM的基礎(chǔ)上引入了衰減機(jī)制,通過學(xué)習(xí)時(shí)間間隔與網(wǎng)絡(luò)變量的關(guān)系,獲取更多隱藏的歷史信息,從而更好地完成缺失數(shù)據(jù)的填充;并對兩種不同的傳統(tǒng)LSTM進(jìn)行改進(jìn),從而得到了兩種不同的算法γ-LSTM和γ-PLSTM,通過實(shí)驗(yàn)比較,γ-PLSTM的性能要優(yōu)于γ-LSTM,說明在缺失數(shù)據(jù)填充過程中,有“貓眼”連接的能夠查看細(xì)胞狀態(tài)的算法能夠獲得更多的隱藏信息,從而缺失數(shù)據(jù)的填充效果更為優(yōu)異。

猜你喜歡
效果模型
一半模型
按摩效果確有理論依據(jù)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
3D打印中的模型分割與打包
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
3D—DSA與3D—CTA成像在顱內(nèi)動(dòng)脈瘤早期診斷中的應(yīng)用效果比較
主站蜘蛛池模板: 精品人妻一区无码视频| 久操中文在线| 亚洲永久精品ww47国产| 亚洲男人天堂网址| 国产在线一区视频| 免费精品一区二区h| 午夜啪啪网| 久久精品人妻中文系列| 久久精品亚洲专区| 午夜精品久久久久久久2023| 国产亚洲视频免费播放| 欧美日韩国产在线观看一区二区三区| 久久美女精品| 精品久久国产综合精麻豆| 精品国产美女福到在线不卡f| 亚洲天堂精品在线观看| 久久精品视频亚洲| 国产00高中生在线播放| аv天堂最新中文在线| 日韩专区第一页| 成人伊人色一区二区三区| 国模沟沟一区二区三区| 久久福利片| 久久网综合| 国产在线啪| 欧美午夜在线观看| 99热这里只有精品在线观看| 精品视频91| 最新国产午夜精品视频成人| 小说区 亚洲 自拍 另类| 日韩在线2020专区| 久久中文无码精品| 女人18毛片一级毛片在线 | 婷婷色狠狠干| 一本大道AV人久久综合| 欧美啪啪网| 在线精品视频成人网| 成人福利免费在线观看| 自拍偷拍欧美日韩| 成人国产精品一级毛片天堂| 夜夜操国产| 国产欧美精品一区二区| 高清免费毛片| 国产人成在线视频| 色综合a怡红院怡红院首页| 免费国产一级 片内射老| 国产内射一区亚洲| 老司机精品99在线播放| 五月婷婷导航| 免费国产黄线在线观看| 欧美亚洲激情| 岛国精品一区免费视频在线观看| 亚洲综合色吧| 中文字幕亚洲综久久2021| 国产中文一区a级毛片视频| 真实国产精品vr专区| 亚洲av无码专区久久蜜芽| 欧美α片免费观看| 日本高清成本人视频一区| 国产亚洲日韩av在线| 国产美女主播一级成人毛片| 午夜视频www| 国产亚洲精品自在久久不卡 | 东京热av无码电影一区二区| 久久这里只有精品免费| 中文字幕无码电影| 久久国产精品嫖妓| 亚洲成人在线免费| 免费一级毛片完整版在线看| 国产成人一区| 一本综合久久| 国产精品免费入口视频| 国产精品视频导航| 欧美、日韩、国产综合一区| 自慰网址在线观看| 亚洲三级片在线看| 亚洲精品第一在线观看视频| 日本精品视频一区二区| 精品亚洲欧美中文字幕在线看| a级毛片免费网站| 亚洲视频影院| 伊人福利视频|