李志剛 劉宇杰 韓國峰 程尚 付多民 李瑩琦



摘要為及時辨識海洋環境的變化趨勢和降低長期累積的海洋環境數據對預測模型的影響,提出一種基于循環在線順序極限學習機(Recurrent Online Sequential Extreme Learning Machine R-OSELM)的海洋環境數據在線預測模型.采用完全在線的方法初始化海洋環境數據訓練集,通過在線順序極限學習機算法對已有的海洋環境數據進行逐塊輸入,利用極限學習機的自動編碼技術與一種歸一化方法對輸入權重循環處理,實現預測模型的在線更新,最后完成對海洋環境數據的在線預測.使用該模型對溶解氧、葉綠素a、濁度、藍綠藻進行預測,結果表明R-OSELM模型的預測精度高于對比模型,確定其具備海洋環境數據在線預測能力,可為海洋水域水體富營養化與海洋環境污染預警提供參考.
關鍵詞海洋環境數據;時間序列預測;在線預測;在線順序極限學習機;循環神經網絡
中圖分類號
TP311.13;P714
文獻標志碼
A
收稿日期
2022-02-09
資助項目
國家重點研發計劃 (2017YFE0135700);河北省高等學校科學技術研究項目 (ZD2021088);唐山市科技計劃 (19150230E)
作者簡介李志剛,男,博士,教授,研究方向為數據挖掘.lizhigang@ncst.edu.cn
李瑩琦(通信作者),女,講師,研究方向為機器學習理論與應用研究.liyingqi@ncst.edu.cn
0 引言
隨著人類活動的加劇,海洋海域的自然生態環境遭到了嚴重的破壞[1].隨著信息技術的發展,海洋環境數據的獲取已經成為可能.通過數據分析[2]的手段,來對海洋環境數據實施監控是可行的.為保護海洋生態系統,對海洋環境污染提供預警,許多學者利用神經網絡模型預測海洋環境數據.在海洋水質預測方面,現有的預測模型在訓練方式上使用批量學習算法[3-5],即每當收到新數據時,批量學習過去的數據和新的數據來重新訓練模型.在海洋環境工程應用中,當監測站采集到的海洋環境訓練樣本發生變化或者有新的海洋環境訓練樣本加入時必須對全部海洋環境訓練樣本重新進行訓練,這將浪費額外的計算資源.在離線預測中,數據被輸入到一個固定的公式或訓練好的模型中,忽略對模型的更新,從而導致其學習效率低下,難以滿足模型在線預測的要求.所以,將在線預測方法應用于海洋環境數據預測具有重要意義.
近年來,已提出許多在線預測模型和方法,如滑動時間窗方法、在線順序極限學習機等.滑動時間窗方法是將數據以等量樣本選擇的方式進行在線預測,但預測模型本身沒有隨時間序列在線更新和動態學習的能力,導致預測精度不優秀.海洋環境數據在線預測是逐個或逐塊學習已有的海洋環境數據,并對未來的海洋環境數據進行預測,從而對海洋環境實現污染監測和動態維護.在海洋環境預報中,海洋環境數據的生成是連續的,為提高學習效率,模型更新是不可避免的.但在新數據不斷到來的情況下,頻繁地更新模型計算成本高昂.在線順序極限學習機(Online Sequential Extreme Learning Machine,OS-ELM)[6-8]會在新數據到達時以較低的成本自動更新(然后可以丟棄新數據)模型方程,通過使用遞歸最小二乘法隨機初始化輸入權重和更新輸出權重,使網絡能夠逐個或逐塊學習數據.同時,通過應用遞歸最小二乘法的遺忘因子,OS-ELM可以快速適應新的輸入模式,基于后續數據和隨機選擇隱藏節點參數更新權重使該方法快速準確.但是OS-ELM是針對單層前饋神經網絡的,并且其輸入權重無法調整,而循環神經網絡(Recurrent Neural Network,RNN)[9-11]則具有記憶過去事件的能力.RNN在連續序列數據建模方面不僅考慮當前的輸入,而且還使用它以前學到的東西.但是RNN在學習過程中存在訓練集長度過大導致的梯度消失或爆炸問題.因此,需要探索能夠面對長期累積的海洋環境數據保證預測精度的在線預測方法.
面對長期累積的海洋環境數據,現有的在線預測模型自身沒有隨時間序列在線更新和動態學習的能力,導致模型預測精度下降.在OS-ELM的基礎上,以“調整輸入權重反饋更新”為原則,本文提出了基于循環在線順序極限學習機(Recurrent Online Sequential Extreme Learning Machine,R-OSELM)的海洋環境在線預測模型.以海洋環境時間序列為例進行建模和在線預測實驗驗證,結果表明,R-OSELM與其他在線預測模型相比對海洋環境數據在線預測精度較好,可以滿足海洋大數據觀測監測服務平臺對海洋環境數據在線預測的更高需求.
1 R-OSELM模型
1.1 模型結構
R-OSELM是一種改進的OS-ELM,它將兩種新的方法應用于傳統的OS-ELM:具有歸一化的自動編碼技術和RNN結構的反饋更新輸入權重,如圖1所示.R-OSELM模型的構造:在RNN框架中,其n維輸入層通過輸入權重W連接到L維隱藏層,隱藏層通過輸出權重β連接到m維輸出層,隱藏層通過隱藏權重V也連接到自身.
R-OSELM模型還定義了兩個輔助ELM-AE(Extreme Learning Machine-Auto Encoder)網絡,兩個輔助ELM-AE網絡的工作原理是通過調整隱藏層的節點數,將輸入特征壓縮,一個用于更新輸入權重稱為輸入權重下極限學習機自動編碼器,另一個用于更新隱藏權重稱為隱藏權重下極限學習機自動編碼器(圖2).在輸入權重下極限學習機自動編碼器中,其輸入層通過輸入權重連接到隱藏層,隱藏層通過輸出權重連接到輸出層.輸入權重下極限學習機自動編碼器的輸入層維數和輸出層維數與R-OSELM的輸入層維數相同,輸入權重下極限學習機自動編碼器的隱藏層維數與R-OSELM的隱藏層維數相同.隱藏權重下極限學習機自動編碼器的結構同理,它的輸入層、輸出層和隱藏層的維數與R-OSELM的隱藏層維數相同.
每當新的海洋環境數據輸入時,采用遞歸最小二乘法隨機初始化輸入權重與隱藏權重下極限學習機自動編碼器.極限學習機的自動編碼技術(ELM-AE)[12]調整隱藏節點數將輸入特征壓縮,然后通過應用遞歸最小二乘法的遺忘因子,使其可以快速適應新的輸入模式.在OS-ELM的非線性激活層的之前加入一個歸一層,通過減去特征的平均值,再除以特征的方差,簡單地歸一化輸入特征.連接隱藏層的隱藏權重也會在新輸入到達時更新,使用與更新輸入權重相同的技術,這樣可使模型持續更新輸入與輸出權重.將這種在線學習方法用于學習RNN,最后可得模型的預測輸出.應用極限學習機的自動編碼器和歸一化方法來調整輸入權重的R-OSELM模型,使預測模型隨時間序列的更新能夠動態調整,有利于提高海洋環境數據預測精度.R-OESELM的結構特點決定了其訓練方式的特殊性.
1.2 模型算法
R-OSELM模型組成包括兩個階段:初始化階段和在線順序學習階段.
1.2.1 初始化階段
對R-OSELM使用一種全在線初始化方法,不需要初始數據集.公式如下:
β 0=0, Ρ 0=ΙC-1.? (1)
利用式(1)設定其初始輸出權重β 0和初始輔助矩陣P 0.其隱藏層輸出的初始值H 0是隨機生成的,輸入權重下極限學習機自動編碼器的輸入權重Wi和隱藏權重下極限學習機自動編碼器的輸入權重Wh也隨機賦值.用式(1)對它們的輸出權重βi 0,βh 0和相應的輔助矩陣Pi 0,Ph 0初始化.
當有一個新的海洋環境訓練樣本為Nk+1的輸入數據塊到達時,其中k+1表示第k+1個海洋環境訓練樣本輸入數據塊,k從0開始遞增時,進行下面的學習過程.為了數學上的簡單性,將海洋環境數據訓練樣本Nk+1的大小設置為1.
1.2.2 在線順序學習階段
1)更新輸入權重.首先使用輸入權重下極限學習機自動編碼器更新R-OSELM的輸入權重.輸入權重下極限學習機自動編碼器將第k+1個輸入樣本x(k+1)傳送到隱藏層.輸入權重下極限學習機自動編碼器隱藏層的輸出矩陣Hi k+1計算公式如下:
Hi k+1=g(norm(Wi k+1x(k+1))), (2)
norm(x)=x-μiσi2+ε,? (3)
μi=1L∑Lj=1x j, (4)
σi=1L∑Lj=1(x j-μi)2,? (5)
式(5)中,x j表示訓練樣本,具有L個隱藏節點的輸出.在非線性激活層的前面加入norm函數作為歸一化層,然后使用遞歸最小二乘法計算輸入權重下極限學習機自動編碼器的輸出權重βi k+1:
βi k+1=βi k+Pi k+1Hi k+1T(x(k+1)-Hi k+1βi k),? (6)
Pi k+1=1λPi k-Pi kHi k+1T(λ2+λHi k+1Pi kHi k+1T)-1Hi k+1Pi k, ?(7)
式(7)中λ為常數遺忘因子.用T k+1代替x(k+1)執行無監督自動編碼[13],公式如下:
β k+1=β k+P k+1HT k+1(T k+1-H k+1β k).? (8)
將βi k+1的轉置作為R-OSELM模型的輸入權重W k+1:
W k+1=βi k+1T.? (9)
2)更新隱藏權重.同樣,使用隱藏權重下極限學習機自動編碼器更新R-OSELM的隱藏權重.隱藏權重下極限學習機自動編碼器將R-OSELM的第k個隱藏層輸出H k輸送到隱藏層,隱藏權重下極限學習機自動編碼器隱藏層的輸出矩陣Hh k+1計算公式如下:
Hh k+1=g(norm(Wh k+1H k)).? (10)
執行無監督自動編碼[13],使用遞歸最小二乘法計算隱藏權重下極限學習機自動編碼器的輸出權重βh k+1:
βh k+1=βh k+Ph k+1Hh k+1T(H k-Hh k+1βh k), (11)
Ph k+1=1λPh k-Ph kHh k+1T(λ2+λHh k+1Ph kHh k+1T)-1Hh k+1Ph k, (12)
把βh k+1的轉置當作R-OSELM的隱藏權重V k+1:
V k+1=βh k+1T.? (13)
3)前饋傳播.用第k+1個輸入樣本x(k+1)來計算R-OSELM的隱藏層輸出矩陣H k+1,公式如下:
H k+1=g(norm(W k+1x(k+1)+V k+1H k)).? (14)
4)更新輸出權重.利用式(8)和式(15)更新R-OSELM的輸出權重β k+1:
P k+1=P k-P kHT k+1(I+H k+1P kHT k+1)-1H k+1P k. (15)
本文提出的R-OSELM不限于單個隱藏層,而是可以有m個隱藏層,此時R-OSELM有m個輸入權重下極限學習機自動編碼器、m個隱藏權重下極限學習機自動編碼器.在此更深層次的結構中,可以學習更復雜的海洋環境數據特征.
1.3 算法流程(見下頁)
2 仿真實驗與性能評估
2.1 實驗數據集
本文使用中國北部海灣海域某定點浮標的實測數據驗證R-OSELM模型性能.數據樣本選擇中國某海域的海洋環境數據,樣本選擇周期為5 min,涵蓋氣象參數和水質參數兩種類型.在線監控的樣本特征屬性由溶解氧、葉綠素a、濁度和藍綠藻組成.選取4種因素各8 000個海洋環境數據實驗樣本.監測的海洋生態環境原始數據變化曲線如圖3所示.
2.2 在線預測模型性能分析
為使模型在在線訓練階段效果更佳,將模型輸入維數設置為100.在模型參數選擇上,將遺忘因子λ=0.915,隱節點數設置為21,采用sigmoid作為激活函數.本文選用標準均方根誤差(NRMSE)、平均絕對百分比誤差(MAPE)和決定系數(R2)作為模型預測性能的度量標準.
R-OSELM算法流程
步驟1(初始化階段):1)設置隱藏節點數目L,隨機生成隱藏層輸出的初始值H 0,輸入權重下極限學習機自動編碼器的輸入權重Wi,隱藏權重下極限學習機自動編碼器的輸入權重Wh和隱藏層偏置σi(i=1,2,…,L).
2)使βi 0=βh 0=0,Pi 0=Ph 0=(I/C)-1.步驟2(在線順序學習階段):For k=1,2,…
① 獲得第(k+1)個海洋環境數據訓練樣本塊(x i,t i)∑k+1j=0N j
i=∑kj=0N j+1,其中N j表示第j個海洋環境數據訓練樣本塊的數目;
② 由式(2)計算Hi k+1,由式(7)和式(8)計算Pi k+1和βi k+1;
③ 由式(10)計算Hh k+1,由式(12)和式(11)計算Ph k+1和βh k+1;
④ 把βi k+1和βh k+1轉置分別得出W k+1和V k+1;
⑤ 將W k+1和V k+1代入式(14)計算出H k+1;
⑥ 由式(8)和式(15)更新R-OSELM的輸出權重β k+1.
重復步驟2直到沒有新數據到達.
End
NRMSE=∑Nt=1(y r(t)-y p(t))2Nσ2,? (16)
MAPE=1N∑Nt=1y r(t)-y p(t)y p(t)×100%,? (17)
R2=1-∑Nt=1(y r(t)-y p(t))2∑Nt=1 (y r(t)- r(t))2,? (18)
式中,N為海洋數據集的長度,y r(t)為t時刻的實際數據, r(t)為實際數據的平均值,y p(t)為模型在t時刻的預測數據,σ2為預測值的方差
OS-ELM僅使用ELM-AE更新輸入權重,雖可獲得更好的隱藏層特征,但OS-ELM的性能會下降.本實驗首先驗證R-OSELM在不加入歸一化層前,ELM-AE對OS-ELM的影響,將OS-ELM與OS-ELM-AE的隱藏節點數分別設置為5、15、20、25,以NRMSE為度量標準.實驗結果表明,OS-ELM在僅使用ELM-AE后,隨著隱藏節點數量的增加,模型的性能變得更差,如圖4所示.所以,需要對OS-ELM-AE再使用一種歸一化方法提升模型的性能.
海洋環境數據的預測和實際對比如圖5所示,可知4種海洋環境因素的預測曲線基本能擬合實際數據的變化情況,能夠準確地反映出未來海洋環境的變化趨勢,驗證了R-OSELM在海洋環境數據在線預測任務中的可行性.
4種海洋環境數據預測結果如表1所示.其中:NRMSE的值均小于0.1;MAPE的值均小于10%,尤其是溶解氧與濁度的MAPE值小于1%;R2均大于0.99.結果表明R-OSELM模型擬合效果優秀.
2.3 與對比模型的性能比較
挑選處理在線預測任務的3種傳統模型:OS-ELM、在線LSTM[14]和在線SVR[15]為對比模型,對溶解氧、葉綠素a、濁度和藍綠藻4種海洋環境數據進行在線預測實驗,驗證R-OSELM在海洋環境數據在線預測任務中的可行性.為保證實驗的可對比性,對比模型的輸入層尺寸和輸出層尺寸與R-OSELM相同.
圖6給出了R-OSELM與其他3種模型對溶解氧、葉綠素a、濁度和藍綠藻數據的NRMSE對比,可以看出R-OSELM明顯優于其他3種對比模型,其NRMSE值均在0.1以下.由圖6可知,在線LSTM與在線SVR預測能力明顯不如R-OSELM和OS-ELM,這可能是由于OS-ELM擁有對模型在線更新的能力,而前2種在線方法只是在于對樣本輸入的處理上.R-OSELM在加入提出的歸一化方法對輸入權重不斷更新后,效果優于OS-ELM,能使其性能進一步提高.
總體來說,R-OSELM在海洋環境數據在線預測任務中表現穩定,能有效實現對海洋環境數據的在線預測,提升預測的準確性.
3 結語
本文提出一種R-OSELM的海洋環境數據在線預測模型,對長期累積的海洋環境數據,隨海洋環境時間序列在線更新,動態調整在線預測模型提升預測精度.該模型使用ELM-AE用于提取更好的輸入特征,之后使用歸一化處理并對隱藏權重進行循環輸入,使其能夠很好地訓練循環神經網絡.實驗結果表明R-OSELM應用于海洋環境數據在線預測任務,預測精度有顯著提升.R-OSELM的特殊結構不僅在初始學習階段能夠快速學習輸入模式,而且比其他在線預測方法更能快速適應輸入模式的變化,可以高效完成海洋環境數據在線預測任務,滿足對海洋水質環境在線預測的需求.
參考文獻
References
[1] 王利明,馬蕾,楊曉飛,等.渤海環境污染的治理與保護對策[J].中國資源綜合利用,2020,38(3):109-111
WANG Liming,MA Lei,YANG Xiaofei,et al.The countermeasures for the pollution control and protection in the Bohai Sea[J].China Resources Comprehensive Utilization,2020,38(3):109-111
[2] Babak V P,Babak S V,Myslovych M V,et al.Methods and models for information data analysis[M]//Diagnostic Systems for Energy Equipments.Cham:Springer International Publishing,2020:23-70
[3] 豆荊輝,夏瑞,張凱,等.非參數模型在河湖富營養化研究領域應用進展[J].環境科學研究,2021,34(8):1928-1940
DOU Jinghui,XIA Rui,ZHANG Kai,et al.Application progress of non-parametric models in the field of river and lake eutrophication research[J].Research of Environmental Sciences,2021,34(8):1928-1940
[4] 張雪薇,韓震.基于Conv GRU深度學習網絡模型的海表面溫度預測[J].大連海洋大學學報,2022,37(3):531-538
ZHANG Xuewei,HAN Zhen.Sea surface temperature prediction based on ConvGRU deep learning network model [J].Journal of Dalian Ocean University,2022,37(3):531-538
[5] 孫龍清,吳雨寒,孫希蓓,等.基于IBAS和LSTM網絡的池塘水溶解氧含量預測[J].農業機械學報,2021,52(增刊1):252-260
SUN Longqing,WU Yuhan,SUN Xibei,et al.Dissolved oxygen prediction model in ponds based on improved beetle antennae search and LSTM network[J].Transactions of the Chinese Society for Agricultural Machinery,2021,52(sup1):252-260
[6] Cao W P,Ming Z,Xu Z W,et al.Online sequential extreme learning machine with dynamic forgetting factor[J].IEEE Access,2019,7:179746-179757
[7] Cao W W,Yang Q M.Online sequential extreme learning machine based adaptive control for wastewater treatment plant[J].Neurocomputing,2020,408:169-175
[8] Al-Dhief F T,Baki M M,Latiff N M A,et al.Voice pathology detection and classification by adopting online sequential extreme learning machine[J].IEEE Access,2021,9:77293-77306
[9] 楊麗,吳雨茜,王俊麗,等.循環神經網絡研究綜述[J].計算機應用,2018,38(增刊2):1-6,26
YANG Li,WU Yuxi,WANG Junli,et al.Research on recurrent neural network[J].Journal of Computer Applications,2018,38(sup2):1-6,26
[10] Li L,Jiang P,Xu H,et al.Water quality prediction based on recurrent neural network and improved evidence theory:a case study of Qiantang River,China[J].Environmental Science and Pollution Research,2019,26(19):19879-19896
[11] Ye Q Q,Yang X Q,Chen C B,et al.River water quality parameters prediction method based on LSTM-RNN model[C]//2019 Chinese Control and Decision Conference (CCDC).June 3-5,2019,Nanchang,China.IEEE,2019:3024-3028
[12] Ding S F,Zhang N,Zhang J,et al.Unsupervised extreme learning machine with representational features[J].International Journal of Machine Learning and Cybernetics,2017,8(2):587-595
[13] Liu Z,Huang S L,Jin W,et al.Broad learning system for semi-supervised learning[J].Neurocomputing,2021,444:38-47
[14] Bakhashwain N,University K F,Sagheer A,et al.Online tuning of hyperparameters in deep LSTM for time series applications[J].International Journal of Intelligent Engineering and Systems,2021,14(1):212-220
[15] Hu Z G,Kang H,Zheng M G.Stream data load prediction for resource scaling using online support vector regression[J].Algorithms,2019,12(2):37
Online prediction of marine environment data based on R-OSELM
LI Zhigang1 LIU Yujie1 HAN Guofeng2 CHENG Shang1 FU Duomin1 LI Yingqi1
1College of Artificial Intelligence/Hebei Key Laboratory of Industrial Intelligent Perception,
North China University of Science and Technology,Tangshan 063210
2Tangshan Employment Service Center,Tangshan 063000
Abstract In order to timely identify the changing trend of marine environment and reduce the influence of long-term accumulated marine environment data on prediction model,an online prediction model of marine environment data based on recurrent online sequential extreme learning machine (R-OSELM) is proposed.The marine environment data training set is initialized by an online method,the existing marine environment data is input block by block via online sequential extreme learning machine algorithm,and the input weight is cyclically processed by automatic coding technology of extreme learning machine and a normalized method,which realize the online update of the prediction model.Finally,online prediction of marine environment data is completed.The model is then used to predict dissolved oxygen,chlorophyll A,turbidity,and blue-green algae.The results show that the prediction accuracy of R-OSELM model is better than that of the comparison model.It is verified that the proposed R-OSELM model is capable of online prediction of marine environment data,which can provide support for early warning of marine eutrophication and other marine environmental pollution.
Key words marine environment data;time series prediction;online prediction;online sequential extreme learning machine;recurrent neural network