任妮 鮑彤 劉楊 荀廣連 蔣永年



摘要:?為準確預測蟹塘溶解氧質量濃度,及時掌握溶解氧質量濃度的變化趨勢,提前采取防控措施從而降低河蟹養殖風險,提出了一種基于粒子群優化算法(PSO)和長短時記憶神經網絡(LSTM)的蟹塘溶解氧質量濃度預測模型,采用PSO算法優化LSTM模型參數后對蟹塘溶解氧質量濃度進行預測。結果表明,PSO-LSTM模型不僅整體優于ARIMA模型,相較于其他LSTM模型也有更高的預測精度,在連續10個時間點的預測中相比于LDO-LSTM、LSTM和ARIMA模型平均百分誤差分別降低了2.55%、1.891%和4.055%。說明PSO-LSTM模型在蟹塘溶解氧質量濃度預測中具有良好的準確性和穩定性,可以為河蟹養殖中水質精準預測與調控提供參考。
關鍵詞:?溶解氧預測;河蟹養殖;粒子群優化算法;長短時記憶神經網絡
中圖分類號:?S126??文獻標識碼:?A??文章編號:?1000-4440(2021)02-0426-09
Abstract:?To predict the mass concentration of dissolved oxygen in Chinese mitten crab ponds accurately, grasp the changing trend of the mass concentration of dissolved oxygen timely and take preventive and control measures in advance to reduce the risk in Chinese mitten crab culturing, a model for predicting the mass concentration of dissolved oxygen in Chinese mitten crab ponds based on particle swarm optimization (PSO) and long short-term memory (LSTM) neural networks was proposed. The mass concentration of dissolved oxygen in Chinese mitten crab ponds was predicted after optimizing LSTM model parameters by PSO algorithm. The results showed that the PSO-LSTM model was not only superior to the ARIMA model, but also had higher prediction accuracy compared with other LSTM models. In the predictions at 10 consecutive time points, the average percentage error of the PSO-LSTM model reduced by 2.55%, 1.891% and 4.055% respectively, compared with the LDO-LSTM, LSTM and ARIMA models. It can be seen that the PSO-LSTM model has good accuracy and stability in the prediction of the mass concentration of dissolved oxygen in Chinese mitten crab ponds, and can provide a reference for accurate prediction and regulation of water quality in Chinese mitten crab culturing.
Key words:?prediction of dissolved oxygen;culturing of Chinese mitten crab;particle swarm optimization algorithm;long short-term memory neural networks
河蟹,學名中華絨螯蟹,俗稱大閘蟹。河蟹養殖是中國很多地區實施精準扶貧、拉動經濟增長、促進農民增收的重要突破口。溶解氧(Dissolved oxygen,DO)即溶解于水中的分子態氧,是集約化河蟹養殖成功與否的關鍵因素之一,其含量多少關乎河蟹的生長速度、發病率、死亡率,以及蟹塘中飼料的利用率和有害物質的產生量等。準確預測蟹塘中溶解氧的含量,有利于及時掌握溶解氧的變化趨勢,提前采取防控措施,從而降低河蟹養殖風險,增加養殖經濟效益,同時還對水質監測和疾病防控等生態問題具有預警意義。
近年來,隨著機器學習和深度學習等技術的發展,越來越多的研究者將此類方法應用于水體溶解氧的預測研究中。劉雙印等[1]采用支持向量機方法構建了基于蟻群優化的LSSVR溶解氧預測模型?;戮甑萚2]提出基于K-means聚類和極限學習機(Extreme learning machine,ELM)結合的溶解氧預測模型,降低了不同趨勢樣本間的干擾,提升了預測準確度。Khan等[3]提出了模糊線性回歸的溶解氧預測方法,與貝葉斯方法相比均方誤差更低。吳慧英等[4]提出了主成分分析法(Principal component analysis, PCA)和SVR的池塘溶解氧預測模型,提取影響養殖水體溶解氧濃度的關鍵指標,降低模型輸入變量的維度,提高了模型的訓練速度。以上諸如支持向量機、K-means聚類等淺層的機器學習方法在有限樣本和計算單元的情況下對復雜函數的表征學習能力有限,普遍缺乏長效性。
深度學習方法通過深層的非線性網絡結構可以實現利用少量參數表示復雜函數,更有助于挖掘數據的內在信息,具有強大的數據學習能力和泛化能力。循環神經網絡(Recurrent neural network, RNN)作為深度學習處理時間序列任務的經典網絡結構,在時序數據預測中表現突出,但是隨著序列長度的增加存在梯度爆炸或梯度消失風險,性能受到制約[5-6]。而基于RNN改進的長短時記憶網絡(Long short-term memory, LSTM)[7]加入了細胞狀態單元,較好地解決了長時間序列的依賴問題。有大量學者利用LSTM模型對時間序列進行預測的研究。溫惠英等[8]利用遺傳算法(GA)對LSTM的神經網絡隱藏層數、訓練次數、dropout等參數進行優化并利用高速公路交通流的數據進行驗證,闡述了不同參數對LSTM模型調優過程中的影響。白盛楠等[9]在使用灰色關聯度分析后搭建了基于LSTM的PM2.5預測模型,為空氣污染的預警和治理提供了新的思路。魏昱洲等[10]利用雙層LSTM網絡結構,對風速數據進行了預測,證明超前10 min內各時間段的預測準確率達到了98.8%以上,具有很好的預測精度。也有少數學者利用LSTM模型對水體溶解氧進行了預測[11-13],取得了一定成果。其中朱南陽等[14]在LSTM的基礎上通過對低溶解氧權重的調節進行預測,在確保溶解氧趨勢擬合的前提下提高了低濃度溶解氧的預測精度。陳英義等[15]提出主成分分析和LSTM相結合的溶解氧預測方法,試驗證明LSTM模型的各項誤差指標都優于其他淺層模型。
選擇不同模型參數對LSTM模型預測性能的提升影響巨大。目前模型參數的選擇往往過多依賴于研究者的經驗和反復調試,需要大量的人力和計算資源。而粒子群優化算法(Particle swarm optimization,PSO)可以在保證模型評價指標最優的前提下,通過不斷迭代尋優過程找到模型的最優參數,從而避免了依據經驗選取參數而導致的預測精度低、調參時間長的問題。近兩年,有少量學者開始嘗試用PSO與LSTM相結合的方式對時間序列進行預測研究。楊孟達[16]提出改進PSO-LSTM模型對未來一天日均溫度進行預測,試驗結果表明PSO-LSTM模型有更好的準確性。劉可真等[17]利用PSO-LSTM模型對變壓器中溶解氣體濃度進行了預測,證明相較于傳統預測方法,PSO-LSTM模型可以更好地追蹤油中溶解氣體濃度的變化規律。李萬等[18]采用改進粒子群算法優化LSTM模型并對鐵路客運量進行了預測。宋剛等[19]基于粒子群優化LSTM模型對各類股票的變化曲線進行了預測,證明了該模型具有普遍適用性。
本研究提出一種基于PSO-LSTM模型的蟹塘溶解氧預測方法,首先將LSTM模型中樣本批次、隱藏層單元數、學習率、迭代次數等參數設為優化對象并給予取值范圍,利用PSO算法根據參數范圍初始化各粒子的位置信息并建立初始模型,將模型在驗證集的預測誤差作為粒子的適應度值不斷更新,當滿足最大迭代次數時停止更新優化,利用優化后的各類參數搭建LSTM預測模型對溶解氧進行預測。
1?材料與方法
1.1?數據采集
試驗數據源自江蘇省宜興市高塍鎮河蟹養殖基地,該基地內各池塘面積約為37 000 m2,水深約為1.2 m。每個池塘選取2~3個位置,每個位置分別選取距離水底30 cm、60 cm、90 cm處作為數據采集點布設傳感器(圖1)。
每個數據采集點設有溶解氧質量濃度、溫度、濁度、pH、銨態氮質量濃度、電導率等傳感器,傳感器型號如表1所示。
試驗所選取的數據為位置1-2(圖1)的中層傳感器采集的數據,采集時間為2020年4月11日至2020年5月24日,數據采集間隔時間為10 min,共采集到溶解氧質量濃度、溫度、濁度、pH、銨態氮質量濃度、電導率等有效數據6 226條。其中5月8日采集的部分數據如表2所示。
分析長期監測數據后發現,蟹塘養殖水相關參數每小時內波動范圍較小,其中溶解氧質量濃度和溫度隨著時間呈周期變化。水體溶解氧質量濃度在清晨和傍晚較高,而中午隨著水溫升高,盡管水草等植物光合作用增強,但是水中好氧因子也多,因此水中溶解氧質量濃度降低。除此之外,溶解氧質量濃度隨著季節的不同也呈現明顯的周期變化,而pH、銨態氮質量濃度、濁度、電導率等參數隨溶解氧質量濃度的變化呈振蕩變化特點,無明顯的線性關系。
1.2?數據預處理與相關性分析
由于水下環境、設備腐蝕和人為干預等因素的影響,傳感器的原始數據存在缺失值或異常值,在預處理階段對獲取到的6 226條原始數據采用均值法(公式1)對缺失值進行補充和異常值替換。
為了降低數據維度,篩選出與溶解氧質量濃度相關性較高的影響因子,采用SPSS工具的皮爾遜相關系數法(Pearson correlation coefficient)進行相關性分析。結果表明,溶解氧質量濃度與溫度(相關系數-0.150**)、濁度(0.338**)、pH值(0.811**)、銨態氮質量濃度(-0.118**)具有顯著相關性(P<0.01), 而與電導率(-0.040)的相關性較低,因此選擇溫度、濁度、pH、銨態氮質量濃度等主要影響因子作為模型輸入參數。
1.3?數據歸一化
為了消除奇異樣本數據,減少模型訓練時間,通過公式(2)對數據進行歸一化,將原數據映射到[0,1]之間。并將歸一化后的數據按照8∶1∶1劃分訓練集、驗證集和測試集。
1.4?模型構建
1.4.1?長短時記憶網絡(LSTM)?LSTM是一種特殊的RNN結構。為了解決傳統RNN在長序列訓練過程中的梯度彌散問題,LSTM引入了特殊的“門”結構。LSTM網絡結構如圖2所示,由輸入門、遺忘門、輸出門和細胞單元組成[7]。
圖2中ft是遺忘門,決定上一時刻的細胞中有多少信息需要傳遞到當前時刻;it是輸入門,用來控制當前單元嵌入細胞狀態的程度;ot是輸出門,輸出門結合了細胞狀態用來輸出;Ct是記憶單元,用來記錄不同門結構情況下細胞的狀態;ht是輸出。各個門之間的計算過程如下:
其中Wf,Wi,Wc,Wo是各個門的權重,bf,bi,bc,bo是各個門的偏置項。通過上述計算,LSTM可以利用門控單元進行長序列的信息傳遞,從而避免長期依賴問題。
1.4.2?粒子群優化算法(PSO)?粒子群優化算法的思想源于對鳥類覓食行為的研究,鳥群通過搜尋目前離食物最近的鳥的周圍區域,利用個體的飛行經驗判斷食物所在并不斷向集體共享信息,從而使得整個群體快速獲得覓食路線的最優解[20]。PSO將群體中的個體看作在空間中進行搜索的粒子,每個粒子隨機得到一組隨機解,每個解都有特定的位置、速度和適應度,粒子在空間的搜尋過程中不斷跟蹤空間內最優解調整自身的參數,從而完成從局部最優到全局最優的搜索過程。
式中,ω為慣性權重,控制粒子在局部最優和全局最優中的權重分配;c1和c2為加速因子,用以調整飛行的步長,一般非負;r1和r2為值在[0,1]之間的隨機數;Xkid,Vkid,Pkgd,Pkid分別對應該時刻下粒子的位置、速度、局部最優解和全局最優解。
1.4.3?粒子群優化算法優化LSTM模型參數流程?LSTM盡管在一定程度上解決了傳統RNN的梯度彌散問題,但是由于門結構的加入增加了參數量,需要不斷調整參數才能達到最優的效果。本研究利用粒子群優化算法對LSTM模型中樣本批次、隱藏層單元數、學習率、迭代次數等參數進行尋優,確定溶解氧質量濃度預測模型的最佳參數。PSO-LSTM模型結構如圖3所示:
算法流程:步驟1,將LSTM的樣本批次、隱藏層單元數、學習率、迭代次數作為優化對象,根據預先設定的范圍初始化粒子的位置信息。步驟2,初始化粒子群,劃分訓練集和測試集,并將步驟1中初始化參數輸入LSTM網絡進行訓練,將模型預測誤差作為粒子的適應度值。步驟3,比較每個粒子的適應度值及其經歷過的最好位置,確定粒子的最優位置,并根據公式9和公式10更新粒子的速度和位置,計算新一輪粒子適應度值。步驟4,當搜尋過程達到預先設定的最大迭代次數,或粒子的適應度值不再隨迭代次數明顯變化時停止更新,并獲得此時LSTM模型的樣本批次、隱藏層單元數、學習率、迭代次數值。步驟5,將步驟4獲得的各項數值輸入LSTM模型進行訓練和預測。
1.4.4?模型評價指標?為了驗證PSO-LSTM模型對溶解氧質量濃度的預測性能,選取平均絕對百分比誤差(MAPE)、均方根誤差(RMSE)、均方誤差(MSE)作為模型評價指標。各評價指標計算公式如下:
式中,N為預測的總次數,yi代表真實值,y^i代表預測值,MAPE表示預測值與真實值的百分誤差,MSE反映了預測值與真實值之間偏差的期望值,RMSE是均方誤差的算術平方根。
1.4.5?PSO-LSTM模型驗證對比模型的選擇?為了驗證PSO-LSTM模型的有效性,選擇單一LSTM模型、自回歸移動平均模型(ARIMA)和低溶解氧預測模型(LDO-LSTM)作為對比模型。ARIMA模型是研究時間序列的重要模型,由自回歸模型(AR)與滑動平均模型(MA)結合而成,僅需要對數據進行平穩性檢驗和差分即可搭建模型,具有適用范圍廣、預測誤差小的特點。由于蟹塘溶解氧質量濃度偏低時危害更大,有學者通過更改損失函數的權重建立了LDO-LSTM模型提升低溶解氧時預測精度[10],該模型根據溶解氧真實值在反向傳播時給損失函數分配不同的權重,使網絡更關注低溶解氧質量濃度時刻的特征,取得了良好的預測精度。
1.4.6?PSO-LSTM模型參數設置?本試驗環境為Anaconda,編程語言為Python3.6,模型訓練框架為基于Keras的Tensorflow1.4。LSTM模型的輸入層神經元數量為4,隱藏層數量為1,輸出層神經元數量為1,預測所需步長為40。訓練過程中用Adam算法優化參數,將樣本批次、隱藏層單元數、學習率、迭代次數設置為待優化參數,具體取值范圍設置如下:樣本批次取值范圍為[4,128],隱藏層單元數為[2,20],學習率為[0.000 1,0.010 0],迭代次數為[30,300]。粒子群優化算法參數設置為:粒子群數量為20,加速因子c1=c2=2,慣性權重ω設置為0.8,最大迭代次數為300。ARIMA中階層(p)、階數(q)和差分(d)分別設置為1、1、2。LSTM模型學習率設置為0.001,樣本批次為32,迭代次數為100,隱藏層數量為1,每層神經元數量為10。LDO-LSTM模型的學習率為0.001,時間步長為10,輸入層節點數為4,隱藏層節點數為20。
2?結果
選取不同模型對蟹塘溶解氧質量濃度進行預測,各模型在測試集上的部分預測曲線和百分誤差分別如圖4、圖5所示。
從圖4可以看出,ARIMA模型在平滑區間的預測值與真實值曲線趨勢基本擬合,但整體在時間上具有一定的滯后性,且部分點的預測值和真實值存在較大誤差;LSTM模型相較于ARIMA模型減少了平均誤差,具有更好的擬合曲線,但是在低質量濃度溶解氧的預測上普遍存在偏大的現象;而LDO-LSTM模型由于調整了在低溶解氧質量濃度時的權重分配,因此在繼續保持了LSTM模型優點的基礎上,還在低溶解氧質量濃度的預測上有較好的表現,但仍有部分時間段在時間上存在滯后性;PSO-LSTM模型相比較于其他模型在整體上曲線擬合和縮短時間滯后性上都得到了提升,預測值更貼近于真實值,說明PSO-LSTM模型比其他模型有更好的預測精度。
從圖5可以看出,ARIMA、LSTM和LDO-LSTM模型部分相鄰點的預測誤差會出現“跳崖”現象,波動較大。而PSO-LSTM模型的預測誤差曲線更加平滑,誤差波動較小,具有很好的穩定性。
為了更加直觀地反映各模型的預測效果,選擇MSE、RMSE和MAPE 3個評價指標對4種模型進行評價(表3)。4種模型用于蟹塘溶解氧質量濃度預測的精度從高到低依次為PSO-LSTM模型、LDO-LSTM模型、LSTM模型和ARIMA模型。其中,PSO-LSTM模型的MSE、RMSE、MAPE值分別是0.013、0.114、0.354,與ARIMA模型相比MSE、RMSE、MAPE值分別降低了0.035、0.106、0.308,與單一的LSTM模型相比MSE、RMSE、MAPE值分別降低了0.016、0.058、0.18,與LDO-LSTM模型相比MSE、RMSE、MAPE值分別降低了0.009、0.035、0.116??梢?,利用PSO進行參數優化后的LSTM模型在溶解氧質量濃度預測上整體表現突出,預測值和真實值之間的偏差小,準確性和穩定性提升明顯。
為了進一步比較不同模型在連續性預測中的表現,選取測試集中未來連續10個時間點的預測值和真實值進行比較分析,結果如表4所示。可以看出,PSO-LSTM模型在測試集連續10個時間點中單值最大誤差為1.496%,而LDO-LSTM、LSTM和ARIMA模型的最大誤差分別為4.959%、3.140%,和7.245%。另外PSO-LSTM模型在10個采集點的平均絕對誤差為0.658%,相較于LDO-LSTM、LSTM和ARIMA等模型的誤差分別降低了2.550個百分點、1.891個百分點、4.055個百分點,證明PSO-LSTM模型在連續性、長期性的蟹塘溶解氧質量濃度預測方面具有很高的準確性,對于溶解氧質量濃度變化情況的提前預警和調控具有重要意義。
3?討論
本研究針對采集到的蟹塘水質數據先進行變量間皮爾遜相關性分析,確定影響溶解氧質量濃度的主要變量,再結合目前主流的時間序列模型LSTM,利用粒子群優化算法優化LSTM模型的超參數,根據優化結果搭建PSO-LSTM模型研究蟹塘溶解氧質量濃度變化規律。通過試驗對比發現:(1)對數據進行相關性分析可以有效降低訓練數據的維度,減少訓練時間,提升預測精度。(2)LSTM網絡模型能較好地解決ARIMA模型在溶解氧質量濃度預測中的滯后性問題,并且提高準確性。(3)PSO-LSTM模型的精度較單一的LSTM有明顯提升,說明參數的優化對模型預測精度具有較大影響。(4)相比于ARIMA、LSTM、LDO-LSTM模型,PSO-LSTM模型的預測值和真實值之間的偏差小,準確性和穩定性提升明顯,尤其是PSO-LSTM模型在未來一個時間點和多個時間點的預測精度優于其他模型,能夠較好地應用于蟹塘溶解氧質量濃度的預警預報。
綜上所述,基于PSO-LSTM模型預測蟹塘溶解氧質量濃度具有較好的預測精度,可以在蟹塘水質預警、水質環境監測、溶解氧質量濃度自動精準調控等方面發揮作用。但是在試驗過程中僅考慮了水體內部不同因子對溶解氧質量濃度的影響,并沒有考慮氣壓、風速等外在環境因素,在未來的實際應用中需要對數據進行更全面的整合與分析,進一步提升預測的準確性和穩定性。
參考文獻:
[1]?劉雙印,徐龍琴,李道亮,等. 基于蟻群優化最小二乘支持向量回歸機的河蟹養殖溶解氧預測模型[J].農業工程學報,2012,28(23):167-175.
[2]?宦?娟,劉星橋. 基于K-means聚類和ELM神經網絡的養殖水質溶解氧預測[J].農業工程學報,2016,32(17):174-181.
[3]?KHAN V C. Comparing A Bayesian and fuzzy number approach to uncertainty quantification in short-term dissolved oxygen prediction[J]. Journal of Environmental Informatics, 2017, 30(1):1-16.
[4]?吳慧英,楊日劍,張?穎,等. 基于PCA-SVR的池塘DO預測模型[J].安徽大學學報(自然科學版),2016,40(6):103-108.
[5]?BENGIO Y, SIMARD P, FRASCONI P. Learning long-term dependencies with gradient descent is difficult[J]. IEEE Transactions on Neural Networks, 1994, 5(2): 157-166.
[6]?楊?麗,吳雨茜,王俊麗,等. 循環神經網絡研究綜述[J].計算機應用,2018,38(S2):1-6,26.
[7]?HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[8]?溫惠英,張東冉,陸思園. GA-LSTM模型在高速公路交通流預測中的應用[J].哈爾濱工業大學學報,2019,51(9):81-87,95.
[9]?白盛楠,申曉留. 基于LSTM循環神經網絡的PM_(2.5)預測[J].計算機應用與軟件,2019,36(1):67-70,104.
[10]魏昱洲,許西寧. 基于LSTM長短期記憶網絡的超短期風速預測[J].電子測量與儀器學報,2019,33(2):64-71.
[11]LIU S Y, XU L Q, LI D L. Prediction of dissolved oxygen content in river crab culture based on least squares support vector regression optimized by improved particle swarm optimization[J]. Computers and Electronics in Agriculture, 2013, 95:82-91.
[12]TA X X, WEI Y G. Research on a dissolved oxygen prediction method for recirculating aquaculture systems based on a convolution neural network[J]. Computers and Electronics in Agriculture, 2018, 145: 302-310.
[13]LIU Y Q,ZHANG Q,SONG L H. Attention-based recurrent neural networks for accurate short-term and long-term dissolved oxygen prediction[J]. Computers and Electronics in Agriculture,2019,165:1-11.
[14]朱南陽,吳?昊,尹達恒,等. 基于長短時記憶網絡(LSTM)的蟹塘溶解氧估算優化方法[J].智慧農業,2019,1(3):67-76.
[15]陳英義,程倩倩,方曉敏,等. 主成分分析和長短時記憶神經網絡預測水產養殖水體溶解氧[J].農業工程學報,2018,34(17):183-191.
[16]楊孟達. 基于改進PSO-LSTM神經網絡的氣溫預測[J].現代信息科技,2020,4(4):110-112.
[17]劉可真,茍家萁,駱?釗,等. 基于PSO-LSTM模型的變壓器油中溶解氣體濃度預測方法[J]. 電網技術,2020,44(7):2778-2785.
[18]李?萬,馮芬玲,蔣琦瑋. 改進粒子群算法優化LSTM神經網絡的鐵路客運量預測[J].鐵道科學與工程學報,2018,15(12):3274-3280.
[19]宋?剛,張云峰,包芳勛,等. 基于粒子群優化LSTM的股票預測模型[J].北京航空航天大學學報,2019,45(12):2533-2542.
[20]李愛國,覃?征,鮑復民,等. 粒子群優化算法[J].計算機工程與應用,2002(21):1-3,17.
(責任編輯:張震林)