











摘 要:近年來水質預測成為水環境管理領域的熱點問題,但是水環境本身的復雜性和動態性導致水質預測時預測精度低、模型穩定性差。針對這些問題,基于最優變分模態分解(Optimality Variational Mode Decomposition,OVMD)、時間卷積網絡(Temporal Convolutional Network,TCN)、自回歸模型(Autoregression,AR)提出了一種新的水質預測模型。首先,采用 OVMD 對原始數據進行分解,得到若干個子序列;然后,將分解的子序列作為TCN模型和AR模型的輸入進行水質預測,并將兩種模型的預測結果進行疊加重構得到最終預測結果;最后,采用龍華溪監測站的總磷數據進行實驗驗證。結果表明,OVMD-TCN-AR水質預測模型明顯優于長短時記憶網絡(Long Short Term Memory networks,LSTM)和長短期時間序列網絡(Long- and Short-term Time-series network, LSTNet),OVMD-TCN-AR水質預測模型的平均絕對誤差為 0.00660,均方根誤差為0.01166,MAPE為0.0494,擬合度為0.97,說明OVMD-TCN-AR水質預測模型具有較高的可靠性和應用價值。
關鍵詞:水質;預測;最優變分模態分解;時間卷積網絡;自回歸模型
中圖分類號:X82 文獻標志碼:A 文章編號:1673-9655(2024)05-00-06
0 引言
隨著社會和經濟發展,大量生活和工業廢水的排放導致水質不斷惡化,對水質變化趨勢提前進行預測,有助于及時實施保護措施,達到事前預防的目的,對水資源的保護具有重要意義[1]。
早期的水質預測模型基于統計方法構建,根據歷史水質數據的統計特征、趨勢和周期性等信息,來預測未來水質狀態,常用的統計方法包括多元線性回歸[3]、灰色理論[4]等。隨著機器學習方法的興起,機器學習方法也被廣泛應用于水質預測[2], 利用機器學習方法可以從大量的水質數據中學習規律和模式,從而實現更準確的水質預測,常用的機器學習方法有隨機森林[5]、SVM[6]、循環神經網絡[7]、時間卷積神經網絡TCN[11]等。但是基于上述單個技術的水質預測模型性能一般,水質預測的精度不夠理想。
為了獲得更好的預測效果,近年來研究者們開始將多種技術組合在一起構建水質預測模型。其中,文獻[8]采用了特征注意力、時間注意力和BiLSTM來構建水質預測模型,文獻[9]中將ARIMA和BP神經網絡相組合進行水質預測,文獻[10]采用SDT和Tucker張量分解技術構建水質預測模型。以上組合模型在一定程度上提高了水質預測的精度,有效減少了單個模型的預測偏差,但是這些模型主要關注的是水質數據的長期趨勢,具有一定的局限性。水質數據同時具有長期和短期模式,數據的變化既有隨機性同時也有明顯的周期性,若僅僅對長期模式或短期模式進行預測,不僅預測精度較低,而且水質預測模型無法適應不同采樣站點之間的數據差異,無法實現模型的泛化性。
為了兼顧長期和短期模式的影響,本文提出一種基于OVMD-TCN-AR的水質預測模型。首先,利用OVMD(Optimized Variance Mode Decomposition)算法先將原始水質數據分解成若干子序列,獲取到時間序列數據中不同頻率的成分。然后,將分解之后的每一個子序列輸入到TCN(Tempora Convolutional Network)模型進行長期模式預測、輸入到AR(AutoRegressive)模型中進行短期模式預測,并將兩個模型的預測結果進行加權求和,使得在水質預測可以同時兼顧長期和短期模式。最后,采用龍華溪監測站采樣的總磷數據進行驗證實驗,并與TCN、LSTM、LSTNET水質預測進行對比。實驗證明,本文預測模型可以綜合處理水質數據間的長期依賴關系和短期依賴關系,能夠有效提高水質預測精度。
1 模型方法
1.1 OVMD
變分模式分解(Variational mode decomposition,VMD)是通過求解頻域變分優化問題估計各個信號分量。當原始信號f被分解為k個分量,為了保證分解序列都是集中在各自中心頻率附近的窄帶信號, VMD需要滿足以下約束變分問題:
(1)
式中:uk—各模態函數;ωk—各模態中心頻率。
為了解決上述的約束最優化問題,需要將約束性變分問題變為非約束變分問題,引入二次懲罰因子α和拉格朗日乘法算子λ,如式(2)所示:
(2)
式中:α—懲罰參數;λ—Lagrangian乘子;t—用于控制拉格朗日乘子的更新速率。
通過交替方向乘子算法進行迭代搜索,取該Lagrange函數的極值點,即可得到無約束變分問題的最優解,其模態函數uk和中心頻率ωk的計算公式如下:
(3)
(4)
上述迭代搜索當滿足下面式(5)的條件時會停止迭代。
(5)
由于VMD 充分考慮了分量的窄帶性質,使濾波頻帶更加集中,得到信號分量的信噪比也更高,但是如何確定分解層數K是一個難題。OVMD采用中心頻率法確定分解層數K,利用殘差指數REI(公式6)確定拉格朗日乘子的更新速率t,在每次迭代過程中都會優化目標函數,從而最大程度地擬合原始數據,得到更準確和可靠的模態函數,加速了分解過程并提高了模型的穩定性。根據OVMD的特點,OVMD對分解非平穩數據具有較好的適應性,因此可以有效處理水質數據中的時間變化和趨勢,提供更可靠和穩定的分解結果。
(6)
1.2 時域卷積網絡(TCN)
TCN是一種基于卷積神經網絡的時間序列建模方法,由多個卷積層和池化層構成,采用了因果卷積、膨脹卷積、殘差連接(Residual connections)等技術,以有效地捕捉時間序列數據的依賴關系。每個卷積層使用固定寬度的卷積核對輸入進行卷積操作,并通過RELU激活函數(公式7)傳遞得到特征序列。對于不同的卷積層,TCN模型能夠學習不同范圍的特征。具體來說,因果卷積使得模型僅從過去的時間點獲取信息,而膨脹卷積通過增大卷積核的空洞間隔來擴展模型的感受野,從而更好地捕捉時間序列中的長期依賴關系。此外,殘差連接允許卷積層的輸出與之前層的輸出直接相加,有助于改善模型的優化和訓練,提高其穩定性和性能。TCN還加入一個丟棄(Dropout)(公式8)技術來防止過擬合。
(7)
式中:y—激活函數;x—輸入值。
(8)
式中:maski—一個與xi相同維度的二進制掩碼向量,其元素值為0或1。maski的生成過程是隨機的。
根據TCN的技術特點,TCN能夠捕捉時間序列數據的長期依賴關系和時間演變特征,適用于對水質數據的長期模式進行預測。
1.3 自回歸模型(AR)
如果一個單變量時序數據{ yt ; t = 1, 2, ...}中,某時間點數據和之前多個時間點的數據滿足線性關系,則稱之為自回歸。公式如下:
(9)
式中:p—自回歸模型的階數,記作AR(p);
α—系數項;ωt—白噪聲。
在構建自回歸模型時,超參數p的選取尤為重要,它代表了預測未來某一時刻的數據所需的歷史時間點數量。通常有兩種常用的準則來確定這個參數,分別是AIC(赤池信息準則)和BIC(貝葉斯信息準則)。AIC和BIC的計算公式如下:
(10)
(11)
式中:L—該模型下的最大似然函數;n—數據數量;k—模型的變量個數。
AR模型能夠模擬數據之間短期內的時間相關性,捕捉時間序列數據的動態變化,從而實現時間上的迭代預測,因此可以使用AR模型對水質數據間的短期變化關系進行預測。
2 實驗準備
2.1 數據來源
本實驗基于2021年福建省莆田市龍華溪監測站點的數據進行研究。該監測站每隔4 h對水體總磷含量進行一次監測,共收集了1440組數據。并將前1000個數據作為訓練樣本,后440個數據作為測試樣本。原始數據的曲線如圖1所示。
圖1 原始數據
2.2 模型評價指標
為了檢驗預測模型的精度度,使用均方根誤差(RMSE)、平均絕對誤差(MAE)、擬合度(R2)和平均絕對百分比誤差(MAPE)4個評價指標對模型進行評估,各個評價指標的計算公式如公式(12)至(15)所示。
(12)
(13)
(14)
(15)
式中:—預測值;y—真實值;n—樣本的數量。對于MAPE、MAE和RMSE指標,指標值越接近0表示真實值和預測值之間的誤差越小,模型的性能越好。擬合度R2越接近1則表示模型對觀測數據的擬合程度越好,模型的性能也就越好。
3 OVMD-TCN-AR水質預測模型構建
3.1 水質數據分解
利用OVMD對總磷時間序列進行分解時,計算不同k值下部分模態的中心頻率,并采用皮爾遜相關系數對相鄰k值模態分量的相關性進行分析,當相鄰模態分量間的相關性達到最大時,即可確定出k的取值。確定好k值之后,進一步利用殘差指數來確定t的值,將t的取值范圍設為0到1,步長設為0.01,根據具體t值進行VMD分解,直到使REI達到最小值。本實驗得到的分解總磷的k值為13、t值為0.75。利用OVMD分解總磷得到的各個分量圖如圖2所示。
總磷的各分量合并之后與原始數據對比如圖3所示,圖中藍色曲線為原始數據,黃色曲線是分量合并之后的數據。通過圖3可以看出,各分量合并之后的曲線與原始數據曲線基本重合,說明總磷的OVMD分解結果和原始數據相比基本一致,能夠很好地還原原始數據的整體形態和趨勢,利用OVMD分解得到的各個分量相對原始數據信息損失很小。
3.2 基于TCN的水質預測
利用TCN構建總磷的預測模型時,TCN的相關參數設置如下:過濾器數量為5、過濾器大小為3、Batch size為32、Epoch為100、優化器是Adam、TCN的膨脹因子為1/2/4,輸入特征為3,輸出特征為1,其中,Batch size表示每次投入訓練的數據量,Epoch表示迭代次數。圖4展示了訓練集和測試集上損失函數的變化情況,損失函數值代表的是預測結果與真實數據之間的誤差,可以看出,隨著迭代次數的增加訓練集和測試集上的損失函數值都在逐漸減小,尤其是在迭代100次以后損失函數值基本收斂,說明模型在訓練過程中逐漸學習到了數據的規律和模式,預測的準確性在逐漸提高。
基于TCN的總磷預測模型的預測結果對比如圖5所示,其中藍色曲線代表預測數據,橘色曲線代表真實數據,基于TCN的總磷預測模型的評價指標如表1所示。通過對比圖5的兩條曲線可以看出,TCN水質預測模型的預測結果在大部分區域基本和真實數據重合,但是在部分區域還存在差距,從表1也可以看出,基于TCN的總磷預測模型的精度(R2)達到了0.8512,說明該預測模型的精度在一般水平之上。
3.3 基于AR的水質預測
本實驗利用AIC和BIC準則確定總磷AR預測模型的滯后階數p,針對不同的p值建立自回歸模型,并計算對應的AIC和BIC值,根據AIC和BIC的最小值選擇最優的p值,最終確定的滯后階數為3。利用AR水質預測模型對總磷的預測曲線如圖6所示,總磷的AR預測模型各個評價指標如表2所示。通過對比圖6的兩條曲線可以看出,AR水質預測模型的預測結果基本和真實數據重合,從表2也可以看出,基于AR的總磷預測模型的精度(R2)達到了0.9996,說明該預測模型的精度非常高。盡管基于AR的總磷預測模型在預測精度上表現出色,但是AR模型本身的特點決定了該預測模型只適用于短期趨勢預測,實驗精度過高很可能是預測模型存在過擬合現象,為了讓水質預測模型具有更好的泛化性和適應性,需要將AR預測模型和TCN預測模型進行綜合,以便使預測模型更好地應對不同的情況。
3.4 基于TCN+AR的水質預測
利用TCN+AR進行水質預測,就是將TCN水質預測模型的預測結果與AR水質預測模型的預測結果進行加權合并,本實驗中TCN預測結果與AR預測結果的權重均取0.5,合并之后的預測效果對比如圖7所示,TCN+AR水質預測模型的具體評價指標如表3所示。從圖7中可以看出藍色預測曲線基本和黃色真實曲線相吻合,說明TCN+AR綜合水質預測模型的預測精度較高,表3中可以看出該預測模型達到了0.9731的高擬合度(R2)。
相比于單獨的TCN水質預測模型,TCN+AR水質預測模型的各個評價指標均有明顯提升,說明TCN+AR相比TCN水質預測模型具有更高的預測精度,說明TCN+AR水質預測模型充分利用了AR的歷史數據分析能力,使得預測結果更加準確。與單獨的AR水質預測模型相比,TCN+AR水質預測模型的預測精度雖然略低,但是該模型通過引入TCN具有了一定的非線性特征提取能力,更能適應復雜的數據模式變化和有效捕捉數據中的長期依賴關系,使水質預測模型具有更好的穩定性。因此, TCN+AR水質預測模型能綜合TCN和AR兩種模型的優勢,保證預測的準確性和穩定性,提高預測性能。
4 模型對比及分析
為了綜合評估OVMD-TCN-AR水質預測模型的性能和效果,選取處理時間序列數據的循環神經網絡LSTM、LSTNet組合預測模型進行對比分析。對比模型的參數通過網格尋優和早停機制來設置,其中,LSTNet的過濾器數量為4、大小為3、神經元數量為64,LSTM中神經元數量為32。三種水質預測模型的預測曲線如圖8所示,各個水質預測模型的具體評價指標值如表 4所示。
從圖8中可以看出,在水質變化趨勢相對緩慢的部分,三種水質預測模型的預測結果基本都能夠擬合真實曲線;但在水質變化較劇烈的部分,尤其是峰值和谷值部分,預測值與實際值存在一定偏差,OVMD-TCN-AR水質預測模型的預測曲線和真實值曲線最接近。從表4可以看出, OVMD-TCN-AR水質預測模型的RMSE(0.0117)和MAE(0.0066)最低、MAPE(0.0494)最低、R2最高,LSTNet水質預測模型的評價指標次之,LSTM水質預測模型的評價指標最差,說明OVMD-TCN-AR水質預測模型的精度最高,OVMD-TCN-AR相對其他模型的預測效果最好。具體分析如下:
(1)對比OVMD-TCN-AR和 LSTNet水質預測模型的評價指標, OVMD-TCN-AR水質預測模型的RMSE提升了約60%、MAE提升了約77%、MAPE提升了約76%、R2提升了約17%,證明OVMD-TCN-AR相對LSTNet模型具有一定的優越性。
(2)相對于LSTM水質預測模型,OVMD-TCN-AR水質預測模型的RMSE提升了約87%、 MAE提升了約90%、MAPE提升了約93%、R2提升了約11%,說明OVMD-TCN-AR水質預測模型比LSTM水質預測模型表現更好、具有明顯的優勢。
通過對比曲線和模型評價指標可以看出,本文水質預測模型相對于對照模型均具有一定的優勢,說明本文水質預測模型具有較好的有效性和可靠性。
5 結論
為了提高水質預測的準確性和精度,本文提出了一種基于最優變分模態分解(OVMD)、時間卷積網絡(TCN)和自回歸模型(AR)的水質預測模型,通過實證驗證顯示,OVMD-TCN-AR水質預測模型相比時域卷積網絡(TCN)、長短時記憶網絡(LSTM)和長期和短期時間序列網絡(LSTNet)能夠更準確地預測水質情況、具有更好的預測性能。OVMD-TCN-AR水質預測模型可為水資源保護和水質治理提供重要的輔助手段,有助于提前調整保護措施和降低事后治理的難度,具有實際應用價值。在今后的工作中,將進一步對該模型在其他水域或特定情境下的應用效果進行探究和驗證,另外,也要進一步探索對水質數據進行多步預測,以提供更長期、更全面的水質保護,從而幫助相關部門更好地制定和實施水環境保護政策和措施。
參考文獻:
[1] 白雯睿,楊毅強,朱雪芹.基于 VMDLSTNet 的水質預測模型[J].科學技術與工程, 2022, 22(22): 9881-9889.
[2] 梁堅.支持向量機在水質評價及預測中的應用研究[D]. 杭州:浙江工業大學, 2009.
[3] 李秋瑤.多元線性回歸模型在河流水質預測中的應用[J].信息系統工程,2023(7):79-82.
[4] 王玉亮,吳利豐.灰色預測法在水資源管理中的應用綜述[J].人民黃河,2023,45(7):86-90.
[5] 胡悅,范小娟.基于隨機森林算法的河南地區地表水水質預測與評價[J].廣東水利水電,2023(7):81-85.
[6] 宋治岑,張順平,盧敏.基于HHO-SVM的水質預測模型及應用[J].水電能源科學,2023,41(8):70-72,47.
[7] 王梅芳,張磊,單衛軍.基于神經網絡的水質預測模型研究[J].自動化博覽,2022,39(12):66-69.
[8] 陳湛峰,李曉芳.基于注意力機制優化的BiLSTM珠江口水質預測模型[J/OL].環境科學:1-14.
[9] 秦梓萱,郭健,許模.基于ARIMA-BP模型的北京市平谷區地下水水質雙尺度預測[J].蘭州大學學報(自然科學版),2023,59(1):121-128.
[10] 羅學剛,呂俊瑞.基于張量特征-GRU和多頭自注意力機制的水質預測模型方法[J].攀枝花學院學報,2023,40(5):89-96.
[11] 陳樹龍,黎志偉,黃祖安,等.基于TCN-LSTM-QR的地表水水質預測模型[J].廣東化工,2023,50(10):182-184,199.
Water Quality Prediction Model based on OVMD-TCN-AR
ZHANG Si-xuan, KANG Yan, SONG Jin-ling, SUN Xun, LIU Xiao-qing
(School of Mathematics and Information Technology of Hebei Normal University of Science amp; Technology, Hebei Agricultural Data Intelligent Perception and Application Technology Innovation Center, Qinhuangdao Hebei 066004,China)
Abstract: In recent years, water quality prediction has become a hotspot in the field of water environment management. However, the complexity and dynamic nature of the water environment itself lead to low prediction accuracy and poor model stability during water quality prediction. To address these issues, a new water quality prediction model were proposed based on Optimality Variational Mode Decomposition (OVMD), Temporal Convolutional Network (TCN), and Autoregression (AR). First, OVMD was used to decompose the original data to obtain several sub-sequences. Then, the decomposed sub-sequences were used as inputs for TCN and AR models for water quality prediction, and the prediction results of the two models were stacked and reconstructed to obtain the final prediction result. Finally, the total phosphorus data from Longhua Creek monitoring station was used for experimental verification. The results showed that the OVMD-TCN-AR water quality prediction model significantly outperforms Long Short Term Memory networks (LSTM) and Long- and Short-term Time-series network (LSTNet). The average absolute error of the OVMD-TCN-AR water quality prediction model was 0.00660, the root mean square error was 0.01166, the MAPE was 0.0494, and the fitting degree was 0.97, indicating that the OVMD-TCN-AR water quality prediction model had high reliability and application value.
Key words: water quality; prediction; optimal variational mode decomposition; time convolutional network; autoregressive model
基金項目:河北省省級科技計劃資助(21370103D);2023年度河北省高等學校科學研究項目(ZC2023123);河北省軟件工程重點實驗室項目(22567637H);河北省軟件工程重點實驗室開放課題(KF2307); 河北省農業數據智能感知與應用技術創新中心開放課題(ADIC2023Y006, ADIC2023Y004, ADIC2023Y005)。
作者簡介:張思萱(2001- ),女,河北石家莊人,碩士研究生,研究方向為水質預測。
通信作者:宋金玲(1973- ),女,河北灤州人,教授,博士,碩士研究生導師,研究方向為數據庫安全與數據分析處理。