童俊



摘 要:?介紹了用于水質預測的Support Vector Regerssion (SVR)及Autoregressive Integrated Moving Average model (ARIMA)兩種回歸模型的優缺點,以金澤水庫取水口水質氨氮為例,構建SVR-ARIMA組合模型,通過模型和實際數據驗證了SVR-ARIMA模型的可預測性,預測效果優于單模型,短期的水質預測模型較準確的預測了金澤水庫取水口的水質,可為水庫取水水質提供支撐。
關鍵詞:?水質; 時間序列數據; SVR; ARIMA; SVR-ARIMA模型
中圖分類號: TP 311
文獻標志碼: A
Prediction of Ammonia Nitrogen in Jinze Reservoir Based on
SVR-ARIMA Combination Model
TONG Jun
(Shanghai Municipal Monitor Center of Water Supply, Shanghai 200002, China)
Abstract:
This paper introduces the advantages and disadvantages of SVR and ARIMA regression models for water quality prediction. The SVR-ARIMA combination model is constructed based on the ammonia nitrogen data of Jinze Reservoir. The model and actual data verification shows that the SVR-ARIMA model is predictable. The prediction effect is better than the single model. The short-term water quality prediction model is used to predict the water quality of the reservoir intake accurately and give the support to ensure water quality of the reservoir.
Key words:
water quality; time series data; SVR; ARIMA; SVR-ARIMA model
0 引言
隨著生產生活用水的增加,水資源的利用成為研究的熱點[1],而水質是水資源能否高效合理利用的關鍵,因此研究水質的變化趨勢是極其迫切和必要的。以往對于水質的研究常常局限于從生物化學角度出發[2],從水源地采樣進行生物、化學機理性分析,研究其組成成分,按照人為規定的指標對其參數進行比對以確定所采水樣的各項指標是否達到一定的標準[3],這一類的研究特點是效果好、研究檢測目標明確,但從采樣到分析結果報告,水質檢測周期較長,對于一些突發的水質污染反應時間慢,無法及時應對。因此有必要進行基于非機理性的水質參數預測[4]。為了對水質參數進行更好的預測研究,需要分別對其線性特點和非線性特點進行有針對性的分析。支持回歸向量機模型(SVR)[5]通常對于非線性的數據有一定的預測效果,而ARIMA模型[6]則對于線性的時間序列預測有較好的效果,本文采取結合SVR和ARIMA模型兩者的優勢,通過優勢互補,建立SVR-ARIMA組合模型[7]對水質進行預測,以氨氮為例,研究其變化規律。
1 數據來源和數據特征分析
1.1 數據來源
本文數據的時間為2017年11月—2018年11月,水質數據以氨氮為例。水質數據是每小時金澤水庫取水口的在線實測數據。由于水質數據每小時變化的緩慢性和受上游水質變化的影響,因此呈現出一定的時間序列特性。
1.2 水質數據特性分析
如圖1所示。
實線為金澤水庫取水口的水質氨氮參數,紅色虛線則反映了整個時段的水質氨氮指標的變化趨勢。通過分析,取水口的水質數據主要呈現出如下的特點:第一、夏季4—5月是上游來水較大,藻類增多水質變化呈現出較強的非線性特點;第二、8—9月由于秋季上游來水減少,水質變化較小;第三、在冬季到春季10—3月由于河流水量減少,汛期未到,河流兩岸排污,氨氮總體含量偏高。除了一些極端的天氣如驟降暴雨、臺風的侵襲等影響,其他時段水質的變化趨勢總體較為平穩。
2 水質預測模型
2.1 支持向量機回歸模型SVR
Vapnik及其合作者提出了支持向量機(SVM)[8],SVR作為SVM的一個變種的模型,由于其很強的非線性擬合能力,目前被用于各行各業,如電力負荷預測、金融股票預測等領域。支持向量回歸及SVR通過引入ε不敏感損失函數從而達到實現回歸的目的,例如,一組訓練樣本數據:
的回歸問題可以看成要找到一個函數f∈F={f|f·Rn→R}
(F為假設函數集)使得在訓練樣本上該函數值f(x)與期望值y之間的誤差不大于給定的值ε。
現假設f(x)=ωT(x)+b,其中ω為權重矢量,b為閾值。引入不敏感損失函數ε,支持向量機回歸表示為下面的問題,如式(1)—(3)。
其中C>0為懲罰參數,表示樣本擬合精度核函數回歸模型的復雜度之間的折中參數,C值越大表示擬合效果越好,松弛變量用
ξi和ξ*i表示。引入拉格朗日乘子αi和α*i及核函數,再利用對偶原理,將上式轉化為其對偶問題,如式(4)—(7)。