朱永健,劉金福,潘曉文*,金 晶
(1.福建農(nóng)林大學 計算機與信息學院,福建 福州;2.福建農(nóng)林大學 林學院,福建 福州;3.福州市臺江環(huán)境監(jiān)測站,福建 福州)
化學需氧量(COD)和濁度是監(jiān)測水質(zhì)的常規(guī)指標,可以反映水體中有機物污染程度和水透明度。光學法中的紫外吸收光譜法由于操作簡單、分析快速以及無二次污染等優(yōu)點,近年來被廣泛應(yīng)用于水質(zhì)監(jiān)測領(lǐng)域[1]。現(xiàn)有研究較多的單波長、多波長方法無法應(yīng)用光譜的全部數(shù)據(jù),但應(yīng)用全光譜數(shù)據(jù)構(gòu)建水質(zhì)預(yù)測模型時,傳統(tǒng)的最小二乘法(LS)和偏最小二乘法(PLS)在擬合此類復(fù)雜非線性數(shù)據(jù)時表現(xiàn)較差。深度學習方法具有處理大規(guī)模數(shù)據(jù)和解決非線性問題的能力,因此被逐漸應(yīng)用于水質(zhì)檢測領(lǐng)域[2]。在構(gòu)建基于深度學習的水質(zhì)檢測模型時,由于水質(zhì)成分復(fù)雜多變,且樣本標注成本高昂,通常難以獲取大規(guī)模標注數(shù)據(jù)集。因此,為了解決訓練樣本少,提高使用深度學習方法構(gòu)建水質(zhì)參數(shù)預(yù)測模型的魯棒性和準確性,本研究提出利用紫外吸收光譜獲得的全光譜數(shù)據(jù),建立基于小樣本學習的Siamese CNN 水質(zhì)參數(shù)預(yù)測模型,以提高深度學習模型在水質(zhì)檢測領(lǐng)域的實用性。
實際水樣來自于福建省閩江流域福州段,COD 濃度測定采用重鉻酸鉀COD 回流法,濁度濃度測定采用濁度計法。實驗室標準水樣來源于國家有色金屬及電子材料分析測試中心提供的標準溶液稀釋得到,為在實驗中檢驗?zāi)P偷姆夯芰Γ渲玫臉藴仕畼影▎螀?shù)溶液(COD、濁度、硝酸鹽氮),兩參數(shù)混合溶液(COD 和濁度、COD 和硝酸鹽氮、濁度和硝酸鹽氮)、三參數(shù)混合溶液三種類型。
紫外吸收光譜數(shù)據(jù)依據(jù)朗伯- 比爾定律,使用高利GLA600-UVN 紫外光纖光譜儀進行測量。
在獲取樣本的紫外吸收光譜過程中,CCD 探頭會隨時間產(chǎn)生波動,從而引入噪聲,本研究通過增加獲取每個光譜數(shù)據(jù)點時的平均測量次數(shù),降低這種噪聲對結(jié)果的影響。除光譜儀內(nèi)部會產(chǎn)生噪聲外,設(shè)備的使用及光源、光路不穩(wěn)定等同樣會產(chǎn)生噪聲,對于此類噪聲,采用小波變換進行濾除[3]。
小波變換是把基本小波函數(shù) ψ (t)做位移 τ后,在不同尺度 α下與待測信號 χ(t)做內(nèi)積。表達式為:
轉(zhuǎn)換為等效的頻域表達式為:
公式(1)、(2)中,X(w) 和 ψ(w) 分別為x(t) 和 ψ(t)的傅里葉變換。
軟閾值濾波得到的小波系數(shù)整體連續(xù)性較好,因此本研究使用軟閾值去噪,公式為:
公式(3)中,wλ為軟閾值濾波的收縮函數(shù),s gn(w)表示W(wǎng) 的符號。圖1 為濾波前后對比效果圖。

圖1 濾波前后對比圖
本文采用隨機擦除(Random Erasing)方法進行數(shù)據(jù)增強,即隨機遮擋訓練集中一定比例的數(shù)據(jù),且保持數(shù)據(jù)的長度不變,以提高模型的泛化能力,防治出現(xiàn)過擬合情況。
孿生神經(jīng)網(wǎng)絡(luò)(Siamese Network)能夠從有限的數(shù)據(jù)中學習特征。Siamese Network 可以同時對兩個不同的水質(zhì)光譜(光譜a 和光譜b)進行編碼和特征提取,生成與水質(zhì)光譜對應(yīng)的特征向量processed_a 和processed_b。經(jīng)過多模型對比后,本研究選擇CNN 作為BackBone。CNN 特征提取后,兩個特征向量將被輸入到歐式距離計算層,以計算出a 和b 之間的距離(distance),并根據(jù)預(yù)設(shè)的閾值來判斷它們是否相似。歐氏距離計算公式如下:
使用歐氏距離進行相似性檢測可以找到與輸入光譜數(shù)據(jù)最接近的樣本,這為模型提供了先驗知識。此外,這種將光譜數(shù)據(jù)兩兩組合為樣本對的方法,變相地擴充了訓練數(shù)據(jù)集。在數(shù)據(jù)量相對較少的情況下,通過這種方式也可以訓練出具有較好性能的深度神經(jīng)網(wǎng)絡(luò)模型。
Siamese CNN 的特征學習網(wǎng)絡(luò)結(jié)構(gòu)如圖2(a)所示,水質(zhì)參數(shù)預(yù)測網(wǎng)絡(luò)結(jié)構(gòu)如圖2(b)所示。

圖2 Siamese CNN 特征學習和水質(zhì)參數(shù)預(yù)測網(wǎng)絡(luò)結(jié)構(gòu)
通過測試集水質(zhì)參數(shù)識別值與真實值的相關(guān)系數(shù)R2,最大絕對誤差(MAE),均方根誤差RMSE 三個指標對模型的性能進行評價,R2、MAE、RMSE 按公式(5)(6)(7)計算。
式中:n 為樣本量,y^ 為識別值,yi為真實值,y為樣本均值。R2值越接近于1,MAE 值和RMSE 值越小,表明模型的識別效果越好。
本研究構(gòu)建了以下模型用于水質(zhì)參數(shù)預(yù)測:孿生全連接網(wǎng)絡(luò)(Siamese FC)采用全連接神經(jīng)網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)、Siamese CNN 采用卷積神經(jīng)網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),以及CNN、梯度提升決策樹(GBDT)、隨機森林(RF)以及偏最小二乘法(PLS)。我們對這六種模型的預(yù)測精度進行了比較,并將水樣按照一定比例劃分為訓練集和測試集。
2.1.1 同類標準水樣預(yù)測
同類標準水樣是指訓練集和測試集的樣本屬于相同類型的水樣。同類水樣的預(yù)測是實際檢測過程中最常見的情況。本研究按照3:1 的比例劃分訓練集和測試集,各模型在測試集上對COD 濃度的預(yù)測結(jié)果見表1。

表1 同類標準水樣測試集COD 濃度預(yù)測結(jié)果
如表1 所示,Siamese CNN 的三個評價指標明顯優(yōu)于其他模型。通過對比COD 標準溶液和三參數(shù)混合溶液的預(yù)測精度,發(fā)現(xiàn)在面對更復(fù)雜的水環(huán)境時,模型的預(yù)測精度會有所下降。但與其他模型相比,Siamese CNN 的評價指標下降幅度最小,表明模型魯棒性最優(yōu)。
2.1.2 不同類標準水樣預(yù)測
不同類水樣是指訓練集和測試集中的樣本不屬于相同類型的水樣。僅對同類水樣進行預(yù)測可能無法評估模型的泛化能力,也無法應(yīng)對實際水質(zhì)檢測中水質(zhì)參數(shù)可能發(fā)生變化的情況。因此,本研究將兩參數(shù)混合溶液作為訓練集,三參數(shù)混合溶液作為測試集,測試集中COD 和濁度濃度的預(yù)測結(jié)果見表2。

表2 不同類標準水樣測試集COD 濃度預(yù)測結(jié)果
如表2 所示,模型預(yù)測精度較表1 普遍下降。但Siamese CNN 的降幅最小,表明該模型較其他模型具備出色的泛化能力,可以應(yīng)對水質(zhì)參數(shù)濃度發(fā)生變化的情況。對于濁度濃度的預(yù)測,Siamese CNN 同樣表現(xiàn)出最佳的預(yù)測性能。
為進一步提高模型的預(yù)測精度,對訓練集進行數(shù)據(jù)增強操作,隨機擦除比例為0.2。數(shù)據(jù)增強后,Siamese CNN 對測試集的預(yù)測結(jié)果見表3,三個評價指標均顯著提升,表明該數(shù)據(jù)增強方法可以有效提高模型的預(yù)測精度。

表3 掩膜后樣本類5 測試集COD、濁度預(yù)測結(jié)果
為進一步驗證其實用性,將該模型應(yīng)用于實際水樣預(yù)測,預(yù)測結(jié)果見表4。從表4可以看出,COD 和濁度的R2均達到了0.97,表明該模型可以成功用于實際水樣檢測。
基于小樣本學習的Siamese CNN 模型具有較強的特征提取能力,可以實現(xiàn)小樣本數(shù)據(jù)集的COD 和濁度濃度預(yù)測,結(jié)合數(shù)據(jù)增強方法,可進一步提高模型的預(yù)測精度。將紫外吸收光譜的全光譜數(shù)據(jù)與Siamese CNN 模型相結(jié)合,構(gòu)建了一種高效穩(wěn)定的水質(zhì)COD 和濁度濃度預(yù)測模型。該模型具有更高的識別精度和更強的泛化能力,為在線監(jiān)測水體中COD 和濁度的污染程度提供了一種新的技術(shù)支持。