邊 冰,趙明政
(華北理工大學(xué),河北 唐山 063210)
水是人類生存和發(fā)展的必要資源,同時(shí)也是經(jīng)濟(jì)發(fā)展過程中的命脈[1]。隨著我國工業(yè)的進(jìn)程不斷發(fā)展,水資源匱乏的增長、飲用水和生活水需求的增加,水質(zhì)、水源和原水的復(fù)雜化、分散化和多樣化等問題日益加劇,使得傳統(tǒng)的生活水生產(chǎn)方面面臨著巨大的挑戰(zhàn)[2]。2011年,中央一號(hào)文件提出我國將要實(shí)施更嚴(yán)格的水資源管理制度,對(duì)水資源監(jiān)測提出了更為嚴(yán)厲的準(zhǔn)則[3]。水質(zhì)預(yù)測對(duì)于水資源的保護(hù)及規(guī)劃起著至關(guān)重要的作用。由于水質(zhì)影響的因素有很多,所以能準(zhǔn)確的預(yù)測水質(zhì)成為國內(nèi)和國外研究的重點(diǎn)。搭建供水安全預(yù)警系統(tǒng)和水質(zhì)監(jiān)測系統(tǒng)是如今的國家所公認(rèn)的避免水質(zhì)污染影響的通用解決供水安全的有效方法。因此做好水質(zhì)早期預(yù)測預(yù)報(bào)工作是解決飲用水的關(guān)鍵所在。目前用于水質(zhì)的預(yù)測方法有5種,分別為灰色模型預(yù)測法、數(shù)理統(tǒng)計(jì)法、水質(zhì)模擬模型法、人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測法和混沌理論預(yù)測法等。張青等人[4]將BP人工神經(jīng)網(wǎng)絡(luò)方法引入到洪湖水質(zhì)模型中,結(jié)果表明BP神經(jīng)網(wǎng)絡(luò)模型具有預(yù)測精度較高、預(yù)測速度較快的特點(diǎn)。鄭鵬等[5]應(yīng)用改進(jìn)的BP網(wǎng)絡(luò)對(duì)遼寧河流水質(zhì)進(jìn)行了預(yù)測,實(shí)驗(yàn)結(jié)果證明改進(jìn)的BP網(wǎng)絡(luò)預(yù)測的總氮值精度明顯提高。Bobbin[6]等運(yùn)用遺傳算法搭建了基于規(guī)則的預(yù)測模型,并將其應(yīng)用到日本的一個(gè)湖泊中,初步成果表明該規(guī)則可從歷史數(shù)據(jù)水質(zhì)指標(biāo)中和環(huán)境變量中識(shí)別。從而使湖泊水體中藻類變化的原因可從這種規(guī)則中得到,并可預(yù)測藻類爆發(fā)的時(shí)間和爆發(fā)的范圍。本文將針對(duì)某水廠2015-2016年兩年的數(shù)據(jù)進(jìn)行分析處理,然后結(jié)合天氣情況,通過PNN神經(jīng)網(wǎng)絡(luò)對(duì)NTU、耗氧量、pH值三個(gè)指標(biāo)進(jìn)行分類預(yù)測,從而采取有效的防御措施來減少損失。
在1989年,D. F. Specht 博士首先提出PNN神經(jīng)網(wǎng)絡(luò),它是有兩個(gè)算法發(fā)展出的并行算法,這兩種算法是貝葉斯分類規(guī)則和Parzen窗的概率密度函數(shù)估計(jì)法[7]。PNN神經(jīng)網(wǎng)絡(luò)在解決分類的問題起著重要的作用。PNN網(wǎng)絡(luò)的優(yōu)勢在于能夠在非線性算法等條件下,非線性學(xué)習(xí)算法所做的工作可以由線性學(xué)習(xí)算法來完成。
PNN是通過RBF網(wǎng)絡(luò)發(fā)展而來的一種前饋型網(wǎng)絡(luò),它的理論依據(jù)利用了Bayes決策理論。PNN適用于模式分類,當(dāng)分布密度SPREAD的值接近0時(shí),構(gòu)成最鄰分類器;當(dāng)SPREAD的值較大時(shí),它構(gòu)成對(duì)幾個(gè)訓(xùn)練樣本的鄰近分類器[8]。
概率神經(jīng)網(wǎng)絡(luò)是一種具有良好性能的分類網(wǎng)絡(luò),因?yàn)樗枰紤]樣本空間的概率特性,所以隱含層的結(jié)點(diǎn)用樣本空間中的典型樣本來表示,一旦確定就不用再訓(xùn)練,只需根據(jù)實(shí)際情況進(jìn)行樣本的增減即可,而且概率神經(jīng)網(wǎng)絡(luò)具有全局優(yōu)化的特點(diǎn)[9]。
分類器是PNN網(wǎng)絡(luò)的本質(zhì),用概率網(wǎng)絡(luò)進(jìn)行分類,確定所屬類別Ci的X維向量,如果已知每個(gè)類別的概率函數(shù)密度fi(X),就可應(yīng)用Bayes分類準(zhǔn)則,如果下式成立,那么X將被分到Ci類[10]。
PiLifi(X)>PjLjfj(X)
(1)
式中:X屬于Ci類的先驗(yàn)概率為Pi,X被錯(cuò)誤分類到Ci類的代價(jià)為Li。
輸入層是PNN網(wǎng)絡(luò)的第一層,它的主要用途是將樣本數(shù)據(jù)傳遞給下一層,樣本記為X=(x1,x2,…,xq)T。
模式層是PNN網(wǎng)絡(luò)的第二層,該層是由RBF神經(jīng)元構(gòu)成。模式層中任何一個(gè)神經(jīng)元的輸入都是相同的,并且一般情況下,樣本矢量的個(gè)數(shù)等于模式層神經(jīng)元的個(gè)數(shù)。訓(xùn)練樣本屬于每個(gè)類別的概率是輸出向量Mij(X)的含義,表達(dá)公式為:
i∈{1,2,…,n},j∈{1,2,…,m}
(2)
式中:所有的模式數(shù)由n表示,模式層神經(jīng)元個(gè)數(shù)由m表示,第一層與第二層的權(quán)值是Wij,δ的含義是平滑因子,并對(duì)分類起著關(guān)鍵性的作用。
求和層是PNN網(wǎng)絡(luò)的第三層。一般的,求和層中的神經(jīng)元連接的節(jié)點(diǎn)是樣本相對(duì)應(yīng)類別。第三層只能計(jì)算同種類別的輸出值之和。其表達(dá)式為:
ωij∈[0,1],i∈{1,2,…,n}
(3)
式中:混合權(quán)重由ωij表示,且需要滿足的條件是:
(4)
根據(jù)(3)可得到最大可能性的輸入樣本屬于Ci類。
輸出層是PNN網(wǎng)絡(luò)的第四層,競爭神經(jīng)元就是該層的神經(jīng)元,接受從求和層輸出的概率密度函數(shù)就是此層的作用,式(1)的功能也是由該層實(shí)現(xiàn)的,O(X)代表神經(jīng)元的輸出量。
O(X)=argmax(Si),i∈{1,2,…,n}
(5)
式(5)的含義為神經(jīng)元輸出為1的是概率密度函數(shù)最大的那個(gè),是將要判別樣本的模式類別,其余神經(jīng)元的輸出為零。因此得出,概率神經(jīng)網(wǎng)絡(luò)將輸入量分到最大后驗(yàn)概率的類別中是由貝葉斯分類規(guī)則完成的。它具有穩(wěn)定性好,并且能夠容忍一定量的錯(cuò)誤樣本的特點(diǎn)[11]。概率神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)如圖1所示。

圖1 概率神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)Fig.1 Basic structure of probabilistic neural network
ANN網(wǎng)絡(luò)設(shè)計(jì)步驟流程圖如圖2所示。

圖2 ANN網(wǎng)絡(luò)設(shè)計(jì)步驟流程Fig.2 ANN network design procedure
基于MATLAB技術(shù)的PNN模型建設(shè)過程如下:
(1)隨機(jī)選取44組樣本數(shù)據(jù),其中30組作為訓(xùn)練樣本,14組作為測試樣本。
(2)將水質(zhì)樣本的目標(biāo)分為3級(jí)。
(3)用Train表示訓(xùn)練數(shù)據(jù),Test表示測試數(shù)據(jù),p_train與t_train分別表示訓(xùn)練數(shù)據(jù)的輸入與輸出,p_test與t_test分別表示測試數(shù)據(jù)的輸入與輸出。
(4)用ind2vec將期望的類別轉(zhuǎn)化為向量。
(5)使用MATLAB中的newpnn函數(shù)建立PNN神經(jīng)網(wǎng)絡(luò),并將SPREAD設(shè)定為1。
(6)用Sim函數(shù)對(duì)訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行仿真,然后判別建立的PNN神經(jīng)網(wǎng)絡(luò)模型是否符合分類標(biāo)準(zhǔn),若不符合則調(diào)整網(wǎng)絡(luò),若符合網(wǎng)絡(luò)結(jié)束。
該水廠的位置處于東部季風(fēng)區(qū),氣候?qū)儆谂瘻貛I海半濕潤氣候,該市平均降水量約為622.2 mm。全市人均飲用水和生活水的占有量為340 m3,大約占有我國人均水資源的16.7%[12]。
近幾年來,隨著經(jīng)濟(jì)快速的發(fā)展,“四點(diǎn)一帶”的建設(shè)使國家對(duì)水資源提出了更高的要求,從而使水資源的供應(yīng)與需求的矛盾逐漸增加。隨著逐年增加的用水和逐年增加的廢水、污水,迫使地表水資源環(huán)境發(fā)生巨大的改變。從而導(dǎo)致水資源越發(fā)緊缺,生態(tài)環(huán)境破壞加劇,出現(xiàn)了一系列水環(huán)境污染問題,進(jìn)而造成了水資源環(huán)境的持續(xù)惡化[13]。
本文數(shù)據(jù)資料來源于2015-2016年某水廠的水質(zhì)監(jiān)測匯總表。以這兩年的監(jiān)測數(shù)據(jù)為分析資料,選取表1中3個(gè)指標(biāo)因子,采用PNN網(wǎng)絡(luò)模型進(jìn)行水質(zhì)的預(yù)測分類。

表1 水廠部分指標(biāo)檢測值Tab.1 Detection value of some indicators in waterworks
本文針對(duì)水質(zhì)中NTU、耗氧量和pH值的變化,對(duì)水質(zhì)分成了3個(gè)等級(jí)分別是1級(jí)、2級(jí)和3級(jí)。其水質(zhì)等級(jí)劃定表如表2所示。
由于本文所得數(shù)據(jù)中pH值均是大于7的偏堿水,所以在1級(jí)中pH值沒有設(shè)置下限。并且每一級(jí)中耗氧量、NTU、pH值均必須在表2所對(duì)應(yīng)的范圍內(nèi),如果其中有一項(xiàng)超標(biāo)都會(huì)被分到下一級(jí)去。例如耗氧量為1.20 mg/L,NTU為3.0,pH值為7.8,這組數(shù)據(jù)的水質(zhì)將被定為2級(jí)。
由于本實(shí)驗(yàn)是用耗氧量、NTU和pH作為輸出量,所以耗氧量、NTU和pH都必須作為輸入量。而一年四季有陰晴雨雪,這對(duì)NTU這一指標(biāo)有很大的影響,故而天氣變化也必須作為輸入量。本實(shí)驗(yàn)對(duì)水廠數(shù)據(jù)用MATLAB進(jìn)行線性擬合來判斷輸入量與輸出量相關(guān)度的高低,從而確定其他幾個(gè)指標(biāo)是否合適。其擬合圖如圖3、圖4和圖5所示。

圖5 藥量與pH的擬合圖線Fig.5 Fitting curve of drug volume and pH
根據(jù)圖3可知,當(dāng)余氯的濃度增高時(shí),水的pH值會(huì)逐漸下降,從而可以判斷出余氯與pH值的相關(guān)度很高,所以余氯可作為輸入量。
根據(jù)圖4可知,當(dāng)溫度上升時(shí),水的耗氧量會(huì)逐漸上升,從而可以判斷出溫度與耗氧量的相關(guān)度很高,所以溫度可作為輸入量。
根據(jù)圖5可知,當(dāng)水中投入的藥量增加時(shí),水中的pH值也會(huì)隨之增加,從而可以判斷出藥量與pH值的相關(guān)度很高,所以藥量也可作為輸入量。
綜上所述,本實(shí)驗(yàn)輸入量的指標(biāo)分別是天氣、余氯、pH值、溫度、藥量、NTU和耗氧量。
該研究共采用了44組數(shù)據(jù),訓(xùn)練樣本為系統(tǒng)任意抽取的30組,剩余14組作為測試樣本。為了能清晰直觀的分析對(duì)比仿真結(jié)果,本實(shí)驗(yàn)通過MATLAB仿真,首先給出了基于PNN網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)的誤差曲線圖。如圖6和圖7所示。

圖6 PNN網(wǎng)絡(luò)誤差曲線圖Fig.6 Error curve of PNN network

圖7 BP網(wǎng)絡(luò)誤差曲線圖Fig.7 Error curve of BP network
根據(jù)圖6和圖7的比較可知,PNN網(wǎng)絡(luò)經(jīng)過3次訓(xùn)練就可達(dá)到誤差精度的要求。而BP網(wǎng)絡(luò)要經(jīng)過12次訓(xùn)練才可達(dá)到誤差精度的要求。
為了進(jìn)一步確定PNN神經(jīng)網(wǎng)絡(luò)比BP神經(jīng)網(wǎng)絡(luò)的分類預(yù)測效果好,最后將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)輸入測試組的數(shù)據(jù),其結(jié)果顯示如圖8和圖9所示。

圖8 PNN網(wǎng)絡(luò)預(yù)測效果Fig.8 Prediction effect of PNN network

圖9 BP網(wǎng)絡(luò)預(yù)測效果Fig.9 Prediction effect of BP network
根據(jù)圖8和圖9可知,PNN預(yù)測結(jié)果中,預(yù)測值和樣本值完全一樣,而BP預(yù)測結(jié)果中有3個(gè)與樣本數(shù)據(jù)不同。
本實(shí)驗(yàn)還通過仿真預(yù)測得出了兩種網(wǎng)絡(luò)的預(yù)測時(shí)長及正確率。如表3所示。

表3 預(yù)測時(shí)長及正確率Tab.3 Forecast time and accuracy
由表3可知,PNN網(wǎng)絡(luò)比BP網(wǎng)絡(luò)預(yù)測用時(shí)短,并且準(zhǔn)確率更高。
(1)經(jīng)過仿真分析可以看出,采用PNN神經(jīng)網(wǎng)絡(luò)模型對(duì)自來水水質(zhì)預(yù)測比BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測,更具有準(zhǔn)確性和快速性。
(2)通過兩種網(wǎng)絡(luò)的比較,PNN網(wǎng)絡(luò)無論在預(yù)測時(shí)間和正確率上都優(yōu)于BP網(wǎng)絡(luò),從而說明PNN神經(jīng)網(wǎng)絡(luò)對(duì)水質(zhì)預(yù)測分類方面具有相當(dāng)高的可信度,并且又給水質(zhì)預(yù)測分類提供了一種簡單而又快捷的方法。
□