王中鋒
摘要:水華風險不僅是水利工程規(guī)劃時需要考慮的環(huán)境問題,也是水利設(shè)施運營時不能忽視的監(jiān)測項目。為了提高明渠水化風險等級預(yù)測的準確率,針對水華成因的不確定性和發(fā)展的時序性,基于動態(tài)樸素貝葉斯網(wǎng)絡(luò)分類器提出一種應(yīng)用于明渠的水華風險評估模型。模型用水華風險等級結(jié)點對應(yīng)藻葉綠素a(Chla)的濃度,并考慮了9項影響水藻生長的因素。采用主成分分析法,處理專家咨詢結(jié)果,進行參數(shù)的設(shè)計。在蘇州河道北門橋2011年6月初至9月初觀測的53例連續(xù)監(jiān)測數(shù)據(jù)上,與基于樸素貝葉斯網(wǎng)絡(luò)分類器的評估模型進行比較實驗。混淆矩陣顯示對中等風險情況的預(yù)測識別率提高了15.625%,單尾配對t檢驗表明在顯著性水平0.05時,兩模型預(yù)測識別率差異顯著。考慮了時序特征的基于動態(tài)貝葉斯網(wǎng)絡(luò)分類器的評估模型對明渠中等水化風險的預(yù)測識別率提高顯著。
關(guān)鍵詞:明渠;水華;動態(tài)貝葉斯網(wǎng)絡(luò);富營養(yǎng)化
中圖分類號:TV213 文獻標識碼:A 文章編號:1672-1683(2017)02-0089-06
1研究背景
南水北調(diào)中線工程正式通水以來,由于水藻超標,已經(jīng)給部分沿線水廠造成了經(jīng)濟損失。亟待研究明渠水藻預(yù)警技術(shù),提前處理,降低損失。現(xiàn)有的相關(guān)研究成果主要集中在海洋湖泊的水華成因分析、水華識別模型、預(yù)警模型,以及這些模型在水利工程規(guī)劃運營過程中的應(yīng)用4個方面。水華的成因分析開展了多年,研究人員對影響水華的因素和它們之間的關(guān)系已經(jīng)有了較為全面的認識。水華識別模型的研究通常采用圖像識別方法、神經(jīng)網(wǎng)絡(luò)方法、貝葉斯方法和支持向量機方法等。這些方法適用于識別已經(jīng)爆發(fā)了水華的水體。水華預(yù)測方法可以分為確定性方法和不確定性方法,確定性方法較為成熟,多是利用各種水動力學模型和水質(zhì)模型來進行分析,例如美國環(huán)保局研發(fā)的HYNHYD和WAsP模型、美國水利資源工程公司提出的CE-QUAL模型和美國陸軍工程兵團使用的RMA4模型等。由于這些模型忽略了復(fù)雜水環(huán)境的不確定性,雖然應(yīng)用簡單,但描述與預(yù)測能力有限。因此,近年來研究人員開始著手研究不確定性方法,Song等基于模糊方法預(yù)測水質(zhì),劉悅憶等提出了基于蒙特卡洛模擬的水質(zhì)概率預(yù)報模型,Karamouz等采用隨機遺傳方法分析。這些模型在處理水質(zhì)影響因素的不確定性方面,提高了模型的表現(xiàn)能力。同時,各種水華識別和預(yù)測模型的具體應(yīng)用研究也在不斷進行著。本文在這些工作的基礎(chǔ)上,考慮水質(zhì)變化時序特征的不確定性,基于動態(tài)樸素貝葉斯網(wǎng)絡(luò)分類器提出一種水華風險評估模型。樸素貝葉斯網(wǎng)絡(luò)分類器能夠通過網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù)對不確定性知識進行描述,并進行不確定性推理實現(xiàn)分類。水華發(fā)生的風險因素具有不確定性,適合采用貝葉斯網(wǎng)絡(luò)進行描述;水華發(fā)生的風險因素與水華風險之間的關(guān)系具有不確定性,可以應(yīng)用貝葉斯網(wǎng)絡(luò)分類器在各個風險因素的基礎(chǔ)上推理出水華風險強度。動態(tài)樸素貝葉斯網(wǎng)絡(luò)分類器是考慮了時序特征的樸素貝葉斯網(wǎng)絡(luò)分類器,用來預(yù)測水華風險時不僅能夠考慮到當前的風險因素情況,還能結(jié)合到前一時段的水華風險情況。
2動態(tài)貝葉斯網(wǎng)絡(luò)模型
動態(tài)貝葉斯網(wǎng)絡(luò)(Dynamic Bayesian Net-works,DBN)是貝葉斯網(wǎng)絡(luò)的時序擴展,可將不同時間片間時序依賴關(guān)系與時間片內(nèi)依賴關(guān)系融為一體,并通過量化推理進行動態(tài)分析、預(yù)測。若用X[0],X[1],…,X[T],表示隨機向量序列,X[t]={X1[t],…,XN[t]},0≤t≤T,x[t]={x1[t],…,xn[t]},為其值向量序列。則對網(wǎng)絡(luò)結(jié)構(gòu)GDB的聯(lián)合概率分解情況為
由于在一般的動態(tài)貝葉斯網(wǎng)絡(luò)中,一個結(jié)點在所屬時間片和時序前面的時間片中都可能有父結(jié)點,網(wǎng)絡(luò)結(jié)構(gòu)異常復(fù)雜,推理計算非常困難,所以,通常在實際應(yīng)用中附加一些約束條件來簡化動態(tài)貝葉斯網(wǎng)絡(luò)。以下研究假設(shè)動態(tài)貝葉斯網(wǎng)絡(luò)滿足一階Markov假設(shè)和平穩(wěn)性假設(shè),這兩個約束條件能夠使動態(tài)貝葉斯網(wǎng)絡(luò)轉(zhuǎn)換為先驗網(wǎng)G0和轉(zhuǎn)換網(wǎng)G→,方便使用。
一階Markov假設(shè)在時間片段t的變量的狀態(tài)僅與時間片段t-1的變量狀態(tài)有關(guān),而與t-1以前的時間片段內(nèi)變量的狀態(tài)無關(guān)。即:[t]的配置。
先驗網(wǎng)描述同一時間片內(nèi)的依賴關(guān)系,轉(zhuǎn)移網(wǎng)描述不同時間片內(nèi)的依賴關(guān)系,它們都是靜態(tài)貝葉斯網(wǎng)絡(luò),靜態(tài)貝葉斯網(wǎng)絡(luò)是個有向無環(huán)圖(Directe-dAcyclic Graph),由網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù)兩部分構(gòu)成。在網(wǎng)絡(luò)結(jié)構(gòu)中,節(jié)點表示模型變量,邊表示變量間的依賴關(guān)系。代表變量的節(jié)點通常用大寫字母表示,其對應(yīng)的變量值用相應(yīng)的小寫字母表示。若變量A通過一條弧指向另一個變量B,則表明變量A與變量B有依賴關(guān)系,且變量4的取值會對變量B的取值產(chǎn)生影響。在這對依賴關(guān)系中,A叫做B的父結(jié)點,B叫做A的子結(jié)點。網(wǎng)絡(luò)參數(shù)是指每一個變量對應(yīng)的條件概率表(Conditional ProbabilityTables,CPT)。CPT為每個實例變量都指定了條件概率。通過每個節(jié)點的條件概率分布可以得到各個節(jié)點的聯(lián)合概率傳播網(wǎng)。
給定動態(tài)貝葉斯網(wǎng)絡(luò)后,就可以在只有一個變量取值不定,而其它變量取值確定的情況下推理出此不確定取值變量的不同取值情況概率大小。若假定出現(xiàn)概率最大的取值為該變量的值,便可以依照此過程,對該變量進行分類。
3水華風險評估模型
動態(tài)樸素貝葉斯網(wǎng)絡(luò)分類器是一種結(jié)構(gòu)簡單的動態(tài)貝葉斯網(wǎng)絡(luò)分類器。本文基于動態(tài)樸素貝葉斯網(wǎng)絡(luò)分類器設(shè)計水華風險評估模型。分網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù)兩部分進行。
3.1基于動態(tài)樸素貝葉斯網(wǎng)絡(luò)分類器的水華風險評估模型結(jié)構(gòu)
由于水華是水體藻類大量生長繁殖或聚集并達到一定濃度的現(xiàn)象,所以在水華實驗研究中通常以水體中葉綠素a(Chla)含量間接代表水體中藻類的數(shù)目。在這個模型中,本文采用藻葉綠素a濃度來評估水華風險等級。影響藻類生長的因素很多,諸如物理因素、化學因素和生物因素,水體富營養(yǎng)化與水華的爆發(fā)正是由這些因素影響著。本文參考文獻的監(jiān)測項目,考慮了水溫,日降雨量,濁度,透明度,藻類光合活性(Fv/Fm),總氮含量(TN),氨氮(NH+4-N)含量,總磷含量(TP),氮磷比9項對Chla有影響的因素。由于動態(tài)樸素貝葉斯網(wǎng)絡(luò)分類器是樸素貝葉斯網(wǎng)絡(luò)分類器與時間序列的結(jié)合,是一種簡單的動態(tài)貝葉斯網(wǎng)絡(luò)分類器,其中類變量形成馬爾科夫鏈,時間片屬性變量形成局部星型結(jié)構(gòu)。基于動態(tài)樸素貝葉斯網(wǎng)絡(luò)分類器設(shè)計水華風險評估模型,沒有考慮各個水華風險因素相互之間的影響作用。
圖1為本文采用動態(tài)樸素貝葉斯網(wǎng)絡(luò)分類器設(shè)計的水華風險評估模型的網(wǎng)絡(luò)結(jié)構(gòu)圖。其中,A1表示水溫,A2表示日降雨量,A3表示濁度,A4表示透明度,A5表示Fv/Fm,A6表示TN,A7表示NH+4-N含量,A8表示TP,A9表示氮磷比,C表示Chla濃度。整個網(wǎng)絡(luò)結(jié)構(gòu)由先驗網(wǎng)絡(luò)和轉(zhuǎn)移網(wǎng)絡(luò)展開得到。
虛線包含的部分為先驗網(wǎng)絡(luò)結(jié)構(gòu)。由于樸素貝葉斯網(wǎng)絡(luò)分類器只考慮了類變量對屬性變量之間的依賴關(guān)系,沒有考慮屬性變量之間的相互依賴關(guān)系。圖中只有從類結(jié)點指向各個屬性結(jié)點,各個屬性結(jié)點之間不存在邊。
屬性結(jié)點和類結(jié)點的上標表示該結(jié)點所對應(yīng)的時間片。連接相鄰時間片之間類結(jié)點的邊構(gòu)成了模型的轉(zhuǎn)移網(wǎng)絡(luò)結(jié)構(gòu),在轉(zhuǎn)移網(wǎng)絡(luò)中,時間片t+1中代表水華風險等級的類變量除了受該時間片中影響因素的作用外,還受到上一時刻t中水華風險等級情況的影響。
在這個基于動態(tài)樸素貝葉斯網(wǎng)絡(luò)分類器的水華風險評估模型中,每一個時刻的風險等級情況除了與當前的影響因素有關(guān)外,還受到歷史時刻風險等級情況的影響,而不受歷史時刻的影響因素的影響。在這個過程中歷史時刻風險等級對當前時刻風險等級的有一定程度的影響。依據(jù)貝葉斯網(wǎng)絡(luò)條件獨立性關(guān)系,圖1可以描述為
以上是對基于動態(tài)樸素貝葉斯網(wǎng)絡(luò)分類器的水華風險評估模型網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計,但這個網(wǎng)絡(luò)結(jié)構(gòu)只是粗略的描述了各個影響因素之間的關(guān)系,還要設(shè)置依賴參數(shù)來詳細描述它們之間的依賴強度。
3.2基于動態(tài)樸素貝葉斯網(wǎng)絡(luò)分類器的水
華風險評估模型參數(shù)
本文通過分析參考文獻觀測的各個風險因素與葉綠素a的關(guān)系,咨詢多個專家,經(jīng)過加權(quán)平均來確定貝葉斯網(wǎng)絡(luò)參數(shù),包括先驗概率和轉(zhuǎn)移概率參數(shù)。在計算各專家所占權(quán)重時采用主成分分析法,消除信息的重疊性,降低個人因素的影響。對于水華風險先驗概率,為了提高模型的靈敏度,本文設(shè)置高風險為0.4,中等風險為0.3,低風險為0.3。對于轉(zhuǎn)移概率參數(shù),本文同時根據(jù)文獻針對河流水體對部分參數(shù)做了調(diào)整。如在流動水體中,優(yōu)勢藻種多為漢斯冠盤藻(硅藻),本文調(diào)整為河流優(yōu)勢藻種適宜的條件。文獻研究城市景觀河道中綠藻和藍藻時,17次共76日水華對應(yīng)的水溫做的一個從高到低的排序圖。觀察到的可見水華發(fā)生時水溫主要集中在23.4℃~34.4℃之間,且表現(xiàn)出良好的連續(xù)性,觀察期間,在水溫27.8℃時有一個間斷,水溫在27.8℃~34.4℃期間發(fā)生水華的次數(shù)為14次,占所有次數(shù)的82.4%,持續(xù)的天數(shù)為64 d,占發(fā)生水華的天數(shù)的84.2%。文獻[25]研究河流水體中冠盤藻水溫為2℃左右生長繁殖良好,與15℃條件下無顯著差別。本文根據(jù)冠盤藻的特點調(diào)整水溫在1℃~15℃,葉綠素a具有較高的概率取值。
表1為概率p(ct|ct-1)參數(shù)表,表示當前水華風險等級對最近觀測到的風險狀態(tài)的依賴強度,為了在模型中適當體現(xiàn)出風險情況的時序依賴性,ct中與ct-1相同的取值設(shè)置了較高的發(fā)生概率。
表2為概率p(atx|ct)的參數(shù)表其中x表示a1-a9中的任一變量。當Chla濃度分別為H(高)、M(中)和L(低)時,參數(shù)值分別表示水溫,日降雨量,濁度,透明度,F(xiàn)v/Fm,TN,NH+4-N含量,TP,氮磷比各種情況發(fā)生概率的大小。
當設(shè)定了水華風險評估模型的網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù)后,對于符合模型要求的水體,輸入當時的監(jiān)測值,就能預(yù)測下一時刻Chla的濃度,評估當前的風險等級。
4實例分析
實驗數(shù)據(jù)來源于文獻在2011年4月14日到2012年1月10日之間監(jiān)測蘇州河道北門橋的數(shù)據(jù)。考慮到實際應(yīng)用時,對高風險情況和中等風險的預(yù)測情況,更能體現(xiàn)模型的價值,本文選取了6月初到9月初的53例連續(xù)監(jiān)測數(shù)據(jù),將這段時間分為52個時間片,其中包括1例低風險數(shù)據(jù),32例中等風險數(shù)據(jù)和20例高風險數(shù)據(jù)。在本文的研究中,依據(jù)文獻,采用藻葉綠素a(Chla)的濃度區(qū)分不同的水華風險狀態(tài)。當藻葉綠素a(Chla)濃度小于10μg/L時,設(shè)置水華風險狀態(tài)等級為“較低”;當Chla濃度大于等于10μg/L且小于50時μg/L,設(shè)置水華風險狀態(tài)等級為“中等”;當Chla濃度大于大于50時μg/L,設(shè)置水華風險狀態(tài)等級為“較高”。
實驗分兩步進行,首先,只考慮同一時間片中的依賴關(guān)系,用基于樸素貝葉斯網(wǎng)絡(luò)分類器的評估模型進行預(yù)測;然后用基于動態(tài)貝葉斯網(wǎng)絡(luò)的評估模型進行預(yù)測,在考慮同一時間片中的依賴關(guān)系的同時,還考慮上一時間片時間觀察到的Chla濃度。實驗過程中,第一次的監(jiān)測值用于評估第二次監(jiān)測時刻的風險等級,依次類推,最后一次的監(jiān)測值不參與實驗,因此,每步共預(yù)測52次。第一步實驗結(jié)果顯示33次預(yù)測正確,預(yù)測準確率為63.46%;第二步實驗結(jié)果顯示38次預(yù)測正確,預(yù)測準確率為73.08%。預(yù)測準確率提高了0.63%。圖2(a)和圖2(b)分別是基于樸素貝葉斯網(wǎng)絡(luò)分類器的評估模型和基于動態(tài)貝葉斯網(wǎng)絡(luò)的評估模型的預(yù)測值與實際觀測值的折線比較圖。在這兩張圖中,實線表示實際值,虛線分別表示兩個預(yù)測模型的預(yù)測值。圖中,若兩條線重合,表示預(yù)測值與實際觀測值一致,若不重合,表示預(yù)測有誤。顯然,圖2(b)比圖2(a)中兩線的重合度高,表明基于樸素貝葉斯網(wǎng)絡(luò)分類器展開后的評估模型比基于動態(tài)貝葉斯網(wǎng)絡(luò)的評估模型預(yù)測精度高。
進一步分析,表3是基于樸素貝葉斯網(wǎng)絡(luò)分類器的評估模型和基于動態(tài)貝葉斯網(wǎng)絡(luò)的評估模型的預(yù)測結(jié)果的混淆矩陣。每一列代表了預(yù)測類別,每一列的總數(shù)表示預(yù)測為該類別的數(shù)據(jù)的數(shù)目;每一行代表了數(shù)據(jù)的真實歸屬類別,每一行的數(shù)據(jù)總數(shù)表示該類別的數(shù)據(jù)實例的數(shù)目。每一列中的數(shù)值表示真實數(shù)據(jù)被預(yù)測為該類的數(shù)目。通過兩個表的對比,可以看出,兩個矩陣中,對高風險等級和低風險等級的預(yù)測結(jié)果沒有變化,對中等風險等級的預(yù)測正確數(shù)目從21例提高到26例,識別率從65.625%提高到81.26%,提高了15.625%。
對于中等風險等級的樣例,僅有32個樣本,屬于小樣本,所以選擇t檢驗。實驗是在同一樣本集合上比較基于樸素貝葉斯網(wǎng)絡(luò)分類器的評估模型和基于動態(tài)貝葉斯網(wǎng)絡(luò)的評估模型的識別率,具有方向性,所以采用單尾配對樣本t檢驗進行分析。計算結(jié)果顯示中等風險等級的預(yù)測結(jié)果t檢驗概率為0.048 014顯著性水平在0.05之下,拒絕原假設(shè)H0,表明兩種模型的識別率相互比較有顯著變化。結(jié)合混淆矩陣顯示的中等風險等級的預(yù)測識別率提高了15.625%,說明本文所提算法識別率顯著提高。
5結(jié)論
本文基于動態(tài)樸素貝葉斯網(wǎng)絡(luò)分類器提出了一種水華風險評估模型,并采用主成分分析法處理專家知識,設(shè)計模型網(wǎng)絡(luò)參數(shù)。利用蘇州河道北門橋河段監(jiān)測的數(shù)據(jù),與基于樸素貝葉斯網(wǎng)絡(luò)分類器的評估模型進行比較實驗。結(jié)果顯示在顯著性水平0.05的單尾配對t檢驗時,對中等風險等級的水華預(yù)測識別率提高顯著,提高了15.625%。表明本文所提的考慮了風險因素的不確定性和風險狀態(tài)時序發(fā)展特征的模型適用于明渠的水華風險評估。另外,考慮更多水華影響因素和水華影響因素之間的相互作用,對提高評估模型的識別率和適用范圍是必要的,這將是下一步的研究任務(wù)。