999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

M-TAEDA:多變量水質(zhì)參數(shù)時(shí)序數(shù)據(jù)異常事件檢測(cè)算法

2017-04-17 05:13:26毛鶯池王龍寶
計(jì)算機(jī)應(yīng)用 2017年1期
關(guān)鍵詞:水質(zhì)污染檢測(cè)

毛鶯池,齊 海,接 青,王龍寶

(河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,南京 211100)

(*通信作者電子郵箱maoyingchi@gmail.com)

M-TAEDA:多變量水質(zhì)參數(shù)時(shí)序數(shù)據(jù)異常事件檢測(cè)算法

毛鶯池*,齊 海,接 青,王龍寶

(河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,南京 211100)

(*通信作者電子郵箱maoyingchi@gmail.com)

在供水管網(wǎng)中部署傳感器網(wǎng)絡(luò)實(shí)時(shí)獲取多個(gè)水質(zhì)參數(shù)時(shí)間序列數(shù)據(jù),當(dāng)供水管網(wǎng)發(fā)生污染時(shí),高效準(zhǔn)確地檢測(cè)水質(zhì)異常是一個(gè)重要問(wèn)題。提出多變量水質(zhì)參數(shù)時(shí)間異常事件檢測(cè)算法(M-TAEDA),利用BP模型分析多變量水質(zhì)參數(shù)的時(shí)序數(shù)據(jù),確定可能離群點(diǎn);結(jié)合貝葉斯序貫分析獨(dú)立更新每個(gè)參數(shù)的事件概率,預(yù)測(cè)單個(gè)傳感器節(jié)點(diǎn)檢測(cè)的異常概率;將單變量的事件概率融合為統(tǒng)一多變量事件概率,融合判斷異常事件。實(shí)驗(yàn)結(jié)果表明:BP模型模擬多變量水質(zhì)參數(shù)進(jìn)行預(yù)測(cè)可以達(dá)到90%精確度;與單變量參數(shù)時(shí)間異常事件檢測(cè)算法(S-TAEDA)相比,M-TAEDA可以提高異常檢出率約40%,降低誤報(bào)率約45%。

無(wú)線傳感器網(wǎng)絡(luò);異常事件檢測(cè);BP模型;多變量水質(zhì)參數(shù);時(shí)間序列數(shù)據(jù)

0 引言

在供水管網(wǎng)中部署傳感器網(wǎng)絡(luò)實(shí)時(shí)獲取水質(zhì)指標(biāo)數(shù)據(jù),當(dāng)供水管網(wǎng)發(fā)生污染時(shí),傳感器感知的水質(zhì)參數(shù)數(shù)據(jù)也有異常變化,實(shí)時(shí)預(yù)警污染事件。研究[1]表明,能夠明顯反映水質(zhì)的參數(shù)主要有游離氯、總有機(jī)碳(Total Organic Carbon, TOC)、電導(dǎo)率(Electrical Conductivity, EC)、pH值、溫度、濁度。面對(duì)網(wǎng)絡(luò)中多個(gè)水質(zhì)參數(shù)時(shí)間序列數(shù)據(jù),高效準(zhǔn)確地檢測(cè)水質(zhì)異常是一個(gè)重要問(wèn)題。然而,現(xiàn)有的水質(zhì)異常檢測(cè)算法大都基于單個(gè)檢測(cè)指標(biāo)是否超標(biāo)來(lái)判斷供水管網(wǎng)水質(zhì)污染異常事件[2-3]。由于單個(gè)參數(shù)考慮的因素單一,易造成漏報(bào)誤報(bào)。本文提出多變量水質(zhì)參數(shù)時(shí)間異常事件檢測(cè)算法(Temporal Abnormal Event Detection Algorithm of Multivariate time-series, M-TAEDA),基于多個(gè)水質(zhì)參數(shù)作出融合決策,判斷供水管網(wǎng)污染異常事件。M-TAEDA采用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行水質(zhì)模擬,通過(guò)BP(Back Propagation)模型分析多變量水質(zhì)參數(shù)的時(shí)序數(shù)據(jù),確定可能的離群點(diǎn);結(jié)合貝葉斯序貫分析獨(dú)立更新每個(gè)參數(shù)的事件概率,預(yù)測(cè)單個(gè)傳感器節(jié)點(diǎn)在一段時(shí)間內(nèi)是否有異常事件發(fā)生;最后對(duì)單變量的事件概率融合為一個(gè)統(tǒng)一的多變量事件概率作出融合判斷,檢測(cè)供水管網(wǎng)的異常事件發(fā)生。實(shí)驗(yàn)結(jié)果表明:BP模型模擬多變量水質(zhì)參數(shù)進(jìn)行預(yù)測(cè)可以達(dá)到90%精確性;與單變量參數(shù)時(shí)間異常事件檢測(cè)算法(Temporal Abnormal Event Detection Algorithm of Single-variate time-series, S-TAEDA)相比,M-TAEDA方法可以提高異常檢出率40%,降低誤報(bào)率45%。

1 相關(guān)工作

基于水質(zhì)參數(shù)的異常事件檢測(cè)方法通常包含兩個(gè)階段:一是建模階段,以歷史監(jiān)測(cè)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),建立水質(zhì)預(yù)測(cè)模型;二是測(cè)試階段,將新觀測(cè)數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)比較,判定水質(zhì)是否正常。文獻(xiàn)[4]采用基于雙閾值的異常事件檢測(cè)方法,通過(guò)設(shè)置兩個(gè)閾值,提高算法的檢測(cè)精度。但是,僅僅根據(jù)閾值判定異常事件,精確度不高,無(wú)法捕捉監(jiān)測(cè)數(shù)據(jù)的時(shí)空特征,導(dǎo)致較高誤報(bào)率。文獻(xiàn)[5]采用基于模式的異常事件檢測(cè)方法,根據(jù)用戶(hù)歷史行為模式建模,推測(cè)當(dāng)前行為中有無(wú)異常,當(dāng)模式匹配時(shí),則認(rèn)為當(dāng)前模式有異常事件發(fā)生。Byrt等[6]提出基于統(tǒng)計(jì)模型的檢測(cè)方法,假設(shè)水質(zhì)參數(shù)服從高斯分布,計(jì)算測(cè)試樣本數(shù)據(jù)的均值和方差,通過(guò)較比測(cè)量值與計(jì)算值的差值,判斷水質(zhì)異常。基于統(tǒng)計(jì)的異常檢測(cè)方法的缺點(diǎn)是要求假設(shè)水質(zhì)數(shù)據(jù)集必須符合特定分布,無(wú)法滿(mǎn)足實(shí)際場(chǎng)景應(yīng)用需求。基于機(jī)器學(xué)習(xí)的異常檢測(cè)常用BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)和馬爾可夫隨機(jī)場(chǎng)等方法檢測(cè)異常[7-9]。文獻(xiàn)[10]以在線監(jiān)測(cè)氨氮值為對(duì)象,利用RBF(Radial Basis Function)神經(jīng)網(wǎng)絡(luò)和小波分析的判別在線水質(zhì)數(shù)據(jù)是否異常。Perelman等[11]提出了一種基于貝葉斯網(wǎng)絡(luò)(Bayesian Network, BN)的異常檢測(cè)算法,基于BN的統(tǒng)計(jì)數(shù)據(jù)估算供水網(wǎng)中污染物的可能位置及其傳播路徑,檢測(cè)污染事件。上述方法都單獨(dú)局限于基于單個(gè)水質(zhì)指標(biāo)是否超標(biāo),判斷供水網(wǎng)中水質(zhì)污染事件。但是,單個(gè)檢測(cè)指標(biāo)不符合真實(shí)的供水管網(wǎng)環(huán)境,當(dāng)污染事件發(fā)生時(shí),多個(gè)水質(zhì)參數(shù)都明顯異常。單個(gè)參數(shù)考慮的因素單一,易造成漏報(bào)和誤報(bào),導(dǎo)致精度不高。因此,本文根據(jù)多個(gè)水質(zhì)參數(shù)數(shù)據(jù)變化,基于多個(gè)水質(zhì)參數(shù)作出融合決策,判斷供水管網(wǎng)污染事件。

2 問(wèn)題陳述

傳感器部署在供水管網(wǎng)中實(shí)時(shí)監(jiān)測(cè)水質(zhì)參數(shù)數(shù)值變化,判斷水質(zhì)污染情況。供水管網(wǎng)拓?fù)浣Y(jié)構(gòu)如圖1所示,水質(zhì)傳感器部署在管道連接處檢測(cè)水質(zhì)參數(shù),用連通圖G=〈V,E〉表示,V表示水質(zhì)傳感器節(jié)點(diǎn)集合,E表示邊集合。每個(gè)節(jié)點(diǎn)有一個(gè)唯一的編號(hào),從1到n。供水管網(wǎng)中每個(gè)節(jié)點(diǎn)處部署了多個(gè)傳感器節(jié)點(diǎn)檢測(cè)多種水質(zhì)參數(shù),如游離氯、電導(dǎo)率(Electrical Conductivity, EC)、pH值、溫度、總有機(jī)碳(Total Organic Carbon, TOC)和濁度[1]。僅僅檢測(cè)一個(gè)水質(zhì)參數(shù)判定污染異常可能造成較大檢測(cè)偏差,需要綜合考慮6個(gè)監(jiān)測(cè)分量為多變量水質(zhì)監(jiān)測(cè)因子,觀測(cè)6個(gè)監(jiān)測(cè)分量在一段時(shí)間的序列數(shù)據(jù),經(jīng)過(guò)融合判斷,確定該節(jié)點(diǎn)處是否有水質(zhì)異常事件發(fā)生。如圖1所示,節(jié)點(diǎn)1處部署傳感器監(jiān)測(cè)6個(gè)水質(zhì)參數(shù)數(shù)據(jù),結(jié)合6個(gè)水質(zhì)因子的監(jiān)測(cè)數(shù)據(jù)綜合判斷水質(zhì)。

圖1 供水管網(wǎng)拓?fù)浣Y(jié)構(gòu)實(shí)例

水質(zhì)異常指水質(zhì)數(shù)據(jù)偏離正常,水質(zhì)異常可分為離群點(diǎn)和異常事件兩類(lèi)。離群點(diǎn)是指某一時(shí)刻,水質(zhì)數(shù)據(jù)的預(yù)測(cè)值與其實(shí)際測(cè)量值的殘差超過(guò)了誤差可以接受的范圍。異常事件是指監(jiān)測(cè)點(diǎn)的水質(zhì)參數(shù)在一段時(shí)間內(nèi)監(jiān)測(cè)數(shù)據(jù)持續(xù)偏離正常模式,認(rèn)為該水質(zhì)參數(shù)有異常。通常,離群點(diǎn)較常見(jiàn),可能是噪聲數(shù)據(jù),不應(yīng)將其作為水質(zhì)預(yù)警指標(biāo)。異常事件是離群點(diǎn)在一段連續(xù)時(shí)間內(nèi),數(shù)據(jù)持續(xù)偏離正常預(yù)期值,則可能是污染所導(dǎo)致,這是本文所關(guān)注的異常事件。

3 M-TAEDA主要思想

多變量水質(zhì)參數(shù)時(shí)序數(shù)據(jù)異常事件檢測(cè)方法分為兩個(gè)階段:1)離線階段——訓(xùn)練和構(gòu)造數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)模型(BP模型),分析多變量水質(zhì)時(shí)序數(shù)據(jù),進(jìn)行模型評(píng)估;2)在線階段——即M-TAEDA的執(zhí)行步驟,首先利用訓(xùn)練得到的BP模型計(jì)算預(yù)測(cè)值,比較實(shí)測(cè)值與預(yù)測(cè)值,進(jìn)行誤差估計(jì)和分類(lèi),結(jié)合序貫貝葉斯分析確定水質(zhì)異常事件概率。兩個(gè)階段的工作流程如圖2~3所示。

圖2 離線階段流程

圖3 M-TAEDA(在線階段)流程

離線階段 選擇BP網(wǎng)絡(luò)模擬6個(gè)水質(zhì)參數(shù),根據(jù)殘差確定可能的離群點(diǎn)。BP網(wǎng)絡(luò)不需要理解輸入端與輸出端之間的相互關(guān)系,適合非線性、復(fù)雜多變的水質(zhì)系統(tǒng),比較符合多變量水質(zhì)參數(shù)處理應(yīng)用場(chǎng)景。BP模型前向計(jì)算及其誤差反向傳播的特性,通過(guò)多次訓(xùn)練可以得到比較理想的預(yù)測(cè)模型,提高水質(zhì)參數(shù)的預(yù)測(cè)精度。

在線階段 多變量水質(zhì)數(shù)據(jù)異常事件檢測(cè)包括4個(gè)步驟。

1)數(shù)據(jù)分析。通過(guò)BP模型模擬水質(zhì)參數(shù)之間的相互作用。

2)識(shí)別異常值。計(jì)算殘差,每個(gè)水質(zhì)參數(shù)在訓(xùn)練階段得到固定的閾值,將觀察值歸類(lèi)為正常或異常值。

3)確定單變量參數(shù)異常事件。基于誤差結(jié)果的分類(lèi),通過(guò)序貫更新貝葉斯更新確定單變量水質(zhì)參數(shù)的事件概率。

4)融合決策。來(lái)自多個(gè)水質(zhì)監(jiān)測(cè)指標(biāo)的信息融合,提供統(tǒng)一的決策結(jié)果,確定供水管網(wǎng)在具體節(jié)點(diǎn)處是否有異常事件發(fā)生。

其中,本文在步驟1)和2)中采用真實(shí)的供水管網(wǎng)數(shù)據(jù)集訓(xùn)練模型。在每個(gè)時(shí)刻,當(dāng)?shù)玫叫碌膶?shí)測(cè)值后,重復(fù)執(zhí)行步驟1)~4)。

應(yīng)用BP神經(jīng)網(wǎng)絡(luò)分析多個(gè)水質(zhì)參數(shù)間的相互作用,并根據(jù)殘差確定可能的離群點(diǎn);通過(guò)遞歸應(yīng)用貝葉斯規(guī)則更新事件的概率,將監(jiān)測(cè)異常點(diǎn)轉(zhuǎn)換為單變量的異常事件概率;通過(guò)相關(guān)系數(shù)(R2),均方誤差(Mean Square Error, MSE),融合矩陣,ROC(Receiver Operating Characteristic)曲線,檢出率(Rate of Detection, RD)和誤報(bào)率(False Alarm Rate, FAR)來(lái)評(píng)估算法性能;最后,綜合考慮6個(gè)水質(zhì)參數(shù)事件概率,確定閾值,對(duì)污染異常事件作出預(yù)警。

4 M-TAEDA方法

4.1 BP模型模擬水質(zhì)參數(shù)

在供水管網(wǎng)中,各個(gè)傳感器節(jié)點(diǎn)監(jiān)測(cè)的實(shí)測(cè)值不僅由該水質(zhì)參數(shù)決定,而且與其他參數(shù)的實(shí)測(cè)值密切相關(guān)。以游離氯為例,若僅根據(jù)游離氯單一水質(zhì)參數(shù)的歷史數(shù)據(jù)進(jìn)行建模,得到預(yù)測(cè)模型并計(jì)算預(yù)測(cè)值,預(yù)測(cè)值與實(shí)測(cè)值并未有很大偏離,但是,此時(shí)其他水質(zhì)參數(shù)的實(shí)測(cè)值與正常狀態(tài)有明顯偏離。其原因是水質(zhì)參數(shù)間相互作用,游離氯的實(shí)測(cè)值也產(chǎn)生了較大偏差,僅根據(jù)單一水質(zhì)參數(shù)變量建立預(yù)測(cè)模型,準(zhǔn)確性較低。本文采用BP模型,通過(guò)輸入多個(gè)水質(zhì)參數(shù),訓(xùn)練BP模型能夠較真實(shí)地反映水質(zhì)變量間的相互關(guān)系,提高預(yù)測(cè)模型的預(yù)測(cè)精確度。本文構(gòu)建的BP網(wǎng)絡(luò)如式(1)所示:

(1)

其中:wjk、wij表示權(quán)重,w0、w0j表示偏差,φ和φ0分別為激活函數(shù)與輸出函數(shù),xi表示水質(zhì)參數(shù),fk(x,w)表示估計(jì)的目標(biāo)值。

供水管網(wǎng)中的各個(gè)監(jiān)測(cè)指標(biāo)相互影響,針對(duì)多變量水質(zhì)參數(shù)異常事件檢測(cè),需要為每個(gè)目標(biāo)水質(zhì)參數(shù),構(gòu)造與訓(xùn)練相應(yīng)的BP模型,估計(jì)目標(biāo)水質(zhì)參數(shù)及其相互關(guān)系。每個(gè)BP模型對(duì)應(yīng)模擬每個(gè)水質(zhì)參數(shù)xi(t)(i=1,2,…,6),分別為游離氯、TOC、EC、pH、溫度和濁度。每個(gè)BP模型的輸入?yún)?shù)包括某一時(shí)刻其他幾個(gè)水質(zhì)參數(shù)數(shù)據(jù)和目標(biāo)水質(zhì)參數(shù)前一時(shí)刻的數(shù)據(jù)。在每一時(shí)刻,共有6個(gè)輸入,如式(2)所示:

(2)

例如,以游離氯為目標(biāo)水質(zhì)參數(shù),構(gòu)建相應(yīng)的BP模型結(jié)構(gòu),如圖4和式(3)所示:

(3)

圖4 游離氯參數(shù)的BP網(wǎng)絡(luò)結(jié)構(gòu)

4.2 誤差評(píng)估與分類(lèi)

利用歷史數(shù)據(jù)對(duì)模型不斷訓(xùn)練,構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的BP模型。訓(xùn)練得到的BP模型預(yù)測(cè)供水管網(wǎng)中的水質(zhì)參數(shù)數(shù)據(jù),將預(yù)測(cè)值與實(shí)測(cè)值進(jìn)行比較,確定預(yù)測(cè)誤差,進(jìn)行誤差評(píng)估和分類(lèi)分析。計(jì)算測(cè)量值和預(yù)測(cè)的水質(zhì)參數(shù)值之間的差異可以得到估計(jì)誤差,如式(4)所示:

(4)

對(duì)于每個(gè)BP模型而言,估計(jì)的殘差都是有界的,通過(guò)模型訓(xùn)練得到最優(yōu)閾值。當(dāng)某一時(shí)刻某水質(zhì)參數(shù)的估計(jì)殘差超過(guò)閾值,則被認(rèn)為是離群值。為了將水質(zhì)參數(shù)的正常狀況與發(fā)生污染異常相區(qū)分,計(jì)算的殘差ERi(t)作為“正常”“異常”的分類(lèi)標(biāo)準(zhǔn)。利用訓(xùn)練得到的閾值進(jìn)行誤差分類(lèi),如果測(cè)量值在閾值范圍內(nèi),表明沒(méi)有異常事件發(fā)生,屬于正常狀況。在訓(xùn)練階段,通過(guò)查看多次實(shí)驗(yàn)后的每個(gè)水質(zhì)參數(shù)殘差值,可以發(fā)現(xiàn)落在[96%,99%]這個(gè)上限和下限范圍內(nèi)的殘差是可以接受的殘差;若殘差超過(guò)此范圍,判定為異常值。

4.3 序貫貝葉斯更新

在不斷訓(xùn)練BP模型的過(guò)程中,算法性能可以用混淆矩陣[12]來(lái)衡量。利用混淆矩陣進(jìn)行模型分類(lèi),將所有觀察值分為4類(lèi)。真正類(lèi)(TruePositive,TP):真實(shí)的異常事件發(fā)生時(shí),殘差歸類(lèi)為一個(gè)離群點(diǎn)。假正類(lèi)(FalsePositive,FP):在正常情況下,殘差歸類(lèi)為一個(gè)離群點(diǎn)。真負(fù)類(lèi)(TrueNegative,TN):在正常情況下,殘差歸類(lèi)為合理的模型錯(cuò)誤。假負(fù)類(lèi)(FalseNegative,FN):真實(shí)的異常事件發(fā)生時(shí),殘差歸類(lèi)為合理的模型錯(cuò)誤。如表1所示。

表1 4種情況記號(hào)定義

RD和FAR是異常事件檢測(cè)性能評(píng)價(jià)常用標(biāo)準(zhǔn)。RD表示檢測(cè)出異常的數(shù)目占實(shí)際發(fā)生異常總次數(shù)的比值。FAR表示檢測(cè)出的虛假異常占所有決策次數(shù)的比值,如式(5)所示:

(5)

在序貫貝葉斯概率更新階段,對(duì)每個(gè)新觀察值而言,事件的概率通過(guò)序貫貝葉斯分析[11]來(lái)更新。通過(guò)序貫貝葉斯分析,將檢測(cè)到的異常點(diǎn)轉(zhuǎn)換為污染異常事件的概率。在序貫分析中,觀察值的數(shù)量事先不知;相反,觀察值順序讀取,需要對(duì)當(dāng)前的狀態(tài)作出決策。每次經(jīng)過(guò)序貫更新后,進(jìn)行三種判斷:有事件、無(wú)事件、額外觀察。本文序貫更新后有兩種狀態(tài):離群點(diǎn)和正常值,如式(6)所示。初始情況下,事件的概率很低,對(duì)于每次新到的觀測(cè)值,事件的后驗(yàn)概率通過(guò)貝葉斯規(guī)則序貫更新,用式(7)可以計(jì)算得到:

(6)

(7)

在本文應(yīng)用中,污染事件的初始概率設(shè)為10-5,污染事件發(fā)生的閾值概率設(shè)為PThreshold=0.7。在這個(gè)階段,每個(gè)參數(shù)的概率各自更新。如果某個(gè)參數(shù)事件更新的概率超過(guò)該參數(shù)設(shè)定的閾值,表明該參數(shù)發(fā)生異常事件。仿真實(shí)驗(yàn)?zāi)M污染異常事件下,每個(gè)水質(zhì)參數(shù)的更新概率,結(jié)果如表2。從表2中看出在08:20,6個(gè)參數(shù)中有一個(gè)參數(shù)確定有異常事件發(fā)生;在09:00,有3個(gè)參數(shù)確定了異常事件,發(fā)出預(yù)警。另外,從08:20到17:00時(shí)間段,隨著污染事件發(fā)生,概率逐漸增加;當(dāng)污染事件結(jié)束時(shí),概率逐漸減少,當(dāng)概率超過(guò)閾值時(shí),發(fā)出相應(yīng)報(bào)警。

表2 污染事件概率更新

4.4 多變量融合決策

在每個(gè)時(shí)間段,通過(guò)單變量的事件概率融合為一個(gè)統(tǒng)一的多變量事件概率,可以反映一個(gè)事件基于所有參數(shù)的概率。此外,水質(zhì)參數(shù)的權(quán)重也反映其對(duì)融合決策的影響。水質(zhì)污染異常事件發(fā)生時(shí),不同的水質(zhì)參數(shù)對(duì)污染的預(yù)測(cè)能力不同。本文采用文獻(xiàn)[1]中的方法為6個(gè)水質(zhì)參數(shù)指標(biāo)分配不同權(quán)重,在每個(gè)時(shí)間段,通過(guò)融合單變量的事件概率計(jì)算多參數(shù)變量的事件概率。

在模擬污染異常事件的情況下,在Matlab上完成仿真實(shí)驗(yàn),模擬10個(gè)污染事件,單變量的水質(zhì)參數(shù)概率更新的結(jié)果,表示在模擬污染異常事件的情況下,經(jīng)過(guò)序貫貝葉斯更新后6個(gè)單變量水質(zhì)參數(shù)的異常事件概率,如圖5所示。以游離氯的單變量水質(zhì)參數(shù)概率為例,黑線表示模擬的10次污染事件,點(diǎn)線表示在一定時(shí)間間隔,游離氯水質(zhì)參數(shù)預(yù)測(cè)污染異常事件的概率。本文將污染異常事件發(fā)生的閾值概率設(shè)為PThreshold=0.7。每個(gè)水質(zhì)參數(shù)事件更新的概率超過(guò)閾值0.7,表示在這一段時(shí)間間隔,該單變量參數(shù)有異常事件發(fā)生。從圖5可以看出,模擬10個(gè)污染事件多次運(yùn)行平均結(jié)果顯示,游離氯指標(biāo)檢測(cè)出了7個(gè)異常事件,存在3次錯(cuò)誤預(yù)警。其他5個(gè)水質(zhì)參數(shù)的檢測(cè)結(jié)果從圖5中可以看出:EC指標(biāo)檢測(cè)出6個(gè)異常事件中,有1次錯(cuò)誤預(yù)警;pH值指標(biāo)檢測(cè)出了5個(gè)異常事件,有1次錯(cuò)誤預(yù)警;溫度指標(biāo)檢測(cè)出了5個(gè)異常事件,沒(méi)有錯(cuò)誤預(yù)警;TOC指標(biāo)檢測(cè)出了9個(gè)異常事件,有3次錯(cuò)誤預(yù)警;濁度指標(biāo)檢測(cè)出了8次異常事件,有2次錯(cuò)誤預(yù)警。

將6個(gè)水質(zhì)參數(shù)分配對(duì)應(yīng)權(quán)重后,單變量的事件概率融合為一個(gè)統(tǒng)一的多變量事件概率。圖6顯示了6個(gè)事件概率圖,其中:事件被預(yù)測(cè)出的概率為1,未被預(yù)測(cè)出的概率為0。每個(gè)子圖表示了考慮一個(gè)或多個(gè)不同權(quán)重的水質(zhì)參數(shù)得到的概率。例如,圖6預(yù)警(1)表示有一個(gè)水質(zhì)參數(shù)超過(guò)設(shè)定閾值,聲明發(fā)生污染事件。在這種情況下,大多數(shù)事件能夠被檢測(cè)到。從圖6預(yù)警(1)中可以看出檢測(cè)出了10個(gè)異常事件中的9個(gè),檢出率很高,但是誤報(bào)率也比較高,有4次錯(cuò)誤預(yù)警。預(yù)警(2)表示至少兩個(gè)或者更多個(gè)參數(shù)發(fā)出預(yù)警,表明發(fā)生了污染異常事件。在這種情況下,只有一個(gè)事件未被檢測(cè),有2次錯(cuò)誤預(yù)警。從圖6中可以看出,對(duì)于多變量參數(shù)指標(biāo)而言,當(dāng)3個(gè)參數(shù)融合發(fā)生預(yù)警時(shí),檢測(cè)精確度和誤檢率之間能達(dá)到比較好的權(quán)衡,誤報(bào)率降到了0次。當(dāng)4個(gè)或4個(gè)以上參數(shù)融合預(yù)警時(shí),沒(méi)有發(fā)生誤報(bào),但是檢出率也降低了。從圖6中可以看出,需要根據(jù)檢出率和誤報(bào)率做一個(gè)權(quán)衡,達(dá)到最佳檢測(cè)效果。根據(jù)圖6可以看出,本文確定當(dāng)在一段時(shí)間內(nèi),供水管網(wǎng)中某個(gè)節(jié)點(diǎn)有3個(gè)或以上的水質(zhì)參數(shù)經(jīng)過(guò)序貫貝葉斯更新,概率超過(guò)給定的閾值PThreshold=0.7時(shí),經(jīng)過(guò)融合決定,認(rèn)為在該節(jié)點(diǎn)發(fā)生了水質(zhì)污染異常事件。

圖5 單變量參數(shù)的事件概率

圖6 多變量參數(shù)的事件概率

5 實(shí)驗(yàn)驗(yàn)證

5.1 實(shí)驗(yàn)環(huán)境設(shè)置

實(shí)驗(yàn)數(shù)據(jù)來(lái)自于從CANARY[13]獲得的供水管網(wǎng)的真實(shí)水質(zhì)數(shù)據(jù)集,在供水管網(wǎng)正常水質(zhì)狀況下每5 min采集一次(大約35 000個(gè)時(shí)間段)。檢測(cè)下列水質(zhì)參數(shù):游離氯、電導(dǎo)率(EC)、pH值、溫度、總有機(jī)碳(TOC)和濁度。通過(guò)在正常水質(zhì)數(shù)據(jù)上引入泛型干擾來(lái)疊加污染異常事件[14]。將數(shù)據(jù)集分2個(gè)子集:67%數(shù)據(jù)用于訓(xùn)練,33%數(shù)據(jù)用于測(cè)試。

實(shí)驗(yàn)準(zhǔn)備:由于污染物的異常行為對(duì)水質(zhì)參數(shù)的影響在真實(shí)的供水管網(wǎng)系統(tǒng)不能實(shí)際地測(cè)試,對(duì)測(cè)量的時(shí)間序列數(shù)據(jù)通過(guò)引入泛型干擾來(lái)模擬污染異常事件。在常規(guī)數(shù)據(jù)上疊加模擬的異常事件,反映由污染異常事件引起水質(zhì)參數(shù)的數(shù)據(jù)變化。事件模擬的方案是根據(jù)文獻(xiàn)[15]提出方法,假定污染事件的分布形態(tài)是高斯分布,如圖7顯示本實(shí)驗(yàn)的6個(gè)水質(zhì)參數(shù)在正常情況和疊加的污染異常事件情況下的部分時(shí)間序列。

實(shí)驗(yàn)分為兩個(gè)部分:1)BP模型預(yù)測(cè)效果驗(yàn)證。BP模型模擬多變量水質(zhì)參數(shù)時(shí)序數(shù)據(jù),結(jié)合貝葉斯序貫分析獨(dú)立更新每個(gè)參數(shù)的事件概率,BP模型的預(yù)測(cè)精度關(guān)系到M-TAEDA檢測(cè)精確度,所以驗(yàn)證BP模型的預(yù)測(cè)精度。2)與S-TAEDA對(duì)比分析。控制變量,僅僅考慮一個(gè)水質(zhì)參數(shù),即將M-TAEDA與單變量參數(shù)時(shí)間異常事件檢測(cè)算法S-TAEDA在相同的實(shí)驗(yàn)條件下進(jìn)行對(duì)比分析,通過(guò)多項(xiàng)評(píng)價(jià)指標(biāo)的對(duì)比分析來(lái)驗(yàn)證算法的優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果將從ROC曲線下面積、檢出率RD、誤報(bào)率FAR指標(biāo)來(lái)驗(yàn)證模型的預(yù)測(cè)精確度。

5.2 實(shí)驗(yàn)結(jié)果分析

5.2.1 BP模型預(yù)測(cè)效果驗(yàn)證

本文選擇前67%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),后33%作為測(cè)試數(shù)據(jù)。根據(jù)訓(xùn)練數(shù)據(jù)建模得到數(shù)據(jù)驅(qū)動(dòng)的BP預(yù)測(cè)模型,用測(cè)試子集來(lái)評(píng)估該BP預(yù)測(cè)模型。對(duì)每個(gè)水質(zhì)參數(shù)的新觀測(cè)值,計(jì)算其殘差作為總誤差。考慮均值(Mean)、標(biāo)準(zhǔn)差(Standard Deviation, STD)、MSE(均方誤差)和相關(guān)系數(shù)(R2)估計(jì)參數(shù),表3列出了6個(gè)水質(zhì)參數(shù)在BP模型訓(xùn)練階段和測(cè)試階段的結(jié)果。從表3中可以看出,在訓(xùn)練階段6個(gè)水質(zhì)參數(shù)數(shù)據(jù)的均值、標(biāo)準(zhǔn)差的預(yù)測(cè)值與實(shí)測(cè)值相差很小,均小于0.035。這表明該數(shù)據(jù)集沒(méi)有過(guò)多的噪聲數(shù)據(jù),數(shù)據(jù)能夠反映水質(zhì)實(shí)際狀況。另一方面,在測(cè)試階段,6個(gè)水質(zhì)參數(shù)的預(yù)測(cè)值與實(shí)測(cè)值相差不大,標(biāo)準(zhǔn)差、均方誤差可接受,各個(gè)參數(shù)的相關(guān)系統(tǒng)差異也不大。從表3可以看到,BP模型的預(yù)測(cè)精度達(dá)約90%,效果理想,表明BP模型能夠正確地分辨出水質(zhì)正常與異常。

圖7 多變量參數(shù)時(shí)間序列

表3 BP模型訓(xùn)練和測(cè)試階段的結(jié)果

Tab.3 Training results and test results with BP model

階段參數(shù)游離氯/(mg·L-1)EC/(ms·cm-1)pH值溫度/℃TOC/ppb濁度/NTU訓(xùn)練階段測(cè)試階段均值1均值2預(yù)測(cè)值實(shí)測(cè)值預(yù)測(cè)值實(shí)測(cè)值相關(guān)系數(shù)均方誤差均值1均值2預(yù)測(cè)值實(shí)測(cè)值預(yù)測(cè)值實(shí)測(cè)值相關(guān)系數(shù)均方誤差1.94778.32009.04017.2530.9600.223-1.945-77.6700-9.039-17.253-0.966-0.2201.94778.32009.04017.2530.9600.223-1.945-77.6700-9.039-17.253-0.966-0.2200.9230.98600.9990.9990.6850.6390.0070.03470.0000.0050.0760.0082.01088.35909.15118.0861.0210.225-2.002-87.2070-9.159-18.078-1.031-0.1980.07552.24400.2151.1891.4521.439-0.145-55.8040-0.240-1.302-1.214-1.3510.6250.91400.6900.7790.6540.6540.0160.50200.0180.3770.7321.379

5.2.2 與S-TAEDA對(duì)比分析

本文提出M-TAEDA用BP模擬各個(gè)水質(zhì)參數(shù),根據(jù)不同的水質(zhì)參數(shù)對(duì)污染的預(yù)測(cè)能力不同,為多個(gè)水質(zhì)參數(shù)分配對(duì)應(yīng)的權(quán)重,可以大幅度降低單個(gè)參數(shù)檢測(cè)算法的誤報(bào)率對(duì)整個(gè)檢測(cè)結(jié)果影響。從圖8~9可以看出,模擬多次異常事件,M-TAEDA的檢出率基本在75%以上,S-TAEDA的檢出率基本在50%~60%,平均比S-TAEDA高約40%。同時(shí),M-TAEDA的誤報(bào)率都小于10%,相對(duì)于S-TAEDA約15%以上的誤報(bào)率,誤報(bào)率下降了45%。實(shí)驗(yàn)結(jié)果表明了本文提出的多變量參數(shù)的時(shí)間異常事件檢測(cè)算法在檢出率與誤報(bào)率方面都較優(yōu)。

ROC曲線是檢出率和誤報(bào)率一種更直觀的表現(xiàn),以可視化的方式表示RD和FAR之間的權(quán)衡關(guān)系。本實(shí)驗(yàn)通過(guò)設(shè)定出多個(gè)不同的臨界值,計(jì)算出S-TAEDA和M-TAEDA的多個(gè)檢出率和誤報(bào)率的值。圖10顯示了S-TAEDA與M-TAEDA的ROC曲線。從圖10中可以看出,M-TAEDA的ROC曲線下面積明顯大于比S-TAEDA,表明M-TAEDA比S-TAEDA的檢測(cè)精確度高,誤報(bào)率低,檢測(cè)效果理想。

圖8 兩種算法檢出率的對(duì)比

圖9 兩種算法誤報(bào)率的對(duì)比

圖10 兩種算法對(duì)應(yīng)的ROC曲線

從上述兩個(gè)指標(biāo)比較分析看出,本文提出的多變量參數(shù)水質(zhì)異常事件檢測(cè)算法M-TAEDA比單變量參數(shù)水質(zhì)異常事件檢測(cè)算法S-TAEDA具有很明顯優(yōu)勢(shì)。這是因?yàn)镸-TAEDA用BP模擬各個(gè)水質(zhì)參數(shù),預(yù)測(cè)目標(biāo)參數(shù)下一個(gè)時(shí)刻的監(jiān)測(cè)值,較符合真實(shí)應(yīng)用場(chǎng)景中多個(gè)水質(zhì)參數(shù)之間相互影響的實(shí)際情況;另外,由于不同水質(zhì)參數(shù)對(duì)污染的預(yù)測(cè)能力不同,為多個(gè)水質(zhì)參數(shù)分配相應(yīng)權(quán)重,綜合考慮多個(gè)參數(shù)的事件概率作出融合決策并預(yù)警。而S-TAEDA僅僅通過(guò)模擬一個(gè)水質(zhì)參數(shù),容易造成比較高的誤報(bào)率。

6 結(jié)語(yǔ)

本文提出多變量水質(zhì)參數(shù)時(shí)序數(shù)據(jù)異常事件檢測(cè)的方法(M-TAEDA),引入BP模型模擬供水管網(wǎng)中的水質(zhì)參數(shù),結(jié)合序貫貝葉斯更新確定單個(gè)水質(zhì)參數(shù)的異常事件概率,最終將單變量事件概率融合為統(tǒng)一的多變量事件概率,最終作出融合判斷,預(yù)測(cè)供水管網(wǎng)單個(gè)節(jié)點(diǎn)的異常事件。實(shí)驗(yàn)結(jié)果表明BP模型模擬多變量水質(zhì)參數(shù)進(jìn)行預(yù)測(cè)可以達(dá)到90%精確性;與S-TAEDA方法相比,M-TAEDA方法可以提高異常檢出率約40%,降低誤報(bào)率約45%。

References)

[1] HALL J, HERRMANN J G.On-line water quality parameters as indicators of distribution system contamination [J].Journal American Water Works Association, 2007, 99(1): 66-77.

[2] HUANG T, MA X, JI X, et al.Online detecting spreading events with the spatio-temporal relationship in water distribution networks [M]// Advanced Data Mining and Applications.Berlin: Springer, 2013: 145-156.

[3] STOTEY M V, GAAG B V D, BURNS B P.Advances in on-line drinking water quality monitoring and early warning systems [J].Water Research, 2011, 45(2): 741-747.

[4] YIM S J, CHOI Y H.Fault-tolerant event detection using two thresholds in wireless sensor networks [C]// Proceedings of the 15th IEEE Pacific Rim International Symposium on Dependable Computing.Piscataway, NJ: IEEE, 2009: 331-335.

[5] XUE W, LUO Q, WU H.Pattern-based event detection in sensor networks [J].Distributed & Parallel Databases, 2012, 30(1): 27-62.

[6] BYRT D, CARLSON K H.Expanded summary: real-time detection of intentional chemical contamination in the distribution system [J].Journal American Water Works Association, 2005, 97(7): 130-133.

[7] WANG X R, LIZIER J T, OBST O, et al.Spatiotemporal anomaly detection in gas monitoring sensor networks [C]// EWSN 2008: Proceedings of the 5th European Conference on Wireless Sensor Networks.Berlin: Springer, 2008: 90-105.

[8] UUSITAL L.Advantages and challenges of Bayesian networks in environmental modelling [J].Ecological Modelling, 2014, 203(3/4): 312-318.

[9] ELIADED G, LAMBROU T P, PANAYIOTOU C G, et al.Contamination event detection in water distribution systems using a model-based approach [J].Procedia Engineering, 2014, 89: 1089-1096.

[10] 侯迪波,陳玥,趙海峰,等.基于RBF神經(jīng)網(wǎng)絡(luò)和小波分析的水質(zhì)異常檢測(cè)方法[J].傳感器與微系統(tǒng),2013,32(2):138-141.(HOU D B, CHEN Y, ZHAO H F, et al.Based on the RBF neural network and wavelet analysis the water quality of anomaly detection method [J].Transducer and Microsystem Technologies, 2013, 32(2): 138-141.)

[11] PERELMAN L, OSTFELD A.Bayesian networks for source intrusion detection [J].Journal of Water Resources Planning and Management, 2012, 139(4): 426-432.

[12] 孔英會(huì),景美麗.基于混淆矩陣和集成學(xué)習(xí)的分類(lèi)方法研究[J].計(jì)算機(jī)工程與科學(xué),2012,34(6):111-117.(KONG Y H, JING M L.Classification method based on confusion matrix and the integrated learning research [J].Computer Engineering and Science, 2012, 34(6): 111-117.)

[13] MURRAY R, HAXTON T, et al Water quality event detection systems for drinking water contamination warning systems: Development testing and application of CANARY [EB/OL].[2016-06-20].https://cfpub.epa.gov/si/si_public_file_download.cfm?p_download_id=496189.

[14] KLISE K A, MCKENNA S A.Multivariate applications for detecting anomalous water quality [C]// Proceedings of the 2006 Symposium on Water Distribution Systems Analysis.Cincinnati, OH: American Society of Civil Engineers, 2011: 1-11.

[15] MCKENNA S A, WILSON M, KLISE K A.Detecting changes in water quality data [J].Journal American Water Works Association, 2008, 77(1): 74-85.

This work is partially supported by the National Natural Science Foundation of China (U1301252), the National Science and Technology Support Program (2013BAB06B04), the National Key R&D Program (2016YFC0400910), the Technology Project of China Huaneng Group Company Headquarters (HNKJ13-H17-04), the Science and Technology Project of Yunnan Province (2014GA007), the Special Fund for Basic Scientific Research of Central Universities (2015B22214).

MAO Yingchi, born in 1976, Ph.D., associate professor.Her research interests include distributed computing and parallel processing, distributed data management.

QI Hai, born in 1994, M.S.candidate.His research interests include distributed computing, parallel processing.

JIE Qing, born in 1989, M.S.candidate.Her research interests include distributed computing, parallel processing, data management.

WANG Longbao, born in 1977, lecturer.His research interests include intelligent data processing.

M-TAEDA: temporal abnormal event detection algorithm for multivariate time-series data of water quality

MAO Yingchi*, QI Hai, JIE Qing, WANG Longbao

(CollegeofComputerandInformation,HohaiUniversity,NanjingJiangsu211100,China)

The real-time time-series data of multiple water parameters are acquired via the water sensor networks deployed in the water supply network.The accurate and efficient detection and warning of pollution events to prevent pollution from spreading is one of the most important issues when the pollution occurs.In order to comprehensively evaluate the abnormal event detection to reduce the detection deviation, a Temproal Abnormal Event Detection Algorithm for Multivariate time series data (M-TAEDA) was proposed.In M-TAEDA, it could analyze the time-series data of multiple parameters with BP (Back Propagation) model to determine the possible outliers, respectively.M-TAEDA algorithm could detect the potential pollution events through Bayesian sequential analysis to estimate the probability of an abnormal event.Finally, it can make decision through the multiple event probability fusion in the water supply systems.The experimental results indicate that the proposed M-TAEDA algorithm can get the 90% accuracy with BP model and improve the rate of detection about 40% and reduce the false alarm rate about 45% compared with the temporal abnormal event detection of Single-Variate Temproal Abnormal Event Detection Algorithm (S-TAEDA).

Wireless Sensor Network (WSN); abnormal event detection; Back Propagation (BP) model; multivariate water quality parameter; time-series data

2016-08-05;

2016-08-24。 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(U1301252);國(guó)家科技支撐計(jì)劃項(xiàng)目(2013BAB06B04);國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2016YFC0400910);中國(guó)華能集團(tuán)公司總部科技項(xiàng)目(HNKJ13-H17-04);云南省科技計(jì)劃項(xiàng)目(2014GA007);中央高校基本科研業(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金資助項(xiàng)目(2015B22214)。

毛鶯池(1976—),女,上海人,副教授,博士,CCF會(huì)員,主要研究方向:分布式計(jì)算與并行處理、分布式數(shù)據(jù)管理; 齊海(1994—),男,安徽安慶人,碩士研究生,主要研究方向:分布式計(jì)算、并行處理; 接青(1989—),女,山東煙臺(tái)人,碩士研究生,主要研究方向:分布式計(jì)算、并行處理、數(shù)據(jù)管理; 王龍寶(1977—),男,江蘇鹽城人,講師,主要研究方向:智能數(shù)據(jù)處理。

1001-9081(2017)01-0138-07DOI:10.11772/j.issn.1001-9081.2017.01.0138

TP393;TP

A

猜你喜歡
水質(zhì)污染檢測(cè)
水質(zhì)抽檢豈容造假
環(huán)境(2023年5期)2023-06-30 01:20:01
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
一月冬棚養(yǎng)蝦常見(jiàn)水質(zhì)渾濁,要如何解決?這9大原因及處理方法你要知曉
堅(jiān)決打好污染防治攻堅(jiān)戰(zhàn)
堅(jiān)決打好污染防治攻堅(jiān)戰(zhàn)
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
對(duì)抗塵污染,遠(yuǎn)離“霾”伏
都市麗人(2015年5期)2015-03-20 13:33:49
水質(zhì)總磷測(cè)定存在的問(wèn)題初探
河南科技(2014年23期)2014-02-27 14:19:07
主站蜘蛛池模板: 日本人妻一区二区三区不卡影院| 成·人免费午夜无码视频在线观看 | 国产一级特黄aa级特黄裸毛片| 色呦呦手机在线精品| 韩国福利一区| 成人永久免费A∨一级在线播放| 在线观看免费黄色网址| 日韩欧美中文字幕在线韩免费 | 国产成人精品第一区二区| 九色视频在线免费观看| 久久伊人操| 国产黑丝一区| 99re在线观看视频| 亚洲AV人人澡人人双人| 国产激情影院| 欧美精品亚洲日韩a| 亚洲中字无码AV电影在线观看| 国产精品成人一区二区不卡 | 国产a v无码专区亚洲av| 欧美一级在线看| 久久婷婷五月综合97色| 国产在线精彩视频论坛| 区国产精品搜索视频| 国产手机在线观看| 国产成人无码AV在线播放动漫| 国精品91人妻无码一区二区三区| 国产麻豆福利av在线播放| 992tv国产人成在线观看| 国产后式a一视频| 久久综合成人| 狠狠亚洲五月天| 国内熟女少妇一线天| 亚洲国产成人久久精品软件| 五月天福利视频| 久久久久人妻一区精品色奶水 | 国产制服丝袜无码视频| 欧美啪啪视频免码| 久久亚洲黄色视频| 亚洲日产2021三区在线| 亚洲国产成人精品一二区| 狠狠v日韩v欧美v| 人妻21p大胆| 日韩国产高清无码| 激情网址在线观看| 国产精品第一区在线观看| 在线免费不卡视频| 中文字幕有乳无码| 欧美中出一区二区| 久久精品人人做人人爽97| 91麻豆精品视频| 国产精品3p视频| av性天堂网| 国产jizzjizz视频| 久久国产香蕉| 99在线视频网站| 亚洲全网成人资源在线观看| 欧美专区在线观看| 无码中文AⅤ在线观看| 亚洲综合久久成人AV| 国产午夜人做人免费视频| 久久午夜夜伦鲁鲁片无码免费| 一级黄色欧美| 亚洲一区无码在线| 久久综合九色综合97网| 97青草最新免费精品视频| 毛片视频网址| 久久先锋资源| 91在线无码精品秘九色APP| 国产美女无遮挡免费视频网站| 毛片网站在线看| 欧美综合在线观看| 国产区福利小视频在线观看尤物| 国产十八禁在线观看免费| 亚洲精品无码不卡在线播放| 国内精品自在自线视频香蕉| 国产主播喷水| 日韩精品无码不卡无码| 欧美h在线观看| 日韩欧美网址| 国产成人亚洲精品无码电影| 亚洲欧美在线精品一区二区| 国产成人精品男人的天堂|