張 峰 薛惠鋒 WANG Wei 宋曉娜 萬 毅
(1.中國航天系統科學與工程研究院研究生部, 北京 100048;2.紐約州立賓漢姆頓大學湯瑪士·華生工程與應用科學學院, 賓漢姆頓 NY 13902;3.泰山學院商學院, 泰安 271000; 4.水利部水資源管理中心, 北京 100053)
水資源監測異常數據模態分解-支持向量機重構方法
張 峰1薛惠鋒1WANG Wei2宋曉娜3萬 毅4
(1.中國航天系統科學與工程研究院研究生部, 北京 100048;2.紐約州立賓漢姆頓大學湯瑪士·華生工程與應用科學學院, 賓漢姆頓 NY 13902;3.泰山學院商學院, 泰安 271000; 4.水利部水資源管理中心, 北京 100053)
完備真實的水資源監測數據是支撐數據分析與決策的基本前提。在梳理現階段水資源監測異常數據的基礎上,提出運用移動平均擬合初篩來直觀辨識異常監測數據,進而選取集合模態分解對非可直觀辨識異常監測數據進行挖掘的方法。將剔除異常監測值后的時序數據作為基于粒子群優化最小二乘支持向量機模型的模擬樣本,并利用其恢復所剔除的異常監測數據。對水務公司日取水量監測數據的實證分析結果表明,通過移動平均擬合與模態分解可較大限度地保留含有異常數據的特征向量并實現數據的有效重構,相比傳統的統計方法其具有更好的適用性;運用粒子群優化的最小二乘支持向量機可進一步提高對剔除異常值數據的擬合效果,且符合水資源監測數據的季節波動規律特征及對實際取用水狀態的客觀反映,據此可相對合理地達到恢復所剔除異常監測數據的目的。
水資源監測; 異常數據; 數據重構; 模態分解; 最小二乘支持向量機
實現對水資源的全面監測是國家水資源監控能力建設項目的重點內容,是落實2011年中央一號文件和水利信息化建設的龍頭工程,尤其是對8 558個規模以上取用水戶、4 493個重要水功能區與入河排污口及737個省界斷面等的水量和水質的在線監測,由此逐步形成完善的國家水資源在線監測數據采集傳輸網絡體系,為強化水資源管理提供重要決策支撐[1]。
當前國家水行政部門與相關機構正著力探索處理水資源監測異常數據的有效方法,但水資源監測數據特點不同于傳統的統計數據,現有相關數據分析方法的適用性還需要進一步研究。MANDEL等[2]基于水資源分配網絡的復雜性,提出采用聚類函數的方法用于挖掘水質異常數據的主要特征及估計未來重大水質事件發生的概率;KAR等[3]針對水資源數據監測中金屬污染物的空間變化情況,融合支持向量機與多元回歸分析技術,提出了可用于輔助水質遠程監測Hyperion數據分類模型;PARK等[4]選取主成分分析方法構建影響水量分配數據變化的關聯要素判別模型,并通過測算模型的剩余誤差來識別水資源數據的異常值;同樣應用主成分的方法,PISINARAS等[5]基于對河流水量與水質的實地調研數據的分析,提出了提高水資源監測數據質量的相關途徑;龍秋波等[6]利用中國水利普查數據、水資源統計公報數據等進行數據統計差異分析,并構建了趨勢離差和線性回歸模型等,分別實現了不同行業之間水資源數據差異甄別與修正;方海泉等[7]選用中位數與集成模態分解技術對水資源監測數據進行分析,并認為根據數據之間的偏差比率可識別其異常值;魏晶茹等[8]針對污水監測數據中存在的數據異常及缺失問題,建立了非線性的支持向量機模型,分別利用擬合誤差與樣本訓練值來完成異常數據的辨識和缺失數據的補充。此外,還有學者探討了經典統計學中的拉依達準則在水文數據異常值處理中的應用[9]。
綜上可知,水資源監測異常數據的識別與處理已成為水資源管理研究工作的重點,而學者們嘗試諸多數據建模方法并建立了一定程度的分析基礎,但實際上水資源監測數據上傳至國家水資源管理系統中具有數據規模大、人工檢測操作復雜等特點,同時其數據本身呈現出季節波動規律,此背景下達到有效識別監測異常數據的目標則需要構建與其相適應的檢測模型。據此,本文針對日取用水量監測數據為研究對象,結合該類監測數據統計中的實際情況,提出一種基于移動平均擬合和模態分解的水資源監測異常數據檢測方法,分別從可直觀辨識與非可直觀辨識的水資源異常數據處理角度完成其異常數據的辨識,并在驗證模型有效性基礎上利用粒子群-支持向量機仿真模型實現對異常數據的恢復。
1.1 可直觀辨識異常數據情景
可直觀辨識的水資源監測數據異常是指能夠利用其監測數據值的變化大小或統計曲線的走勢而直接讀取的非常規數據狀態。按照水資源監測系統呈現出的水資源監測數據狀況,以日取水量數據為例,其可直觀識別出相對典型的監測數據異常情況有:①數據值連續為零。如圖1a所示,水資源監測數據連續一段時間內取水量為零,該情況下多是由于監測設備停用、傳感器損壞等問題導致。②數據值連續不變。即水資源監測數據處于非零狀態的恒定值(圖1b),正常狀態下日取水量均會存在不同程度的差異,但長時間不發生變化則說明其具有產生異常的可能。③數據值突變過大、過低、為零。該情景主要指監測數據在某一點上出現明顯的突變,但隨后趨于波動不大的連續狀態(圖1c),而突變的原因有多種,包括該日取水量確實由于水資源需求而改變,但也可能是設備受外界環境干擾而產生異常波動。④數據值季節性反差。正常狀態下日取水量總體上呈一定規律變化,例如觀測國家水資源管理系統中對重點取用水戶的監測數據值多數是“夏季高而冬季低”的趨勢,這主要是由于夏季取用水需求相對較高導致,但局部異常數據則表現出相反態勢,即冬季總體水資源需求量相對夏季應下降但所監測的數據卻呈持續上升趨勢(圖1d,其中藍點表示冬季原始監測數據相對夏季呈現出偏高的異常狀態,紅點表示正常狀態下相對夏季偏低的監測數據狀態),或在夏季出現相反的現象。⑤數據值缺失。該問題存在兩種表現形式,即數據連續性缺失與間斷性缺失,這兩種均為水資源監測系統中無法獲取實際監測數據而造成數據值處于空白,但前者是指特定時間段內某一點或連續某幾點出現監測數據缺失,而后者則是一套原始數據中存在非連續的2處以上數據缺失,對于上述場景的異常數據重構通常需要與歷史年份下該時間段內的監測數據進行擬合與對比進行判定,但是由于目前水資源監控能力尚處于建設階段,其所能獲取的歷史年份監測數據相對有限,亟需采用一些定量的方法對其進行重構。

圖1 可直觀辨識的水資源監測異常數據情景Fig.1 Visual identification of abnormal data scenarios for water resources detection
對于可直觀辨識的水資源監測異常數據需要依據實際情況,通過反饋校對的形式檢驗數據的真偽,若是由實際需求而引發的數據變動則不需再進行調整,而對于由于設備損壞、人工操作等導致的數據異常則需要采取相應的措施進行數據修正。
1.2 非可直觀辨識異常數據情景
除上述可直觀辨識的異常數據情景外,其它情景多為水資源監測數據連續且上下波動幅度并不明顯的情況,但這其中并不能排除全部為監測到的精準數據,通常也會存在通過直接觀測而無法輕易發現的數據異常值,對此可將此類異常數據稱為非可直觀辨識異常數據。據其數據特性來看,非可直觀辨識異常數據檢測要在看似正常的數據流中查找存在異常的數據點,其判定精度直接關系到水資源監控工作的復雜性,但此類異常數據的排查難度明顯高于可直觀辨識的異常數據,而這也是自國家水資源監控能力建設以來亟待解決的難點。
1.3 技術路線
基于現有國家水資源監測系統中異常數據的表征狀態,本文按照異常數據先檢測后重構的思路,確定技術路線如圖2所示。

圖2 研究技術路線Fig.2 Technical route of research
2.1 概率統計模型
常用經典統計學異常值檢測準則有拉依達準則(3σ)、格拉布斯準則、狄克遜準則等[10],這類準則的使用通常是建立在單次試驗重復測量的基礎上,但水資源監測數據每日測量重復次數有限,因此這些準則在水資源監測數據異常值辨析的適用性上有待驗證。
2.2 模態分解模型
集合經驗模態分解(EEMD)是對經典模態分解進行改進的一種融合噪聲輔助數據處理方法,在模態分解上具有抗混疊的優勢[11]。選取EEMD處理水資源監測異常數據的識別,可有效提取監測數據固有模態函數(Intrinsic mode function,IMF)并挖掘異常特征向量規律[12],其步驟如下:
(1)對原始時間序列x(t)添加隨機高斯白噪聲ηm(t),取得融合噪聲后的待處理序列
xm(t)=x(t)+ηm(t)
(1)
(2)將含有白噪聲的序列xm(t)進行EMD分解,得到n個IMF分量ci,m(t)(i=1,2,…,n)和剩余分量rn,m(t)。
(3)添加均方根值相等的不同白噪聲序列,并反復運行上述步驟,取得M組不同的IMF分量及剩余分量。
(4)計算M組IMF分量與剩余分量的均值,將其最終分解取得的IMF分量與剩余分量定義為模態分解EEMD的分析結果,即
(2)
2.3 粒子群-支持向量機仿真模型
考慮數據樣本的規模和最小二乘支持向量機(LSSVM)在解決非線性、規模樣本等問題的擬合優勢[13],本文選取該方法對水資源監測異常數據進行恢復。同時,利用粒子群算法(PSO)優化LSSVM核函數的參數。其中LSSVM目標函數為
(3)
式中ω——權向量θ——誤差向量
γ——懲罰因子,γgt;0
考慮RBF核函數處理非線性輸入與輸出關系的適用性,選取其作為LSSVM的核函數[14]

(4)
式中ωi——Lagrange乘子


圖3 利用PSO優化LSSVM參數流程Fig.3 Flow chart of parameters of LSSVM optimized by PSO
選取參數優化后的LSSVM模型,將除了存在數據明顯異常的水資源監測數據作為模型訓練樣本進行擬合,通過控制擬合誤差辨識其監測數據異常值,進而根據擬合結果對水資源監測異常數據進行恢復。
3.1 數據說明
以某水務有限公司2016年日取水量監測數據為例(共366 d),該數據序列源于國家水資源管理系統數據庫,記為x(p)(圖4)。對其可直觀辨識的水資源異常數據初步處理后,重點分析其非可直觀辨識的日取水量監測異常數據。

圖4 日取水量監測數據變化狀態Fig.4 Changing states of daily monitoring water data
3.2 可直觀辨識的水資源異常數據粗處理
按照可直觀辨識的水資源異常數據的情景類別,觀測圖4中未出現季節反差的現象,但需對日取水量監測數據的出現數值突變過大、為零、缺失、連續恒定不變的數據點進行初篩,其中數值突變過大包括過高和過低兩種情況。對于這類異常數據需要在進行非可直觀辨識異常數據分析建模前進行剔除,否則易受其影響而導致所建數據模型判定精度受損,但是同時也要考慮日取水量監測數據信息狀態的反映,避免由于數據剔除規模過大而造成數據建模信息支撐不足。據此,鑒于日取水量通常受季節影響相對顯著,可分別采用多項式擬合、移動平均算法預估其可直觀辨識的水資源異常數據(圖5、6,綠色曲線表示多項式與移動平均擬合曲線,紅色點指識別的異常數據)。其中,利用多項式與移動平均數據擬合時,可參考經典統計學中的拉依達準則對大于“樣本均值±3倍標準差”數據為異常值的定義方法,但同時考慮相比統計類數據,監測類數據具有監測頻率高、部分異常值波動幅度大等特點,若直接采用拉依達準則易受異常值影響導致其閾值范圍準確度降低。因此,此處采用在剔除樣本數據最大值與最小值的基礎上計算其數據標準差,進而采用“擬合值±3倍標準差”的方法識別異常數據。其中,擬合值是指運用多項式與移動平均算法在各監測時刻上的擬合數據。

圖5 基于多項式的數據擬合曲線與異常點識別Fig.5 Data fitting curve and abnormal point identification based on polynomial

圖6 基于移動平均的數據擬合曲線與異常點識別Fig.6 Data fitting curve and abnormal point identification based on moving average
上述多項式擬合可基于數據樣本總體對其宏觀變動趨勢進行反映,具有簡單而直觀的特點,但通常也易出現過擬合或欠擬合的現象,尤其是在監測數據擬合中對其數據的局部波動規律擬合不足;而移動平均法則不僅對原始監測數據具有修勻或平滑的作用,而且同時還可以在一定程度上融合原有時序數據的波動特點,但無法實現對波動幅度并非異常明顯數據的檢驗。根據數據離散狀態,可知多項式擬合狀態下需要剔除的異常數據點相對較多(41項),而經實際校驗反饋發現其中部分數據點被誤判為異常值。采用移動平均法所需剔除異常數據點為14項,其擬合的數據波動規律要比多項式擬合效果相對更加顯著。而對比兩種方法監測出的異常數據量,多項式擬合要遠高于移動平均法,這主要是因為移動平均法能夠在不改變原始監測時序數據趨勢的情況下,可對局部監測數據的變動規律進行較高程度的擬合,并體現其局部波動狀態,多項式擬合難以實現該功能,而對于移動平均法無法檢測出的非可直觀辨識異常數據則可通過EEMD方法進行進一步挖掘。因此,在保障數據建模信息盡可能完整的前提下,選取移動平均法作出的可直觀辨識的水資源異常數據更加合理,剔除這類異常數據點后的日取水量監測數據序列記為x(p′),其曲線如圖7所示。

圖7 剔除可直觀辨識異常點后監測數據Fig.7 Daily monitoring water data after abnormal data revised
3.3 基于模態分解的非可直觀辨識異常數據分析
以初步修正后的時間序列x(p′)為樣本,在維持其數據點時序位置不變的情況下采取EEMD模型分解其樣本數據,如圖8所示。其中包括8組分量,7個固有模態函數ci(i=1,2,…,7)與1個殘余項r。觀測其分量可知c1整體均呈高頻噪聲狀態,而c2局部數據噪聲較為顯著,考慮監測數據中突變型異常數據的特征,其異常數據通常可引發局部監測值發生相對顯著的時序波動,表現于模態分量中為高頻噪聲,因此,要取得相對穩定的整體原始監測數據與局部變動態勢,則可對高頻分量進行剔除處理,并利用剩余低頻分量實現對原x(p′)數據序列的濾波處理。因此,可將后6項相對低頻分量進行數組重構,記為x(p″),如圖9所示。按照重構結果,可發現重構數據序列x(p″)能夠對樣本中的多數正常數據進行較高精度擬合,并取得了相對較為平緩的重構數據趨勢線,即滿足對數據變化特征客觀反映的標準。

圖8 非可直觀辨識異常數據模態分解Fig.8 Daily monitoring water data analysis by EEMD method

圖9 模態分解重構數據擬合狀態Fig.9 Data reconstruction based on EEMD method

圖10 相對誤差計算結果Fig.10 Results of relative error calculation

圖11 全部異常數據檢測結果Fig.11 Results of all abnormal data detection
為進一步提高基于模態分解重構數據與粗處理后監測原始數據的對比程度,需測算數據序列之間的相對誤差E_p,結果見圖10。按照相對誤差E_p閾值±0.5的控制標準(該閾值根據現有水資源監測數據統計分析和相關專家經驗初步設定,隨著其監測數據歷史樣本的增加可進一步優化),設定當|E_p|大于0.5時,其所對應的x(p″)數據點判定為異常值。據此,發現其中有11項監測數據出現異常狀態。而為增強異常數據在水資源管理系統中的可視化水平,則結合可直觀辨識的日取水量異常數據粗處理結果,將整個步驟中判定為異常數據(含可直觀辨識與非可直觀辨識異常數據)點處均設為零,記為x(p?),如圖11所示。由圖11可看出,出現異常數據的時間多集中于上半年,而下半年則相對較少,說明隨著水資源監測體系與水資源監控管理信息平臺建設的不斷完善,對水資源監測數據采集與傳輸精準度的提升有了顯著性改善。而局部水資源監測異常數據表明,部分監測還存在數據連續性異常的現象,特別是在132~137 d期間,數據呈連續為零的狀態,而此類問題的多數情況下是由監測設備本身或受環境影響而導致,即說明在整體水資源監測水平上升的良性趨勢下,局部監測基礎設施仍需完善。
為驗證本文提出的水資源監測異常數據檢驗方法的有效性,同時采用了經典統計學中的3σ準則和箱線圖方法對其數據進行異常分析[18],以增加對比度。由于這類統計方法適用的條件存在差異,且缺乏對水資源監測數據時序特征的考慮,結果發現在依據3σ準則下,其正常閾值范圍為[-1 299.56, 15 510.83],即僅有3個數據異常點可被識別;而選取箱線圖統計中,也只有4個異常點被檢驗出來(圖12),多數異常值被忽略,無法為水資源監測數據分析與決策提供足夠的信息支撐。而該對比結果也進一步印證了本文所采用的異常值檢測模型對水資源監測數據具有實用性。

圖12 基于箱線圖異常值檢測結果Fig.12 Abnormal data detection based on box-plot
3.4 基于PSO-LSSVM的異常數據恢復

ij=(xij-xjmax)/(xjmax-xjmin)
(5)
xj——xij所在j列數值
xij——原始監測數據
xjmax——xj的最大值
xjmin——xj的最小值
利用RBF核函數,根據模型(4)對數據序列?_p分別進行LSSVM、PSO-LSSVM模型樣本訓練,并通過PSO-LSSVM擬合模型重構圖11中檢測出的異常數據點,結果如圖13與圖14所示,而圖15顯示了粒子群進化中適應度的變化情況。

圖13 基于序列?_p的PSO-LSSVM數據模擬Fig.13 PSO-LSSVM sample training based on ?_p

圖14 基于PSO-LSSVM的異常數據恢復Fig.14 Recovery of abnormal data based on PSO-LSSVM

圖15 粒子群進化與適應度變化曲線Fig.15 Evolution and fitness of particle swarm


圖16 基于曲線擬合的異常數據恢復Fig.16 Recovery of abnormal data based on curve fitting
3.5 討論
(1)在國家水資源監控能力二期建設的關鍵階段,如何對現有規模性水資源監測數據進行全面分析,進而為水資源管理決策提供有效支撐是亟需解決的重要問題,而實現數據分析決策支持的前提是提高數據的可用性,尤其是水資源監測數據完備構建與真偽鑒定,這類問題與水資源監測異常數據緊密相關。然而現階段相關部門及學術研究中對水資源監測異常數據并沒有形成統一的認識[19-20],在實際水資源統計與監測數據管理中,通常認為異常值是偏離鄰近監測值較大的數據。據此,本文所定義的水資源監測異常數據是出現數值連續不變、數值呈季節性反差,以及數據相比鄰域時刻呈現突變過大、過低或為零等的非常規數據。該定義方式基本符合水資源監測數據管理中的實際狀況,也可對相關監測數據分析提供借鑒。
(2)基于維持水資源監測異常數據的實際特征而采取的移動平均擬合與EEMD方法識別日取水量監測異常數據的研究思路,能夠較大程度地模擬監測點的水資源取用狀態及變動趨勢。實際上,導致水資源監測數據異常的因素有很多,但是歸結起來可分為兩大類,即實際突變異常和待修正異常。其中實際突變異常主要是指由于實際取用水需求改變而引發的監測數據上升或下降,而待修正異常則是受監測設備或環境等影響而造成實際數據與水資源管理系統中呈現的數據存在較大差異。對于前者可通過人工校對識別,并保留其原始監測數據,而后者則需運用相應的方法或模型進行辨識,而本文提出方法可為其提供一種數據分析方法。此外,運用PSO-LSSVM的日取水量監測數據擬合曲線與監測點取用水實際狀況相一致,且符合季節波動規律,這不僅可用于解決監測異常數據的恢復,也適用于監測數據缺失填補的情況。
按照可直觀辨識與非可直觀辨識的異常值識別思路對水資源監測異常數據存在情況進行總結梳理,在其基礎上提出了基于移動平均擬合與EEMD相結合的水資源監測異常數據檢測模型,和基于PSO-LSSVM的異常數據恢復方法,并通過對水務公司的實際日取水量監測數據進行實證分析,驗證了上述方法在處理其監測異常數據上的可行性與有效性。研究發現,傳統的統計手段難以滿足監測頻率高同時具有季節周期波動規律的水資源監測數據分析的要求,而經過對可直觀辨識的異常數據進行粗處理后,采用EEMD方法可在保障其監測數據時序特征狀態不變的情況下完成對異常數據的篩選,其適用性更強。同時,PSO優化后的LSSVM模型可更加系統地擬合剔除異常數據后的樣本,其擬合狀態與實際取用水季節波動規律基本一致。因此,該類監測異常數據處理方法可為水行政部門推進水資源監控能力建設提供理論支持,也能對其它相關領域的時序監測數據分析提供參考。
1 中華人民共和國水利部,財政部.國家水資源監控能力建設項目實施方案(2012—2014)[S].北京: 中華人民共和國水利部,2012.
2 MANDEL P, MAUREL M, CHENU D. Better understanding of water quality evolution in water distribution networks using data clustering[J]. Water Research, 2015, 87: 69-78.
3 KAR S, RATHORE V S, SHARMA R, et al. Classification of river water pollution using Hyperion data[J]. Journal of Hydrology, 2016, 537: 221-233.
4 PARK S, JUNG S Y. Principal component analysis of water pipe flow data[J]. Procedia Engineering, 2014, 89: 395-400.
5 PISINARAS V, PETALAS C, GEMITZI A, et al. Water quantity and quality monitoring of Kosynthos river, north-eastern Greece[J]. Global Nest Journal, 2007, 9(3): 259-268.
6 龍秋波,賈紹鳳,汪黨獻.中國用水數據統計差異分析[J].資源科學, 2016, 38(2): 248-254.
LONG Qiubo, JIA Shaofeng, WANG Dangxian. Disparity in China’s water use statistics[J].Resources Science, 2016, 38(2): 248-254. (in Chinese)
7 方海泉,薛惠鋒,蔣云鐘,等.基于EEMD的水資源監測數據異常值檢測與校正[J/OL].農業機械學報, 2017,48(9):257-263. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1amp;file_no=20170932amp;journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2017.09.032.
FANG Haiquan, XUE Huifeng, JIANG Yunzhong, et al. Outlier detection and correction for water resources monitoring data based on EEMD[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2017,48(9):257-263. (in Chinese)
8 魏晶茹,馬瑜,白冰,等.基于PSO-SVM算法的環境監測數據異常檢測和缺失補全[J].環境監測管理與技術, 2016, 28(4): 53-56.
WEI Jingru, MA Yu, BAI Bing, et al. Anomaly detection and missing completion of environment monitoring data based on PSO-SVM[J]. The Administration and Technique of Environmental Monitoring, 2016, 28(4): 53-56. (in Chinese)
9 侍建國,張亦飛.拉依達準則在處理區域水文數據異常值中的應用[J].海河水利, 2016(5): 49-51.
SHI Jianguo, ZHANG Yifei. The application of Pauta criterion in regional hydrological outlier analysis[J]. Haihe Water Resources, 2016(5): 49-51. (in Chinese)
10 ANDERSON T W, ANDERSON T W, ANDERSON T W, et al. An introduction to multivariate statistical analysis[M]. New York: Wiley, 1958: 30-36.
11 曾祥,周曉軍,楊辰龍,等.基于經驗模態分解和S變換的缺陷超聲回波檢測方法[J/OL].農業機械學報,2016,47(11):414-420.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?file_no=20161156amp;flag=1. DOI:10.6041/j.issn.1000-1298.2016.11.056.
ZENG Xiang, ZHOU Xiaojun, YANG Chenlong, et al. Ultrasonic defect echoes identification based on empirical mode decomposition and stransform[J/OL].Transactions of the Chinese Society for Agricultural Machinery,2016,47(11):414-420. (in Chinese)
12 WU Z, HUANG N E. Ensemble empirical mode decomposition: a noise-assisted data analysis method[J]. Advances in Adaptive Data Analysis, 2009, 1(1): 1-41.
13 SUYKENS J A K, VANDEWALLE J. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999, 9(3): 293-300.
14 DEMPE S, ZEMKOHO A B. On the Karush-Kuhn-Tucker reformulation of the bilevel optimization problem[J]. Nonlinear Analysis: Theory, Methods amp; Applications, 2012, 75(3): 1202-1218.
15 GORJAEI R G, SONGOLZADEH R, TORKAMAN M, et al. A novel PSO-LSSVM model for predicting liquid rate of two phase flow through wellhead chokes[J]. Journal of Natural Gas Science and Engineering, 2015, 24: 228-237.
16 YANG X, YU F, PEDRYCZ W. Long-term forecasting of time series based on linear fuzzy information granules and fuzzy inference system[J]. International Journal of Approximate Reasoning, 2017, 81: 1-27.
17 SUBASI A. Classification of EMG signals using PSO optimized SVM for diagnosis of neuromuscular disorders[J]. Computers in Biology and Medicine, 2013, 43(5): 576-586.
18 KOSE E, TOKATLI C, ?ICEK A. Monitoring stream water quality: a statistical evaluation[J]. Polish Journal of Environmental Studies, 2014, 23(5): 1637-1647.
19 BARNETT V, LEWIS T. Outliers in statistical data[M]. New York: Wiley, 1994: 12-20.
20 FILZMOSER P. Identification of multivariate outliers: a performance study[J]. Austrian Journal of Statistics, 2016, 34(2): 127-138.
MethodsofAbnormalDataDetectionandRecoveryforWaterResourcesMonitoringBasedonEEMDandPSO-LSSVM
ZHANG Feng1XUE Huifeng1WANG Wei2SONG Xiaona3WAN Yi4
(1.GraduateSchool,ChinaAcademyofAerospaceSystemScientificandEngineering,Beijing100048,China2.ThomasJ.WatsonSchoolofEngineeringandAppliedScience,BinghamtonUniversity,StateUniversityofNewYork,BinghamtonNY13902,USA3.SchoolofBusiness,TaishanUniversity,Taian271000,China4.WaterResourcesManagementCenter,MinistryofWaterResources,Beijing100053,China)
The national water resources monitoring capacity building project which started in 2012 in China is an important way to improve the level of water conservancy information. It requires that the historical time-series monitoring data of water resources should be complete and reliable so that it can be used to support data analysis and decision making. The basic scenarios for monitoring abnormal data were summed up and a comprehensive model was proposed, aiming at abnormal data detection and recovery. Moving average fitting and ensemble empirical mode decomposition (EEMD) method were introduced to identify both observable and non-observable abnormal monitoring data. The particle swarm optimization based least squares support vector machine (PSO-LSSVM) was then adopted for abnormal data recovery and imputation. All above methods were tested with the daily water consumption monitoring data of water company. Results showed that the feature vector that contained exception data could be well preserved by moving average fitting and EEDM method and the effective reconstruction of water monitoring data was achieved, exhibiting better applicability than traditional statistical methods. Moreover, it can be observed that the PSO-LSSVM model had the ability to further improve the fitting results of the time-series data that excluded outliers. The fitted curve conformed to the seasonal fluctuation rule and it was consistent with the actual state of water demand. Accordingly, the objective of recovering the excluded data exception could be achieved reasonably by using this method. Furthermore, these methods can be applied to the analysis of monitoring data in other areas.
water resources monitoring; abnormal data; data reconstruction; modal decomposition; least squares support vector machine
10.6041/j.issn.1000-1298.2017.11.038
N945.2
A
1000-1298(2017)11-0316-08
2017-08-15
2017-09-07
國家自然科學基金委員會-廣東聯合基金項目(U1501253)和廣東省省級科技計劃項目(2016B010127005)
張峰(1989—),男,博士生,主要從事系統工程與工業工程研究,E-mail: aerospace1989@163.com