王 晗 張 峰 薛惠鋒
1(中國航天系統科學與工程研究院 北京 100048) 2(山東理工大學管理學院 山東 淄博 255012)
在現階段國內水資源形勢嚴峻與水務基礎設施持續建設的情況下,水資源數據管理問題仍然突出。以國家水資源監控能力建設項目為例,通過2012年-2014年期間一期運行實施,取得了海量水資源動態監測數據,但是對水資源管理決策支持力度偏弱,主要原因在于數據的完備性、真實性不足,特別是在水體監控、取水許可分析上還存在嚴重的數據缺口[2]。根據智慧水務對水資源保障和數據管理的需求,目前最為關鍵的是確保數據的真實性、有效性,構建與智慧水務標準相一致的水資源數據管理體系。
基于水資源數據處理工作的重要性與迫切性,已有相關學者對其進行基礎性探索,主要集中在:1) 水資源數據處理與關聯性分析。按照水資源數據管理的實際業務需求,數據的基礎處理與關聯特性分析成為其研究熱點,但由于缺乏規模樣本數據,多聚焦于適用于小樣本的算法優化。如:Reitsma等[3]提出采用面向對象技術模擬的水資源數據多準則評價模型;Dietrich等[4]利用不同水資源評價指標間的關聯特性提出濕地水平衡模型,其功效在于簡化規模數據輸入,但易影響數據準確性;Park等[5]針對農業水資源數據管理的復雜性,采用數據聚類算法及Web數據處理技術,構建了其水資源數據集成模型;Slaughter等[6]基于流域水質數據的稀疏特性,提出引入流量參數控制的方法建立水質系統評價模型;吳海斌[7]采用曲線回歸擬合模型提升水環境監測數據預處理的自動化水平;劉家宏等[8]構建復雜水資源系統蓄調計算的數據時變耦合模型,用于提升供需水平衡的評估精度;徐梅等[9]應用灰色理論、小波變換和自回歸異方差函數構建流域水質組合預測模型,并驗證了其模型的精度。2) 水資源數據挖掘與融合研究。以水資源數據可用性與問題研究需求為導向,水資源數據挖掘的探索集中在水文數據、防洪決策支持系統數據、城市供水數據等方向。Salah等[10]選取決策樹方法對底格里斯河水質數據進行挖掘,取得了評估水質質量的關鍵參數及其狀態變化規律;同為對水質數據的研究,Junior等[11]以監測數據為樣本,基于不同參數的分析提出基于規則分類的水質數據預測模型;Ioannou等[12]采取自組織映射數據挖掘方法分析家庭用水量數據,并界定了該方法適用的時序統計數據類別;曾羽琚[13]在將樣本擴展到水生態數據的基礎上,提出雙曲方程特征分解數據挖掘方法;張峰等[14]利用粒子群優化支持向量機方法處理國家水資源監控能力建設項目中的異常數據。而考慮水資源數據的多元特征,國外對于水資源數據融合的探索較少,主要集中于多傳感器數據融合,如:Pour等[15]采用距離函數改進參數權重來體現傳感數據隨機特性;Cammalleri等[16]選取函數映射模型融合衛星與地面觀測水資源監測數據,并驗證了數據融合誤差可控性。相比之下,國內數據融合的研究更加側重于應用創新,王恭等[17]利用數據融合算法測算水質參數與連排流量的關系,提升系統抗干擾能力;李洋漾等[18]采用跟蹤動態規劃算法實現多傳感器的多目標融合,并運用變轉移狀態數優化融合效率;張春麗[19]針對高維數據聚類效果的弊端,提出用分形維數來改進投影聚類的算法。
綜上,現有相關研究的積累較好地推動了水資源管理向科學化與智能化發展,但是對水資源數據完備與真實性不足、決策支撐效用偏低等問題的研究深度仍待提高。尤其是在國內重點推進最嚴格水資源管理制度及國家水資源監控能力建設的背景下,以工業企業為代表的取用水大戶是水資源監測的重點對象,如何針對目前已取得的工業取水監測數據,深入挖掘其變化規律和問題特點,并有效解決水資源監測數據呈現出體量足而決策支持效用低的難題至關重要。值得注意的是,由于目前國家水資源監控能力建設項目尚處于推進期,工業取水監測數據規模體量雖然較大,但缺乏不同歷史年份下的同時期數據進行參考,數據的截面性較強而面板累積性不高,這就增加了提高水資源監測數據質量的難度,急需探索實用性強的數據分析方法。據此,該文按照“粗篩選-精識別-再重構”的思路,提出基于分段拉依達準則(3σ)與小波變換、Fourier函數融合的工業取水監測異常數據的識別方法,采用自適應慣性函數與粒子群優化的最小二乘支持向量機模型重構異常數據,并利用國家水資源監控能力建設項目所取得的重點取用水戶數據進行驗證。
通過國家水資源監控能力建設項目一期所獲取的工業取水監測數據的稽核分析,可歸納出現階段常出現的數據異常點主要包括以下幾種情況。
(1) 零值監測數據。主要反映在取水數據時序動態監測過程中,某些時刻監測數據由正常非零值波動狀態突變為零,其后再次回歸常規波動趨勢。若按照正常理解,該狀態表示取水戶未進行取水行為。
(2) 非零數值的顯著性突變。體現在取水監測數據波動過程中,局部監測點的數據呈現出突變幅度異常偏大或偏低的狀況。這意味著取水戶在該時刻一次性取水量遠超出或低于正常運行的企業用水。
(3) 非零數值的無波動衡定。即隨著時間的推移,取水監測數據不是零值狀態,但取水監測曲線未出現任何升降。這表示取水戶較長時間內固定式批量取水,與正常運行的工業企業實際取水需求不符。
(4) 數值斷點。即數據缺失狀況,表現在取水監測曲線上為監測數據斷點,通常可包括間斷性數據斷點和連續性數據斷點兩種類型。
(5) 逆季節性數值波動。按照對不同類型的工業取用水戶進行數據對比觀測及調研分析,受季節性生產需求的影響,其取水特征總體上呈現夏季偏多而冬季偏低的規律,而實際監測過程中會出現與上述規律相悖的現象。
上述5類工業取水監測數據的異常狀態基于截面數據的分析可較易識別。但是在實際監測中還存在一些難以通過簡單的統計手段發現的異常值,如數據突變強度不高但仍與其實際取水量不符的數值,這就需要建立相應的數據挖掘模型對其異常數據進行判定與重構,這也正是目前國家水資源監控能力建設項目重點推進的核心工作內容之一。
鑒于目前可獲取的工業取水時序監測數據中通常會存在數值為零、突變等狀況,若直接采用3σ準則會容易受到上述異常值的影響,造成其閾值區間范圍偏差過大,而無法實現異常數據的有效識別[20]。但同時考慮到工業取水監測數據通常具有“季節性”周期波動規律,即不同季節之間工業取水量整體上存在較為顯著的差異性,而同一季節內工業取水量雖然成持續波動狀態,但其波動幅度要顯著低于季節之間的變化幅度。因此,可嘗試采用分段式的3σ準則應用策略,將各年度按照不同季節劃分為4個子區間,各子區間分別利用3σ準則確定取水監測數據的初步認定正常范圍,以此完成數據的“粗篩選”。該過程是對前文概述的典型異常工業取水監測數據進行初步篩選,避免由于突變幅度過高、零值數據等影響后面采用小波變換和Fourier函數對取水監測數據正常閾值區間劃定的準確性,進而導致異常值判斷準確度受損。
小波變換是信號處理領域中的常用方法,其優點在于充分挖掘時序數據的時空頻率局部變化特點,采用伸縮平移算法對其進行多尺度細化,提高時頻數據的自適應分析能力[21]。工業取水監測數據從采集、傳輸到存儲的基本流程具備信號傳遞與分析過程的基本特征,同時,取水監測時頻數據不僅具備一定低頻序列,還存在較多高頻序列,滿足小波變換應用的要求。據此,提出采用小波變換模極大值(WTMM)方法處理取水監測時頻數據,采用降噪的方式分離其高低頻序列,進而通過誤差控制方法識別異常數據。其表達式如下:
(1)

利用WTMM方法時,若對于尺度a0下的?τ,都滿足|WTf(a0,τ)|≤|WTf(a0,τ0)|不等式條件,且兩端鄰閾符合|WTf(a0,τ)|<|WTf(a0,τ0)|,則可認為(a0,τ0)屬于|WTf(a,τ)|于a0下極大值點,|WTf(a0,τ0)|被命名為|WTf(a,τ)|在(a0,τ0)上的模極大值。該點即為時頻函數f(x)經過小波變換后求解的最大值,從小波模型運算機理上來看,這類數值對應的是樣本數據中數值增大或降低等突變幅度較高的點。而對于工業取水監測數據樣本中,其異常數據的表征狀態除了前文概述的5類直觀性數據,其他非直觀性異常數據通常是屬于幅度突變型。據此,將小波求解的模極大值所對應的點暫定為監測數據異常點,其后需要根據人工數據反饋校驗判斷異常值的真偽。
根據上述解釋,工業取水監測過程中導致數據點出現異常的原因較為復雜,而利用WTMM方法可對其監測數據進行不同時頻下的數據序列波動特征的動態分解,挖掘最能表征數據時頻變換的波動曲線。但該過程還需要對取得小波模極大值后的數據序列進行重構,具體包括:(1) 確定小波變換的最大尺度及其所對應的極值閾值區間,保留閾值區間內的極大值點;(2) 分析所設定尺度下與極大值所在點相應的數據位置,并剔除非極大值點的數據;(3) 采用交替投影算法對篩選出的極值點進行小波重構。
選用WTMM重構工業取水監測數據時,通常會剩余部分殘差序列,這類序列仍屬于時頻數據,而且其高頻特征較顯著。由于殘差序列中也涵蓋了部分原始監測數據的潛在變動特點,若直接將殘差序列進行剔除,則易造成數據信息的損失。因此,提出利用Fourier函數修正小波重構殘差序列。Fourier函數較強的降噪功能使其不僅可以有效補償WTMM重構導致的隨機誤差,同時還能較大限度地濾除取水監測時頻數據殘差中噪聲,進而提高時頻擬合精度。過程如下:
步驟1設定時頻殘差。
V=[V(1),V(2),…,V(n)]
(2)
步驟2利用Fourier變換殘差。
k=2,3,…,n,T=n-1
(3)
(4)
(5)
把V(1)=0代入式(3):
(6)
步驟3根據式(4)-式(6)和時頻殘差,計算an、bn和a0值,進而確定Fourier變換殘差V。

最小二乘支持向量機(LSSVM)是機器學習高維模式識別的常用方法之一,其良好的泛化性能和非線性擬合效果,以及較快的計算速率等特點正是解決工業取水監測異常數據重構問題的需求方向[22]。據此,提出利用LSSVM模型重構取水監測異常值,并選取自適應慣性函數調整后的粒子群對LSSVM模型的核函數進行優化,提高數據重構精度。基本流程如下:
y(x)=ωTρ(x)+b
(7)
式中:ρ(x)表示映射函數;ω為權重向量;b指偏置向量。按照式(7)表達LSSVM目標函數:
(8)
式中:θ為誤差項;γ表示懲罰因子,γ>0。利用Lagrange函數對其轉換:

(9)


(10)
考慮RBF核函數處理非線性映射關系的良好轉換能力,取其作為模型的核函數:

(11)

(12)
式中:L為粒子間最大距離;ο是粒子數;aid表示粒子坐標。為避免粒子群產生早熟而造成測算結果出現偏差,采用粒子方差控制其誤差狀態,即:
(13)

(14)
(15)
式中:s表示慣性因子;Vid指粒子速度;χ表示加速因子;Qid指個體極值;Qpd指全局搜索極值;Sid為粒子位置;r為[0,1]區間內的隨機數。PSO中,慣性因子s的取值直接影響到粒子的收斂精度,而鑒于粒子極值搜索中的隨機性特征,本文借鑒Feng等[23]提出的基于混沌優化理論的慣性權值調整方法,該方法在處理離散時頻數據中已得到相關學者的驗證[24],其表達式為:
s(t)=(Smax-Smin)(UM-Ut)/DM+Smin·
q·rand·(1-rand)
(16)
式中:UM、Ut分別表示最大與當前迭代次數;rand表示[0,1]區間內的隨機數;smax和smin分別表示慣性因子在粒子搜索初期與結束期的取值;q表示混沌系統控制系數。
根據慣性函數-粒子群優化的支持向量機模型,對剔除WTMM與Fourier函數所識別異常數據后的取水監測數據樣本進行訓練擬合,進而通過誤差分析來驗證模型的有效性,并完成對異常數據的重構恢復。
本文選取國家水資源監控能力建設項目所取得的工業取水數據為樣本,以廣東省某工業企業取水數據為例,對其2017年1月5日至2017年12月20日期間數據進行統計,見圖1。將該段時間內原始取水監測數據序列記為Da_i,且根據其數據波動曲線可以觀測到樣本區間內存在部分數值突變、為零等異常狀態。
受企業生產計劃的影響,通常工業企業的取水監測數據呈現出來的季節性波動規律特征較為顯著,若直接選取3σ準則評估其取水監測數據時,則易受到突變數據(含零值)的影響而導致正常數據的閾值區間被拉大,會造成異常數據判定存在較大誤差。但是相比之下,同一季度中工業取水監測數據變動幅度相對較小。因此,本文考慮取水監測數據的季節性周期的波動特點,將3σ準則拓展應用到不同季節下的取水監測數據異常值分析中,即分別測算各季節下的工業取水監測數據3σ區間,通過分段式3σ準則篩選超出該閾值區間的異常數據,實現對監測數據的粗處理。其中,3σ區間下限為負時將數值設為零,如圖2所示。

圖2 基于3σ準則的取水監測數據分析
注:橫線表示3σ上下閾值;圓點表示超出閾值區間的異常數據。
觀測圖2中對取水監測數據的粗處理結果,同時利用3σ準則測算出的數據閾值區間從左到右依次分別為(715.16,29 853.99)、(0,41 509.05)、(953.06,37 029.70)、(4 724.50,27 928.94),且在上述閾值區間之外的數據共有26項。若直接對樣本數據采用3σ準則,則劃分的異常數據邊界為(0,35 475.23),過大的閾值范圍導致較多的突變數據未能得到有效的識別,同時也會對后期數據重構過程中的樣本數據擬合造成影響。通過各季節下的分段式3σ準則提取出的異常數據具有易識別的特點,但這也僅是部分直觀性的異常數據,而對于隱含在剩余工業取水監測數據序列中的非可直觀辨識數據難以進行有效判斷(見圖3,記為Da′_i)。對此,本文嘗試采用WTMM方法和Fourier函數對去除3σ準則所判定出的異常數據序列進行分析,進一步挖掘取水監測時頻數據中潛在的異常值。

圖3 取水監測數據的粗處理序列
在數據粗處理的基礎上,按照式(1)對Da′_i實施離散小波變換,取得離散小波最大分解尺度下的小波基及其模極大值序列,見圖4。可以發現,不同尺度下的小波極大值序列能夠較好地分別體現出取水監測時頻序列的低頻與高頻特征。而按照Lipschitz指數[25],進一步可以判斷出,隨著小波分解尺度的提高,取水監測時頻序列中的白噪聲密度逐漸降低,這表示其小波極大值主要集中在高分解尺度下的時頻數據內。考慮到傳統小波變換中測算模極大值時通常是采用逆小波的方式,這種將小波系數進行零值轉化的方式雖然計算簡便,但是易造成測算結果的偏差。本文選取Mallat交錯投影法[26],利用不同尺度下分解的小波模極大值序列,對取水監測數據進行分尺度時頻重構(見圖5),在此基礎上,結合小波系數完成對時頻監測序列的逆變換,對各尺度下的重構數據進行集成處理,取得新時頻序列Da″_i。

圖4 各尺度下小波模極大值序列分解

圖5 小波重構變換
觀測圖5中重構曲線可知,重構序列Da″_i可以實現對取水監測數據的總體變化趨勢特征的表征,但由于在數據降噪重構的過程中將部分數據誤判為高頻噪聲并進行剔除處理,造成重構信息的損失,影響了重構序列對局部取水監測數據特征的有效反映,而小波變換本身無法實現對這類已損失信息的再處理。因此,本文進一步利用Fourier函數對Da″_i重構過程中剩余的殘差序列進行修正,挖掘可補充于WTMM方法重構序列的取水監測數據信息。通過測算圖3中取水監測數據的粗處理序列Da′_i和序列Da″_i之間的殘差Er′,采用Fourier函數對Er′及小波變換重構數據進行數據的再重構,取得殘差修正的序列Da?_i,見圖6。比較小波變換及其與Fourier函數重構數據序列,可發現利用Fourier函數修正的Da?_i能夠在小波重構數據表征取水監測數據變化特征的基礎上,進一步完善其局部監測點的數據變化情況,從而更為精準地反映工業取水的總體變化趨勢。

圖6 基于WTMM-Fourier函數重構數據序列
通過分析WTMM-Fourier函數重構的Da?_i序列與粗處理序列Da′_i之間的相對誤差Err′來進一步識別取水監測數據的異常值,見圖7。其中,按照國家水資源監控能力建設項目中取水監測數據的規模統計經驗,設定Err′的正常數據區間為[-0.5,0.5],若|Err′|>0.5,則認為取水監測值呈異常狀態。依據該標準可挖掘Da′_i序列中存在異常數據為12項。綜合上述分析,通過WTMM-Fourier函數殘差修正方法能夠較為有效地識別取水監測時頻數據中的異常點。為便于觀測,將異常數據的值設為零,從而更為清晰地辨識異常點在序列中的具體位置,如圖8所示。

圖7 WTMM-Fourier函數重構數據的誤差序列

圖8 基于3σ準則和WTMM-Fourier函數識別的異常數據
為進一步體現所提出的采用3σ準則和WTMM-Fourier函數識別取水監測數據中異常值的有效性,引入經典統計學中箱線圖進行同樣本測算,其結果見圖9。可以看出,采用箱線圖方法對取水監測數據序列Da_i的異常值挖掘數目為11項,要明顯低于基于3σ準則和WTMM-Fourier函數識別的異常數據項,其部分異常數據未能夠得到有效的挖掘,同時由于忽視工業企業季節性取水波動規律特征,容易導致異常數據識別能力受限而造成監測數據對水資源管理決策的支持力度不足。

圖9 基于箱線圖的取水監測數據異常值分析

(17)


圖10 不同類型支持向量機數據樣本擬合結果

圖11 不同類型支持向量機數據樣本擬合誤差


圖12 基于曲線擬合的異常數據重構恢復

圖13 基于慣性函數-粒子群優化的LSSVM異常數據重構恢復
從方法的適用性與可操作性角度,目前國家水資源監控能力建設項目取得的取水監測數據呈現出“截面數據規模大而縱向數據體量小”的現狀,即由于項目推進年度較近,雖然數據規模總量較大但還尚未取得較長歷史年份下的時間序列數據,這就造成了同一監測對象在不同歷史年份下的取水監測可對比性差,也提高了異常數據挖掘的難度。但面對加快提升水資源數據管理與決策支持的需求,提高取水監測數據質量又勢在必行,因此基于當前取水監測能力及數據樣本提出有效的異常數據分析方法迫在眉睫。基于上述狀況,本文提出的采用3σ準則和WTMM-Fourier函數識別取水監測數據中異常值的策略,能夠基于分段式3σ準則的數據粗處理過程將取水監測量季節性波動規律特征考慮在內,從而選取小波變換與Fourier函數對其中的異常數據實現深度挖掘與有效辨識。其中,小波WTMM變換可以實現取水監測序列中的高低頻數據的分離,在維持原始取水監測序列時序特征的基礎上完成數據的重構,而Fourier函數則是對上述重構殘差序列中取水監測數據波動特征的再次提取,提高取水監測數據的整體重構精度。由實際檢驗情況可知該策略的重構精度要顯著高于傳統統計方法。
從方法的有效性角度,現階段國家水資源監控能力建設項目推進中出現的數據異常狀況,可大致分為“需求型異常”與“非需求型異常”兩種類型。前者是指受人為操作、環境干擾、設備損壞等因素導致的取水監測數據出現異常,這類異常不是取水數據狀態的真實反映,需要被修正;后者是指由取用水戶實際取水需求與行為引發的監測數據突變的情況,這類數據是對真實取水狀況的反映,不需要再進行數據重構修正。本文采用3σ準則和WTMM-Fourier函數聯合識別的取水監測異常數據共38項,而通過將異常數據反饋至取水監測戶進行二次校驗,發現其中“需求型異常”數據有31項,異常數據判斷準確率達81.6%,利用慣性函數-粒子群優化的LSSVM模型重構恢復的取水監測異常數據與校對反饋真實值對比,發現其重構誤差率均低于5%。同時,取水監測數據重構曲線對整體與局部數據變動趨勢及季節性周期波動特點均具有良好的體現。由上可見,本文提出的工業取水監測異常數據的多尺度挖掘與重構策略相對有效,還可將其拓展至其他相關領域進行監測數據分析。
通過梳理目前國家水資源監控能力建設項目實施中出現的水資源異常狀態,提出運用3σ準則和小波模極大值變換-Fourier函數相結合的工業取水監測異常數據識別方法,并根據傳統LSSVM模型樣本訓練的特點,提出采用慣性函數-粒子群優化的LSSVM異常數據重構恢復模型。實例驗證發現,在考慮取水監測數據季節性波動特征的基礎上,運用分段式的3σ準則能夠實現對取水監測數據的粗處理,避免了由數據突變引起判別區間過大而易導致異常數據識別不充分的弊端;而進一步利用小波模極大值變換模型可以完成監測數據的高低頻分離與重構,但重構過程中存在數據信息損失問題,采用Fourier函數殘差修正的方式可以有效解決上述問題,提高樣本擬合精度,從而實現對取水監測數據的有效識別。經過慣性函數-粒子群優化的LSSVM模型可滿足異常數據較高精度的重構恢復需求,其重構精度要強于LSSVM及其被粒子群優化的模型。上述工業取水監測異常數據的多尺度挖掘與重構策略不僅可為國家水資源監控能力建設項目提供方法支持,還可為其他相關領域的數據挖掘提供技術參考。