王銘銘,賈 飛
(1.安徽省(水利部淮河水利委員會)水利科學研究院(安徽省水利工程質量檢測中心站),安徽 合肥 230094;2.安徽省大禹水利工程科技有限公司,安徽 蚌埠 233060)
我國淡水資源總量為28000 億立方米,人均水資源量僅為世界平均水平的1/4,屬于全球人均水資源最貧乏的國家之一。工業的快速發展伴隨著水資源的粗獷式開采和高耗式利用,我國萬元GDP 耗水量是世界平均水平的4 倍。長期的粗獷式發展導致可持續發展戰略與水資源的矛盾日益凸顯,嚴重制約社會經濟發展。圍繞國家水資源監控能力項目建設需求,開展水資源監管領域技術研究,是實行最嚴格的水資源管理制度最重要的技術保障措施之一。
隨著水資源取水監測系統的持續建設,安徽省已率先完成3000 余處取水監測點的在線監測,在系統運行維護管理中,取水監測數據歸零及畸變問題,已成為影響取水數據統計及應用的重難點。據研究,由于儀表顯示的位數有限,一些取水大戶計量設備滿量程后,常出現歸零問題。此外,在取水數據采集、傳輸過程中由于信號干擾等因素的影響,易造成數據錯位或畸變現象,嚴重影響取水戶水量的統計和系統的正常應用。
目前,尚無針對取水計量數據歸零及畸變問題的專題研究,國家水資源取水監控數據均采用人工巡查與處理的方式進行管理,其時效性與準確性均難以達到要求,已嚴重制約國家水資源監控能力建設項目的效益發揮。隨著水資源取水監測站的持續建設,站點數據進一步增加,僅依靠人工進行數據巡查及后期處理已不現實,也難以滿足水資源取水數據精細化管理需求。本文基于安徽省水資源取水計量監控項目,為提高取水數據質量、降低取水數據巡查與管理難度及減輕取水數據管理的壓力,課題長期對取水數據歸零及畸變數據特征進行跟蹤研究,最終通過大數據挖掘技術,以對歸零及畸變數據自動甄別、及時處理為目的,研究出取水數據歸零與畸變的智能甄別處理系統,以保障取水數據的精確采集、統計及應用。
基于對已建安徽省水資源取水監控數據的長期跟蹤研究,歸零數據常出現在大型取水監測點,作為計量儀表滿量程后出現的累積流量自動歸零的現象,影響取水點流量的正常計算。而畸變數據是在數據傳輸過程中受到信號干擾因素而產生的。當監測設備安裝點有電子類工程施工、電焊施工、變頻干擾或設備本身故障等一些干擾因素存在時,計量數據傳輸易受影響,常導致數據丟包、小數點錯位等畸變現象。
通過對安徽省的3000 余處水資源取用水樣本點開展了調研,發現省內各取用水戶選用的計量設備各不相同,其計量設備顯示方式、計量量程、設備安裝環境等各不相同,現場存在的干擾因素亦各有特點,甚至部分企業本身的生產工作亦存在對計量監測設備的數據傳輸造成干擾。經研究,取水數據的歸零和畸變的誘因甚多,難以對現場環境的監測進行甄別與診斷,故課題采用水資源取水大數據分析方法,開展基于數據挖掘等技術手段的取水歸零及畸變數據糾錯研究。
數據畸變智能分析需要建立在取水戶、行業取水的多年監測數據基礎上進行,需要具備海量的取水原始數據及大量的畸變數據處理樣本。安徽省水資源取水監控經過5 年的建設,已實現對3000 余處水資源取水點的監測,系統已積累約20GB 的原始取水計量數據,為取水數據的研究提供原始數據基礎。此外,安徽省水資源取水監控系統多年的運行管理經驗和積累的13000 余條人工處理數據歸零及畸變數據,提供了充足的研究樣本。
課題研究以取水監控系統中原始采集數據為基礎,經對26000 余組畸變數據處理特點的歸納和分析,采用尋找取水數據期望的方法,對取水歷史數據進行聚類,由正常數據和異常數據形成多個聚簇,通過確定最新數據的水量累計值、小時用水量、日用水量是否命中相對應的聚簇內,以甄別該數據是否為歸零或畸變數據,最終根據對數據的甄別結果,對數據進行入庫、糾錯或拋棄等處理。
3.3.1 K-Means 算法
K-Means 算法是一種基于樣本間相似性度量的間接聚類方法,其中心思想是通過迭代過程把數據集劃分為不同的類別,使得評價聚類性能的準則函數達到最優,從而使生成的類聚內緊湊,類間獨立。由于其對樣例數據量的要求不高,在小規模數據中仍能夠較為準確地計算出聚類結果,因此具有簡單、快速等特點,在處理大數據集時效率較高,特別當結果聚類密集,且聚類與聚類之間區別明顯時,該算法應用效果明顯。
水資源取水監測數據站點較多,對數據計算時效性要求較高。此外,畸變或歸零數據簇與聚類簇之間具有明顯的區別,因此文章選擇K-Means 算法作為水資源取水畸變數據甄別算法的理論基礎。
3.3.2 取水數據糾錯算法實現
在K-Means 算法中唯一需要去確認的值為K值,在K 值確定后需通過中心的迭代,以實現中心點收斂。為實現水資源取水畸變數據甄別,課題研究隨機選取k 個聚類中心點(clustercentroids)μ1,……,μk,重復下面過程直到收斂。
對于每一個樣例i,計算其應該屬于的聚類:
對于每一個聚類j,重新計算該聚類的質心:
基于以上兩步的不斷進行數據收斂,通過程序遞歸,最終得到唯一的收斂值,以確定最終收斂的k 個中心。當得到收斂中心時即與之前的中心進行比較,從而診斷其是否為畸變數據。在程序的不斷應用及完善中,我們通過程序經驗和結果分析得到,當k 值選取在3 個收斂點時,得到的數據較為精準,且數據識別度較高。
由于歸零數據為畸變數據的一種,當確定數據畸變后,還需開展歸零數據的判斷,若為歸零數據則根據歸零數據、計量設備量基礎程值及歸零前計量數值進行測算與修復,并將恢復后的數據入庫;若非歸零數據,則判定數據為畸變,對其進行拋棄處理。算法實現的詳細流程見圖1 所示。
通過選取在近5 年內的正常數據樣本,并分區間計算樣本數據的區間中心數據,形成樣例數據的中心點數據樣本,此次選擇寧國市眾益水務有限公司的樣本數據進行結果驗證。
提供的樣例中心點數據如下:
同過K-Means 算法對樣例數據尋找中心點,經過計算得到收斂的三個中心點數據:[2965,472,5888]。通過對最新的上行的累計數據與前兩日的最后一條上行的數據計算得到用水差值,并將該差值與三個中心點數據進行比對,對與大于中心點之和的數據進行畸變判斷。程序通過判斷將超出中心點數據的上行累計數據歸納為畸變數據。圖2 為對寧國市眾益水務有限公司取水數據聚類及畸變數據的分析示意圖。

圖2 寧國市眾益水務有限公司取水數據聚類及畸變數據分析圖
對于分析出來的正常數據和畸變數據分別進行數據存放,并不斷擴充畸變數據和正常數據樣本庫,程序通過持續的數據學習,實現數據評價逐步靠近真實。
通過數據歸零和畸變的智能處理方法的應用,在實際應用過程中對異常頻率較高的取水點進行數據跟蹤,選取其中部分取水點在2022 年年取水量匯總計算的數據樣本,得到數據糾錯后的正確性達到100%,部分難以處理的數據通過處理告警的方式,提示運維管理人員進行人工處理。詳見表1

表1 水資源取水數據糾錯數據列表(節選) (單位:萬方)
水資源取水計量監測管理是用水總量紅線控制的基礎,是最嚴格水資源管理制度的重要支撐平臺。本文深入研究行業技術特點,與實際情況有效結合起來,解決了計量儀表數據歸零及畸變處理的問題,保證了監測數據可用性、可信性,對水資源取水監控項目建設與管理的水平提升具有促進作用