徐振興 葛志松 許駿龍 張進明
上海市計量測試技術研究院
能耗在線監測系統的數據是面向能源主題的數據集合,這些數據從多個業務系統中抽取而來,并包含歷史數據,不可避免會包含錯誤數據,或有相互之間有沖突的數據。這些錯誤的、有沖突的數據通常被稱為異常數據。在實際的數據統計分析中,異常數據通常有以下幾種表現形式:數據遺失、信息缺失、數據不一致、數據重復、數據離群等數據質量問題。
異常數據檢測是數據清洗(data cleaning)過程的第一步,是指對數據質量問題的監測和識別,其任務是發現數據觀測值中真正的異常點,將數學特征顯著不同于其他數據的觀測值識別并標識出來,以便于后續對數據的修復和糾正。對于數據遺失、信息缺失問題,通常是通過人工檢索的方式進行識別和修復,對于數據不一致、數據重復、數據離群等問題,通常通過四分法、差分法、滑動平均法或者聚類分析等方法進行多角度的識別,綜合判斷、糾正和修復數據。
基于案例的推理(Case-Based Reasoning,簡稱CBR)是人工智能的一個分支,它是一種根據過去的實際經驗或經歷的深度學習,并用以支撐未來問題的解決。在解決能耗在線監測系統異常數據問題的過程中,也是一個經驗不斷積累過程,可以用人工智能的方式嘗試從以往類似的案例中找到合適的解決方案。本文對CBR技術的數據質量管控流程進行歸納,并采用CBR技術對能耗在線監測系統中的異常數據進行檢測和識別,對該技術在能耗數據質量問題的應用進行試驗。
當能耗在線監測的對象從一個單體的工業企業或一棟大樓,擴展成一個區域乃至一個城市時,帶來的變化不僅是項目邊界的擴大、傳輸網絡復雜程度的提高,還會帶來數據采集節點的幾何倍數的數量增大,以及數據種類、數據量的爆炸式增長。以上海市重點用能單位能耗在線監測系統信息化平臺為例,在接入500多個重點用能單位的部分能源種類一級計量數據時,接入3 000多個數據采集節點,包含電能、蒸汽、燃氣、煤等不同能源種類。其中,電能采集對象進一步細分為有功功率、無功功率、有功累積電量、無功累積電量等;蒸汽采集對象細分為工況流速、工況流量、溫度、壓力等;燃氣細分為天然氣、人工煤氣、工況流速、工況流量、溫度、壓力等;加上時間戳、采集位置等基本信息以及計量單位等輔助信息,以15min/次的頻率進行采集,每天的實時采集能源數據已超過300 000條次,動態流量約1Mb/min。隨著系統平臺對于企業范圍、能源種類覆蓋面的不斷擴大,接入的能耗數據量進一步提升之后,系統的數據處理能力面臨著較大的挑戰。
在對系統中的能耗數據進行分析時,抽取了某種能源3 340個采集節點每天0:00的數據,連續采樣352天。經初步統計分析,得到的結果見表1。
在352天的時間范圍內,應該獲得的數據條數為1 175 680條,實際獲得的數據條數為1 065 932條,為應有數據的91%;遺失的數據條數為109 748條,占應有數據的9%。
在獲得的1 065 932條數據中,由于數據中所包含字段信息缺失而無法計算能耗的數據條數為18 972條,占實際數據的1.8%;根據數據中所包含字段計算得到能耗值為零值或者負值等明顯不合理的數據條數為28 919條,占實際數據的2.7%;包含完整字段信息的數據條數為1 018 041條,占實際數據的95.5%。數據情況見表2。

表1 系統能耗數據抽樣分析表

表2 系統實際獲取的能耗數據抽樣分析表
需要指出的是,即使在信息完整的1 018 041條數據中,仍然存在數據重復、計量單位錯誤、極大值、極小值等問題,需要通過多種的數據處理手段對這些問題進行識別,進而剔除或修復,使能耗數據可供后期統計和分析使用。
耶魯大學R.Schank首先提出了CBR技術的概念和原理,提出了動態存儲、歷史環境及環境模式回憶對問題求解的作用。案例推理的過程可以看作是一個4R(Retrieve,Reuse,Revise,Retain)的循環過程,即相似案例檢索、案例重用、案例的修改和調整、案例學習等四個步驟的循環。
當遇到新的數據質量問題時,將新問題通過案例描述輸入基于CBR技術搭建的模型;模型將檢索出與目標案例最匹配的案例,若有與目標案例情況一致的源案例,則將其解決方案直接提交給用戶;若沒有完全一致的案例則根據目標案例的情況對相似案例的解決方案進行調整和修改,若效果滿意則將新的解決方案提交給使用者,若不滿意則需要繼續對解決方案進行調整和修改;對效果滿意的解決方案進行評價和學習,并將其保存到案例庫,如圖1所示。

圖1 基于CBR技術的數據質量管控流程示意圖
CBR技術是在特定領域內進行問題求解和自學習的方法,不存在普遍使用的CBR方法,是一個動態的、不斷學習的過程。對于特定領域的應用,基于該技術搭建的系統均由4個部分組成:案例表示、案例檢索、案例的調整和修改和案例學習。基于CBR技術的異常數據檢測流程如圖2所示:

圖2 基于CBR技術的異常數據檢測流程示意圖
整個異常數據檢測的流程由CBR模型自動完成,只需人工最后確認實施解決方案即可,提高了數據質量管控的效率。同時,由于異常數據的檢查、判斷、解決方案的建議均由計算機自動進行,對數據管控人員的計算機知識要求不高,可以提高數據質量管控結果的有效性。
基于CBR技術的能耗在線監測系統異常數據檢測方法是從案例庫中找到與當前問題最相關的案例,然后對該案例做必要的改動以適合當前需解決的問題。在對系統進行綜合判斷和評價時,可將當前運行數據(如電力、溫度、壓力、流量、通訊狀況、數據等重要監測參數)、數據質量評價、診斷結果、處理意見等,以案例的形式存入案例庫,作為知識庫的一部分。當下次對數據質量管控進行綜合判斷、評價或遇到問題時,可以從案例庫中檢索相似案例,為當前問題提供參考。相似案例一般是按最顯著的特征進行索引,這樣可高效檢索那些與當前問題具有相當數量公共特征的案例。檢索相似案例的算法有最近鄰算法、決策樹算法、樸素貝葉斯等機器學習算法,及深度神經網絡算法等。當檢索到相似案例之后,可以重用這個案例,給出初步解決或處理意見,可以是文字性描述,或是推導過程,也可以是參數化關系模型;當進行案例重用時,系統根據提前預定義的某種案例修改策略對相似案例的解決方案進行調整和修改,并將調整和修改后的方案交給用戶。用戶也可對維修或處理意見進行手工修改,以滿足數據質量管控問題的需要。當問題解決后,可以將這些數據保存起來,作為新的案例,成為案例庫的一個案例,以使案例庫不斷豐富,案例庫中案例越多,覆蓋面越廣,越有利于故障診斷質量的提高。
以能耗在線監測系統中的能耗數據作為試驗對象,基于CBR技術建立異常數據檢測模型,并抽取某種能源某一個采集節點連續352天的能耗數據進行長周期(352天)、中周期(30天)、短周期(7天)三個不同周期的異常數據檢測試驗,可得到如圖3的結果。

圖3 長周期異常數據檢測結果示意圖
在長周期(352天)異常數據檢測試驗中,使用基于CBR技術的異常數據檢測方法可以準確識別到所有的異常點,包括數據極大值和數據負值兩種情況均可被正常識別,沒有發生誤判的情況。
在中周期(30天)異常數據檢測試驗中,使用基于CBR技術的異常數據檢測方法同樣可以準確識別到所有的數據負值異常點,見圖4。

圖4 中周期異常數據檢測結果示意圖
在短周期(7天)異常數據檢測試驗中,由于在該時間范圍內能耗數據本身沒有異常,使用基于CBR技術的異常數據檢測方法未出現數據誤判的情況見圖5。

圖5 短周期異常數據檢測結果示意圖
在本項目所做的其他抽樣異常數據檢測試驗中,也均能得到與展示案例相同的結果,無論在長周期(352天)、中周期(30天)和短周期(7天),基于CBR技術的異常數據檢測方法能對各種數據質量異常問題進行識別和判定。
能耗在線監測系統需要采集大量的能耗實時數據和相關能耗信息,主要范圍包括企業能耗監測數據、公共供能單位數據、其他相關業務數據和各級能源計量平臺數據等。隨著系統平臺持續的運行,大量數據的匯集,及數據質量管控的標準不一致,導致數據質量問題突出。基于CBR技術的異常數據檢測方法能夠有效地解決數據異常點識別的問題,通過相似案例檢索、案例重用、案例的修改與調整和案例學習四個步驟的循環不斷完善案例庫,并建立案例信息庫采集的關鍵指標項,組織、索引不斷提高檢索和重用的效率,然后從案例庫中搜索出與目標案例最為相似,對目標案例最有幫助的案例,根據需求和新情況對案例進行修改和調整,最終產生適用于新問題的解決方案。通過本項目中對CBR技術的應用試驗,論證了該技術在能耗在線監測系統異常數據檢測方法上的可行性,有較好的應用前景。