王 勛,喬 佳,陳婷婷,王倩微,丁 斌
(北京市燃氣集團研究院,北京 100011)
城鎮燃氣商業用戶存在一些用氣異常的用戶,原因可能是裝修、停業、更換設備、改變經營類型、偷盜氣等,這些異常用戶存在管理困難和安全風險。需加強對商業用戶的重點監察,除進行日常運營巡檢外也可以利用數據分析的手段進行診斷和識別,有效縮小排查范圍。異常的用氣行為必然產生異常的用氣數據,用戶用氣數據的分析是監控用戶用氣行為的重要方式。
城鎮燃氣用氣數據的診斷分析方法主要有對比法、繪圖法、指標法、分類法、聚類法。本文對這些方法進行分析總結。
該法主要是以用戶的歷史數據特征作為基準,分析出用戶的用氣規律及指標特征。搜集用戶歷史用氣數據,以7 d為更新周期,計算定長時間如30 d的時、日、月不均勻系數、日均用氣量及最大最小用氣量等。以日均用氣量為例,將最近30 d日用氣量均值與上1周期(7 d前)30 d日用氣量均值對比,設定兩者偏差范圍為±10%,以此判斷用戶變化是否正常。偏差范圍可依據用戶數量及巡查工作量設定。
該法以用戶歷史用氣數據的時間序列為基礎,采用算法建模擬合用戶用氣數據變化規律,算法應具備一定的穩定性和準確度,并計算算法的相對誤差δ0作為評判基準。監控時,采用繪圖法繪制出預測值、實際值曲線,采用算法預測用戶用氣量得到預測值,設定預測值相對誤差限值,當預測值相對誤差絕對值高于該限值,則認為算法預測失效。對一定時間內算法預測失效發生的次數進行累計,設為m,設定算法預測失效發生次數最大允許值為m0,若m大于m0則認為用戶用氣異常。數據擬合的方法有回歸、時間序列、神經網絡、小波分析、機器學習,可采用組合算法或集成算法提高準確率。
對用戶的某項指標進行統計,然后根據指標范圍設定最小值及最大值,超出該范圍的用戶屬于需重點監控用戶。以城鎮燃氣供暖用戶為例,供暖用戶的用氣指標通常采用供暖期單位面積用氣量。先通過抽樣的方法選定樣本用戶,搜集用戶的供暖面積和供暖期用氣量,得到每個樣本用戶供暖期單位面積用氣量,后通過箱形圖[1]或拉依達準則(3σ準則)[2]進行判斷。
在箱形圖中,記Q1為1/4分位數,Q3為3/4分位數,IQR表示Q3-Q1,將小于Q1-1.5IQR或大于Q3+1.5IQR的數據作為離群點,該用戶即異常用氣用戶。
拉依達準則是在假定數據服從正態分布的前提下,用戶用氣指標一般情況滿足或者近似滿足這一要求。數據標準差用σ表示,數據均值用μ表示。正態分布的特點是65%的數據分布在(μ-σ,μ+σ)內,95%的數據分布在(μ-2σ,μ+2σ)內,99%的數據分布在(μ-3σ,μ+3σ)內[3],以此作為判斷依據,數據超大或者超小都屬于異常用氣。
該法通過搜集異常用戶用氣數據,建立1個包含異常用戶用氣數據和正常用戶用氣數據的樣本庫。該法的特點是有監督判別,已知樣本庫中異常用戶用氣數據、正常用戶用氣數據、判定結果,將待判定用戶用氣數據與樣本庫中的數據進行對比,分析數據的相似度,若與正常用戶用氣數據相似則該用戶正常,與異常用戶用氣數據相似則判定為異常。分析相似度的方法有邏輯回歸、BP神經網絡、決策樹、支持向量機(SVM)等[4-6]。
該法主要原理是同類型用戶具有相同的用氣特征,將同類型用戶作為一組,組中用戶數量記為m。依據用戶用氣數據及相關信息(如面積、設備功率、座位數、床位數、房間數、人數等),計算出特征指標(如單位面積用氣量、單位功率用氣量等)。通過數學方法提取出該組用戶更多共同特征(如時序數據和平均溫度的相關系數、時序數據的最大波動系數、標準差、峰度、各階自相關系數的聚合統計特征、近似熵、復雜度、傅里葉變換的質心、傅里葉變換的方差等),同樣計算出特征指標。特征指標數量記為n。同組每個用戶都得到1個n維特征向量,記為Vj=(f1,f2,…,fi,…,fn),其中Vj(j=1,2,…,m)表示第j個用戶的特征向量,fi(i=1,2,…,n)為特征指標。以同組每個用戶的特征向量為參數,采用聚類算法如Mean-shift、層次聚類、Birch等,聚類結果將同組中的大部分用戶聚集成一簇或多簇,并有少量離群點,則離群點判斷為異常用戶。
對比法和繪圖法,數據要求比較簡單,若單個用戶從某個時段開始,數據出現異常變化,對比法很容易發現,但對于存在長期偷盜氣行為無法判別。
指標法判斷邏輯嚴密,但需要核查用戶的基礎信息和經營信息,這些信息變化快、難以獲得或不準確,可能會產生誤判。
分類法需要建立包含異常用戶用氣數據的樣本庫,異常用氣用戶特點多,需要的樣本數量較大,使建模難度增大。
聚類法對數據質量和粒度要求較高,對用戶的基礎信息要求較少,利于模型建立和應用,用戶類別劃分越細精度越高。
以上方法在實際運用過程中各有優勢,可根據數據和用戶信息條件,采用不同算法進行綜合判斷。
近年來,在實現數字化管理方面,廣州燃氣、深圳燃氣、合肥燃氣、鄭州燃氣等都已實現大量商業用戶和居民用戶的數據采集,并在此基礎上開發了數據駕駛艙或平臺。各類流量計、調壓器、溫度計、報警器、收費系統、用戶服務系統、監控系統等產生了大量的數據,亟需對數據進行有效管理和利用。數據質量是數據分析的基礎,決定了數據整體價值,本文認為需從采集源頭進行管理,數據采集管理和應用流程分為3步。
① 核實數據有效性
當數據錄入系統時,不論人工錄入還是遠程采集錄入,數據管理系統應首先判斷數據的合理性和有效性。這一過程可以利用指標法,當出現不合理數據時,應有管理機制核實數據,保證錄入系統數據的有效性。同時,也能在核實過程發現采集設備、燃氣設備、用戶等存在的問題或隱患,及時解決。
② 分析單個用戶數據
在保證用戶數據有效性的情況下,可以對用戶數據進行分析。應用對比法、繪圖法可以對單個用戶的用氣行為進行分析。
③ 分析同類用戶
對同類用戶進行分析,通過提取高階指標,采用分類法、聚類法或其他算法建模,對同類用戶指標進行建模,縮小異常用戶范圍,進行重點監督和分析。
通過有效的數據,既可以結合用戶信息得到高階指標(高階指標可用于燃氣企業的規劃、設計及預測調度等方面),也可以與水、電、天氣、經濟、交通、財務或其他外部數據進行關聯分析,反映企業發展的相關關系,挖掘企業發展方向,預測變化趨勢,為企業決策提供依據,也可應用于智慧城市的建設。