鄧明斌 譚致遠 陳廣開 韓 瑋 徐志淼
(廣州供電局有限公司 廣州 510620)
隨著電力系統信息化程度的不斷提高和配用電數據量的迅速增長,研究適用于配用電數據挖掘的算法并建立有效的知識發現模型,對配用電業務模式創新和智能電網的發展具有重要意義。然而到目前為止,“數據海量,信息匱乏”仍是電力企業面臨的重要問題[1]。
電力大數據的內涵是重塑電力核心價值和轉變電力發展方式。通過對市場個性化需求和企業自身良性發展的挖掘,實現由以電力生產為中心向以客戶為中心轉變,推動電力工業向低耗能、低排放、高效率的綠色發展方式轉變。通過對配用電大數據的有效挖掘,推動以電網物理模型為核心的傳統業務模式向以數據信息相關性為基礎的大數據業務模式轉變[2]。
本文研究的目的在于訓練出用戶歷史用電的用電模式,判別當前用電行為是否存在異常,其作用體現在三個方面,首先,幫助營銷稽查人員輔助判斷用電異常嫌疑戶;其次,是提高營銷業務人員分析異常用戶的工作效率,最后,是查獲異常用戶挽回供電企業損失,提高供電企業效益[3]。
建立用戶用電模式采用了數據挖掘流程包括數據提取、數據處理、數據訓練、異常判別、結果驗證等,用電模式訓練引進了數據挖掘中的K-means聚類算法,并結合當前業務對聚類算法進行了改進。
建立用電模式模型主要分為兩個階段:訓練階段和異常識別階段。選取正常天的分時電量進行訓練,訓練出用戶正常的用電模式,再對待測數據進行檢測。
專業術語說明:
梯度閾值:表示分時電量發生變化的最小幅度,超過該幅度則表示電量發生了變化。用gradient表示,由統計得出。
梯度歸一化:由梯度閾值,根據分時電量是否增加,不變,減少歸一化成1,0,-1。
2.1.1 用電模式訓練流程

圖1 用電模式訓練流程圖
1)提取用戶電流數據,以用戶電流平衡度來判斷用戶正常用電數據;
2)提取用戶24h整點分時電量數據;
3)對數據進行預處理,包括數據清洗、數據向量化、數據歸一化處理;
4)提取有效的正常天數據;
5)訓練正常的用電參數模型,引進了改進型K-means聚類算法。
2.1.2 數據預處理
標記好正常日期后,接下來就是對數據進行預處理。具體包括:
1)首先進行數據清洗。有兩類異常值會影響計算,第一類為數據空缺,第二類為計量故障得到的特別大的值,在這里直接濾掉。對于第二類異常值主要是由于計量故障引起的,得到的電量值可能是很多天的累計或者小數點移位等,導致計量的電量值可能是實際值的幾十倍,甚至上百倍。對于這類異常值在數據計算前必須進行清洗,否則得到的特征值會很大,會增加異常的概率。根據數據的分布情況,這里設定臨界值為99.9分位點,可以比較準確地清洗掉異常值,保留有用數據。
將數據按天提取成24維向量,方便計算。為保證訓練數據的準確性,將不足24個點的,有空缺的天濾掉。
2)將數據進行歸一化,這里采用:value=(value-min)/(max-min)*10,其中min為用戶分時電量的最小值,max為用戶分時電量的最大值。放大10倍便于計算,則歸一化后的數據范圍為[0~10]。
2.1.3 梯度聚類
聚類分析是數據挖掘技術中最重要的算法之一。常用的聚類方法可以劃分為如下幾種:1)劃分聚類方法,包括K-means和K-medoids等算法;2)層次聚類方法,可分為凝聚算法和分裂算法;3)密度聚類算法,主要包括DBSCAN、OPTICS和DENCLUE算法;4)基于網格的方法,如STING 法;5)基于模型的SOM、COBWEB算法等。其中,K-means聚類分析法是目前應用最為廣泛的一種算法,該算法由MacQueen于1967年提出,具有原理簡單、計算快速的優點,尤其對于數值屬性的數據,它能較好地體現聚類在幾何和統計學上的意義[4]。
在進行kmeans聚類之前,先進行梯度聚類,然后將梯度聚類的結果作為kmeans聚類的初值。這樣不僅使kmeans聚類有了一個比較好的初值,而且還指定了用電模式的個數。梯度聚類分為兩步,第一步先進行常規的kmeans聚類聚成6類,第二步再把相似的用電模式按取均值的方式合并出最后結果。具體步驟為
1)將預處理后的數據進行kmeans聚類成6類,因為單個用戶的用電模式一般為2~3個,這里先聚成6類,再根據曼哈頓距離把模式相近的進行合并。在這里求曼哈頓距離的時候先進行了梯度歸一化處理。具體步驟:先將每天的24維分時數據向量[d0,d1,d2…d23]向前作差轉化成23維的向量[d1-d0,d2-d1…d23-d22],然后對所有得到的數據取80分位點作為梯度閾值gradient,事實上梯度閾值會在一個合理的范圍,所以有如下判斷:

將所得的23維向量value_(0-22)進行如下轉化:

這樣就把原數據轉化成了只包含0,1,-1的23維向量,再計算曼哈頓距離,這樣可以使得越平行向量之間曼哈頓距離越小。
2)計算每個簇中的點到中心點的歸一化的曼哈頓距離,取75分位點作為這個簇的勢力范圍,如果兩個簇的中心點之間的歸一化曼哈頓距離分別在這兩個簇的勢力范圍之內,則說明這兩個模式可以合并。若多個簇之前可以相互合并則一起合并。合并后的簇中心點為各個簇中心點的均值。重復步驟2),直到不能被合并為止,得到最后的用電模式。
2.2.1 識別流程

圖2 用電模式識別流程圖
1)提取待測數據及相關參數,待測數據為每天24h整點功率數據,在測試過程中,對于數據缺失不太多且沒有連續缺失的天采用線性插值的方法進行填充;
2)數據預處理后,計算每天的數據向量到每個簇中心點的距離,離哪個中心點近,就判定它屬于哪個簇。
3)當判定測試數據屬于哪個簇后,還要進行確認它是否真的屬于這個簇。這里采用測試數據到簇中心點的距離與該簇的閾值半徑進行比較,若大于該閾值,則認為該用電數據不屬于該模式,即可判定為異常,若小于該閾值,則可判定該天正常。
4)異常結果輸出。
2.2.2 異常識別結果分析
用戶A為大工業用戶,存在一種用電模式,用電模式為雙峰型,表示該用戶過去長期都是這種雙峰型用電模式,當前負荷軌跡與用戶歷史用電模型進行判別,兩條曲線趨勢和吻合度都很相似,判別結果為正常。

圖3 正確用電模式
用戶用電模式聚類結果有四類,當前測試數據與歷史用電模式進行識別,最終判定出結果為異常。

圖4 異常用電模式
用戶B,用電模式聚類結果有四類,當前測試數據與歷史用電模式進行識別,再結合用戶電量數據、用戶日瞬時量數據進行判斷,用戶從2017年4月開始功率因數總開始無序波動且功率因數一天中超過多次低于0.5,再結合用戶日電量、月電量數據分析,用戶電量從4月開始下降,因此最終判定出結果為異常。
實踐表明,綜合運用以上建立的模型分析法,基本能夠做到及時、準確地將符合數據特征的竊電行為消滅在萌芽狀態,無需另外投入,即可大大減少因竊電減少的經濟損失。