宋建林,戴登慧
1.國電南京自動化股份有限公司,江蘇 南京 211100
2.南京華盾電力信息安全測評有限公司,江蘇 南京 211100
隨著我國電力體制的改革步伐不斷加大,電力市場化進(jìn)程也在不斷加快,這個過程中就對電力企業(yè)提升電網(wǎng)安全生產(chǎn)、電網(wǎng)規(guī)劃、優(yōu)質(zhì)服務(wù)等方面提出更多要求。隨著電力數(shù)字化過程中產(chǎn)生的相關(guān)內(nèi)部數(shù)據(jù)也越來越多,采用大數(shù)據(jù)技術(shù),可以有效分析采集來的電力客戶數(shù)據(jù),及時、準(zhǔn)確地掌握客戶用電行為特征,同樣也可以及時發(fā)現(xiàn)用電異常行為。一方面有利于對企業(yè)的電力營銷和調(diào)度進(jìn)行決策支撐,另一方面也可以保障電力企業(yè)自身利益不受損失,顯著提升企業(yè)的盈利能力和競爭能力[1-2]。
文章將采用隨機森林算法來分析用電行為,為電力企業(yè)及時有效分析用戶用電行為提供一定參考。
電力企業(yè)根據(jù)用電客戶歷史用電行為特征、貢獻(xiàn)度大小、用電需求等特點,基于大數(shù)據(jù)分析技術(shù),從行業(yè)特點、客戶價值、用電需求、成長性等方面刻畫用電客戶群體特征,采用現(xiàn)代統(tǒng)計分析方法及數(shù)據(jù)挖掘算法將電力用戶分類,比如高壓用戶,低壓居民用戶和低壓非居民用戶等用電形式的用戶,按照不用用戶的用電行為特點建立起用戶用電模型以及公共設(shè)備用電模型,從而有效監(jiān)測電力使用狀態(tài)。當(dāng)然以往電力企業(yè)在電力用戶用電監(jiān)測領(lǐng)域僅依靠線損率來估計用電用戶的用電行為,存在一定的技術(shù)局限性。因為只有當(dāng)線損率超過15%的閾值時,才有充分證據(jù)證明這個用戶是用電異常。
目前,很多人采用了機器學(xué)習(xí)同電力數(shù)據(jù)相互結(jié)合的方法來進(jìn)行用戶用電行為特征的提取,對用電過程進(jìn)行挖掘。而隨著智能電網(wǎng)的普及,電力用戶的數(shù)據(jù)呈現(xiàn)快速增加的態(tài)勢,使得用電數(shù)據(jù)特征數(shù)目也隨之快速增長,且呈現(xiàn)出連續(xù)化的變化特征。
如果采用傳統(tǒng)CURE算法對數(shù)據(jù)進(jìn)行挖掘,首先需要對數(shù)據(jù)進(jìn)行離散化的操作,具有計算量大、消耗時間長、一些重要的特征信息容易丟失等缺陷,相對而言,如果采用信息嫡原則的分析法對特征值進(jìn)行提取,則可以使得預(yù)測準(zhǔn)確度得以進(jìn)一步提升。在用電分析模型所含的單項指標(biāo)中,主要包括了每天用電量、最大線損率、電表類型、臺區(qū)線損等,再進(jìn)一步利用人工神經(jīng)網(wǎng)絡(luò)對用電行為進(jìn)行分析,只不過這樣的分析只是對其中一個用戶的用電異常可疑性大小進(jìn)行判斷,無法分析用電預(yù)測樣本的準(zhǔn)確程度。按照一段時間內(nèi)用戶用電量的總體變化趨勢判定竊電行為的發(fā)生,然而卻沒有與機器學(xué)習(xí)等新技術(shù)相融合,沒有更高的工作效率。
隨機森林就是建立很多決策樹,組成一個決策樹的“森林”,通過多棵樹投票來進(jìn)行決策。這種方法能夠有效地提高對新樣本的分類準(zhǔn)確度。隨機森林在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成(樣本的隨機選取)的基礎(chǔ)上,進(jìn)一步在決策樹的訓(xùn)練過程中引入隨機屬性選擇。具體來說,傳統(tǒng)決策樹在選擇劃分屬性時是在當(dāng)前節(jié)點的屬性集合(假設(shè)有d個屬性)中選擇一個最優(yōu)屬性;而在RF隨機森林中,對基決策樹的每個節(jié)點,先從該節(jié)點的屬性集合中隨機選擇一個包含K個屬性的子集,然后在從這個子集中選擇一個最優(yōu)屬性用于劃分。
在人工智能領(lǐng)域,隨機森林算法包括了數(shù)個決策樹分類器,個別樹輸出的類別眾數(shù)決定了其輸出的類別。隨機森林的生成具體算法步驟如下。
首先,對樣本數(shù)據(jù)進(jìn)行有放回的抽樣,得到多個樣本集。具體來講就是每次從原來的N個訓(xùn)練樣本中有放回地隨機抽取N個樣本(包括可能重復(fù)樣本)。
然后,從候選的特征中隨機抽取m個特征,作為當(dāng)前節(jié)點下決策的備選特征,從這些特征中選擇最好地劃分訓(xùn)練樣本的特征。用每個樣本集作為訓(xùn)練樣本構(gòu)造決策樹。單個決策樹在產(chǎn)生樣本集和確定特征后,使用CART算法計算,不剪枝。
最后,得到所需數(shù)目的決策樹后,采用隨機森林方法對這些樹的輸出進(jìn)行投票,以得票最多的類作為隨機森林的決策。
電力系統(tǒng)用戶的用電數(shù)據(jù),主要是從營銷系統(tǒng)里面抽取的,在判定用戶數(shù)據(jù)的同時合理進(jìn)行篩選,將不存在用電異常可能性的數(shù)據(jù)排出,再對篩選后的原始數(shù)據(jù)進(jìn)行預(yù)處理,包括將用戶用電監(jiān)測數(shù)據(jù)與其他類型用戶數(shù)據(jù)進(jìn)行對比,對二者用電特征的差異進(jìn)行比對分析,提取出差異明顯、特征鮮明的用電特征,之后構(gòu)建專家樣本集,并對特征進(jìn)行提取操作,特征提取包括提取方差特征和提取含零百分?jǐn)?shù)特征[3]。
利用隨機森林算法對預(yù)處理后的數(shù)據(jù)進(jìn)行測試并計算得出最終的實驗結(jié)果,具體操作步驟:通過隨機森林算法,對用戶數(shù)據(jù)進(jìn)行決策樹分類,最終分類結(jié)果由訓(xùn)練出的決策樹投票決定,以此判定用戶是否有用電異常行為。用電數(shù)據(jù)預(yù)處理和特征提取流程如圖1所示。

圖1 用電數(shù)據(jù)處理及特征提取流程
提取方差特征具體公式:

式中Vi為用戶用電量的方差;Xik為第i個用戶第k天的用電量;為用戶平均用電量;k為用戶數(shù)據(jù)量的大小。方差主要體現(xiàn)出了數(shù)據(jù)的波動情況,當(dāng)某一用戶用電數(shù)據(jù)出現(xiàn)大幅度的波動現(xiàn)象,如用電量長期忽高忽低、方差較大,則可以預(yù)警該用戶用電存在異常。
提取含零百分?jǐn)?shù)特征具體公式:

式中Pzeroi為含零百分?jǐn)?shù);Xj為第i個用戶有包含j個零數(shù)據(jù);Xi為第i個用戶總的數(shù)據(jù)量。
除極特殊情況外,某用戶用電量每天都為零,則該用戶用電異常行為可能性極高。若某用戶除少數(shù)日期外,大多數(shù)時間用電量均為零,則有較大可能存在用電異常,若某用戶用電量斷續(xù)為零,則存在一定可能有用電異常行為。
根據(jù)用電客戶歷史用電行為特征、貢獻(xiàn)度大小、用電需求等特點,基于大數(shù)據(jù)分析技術(shù),從行業(yè)特點、客戶價值、用電需求、成長性等方面刻畫用電客戶群體特征,采用現(xiàn)代統(tǒng)計分析方法及數(shù)據(jù)挖掘算法將電力用戶分類,包括高壓用戶,低壓居民用戶和低壓非居民用戶等用電形式的用戶,針對不同的用戶類別建立不同的用戶用電模型以及公共設(shè)備用電模型,從而對企業(yè)的電力營銷和調(diào)度進(jìn)行決策支撐,為用電需求側(cè)管理、優(yōu)化客戶服務(wù)管理規(guī)范提供輔助決策。