(1.國網四川省電力公司電力科學研究院,四川 成都 610041;2.國網四川省電力公司,四川 成都 610041)
隨著互聯網技術和大數據技術的不斷推廣和應用,發展智能經濟、數字經濟已成為大勢所趨。在電力物聯網建設進程不斷深入過程中,數字化轉型已經上升為電網企業的重要戰略,激活數據價值、挖掘數據應用場景、開發數據產品、服務社會發展成為熱點[1-2]。
人員流動情況摸查是電力數據應用于提質增效的重要場景。尤其是自新冠肺炎疫情發生以來,由于疫情時值春節,走親訪友的情況較多,加之城市社區人口密集,給工作人員本來就有限的社區排查、管控工作帶來極大的困難,導致人員摸排周期長、摸排不準確。基于海量用電數據把握用戶的用電規律和用電特性從而辨別居民人口流動情況,可以及時有效地解決上述問題。
然而,在用戶行為分析方面,當前研究主要集中在基于電力數據的用戶用電行為解析[3-5],基于用電信息的人員流動情況評估方法較少。文獻[6]提出了一種基于細粒度用能數據的居民家庭活動人口評估方法,評估結果具有較高的可行度。但上述方法數據要求較高,需要獲取采樣間隔為15 min的居民分項電器用電數據、空調和電熱負荷詳細數據。對于大部分小區尤其是老舊小區而言,分時、分項數據獲取基本無法實現,嚴重限制了方法的應用場景,也難以滿足實際需求。
鑒于此,提出了一種基于居民日電量數據的人口流動情況評估方法。首先,通過歷史用電數據聚類挖掘居民的穩定用電水平;然后,基于日電量變化情況和穩定用電水平提出了人口流動判據;最后,基于上述判據對小區居民流動情況進行分析和研判,為社區疫情排查工作提供依據,并以成都市某小區居民實際數據為例驗證了所提方法的有效性。
在線采集上傳的日電量,真實反映客戶當日生產生活用電情況,具有實時性強的特點;但受到信號干擾、軟硬件故障、通信異常等情況的影響,數據可能會出現缺失、異常等情況。數據質量直接關系到分析的結果,因此,需要對采集的數據進行校核和清洗等預處理。
日電量是一個累積值,因此,對于缺失數據的處理有兩種方法。
1)用缺失日后1日的日電量作為平均值。計算方法為:
(1)
式中:N為數據缺失日期;Wnew(N)為更新數值;W(N+1)為數據缺失日的后一日的日電量采集數值;ε為隨機噪聲信號。該方法適用于對歷史數據的處理。
2)用前一段時間日電量均值代替。計算方法為
(2)
該方法適用于最新日電量的處理。
對于異常數據的校正,主要用于超出合理范圍的數據。一般而言,居民日用電量在0至允許容量之間,若日電量小于0,則用0替代;若日電量大于允許容量,則該日電量用最大容量或歷史均值替代,計算方法與式(2)相同。
聚類是樣本分類的常用算法[7],聚類分析的主要目的是通過分析數據的分布特征實現將數據對象劃分為若干數據子集,保證每個子集中數據的相似性。其中,k-means聚類方法因其簡單高效而廣泛應用于電力系統負荷分類中[8-9]。
考慮到居民用電情況可分為當日不在家、當日部分時間在家和當日全天在家3種場景,可以通過聚類算法將居民歷史日電量分為3類,分別代表3種場景的用電量樣本。這里主要采用k-means算法對不同居民用電場景的電量進行聚類。
假設在同一季節,居民的用電量與在家時長呈現正相關,求取各類數據均值,均值數據由大到小分別對應全天在家Wpart、部分時間在家Wfull和不在家Wno3類情況的穩定用電量值。分別統計各類中的樣本數量,獲取各類場景的出現概率,從而了解居民的生活習慣。
由于歷史數據不足,部分用戶用電場景不一定齊全,因此,需要對模型進行校正。校正判據為
(3)
式中:dmin為類間距離,是3類樣本均值之間的距離;Wmax為歷史日電量最大值,表示所選樣本中最大值,樣本一般為同一季節的日電量數據集合。
若上述判據滿足,則將距離最近的兩類合為一類。
由于日電量信息顆粒度較大,無法反映實時人口活動情況,因此,日電量信息難以反應具體的人數信息。對于居民流動情況,這里重點關注人口流出后住房空置、由空置到入住的人口流入兩種情況。
考慮到居民離開家當天用電量可能介于全天在家場景和全天不在家場景,因此,居民用電變化量考慮次日電量變化和隔日電量變化兩個層次進行指標設計,其計算方法為:

(4)

(5)
式中:W(t)為當日日電量;W(t-1)為前一日日電量;W(t-2)為隔日日電量;Wmax為歷史日電量最大值。
若某居民用戶的日電量突變率滿足式(6)中的兩個判據之一,則該戶居民為用能突變用戶。

(6)
對于用能突變用戶而言,若突變率大于0,則居民為用能激增用戶;若突變率小于0,則該居民為用能驟減用戶。
考慮到居民流入、流出前后用電狀態的變化,對于用電量可劃分為3類的情況,定義底值系數為
(7)
式中,k2和k1分別為兩個系數,其關系滿足k2+k1=1,且k1>2k2,這里取k1=5/6,k2=1/6。
對于模型校正后只有兩類的樣本,底值系數為
(8)
底值系數主要用于區分用戶的居家狀態,若該日日電量與歷史日電量最大值的比值小于或等于底值系數,則判定用戶不在家的概率較大。
1)疑似人口流入的判據
判據1:該用戶為用能驟增用戶。
判據2:電量激增前的日電量小于WmaxKcut。
同時滿足判據1和判據2,則認為該戶為人口流入客戶,標志位記為1。
2)人口流出的判定判據
判據3:該用戶為用能驟減用戶。
判據4:電量驟減后的日電量小于WmaxKcut。
同時滿足判據3和判據4,則認為該戶為人口流出客戶,標志位記為-1。
值得注意的是,若隔日突變率和次日突變率均大于1/3時,可能存在連續兩天判定外出的情況。因此,需要對上述情況進行校核,選取中間一天作為流入或流出的時間,保證流入和流出的準確性。
由于在流出到流入之間的時段,房間處于空置狀態,用電量變化一般很小,利用該特征可以進一步校核判定結果的有效性。即:人口流出后到下一次人口流入前,(日電量變化量/歷史日電量最大值)小于0.01,則認為該戶短時空置,人流測算有效。
根據流入流出判據標記位按日累加,可以獲得該戶居民居家狀況曲線。若居民居家狀況的最小值為-1,則該曲線整體加1。居家狀況為1,代表該戶當日非空置,否則代表該戶當日空置。
小區總體居民人口流動狀況可以反映總體的人口流動狀態,為社區防疫工作提供參考信息。具體包括:
1)小區持續空置戶數
持續空置客戶包含兩類:1)電表表底數據持續為空的未開戶用戶;2)表計已開戶但變化量持續為零的空置住房用戶。定義兩類用戶戶數的總和為持續空置戶數。
2)居民用電量突變戶數
定義除持續空置用戶外的居民中,居民次日電量突變率或隔日電量突變率絕對值大于1/3的居民戶數,為當日居民用能突變戶數。其中,次日突變率數值為正的居民戶數為用戶用電驟增戶數,突變率數值為負的居民戶數為用戶用電驟減戶數。
3)穩定用能戶數
當日穩定用能戶數定義為除持續空置用戶外的居民中,居民次日電量突變率或隔日電量突變率絕對值小于1/3的居民戶數。
4)短期空置戶數
小區內短時空置的用戶數目。
5)非空置住宅數目
小區內當日有人居住的住宅數目。
以成都市某小區2020年1月14日至2月13日一個月的電量數據為例進行分析。該小區總電表戶數為180戶,其中,表計未計數用戶數為48戶,統計期間未入住空置住宅戶數為36戶,空置率為46.67%。由于該小區為成都市內的新小區,入住率不高。
剩余96戶的用能曲線如圖1所示。由于該小區為別墅區,部分負荷較高。從負荷曲線可以看出,當人員離開時負荷特征明顯。
居民的典型判定曲線如圖2所示。其中,居家情況為0表示該戶不在家,為1表示該戶在家。如圖2(a)所示,該居民2020年2月3日返回家中,居民電量在當日出現上升,但次日上升電量較小,不滿足用能突變判據,但隔日突變率滿足要求,可判定該戶用能突變。可見,僅利用次日突變率判據可能出現漏判。根據居家情況判定結果可知,該算法能準確反映人口流動情況。圖2(b)所示為居民1月24日離開,1月28日返回;圖2(c)所示為居民1月23日返回,2月1日離開,居家判定結果準確。

圖1 居民用能曲線



圖2 居民居家情況典型判定
從小區整體來看,用能驟增和用能驟減的居民戶數隨時間的變化曲線如圖3所示,其中圖3(a)為次日用能驟變居民戶數,圖3(b)為隔日用能驟變居民戶數。

(a)

(b)圖3 小區用能驟變戶數
小區疑似人口流動的戶數如圖4所示。由圖可見,1月22日(春節前)疑似流出人口居民戶數大于當日用能驟變數目或隔日用能驟變數目,說明所采用的兩個指標結合的方法性能更好。

圖4 小區疑似人口流動戶數
該小區非空置住宅戶數如圖5所示。由圖可見,1月15日至1月22日(春節前)流出戶數略大于流入戶數,非空置住房數持續下降,整個小區人口流出明顯。1月23日(除夕)有所回升,但隨后繼續下降,至1月25日達到最低點。隨后,非空置住房數持續上升,到2月1日后基本保持穩定。分析結果與實際情況基本相符。1月28日后非空置住房數回落疑似與國家將復工時間由1月30日調整至2月3日有關。

圖5 小區非空住宅數
由上述分析可知,雖然日電量數據顆粒度不高,但采用所提出的算法后仍能較好地監測人口流動情況。
鑒于城市社區人口密集,采用人工排查人口情況的方式工作量大、工作周期長,且受節假日等因素的影響其數據準確性不高等問題,提出了一種基于電力大數據的居民人口流動情況評估方法,通過構建用能突變判據和人口流動判據實現了居民人口流入、流出情況的動態監測。利用所提方法應用于某小區的人口流動分析,得到結論如下:
1)根據居民數據分析結果與實際流入流出情況的對比可知,采用居民日電量數據可以較好地反映居民人口流動情況。
2)采用隔日突變率和次日突變率相結合的方法,可以更好地反映用戶的實際用能變化情況,有效提高算法的準確性。
3)由算例分析結果可知,小區居民流動情況和非空置戶數情況受節假日(春節)影響很大,假期前半段流出數量較多,后半段流入較多。分析結果與實際相符。
由于日電量維度較低,載有的信息量較少,因此,在用戶用能習慣變化極大的情況下,所提方法可能出現誤判或漏判。因此,未來將進一步研究在有限信息下精確挖掘用戶習慣、提高算法準確性的方法。