竇 健,董俐君,朱新山
(1.中國電力科學研究院,北京 100192;2.天津大學電氣與自動化工程學院,天津 300072)
?
結構化用電客戶互動需求信息的比對庫設計
竇健1,董俐君1,朱新山2
(1.中國電力科學研究院,北京 100192;2.天津大學電氣與自動化工程學院,天津 300072)
摘 要:為提升電力系統服務效率與水平,該文對結構化用電客戶互動需求信息提出了新穎的比對方案和比對庫設計方案。比對方案以客戶互動需求信息的一組統計量作為特征向量,結合特征向量的距離和相關系數構造單一用戶之間的差異性指標,對用戶集則采用高斯混合模型為統計特征向量集建模,并引用Kullback-Leibler (K-L)散度測量用戶集的差異。利用客戶互動需求信息、特征統計量以及差異性量化指標設計了一個三級的比對庫。文中的比對方案可有效衡量單一用電客戶和用電客戶集的差異程度,改善比對效率和可靠性,三級比對庫可全方位地反映客戶互動需求數據的差異,有利于數據的分析和處理。
關鍵詞:互動需求;比對庫;差異性指標;高斯混合模型
隨著我國經濟的持續快速發展,電力需求不斷增長,能源瓶頸問題變得越來越突出。為了滿足電力的供需平衡和供電的可靠性,電力公司除了增加電力基礎設施的投資以外,還必須實時調整營銷策略與服務方案,鼓勵用電客戶進行需求側響應和節能。對用電客戶的互動需求信息進行分析與比對,建立比對庫,可為制定合理的營銷策略與服務方案提供支持,從而實現電力系統資源配置優化,提升服務效益,提高系統的可靠性[1-2]
經典信息分析方法主要可分為3大類:統計分析、關聯分析和推理分析[3-6]。在用電客戶互動需求信息分析中,利用數據統計和分析方法對某類客戶互動需求信息進行分析,可在時間與空間上對客戶需求有個整體把握,為電力公司的資源配置提供支持[3]。在時間上,通過對用電客戶每年、每個季度、每月甚至每天的用電量的統計分析,可發現客戶的用電規律,電力公司根據這些規律制定合理的供電方案以實現電力資源的合理配置與有效利用[4];在空間上,各區域用電客戶的用電量是有差異的,如天津市南開區各住宅小區的用電量是不同的,電力服務與維修人員的人數配置可根據此差異來進行[5]。
利用關聯分析方法把客戶的用電情況與季節、天氣、氣溫、節假日等信息關聯起來[6]。這些信息對用電情況有一定的影響,如夏季和冬季,出于降溫與供暖的需要,居民用戶用電量一般有所增加。通過關聯分析,供電公司可根據實時情況對供電和人員分配有一個合理的調整。在用電客戶互動需求信息分析中,基于大量用電客戶的互動需求信息,利用歸納推理分析方法概括和抽象出各種類型用電客戶互動需求信息的特點,如居民用戶的用電環境與用電要求和其他類型的客戶有較大差別,其互動需求將側重于電價、用電量等。
本文針對結構化用電客戶互動需求信息提出了比對算法和比對庫的設計方案。首先描述了用電客戶類型,并設計了用電客戶互動需求信息的統計特征量;在此基礎上,研究了單一用戶的比對和用戶集的比對問題,提出了新的差異性量化指標和兩種新的比對算法。最后設計了一個3級比對庫,以全方位的反映用戶之間或用戶集之間的差異。
1.1用電客戶類型
客戶互動需求信息,是指用電信息采集系統采集的供電單位與電力用戶共同關心的信息,其內容與客戶的具體用電需求緊密相關。在電力系統中,根據用電需求的差異,常常將用電客戶分為A、B、C、D、E 5種類型。A類型為大型專用變壓器用戶,用電容量在100 kVA及以上;B類型為中小型專用變壓器用戶,用電容量小于100 kVA;C類型為三相一般工商業用戶,是執行非居民電價的低壓三相電力用戶;D類型為單相一般工商業用戶,是執行非居民電價的低壓單相電力用戶;E類型為居民用電,執行居民電價的城鄉居民及居住區公用設施醫院學校等用戶。這五類用電客戶主要關心的互動需求信息的指標如表1所示。

表1 五種類型用電客戶的互動需求信息指標Tab.1 Interactive demand information indices for five categories of electricity customers
客戶互動需求信息在數據形式上可分為結構化和非結構化兩類數據。結構化數據,即行數據存儲在數據庫中,可以用二維表結構邏輯來表達實現的數據。而不方便用二維邏輯表來表現的數據即稱為非結構化數據,其形式包括文本、圖像、視頻、網頁等。結構化數據,可直接按照數據庫中數據項的屬性進行比對與分析。非結構化數據,則需要增加數據的預處理操作。本文研究結構化數據的比對方案。
1.2互動需求信息的統計量
隨著用電信息采集系統的應用,電力企業各類信息系統紛紛建成投運,客戶互動需求信息量也在急劇增長。簡單地按照數據屬性進行比對,不僅效率低,而且難以反映客戶互動需求信息的差異和特征。因此,本文采用一組互動需求信息的統計量來表達其特征,并以此為基礎建立比對方案。
方便描述統計量,令u={u1,u2,…,un}T表示某個用戶U關心的一個指標在t1,t2,…,tn時刻獲得的數值,其中,n代表互動需求信息的樣本總數。所關心的指標可以是電壓、電流、功率等。如果需要同時比對多個指標,可以采用矩陣U表達客戶互動需求信息,矩陣U的每一行對應一個用戶關心的指標。為了充分表達用戶U關于某種需求指標的特征,提出計算向量u的最小值ub、最大值uc、中位數um、眾數uf、樣本均值ue、樣本標準差ud,形成一個統計向量s作為用戶U關于某種需求指標的特征描述,s={ub,uc,um,uf,ue,ud}T。表2給出了上述統計量的定義,其中,符號1表示一個元素皆等于1長度為n的向量,符號量u′是將向量u的元素按照從小到大的順序排列后形成的向量,函數||·||q表示計算輸入向量的q-范數,函數I(?)是指示函數,定義為


表2 互動需求信息的統計量Tab.2 Statistics of interactive demand information
所給出的統計量可從多方面描述用戶U所關心的某一指標數據的特征。最小值、最大值可描述數據出現的范圍。中位數表示用電客戶互動需求信息數據序列中處于中間位置的數據項,可剔除極端值的影響。眾數表示用電客戶互動需求信息中某一項指標的數據出現次數最多的數據項(可以不存在或多于一個),代表數據的一般水平。樣本均值反映用電客戶互動需求信息中某一項指標的數據集中趨勢,是數據整體水平的一個體現。樣本標準差可以度量數據相對均值的波動情況,樣本標準差越大說明數據的波動越嚴重。
2.1單一用電客戶的比對
當進行比對的雙方都是單一用電客戶時,稱為單一用電客戶的比對。采用的比對方法是先計算用電客戶的各個指標的統計特征量,之后就每一個指標進行差異性分析,最后將每種指標的差異性進行綜合產生總體差異性。
假設U1和U2表示需要比對的用電客戶,s1和s2分別表示二者的一個指標的統計特征量。特征量s1和s2的相關系數可以描述二者的相似度,其誤差向量的范數可以描述二者間的距離。結合二者,提出一種新的差異性度量方法。首先,定義特征量s1和s2的歸一化的均方誤差γe為


顯然,γe和γc滿足,0≤γe≤1和0≤γc≤1。然后,利用γe和γc定義s1和s2的差異性δ為

特征量s1和s2的相關系數γc可表示為
式中,權重因子we和wc皆大于零,并滿足we+wc= 1。權重因子we和wc可根據向量的相似度與距離的重要程度進行選擇,一般可取為0.5。由式(4)可見,單項指標的差異性δ的定義中包含了對特征量s1和s2的距離和相關性的考慮,δ越大表明s1和s2的差異性越顯著,δ滿足0≤δ≤1。
如果客戶U1和U2共有l個指標需要比對,利用式(4)計算每個指標對應的差異性,得到δ1,δ2,…,δl,度量總的差異性δT可用所有單項指標差異性的閔可夫斯基距離,即

2.2用戶集的比對方法
當比對的雙方都包含多個用電客戶,甚至用電客戶的類型也有多種,稱為用戶集的比對。此時,單一用電客戶的比對方案無法使用。為了從整體上度量用戶集的用電需求信息的相關性和差異性,本文提出利用混合高斯模型GMM(Gaussian mix?ture model)描述用電需求信息的分布,并引入K-L散度KLD(Kullback-Leibler divergence)度量分布之間的差異。
假設集合U1和U2表示兩組用電客戶,U1={U,U,…,U}和={U,U,…,U},其中,Mi(i=1或2)代表客戶的個數,也就是集合U1和U2的勢。針對某個需求信息指標,為每一個參與比對的用戶建立特征統計量,得到 s,s,…,s和s,s,…,s兩個序列。如果將這兩個序列分別視為隨機變量S1和S2的樣本序列,那么可分別用概率密度函數 pS1(?)和 pS2(?)來描述其統計分布。進一步,考慮到每個用電客戶集合里可能包含多種類型的用戶,一般不同類型的用戶的用電信息差別較大,同一類型的用電客戶的用電信息差別較小,因此,采用GMM描述隨機變量S1和S2的分布[7]。具體地,設隨機變量Si(i=1或2)的樣本序列含有Ki個目標,每個目標類的樣本服從高斯分布φ(x|θik),

式中:θik為分布參數,即表示第i個目標類的高斯分布的均值μik和方差Σik,θik=(μik,Σik);Θi為GMM的參數矢量,Θi=(πi1,…,πiKi,θi1,…,θiKi)T。因此,隨機變量Si的概率密度函數可以寫作式中,p是一個整數,p>0一般可取p=4。
該比對方案可用于縱向比對,即比對同一用電客戶在不同階段的互動需求信息的差異,也可用于橫向比對,即比對不同客戶在同一階段的互動需求信息的差異。基于統計量的比對方法可以看出用電客戶的用電數據的變化,通過分析數據的變化來調配電網的工作,以達到優化電網服務質量的效果。

式中,πik為混合系數,表示隨機變量Si的第k個目標類的先驗概率。顯然,此特征統計量的分布為六維GMM。
上面給出了統計特征量的GMM描述,該模型完全由其參數Θi確定。極大似然估計是一種常用的估計概率分布參數的方法。但是,由于分布模型式(7)的復雜性,直接求解極大似然函數的解很困難,這里采用經典的期望最大化EM(expectationmaximization)算法求其最優解。EM算法的第j+1次疊代公式[8]為

由于特征統計量是隨機的,歐拉范數不能直接用于測量隨機量之間的差異。為此,引入一種統計測度,K-L散度KLD(Kullback-Leibler divergence),也稱為相對熵(relative entropy)[9]。對于概率密度函數pS1(?)和pS2(?),KLD計算式為

KLD可用于度量兩個統計模型的差異程度,但它不具有對稱性。一種對稱的KLD具有如下形式

許多文獻中將對稱KLD也稱為距離,顯然,λ (S1,S2)是對稱的,且可以證明λ(S1,S2)是半正定的[10],但是λ(S1,S2)不滿足三角不等式,因此它不是嚴格意義的距離。理論上,將隨機變量S1和S2的概率密度函數表達式(7)代入式(13),就可計算出λ (S1,S2)。
如果客戶集U1和U2需要從l個需求信息指標方面進行比對,則根據上述過程可以計算出l個對稱KLD,得到λ(S11,S21),λ(S12,S22),…,λ(S1l,S2l),總的差異性λT計算式為

用戶集的比對方案適用于包含用戶數量大、用戶類型多的電力客戶組,例如城區之間的比對、城市之間的比對、以及國家之間的比對等,能清楚地反映用電客戶集的用電數據的變化情況,分析用戶集的用電數據的相似性和差異性,為電網的合理調配提供依據。
對A、B、C、D、E 5類客戶互動需求信息的比對分析往往要牽涉到大量的用電客戶數據,因此有必要構造比對庫來對該5類客戶互動需求信息進行比對。比對庫和一般的數據庫區別不大[11],只是里面存儲的是用于比對的互動需求信息或者通過上述比對方案得到的比對分析結果。本文分3級構建比對庫,分別是指標數據級、統計數據級和差異分析級。
3.1指標數據級的比對庫設計
指標數據級比對庫是一種最基本形式的比對庫。在這一級中,只是將被比較對象的一些互動需求信息數據按照不同指標以及給定的時間區間分別列舉出來。表3以表格形式描述了指標數據級比對庫的一般結構。可見,該級比對庫一般由用戶名稱、用戶類型、時間區間、用戶需求信息指標和數據等項構成,其中用戶類型Qi是A、B、C、D、E 5類客戶中的一個,用戶需求信息指標主要有電壓、電流、用電量、用電負荷和負荷報備信息等。
指標數據級比對庫顯示了在一時間范圍內客戶互動需求信息的具體數值,因此,能夠從細節上反映客戶之間的差異。例如,通過觀察用電量數據可以了解到,A、B、C、D、E 5類客戶的用電量滿足A>B>C>D>E,電力公司可據此在電力維護人員人數的分配上將傾向于A、B、C類客戶。C、D、E類客戶也有對用電質量的需求,不過遠沒有A、B類客戶需求的強烈。這些可作為電力公司在資源配置時的重要參考。
指標數據級比對庫可以清楚地顯示報備日期、負荷等級、負荷位置、負荷容量等負荷報備信息,進而可以觀察到A、B、C類客戶的用電負荷具有時間持續性,負荷量較大,負荷成分多樣,大部分是1、2級負荷等特性;D類用戶的用電負荷具有時間不規律,負荷數量較大,負荷成分比較簡單,大部分是2級負荷等特性;E類用戶的主要用電負荷為熱負荷,與D類用戶的用電負荷特性相反。電力公司可根據客戶的用電負荷特性,制定相應的方案(如錯峰用電方案)[12]。

表3 指標數據級比對庫Tab.3 Information-level CD
3.2統計數據級的比對庫設計
雖然,指標數據級比對庫可以從細節上反映用電客戶的差異,但是,從該比對庫中很難直接測出單個用電客戶或一類用電客戶的互動需求數據具有的統計特征和變化規律,因此,設計了第2級比對庫,即統計數據級比對庫。在該比對庫中,將被比較對象的一些互動需求信息的統計量按照不同指標以及給定的時間區間進行存儲。表4以表格形式描述了統計數據級比對庫的一般結構。表中互動需求信息的統計量即指統計特征量,包含最小值、最大值、中位數、眾數、樣本均值和樣本標準差,其定義如表2所示。
統計數據級比對庫能夠顯示客戶互動需求信息在統計意義下的差異,可相對準確的獲得用電客戶的特征。例如,通過觀察用電量的最大值數據項可以了解到,A、B、C、D、E 5類客戶的用電都有最大需量的要求,而且滿足A>B>C>D>E。據此,電力公司應多關注最大需量較大的用戶,利用其用電規律,通過協商調整,以分時段或其他方式在滿足其最大需量的情況下,而不影響其他用戶。

表4 統計數據級比對庫Tab.4 Feature-level CD
從統計數據級比對庫中可獲得用電客戶的互動需求信息的統計規律,實現對互動需求數據的分類和預測。例如,通過觀察電流的樣本平均值將該數據項相近的用電客戶合為一類,可獲得比A、B、C、D、E 5類客戶更精細的分類方式,據此,電力公司對每類客戶制定相應的供電方案,以提升服務效益。另外,結合電流的樣本平均值和樣本標準差值可預測用電客戶的未來用電需求,或者給出電流值的置信區間,據此,電力公司可優化資源配置。
3.3差異分析級的比對庫設計
雖然,前兩級比對庫可反映單一用電客戶的互動需求信息的差異,但沒有差異程度的量化數據,而且,難以觀測到用電客戶集之間的差異。為此,設計第3級比對庫,即差異分析級比對庫。在該庫中,存儲了兩個被比較對象的互動需求信息的差異性數據。表5和表6分別針對單一用電客戶和用電客戶集描述了差異分析級比對庫的一般結構。表中互動需求的差異性量化值既有單指標的,也有多指標(即總差異),既有針對單一用戶的,也有針對用戶集的,其定義見式(4)、(5)、(13)和(14)。

表5 單一用戶的差異分析級比對庫Tab.5 Difference-level CD for the case of two single customers

表6 用戶集的差異分析級比對庫Tab.6 Difference-level CD for the case of two customer sets
差異分析級比對庫能夠清楚地反映不同用戶在同一時間段的用電客戶互動需求信息數據的差異程度。例如,通過觀察電壓指標對應的差異性,可以獲得A類客戶之間差異程度與A類客戶和其他B、C、D、E類客戶之間差異程度的比較,從而為電力公司進行差異化供電提供指導。利用差異分析級比對庫可對電力客戶進行更精細的分類。例如,選擇所關心的3個指標電壓、電流和用電量,利用他們對應的差異性數據通過K-means聚類方法[13],將差異性較小的用戶聚在一起,更便于電力公司進行資源配置和供電規劃。差異分析級比對庫能夠顯示包含多種類型的用電客戶集之間的客戶互動需求信息差異。例如,通過觀察西北某城市與東北某城市的用電客戶互動需求信息的差異性量化數值,不僅可以清楚地了解這兩個地區總的差異程度,也可以獲得在各個分項指標上的差異程度。
可以說,差異分析級比對庫是在相對比較宏觀的層面上反映客戶互動需求數據的差異,它不能像指標數據級比對庫那樣能夠從細節上反映客戶之間的差異,也不能像統計數據級比對庫那樣適于表現客戶互動需求數據具有的統計特征和變化規律。因此,只有將這3種級別的比對庫相結合,才能從微觀到宏觀,從細節到整體,全方位地反映客戶互動需求數據的差異。這對于客戶互動需求數據的分析和處理是有利的。
本文建立了面向結構化用電客戶互動需求信息的比對方案和3級比對庫設計方案。單一用戶的比對方法中采用了新穎的綜合統計特征量的距離和相關系數的差異性指標,可更好地衡量二者的差異程度;客戶集的比對方法中通過GMM為二者的統計特征向量集建模,并引用K-L散度測量其差異性,可有效應對用戶集中含有多種類型客戶的情況。上述兩種比對方案都建立在對客戶特性的統計特征描述基礎上,有利于改善比對效率和可靠性。
提出的比對庫由指標數據級比對庫、統計數據級比對庫和差異分析級比對庫構成,可分別從細節、統計規律、差異性量化值3種層次反映客戶或客戶集之間的差異。三者結合可全方位地反映客戶互動需求數據的差異,有利于客戶互動需求數據的分析和處理。
參考文獻:
[1]余貽鑫,欒文鵬(Yu Yixin,Luan Wenpeng).智能電網述評(Smart grid and its implementations)[J].中國電機工程學報(Proceedings of the CSEE),2009,29(34):1-8.
[2]趙洪山,王瑩瑩,陳松(Zhao Hongshan,Wang Yingying,Chen Song).需求響應對配電網供電可靠性的影響(Im?pact of demand response on distribution system reliabili?ty)[J].電力系統自動化(Automation of Electric Power Systems),2015,39(17):49-55.
[3]張東霞,苗新,劉麗平,等(Zhang Dongxia,Miao Xin,Liu Liping,et al).智能電網大數據技術發展研究(Re?search on development strategy for smart grid big data)[J].中國電機工程學報(Proceedings of the CSEE),2015,35(1):2-12.
[4]陳國初(Chen Guochu).文化微粒群神經網絡在用電量預測中的應用(Application of cultural particle swarm op?timization neural network in electric load forecasting)[J].電力系統及其自動化學報(Proceedings of the CSU-EP?SA),2011,23(2):31-37.
[5]鄭永康,陳維榮,蔣剛,等(Zheng Yongkang,Chen Weirong,Jiang Gang,et al).電力市場條件下年用電量混沌模型分析(Annual electricity consumption analysis us?ing chaotic model under power market)[J].電力系統及其自動化學報(Proceedings of the CSU-EPSA),2006,18 (5):95-98.
[6]袁斌,方芩璐,羅滇生,等(Yuan Bin,Fang Qinlu,Luo Diansheng,et al).短期負荷預測中對輸入-輸出關聯度的改進(Improvement of input-output correlations of shorttime power load forecasting)[J].電力系統及其自動化學報(Proceedings of the CSU-EPSA),2011,23(3):9-73.
[7]喬少杰,金琨,韓楠,等(Qiao Shaojie,Jin Kun,Han Nan,et al).一種基于高斯混合模型的軌跡預測算法(Trajec?tory prediction algorithm based on Gaussian mixture mod?el)[J].軟件學報(Journal of Software),2015,26(5):1048-1063.
[8]王愛萍,張功營,劉方(Wang Aiping,Zhang Gongying,Liu Fang).EM算法研究與應用(Research and applica?tion of EM algorithm)[J].計算機技術與發展(Computer Technology and Development),2009,19(9):108-110.
[9]王歡良,韓紀慶,鄭鐵然(Wang Huanliang,Han Jiqing,Zheng Tieran).高斯混合分布之間K-L散度的近似計算(Approximation of Kullback-Leibler divergence between two Gaussian mixture distributions)[J].自動化學報(Acta Automatica Sinica),2008,34(5):529-534.
[10]李曉艷,張子剛,張逸石,等(Li Xiaoyan,Zhang Zigang,Zhang Yishi,et al).一種基于KL散度和類分離策略的特征選擇算法(KL-divergence based feature selection al?gorithm with the separate-class strategy)[J].計算機科學(Computer Science),2012,39(12):224-227.
[11]張逸,楊洪耕,葉茂清(Zhang Yi,Yang Honggeng,Ye Maoqing).基于分布式文件系統的海量電能質量監測數據管理方案(A data management scheme for massive power quality monitoring data based on distributed file system)[J].電力系統自動化(Automation of Electric Pow?er Systems),2014,38(2):102-108.
[12]程宜風,陳中偉,安靈旭,等(Cheng Yifeng,Chen Zhong?wei,An Lingxu,et al).智能小區用電的排隊論模型及控制策略(Queuing theory model and control strategy for electricity of intelligent community)[J].電力系統及其自動化學報(Proceedings of the CSU-EPSA),2014,26(7):7-10,50.
[13]黃毅成,楊洪耕(Huang Yicheng,Yang Honggeng).改進遺傳K均值算法在負荷特性分類的應用(Application of improved genetic and K-means algorithm on load char?acteristic classification)[J].電力系統及其自動化學報(Proceedings of the CSU-EPSA),2014,26(7):70-75.
竇健(1987—),男,碩士研究生,工程師,研究方向為用電信息采集技術。Email:doujian@epri.sgcc.com.cn
董俐君(1983—),女,本科,工程師,研究方向為電力需求側管理技術。Email:donglijun@epri.sgcc.com.cn
朱新山(1977—),男,通信作者,博士,副教授,博士生導師,研究方向為機器學習理論與應用。Email:xszhu126@126. com
中圖分類號:TP3
文獻標志碼:A
文章編號:1003-8930(2016)06-0080-06
DOI:10.3969/j.issn.1003-8930.2016.06.014
作者簡介:
收稿日期:2015-11-02;修回日期:2015-12-31
Design of the Comparative Database for Structured Interactive Demand Information of Electricity Customers
DOU Jian1,DONG Lijun1,ZHU Xinshan2
(1.China Electric Power Research Institute,Beijing 100192,China;2.School of Electrical Engineering and Automation,Tianjin University,Tianjin 300072,China)
Abstract:To improve the service efficiency and quality of the electric power company,this paper proposes the new com?parative techniques and constructs the comparative database for structured interactive demand information(SIDI)of electricity customers.With a set of statistics of SIDI as a feature vector,the difference between two single customers is measured by combining the distance and correlation coefficient between their statistical feature vectors,however,for the case of two customer sets,the statistical feature vectors of each set are stochastically modeled by the Gaussian mix?ture model and the Kullback-Leibler divergence(KLD)is used to measure their difference.The three-level comparative database(CD)is established for SIDI,which consists of information-level CD with SIDI being shown,feature-level CD taking use of the statistical feature vector and difference-level CD showing the difference metrics.The proposed methods measure the difference of customers of customer sets with the improved comparative reliability and efficiency,and the designed CD reflects the difference of SIDI completely,which is in favor of the analyses and processing of SIDI data.
Key words:interactive demand;comparative database;difference index;Gaussian mixture model