馬秋波,朱廷俊,夏成璧,朱李鈾,潘艷青
(國網甘肅省電力公司慶陽供電公司,甘肅慶陽 745000)
建立健全的電力用戶能效評估指標體系,是提升該領域用戶能源利用率的首要環節[1-9]。在配電側降低線路損耗、用戶側降低設備損耗是提高企業電能利用率的基本準則。隨著大數據技術的推廣,電力用戶的各種用電行為早已“有跡可循”,這些痕跡為調研不同行業的電力用戶提供了技術支持[10-12]。在科學的評價指標體系引導下,電力用戶能及時改進經營策略,而電力公司可有效降低線路損耗,從而達到配用電的雙贏。在此背景下,該文從實用性、科學性與可觀測性的角度出發,對電力用戶在綜合能效評估時所使用的大數據分析及存儲方法進行了研究。基于多維矩陣的大數據分析技術對電力用戶的觀測值加以擴展,并使用熵值評估法(Entropy Method)避免了評估過程中的主觀因素影響,再利用最小二乘法(Generalized Least Squares,GLS)進行算法集成,進而提升了評估的精度。
在對電力用戶進行能效評估時,隨著企業數據采集密度的增長,各種狀態數據通常采用時間序列的形式在服務器上加以存儲。記x為電力設備某個指標在復數空間上的T維時間序列,則N個序列可以構成如式(1)所示的觀測矩陣:
式中,C為復數空間。當N遠小于T時,可將xi繼續拆分,并疊加得到更高維度的X′:
對電力用戶按照指標體系進行數據采集后,再對各個指標下的數據加以采集,隨后便能建立狀態量數據集的高維矩陣,最終通過大數據模型即可實現對能效的評估。數據采集后,首先需量化所采集的狀態量與能效評估間的相關性。因此,該文引入了置信度指標A來進行相關性的度量:
其中,P是事件發生的概率,σ是方差,Li,j表示狀態量i在j條件下出現異常,Mi是狀態量在觀測值中出現異常。隨后,借助ARMA 模型(Auto-Regressive and Moving Average Model)研究高維矩陣的樣本協方差矩陣并實現數據挖掘[13-15],以獲得該矩陣的譜分布,從而得到電力用戶的異常能效指標。ARMA 是基于自回歸(Autoregressive Model,AR)與滑動平均(Moving Average,MA)的復合模型。對于記錄了某個指標在n個狀態的高維矩陣X′=(x1,x2,…,xn),其時間序列xt的功率譜密度計算方法如下:
首先將高維矩陣轉化為以p、q為模型參數的ARMA(p|q)過程,且記B為延遲算子,?、θ為比例因子,則有:
其中,εt是基函數,a和b為展開階數。
此時,記Φ為序列經傅里葉變換后的功率譜密度,則其計算方法為:
其中,ω為傅里葉變換中的角頻率。
當a、b均為1時,即可得到該文使用的ARMA(1,1)模型。對于該模型,可根據式(6)得到功率譜密度的計算方式為:
其中,φ是[-1,1]的常數。對于采樣矩陣X,其協方差矩陣的計算方法如下:
對Sn進行p個時刻的采樣,并計算Sn的能量譜密度(Energy Spectrum Density,ESD),其計算方式為:
其中,I是采樣點中出現異常數據的概率。接著對式(7)進行斯蒂爾切斯變換,即可得到極限譜密度函數,此處仍以ARMA(1,1)模型為例,有:
在對樣本數據進行檢測后,還需確定評價指標的權重值。由于電力用戶的指標體系較為復雜,故該文采用基于最小二乘原理的熵值評估法確定各級指標的權重。
信息熵(Information Entropy)是信息理論中評價空間內部信息分布無序程度的評價指標,信息的無序程度越短,其攜帶的信息量便越大。在大數據評估中,通過指標觀測值提供的信息量大小可確定該指標的權重,這便是熵值評估法的基本思想。
對于電力用戶在m個評估項目,n個評價指標下,能夠得到觀測數據矩陣R=(rij)m×n,其可表示為:
對于第j個指標,其權重uj的計算方法如下:
在實際的能效評估時,由熵值評估法取得的權重為客觀權重uj。由于在現有的評價體系下,存在固有的主觀評價權重wj,故需盡可能降低兩套權重間的偏差。為此,該文引入最小二乘法進行綜合集成,記最終的綜合權重為W=(W1,W2,…,Wm),則優化的目標函數H為:
由于兩種權重賦值方法所得到的權重是離散分布的,因此引入對熵h(u1,u2),并將該問題轉化為數學規劃問題,記d為集合權重:
根據最小二乘法,該數學規劃模型的最優解如下:
此時,可得到綜合賦權后的客觀權重a1與主觀權重a2:
該文基于某地區200 家重要電力客戶數據集進行模型的驗證,由于數據量大,為提升數據的運算分析效率,需基于指標評價體系對數據的存儲體系加以設計[16]。該文的指標體系共分為三級,其中,一級指標體系包括技術能效A1、經濟能效A2、管理能效A3。圖1 給出了技術能效A1的部分指標。

圖1 文中設計的部分指標體系
由于該文使用的原始數據均按照各個指標存儲于389 213 個小文件中,而傳統的HDFS(Hadoop Distributed File System)更適合于大文件的流式存儲,故該文使用圖2 所示的策略對存儲方式進行優化。
圖2 中設計了小文件合并的數據接口,歸并后的大文件元數據結構如表1 所示。

圖2 小文件優化存儲策略

表1 歸并后大文件的元數據結構
在經歷前期的數據采集后,依據該指標體系與高維矩陣分析方法,得到了不同指標觀測值的擴展序列。然后再使用并行化的HDFS 大數據處理技術按照指標體系進行數據存儲,且采用1 個Master 和7個Slave 存儲節點,單個Master、Slave 節點的配置均如表2 所示。測試結果表明,相較于傳統的單服務器存儲,數據的訪問效率提升了64.5%。

表2 Master與Slave節點的配置
隨后通過讀取HDFS 文件系統上的觀測數據,確定評估模型的各項指標。在確定指標體系中一、二級指標的權重時,采用最小二乘法集成賦權,各個指標的權重值計算結果如表3 所示。
從表中可以看出,在進行電力用戶的能效評估時,在該文的評估模型下,用戶的技術指標對用戶影響較大,權重為57.13%。而用戶的管理效能對用電能效的影響則較小,權重僅為10.93%。在三級指標的權重賦值中,由于各指標下的觀測值已采用高維矩陣進行了序列擴展,故可直接使用熵值評估法進行權重賦值。以B8下的三級指標C16-C21為例,各個指標的熵值、差異系數及熵權重的計算結果如表4所示。

表3 一二級指標權重值

表4 B8下各指標權重計算結果
表5 給出了200 家電力用戶在技術、經濟與管理這3 個一級指標下的評價結果。

表5 企業能效評估結果
以表中所顯示的5 家用戶為例,通過綜合評價其能效水平依次排序為用戶4>用戶200>用戶1>用戶3>用戶2。通過綜合性的能效評估,各用戶均能夠評估自身在能效上的弱勢項,并針對該項進行專項提升,從而更優地提升生產效率。
該文引入了大數據分析方法進行電力用戶的綜合能效評估,基于HDFS 大數據存儲結構建立了完備的評價指標體系。在數據處理上,基于ARMA方法建立了觀測樣本的協方差矩陣,在確認評估模型的三級指標時,使用了信息熵理論中的熵值評估法,有效避免了評價過程中的主觀因素影響。計算樣例證明,該方法能夠通過打分的形式有效評估用戶的當前能效水平,并可為能效的提升給出合理的改進方向。