閆嵩琦
(國網陜西省電力公司 電力科學研究院, 西安 710000)
近年來,隨著智能電網建設力度的加大,產生了海量的用戶用電數據信息,這些數據可以通過數據挖掘的方法反映出電力用戶的用電習慣,從而給電網公司合理的制定供電計劃提供支撐,但是傳統的信息安全方法已不適用保障大數據時代數據的完整性,保密性,智能電網下的數據安全需要從全面進行考慮,包括供電設備,配電系統,數據采集系統,服務,管理等各個方面。所以,對智能電網數據挖掘及隱私保護進行研究對我國電網智能化的進程有重大意義[1-5]。
智能電網涉及了電力,控制,通信,計算機等領域,具有可靠性高,安全性高的特點。當在電網中檢測到用戶有異常能量消耗的時候,表明用戶具有非日常用電活動,這就暴露了用戶的隱私[6-7]。在電網數據挖掘之前進行隱私保護一方面可以保證數據挖掘的可靠性,另一方面又可以保護電力信息的隱私。
智能電網主要包括智能信息系統,智能計量系統,數據交易系統和智能服務系統[8]。智能計量系統指的是用戶用電信息的統計,電網節點電壓電流的記錄等。智能信息系統用于電力系統中電力信息的采集,系統配置的功能[9]。智能服務系統用于為客戶提供業務更改及查詢等服務。數據交易系統用于實現數據信息的交換。
目前對于智能電網的隱私保護和數據挖掘的研究并不是很多,文獻[10]針對智能電網的大數據安全和隱私保護問題,提出了加法秘密共享方案,并在安全聚合協議下匯總電表數據,該方法能夠使電力公司在不泄露客戶隱私信息的前提下提高服務質量[10]。文獻[11]提出采用支持多屬性泛化的隨機化的隱私保護方法對電力數據進行保護,通過與傳統的MBF算法進行對比,驗證了所提方法隱私保護效率得到了大大提高[11]。
為了提高智能電網數據挖掘的效率并提高隱私保護性能,本文提出了采用熵差法對智能電網進行信息挖掘,采用HP濾波正則化方法對電網數據進行隱私保護。
在智能電網中,用戶的隱私主要表現為用電信息及用戶利益,智能電網的隱私維度一般包括以下四點[12-14]。
個人信息。個人信息包括身體,生理,住址,經濟等各個方面,個人具有是否能讓其他人訪問個人信息的權利。
個人。指個人的身體情況,健康情況等。
個人行為。通過個人的活動總結的行為知識。
個人通信。指的是個人的通信受到相應的保護。
在智能電網中,個人信息包含了智能電表采集到的用戶各種用電數據,包括了用電的時間,總量等[15]。電力用戶具有這些數據信息使用情況的知情權。其他維度也會隨著智能電網的數據采集而被采集,但與傳統電網的其他維度信息一致,所以其他維度的信息也存在著安全隱患問題。所以智能電網與傳統電網在數據挖掘上的區別在于智能電網的數據挖掘能夠體現出用戶的行為習慣,且一定要經過用戶允許才能對其進行訪問。
本文提出了基于內在模式和外在模式的熵差異常檢測算法。熵差法借鑒了關鍵詞檢測方法,認為關鍵詞會按照聚簇的形式出現,而普通詞均勻出現。熵差法在電力用戶異常行為中的應用則認為異常用電聚集在某一時間段,而平時為正常用電行為。采用熵差法時,熵值越大則不確定性越大,反之則越小。從統計上來看,聚集的簇和平均分布的組具有各自的分布特性,我們稱之為內在模式和外在模式。內在模式體現了數據聚簇行為,外在模式表示聚簇消失的行為,兩者的差值反映了數據的分布情況。在智能電網中將用戶用電數據按時間戳進行劃分,采用熵差法判別數據的聚類特性來確定異常點[16]。通常認為電力用戶的用電情況是有規律的,當出現聚簇行為時認為是異常用電。求取過程如下所述。
1.數據量化。電力系統中采集上來的電力用戶數據都是以時間為基準進行排列的,為了求取電力系統數的熵差,將數據進行空間劃分,原本按秒為單位的數據劃分成以分、小時為單位的數據。
2.求取熵差。對量化后的數據求取熵差,認為熵差值小的為正常點,熵差值較大的為異常點。假設某用電等級出現的位置為xi,求取過程表示為,假設平均距離為μ,則內部熵和外部熵表示如式(1)~式(3)。
dI={di|di<μ}
(1)
dE={di|di>μ}
(2)
S=v∩λ
di=xi+1-xi
(3)
求取同一等級用電量前后距離d,其內外熵表示如式(4)。
內部熵:
(4)
其中,Pd是d在dI發生的可能性,如式(5)。
外部熵:
(5)
其中,Pd是d在dE發生的可能性。
內部熵與外部熵的差值記作,如式(6)。
EDq(d)=(H(dI))q-(H(dE))q
(6)
對于日常非異常的用電等級,則其值均勻分布且滿足如下條件,如式(7)。
P(d)=p(1-p)d-1
(7)
其中,p是用電等級出現的概率。對于服從幾何分布的用電等級,熵差記為式(8)。
(8)
為了使均勻分布的用電等級得到穩定的熵,采用式(9)。
(9)
然后求取小時,分,秒的熵差異常點。并將不同等級的熵差結果進行排序,熵差值越大認為該點越有可能為異常值。
對電力用戶數據進行數據挖掘之前,要保證用戶的隱私信息不被泄露,也不能改變數據的性質。本文采用濾波器加正則的方法進行數據隱私保護。
HP(High-Pass, HP)是基于時間序列的譜分析方法。將時間序列分成變化趨勢分量τt和循環分量ct[17],如式(10)。
yt=τt+ct,t=1,2,…,T
(10)
采用最小化原理,將ct從yt中隔離,如式(11)。
(11)
其中,λ為懲罰參數。為方便求解,將HP濾波問題表示為式(12)。
(12)
M分別對x1,x2,…,xn求導,令導數為0,表示如式(13)。
X=[I+λF]-1Y
(13)
其中,I為單位矩陣,X為平滑后的數據,F表示為式(14)。

(14)
目標問題表示為式(15)。
(15)

S={x|?i,g(i)(x)=0 and ?j,h(i)(x)≤0}
(16)
g(i)(x)是等式約束,h(i)(x)為不等式約束。對式(16)采用拉格朗日方法,求取目標函數f(x,y)與約束函數g(x,y)相切的點,如式(17)。
(17)
構造廣義拉格朗日函數,λ和a為固定值,如式(18)。

(18)
式(16)一定存在x使h(j)(x)<0。式(16)對所有待求項進行求導,導數為0則為正則化成立條件。
在HP濾波的基礎上,引入正則化約束,建模過程如下所述。
1.將智能電網隱私保護問題轉化為最小化問題,如式(19)。
(19)
2.KKT求解時要求矩陣正定,式(19)重寫為式(20)。
(20)
K+F為正定矩陣。
3.用于電力用戶的用電特征較少,認為用戶行為是主要特征。用戶的用電特征主要體現在,用電高峰,低谷。正則項約束的是用電數據的相似性,參數M為兩天用電數據的距離,如式(21)。
(21)
X和Xt-1是第t天用電數據與第t-1天用電數據。
4.求解M與單位矩陣I的距離,距離越小則越相似,如式(22)。
(22)
則最終優化目標表示為式(23)。

s.t.X≥0,M≥0
(23)
令Q=I+λ(F+K),則有式(24)、式(25)。
(24)
(25)
a,β是正則參數,當迭代的X收斂認為是隱私保護后的用電量。
為了驗證本文所提的數據挖掘與隱私保護方法的可靠性,采用算例仿真,對其進行性能驗證。實驗環境如表1所示。

表1 實驗環境
用于測試的智能電網數據集采集于某電力公司,包含電流電壓等信息。用電數據主要為總體用電及用電器用電情況。
在對隱私數據進行挖掘時,還沒有統一的評判標準,設數據集S,敏感數據為v,非敏感數據為λ,S=v∩λ。隱私測量指標定義為,當只給λ時,能夠測量到隱私的可能性。分別采用標準差法,Z-Score C法,密度波動法對電網數據等級進行異常點挖掘并排序對比。選用不同的λ值,驗證其對電網數據隱私保護的性質。
根據以上的設計方法,分別計算四種方法的隱私得分,并進行量化處理,如圖1所示。
由于電網數據集較多且數據中包含著異常點和非異常點。本文提取第20 000-40 000的數據,分別求取λ在不同值時的實驗結果,如圖2-圖7所示。

圖1 隱私保護對比實驗

圖2 原始數據

圖3 λ=0.01的實驗結果

圖4 λ=0.05的實驗結果

圖5 λ=0.1的實驗結果

圖6 λ=0.5的實驗結果

圖7 λ=1的實驗結果
通過圖1的隱私保護對比實驗可以看出,熵差法在檢測異常用電行為時,相比于標準差法,Z-Score C法和密度波動法均表現出了優勢。在對某電網數據進行測試時,熵差法比標準差法提升了6.4,比Z-Score C提升了6.34,比密度波動法提升了1.06。當在電網數據隱私挖掘中找到的隱私數據越多,則越能為電網數據的隱私保護提供更高的保護,表明本文提出的熵差法在隱私保護中具有一定的優勢。由圖2-7所示可知,當λ取值在[0.5,1]的時候,能夠更好的實現數據的保護功能,既能保護數據特征,又能實現與原始數據有很大的差異。
本文提出了基于熵差法的智能電網數據挖掘方法及基于HP濾波正則化的隱私保護方法,對其數學模型進行了解析。通過熵差法的數據挖掘實驗仿真,驗證了熵差法比準差法,Z-Score C法,密度波動法具有更好的隱私挖掘效果,能夠更好的識別隱私數據,為保障電網數據的隱私性提供了技術支持。采用HP濾波正則化方法對電網數據進行隱私保護,當選擇合適的參數后,能夠實現保證電網數據特征的前提下對電網數據進行隱私保護。實驗驗證了本文所提方法的可靠性及實用性。