劉豐碩,劉然,董子慧
(內蒙古電力(集團)有限責任公司電力營銷服務與運營管理分公司電能計量中心,內蒙古呼和浩特 010010)
k-means 聚類算法是一種迭代求解型的聚類分析方法,在處理過程中,首先將所有數據分為k個組別,然后隨機選取k個對象作為初始聚類操作的賦值中心,最后計算各個對象到其賦值中心之間的物理距離,并順帶將每個對象分配至距其最近的聚類中心之中[1-2]。一般來說,聚類中心分配給它們的數據對象就代表一個完整的聚類組織。在實施分配操作時,每增加一個新的分配樣本,聚類中心都會根據現有對象的存儲水平對其進行重新計算,在此過程中,聚類計算的操作將會不斷重復,直至完全滿足某個聚類賦值中心的數值終止條件。
電能量采集設備故障會導致所得電量數據信息出現明顯的缺失情況,這也是導致異常數據出現的主要原因。所謂異常數據是指不符合電量預期行為的運行數據參量,在智能電網環境中,異常數據的傳輸行為越明顯,智能電表中顯示數據與常規電量數據之間的補償誤差水平也就越高。傳統回歸分析型檢測方法根據常規電表電量數據與異常測量數據之間的相對距離水平,確定電表主機對于電量截斷信號的依賴程度,再以此為基礎,突出異常點數據與檢測中心點數據之間聯系的緊密性[3]。然而該方法測定出的誤差百分比數值水平較高,并不能有效控制常規電表電量數據與異常測量數據之間的補償誤差水平。為應對上述問題,提出基于k-means 聚類的智能電表異常動態數據檢測方法。
由于智能電表異常動態數據檢測是對常規負荷數據與異常負荷數據之間補償誤差水平的研究,所以在計算過程中,應對個別信息參量進行初步剔除,也就是對電量負荷異常數據的預處理[4-5]。因此,為了加快k-means 聚類算法的收斂運算速度,在進行電量負荷異常數據的預處理之前,需要對數據信息樣本進行歸一化處理。具體運算公式如下:
其中,ymax表示電量負荷異常數據歸一化后變量的最大值,ymin表示變量的最小值,在異常數據預處理運算過程中,分別取值為1 和0。p為待歸一化的電量負荷異常數據原始變量,pmax代表待歸一化電量負荷異常數據變量的最大值,pmin代表待歸一化變量的最小值。完成電量負荷異常數據預處理后,可將各類變量作為后續檢測處理的初始特征數據。
由于k-means 聚類算法的存在,智能電表異常數據的動態傳輸行為并不能完全表現出來,因此在預處理原則的支持下,需要根據數據樣本的檢測權限值系數,確定密度偏差值的實際數值水平[6-7]。對于一個數據分組而言,為保障異常電量負荷信息與常規電量負荷信息被抽取到的概率相同,應使密度偏差值的分布特征與原始數據集合的分布特征保持一致。而對于異常動態數據的檢測條件而言,為使密度偏差值計算結果更加貼合實際運算需求,應將智能電表異常數據集合中的樣本期望結果保持在最大值狀態[8-9]。設I表示與智能電表異常數據匹配的檢測權限值系數,h代表電量負荷信息的被抽取概率值,e表示異常數據的動態傳輸系數,聯立公式(1),可將密度偏差值計算結果表示為:
式中,λ表示異常電量負荷信息的分布系數,we代表傳輸系數為e時的異常數據分組向量,wmin代表分組向量的最小值,f代表智能電表異常數據的初始密度條件。若異常數據集合中不存在明顯的參量轉折點,則可認為密度偏差值指標能夠直接影響異常數據的動態檢測結果。
由于智能電表異常數據集中信息節點越密集的地方,k-means 聚類函數的原始數值越大,因此為獲得較為準確的數據信息檢測結果,應確保聚類k值與數據密集區域中心的信息參量值十分接近。為縮小常規電表電量數據與異常測量數據之間的補償誤差水平,可以選擇密度偏差值最大的數據點作為kmeans 聚類函數的初始迭代中心[10-11]。另外,可以通過設置聚類k值的方式,將電表異常數據與常規數據之間的半徑閾值歸并到一個類別之中。對比多個半徑閾值之間的數值參量差,就可確定一個標準的聚類k值,當數據集總量相對較大時,可以對密度偏差值進行歸一化處理,從而實現對數據信息參量檢測結果的動態求解。設δ、σ代表兩個不同的異常數據動態聚類條件,聯立式(2),可將聚類k值計算結果表示為:
式中,β表示智能電表異常數據的動態檢測系數,j代表異常數據參量的初始設定值。由于待處理的數據樣本相對較大,所以聚類k值的設置應考慮以常規電表電量數據與異常測量數據之間的補償誤差為基礎。
在k-means 聚類算法的支持下,按照電表數據異常值設定、異常數據清洗、動態檢測特征值計算的處理流程,實現智能電表異常動態數據檢測方法的順利應用。
異常值就是智能電表數據集中明確存在但又不符合動態集群規則的數據點,也叫電表數據的離群值。若某一數據值在兩個集合中均保持相同的離群規律,且每個集合中的其他數據點都不符合該規律,則可認定該數據點為電表數據的異常值[12-13]。智能電表異常數據在不同時間序列上的表現情況完全不同,且隨著電表負荷能力的增強,數據參量之間聯系的緊密性也會不斷增強,這也是異常測量數據會對常規電表電量數據補償誤差能力造成直接影響的主要原因。設r表示智能電表異常數據的離群系數,gr代表離群系數為r時的電表負荷能力數值,代表電表負荷能力均值。電表異常值表示為:
綜上所述,采用瑞替普酶治療急性心肌梗死冠狀動脈再通率效果更佳,再通時間早、方便給藥、藥物作用時間長,臨床效果好,是治療急性心肌梗死的較理想的溶栓藥物。
由于智能電表數據的選取隨機性較強,所以在實施異常值設定時,應將電表結構的所有負荷行為全部考慮在內。
異常數據清洗是實現動態數據檢測的關鍵操作步驟,從智能電表中采集到的原始數據不能直接用來進行檢測與分析。原始數據中往往存在著大量污染參量,如電信息缺失、電負荷數據格式不一致等,且引發這些問題的原因并不唯一[14]。但對于k-means 聚類算法而言,為保證檢測結果的準確性,應將所獲信息參量中的常規數據與異常數據進行全部選取處理,前者用于驗證電表數據異常值設定結果的時效性,后者則直接用來完成異常數據清洗[15]。設N1、N2代表兩個不同的電表異常數據傳輸特征向量,ξ代表與智能電表數據相關的異常量化差系數,α代表污染源系數,聯立公式(4),可將異常數據清洗表達式定義為:
一般來說,完成清洗后的智能電表異常數據始終保持相對密集的分布態勢。
動態檢測特征值決定了智能電表異常動態數據檢測方法的實際應用能力,在k-means 聚類算法的作用下,該項指標參量的數值水平越大,單位時間內異常用電負荷數據的累積量也就越大[16]。假設在一個檢測周期內,c和v代表兩個不同的k系數聚類條件,且由于電表示數結果的多變性,c≠v關系恒成立。在已知異常數據清洗原則的情況下,動態檢測特征值計算基本等同于異常數據檢測運算強度的統計。規定在k系數聚類條件為c時,電表異常數據的傳輸特征量可以達到vc,在k系數聚類條件為v時,電表異常數據的傳輸特征量可以達到vv,聯立式(5),可將動態檢測特征值表示為:
動態檢測特征值可在已知異常數據清洗原則的情況下,對電表異常信息進行深度檢測處理,該項物理指標的存在,也使得縮小常規電表電量數據與異常測量數據之間的補償誤差水平成為可能。
為了驗證基于k-means 聚類的智能電表異常動態數據檢測方法的有效性,進行對比實驗。實驗電路圖如圖1 所示。

圖1 實驗電路圖
首先采用基于k-means 聚類的智能電表異常動態數據檢測方法對實驗電路進行控制,所得示數參量作為實驗組數據;然后采用回歸分析型檢測方法對實驗電路進行控制,所得示數參量作為對照組數據;最后對比實驗組、對照組檢測數據。
在電網環境中,由于異常負荷數據信息的存在,智能電表的顯示數據極易與實際數值出現較大誤差。常規電表電量數據、異常測量數據之間的顯示數值差可表示為補償誤差,一般來說,補償誤差水平越高,常規電表電量數據、異常測量數據之間的顯示數值差也就越大,反之則越小。
在50 min 的實驗時間內,對比實驗組、對照組電量負荷與常規電量負荷數值。電量負荷對比曲線如圖2 所示。

圖2 電量負荷對比曲線圖
分析圖2 可知,常規電量負荷數值在實驗過程中始終保持上升、下降交替出現的變化情況,整個實驗過程中的最大數值為709 kW、最小值為398 kW。實驗組電量負荷數值在實驗過程中的變化趨勢基本與常規電量負荷保持一致,整個實驗過程中的最大數值為651 kW、最小值為303 kW,與常規電量負荷極限數值之間的物理差值水平相對較低。對照組電量負荷數值在實驗過程中的變化形式則相對較為單一,整個實驗過程中的最大值為784 kW、最小值為63 kW,與常規電量負荷極限數值之間的物理差值水平遠高于實驗組。
在50 min 的實驗時間內,對比實驗組、對照組電量負荷值與常規電表電量數據之間的補償誤差百分比數值情況。補償誤差百分比統計如表1 所示。
分析表1 可知,第50 min 時,實驗組補償誤差百分比達到最大數值23.9%,整個實驗過程中的平均值水平僅為7.8%。第35 min 時,對照組補償誤差百分比達到最大數值86.8%,整個實驗過程中的平均值為41.5%,遠高于實驗組。

表1 補償誤差百分比統計表
綜合上述實驗研究結果可知,應用基于k-means聚類的檢測方法,能夠縮小電表異常顯示數據與常規顯示數據之間的物理差值水平,這對于縮小測量數據的補償誤差水平起到一定的促進性作用。
在k-means 聚類算法的作用下,新型智能電表異常動態數據檢測方法在回歸分析型檢測方法的基礎上[17-19],對異常電量數據的特征值進行了預處理,通過聚類k值的約束作用,完成對異常數據的初步清洗,再根據已知的電表數據異常值設定結果,實現對動態檢測特征值的準確計算。分析對比實驗結果可知,k-means 聚類型檢測方法與回歸分析型檢測方法相比,能夠有效控制異常電量負荷數據的顯示情況,從而為縮小常規電表電量數據與異常測量數據之間的補償誤差水平提供保障。