




摘 要:針對數據挖掘分類和響應特征分析存在的難度。提出利用支持向量機算法改進時間序列算法,以提高數據自動化挖掘能力,利用分段聚合近似方法用于降低預處理電力系統負載數據的維數。實驗結果表明,當數據樣本數量為5 000時,標準偏 差(σ)內0.25準確性達到最高0.98;測試集數據組的平均數據挖掘誤差為7.2%,訓練集數據組的平均數據挖掘誤差分別為13.81%和13.55%。當迭代次數為10次時,改進時間序列算法精度為0.68,較深度學習算法與神經網絡算法分別提高17.8%,8.46%。在迭代次數為100次時,深度學習算法與改進時間序列算法的挖掘精度均為1.0,神經網絡算法精度為0.96;改進時間序列算法具有較高的數據挖掘精度。
關鍵詞:時間序列;支持向量機;電力系統;準確性;精度
中圖分類號:TP311;TM714"""""""""""""""""""""""" 文獻標識碼:A""""""""""""""""""" 文章編號:1001-5922(2024)07-0193-04
Simulation of automatic power load processing system
based on data mining technology
FANG Juan, PENG Jianing
(State Grid Ningxia Electric Power Co.,LTD.,Yinchuan 640001, China)
Abstract: In view of the difficulty of data mining classification and response feature analysis, the support vector machine algorithm was proposed to improve the time series algorithm to optimize the ability of automatic data mining, and the segmented aggregation approximation method was used to reduce the dimensionality of preprocessing power system load data. The experimental results indicated that when the number of data samples was 5 000, σ= 0.25 accuracy reached a maximum of 0.98. The average data mining error of the test set dataset was 7.2%, while the average data mining error of the training set dataset was 13.81% and 13.55%, respectively. When the number of iterations was 100, the mining accuracy of the deep learning algorithm and the improved time series algorithm was 1, while the accuracy of the neural network algorithm was 0.96, and the improved time series algorithm has a high data mining accuracy.
Key words: time series;support vector machine;power system;accuracy;accuracy
隨著智能電表的大規模推廣應用和電網精益化管理帶來的用電數據爆炸式增長,對電力用戶的用電負荷數據自動化挖掘及準確分類已成為電網企業的一項重要任務[1]。當對不平衡數據集建立分類模型時,錯誤分類較少類型數據的成本比錯誤分類多類數據的成本更高,因此傳統的分類方法不適用于電力系統用電負荷數據挖掘[2?3]。因此需要提出新的方法用于挖掘電力系統用電負荷數據。提出基于海量網絡訪問時間分布式提取的特征數據挖掘算法,并通過多層自回歸向量分析對數據進行改進[4]。通過構建數據搜索引擎,實現文本特征提取,并通過嚴格的語義匹配提高語義匹配精度,以提高挖掘的收斂能力[5]。但該算法存在的問題是當數據屬性分類效率不明顯或近似網絡干擾數據較大時,數據挖掘的準確性受到限制,且該算法收斂性差,計算復雜[6]。此外,在電力系統大數據環境下,通常會造成冗余數據的干擾。導致用電負荷數據挖掘和訪問中出現數據偏移和誤差,降低數據的準確挖掘[7]。而時間序列算法可以利用時間模式和依賴關系,構建從多變量時間序列協變量到標量響應變量的映射,具有良好的準確性和泛化性,可以按照時間序列自動化挖掘數據[8]。傳統的時間序列算法適用于離線學習。當有機器學習場景在線上時,數據會越來越多[9]。對于時間序列數據來說,這類數據會隨著時間的推移而增加。為了解決傳統增量時間序列數據算法的不足,提出時間序列算法,并利用支持向量機,改進時間序列算法,以提高數據挖掘效率。
1"" 時間序列算法的數據挖掘技術
1.1"" 時間序列算法
假設X表示具有m個變量的時間序列,其長度為n[10]。表明時間序列可以被寫成Xn×m,并且帶有m個變量的n個觀測值,根據時間順序,假定電力系統用電負荷數據包含了整個時間序列[11]。設S表示一個長度為m的向量的正交矩陣。時間序列算法的目標是通過等式的線性變換將Xn×m投影到一個新的空間Sm×m上,如式(1)所示:
[Yn×m=Xn×mSm×m]""""""""""""""""""" (1)
式中:Y是X在新空間S中的表示;Y的性質依賴于正交矩陣S。進一步表明新空間S描述觀測結果越好,特征就越明顯[12]。實際上,時間序列是原始變量和系數的線性變換。為了構造時間序列系數(或新空間),時間序列算法通常使用奇異值分解(SVD)到MTS X的協方差矩陣。如果表示MTS X的協方差矩陣,則可以用下式計算:
[=cov(x)=E(X-EX)(X-EX)T]"""" (2)
根據支持向量值的性質,當一個協方差矩陣被忽略時,可以用支持向量值分解,則有[13]:
[=UΛUT]"""""""""""""""""""""""""""""" (3)
矩陣[U]可以用來表示新的空間S,并包含每個主分量的變量負荷。同時,矩陣Λ的對角線元素是相應的方差[14]。方差越大,數據投射到相應向量上的信息就越多。
然而,根據式(5)的計算,Y在維數上仍然等于X,所以X的維數沒有降低。事實上,Y的維數取決于空間S的大小(即S = [U])。因此需要通過PCA選取一個新的空間坐標系統來描述MTS X的觀測結果[15]。新系統通常由[k]個S的正交列向量組成,即[S(1]∶[k)m×k]。因此,方程可以變成:
[Yn×k=Xn×mSk×m]""""""""""""""""""""""" (4)
1.2""" 改進時間序列算法
支持向量機分類法是一種快速、有效、實用的統計分類方法,利用支持向量理論理論構建分類過程[16]。首先,用支持向量方法計算時間序列算法的先驗概率和后驗概率:
[P(DA)P(AD)P(D)P(A)]"""""""""""""""""""" (5)
式中":[P(D)]是先驗概率;P(A|D)是滿足條件"D"時可以觀察到的條件概率;[P(DA)]是在條件"A"下假定"D"為真的后驗概率。根據支持向量概率定義,后驗概率[P(DA)]隨先驗概率和條件概率的變化,將變量或條件A、D視為獨立數據或函數相關數據,然后使用先驗概率和條件概率預測后驗概率,從而完成數據的分類[17]。
上述支持向量分類方法適用于離散隨機變量或離散數據特征集。對于連續隨機變量或數據特征集,可以假設隨機變量服從高斯分布,利用高斯分布的連續函數來完成后驗概率計算:
[P(DA)=g(D,μA,σA)=12πσA×e(D-μA)22σ2A]" (6)
式中:[g(D,μA,σA)]屬于連續函數的高斯函數;數據特征集的貝葉斯分類可以通過均值μA和方差σA來完成。
如果將全部的采樣歸到相同的分類中,就會出現“過配”的情況。此時,有必要對劃分之前的各結點的差值進行指數的運算并劃分一個閥值。如果差異超過臨界值,就可以進行下一步的分割。在式(3)中表示該差異的計算方法:
[nA=max(ni),n=ini]"""""""""""""""" (7)
假定要對[n]個結點進行分區,并且要對第[i]類進行分區的數據有[n]個,從上面的方程式中,能夠算出最有可能的類別[nA],并能夠將目前節點間的差異進行計算:
[DIF=1-nAn]"""""""""""""""""""""""""" (8)
1.3"" 數據預處理
對于任何數據挖掘方法來說,數據預處理是必要的一步。在本文中,將電力系統用電負荷數據[x(t)]的平均值([μ])的3個標準差以外的點視為離群點并將其刪除。然后使用Z分數對用電負荷數據進行歸一化處理,使其均值近似為0,然后再將其轉換為支持向量表示法[18]。這一步驟的主要目的是消除某些粗略影響因素的影響,以便更好地挖掘電力系統用電負荷數據。
假設原始電力系統用電負荷數據為[X={x1 , … , xn}],首先剔除原始用電負荷數據中的異常值,然后將處理后的數據轉換為[X={x1 , … , xn}],均值為0:
[xi=xi-μσ,i=1,2…,n]"""""""""""""" (9)
式中:[xi]和[xi]分別為第[i]時刻的實際負荷數據和Z-score歸一化負荷數據;[n]為一天中的負荷采樣點數;μ和σ分別代表負荷數據的平均值和標準偏差。
分段聚合近似(PAA)方法用于降低預處理負載數據的維數[19]。該方法具有直觀、快速、準確的特點,能較好地反映出時間序列的總體趨勢。PAA是對時間序列數據進行描述的一種方法。
首先,將Z-score歸一化數據X′分成[w]個等長子序列。然后將每個子序列的平均值作為數據降維值的表示[20]。對Z-score歸一化數據X′進行PAA 降維處理,可得到電力系統用電負荷數據的PAA表示方法[X=x1,…xw]。其中[X]的第[i]個元素按下式計算:
[x1=wn×j=nw(i+1)+1nwx2j]""""""""""""""""""" (10)
式中:[w]是PAA 的維數; [xi]是PAA表示的電力系統用電負荷數據值。
2"" 結果與討論
2.1"" 數據集
為了檢驗改進時間序列算法在電力系統的應用性能,進行仿真實驗。仿真實驗基于Matlab平臺進行。計算機仿真實驗平臺配置為英特爾,酷睿i5處理器,主頻為2.8 GHz/4 G內存,Windows 10專業版32位SP2操作系統。測試數據為電力系統用電負荷數據庫。采用CWT200G數據組合模式,啟動簽證資源管理器進行自動化數據加載,共獲得約2 000條用電負荷數據信息。采集的數據垂直精度為16位。假設數據挖掘中的干擾強度為-15 dB高斯彩色噪聲,將海量數據分為訓練集1和2和測試集。模擬數據集由大小為25.2 MB的2個分區組成。
2.2"" 不同數據樣本上的準確性
為了驗證所提出的改進時間序列算法數據挖掘準確性,設定不同標準偏差σ(0.25、0.35、0.45),以尋求合適的用電負荷數據采集樣本數量,并在測試集數據集上進行實驗。圖1為不同采集數據樣本數量的準確性。
由圖1可知,所提出的改進時間序列算法的準確性隨數據樣本數量而增加,不同標準偏差下的算法準確性均呈非線性增加。當數據樣本小于3 000時,標準偏差為0.35與0.45時的改進時間序列算法準確性變化幅度較為相似;而當數據樣本數量相同時,標準偏差為0.25的準確性均大于標準偏差0.35與0.45。當數據樣本數量大于3 000時,不同標準偏差的準確性呈現出σ0.25gt;σ0.45gt;σ0.35。當標準偏差為0.25時,利用改進時間序列算法對用電負荷數據進行歸一化處理,使其均值近似為0,然后再將其轉換為支持向量表示法,可以消除某些粗略影響因素的影響,以便更好地挖掘電力系統用電負荷數據。當數據樣本數量為5 000時,σ=0.25準確性達到最高0.98。因此,在所有后續實驗中,對于使用電力系統用電負荷數據集的實驗,數據量采樣設置為5 000,可以減少電力系統的時間權重和相鄰數據的影響,從而提高數據挖掘性能。
2.3"" 數據挖掘誤差
由于電力系統用電負荷數據復雜,數據量大,數據類型多,給自動化數據特征挖掘帶來了巨大的挖掘難度,因此本文對測試集數據及訓練集數據1、訓練集數據2進行仿真模擬實驗,計算數據特征挖掘誤差,實驗結果如表1所示。
由表1可知,在迭代600~1 000 次的過程中,3個數據組的挖掘誤差逐漸趨于穩定,在迭代次數大于800時,誤差變化均小于4%。測試集數據組的平均數據挖掘誤差為3.94%,訓練集數據組的平均數據挖掘誤差分別為6.61%和7.37%。在電力系統測試環境中,測試集數據組的平均數據挖掘誤差比訓練集數據1低2.67%,比訓練集數據2低3.43%。根據以上測試結果可以看出,所提出的改進時間序列的自動化挖掘數據方法,最小數據挖掘誤差為2.15%,平均數據挖掘誤差為5.98%,且測試集數據組的數據挖掘誤差優于訓練集數據1及訓練集數據2。
2.4"" 電力系統用電負荷數據挖掘精度
為了保證測試的客觀性,分別測試神經網絡算法和深度學習算法與本文所提出的改進時間序列算法的數據挖掘精度。比較結果如圖2所示。
由圖2可知,所提的方法對電力系統用電負荷數據挖掘具有較高的精度。當迭代次數為50時,改進時間序列算法的挖掘精度為100%。而深度學習算法與神經網絡算法的挖掘精度分別為0.90、0.83,改進時間序列算法的挖掘精度遠高于深度學習算法和神經網絡算法。當迭代次數為10次時,改進時間序列算法精度為0.68,較深度學習算法與神經網絡算法分別提高17.8%,8.46%。在迭代次數為100次時,深度學習算法與改進時間序列算法的挖掘精度為100%,而神經網絡算法精度為0.96,改進時間序列算法平均精度最高。因此,采用改進時間序列算法將更好地應對自動化挖掘電力系統用電負荷數據的復雜場景。
3"" 結語
為進一步提高自動化挖掘電力系統用電負荷數據性能,利用改進時間序列算法對數據進行挖掘。迭代次數為50時,挖掘精度為100%。與改進時間序列算法相比,當迭代次數為100時,挖掘精度達到最高。當數據樣本數量為5 000時,σ=0.25準確性達到最高0.98。在電力系統測試環境中,測試集數據組的數據挖掘誤差比訓練集數據組1低6.61%,比訓練集數據組2低6.35%。仿真結果表明,基于改進時間序列算法數據挖掘方法具有較高的挖掘精度和準確率,可以滿足電力系統實際用電負荷數據挖掘應用。
【參考文獻】
[1]""" 冉博路,張姝,黃河,等.基于二次聚類的工業用戶負荷可調節潛力特征提取與綜合評估方法[J].電力系統保護與控制,2023,51(18):157?168.
[2]""" 李想,鮑海波.基于改進Adaboost-BP算法的用電行為大數據分析[J].廣西電力,2022,45(5):1?6.
[3]""" 王鑫根.基于數據挖掘技術的企業審計模型構建及算法優化[J].粘接,2023,50(4):187?191.
[4]""" 唐利濤,張智勇,陳俊,等.基于Autoformer的電力負荷預測與分析研究[J].華東師范大學學報(自然科學版),2023(5):135?146.
[5]""" 易庚,何琳,劉錦明,等.基于遷移學習算法的電力數據挖掘模型[J].沈陽工業大學學報,2023,45(5):510?515.
[6]""" 程鵬.基于三維虛擬現實技術的電力數據可視化分析[J].電氣自動化,2021,43(5):1?3.
[7]""" 董亮,闞新生,鄧國如,等.短期電力負荷預測的時間序列數據深度挖掘模型設計[J].能源與環保,2021,43(6):10?26
[8]""" 彭勃,李作紅,李猛,等.基于近鄰傳播算法的電力用戶負荷曲線聚類分析[J].機電工程技術,2019,48(4):183?186.
[9]""" 孫芊,馬建偉,李強,等.面向智慧城市的電力數據挖掘多場景應用[J].電力系統及其自動化學報,2018,30(8):119?125.
[10]""" 于連城,張譯,張廣德,等.基于canopy?k?means算法的" 電網數據挖掘算法的研究[J].國外電子測量技術," 2018,37(7):35?39.
[11]""" 王宣軍,于虹,祁兵,等.基于注意力機制的混合神經網" 絡電力設備缺陷文本挖掘方法[J].電力信息與通信" 技術,2023,21(9):44?51.
[12]""" 陳澤,鄔桐,左曉軍,等.基于知識圖譜的電力網絡安全" 漏洞挖掘系統設計[J].制造業自動化,2023,45(7):100?105.
[13]""" 上官霞,張航.基于數據潛在規律挖掘的用戶側竊電" 智能監測技術優化[J].粘接,2023,50(7):150?154.
[14]""" 王勇,裘建開,嚴鈺君,等.基于弱監督學習的電力信息" 動態漏洞挖掘系統[J].電子設計工程,2023,31(13):41?63
[15]""" 劉穎.大數據時代人工智能在計算機網絡技術中的應" 用[J].粘接,2020,43(7):180?183.
[16]""" 胡學強.基于大數據挖掘的電力客服中臺數據智能整" 合方法[J].自動化技術與應用,2023,42(3):117?121.
[17]""" 高宇豆,保富,黃祖源,等.基于數據挖掘的節約電力潛" 力用戶智能識別方法[J].電子設計工程,2022,30(22):" 117?120.
[18]""" 牛任愷,張鑫磊,王玉君,等.基于數據挖掘的電力營銷" 稽查業務監管系統[J].吉林大學學報(信息科學版)," 2022,40(1):127?131
[19]""" 吳季樺,朱鵬宇,吳子辰,等.基于無監督聚類和頻繁子" 圖挖掘的電力通信網缺陷診斷與自動派單[J].電信" 科學,2021,37(11):51?63.
[20]""" 王姣,馬靜雅,谷豐強,等.基于關聯規則的數據挖掘的" 研究與應用[J].粘接,2020,41(5):95?98.