楊文生,葉寶玉,周文奇,師瀟然,宦曉超
(1.內蒙古電力經濟技術研究院,內蒙古 呼和浩特 010090;2.內蒙古電力(集團)有限責任公司,內蒙古呼和浩特 010090)
近年來,隨著大數據、云計算等技術的發展,數據分析模型在電力工程數據的應用中發揮著重要作用。通過對電力工程數據采用聚類、分類、回歸等模型進行處理,可以有效提取其中蘊含的各類信息,從而結合電力工程建設的實際個性化特點,實現對其造價分析[1]、評審、控制[2]、建設監督[3]等方面的一系列應用,為電力工程建設提供科學的數據依據與客觀的評價標準,提高工程效益,促進精益化、集約化管理。
在電力工程的一系列數據分析模型中,聚類分析是一項重要而基礎的模型[4]。基于聚類模型,可以對大量數據的潛在規律進行挖掘,或從無規律的原始數據中提取信息,為進一步的數據分析提供基礎。為了構建有效的電力工程數據聚類模型,文獻[5]采用粒子群算法對聚類模型的數據噪聲處理能力進行提升,提高模型的擬合精度;為解決聚類過程中的數據缺失問題,文獻[6]提出了基于密度聚類算法的數據模型,提高了針對數據完整度較低情況下的聚類處理能力;文獻[7]提出了基于DBSCAN 聚類算法的數據分析模型,實現對缺失數據的快速查找與形態分析。
然而隨著數據采集技術的發展,數據采集范圍不斷擴展,電力工程數據的維度也隨之提高[8],導致數據集的規模日趨龐大[9]。傳統聚類模型受“維數災難”問題的影響,難以實現高維電力工程數據的有效分析處理。為此,基于深度神經網絡技術提出了一種電力工程數據聚類模型。該模型應用深度受限玻爾茲曼機神經網絡,將原始的高維電力工程數據映射到低維空間,在保留原始數據信息的同時,有效提高了聚類模型的處理能力。
電力工程數據的聚類是指按照電力工程數據集合中每條數據的特征,例如電力工程的電壓等級、容量、建設面積、地理信息等維度的信息,將具備相近特征的數據劃分為一個集合的過程。給定一個電力工程數據集X,其包含n條數據,通過設計合理的聚類模型,對輸入輸出進行計算,將X劃分為c個子集合,使相同子集合的數據包含相近的特征[10]。
為解決高維電力工程數據的聚類問題,該文利用深度神經網絡技術設計了一種電力工程數據聚類模型,該模型的主要步驟如下:
1)數據預處理:對高維電力工程數據進行預處理,對于非數字化特征,通過規則轉化為數字化特征,并將所有的特征轉化到[0,1]范圍內,從而實現數據的標準化與歸一化;
2)深度神經網絡計算:應用深度受限玻爾茲曼機神經網絡進行無監督學習,從而將原始高維的電力工程數據特征轉化為低維數據特征;
3)模糊聚類:在轉化后的低維數據集上,應用模糊聚類算法對數據集進行迭代計算,從而得到新數據集上的聚類結果;
4)輸出聚類結果:因為在應用深度神經網絡的過程中,數據樣本未發生變化,因此根據在低維空間上得到的聚類結果,即可直接得到原始數據的聚類結果。模型的流程圖,如圖1 所示。
為解決高維電力工程數據聚類過程中面臨的“維數災難”問題,需要對高維數據進行降維處理。在降維過程中,需要盡可能多地保留原始數據中包含的信息。因此需要在降維時對數據進行非線性轉化,通過非線性映射保留數據中的原始信息,并轉化為低維數據。
為滿足以上要求,在建立聚類模型的過程中,使用深度受限玻爾茲曼機神經網絡對原始數據進行無監督學習,從而將原始高維數據轉化為低維數據。
深度受限玻爾茲曼機[11]是一種基于隨機理論的深度神經網絡,由多層受限玻爾茲曼機構成。通過增加神經網絡的層數,使神經網絡中包含了大量的神經單元、參數,從而可以用來近似表達任意的復雜非線性映射,通過對數據集的學習來記憶這一映射關系[12]。
深度受限玻爾茲曼機在訓練的過程中,需要進行數據的輸入和輸出運算,才能得到高維數據與低維數據的映射關系。為此,在建立模型的過程中,需要構建神經網絡優化的目標函數進行迭代學習和優化。目標函數優化的過程中,達到高維數據與低維數據之間的結構和關系盡可能相似的目的。為此,引入條件概率的概念,通過對高維數據和低維數據條件概率的計算,對數據之間的結構和關系進行衡量。從而在高維數據和低維數據的非線性轉換過程中,保持原始數據中的信息。
在引入條件概率進行的計算時,為了測量各個數據之間的相似性,使用高斯分布來進行測量。通過高斯分布的計算,數據之間的歐式距離轉換成為了概率分布。兩個數據樣本之間的條件概率可以通過式(1)計算得到:
其中,||·||為數據之間的歐式距離,σ為標準差。
通過以上由高斯分布計算得到的條件概率可知,經過高維數據和低維數據的非線性轉換后,原本在高維數據中相似的數據之間,轉化為低維數據后其相互之間的距離也應該更近;而原本在高維數據中不相似的數據之間,轉化為低維數據后其相互之間的距離也應該較大。此時,原始數據中的信息得到了保留。
深度受限玻爾茲曼機在訓練的過程中,以高維數據與低維數據之間的相似程度最大為訓練目標,不斷進行迭代學習。通過大量的神經單元和參數實現了復雜的非線性映射,從而將原始高維數據轉化為低維數據并保留數據中的信息。
深度神經網絡的訓練流程圖,如圖2 所示。
經過深度神經網絡的非線性映射,實現了原始高維數據到低維數據的轉化,并保留數據中的信息。在低維數據中應用模糊聚類算法,可以得到有效的聚類結果。
模糊聚類算法是一種應用廣泛的迭代計算數據聚類算法[13]。在該算法中,引入了模糊理論中的隸屬度函數,從而使得一個數據樣本可以同時從屬于幾個不同的聚類,并通過隸屬度對屬于各個聚類的程度進行衡量[14]。與K 均值聚類算法相比,模糊聚類算法通過引入隸屬度函數,將聚類迭代計算過程中的目標函數和約束條件的取值范圍轉變為連續數值。從而簡化了迭代計算的過程,使聚類的總體流程更加簡便、快捷。
對于一個給定的數據集,模糊聚類算法的目標函數如式(2)所示:
其中,U為各條數據對于各個聚類的隸屬度矩陣,V為各個聚類中心位置的集合,m為模糊加權指數,||·||為歐式距離。
以上模糊聚類的目標函數為有約束條件的優化問題。為了便于迭代求解,引入拉格朗日乘子可以快速地將上述有約束優化問題轉換為無約束優化問題。這樣一來,模糊聚類算法就可以采用牛頓迭代法進行不斷地迭代計算,逐漸實現目標函數的最小化。當停止對目標函數的迭代計算時,此時得到的結果為數據樣本隸屬于各個聚類的程度。通過選取隸屬度最高的聚類為該數據樣本的聚類,從而得到低維數據的聚類結果。由于在應用深度神經網絡進行非線性轉換時,只對單條數據樣本之間的各個特征值進行了非線性轉換,而并未進行數據樣本之間的轉換,故數據樣本之間的關系未發生變化。因此根據在低維空間上得到的聚類結果,即可直接得到原始數據的聚類結果。
為了驗證以上基于深度神經網絡的電力工程數據聚類模型的有效性,該文基于某省2010-2020 年間積累的電力輸、配電等工程歷史數據進行了模型仿真。歷史整體數據總共包含10 073 個數據樣本,每個數據樣本包括電壓等級、設備配置情況、土地面積、建筑面積、建筑工程、主輔生產工程、地理信息等類別的共計232 個技術參數。
仿真環境采用Intel Core i7 CPU,內存為16 GB,Windows 10 操作系統,Python 編程語言的臺式計算機進行搭建。
為了衡量聚類模型的有效性,與采用K 均值聚類[15]、模糊聚類、線性降維聚類[16(]PCA-K 均值)的模型進行對比。采用聚類有效性指標對結果進行衡量,該指標的計算過程中,通過對實際樣本所屬的實際類別與聚類結果之間的相似程度進行計算,從而確定聚類的質量。其計算公式如式(3)所示:
其中,n為所需衡量的樣本數量,yi為數據樣本實際所隸屬的類別標簽,ci為聚類模型得到的計算結果,map(·)為將聚類結果轉換為樣本所隸屬類別的映射函數,δ(·) 為示性函數。當yi=map(ci) 時,δ(yi,map(ci))取值為1;否則,其值為0。
因為深度神經網絡、K 均值聚類算法模型等在建模過程中均包含一定的隨機性,為了避免隨機因素對仿真結果的影響,每個聚類模型均進行30 次仿真驗證,并對仿真結果的平均值、標準差進行統計分析。對比結果,如表1 所示。

表1 總體數據集聚類結果對比
為了進一步驗證算法的魯棒性,該文對包含10 073 個數據樣本的歷史整體數據進行了有放回采樣。每次采樣的數據集中包括了80%的數據樣本,重復采樣20次,共生成了20個新的數據集。在這20個新數據集上,應用該文模型、K 均值聚類、模糊聚類、線性降維聚類再次進行了仿真。其中,每個聚類模型在每個數據集上均進行了30 次仿真驗證,并對每個模型的仿真結果平均值、標準差進行了統計分析。對比結果如表2 所示。

表2 20個新數據集聚類結果對比
由該結果可見,與K 均值聚類、模糊聚類、線性降維聚類(PCA-K 均值)等聚類模型相比,該文所提出的深度神經網絡的電力工程數據聚類模型具有更高的聚類有效性和魯棒性。
通過對結果分析可得,高維的電力工程數據在聚類過程中,K 均值聚類、模糊聚類等模型無法提取有效的信息,得到的聚類結果基本不具備參考價值。這是因為高維數據在聚類過程中出現了“維數災難”問題而造成的。而采用線性降維對數據進行處理后,可以略微提高聚類結果的有效性。但由于高維數據中的原始信息在線性轉換的過程中產生了缺失,導致聚類結果的有效性較低。而通過該文提出的基于深度受限玻爾茲曼機神經網絡的聚類模型,先將高維的原始電力工程數據進行非線性化處理,然后再映射到低維空間,從而在保留原始數據信息的同時有效提高聚類模型的處理能力,進而得到了較為理想的聚類結果。
該文針對高維電力工程數據難以實現有效聚類分析的問題,設計了基于深度神經網絡的電力工程數據聚類模型。通過對實際電力工程數據的聚類模型搭建和仿真,得出了以下結論:
1)在高維電力工程數據的聚類分析過程中,因為“維數災難”問題的影響,傳統的聚類模型無法實現有效的聚類分析;
2)通過采用深度神經網絡模型,可以有效地將高維原始電力工程數據進行非線性化處理,實現數據的降維并在降維后仍保留原始數據中蘊含的信息,從而大幅度提高聚類結果的有效性。
下一步,將應用深度神經網絡對電力工程數據聚類分析進行更大范圍的數據分析模型設計,實現對高維電力工程數據更為有效的分類、造價預測、通用造價分析等應用,挖掘更多高維數據對電力工程的價值。