基于多元優化算法和DS證據理論的電力缺陷等級確定方法?

2021-07-16 14:05:22程宏偉

電子器件 2021年3期

關鍵詞：文本

高蓮，程宏偉，于虹，李鵬?

(1.云南大學信息學院，云南昆明 650500；2.云南電網有限責任公司電力科學研究院，云南昆明 650500)

由于經濟社會發展的需要，智能電網的建設得到充分發展，其在日常運行和維護過程中產生了大量的圖像、視頻、音頻、文本等非結構化數據[1－2]。其中電力缺陷描述(以下簡稱“缺陷描述”)蘊藏著豐富的電力設備健康狀況信息，基于其對缺陷等級進行有效準確劃分有助于合理地安排設備檢修維護，對電網的安全穩定運行有重要意義。當前缺陷等級由運維人員根據電力設備主要部件和對應現象組成的缺陷等級確定標準劃分為其他、一般、緊急、重大四個等級[3－4]，但復雜多樣的具體情況使定級準確性因人而異[5]，更無法保證電力缺陷等級確定的一致性。

針對運維人員基于缺陷描述信息進行等級劃分時準確性和一致性無法保障的問題，近年來國內外學者進行了一系列的研究。文獻[6－7]分別采用粗糙集和分層方法對電網自動生成的具有很強規范性的設備運行信息進行研究，但仍需要調度運維人員依據經驗對其進行審核，具有一定的主觀性；文獻[8－9]分別采用C5 樹和LSTM 方法對群眾反映的專業詞匯較少，較易理解的口語化缺陷描述進行分析，對于專業詞匯較多較為復雜的電力缺陷描述文本無法適用，且算法參數由研究人員依據經驗直接給出，無法實現缺陷等級的自動確定；文獻[10－11]中使用K 最近鄰算法(k-nearest neighbor，KNN)進行缺陷描述的等級確定，但等級劃分準確性與K 的取值密切相關；文獻[12]中使用卷積神經網絡對缺陷描述進行等級確定，但卷積神經網絡層數的不同選擇使多次等級劃分的結果具有一定差異。

為提高缺陷等級劃分的準確性和一致性，本文提出了一種基于多元優化算法(multi-variant optimization algorithm，MOA)及DS(Dempster-Shafer)證據理論的電力缺陷等級自動確定方法，并將其用于5 863 條西南某地區電網公司變壓器缺陷描述及表征電力設備運行狀態的紅綠燈信息。實驗首先將上述數據按照4:1 的比例隨機分為訓練集和測試集，其次基于缺陷定級標準[4]和常用缺陷用語[13]建立的變壓器缺陷描述分詞詞庫使用結巴算法對所有變壓器缺陷描述進行分詞，并使用word2vec 和詞頻－逆文檔頻率算法(term frequency-inverse document frequency，TF-IDF)得到缺陷描述的向量特征表達，同時分析訓練集紅綠燈信息和與其一一對應的初始缺陷等級建立燈色缺陷等級辨識對應權值表并基于此表將實驗數據中所有紅綠燈信息向量化；然后，使用MOA 算法對預處理后的訓練集在不同局部搜索半徑下自動進行等級判定，尋找判別準確率較高的最優搜索半徑區間，并在此區間內對測試集進行缺陷等級自動確定；最后，使用DS 證據理論決策融合測試集在最優搜索半徑區間內的50 次MOA 判別結果，達到提高自動判別準確率的目的。

1 基于MOA 算法和DS 證據理論的電力設備缺陷等級確定方法

為提高電力設備缺陷等級劃分的準確性和一致性，本文提出了基于MOA 算法和DS 證據理論的電力缺陷等級自動確定方法。該方法利用MOA 算法全局和局部交替探索的特性獲得判別準確率較高的最優搜索半徑區間，并使用DS 證據理論決策融合測試集的50 次判別結果，方法流程如圖1 所示，詳細過程闡述如下。

圖1 MOA 和DS 證據理論等級自動確定方法流程

1.1 數據預處理

1.1.1 缺陷描述預處理

中文電力缺陷描述信息預處理的主要目的是剔除其中包含的地名、助詞等冗余項并向量化保留的有用信息，使其成為自動等級確定的有效輸入數據。由于缺陷描述大多為語言精簡的單句短文本，預處理時無需對其進行分段、分句操作，僅需進行分詞、去停用詞和文本向量化[14－15]處理，各步驟詳細說明如下。

(1)分詞和去停用詞。這一步為缺陷描述預處理的基礎和關鍵，其主要目的是將缺陷描述合理切分成不同的詞語序列并去除無用的地名和虛詞。本文采用結巴算法對文本進行分詞處理，在此過程中，由于電力設備缺陷描述的專業性，為提高分詞的準確性，本文根據缺陷定級標準[4]和常用缺陷用語[13]建立的變壓器缺陷描述分詞詞庫，如表1 所示。同時對“哈工大停用詞庫”、“中科院停用詞表”和電力設備缺陷描述中的地名聚合去重，構建停用詞表，去除出現頻率較高但對等級確定沒有作用的冗余項，實現數據清理，以便后續特征選取，部分變壓器缺陷描述分詞結果如表2 所示。

表1 變壓器缺陷描述分詞詞庫

表2 變壓器缺陷描述分詞結果

(2)詞向量獲取。詞向量獲取目前有詞袋模型和分布式文本表示兩種。由于詞袋模型未考慮詞語之間的聯系且存在稀疏過高的問題，因此，本文利用訓練集選取分布式文本表示的word2vec 中Skipgram 模型實現詞向量[16]，使用Python 中gensim 包的默認值并經過測試構建維度為50 的詞向量表，然后通過查表的方式匹配缺陷描述文本中的詞得出詞向量，對于詞向量表中沒有出現的詞匯，在區間[－1，1]內隨機設置初始值[17]。

(3)基于詞向量的文本特征表達。當前，基于詞向量的文本特征表達有詞模型均值和結合TFIDF 加權兩種方式，文獻[18]通過實驗驗證了加權表達的有效性。因此，本文使用TF-IDF 對重要詞特征向量進行加權，增強其在特征表達中的重要性，TF-IDF 算法公式如式(1)所示:

式中:TFi表示特征詞i在一種等級下出現的次數占全部等級下出現次數的比例，反映特征詞i在不同等級間的權重，其表達式如式(2)所示:

式中:Ti，k表示特征詞i在等級k中出現的次數，Nt表示特征詞i在四種等級中出現的次數和。

IDFi，k表示等級k中包含特征詞i的文本數量占等級k全部文本數量的比例，反映同一等級下特征詞i的權重，其表達式如式(3)所示:

式中:Ak表示等級k的文本總數，Di，k表示等級k中包含特征詞i的文本數，分母加1 避免出現0 的情況。

例如分別選取缺陷等級為一般、緊急、重大、其他的變壓器缺陷描述各50 條，即四種等級下Ak值均為50，且四種等級下出現“熔斷”一詞的次數Ti，k分別對應為8、15、33、0，四種等級中出現“熔斷”一詞的條數Di，k分別對應為6、15、30、0，按照式(2)可知Nt的值為四種等級下出現熔斷一詞的次數Ti，k之和，即56。因此可由式(2)和式(3)計算得出TFi和IDFi，k的值分別對應為0.14、0.27、0.59、0；0.85、0.49、0.21、1.70。根據式(1)可以得出特征詞權重分別為0.119、0.132、0.124、0。

1.1.2 紅綠燈信息預處理

電網紅綠燈信息中蘊含著電力設備運行的健康狀態信息，可作為設備缺陷等級自動確定的有益補充數據。為此，對4 743 條訓練樣本紅綠燈信息及其對應的初始缺陷等級進行分析，獲得燈色與缺陷等級的最優對應關系，并以此建立燈色缺陷等級辨識對應權值表作為實驗數據中所有燈色信息向量化的依據。訓練樣本中4 743 條燈色信息在初始缺陷等級中的占比如表3 所示。

表3 各色燈在初始缺陷等級中的分布比例

為更加直觀的看到訓練樣本中燈色和與其一一對應的初始缺陷等級間的關系，將表3 中的數據可視化處理，得到如圖2 所示的圓環圖。

圖2 四種等級下燈色占比

圖2 中從內到外四個圓環依次對應訓練樣本中緊急、其他、一般和重大四個等級。從中可以看出藍燈在緊急、一般和重大等級中均占有較大比例，無法與單一缺陷等級形成較好對應，因此首先使用譜系圖和平均輪廓系數分析除藍燈以外的各色燈與初始缺陷等級間的關系，得到最佳的燈色缺陷等級對應并賦予權值；然后單獨對藍燈進行分析，得到藍燈的缺陷等級權值；最后依據上述兩步得到燈色缺陷等級權值構建完整的燈色權值表并作為實驗數據中各色燈的量化依據，詳細步驟如下。

首先，根據除藍燈外各燈色在初始缺陷等級中的占比構建樣本集[19]作為譜系圖分析的依據，樣本集如表4 所示。

根據表4 所示樣本集，采用組內聯結法繪制如圖3 所示的譜系圖。

圖3 組內聯結法譜系圖

表4 紅綠燈樣本集

由圖3 所示，從右往左依次做C、B、A 三條截斷線，由截斷線C 可以看出5 種顏色的燈可分為兩類{灰燈；紫燈、紅燈、綠燈、黃燈}；由截斷線B 可以看出5 種顏色的燈可分為三類{灰燈；紫燈；紅燈、綠燈、黃燈}；由截斷線A 可以看出5 種顏色的燈可分為四類{灰燈；紫燈；紅燈；綠燈、黃燈}。

為確定除藍燈外5 種顏色燈的最佳類別數，本文使用輪廓系數法評估5 種顏色燈不同類別數的合理性，并選取平均輪廓系數最大即類別數最為合理的值作為評估結果。因此，分別計算類別數為2、3、4 的輪廓系數如圖4(a)～4(c)所示，并對其分別計算平均輪廓系數構建如圖4(d)所示的平均輪廓系數曲線圖。

圖4 不同類別數下輪廓系數圖

從圖4(d)可見，當分類數為4 時，平均輪廓系數最大，可以實現燈色與缺陷等級的最佳對應。結合表4，除藍燈外的各色燈對應效果如下:灰燈只出現在其他等級中對應缺陷等級中的其他；紫燈在緊急等級中的占比較高對應缺陷等級中的緊急；紅燈在重大等級中的占比較高對應缺陷等級中的重大；綠燈和黃燈只出現在一般等級中對應缺陷等級中的一般。由此建立權值分布在[0，1]之間的燈色缺陷等級辨識對應關系，用以區分燈色不同。然后，慮到藍燈在緊急、一般、重大中均有較高占比及其自身的不可或缺性，因此賦予藍燈中間權值0.5，以區分其他燈色。最后，根據上述分析建立如表5 所示的燈色缺陷等級辨識對應權值表，作為實驗數據中紅綠燈信息的量化依據。

表5 燈色缺陷等級辨識對應權值表

1.2 基于MOA 算法的電力缺陷等級確定

MOA 算法是一種有效的動靜態條件下多模態算法，可在動態條件下對多模態聚類問題進行有效解決[20]，因此適合于電力設備缺陷等級的確定。通過MOA 算法確定電力設備缺陷等級時，首先根據算法的基本思想構建全局和局部搜索元；然后隨機確定全局搜索元的初始聚類中心，并使用局部搜索元在全局搜索元附近探索，尋找最優的適應度函數值即類內距離盡可能小但類間距離盡可能大的聚類中心；此后重復上述步驟，獲得新的聚類結果，并與上一輪聚類過程的適應度函數進行比較，保留適應度函數最優的結果，直到適應度函數變化較小或達到最大循環次數后，電力設備缺陷數據聚類完成。

為保證聚類的準確性，構造如式(4)所示的適應度函數:

式中:

式(5)為類間距離，zi和zj分別表示第i個和第j個聚類中心點，K表示類中心點的個數，Ja的值越大越好，其值越大表示類與類之間的區分度越大，判別效果較好。

式(6)表示類內距離，zj和xi分別表示第j個聚類中心和屬于此類中心的樣本數據，K表示類中心點的個數，Jb的值越小越好，其值越小表示聚類中心點的選取較好，同一類分布的較為緊密。

式(4)確定的適應度函數可保證較大的類間距離和較小的類內距離，實現對電力缺陷的準確聚類，且將類間距離和類內距離做商后取對數，避免二者商值過大，造成適應度函數的過度敏感，保證聚類過程中算法的穩定性。

1.3 基于DS 證據理論的電力缺陷等級融合

由于DS 證據理論可以利用合成規則將算法多次判別結果進行決策融合[21－22]，避免算法單次判別產生的偶然性。因此為提高電力缺陷等級確定的準確性和穩定性，本文使用DS 證據理論作為MOA 算法決策融合的工具，實現電力缺陷等級的準確確定，過程詳述如下。

首先，利用MOA 算法對向量化缺陷數據在最優搜索半徑下的50 次運行結果，構建如式(7)所示表征缺陷等級M精確信任函數[23]的基本概率分配m函數；然后按照式(8)所示的Dempster 合成規則對上一步構建的50 組m函數進行融合，得到合成后的基本概率分配[24]；最后根據合成后的基本概率分配實現對缺陷等級的準確確定。

式中:θ＝{緊急，其他，一般，重大}表示缺陷等級M的識別框架，識別框架內的m函數和為

式中:m(M)表示決策融合50 次MOA 運行結果后確定的缺陷等級m函數，分子表示同一組缺陷數據50 次運行結果中被分為同一等級M的m函數乘積和，其值小于1。

2 實驗過程及結果分析

以西南某地區電網公司的5 863 條變壓器缺陷記錄作為實驗數據，其中一般、緊急、重大、其他缺陷數目分別為3 382、1 164、260、1 057 條，按照4 ∶1 的比例隨機選取其中的4 743 條為訓練樣本，剩下的1 120 條為測試樣本。

首先按照1.1.1 節的描述對變壓器缺陷描述進行分詞并向量化，同時根據本文1.1.2 節建立的燈色缺陷等級辨識對應權值表將實驗數據中紅綠燈信息向量化；最后利用MOA 算法將預處理后的訓練集缺陷描述和向量化的電網紅綠燈信息在不同局部搜索半徑下自動等級確定，尋找判別準確率較高的最優搜索半徑區間，尋找過程如下。

設定MOA 算法的最大循環次數為200，全局搜索元個數為4，局部搜索元個數為20，使用訓練樣本作為輸入，令局部搜索半徑r從0.1 逐漸遞增到10，獲得各自對應的等級判定準確率，如圖5 所示。

圖5 訓練集不同局部搜索半徑r 下準確率

由圖5 可見，局部搜索半徑在區間[0.1，2.3]有較高的準確率，判別效果較好，隨著半徑的不斷增大，準確率總體有所下降。這是由于固定循環次數下，隨著局部搜索半徑的增大，算法搜索精細度下降，使準確率降低，因此確定局部搜索半徑的區間為[0.1，2.3]，并選擇訓練集分類準確率最高時局部搜索半徑為0.4 的4 個等級聚類中心作為測試集等級的匹配中心，通過歐氏距離比較，將測試集4 個聚類中心分別歸為距離最小的類別中。

為進一步提高判別準確率，使用DS 證據理論對測試集中MOA 算法50 次判別的結果進行決策融合。為詳細說明決策融合的過程，從測試集一般、緊急、重大、其他四種缺陷等級中各隨機選取一組數據，對表6 所示的MOA 算法在局部搜索半徑區間為[0.1，2.3]，間隔為0.2 的前三次運行結果進行說明。

根據表6，DS 證據理論基本概率分配m函數按照同一次下同一組數據在不同半徑下被分為不同等級的次數占12 次結果的比例進行構造，構造結果如表7 所示。例如:選取第一次實驗中期望等級為一般的數據，統計發現12 次判別中有9 次被分為一般，2 次被分為緊急，1 次被分為重大，0 次被分為其他，因此m1(一般)函數在缺陷等級為一般、緊急、重大、其他的m函數分別為0.75、0.17、0.08 和0。

表6 4 組數據在不同半徑下前三次運行結果

表7 前三次運行結果的m 函數

按照式(8)將表7 中4 組數據在12 個局部搜索半徑下的前三次運行結果決策融合，融合后的m函數分配如表8 所示。

表8 DS 證據理論融合結果

對比表7 和表8 可以看出使用DS 證據理論決策融合后，表7 中第三次重大組中誤分為緊急的電力缺陷正確糾正為重大。由此可見，DS 證據理論的使用避免了算法單次運行結果的偶然性對等級確定的影響，達到了提高自動判別準確率的目的。

為驗證本文所提方法在電力缺陷等級確定中的有效性，將局部搜索半徑區間為[0.1，2.3]，運行次數為50 次且使用DS 證據理論的MOA 算法(MOADS)與局部搜索半徑為0.4，運行次數為1 次且未使用DS 證據理論的MOA 算法以及K值為4 的kmeans 算法對1120 組測試數據的聚類結果從平均準確率、平均召回率以及平均F值3 個評價指標進行對比，結果如表9 所示。

表9 三種模型下評價指標比較

表9 可以看出，使用DS 證據理論融合后的MOA 算法平均準確率可達83.57%，相比未進行DS證據理論融合的MOA 算法平均準確率提高了2.73%，相比k-means 算法平均準確率提高了6.14%，且平均召回率和平均F值均有明顯提升，驗證了本方法的有效性和可行性。MOA-DS 模型相比MOA 模型有較大提升的原因是使用DS 證據理論后將MOA 算法多次運行的結果進行決策融合，避免算法單次運行結果出現的偶然性，因此提高了判別的準確性；MOA-DS 模型相較于k-means 模型有較大提升的原因是MOA 算法依托局部搜索元使聚類質心的選擇更加細致、合理，且適應度函數方面考慮了類間距離，提高了聚類結果不同類別的區分度，使聚類結果更加準確。

3 結束語

本文以變壓器缺陷描述和電網紅綠燈信息作為研究對象，提出了一種基于MOA 算法和DS 證據理論的電力缺陷等級確定方法。該方法一方面使用MOA 算法對電力缺陷等級確定，利用全局和局部搜索元使聚類中心的選擇更加細致合理，進一步提高了判別的準確性，豐富了電力文本挖掘領域的方法；另一方面使用DS 證據理論將多次判別結果進行決策融合，解決了已有模型多次運行時判別結果差異的問題。此外，本文在電力設備缺陷等級確定方面進行了有益探索，避免了運維人員確定缺陷等級的人為主觀性和個人認知有限帶來的判斷誤差，提高了判別的準確性和一致性，為缺陷等級的評判提供了參考依據，為文本數據深層次利用提供了新的思路。