李鐵成,曾四鳴,劉清泉,任江波,楊經(jīng)超,王敏學(xué)
(1.國網(wǎng)河北省電力有限公司電力科學(xué)研究院,石家莊 050021;2.國網(wǎng)河北省電力有限公司,石家莊 050021;3.武漢凱默電氣有限公司,武漢 430223)
建設(shè)狀態(tài)全面感知、信息互聯(lián)共享、人機友好交互、設(shè)備診斷高度智能、運檢效率大幅提升的智能變電站是國家電網(wǎng)公司戰(zhàn)略目標的核心任務(wù)之一。該任務(wù)的基礎(chǔ),是保證由二次設(shè)備在線監(jiān)視系統(tǒng)、運維主站、智能錄波器與繼電保護測試設(shè)備組成的智能變電站智能運維體系信息采集工作的正確性。
智能運維體系信息采集工作正確運行依賴于以智能錄波器為核心的智能記錄分析裝置對二次設(shè)備數(shù)據(jù)輸出端口地址信息的正確配置,投運時錄波器將解析相關(guān)端口地址信息,準確采集各二次設(shè)備不同類型運行數(shù)據(jù)。目前主要配置方法是依據(jù)設(shè)備端口描述文本,人工配置相應(yīng)的端口地址信息至錄波器不同的信息組,錄波器信息組包括壓板信息組、告警信息組與狀態(tài)信息組,各信息組又包含子信息組,例如,硬壓板信息組、面向通用對象的變電站事件GOOSE(generic object oriented substation Event)斷鏈告警信息組、在線監(jiān)測信息組等。上述端口地址信息與端口描述文本均包含于智能變電站的全站配置描述SCD(substation configuration de?scription)文件中。在電壓等級高、規(guī)模大、二次設(shè)備較多的智能變電站中,人工配置時間長、效率低且準確率難以保證,不符合變電站智能運維發(fā)展的要求。此外,由于智能電子設(shè)備能力描述文件ICD(intelligent electronic device capability description)模型沒有統(tǒng)一規(guī)范,導(dǎo)致二次設(shè)備端口描述文本沒有統(tǒng)一約定,而SCD文件由設(shè)計院基于ICD采用系統(tǒng)集成工具生成,因此難以實現(xiàn)SCD文件中二次設(shè)備端口地址條目的自動映射。
二次設(shè)備端口描述文本的自動分類映射的本質(zhì)是中文文本分類問題。它分為文本的預(yù)處理[1]、文本表示、特征提取和分類器選擇4個步驟。傳統(tǒng)的分類方法有樸素貝葉斯法[2]、基于決策樹法[3]、支持向量機法[4]等,這些淺層算法對數(shù)據(jù)的挖掘能力有限,且泛化能力不足。近年來深度學(xué)習(xí)已經(jīng)廣泛應(yīng)用于自然語言識別[5]、圖像識別[6]、音頻處理等領(lǐng)域,深度學(xué)習(xí)分為統(tǒng)一特征提取與分類評估兩個階段,特征提取適合運用在文本分類中。在電力系統(tǒng)中,神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)理論[7]逐步發(fā)展應(yīng)用,文獻[8-9]構(gòu)建了電力系統(tǒng)的基于深度學(xué)習(xí)構(gòu)造的文本挖掘框架,并利用深度卷積神經(jīng)網(wǎng)絡(luò)分類模型對電力缺陷文本進行分類,結(jié)果表明,所提出的模型在分類準確率和效率上相比傳統(tǒng)方法有顯著提高;文獻[10]利用循環(huán)卷積神經(jīng)網(wǎng)絡(luò)RCNN(recurrent con?volutional neural network)進行文本分類,可更好地融合上下文信息及最大可能的保留關(guān)鍵語義。
鑒于此,本文以門循環(huán)單元GRU(gate recur?rent unit)神經(jīng)網(wǎng)絡(luò)算法為基礎(chǔ)構(gòu)造文本分類模型,依據(jù)分類結(jié)果進一步實現(xiàn)端口描述文本對應(yīng)地址信息的正確配置;結(jié)合實例樣本進行實驗分析,找出適用于二次設(shè)備輸出接口描述文本的超參數(shù)。并將這一文本分類模型與其他主流深度學(xué)習(xí)文本分類算法進行性能對比,結(jié)果顯示本文提出的模型在準確率和收斂速度上綜合表現(xiàn)良好,從而有效提高了智能運維體系信息自動采集與靈活運用的能力。
在二次設(shè)備端口描述文本的獲取中,首先,需要解析該變電站的SCD,利用Python語言中Ele?menTree模塊解析該文件;然后,遍歷智能電子設(shè)備IED(intelligent electronic device)標簽,找到對應(yīng)的具體二次設(shè)備。例如“主變本體測控”,通過檢索IED標簽的子標簽功能約束數(shù)據(jù)屬性FCDA(func?tionally constrained data attribute)值可以獲取二次設(shè)備端口的地址描述信息,結(jié)合上述FCDA值與子標簽數(shù)據(jù)對象實例DOI(data object instance)屬性值、子標簽數(shù)據(jù)屬性實例DAI(data attribute in?stance)屬性值,可獲取端口匹配的具體描述文本,該文本包含于DOI標簽屬性desc中。
特點1文本中專業(yè)詞匯多,如“斷線”、“縱聯(lián)”等,對于同一個事件描述可能用不同的詞匯表達,例如“間隔層A-GOOSE4通信中斷”和“間隔層AGOOSE4斷聯(lián)”等。
特點2二次設(shè)備接口描述文本篇幅短小,基于文本構(gòu)造的詞典詞匯量較少,中英文混雜,文字呈現(xiàn)結(jié)構(gòu)性特點。
特點3分詞處理時需要額外擴充詞匯。本文使用python中的jieba工具進行分詞,在分詞前需輸入“高壓”、“光口”、“光耦”等專業(yè)詞匯擴展其分詞詞典,保證其分詞的準確性。
Word2vec[11]是一種詞嵌入表達方法,它可以將一個高維稀疏向量映射到另一個低維稠密的向量中實現(xiàn)“嵌入”,顯著減少了運行時間和內(nèi)存資源的使用,其模型訓(xùn)練速度快,使用非常廣泛的詞向量分布式表達方法。Word2vec包含連續(xù)詞袋CBOW(continuous bag of words)模型 和skip-gram兩種模型。CBOW模型如圖1所示。

圖1 CBOW模型示意Fig.1 Schematic of CBOW model
圖1中,W1、W2分別為輸入層矩陣和輸出層矩陣;V為詞向量的維度;N為隱藏層的維度。文本隱藏層詞向量的平均值h可表示為

式中:xi為圖中文本的第i個one-hot編碼,i=1,2,…,C,C為文本中詞的個數(shù);vi為隱藏層的詞向量;T為矩陣的轉(zhuǎn)置。
文本的輸出層向量w可表示為

模型損失函數(shù)E定義為

式中:wk為向量w中第k行的值:w0為目標詞匯的值。通過梯度下降算法不斷更新矩陣W1,最后用文本的one-hot編碼乘以更新完成后的矩陣W1,可以得到該文本的分布式詞向量,故W1又被稱為查詢矩陣。
訓(xùn)練一個樣本需改變所有權(quán)重,訓(xùn)練速度慢,計算量大,為了提高訓(xùn)練效率,需要引入負采樣技術(shù),非目標詞語的詞向量即為負樣本,負采樣技術(shù)只選取少量的負樣本減少需要更新的權(quán)重來提高計算速度。進行負采樣前需要先進行二次采樣,即先抽取少量的詞作為樣本,其中詞抽中的概率與其出現(xiàn)的頻率呈負相關(guān),即

式中:wi為第i個詞向量;p(wi)為詞被選中稱為二次樣本的概率;z(wi)為詞在樣本集中出現(xiàn)的頻率;t=10-5。


本文選擇了改進型長短期記憶LSTM(long short-term memory)神經(jīng)網(wǎng)絡(luò)的GRU神經(jīng)網(wǎng)絡(luò)分類器[12]。它將LSTM神經(jīng)網(wǎng)絡(luò)原有的遺忘門、輸入門和輸出門3個門整合為更新門和重置門2個門。在許多情況下,基于GRU神經(jīng)網(wǎng)絡(luò)與LSTM神經(jīng)網(wǎng)絡(luò)有同樣的結(jié)果,但GRU神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度更快且過擬合問題較少。
GRU神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 GRU神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of GRU neural network
圖2中,zt為更新門;rt為重置門;ht-1為上一個神經(jīng)元的輸出;xt為現(xiàn)在的神經(jīng)元輸入;ht為該神經(jīng)元的輸出;為隱藏層狀態(tài);?為矢量相乘。
GRU神經(jīng)網(wǎng)絡(luò)的前向傳播公式可表示為


GRU神經(jīng)網(wǎng)絡(luò)的分類模型結(jié)構(gòu)[13]如圖3所示,其中,x1,x2,…,xn分別為二次設(shè)備的文本通過word2vec的詞向量,h1,h2,…,hn分別為神經(jīng)元隱藏層的狀態(tài)量,可表示為

圖3 基于GRU神經(jīng)網(wǎng)絡(luò)的分類結(jié)構(gòu)Fig.3 Classification structure based on GRU neural network

式中:U為輸入層權(quán)重矩陣;V為隱藏層權(quán)重矩陣。
分類器為softmax分類,預(yù)測某個二次設(shè)備描述信息的類別分類概率向量yi為

式中:t為故障錄波器需要配置的信息組數(shù);W為輸出層的權(quán)重參數(shù)矩陣;為向量的第i個分量,其維度和智能錄波器待分類的信息組數(shù)相等。
基于GRU神經(jīng)網(wǎng)絡(luò)文本分類模型的損失函數(shù)為交叉熵函數(shù)的logit變換(cross entropy with log?its),其表達式為

式中:T為二次設(shè)備的描述文本量;Yi為實際的類別分類概率向量。使用梯度下降法,在求得損失函數(shù)最小值的過程中不斷更新權(quán)重矩陣,最后訓(xùn)練得到基于GRU神經(jīng)網(wǎng)絡(luò)的二次設(shè)備端口描述信息分類模型。
在錄波器運行時,通過解析其配置文件、端口地址標簽等不同信息組內(nèi)地址信息的描述數(shù)據(jù),準確索引二次設(shè)備不同類型的運行數(shù)據(jù)輸出端口,并采集相應(yīng)數(shù)據(jù)至各信息組。錄波器配置文件與SCD文件類似,本文在將端口地址描述數(shù)據(jù)錄入前,依據(jù)端口描述文本對信息組的分類結(jié)果確定對應(yīng)地址描述數(shù)據(jù)的信息組映射標簽,通過Ele?mentTree模塊遍歷二次設(shè)備各信息組找尋正確類別,自動錄入文本描述對應(yīng)的端口地址描述數(shù)據(jù),即FCDA相關(guān)屬性值,完成端口地址信息的自動化配置。
為了驗證本文模型配置二次設(shè)備端口地址描述信息能力,選取某電網(wǎng)1 500組二次設(shè)備端口描述文本樣本作為實例分析,其分類準確性代表端口地址描述信息配置的準確性。樣本隨機分為5份,其中4份選作訓(xùn)練集,1份選作驗證集。訓(xùn)練集的作用是通過梯度計算,訓(xùn)練和更新模型中的各神經(jīng)元的鏈接參數(shù);驗證集的作用是驗證和評價網(wǎng)絡(luò)的性能,用于確定正確的網(wǎng)絡(luò)參數(shù)。
本文的訓(xùn)練樣本待分類信息組源于壓板信息組中的功能壓板信息組、告警信息組中的光電牌告警信息組、狀態(tài)信息組中的在線監(jiān)測信息組,選取這3類信息組樣本是因為它們具有樣本最多、多樣性最強、最具代表性的特點,其分類的準確度代表了分類總樣本的準確度,部分文本樣本舉例如表1所示。

表1 文本樣本舉例Tab.1 Examples of text samples
本文模型采用Python語言編程,并加載使用Tensorflow工具包,CPU為Intel Core i5-6300HU,主頻2.3GHz,模型超參數(shù)設(shè)置如表2所示。

表2 GRU神經(jīng)網(wǎng)絡(luò)模型超參數(shù)設(shè)置Tab.2 Hyper parameter settings of GRU neural network model
文本采取word2vec進行詞向量表示,為了更直觀的觀測到詞向量表達效果,選取錄波器信息組的“功率”、“可視化”、“壓板”作為中心詞,并從二次設(shè)備輸出接口文本找出與中心詞詞向量最接近的幾個詞,利用主成分分析法,將輸出的詞向量降維至二維空間,部分詞向量的值如圖4所示。

圖4 Word2vec詞向量聚類結(jié)果Fig.4 Clustering results of word2vec word vectors
由圖4可知,在文本中同時出現(xiàn)次數(shù)較多且語義連接較為緊密的詞,在二維空間中的距離就會比較近,例如“高壓”和“保護”等。在文本中同時出現(xiàn)次數(shù)較少,語義關(guān)聯(lián)度不大的詞語在圖中的距離很遠,比如“功率”和“遠方”等。由此可知,基于word2vec的文本詞語向量表達的方法可以根據(jù)詞向量距離來判斷語義的關(guān)聯(lián)程度。
4.2.1 特征提取能力優(yōu)化
在GRU神經(jīng)網(wǎng)絡(luò)模型參數(shù)中,影響文本語義挖掘和分類能力的因素主要為隱藏層的層數(shù)。當(dāng)隱藏層層數(shù)H=0時,能夠處理可用函數(shù)表示的分類問題;當(dāng)H=1或2時,搭配激活函數(shù)可以處理由一個有限空間向另一個有限空間的連續(xù)映射問題;當(dāng)H>2時,網(wǎng)絡(luò)可以學(xué)習(xí)更加復(fù)雜的分類問題。在實際中,往往需要先定性的確定H的大致范圍,再通過實驗來確定H的具體值。
本文根據(jù)二次設(shè)備接口描述文本的短文本特征構(gòu)造了隱藏層層數(shù)為1~4的GRU神經(jīng)網(wǎng)絡(luò),其中dropout比例為理論最優(yōu)值0.5,取驗證集的分類準確率作為模型的評估指標,設(shè)隱藏層層數(shù)為H,評估結(jié)果如圖5所示。

圖5 不同隱藏層下的GRU神經(jīng)網(wǎng)絡(luò)模型分類性能對比Fig.5 Comparison of GRU neural network model’s classification capability with different hidden layers
由圖5可知,當(dāng)H=1時,模型準確率最高為96%左右,這是由于二次運行設(shè)備的短文本較多,所以只需要一層隱藏層就有很好的分類效果;當(dāng)H=2時,模型在更新次數(shù)為370次左右時開始收斂,并逐漸穩(wěn)定,準確率最高為95%左右;當(dāng)H=3、H=4時,出現(xiàn)了過擬合且準確率不足90%,不能滿足分類需求。綜上所述,當(dāng)H=1時,模型的分類性能最好。
4.2.2 泛化能力優(yōu)化
GRU具有強大的語義特征提取能力,但也隱藏了泛化性能差的風(fēng)險[14],因此本文模型通過引入dropout層,隨機舍棄部分特征提取結(jié)果以降低過擬合風(fēng)險,dropout是指在深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過程中按照一定的概率將神經(jīng)網(wǎng)絡(luò)單元暫時從網(wǎng)絡(luò)中丟棄。為尋找dropout層較優(yōu)的神經(jīng)元保留比例dp,本文設(shè)置了dp=0.2,0.5,0.7,1的4種模型,并驗證模型分類能力與泛化能力,設(shè)dropout層保留比例為dp,評估結(jié)果如圖6所示。

圖6 不同dropout值下的GRU模型分類性能對比Fig.6 Comparison of GRU model’s classification capability with different dropout values
由圖6可知,當(dāng)保留比例dp過小,即dp=0.2時,模型擬合能力變差,導(dǎo)致驗證集準確率的收斂時間急劇上升,且分類精度下降;當(dāng)模型不考慮舍棄神經(jīng)元提高泛化性能,即dp=1時,驗證集準確率的曲線出現(xiàn)了下降的趨勢,說明模型復(fù)雜度過高;當(dāng)訓(xùn)練集已發(fā)生過擬合現(xiàn)象,經(jīng)過交叉驗證,可以看出隱含節(jié)點dp=0.5時準確率最高。這是由于當(dāng)dp=0.5時,所有神經(jīng)元的排列組合數(shù)最多,即隨機生成的網(wǎng)絡(luò)結(jié)構(gòu)最多,這樣再將這些網(wǎng)絡(luò)訓(xùn)練結(jié)果進行平均時,網(wǎng)絡(luò)穩(wěn)定性更好,泛化性能強,網(wǎng)絡(luò)不容易出現(xiàn)過擬合。
為了驗證GRU分類器的性能,本文選取LSTM神經(jīng)網(wǎng)絡(luò)和文本卷積神經(jīng)網(wǎng)絡(luò)TextCNN(text convo?lutional neural network)兩種在文本分類領(lǐng)域應(yīng)用較多的深度學(xué)習(xí)模型來進行性能對比實驗,3者參數(shù)均選用最佳性能參數(shù)。
本文的分類模型性能對比如圖7所示,具體參數(shù)見表3。由圖7及表3可知,TextCNN雖然在收斂速度上優(yōu)于GRU神經(jīng)網(wǎng)絡(luò),但準確率卻不如GRU神經(jīng)網(wǎng)絡(luò),因為其分類性能受卷積核尺寸的影響,卷積核較小時難以對較長的文本序列建模;GRU神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)相較于LSTM神經(jīng)網(wǎng)絡(luò)模型更為簡單,在樣本集不大的情況下,GRU神經(jīng)網(wǎng)絡(luò)模型的準確度和收斂速度都優(yōu)于LSTM神經(jīng)網(wǎng)絡(luò)模型。由于二次設(shè)備端口文本篇幅短小、結(jié)構(gòu)簡單、詞匯量少,TextCNN、LSTM神經(jīng)網(wǎng)絡(luò)和GRU神經(jīng)網(wǎng)絡(luò)模型處理1 500個實驗樣本的收斂時間分別為11 s、14 s和12 s,本文模型收斂時間較快,可以滿足工程需求。

表3 分類性能對比Tab.3 Comparison of classification performance

圖7 文本分類模型性能對比Fig.7 Comparison of performance among text classification models
本文考慮到智能錄波器依據(jù)二次設(shè)備端口描述文本實現(xiàn)端口地址信息自動化配置時,因描述文本專業(yè)術(shù)語較多、結(jié)構(gòu)化較弱導(dǎo)致自動化配置困難,以及人工配置工作量大、誤差率高的現(xiàn)狀,提出了基于GRU神經(jīng)網(wǎng)絡(luò)文本分類的二次設(shè)備端口地址信息自動配置方法。首先,對二次設(shè)備端口文本描述進行分詞處理;然后,用word2vec方法對其進行詞向量表達,有效實現(xiàn)了端口描述文本詞向量關(guān)聯(lián)關(guān)系映射,降低了運算復(fù)雜度;最后,利用實例文本進行實驗,證明當(dāng)GRU神經(jīng)網(wǎng)絡(luò)分類器的dp=0.5,H=1時分類器性能最優(yōu),并且基于GRU的文本分類模型準確率可達96%以上,對比其他主流文本分類模型有明顯優(yōu)勢。