陳新崗,陳姝婷,楊定坤,羅 浩,楊 平,崔煒康
1.重慶理工大學電氣與電子工程學院,重慶 400054 2.重慶市能源互聯網工程技術研究中心,重慶 400054 3.重慶大學輸配電裝備及系統安全與新技術國家重點實驗室,重慶 400054
電力變壓器的正常運行關乎電力的安全生產和供電可靠性,是電力系統中非常重要的設備。油浸式變壓器一般采用絕緣油和以纖維素為主要成分的絕緣油紙作為其內絕緣結構,運行過程中受到熱應力、電場應力、機械應力及環境應力等影響,絕緣能力逐漸降低。能夠適時對變壓器內部油紙絕緣狀態進行準確的評估,對電網的安全、穩定運行具有重要意義[1]。
目前對變壓器進行老化檢測的方法多為油中溶解氣體檢測,糠醛檢測,聚合度檢測等,但是這些檢測方法在實際運用中還存在一定的局限性。油中溶解氣體的檢測步驟較為復雜,需要對氣體與油進行分離且不能做到樣品的無損檢測;糠醛的檢測需要用到甲醇萃取,操作過程復雜,對操作人員技術及環境要求較高;聚合度的檢測需要停電吊芯,不容易獲取相關數據。選擇拉曼光譜檢測技術對變壓器油混合物進行檢測,可以不與油樣直接接觸,檢測重復性較好;同時,拉曼光譜法對電磁波抗干擾能力強,降低了變壓器油紙絕緣老化評估時對實際檢測環境的要求;且拉曼光譜法還可以與光纖傳感技術很好的結合起來,能夠實現對現場變壓器快速準確的評估。
為了將變壓器油拉曼檢測光譜與能夠反映不同老化程度的特征物聯系起來,需要探索更適合現有數據特征背景的算法[2],繼而對變壓器油紙絕緣老化更精確的評估。為了使樣本分布稀疏,重疊性少,易于分類,需要增加實驗次數以擴充數據庫;隨著實驗的進行,樣本數量逐漸增多,且每條光譜的信息特征點較多,樣本數據集維數升高;高維樣本數據集的特點一般為:數據規模較大,包含的信息價值密度低,容易引起維數災難,且對高維樣本數據建模的過程中容易出現訓練效率低或者時間成本升高等很多問題。因此引入三種不同類型的算法對得到的光譜樣本數據進行分析。
本文研究中,通過模擬現場變壓器油紙絕緣加速熱老化過程,得到不同老化時間的油樣本,運用實驗室搭建的老化特征物拉曼檢測平臺,對樣本原始拉曼光譜信號進行采集[3-4];采用復合稀疏導數建模法對原始光譜進行去噪和基線校正處理;引入Filter法對差異較大的特征進行選擇[5];基于特征選擇后的樣本,分別采用K-means聚類算法[6]、Fisher算法[7]和隨機森林算法[8]對變壓器油紙絕緣老化程度進行判別分析,建立老化狀態評估模型,對測試集樣本進行歸類,診斷樣本屬于哪一老化天數(老化程度)類別;基于多種評價因素,對比分析各類模型的判別能力。
評估算法有無監督學習和有監督學習之分,無監督學習不考慮已有類別判斷,對樣本中心進行迭代計算并歸類;有監督算法在模型訓練時輸入已知類別樣本信息進行參考,對模型的建立有一定的影響。有監督分類器算法有強分類器和弱分類器之分。強分類器隨機抽取訓練集的子集,建立多個均具有判別效力的模型,通過投票機制匯總判別結果,進而得出最終分類結果;弱分類器訓練數據構建單一判別模型,其分類效率由輸入的數據特征決定,輸入總體樣本中不同的訓練集,測試集判別的結果也不相同。本文分別采用代表無監督學習的K-means聚類算法、代表有監督學習弱分類器的Fisher算法和代表有監督學習強分類器隨機森林算法對變壓器油紙絕緣老化拉曼光譜分析。
K-means聚類是快速聚類中運用歐氏距離進行樣本-聚點計算的一種聚類形式,確定所需要劃分的類別數,隨機選擇相應類別數不相交的初始化聚點,并計算其他各樣本到達類聚點的歐氏距離,如式(1)
(1)
以每個樣本最靠近初始聚點原則歸類,將樣本劃分成初始類別后,迭代計算各類別新的聚點并重新歸類,直到所有類別聚點不再有變化則迭代結束。
Fisher算法的原理是通過某些決策函數的計算,將高維數據集樣本投影到低維子空間上,使得這些不同類別的數據集樣本在低維子空間上的分離性最佳。
設樣本訓練總體為{Gi} (i∈{1,2,…,10}),Gi是第i類樣本的集合。判別函數是構成Fisher判別模型的重要部分;Fisher算法中構造判別函數的原則是不同類別之間距離最大,類別中所有樣本距離最小,即要滿足式(2)達到最大。
(2)
其中,wT為投影向量,μk為樣本質心,vk為協方差矩陣。
Fisher判別模型建立后,將測試集樣本各變量帶入判別函數,得到各樣本觀測值的具體空間位置,計算各樣本距離類別組質心位置,距離哪一類別組質心位置最近,就歸為此類。
隨機森林算法是Breiman在2001年提出的決策樹集成分類器,主體思想是將多個單一分類器聯系起來,對隨機選取的不同特征建立決策樹群,之后通過對所有決策樹結果進行投票來決定類別歸屬。該算法在近些年來被廣泛運用,在電氣研究領域展現了不錯的數據處理能力[9],具有以下優點[10]:能夠有效地運用在高維數據集中;能夠處理高維數據且不需要降維;內部生成誤差為無偏估計;運行效率高;具有較高分類精度且泛化能力強。

設計如圖1所示的拉曼光譜檢測平臺,為了避免高溫引起過高的暗電流和閱讀噪聲以提高CCD探測器的靈敏度,檢測前將其內部工作溫度降至零下10 ℃;為了避免室內光線對樣品檢測的干擾,整個檢測過程在黑暗環境中進行;實驗室環境溫度為25 ℃;設置儀器恒定激光功率為300 mW,數據采集積分時間為0.3 s,積分次數為10。

圖1 拉曼光譜檢測實驗平臺結構示意圖Fig.1 Schematic diagram of Raman spectroscopy detection experimental platform
依據IEEE導則進行油紙絕緣加速熱老化樣本的制備。流程圖如圖2。定期取樣并獲取10類老化時間分別為0,1,3,5,7,9,12,17,21和24 d的100個油紙絕緣樣本拉曼光譜。

圖2 油紙絕緣加速老化實驗流程圖Fig.2 Flow chart of accelerated aging experiment of oil-paper insulation
從實驗中獲取到10類不同老化天數的變壓器油老化拉曼光譜圖,圖3反映了各類光譜圖的顯著差異。

圖3 不同老化天數變壓器油拉曼光譜Fig.3 Raman spectra of transformer oil for different aging time
采用復合稀疏導數建模法對原始拉曼光譜數據進行預處理。此方法能夠將基線校正和噪聲去除兩部分合并處理,極大地簡化了預處理步驟。
復合稀疏導數建模法的原理是逆行推導光譜信號的分解過程,建立基于構造一個凸優化問題來封裝基線和光譜峰的非參數模型,代數推導過程見文獻[11]。將原始拉曼光譜信號y建模為三個部分,如式(3)
y=x+f+w
(3)
其中,x為稀疏狀峰值信號,f為低通基線,w為平穩白色高斯噪聲。
(4)


圖4 復合稀疏導數建模預處理Fig.4 Preprocessing with compound sparse derivative modeling
針對拉曼光譜,前期一般使用特征提取的方法,例如主成分分析,小波包能量熵等方法,這些方法雖然可以快速提取樣本中大部分有效信息,但是在整合信息的同時,提取出來的重要成分不能與每個光譜信息點的物理意義聯系起來,也不方便對油中溶解物質的老化機理進行后續研究。
如圖5,根據不同老化程度光譜圖對比,可以看到其中有很多差異譜段,還有一些譜段處于高度重合狀態,若將光譜圖全部導入判別模型,可能會因為無效信息過量造成干擾現象。遂采用差異特征選擇[12]的方法進行處理,同時保留了光譜信息點包含的物理含義。研究發現,油中溶解的某些化學物質有其對應的拉曼頻移特征點[13-14],對于差異特征點的抽取,有利于進一步探究隨著變壓器油紙絕緣不斷老化,同一拉曼頻移下對應的光譜差異特征點強度變化與油中溶解物質的老化機理關系。

圖5 不同老化程度油樣拉曼光譜對比Fig.5 Comparison of Raman spectra of oil under different aging degrees
(5)
方差可以表示一組數據的顯著差異,能夠較好的將差異特征點提取出來。
如圖6,通過對所有拉曼頻移下的數據集方差按從小到大依次排列作圖,可以觀察到,當方差值小于0.5時,基本處于平穩狀態,表示不同老化程度下,光譜圖部分曲線基本無太大的變化,由于數據預處理出現的微小差異可以忽略不計,當方差大于0.5時,曲線走勢漸陡,數據集差異顯著增大,表示這部分數據集在老化過程中存在某些物質量的變化,能夠與不同老化程度下絕緣油中物質的老化機理聯系起來,具有可研究性。遂設定方差閾值為0.5,對每個樣本抽取出的304個特征信息點進行后續分析。

圖6 同一拉曼頻移下數據集方差篩選Fig.6 Data set variance screening under the same Raman shift
將預處理后的的100組樣本數據按7∶3比例隨機進行訓練集和測試集分配,且運用不同算法建模的數據集相同,測試時的數據集也相同。
3.3.1 K-means聚類算法應用
根據K-means算法原理對預處理后的訓練集及測試集一起進行聚類處理,預計分為10類,選擇最大迭代次數為20進行計算,如圖7,迭代次數為9時,聚點變動趨于穩定。

圖7 聚類中心隨迭代次數增加的變動Fig.7 Changes of cluster centers with increasing number of iterations
通過訓練集樣本已知類別對劃分的類別進行重新標記,統計測試集樣本預測類別,并與其實際類別進行比較,如圖8。K-means聚類算法判別結果顯示:一共錯判了9個測試樣本,其中,屬于1,3,5和21 d的部分測試樣本錯判到相鄰類別,表明相鄰類別的特征易于混淆,采用無監督聚類的方法對于相鄰類別的判別效果并不顯著;實際類別為12 d的測試樣本全都判別到1和3 d類別,說明此算法在聚類時對于12 d的關鍵特征信息不敏感,導致對這一類別的全部錯判。

圖8 K-means聚類算法判別分析結果Fig.8 Results of the discriminant analysis with K-means clustering algorithm
3.3.2 Fisher算法應用
研究中使用2016年5月7日~8日、10日~11日共4個時相的高分四號衛星全色多光譜衛星圖像,見圖2,數據格式為Geotiff,均為經過系統輻射校正的1A級數據產品.該時間段內衛星覆蓋區域內的積雪為天山山脈等高山地區積雪,圖像上云層覆蓋范圍普遍較大,整體云蓋量占整幅圖像范圍的47%~57%之間.
根據Fisher算法原理對訓練集樣本總體計算,根據表1,威爾克Lambda表示組內平方和與總平方和的比例,值越小表示組間差異越大,可以看到前三個判別函數的威爾克Lambda檢驗顯著性均小于0.05,即表示用這三個判別函數建立的模型是有效的。

表1 判別函數有效性檢驗Table 1 Effectiveness test of discriminant function
反映判別函數所能解釋的方差變異程度的特征值貢獻率恰恰印證了這一結果,如圖9,前三個判別函數累積貢獻率顯著提升,能夠解釋的變量占比達到了98.0%,最大程度的對數據集變量進行了處理,之后的判別函數能解釋變量的能力逐漸減弱,累積貢獻率曲線趨于平緩,起伏較小。

圖9 判別函數累積貢獻率Fig.9 Cumulative contribution of discriminant function
通過對70個樣本總體的訓練,建立了3個主要判別函數。將30個測試樣本帶入判別函數,得到各測試樣本的空間坐標;對各測試樣本與類質心的距離進行計算,判別細節如圖10,從圖10可以看出,單一的判別函數不能完全的將不同類別劃分出來,需要多種判別函數相結合,才能使不同類別盡可能分開,從而較容易判別未知樣本。

圖10 測試樣本類別判別Fig.10 Discriminant analysis of test samples
圖11為Fisher模型對測試樣本的判別結果,在1,3,5,12和21 d類分別錯判1個,由于部分類別組質心分布過于密集,導致相近類別誤判情況略為明顯。

圖11 Fisher算法判別分析結果Fig.11 Results of the discriminant analysis with Fisher algorithm
3.3.3 隨機森林算法應用
一般來說,構建隨機森林模型時生成的樹越多,容錯率就越高;但在實際運用中,會選擇模型錯誤率降低至趨近于平穩時所需CART的最少棵數,以減少運算量,提高預測速度。
如圖12(a),設置決策樹數量為1 000,畫出錯誤率和決策樹數量的關系圖,從圖上看出,當決策樹數量在600~800左右時,錯誤率穩定。生成600~800,步長為1的數列,迭代計算出錯誤率最小時需要的棵樹,如圖12(b),當決策樹棵樹為744時,模型最優。

圖12 決策樹數量與錯誤率關系圖Fig.12 Diagram of the number of decision trees and the error rate
計算指定節點中用于決策樹的變量個數,調整好參數后進行隨機森林建模,通過計算,OBB袋外估計錯誤率為5.71%,確定了建立的分類模型是較為可靠且穩定的,這與隨機森林模型內部計算泛化誤差的無偏估計結果一致。將測試集輸入已建好的模型中,得到如圖13的判別結果。

圖13 隨機森林判別分析結果Fig.13 Results of the discriminant analysis with Random Forest algorithm
運用隨機森林模型對測試樣本進行類別評估,在1和3 d類分別錯判1個。除了出現極少數的相近類別判斷錯誤的問題,實際老化時間為3 d類的一個測試樣本被判別到9 d類,類別錯判差異較大。
3.3.4 三種判別方法結果對比
引入多種評價因子[15]對模型及其預測結果進行效果對比。如表2。

表2 評估方法效果對比Table 2 Comparison of evaluation methods
計算可知,K-means聚類算法判別準確率為70%,Fisher判別算法判別準確率為83.33%,隨機森林算法判別準確率為93.33%,表明了隨機森林算法在變壓器油紙絕緣老化拉曼光譜高維數據集處理上的可靠性與有效性;模型提升度是比較模型之間預測能力的提升狀況指數,就三種模型的提升度來看,以無監督K-means聚類模型為基準,有監督的Fisher判別模型和隨機森林模型分別提升了1.166 6和1.95,表明了加入已知樣本的類別信息,可能會影響模型的分辨能力,使得模型能更好地判別未知樣本;Kappa指數是評價分類結果一致性和信度的重要指標,從三種模型的Kappa指數來看,樣本判別的實際一致率和隨機一致率差別并不顯著,但總體來說,隨機森林的Kappa指數要高于另外兩種模型,表明了強分類器在樣本增多,數據維度增大后具有良好的表現,隨機森林算法經決策樹數量和分離節點參數調整后具有較強的分類能力。由于訓練集和測試集為程序隨機分配,該評價結果也具有一定的普適性。
在實驗中進行變壓器油加速熱老化實驗,獲取到10類不同老化天數的100個油老化樣本。運用拉曼光譜檢測方法對實驗室制備不同老化程度油樣本進行檢測。
(1)選用復合稀疏導數建模法對拉曼光譜進行預處理,能夠一步完成去噪和基線校正,且預處理效果較好,與原始光譜曲線相比更平滑。
(2)選取Filter法對光譜圖中同一拉曼頻移差異較大光譜特征點進行特征選擇,并設定閾值將差異較大的特征信息點抽取出來,相比于特征提取的方法來說較為直接,且輸入數量較少的特征信息點有利于之后建模訓練效率的提升。
(3)將樣本總體按7∶3比例分配訓練集與測試集,分別建立變壓器油紙絕緣拉曼光譜的K-means聚類模型、Fisher判別模型與隨機森林分類模型,通過多種評價因素來驗證各模型在高維數據集的分類效率。結果表明,隨機森林模型能更準確的評判實驗樣本的老化程度,判別正確率達到了93.3%;相比K-means聚類算法和Fisher算法的判別正確率來看,上升了23.33%和10%;有效解決了無監督算法過于依賴數據集的構成和單一分類器在建模時學習的局限性問題,體現了油樣本增多后,有監督學習相對于無監督學習,強分類器相對于弱分類器,在變壓器油紙絕緣老化評估上的判別優勢,為變壓器油紙絕緣老化的評估打下了基礎。