陳嘉霖,段家華,張明宇,2
(1.云南省能源投資集團有限公司,昆明 650021;2.云南能投能源產業發展研究院,昆明 650021)
鄰域粗糙集與相關向量機相結合的變壓器故障綜合診斷模型
陳嘉霖1,段家華1,張明宇1,2
(1.云南省能源投資集團有限公司,昆明 650021;2.云南能投能源產業發展研究院,昆明 650021)
針對變壓器相關向量機故障診斷模型中冗余信息影響泛化能力的問題,提出了鄰域粗糙集與相關向量機相結合的變壓器故障綜合診斷模型。首先采用領域知識和快速約簡算法進行屬性約簡;其次利用條件屬性對決策屬性的依賴性度量進行屬性加權;然后將約簡后和數值化后形成的特征向量集輸入相關向量機進行訓練;最后用測試集進行測試。實例顯示所提方法的測試確診率均高于單獨相關向量機模型,說明鄰域粗糙集提升了相關向量機的實用性和準確性。
鄰域粗糙集;相關向量機;變壓器;故障診斷;診斷精度
變壓器是電力系統的重要設備,其運行狀態直接影響電網的安全經濟運行。電力變壓器結構復雜,其故障診斷和變壓器狀態的監測一直受到國內外學術界的廣泛重視[1]。
油浸式變壓器油中溶解氣體的含量及比值在很大程度上與變壓器的運行狀態直接相關,油中溶解氣體分析DGA(dissolved gas analysis)法[2]是油浸式變壓器故障診斷的經典方法。在此基礎上,很多學者和組織機構提出了新的診斷方法,如國際電工委員會IEC(international electrotechnical commis?sion)推薦使用的三比值法、Rogers法和Dornerburg法等傳統方法[1-2];近年來,針對傳統方法中存在的編碼缺失、編碼界限過于絕對以及診斷精度不高等問題,粗糙集RS(rough set)[3]、人工神經網絡ANN(artificial neural network)[4]、貝葉斯網絡BN(Bayes?ian networks)[1]和支持向量機SVM(support vector machine)[5-6]等人工智能算法被廣泛地應用于變壓器故障診斷。但在實際的診斷過程中發現,傳統方法只能對變壓器運行狀態的單一特征信息做出診斷,無法很好地處理多種不確定因素同時影響變壓器運行狀態的情況,使診斷和預測結果較為粗糙。雖然人工神經網絡能夠解決這個問題,但人工神經網絡采用經驗風險最小化原理,不能使期望風險最小化,過學習與欠學習、局部極小點等問題較為突出[7],致使變壓器診斷模型精度不高;而貝葉斯網絡則需要海量樣本數據,才能保證診斷精度[8];有研究表明[9],SVM克服了人工神經網絡的理論缺陷,具備處理小樣本、數據非線性及高維度模式識別問題的能力,但SVM在變壓器診斷過程中,存在規則化系數難以確定、核函數Mercer條件難以滿足的問題[5],影響了支持向量機在變壓器故障診斷中的推廣。
相關向量機RVM(relevance vector machine)[9-10]作為一種基于稀疏Bayesian學習理論的機器學習算法,融合了Bayesian理論、Markov性質、極大似然估計MLE(maximum likelihood estimation)以及自動相關決定先驗等理論,不僅保留了SVM的全部優勢,而且克服了SVM一些固有缺陷,例如,RVM的核函數擺脫了Mercer條件的限制,具有更好的泛化性能;可以輸出后驗概率分布,對于不確定性問題具備更強的分析能力[11]。
當前,已有學者將RVM模型應用于變壓器的故障診斷[11],取得了比SVM診斷模型更理想的診斷效果。受高溫、高能電壓等因素的影響,油中溶解氣體的原始色譜特征數據存在大量的異常數據,且蘊含著變壓器運行狀態的多種復雜特征信息,致使RVM算法的復雜程度大幅度提高,分類精度和學習速度不理想。因此,從實用性和準確性出發,在使用原始色譜特征數據前有必要對其進行屬性簡約,消除樣本數據中的冗余信息。由于鄰域粗糙集NRS(neighborhood rough set)利用原始色譜特征數據信息,無需任何先驗知識進行屬性約簡,保證了屬性約簡的客觀性[12-13]。
因此,在對樣本進行訓練前,本文采用領域粗糙集對樣本數據進行混淆度分析,剔除那些異常樣本或噪聲數據,提升RVM的實用性和診斷的準確性。鑒于此,本文提出了鄰域粗糙集與相關向量機相結合的變壓器故障綜合診斷模型,簡稱NRSRVM模型。該模型發揮了鄰域粗糙集處理不完備信息、異常數據信息的能力,同時融合了RVM處理高維數據信息和異常數據的優異性能,保證了模型的實用性和準確性。
1.1 基于鄰域粗糙集的屬性簡約
鄰域粗糙集模型是胡清華等[12]基于T.Y.Lin鄰域模型對經典粗糙集理論的一種拓展。
稱信息系統IS=〈U,A,V,f〉為一個決策表,如果A=C∪D={a1,a2,…,am}為屬性集合,條件屬性集合C與決策屬性集合D的交集為空集,V為值域,U={x1,x2,…,xn}為論域,f:U×A→V為信息函數。若對于任意的xi∈U,條件屬性子集B?C,則定義xi的鄰域為

式中:δB(xi)為B產生的鄰域信息粒。ΔB(xi,xj)為距離函數,通常以p范數表示;δ為鄰域半徑。
給定一鄰域決策系統NDT=〈U,C∪D,N,f〉,?B?C,D將U劃為分別具有決策1,2,…,N的N個對象子集:X1,X2,…,XN,則定義D關于B的下近似為


式中:|·|表示集合的基數。
1.2 基于RVM的分類模型
設x1,x2,…,xN為N個輸入向量,t=(t1,t2,…,tN)′為目標向量,目標值ti=0或ti=1,w=(w1,w2,…,wn)′為可調整的權值向量,K(x,xi)為核函數,x為某一輸入,則基于RVM的分類模型[11]的輸出為

定義式(4)中每個權值wi的先驗概率分布密度函數為

式中:αi為決定權值wi先驗分布的超參數。則權值向量w的先驗概率分布密度函數為

式中:α為決定w先驗分布的n+1維超參數向量,α=(α0,α1,…,αn)′;f(·)為正態分布的分布密度函數。

式中:Φ=[Φ(x1),Φ(x2),…Φ(xN)]′,對于Φ的各個分量Φ(xi)=[1,K(xi,x1),K(xi,x2),…,K(xi,xN)]′,i=1,2,…,N。在二元分類問題中,給定輸入x,輸出y(x,w)屬于某一類t的隸屬后驗概率p(t|w),通過將Logistic Sigmoid函數應用于輸出y(x,w)而將線性模型進行泛化。設p(t|x)服從Bernoulli分布,則訓練樣本集合的似然函數為

式中:σ(·)為Logistic Sigmoid函數。
設x?為新輸入,t?為相應目標值,p(w|t,α)為權重向量后驗概率分布密度函數;p(α|t)為邊緣似然函數[11],則給定輸入向量x*,目標值tg的概率p(t?|w,α)預測式為

由于無法通過積分解出權重向量后驗概率分布密度函數p(w|t,α)和邊緣似然函數p(α|t),因此采用如下基于Laplace方法的逼近過程。
(1)固定初始的超參數向量α=(α0,α1,…,αN)′,給定后驗分布形式,采用最大化權重向量后驗概率分布函數p(w|t,α)的方法來估計“最可能”權重向量wMP.由于 p(w|t,α)∝p(t|w)p(w|α),因此等價于最大化一個正則化的Logistic對數似然函數,即

式中:Q為對角矩陣,Q=diag(α1,α2,…,αn) 。采用二次Newton算法求最大值。
①式(10)關于w的梯度向量為

式中:β=diag(β1,β2,…,βN);βi=Y(i1-Y)i;Y=(Y1,Y2,…,Yn)′;Yi=σ[y(xi;w)]。
②式(10)關于w的Hessian矩陣為

③經迭代重加權最小二乘法求解wMP,即

(2)高斯近似權重向量的后驗概率分布密度函數為

式中:wMP為權重向量的后驗均值向量;Σ為權重向量的后驗協方差矩陣,
(3)利用Mackay[14]方法最大化邊緣似然函數p(α|t),對超參數向量α進行更新,即


式中:Σii為Σ中第i項對角線元素;wMPi為權重向量wMP的第i個元素。
重復上述步驟直至滿足收斂條件。實際過程中,大部分αi接近于無窮大,其對應的權重wi=0,其他趨近于有限值。與非零wi相對應的學習樣本xi的集合稱為相關向量RV(relevance vector)。
給定一個變壓器故障診斷的信息系統,單一的相關向量機本身在訓練過程中,矩陣運算空間復雜度達到o(N2),總的時間復雜度達到o(N3),冗余信息和沖突對象往往也會影響到相關向量機的泛化能力,必然導致了變壓器故障診斷系統的分類確診率的下降,因此有必要進行屬性約簡;同時,忽視不同屬性對相關向量機的影響差異也會對相關向量機的分類結果造成失真的不良后果,因此對約簡后的訓練樣本集合進行屬性加權處理。本文采用鄰域粗糙集技術來彌補相關向量機應用于變壓器故障診斷的不足。
首先,本文采用快速約簡算法進行屬性約簡;其次利用條件屬性對決策屬性的依賴性度量,對各屬性進行加權處理;然后,將約簡后和數值化后形成的特征向量集作為訓練樣本輸入相關向量機進行訓練;最后,用測試樣本集合對訓練結果進行測試,輸出分類結果。具體診斷模型如圖1所示,具體算法如下。

圖1 變壓器故障診斷模型Fig.1 Fault diagnosis model of transformers
輸入:決策表 U,C?D,V,f;
輸出:變壓器故障類別。
步驟1 將訓練樣本和待分類樣本進行補齊和離散化。
步驟2 如果進行訓練任務,那么轉至步驟3;否則轉至步驟6。
步驟3 屬性約簡
(1)初始化特征子集和待驗樣本集合,即令red=?,sample=U;
(2)屬性約簡程序

(3)return red
步驟4 屬性加權,即對約簡后的訓練樣本集合,分別乘以相應的屬性重要度γi。
步驟5 對相關向量機分類器訓練獲得權重向量w=(w1,w2,…,wn)。
(1)對超參數向量α=(α1,α2,…,αn)進行初始化。
(2)保持超參數向量不變,給定其后驗分布形式,采用二次Newton法求得wMP。
(3)基于Laplace方法對對數后驗概率分布密度函數在其峰值附近進行二次逼近,得到權值后驗概率分布密度函數在wMP時高斯逼近的協方差矩陣
(4)給定α,重新計算wMP。
(6)若收斂,則轉至步驟6;否則轉至(3)。
步驟7為了進一步驗證模型診斷變壓器的有效性,采用Wilcoxon提出的符號秩檢驗RVM和NRSRVM模型進行符號秩檢驗,驗證模型的有效性。
當變壓器發生故障時,絕緣油中會產生化學反應,分解出H2、CH4、C2H4、C2H6、C2H2、CO等氣體。因此,變壓器的故障類型與氣體的含量和組成密切相關,但并非明確的映射關系[8,11]。云南省昆明市供電公司收集到的變壓器故障數據共292組,編制以H2、CH4、C2H4、C2H6、C2H2為主的氣體含量數據,如表1所示。

表1 氣體組成及含量Tab.1 Composition and content of the gas %
3.1 基于鄰域粗糙集的數據預處理
由于在高溫、高能放電等各種因素的綜合作用,原始色譜特征數據常常包含異常數據。按照步驟3和步驟4對樣本數據進行預處理。本文采用Shin Hyunjung等[16]定義的鄰域匹配算子對得到的交界部分樣本進行評估,具體表示為

式中:kNN(x′)是x′的k階最近鄰集合。Neighbors-Match(x′,k)的值越小,說明x′與其最近鄰樣本點的分布不一致,它越可能是異常樣本。通過判斷Neighbors-Match(x′,k)與閾值ε大小關系以確定樣本是否異常:當Neighbors-Match(x′,k)小于閾值ε時,樣本x′為異常樣本,需進行刪除。反之,正常。取階數k=3,閾值ε=0.5[13],借助Matlab7.0編程對292組樣本數據進行預處理,結果發現有6組數據為異常數據,得到Neighbors-Match(x′,k)的評估值如表2所示。
3.2 基于NRS-RVM的變壓器故障診斷
預處理后的數據共286組,將樣本數據中的200例作為訓練集合,剩余的86例作為測試集合,通過分別采用二叉樹的分類方法將多分類問題轉化為多個二類別分類問題,從而建立NRS-RVM變壓器故障診斷方法(如圖1所示)。選取5種特征氣體H2、CH4、C2H4、C2H6、C2H2的體積分數作為分類器的輸入;為保證核函數K(x,xi)定義域處于[-1,1]之內,本文對5種特征氣體處理為

式中:mi為5種特征氣體的體積分數。采用4個分類器來辨識變壓器正常、低能放電、高溫放電、中低溫過熱、高溫過熱5種狀態,若分類器的輸出值為1,則判斷變壓器處于一種故障狀態;若分類器的輸出值為-1,則判斷變壓器處于另一種故障狀態。相關向量機的核函數均采用徑向基函數RBF為


表2 樣本數據預處理結果Tab.2 Pretreatment results of sample data
核函數的寬度系數ξ均取0.5[11]。同時,依托原始數據建立基于RVM的變壓器故障診斷模型。兩種診斷方法在訓練時間、測試時間和確診率方面的對比情況如表3所示。

表3 2種變壓器故障診斷模型的比較Tab.3 Comparison between two fault diagnosis models of transformers
由表3可知,經過領域粗糙集預測處理后的樣本數據后,相關向量機的學習時間較為明顯得縮短,準確率也大幅提升?;贜ST和RVM的變壓器故障診斷模型的4個分類器的診斷精度分別為92.55%、93.87%、93.44%和92.28%。為了考察兩診斷方法預測精度是否具有顯著性差異,對兩診斷方法進行了Wilcoxon符號秩檢驗,檢驗結果如表4所示。表中N為本模型的平均絕對誤差小于單一RVM模型的個數。

表4 Wilcoxon符號秩檢驗結果Tab.4 Results of Wilcoxon signed rank test
由表4可知,兩診斷方法的預測精度有顯著性差異(P=0<0.01),即表明通過NRS預處理后,有助于提升相關向量機對變壓器故障診斷的精度,改善和提升了RVM模型的預測精度。
變壓器故障的原因繁雜,利用單一方法難以全面而準確地描述。本文提出了領域粗糙集與相關向量機相結合的變壓器故障綜合診斷新方法,該方法充分考慮了相關向量機優異的分類性能,同時使用鄰域粗糙集技術彌補相關向量機處理異常數據的不足,使得混合算法具備了良好的魯棒性和推廣能力。仿真實驗結果顯示基于本模型的4個分類器的測試確診率分別為92.55%、93.87%、93.44%和92.28%,均高于基于RVM模型的4個分類器的測試確診率,表明該方法行之有效,并且具有良好的診斷精度。
[1]宋功益,郭清滔,涂福榮,等(Song Gongyi,Guo Qingtao,Tu Furong,et al).模糊貝葉斯網的變壓器故障診斷(Novel method for transformer faults diagnosis based on theory of fuzzy Bayesian networks)[J].電力系統及其自動化學報(Proceedings of the CSU-EPSA),2012,24(2):102-106.
[2]Sun H C,Huang Y C,Huang C M.A review of dissolved gas analysis in power transformers[J].Energy Procedia,2012,14(1):1220-1225.
[3]袁???,郭基偉,唐國慶,等(Yuan Baokui,Guo Jiwei,Tang Guoqing,et al).基于粗糙集理論的變壓器故障分類(The transformers fault classification based on rough set)[J].電力系統及其自動化學報(Proceedings of the CSU-EPSA),2001,13(5):1-4.
[4]Bhalla D,Bansai R K,Gupta H O.Function analysis based rule extraction from artificial neural networks for transformer incipient fault diagnosis[J].International Jour?nal of Electrical Power&Energy Systems,2012,43(1):1196-1203.
[5]Bacha K,Souahlia S,Gossa M.Power transformer fault di?agnosis based on dissolved gas analysis by support vector machine[J].Electric Power Systems Research,2012,83(1):73-79.
[6]呂干云,程浩忠,董立新,等(Lü Ganyun,Cheng Hao?zhong,Dong Lixin,et al).基于多級支持向量機分類器的電力變壓器故障識別(Fault diagnosis of power trans?former based on multi-layer SVM classifier)[J].電力系統及其自動化學報(Proceedings of the CSU-EPSA),2005,17(1):19-22,52.
[7]李紅娟,王建軍,王華,等(Li Hongjuan,Wang Jianjun,Wang Hua,et al).建立PNN-HP-ENN-LSSVM模型預測鋼鐵企業高爐煤氣發生量(Prediction of blast furnace gas output in a steel complex based on PNN-HP-ENNLSSVM model)[J].過程工程學報(The Chinese Journal of Process Engineering),2013,13(3):451-457.
[8]趙文清,朱永利,王曉輝(Zhao Wenqing,Zhu Yongli,Wang Xiaohui).基于組合貝葉斯網絡的電力變壓器故障診斷(Combinatorial Bayes network in fault diagnosis of power transformer)[J].電力自動化設備(Electric Pow?er Automation Equipment),2009,29(11):6-9.
[9]An Senjian,Liu Wanquan,Venkatesh S.Fast cross-valida?tion algorithms for least squares support vector machine and kernel ridge regression[J].Pattern Recognition,2007,40(8):2154-2162.
[10]Tipping M E.The relevance vector machine[C]//13th An?nual Neural Information Processing Systems Conference.Denver,USA,1999:653-658.
[11]尹金良,朱永利,俞國勤(Yin Jinliang,Zhu Yongli,Yu Guoqin).相關向量機及其在變壓器故障診斷中的應用(Relevance vector machine and its application in trans?former fault diagnosis)[J].電力自動化設備(Electric Power Automation Equipment),2012,32(8):130-134.
[12]Hu Q H,Yu D R,Xie Z X.Neighborhood classifiers[J].Ex?pert System with Applications,2008,34(2):866-876.
[13]韓虎,黨建武,任恩恩(Han Hu,Dang Jianwu,Ren En?en).基于鄰域粗糙集的支持向量機分類方法研究(Re?search of support vector classifier based on neighborhood rough set)[J].計算機科學(Computer Science),2010,37(2):229-231,285.
[14]Mackay D J C.The evidence framework applied to classifi?cation networks[J].Neural Computation,1992,4(5):720-736.
[15]尹金良,劉玲玲(Yin Jinliang,Liu Lingling).代價敏感相關向量機的研究及其在變壓器故障診斷中的應用(CSRVM and its application in fault diagnosis of power trans?formers)[J].電力自動化設備(Electric Power Automa?tion Equipment),2014,34(5):111-115.
[16]Shin Hyunjung,Cho Sungzoon.Invariance of neighbor?hood relation under input space to feature space mapping [J].Pattern Recognition Letters,2005,26(6):707-718.
[17]李小方,彭敏放,羅翊君,等(Li Xiaofang,Peng Minfang,Luo Yijun,et al).變電站接地網的信息融合故障診斷(Fault diagnosis of substation grounding grid based on in?formation fusion)[J].電力系統及其自動化學報(Pro?ceedings of the CSU-EPSA),2015,27(12):36-41.
[18]張慶磊,王寶華,陳祥睿(Zhang Qinglei,Wang Baohua,Chen Xiangrui).運用多分類多核參數SVM的變壓器故障診斷算法(Research of transformer fault diagnosis based on multiclass multiple parameters SVM)[J].電力系統及其自動化學報(Proceedings of the CSU-EPSA),2015,27(9):97-102.
[19]吳立帥,葛玻,宋書中(Wu Lishuai,Ge Bo,Song Shu?zhong).基于粗糙集與支持向量機的變壓器故障診斷(Fault diagnosis of transformer based on rough set and support vector machine)[J].電源技術(Chinese Journal of Power Sources),2014,38(4):768-770.
Comprehensive Fault Diagnosis Model of Transformers Based on Combination of Neighborhood Rough Set and Relevance Vector Machine
CHEN Jialin1,DUAN Jiahua1,ZHANG Mingyu1,2
(1.Yunnan Provincial Energy Investment Group Co.,Ltd,Kunming 650021,China;2.Energy Industry Development Institute,Yunnan Provincial Energy Investment Group Co.,Ltd,Kunming 650021,China)
To deal with the issue of generalization ability affected by redundant information in the relevance vector ma?chine(RVM)based fault diagnosis model of transformers,this paper proposes a comprehensive fault diagnosis model based on the combination of neighborhood rough set(NRS)and RVM.First,neighborhood information and quick re?duction algorithm are employed to reduce the attribute reduction.Then,the dependence of conditional attribute on deci?sion attribute is used to acquire the attribute weight.Next,the feature vector set obtained after reduction and numeral?ization is input into the RVM for training.Finally,tests are conducted with test set.A case study shows that the diagno?sis rate with the proposed method is higher than the RVM model,which further indicates that NRS enhances the practi?cability and accuracy of RVM.
neighborhood rough set(NBS);relevance vector machine(RVM);transformer;fault diagnosis;diagnosis accuracy
TM411
A
1003-8930(2016)11-0117-06
10.3969/j.issn.1003-8930.2016.11.020
2014-09-11;
2016-04-25
陳嘉霖(1973—),男,碩士,高級工程師,研究方向為能源產業研究、能源經濟周期理論研究和管理。Email:475025627@qq.com
段家華(1981—),男,本科,高級工程師,研究方向為電力電氣自動化技術。Email:duahua126@126.com
張明宇(1980—),男,通信作者,博士,高級工程師,研究方向為環境調和型能源新技術、能源產業政策。Email:1460480393@qq.com