999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成支持向量機(jī)的故障診斷方法研究

2012-08-27 13:13:24王金彪
電光與控制 2012年2期
關(guān)鍵詞:特征

王金彪, 周 偉, 王 澍

(上海飛機(jī)設(shè)計(jì)研究院,上海 200235)

0 引言

近年來,集成學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)研究熱點(diǎn),它通過訓(xùn)練多個(gè)基分類器,并將結(jié)果按一定的方法進(jìn)行集成,可以顯著地提高分類系統(tǒng)的泛化能力,許多學(xué)者對其進(jìn)行了廣泛的研究,許多學(xué)者開始致力于研究集成學(xué)習(xí)的理論基礎(chǔ)和進(jìn)行算法設(shè)計(jì)[1-2]。

支持向量機(jī) (Support Vector Machines,SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論的一種適合高維、小樣本數(shù)據(jù)分類的學(xué)習(xí)器。和傳統(tǒng)的學(xué)習(xí)機(jī)器相比,它可以獲得和可利用樣本相匹配的學(xué)習(xí)能力,從而可以具有很好的推廣能力,在模式識別方面有很重要的應(yīng)用[3]。SVM具有較好的泛化能力和穩(wěn)定性(其結(jié)果不隨訓(xùn)練次數(shù)發(fā)生變化)。但是實(shí)際應(yīng)用中SVM也有一些缺點(diǎn):首先,SVM訓(xùn)練問題實(shí)際上是一個(gè)凸二次優(yōu)化問題,在解優(yōu)化問題是采用了逼近算法,這會使結(jié)果不準(zhǔn)確;其次,SVM的性能很大程度上取決于核函數(shù)和模型參數(shù)的選擇,目前還沒有一個(gè)特別有效的方法可以準(zhǔn)確找到最優(yōu)參數(shù),這也會導(dǎo)致支持向量機(jī)的訓(xùn)練結(jié)果不是最優(yōu)的。

本文擬通過集成學(xué)習(xí)的方法來提高支持向量機(jī)的泛化能力,提高支持向量機(jī)的識別精度,并應(yīng)用到故障診斷中。

1 集成學(xué)習(xí)

1.1 概述

集成學(xué)習(xí)一般包含3個(gè)要素:基分類器類型、基分類器生成方法和結(jié)論生成方法。常用的基分類器有決策樹、K近鄰分類器、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。基分類器可以為同種類型,也可以為不同類型,分別稱為同構(gòu)集成和異構(gòu)集成,其中同構(gòu)集成為研究重點(diǎn),異構(gòu)集成研究得較少。本文采用的基分類器為支持向量機(jī)。同構(gòu)集成中基分類器的生成方法主要有以下3大類。

1)對訓(xùn)練集進(jìn)行處理。

如Breiman提出的Bagging方法,其思想是對訓(xùn)練集有放回地抽取訓(xùn)練樣本,從而為每一個(gè)基分類器都構(gòu)造出一個(gè)跟訓(xùn)練集同樣大小但又各不相同的訓(xùn)練集,從而訓(xùn)練出不同的基分類器,進(jìn)而構(gòu)建一個(gè)多分類器系統(tǒng)[4]。

2)對數(shù)據(jù)特征進(jìn)行處理。

其思想為對于具有多特征的數(shù)據(jù)集,通過抽取不同的輸入特征子集分別進(jìn)行訓(xùn)練,從而獲得不同的基分類器,把這些分類器的分類結(jié)果適當(dāng)整合能夠獲得比任何一個(gè)基分類器的分類精度都要高的分類器,其中子空間法為其典型代表方法[5]。

3)通過隨機(jī)擾動產(chǎn)生具有差異性的基分類器。

隨機(jī)擾動法的思想是在每個(gè)基分類器的學(xué)習(xí)過程之中引入隨機(jī)擾動,使得學(xué)習(xí)出來的每個(gè)基分類器都不同,如果基分類器對隨機(jī)擾動比較敏感,那么隨機(jī)擾動法可以有效地產(chǎn)生多個(gè)不同的基分類器。這種方法比較容易在人工神經(jīng)網(wǎng)絡(luò)集成學(xué)習(xí)上進(jìn)行。對于人工神經(jīng)網(wǎng)絡(luò),使用后向傳遞算法來進(jìn)行學(xué)習(xí)的時(shí)候?qū)τ诿總€(gè)神經(jīng)網(wǎng)絡(luò)的初始權(quán)值進(jìn)行隨機(jī)分配,則產(chǎn)生的基分類器會有很明顯的不同;又如,對于支持向量機(jī)集成,可以擾動支持向量機(jī)模型中的核函數(shù)的參數(shù),進(jìn)而產(chǎn)生具有差異性的基分類器。

1.2 集成學(xué)習(xí)的有效性

Hansen和Salamon經(jīng)過研究發(fā)現(xiàn),假設(shè)集成由N個(gè)獨(dú)立的基分類器構(gòu)成,每個(gè)基分類器的分類錯(cuò)誤率為p,采用絕對多數(shù)投票法,當(dāng)參與集成的各基分類器的錯(cuò)誤是不相關(guān)的,那么集成的誤差為[6]

當(dāng)基分類器之間的錯(cuò)誤相關(guān)時(shí),相關(guān)系數(shù)為0≤α≤1,將模型簡單化,假設(shè)各個(gè)基分類器之間的錯(cuò)誤相關(guān)部分相同,那么集成后的誤差為

當(dāng)各個(gè)基分類器的分類錯(cuò)誤率均為p=0.2,相關(guān)系數(shù)為0,0.25,0.50,0.75,1 時(shí)(相關(guān)系數(shù)為0,即各基分類器的錯(cuò)誤是完全不相關(guān);相關(guān)系數(shù)為1,即各基分類器完全相同;相關(guān)系數(shù)越大意味著基分類器之間的差異性越小),集成后的分類錯(cuò)誤率如圖1所示。

圖1 集成分類器錯(cuò)誤率與相關(guān)系數(shù)的關(guān)系Fig.1 The relationship of the error recognition rate and correlation coefficient

上述簡化模型雖不能完全反映出集成后的錯(cuò)誤率與基分類器間差異性的關(guān)系,但一定程度上表明了兩者的聯(lián)系,即通過集成學(xué)習(xí)得到的多分類器系統(tǒng)對于基分類器有一定的要求,否則多分類器系統(tǒng)的泛化能力與單分類器系統(tǒng)相比不一定能得到提高,基分類器一般應(yīng)滿足以下兩個(gè)原則[7]:

1)基分類器的精度應(yīng)達(dá)到一定要求,對太低的精度的基分類器進(jìn)行集成不會有一個(gè)好的結(jié)果,但是基分類器精度太高的話,又會影響基分類器之間的差異性;

2)各個(gè)基分類器之間應(yīng)有一定的差異性,差異性是影響集成效果的重要因素,舉一個(gè)極端的例子來說,如果我們對10個(gè)相同的基分類器進(jìn)行集成,顯而易見,泛化能力不會有任何的提高,因?yàn)檫@10個(gè)基分類器之間的差異性為零,這導(dǎo)致集成后沒有效果。

總之,基分類器的精度越高、差異性越大,那么集成后的泛化能力越好,從圖1中可以看出,當(dāng)各個(gè)基分類器相同時(shí)(即相關(guān)系數(shù)為1,差異性最小),集成后泛化能力沒有提高;隨著各個(gè)基分類器之間差異性的增大(相關(guān)系數(shù)為0時(shí),差異性最大),集成后泛化能力提升越大。另外,從圖1中可以看出,隨著基分類器個(gè)數(shù)的增多,集成誤差越來越小,當(dāng)基分類器數(shù)達(dá)到15以后,集成后誤差變化不大;且隨著基分類器個(gè)數(shù)的增多,模型也越復(fù)雜,訓(xùn)練、測試需要的時(shí)間也越多,因此本文在兩者之間取一個(gè)折衷,基分類器數(shù)目取為15個(gè)。

1.3 支持向量機(jī)的穩(wěn)定性

本文采用的基分類器為支持向量機(jī),經(jīng)典集成學(xué)習(xí)算法Bagging對于神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)有很好的提升作用,為了了解Bagging對支持向量機(jī)的作用,本文進(jìn)行了下述實(shí)驗(yàn),對于Image數(shù)據(jù)集,保持模型參數(shù)不變,分別隨機(jī)去除10%、20%、30%、40%、50%、60%、70%、80%、90%的數(shù)據(jù),形成9個(gè)新的數(shù)據(jù)集,每種情況下對數(shù)據(jù)集進(jìn)行了隨機(jī)劃分(按照6:4的比例,60%為訓(xùn)練集,40%為測試集),進(jìn)行了10次隨機(jī)劃分,支持向量機(jī)識別結(jié)果如圖2所示,神經(jīng)網(wǎng)絡(luò)識別結(jié)果如圖3所示。

圖2 SVM在Image數(shù)據(jù)集上的正確識別率Fig.2 The correct recognition rate of SVM

圖3 NN在Image數(shù)據(jù)集上的正確識別率Fig.3 The correct recognition rate of NN

為了更好地定性說明問題,對數(shù)據(jù)集進(jìn)行了100次隨機(jī)劃分(按照6:4的比例,60%為訓(xùn)練集,40%為測試集),計(jì)算了100次識別結(jié)果的正確識別率的均值和方差,如表1所示,方差即表征分類器對數(shù)據(jù)變化的敏感程度。

表1 NN與SVM的穩(wěn)定性比較Table 1 The stability of NN and SVM

在表1中,在所有的去除率情況下,SVM的識別率均高于NN方法,且前者100次計(jì)算的方差遠(yuǎn)遠(yuǎn)小于后者,這說明SVM相對于神經(jīng)網(wǎng)絡(luò)分類器來說是一種穩(wěn)定的分類器,對數(shù)據(jù)擾動不敏感,也就是說它滿足了集成學(xué)習(xí)對基分類器要求的第一個(gè)條件:基分類器要有好的分類精度,卻沒有滿足第二個(gè)條件——基分類器要有較大的差異性。而Bagging方法通過擾動數(shù)據(jù)集,來形成不同的訓(xùn)練集,進(jìn)而來訓(xùn)練具有差異性的基分類器,因而這種方法對穩(wěn)定性較差的分類器算法如神經(jīng)網(wǎng)絡(luò)效果比較好,而對于穩(wěn)定性較好的SVM的泛化能力提升不大。

2 雙重?cái)_動集成支持向量機(jī)

對于支持向量機(jī)集成,為了更好地?cái)U(kuò)大基分類器的差異性,提高集成后的正確識別率,本文采用了同時(shí)擾動數(shù)據(jù)特征和數(shù)據(jù)集的方法,來生成基分類器,來達(dá)到提高基分類器差異性的目的。

子空間法是一種通過擾動特征來得到不同的訓(xùn)練集,進(jìn)而得到具有差異性的基分類器的一種集成學(xué)習(xí)方法。其中的一個(gè)關(guān)鍵環(huán)節(jié)是:如何對特征進(jìn)行擾動。本文將特征評估算法——Relief算法應(yīng)用到特征擾動中,首先通過特征評估算法計(jì)算各個(gè)特征的權(quán)重,接著利用此權(quán)重向量,通過輪盤賭法產(chǎn)生一系列特征子集,進(jìn)而得到一系列不同的訓(xùn)練集,使得訓(xùn)練集具有差異性,最后得到一系列基分類器,形成一個(gè)多分類器系統(tǒng)。

Relief算法是從訓(xùn)練集中隨機(jī)選擇一個(gè)樣本R,然后從同類樣本中尋找最近鄰樣本H,稱為NearestHit,再從和其不同類的樣本中尋找最近鄰樣本M,稱為NearestMiss,然后對于每維特征,如果R和H在其上的距離小于R和M上的距離,則說明此維特征對區(qū)分同類和不同類的最近鄰是有益的,則應(yīng)該增加該特征的權(quán)重;反之,如果R和H在其上的距離大于R和M上的距離,則說明此維特征對區(qū)分同類和不同類的最近鄰是有害的,則應(yīng)該減小該特征的權(quán)重。Relief算法提出時(shí)針對于處理類別數(shù)為兩類的數(shù)據(jù)的分類問題,后來Kononenko擴(kuò)展了Relief算法得到了ReliefF算法,ReliefF可以解決多類問題以及回歸問題。實(shí)際上故障診斷中分類問題一般為多類分類,因此需要利用Relief擴(kuò)展后的算法ReliefF。ReliefF算法在處理多類問題時(shí),不是從所有不同類樣本集合中統(tǒng)一選擇最近鄰樣本,而是從每個(gè)不同類別的樣本集合中選擇最近鄰樣本,并且不是選擇一個(gè)最近鄰樣本,而是選擇k個(gè)最近鄰樣本[8-9]。ReliefF算法偽代碼如下所述。

通過上述RelidfF算法得到的權(quán)重向量,利用輪盤賭法進(jìn)行特征的選擇,雙重?cái)_動集成支持向量機(jī)算法偽代碼如下所述。

3 試驗(yàn)驗(yàn)證

3.1 標(biāo)準(zhǔn)數(shù)據(jù)集驗(yàn)證

為了了解雙重?cái)_動集成算法對支持向量機(jī)泛化能力的提升作用,本文對于雙重?cái)_動集成支持向量機(jī)在標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。其中集成支持向量機(jī)中基分類器個(gè)數(shù)為15,對于多類識別問題,采用一對一方法將兩類支持向量機(jī)擴(kuò)展為多類支持向量機(jī)。所有支持向量機(jī)核函數(shù)選為徑向基核函數(shù),最優(yōu)參數(shù)通過網(wǎng)格法得到。子空間集成支持向量機(jī)和支持向量機(jī)在測試集上的正確識別率如表2所示,均值和方差為算法重復(fù)100次的結(jié)果(每次對數(shù)據(jù)進(jìn)行按6:4的隨機(jī)劃分)。

表2 識別結(jié)果對比分析Table 2 Comparison of the recognition results

由表2可以看出,除了German數(shù)據(jù)集,在其他6個(gè)數(shù)據(jù)集上,雙重?cái)_動集成SVM較SVM正確識別率都有不同程度的提高,并且方差都比SVM小,說明雙重?cái)_動集成支持向量機(jī)比SVM有更強(qiáng)的穩(wěn)定性,泛化能力較SVM有了提升。雙重?cái)_動集成SVM在這6個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的正確識別率比子空間集成SVM的正確識別率高,究其原因,是由于雙重?cái)_動法采用了兩種機(jī)制對數(shù)據(jù)進(jìn)行了擾動,因此集成后結(jié)果較好。

3.2 故障數(shù)據(jù)驗(yàn)證

為驗(yàn)證雙重?cái)_動集成支持向量機(jī)在故障診斷中的作用,對在立式試驗(yàn)臺上得到的正常狀態(tài)、不平衡狀態(tài)、碰磨狀態(tài)、半頻渦動狀態(tài)4種試驗(yàn)數(shù)據(jù),進(jìn)行了分類識別。

故障診斷第一步,通過時(shí)域特征提取和小波包特征提取方法對信號進(jìn)行分析,提取所需要的特征向量。對信號進(jìn)行了時(shí)域特征提取,分別提取了波形指標(biāo)、峰值指標(biāo)、脈沖指標(biāo)、裕度指標(biāo)、偏斜度指標(biāo)、峭度指標(biāo)以及峰峰值,作為特征向量中的7個(gè)參數(shù)。再加上由小波包分解得到的16個(gè)特征,總共23個(gè)特征組成一個(gè)樣本。從這4種狀態(tài)中總共提出500個(gè)樣本,其中正常狀態(tài)100個(gè)樣本,不平衡狀態(tài)200個(gè)樣本,碰磨狀態(tài)100 個(gè)樣本,半頻渦動100 個(gè)樣本[10-11]。

故障診斷第二步,利用雙重?cái)_動集成支持向量機(jī)和支持向量機(jī)對其進(jìn)行分類識別,其中訓(xùn)練集為300個(gè)樣本,測試集為200個(gè)樣本,基分類器個(gè)數(shù)為15個(gè),支持向量機(jī)核函數(shù)為徑向基核函數(shù),核函數(shù)參數(shù)通過網(wǎng)格法得到,識別結(jié)果如表3所示。試驗(yàn)結(jié)果表明,雙重?cái)_動法提高了支持向量機(jī)的正確識別率。

表3 故障診斷結(jié)果對比分析Table 3 Comparison of the fault diagnosis results

4 結(jié)論

本文對集成學(xué)習(xí)方法在支持向量機(jī)上的應(yīng)用進(jìn)行了研究,通過模擬試驗(yàn)證明了支持向量機(jī)的穩(wěn)定性,說明了傳統(tǒng)集成學(xué)習(xí)方法對其泛化能力提升有限,進(jìn)而提出了雙重?cái)_動法。采用了適合的特征評估算法——ReliefF算法得到權(quán)重向量,進(jìn)而通過輪盤賭法得到子空間法所需要的特征子集,并與Bagging算法結(jié)合起來,形成了雙重?cái)_動法,在標(biāo)準(zhǔn)數(shù)據(jù)集及實(shí)際故障數(shù)據(jù)上進(jìn)行了試驗(yàn),結(jié)果表明,雙重?cái)_動法較好地提升了支持向量機(jī)的泛化能力。

[1] DIETTERICH T G.Machine learning research:Four current directions[J].AI Magazine,1997,18(4):97-136.

[2] VALENTINI G,MASULLI F.Ensembles of learning machines[R].Neural Nets WIRN Vietri-02,Series Lecture Notes in Computer Sciences,2002.

[3] VAPNIK V.統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M].張學(xué)工,譯.北京:清華大學(xué)出版社,2000.

[4] BREIMAN L.Bagging predictors[J].Machine Learning,1996,24:123-140.

[5] ZHANG Y Q,RAJAPAKSE J C.Feature selection for ensemble learning and its application[M].New Jersey:John Wiley & Sons,2008.

[6] HANSEN L K,SALAMON P.Neural network ensembles[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,1990,12(10):993-1001.

[7] DIETTERICH T G.Ensemble learning[J].The Handbook of Brain Theory and Neural Networks,2002:1-9.

[8] KIRA K,RENDELL A A.The feature selection problem:Traditional methods and a new algorithm[C]//Proceedings of the Ninth National Conference on Artificial Intelligence,1992:129-134.

[9] KONONENKO.Estimation attributes:Analysis and extensions of RELIEF[J].Proceedings of the 1994 European Conference on Machine Learning,1994(784):171-182.

[10] 胡橋,何正嘉,張周鎖.基于提升小波包變換和集成支持向量機(jī)的早期故障智能診斷[J].機(jī)械工程學(xué)報(bào),2006(8):16-22.

[11] 張岐龍,單甘霖,段修生,等.基于小波支持向量機(jī)的模擬電路故障診斷[J].電光與控制,2010,17(5):66-69.

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個(gè)P’維非線性不可約特征標(biāo)的非可解群
月震特征及與地震的對比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠的四個(gè)特征
詈語的文化蘊(yùn)含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 精品无码视频在线观看| 国产尤物视频在线| 国产精品一区在线观看你懂的| 曰AV在线无码| 国产区在线看| 国产综合网站| 日韩欧美网址| 国产成本人片免费a∨短片| 欧美精品亚洲日韩a| 免费女人18毛片a级毛片视频| 欧美成人看片一区二区三区 | 亚洲综合专区| 亚洲无码四虎黄色网站| 欧美日本一区二区三区免费| 中文字幕在线免费看| 国产成人高清精品免费5388| 亚洲一级色| 欧美成人精品高清在线下载| 国产97区一区二区三区无码| 黄网站欧美内射| 综合五月天网| www.99精品视频在线播放| 亚洲欧美日韩中文字幕一区二区三区| 99福利视频导航| 欧美一级专区免费大片| 欧美一级专区免费大片| 亚洲视频二| 91午夜福利在线观看| 精品日韩亚洲欧美高清a| 中文字幕久久波多野结衣| 一本一道波多野结衣一区二区| 东京热一区二区三区无码视频| 怡春院欧美一区二区三区免费| 大陆国产精品视频| 69av在线| 色屁屁一区二区三区视频国产| 91视频国产高清| 欧美人与牲动交a欧美精品| 欧美va亚洲va香蕉在线| 欧美激情视频一区| 毛片网站在线看| 国产一级妓女av网站| 日韩a在线观看免费观看| 亚洲人成网站色7777| 亚洲第一网站男人都懂| 日韩精品毛片| yjizz视频最新网站在线| 四虎永久在线视频| 91久草视频| 国产成人a毛片在线| 欧美在线三级| 亚洲Av综合日韩精品久久久| 国产精品免费久久久久影院无码| 麻豆国产精品视频| 狼友视频国产精品首页| 亚洲精品国产日韩无码AV永久免费网| 国产永久在线观看| 欧美www在线观看| 思思99热精品在线| a在线亚洲男人的天堂试看| 最新国产在线| 国产激情无码一区二区三区免费| 女人爽到高潮免费视频大全| 区国产精品搜索视频| 国产精品无码AⅤ在线观看播放| 福利在线不卡一区| 国产激情无码一区二区三区免费| 婷婷综合缴情亚洲五月伊| 亚洲天堂精品视频| 2021国产精品自拍| 国产视频入口| 国产一区二区三区免费观看| 亚欧美国产综合| 国产精品白浆无码流出在线看| 久久亚洲精少妇毛片午夜无码| 国产精品尤物在线| 九九这里只有精品视频| 自偷自拍三级全三级视频 | 久久精品aⅴ无码中文字幕| 欧美在线视频不卡第一页| 青青草原国产av福利网站| www.99在线观看|