999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主成分分析和支持向量機的飛參階段劃分研究

2010-04-12 00:00:00李丹丹郎榮玲
現代電子技術 2010年8期

摘 要:主成分分析是一種應用廣泛的線性降維技術,它在保留住數據的重要成分的同時達到了對數據的降維。對高維、多屬性的飛參數據進行主成分分析,可以實現飛參的降維。支持向量機的學習方法則以其全局最優和泛化能力好的特點,實現對飛參階段的劃分。使用主成分分析后的數據進行階段劃分可以提高劃分速度,并且劃分效果更好。

關鍵詞:飛參; 主成分分析; 支持向量機; 階段劃分

中圖分類號:TP183文獻標識碼:A

文章編號:1004-373X(2010)08-0134-04

Classification of Flight Data Based on Principal Components

Analysis and Support Vector Machine

LI Dan-dan, LU Hui, LANG Rong-ling

(School of Electronic and Information Engineering, Beihang University, Beijing 100191, China)

Abstract:Principal components analysis (PCA) is a widely used linear technique for dimension reduction, which can also retain the main components of the data and realize the dimension reduction.The PCA of multi-dimensional and multi-attributed flight data was carried out, which can realize dimension reduction of flight data. The learning method of support vector machine(SVM) is able to achieve the classification of flight data due to the optimization on the whole data sets and excellent generalization ability. Classification using data after PCA can improve the speed and enhance the effects.

Keywords:flight data; principal components analysis; support vector machine; classification

0 引 言

飛參數據是由記錄儀記錄的、反映飛機飛行狀態和飛行性能的一系列數據。通過飛參數據,可以對飛機健康狀況進行監測,從而提高飛行的安全性;可以對飛行事故原因進行調查研究;還可以進行故障診斷和趨勢預測。針對飛參數據展開的各種研究在飛行領域有著指導性的意義[1-2]。

飛參數據包含了飛行中的多個參數,具有多屬性、維數高、數據量大的特點。如果直接將這樣的高維數據用于各項研究,很可能會影響到數據處理和分析的速度。因此,本文首先對飛參進行降維處理。常用的降維方法有兩種:一種是從現有的特征集中選出合適的子集,另一種是找到一些較少的變量、這些變量是原有變量的某些組合方式,使得這些組合可以反映原有變量所包含的主要信息,從而達到降維的目的[3]。這里采用主成分分析的方法對飛參進行降維處理,找到一組較少的輸入變量的線性組合作為新的變量,此方法已經被成熟地應用于高光譜數據的維數降低[4]、圖像的屬性約簡[5]和人臉部識別中的數據降維[6]等多個領域,達到了良好的維數約簡的目的。降維之后,數據運算量減少;另外,噪聲的干擾可能被降低,因為有時候數據中的最后幾個成分很有可能是由噪聲引起的。此外,在低維子空間上的映射對數據的解釋和可視化都有很大的幫助。

對飛參數據降維之后就可以方便地進行各種分析和研究。從飛參的來源來講,飛參數據由記錄儀連續記錄,包含了一次飛行的全過程,但是并沒有現成的諸如爬升、巡航和降落等各個階段的明確劃分。基于此,對飛參數據的階段劃分便于對不同飛行狀態下的飛行參數進行研究,可以為深層次的故障診斷和趨勢預測提供數據準備,進而開展有目的診斷;還可以為飛行參數之間關聯信息的挖掘提供階段信息。飛參的階段劃分反映到數學原理上即多屬性數據的分類問題。解決分類問題的方法有很多種,決策樹歸納方法、貝葉斯分類法、后向傳播分類方法、最近鄰學習法、遺傳算法、神經網絡方法和基于支持向量機的分類方法等。支持向量機的分類方法具有分類精度高、泛化能力良好和全局最優等特點[7-8],本文使用此方法對飛參進行階段劃分。

1 主成分分析

在多數實際問題中,數據的不同指標(屬性)之間具有一定的相關性,主成分分析就是將原來指標重新組合成一組新的互相無關的幾個綜合指標來代替原指標的方法,新的幾個綜合指標盡可能多地反映了原來指標的信息。

設要分析的數據集涉及p個指標,分別用X1,X2,…,Xp表示,這p個指標構成p維隨機向量X=(X1,X2,…,Xp)′。設隨機向量X的均值為μ,協方差矩陣為Σ。

對X進行線性變換,可以形成新的綜合變量,用Y表示,即,新的綜合變量可以由原來的變量線性表示:

Y1=u11X1+u21X2+…+up1Xp

Y2=u12X1+u22X2+…+up2Xp

 

Yp=u1pX1+u2pX2+…+uppXp

由于可以任意地對原始變量進行上述線性變換,由不同的線性變換得到的綜合變量Y的統計特性也不盡相同。因此為了取得較好的結果,總是希望Yi=ui′X的方差盡可能大且各Yi之間相互獨立,由于:

var(Yi)=var(ui′X)=ui′Σui

而對任給的常數c,有:

var(cui′X)=cui′Σuic=c2ui′Σui

因此對ui不加限制時,可使var(Yi)任意增大,問題將變得沒有意義。這里將線性變換約束在下面的原則之下:

(1) ui′ui=1,即u2i1+ u2i2+… + u2ip= 1(i = 1,2,…,p);

(2) Yi與Yj相互無關(i≠j;i,j=1,2,…,p);

(3) Y1是X1,X2,…,Xp的一切滿足原則1的線性組合中方差最大者;Y2是與Y1不相關的X1,X2,…,Xp所有線性組合中方差最大者;…;Yp是與Y1,Y2,…,Yp-1都不相關的X1,X2,…,Xp的所有線性組合中方差最大者。

基于以上三條原則決定的綜合變量Y1,Y2,…,Yp分別稱為原始變量的第一,第二,…,第p個主成分。其中,各綜合變量在總方差中占的比重依次遞減。

最后,需要確定主成分的個數。這是通過累積貢獻率完成的。累積貢獻率指的是前k個主成分的方差占所有成分的方差比重,它可以表示前k個主成分有多大的綜合能力。一般來說,累積貢獻率大于等于80%的主成分就基本足夠了。

2 支持向量機

2.1 基本原理

支持向量機(Support Vector Machine,SVM)是由Vapnik等人于20世紀90年代提出的一種基于結構風險最小化的機器學習方法。它通過非線性變換將輸入空間映射到一個高維空間(Hilbert空間),在這個新的空間中求得最優分劃超平面,從而將一個較為復雜的非線性問題轉化為簡單的線性問題[7]。SVM是一種較新的機器學習方法,它可以廣泛地應用于分類和回歸,諸如語音識別、人臉圖像識別和文本分類等。

支持向量機應用于分類領域即為支持向量分類機。其中,最基本的是線性可分支持向量分類機。其基本思想如圖1所示,它通過在兩類訓練數據中找到一個具有最大間隔的分類平面,從而得到一個線性分類器,可以對新加入數據進行類別辨識[9]。

圖1 線性可分支持向量分類機

2.2 C-SVC算法

C-SVC即C-支持向量機算法,它是在線性可分支持向量機的基礎上發展而來的。

第2.1節所述的線性可分支持向量機研究的是訓練集數據線性可分時的情況。在訓練集數據線性不可分時,需要引入核函數將輸入空間變換到高維空間,在此空間中求得最優超平面。

另外,訓練集數據線性不可分時,引入任何分劃超平面都會有錯劃,因此為每個訓練集數據引入一個松弛變量ξi將約束條件放松為yi(wxi+b)≥1-ξi。此時的分類目標為:既希望分類間隔最大,同時又希望錯劃程度最小,為了把這兩個目標綜合成一個目標,又引入了一個懲罰參數C作為綜合二者的權重,從而得到C-SVC算法,算法如下所述:

(1) 設已知訓練集T={(x1,y1),(x2,y2),…,(xl,yl)}∈(χ×y)l。其中:xi∈χ=Rn,yi∈y={-1,1},i=1,2,…,l;

(2) 選擇核函數K(x,x′)和懲罰參數C,構造并求解最優化問題:

minα12∑li=1∑lj=1yiyjαiαjK(xi,xj)-∑lj=1αj

s.t.∑li=1yiαi=0,0≤αi≤C,i=1,2,…,l

得最優解α*=(α1*,…,αl*)T;

(3) 選擇α*的一個正分量αj*,0<αj*

(4) 求得決策函數f(x)=sgn\\li=1yiαi*#8226;K(xi,x)+b*\\〗。

上述步驟是分類模型的訓練過程,接下來,使用分類模型可以對測試數據進行類標號的辨識,即分類辨識的過程。

2.3 核函數及相關參數

核函數及相關參數的選擇在很大程度上影響SVM分類效果。

核函數有很多種,諸如多項式核函數、高斯徑向基核函數、SIGMOD核函數和傅里葉核函數等。本文采用高斯核函數進行SVM訓練。高斯核寬度q的取值影響訓練得到的分類機的性能。

影響分類機性能的另外一個重要參數是懲罰參數C。C越大,對訓練集上的識別錯誤數越敏感,錯誤數越少,但泛化能力下降(即w增加);C越小則情況相反。通過調節C,能在泛化能力與訓練誤差之間進行平衡,因子C實質上是對經驗風險和表達能力如何匹配的一個裁決[10]。C和q的選取通常需要通過大量實驗來確定。

2.4 兩類分類到多類分類的實現

C-SVC算法最初解決的是兩類分類問題,但是實際的飛參數據通常包含了多個階段,這就需要將算法擴展以解決多類分類的問題。

飛參數據所包含的階段數量有限,也就是要處理的多類問題中的類的數量有限,所以本文采用成對分類的方法來實現飛參的多類分類。

假設飛參數據的類別數量為k,對k個階段的飛參數據進行多類分類的具體步驟如下:

(1) 將k類中的第i類和第j類數據作為訓練集進行支持向量機訓練,得到一個決策函數,此時第i類和第j類分別相當于此決策函數下的正類和負類;

(2) 對k類中的任兩類數據進行上述訓練,經過k(k-1)/2次訓練共得到k(k-1)/2個決策函數,構建了k(k-1)/2個兩類分類機。

(3) 對測試數據x使用每個兩類分類機判斷其所屬類別,屬于第i類則給第i類投一票,屬于第j類則給第j類投一票;

(4) 對數據x所屬的k個類別票數進行比較,得到票數最多的類別l即為數據x所屬的類別。

3 結果和分析

本文使用某型飛機一次飛行中的數據(共3 848個數據)進行分析和研究。這批數據包含了15個參數,分別是發動機低壓轉子轉速、發動機高壓轉子轉速、油門位置、起落架開關、縱向加速度、俯仰角、橫滾角、航向角、側滑角、指示空速、氣壓高度、總溫、升降速度、馬赫數和總剩油量。這里以0.8的累積貢獻率對其進行主成分分析,得到的特征值及貢獻率如表1所示。

表1 飛參數據主成分分析的特征值及貢獻率

主成分特征值貢獻率 /%累積貢獻率 /%

Y15.951 48839.676 639.676 6

Y22.108 81014.058 753.735 3

Y31.472 0459.813 663.549 0

Y41.210 6148.070 871.619 7

Y51.026 1916.841 378.461 0

Y60.936 6146.244 184.705 1

主成分分析后,數據由原來的15個指標降低為6個主成分。其中,第一主成分綜合了發動機低壓轉子轉速、發動機高壓轉子轉速、油門位置、縱向加速度、俯仰角、航向角、側滑角、指示空速、氣壓高度、升降速度和馬赫數的信息。起落架開關、總溫和總剩油量的信息則體現在了第二主成分中,橫滾角的信息分別體現在了后四個主成分中。此時,即用6個主成分來代表數據的15個初始指標,主成分綜合了原有指標80%的信息。

本文從數據集中選取3 448個數據作為訓練數據,剩余400個數據作為測試數據進行支持向量機訓練和分類。訓練集數據和測試集數據均包含了飛行的滑行、爬升、巡航、降落和著陸這五個階段。

支持向量機訓練和分類涉及到懲罰參數C和高斯核寬度q的選擇。本文通過固定一個參數、逐漸增大另一個參數的方法,在大量實驗之后得出如下結論:

(1) 對于原始數據

① 不存在一個范圍,使得參數取此范圍內的值時,對測試集的劃分結果完全正確;

② 在0

③ 在C=1,0

(2) 對于主成分分析后數據:在0.1

(3) 主成分分析后的數據在SVM訓練和分類方面的時間開銷均有明顯減小,如表2所示。

(4) 在C=1,q=0.001時,對于原始測試集和主成分分析后的測試集,劃分效果均達到最佳。

本文的實驗和測試均是在Windows XP Professional操作系統(PentiumR 4 CPU@3.20 GHz,3.19 GHz,1.0 GHz內存)、Visual C++ 6.0環境下進行。

表2 飛參數據SVM劃分的時間開銷和劃分效果

Cq訓練時間/ms分類時間/ms飛參劃分錯誤率/%

主成分分析前

10.001329 4531 17120

10.01154 5621 57941

主成分分析后

10.00115 1565940

10.015 3911870

選擇氣壓高度作為縱坐標將上述測試數據的四個分類結果如圖2所示。

圖2 主成分分析前后的分類結果對比圖

主成分分析前:在C=1,q=0.001時,可以將滑行階段、巡航階段和著陸階段正確劃分,但是爬升階段和降落階段中的部分數據被錯劃為巡航段。在C=1,q=0.01時,可以將巡航階段正確劃分,但是滑行階段、爬升階段、降落階段和著陸階段中的部分數據被錯劃為巡航段。錯劃的數據在圖2用橢圓標記了出來。

主成分分析后:在C=1,q=0.001和0.01時,五個階段均得到正確劃分。

4 結 語

本文針對飛參數據維數高、數據量大的特點,首先對數據做主成分分析來達到降維處理,然后使用支持向量機的方法對數據進行階段劃分。實驗證明,降維之后,飛參數據的數據量大大地減少了,支持向量機訓練和分類的時間開銷減少,并且階段劃分效果遠好于降維前的劃分效果。

參考文獻

[1]曲建嶺, 唐昌盛. 飛參數據的應用研究現狀及發展趨勢[J]. 計測技術, 2007, 27(6): 1-4.

[2]孫同江. 飛行數據的應用研究[D]. 南京: 南京航空航天大學, 2003.

[3]賀平. 數據挖掘中的分類方法及其在質譜數據中的應用[D]. 成都: 四川大學, 2005.

[4]王旭紅,肖平,郭建明. 高光譜數據降維技術研究[J]. 水土保持通報, 2006, 26(6): 89-91.

[5]孫穎楷,王光學. 基于PCA預處理的圖像特征屬性約簡[J]. 中國圖像圖形學報, 2007, 12(10): 1897-1900.

[6]楊云霞,寧惠君. 犯罪嫌疑人臉部識別中的降維處理和模式分類方法研究[J]. 陜西科技大學學報: 自然科學版, 2008, 26(10): 121-128.

[7]VAPNIK V.The nature of statistical learning theory[M]. New York: Springer-Verlag, 1995.

[8]WASNIOWSKI R A. Using support vector machines in data mining[D]. USA: California State University, 2005.

[9]鄧乃揚,田英杰. 數據挖掘中的新方法支持向量機[M]. 北京: 科學出版社, 2004.

[10]路倩. 聚類分析方法研究及其在飛行數據仿真系統中的應用[D]. 北京: 北京航空航天大學, 2008.

主站蜘蛛池模板: 亚洲精品国产日韩无码AV永久免费网| 五月激情综合网| 麻豆精选在线| 尤物亚洲最大AV无码网站| 丁香六月综合网| 国产在线精品人成导航| 日韩精品久久久久久久电影蜜臀| av手机版在线播放| 青草视频在线观看国产| 国产精品美人久久久久久AV| 日韩精品资源| 91毛片网| 欧美一区二区精品久久久| 国产精品99久久久久久董美香| 亚洲成A人V欧美综合| 亚洲愉拍一区二区精品| 一级毛片免费的| 欧美在线视频a| 久久九九热视频| 亚洲日产2021三区在线| 色妞永久免费视频| 亚洲精品第五页| 色亚洲激情综合精品无码视频 | 亚洲高清免费在线观看| 欧美在线一级片| 天天综合网色| 国产91丝袜在线观看| 国产成人精品亚洲日本对白优播| 精品剧情v国产在线观看| 欧美一级高清免费a| 亚洲午夜18| 日韩在线播放中文字幕| 亚洲精品国产首次亮相| 日本精品视频一区二区| 自慰高潮喷白浆在线观看| 成人福利在线免费观看| h视频在线播放| 日韩高清中文字幕| 国产XXXX做受性欧美88| 国产成人av大片在线播放| 啪啪啪亚洲无码| 在线欧美国产| 91无码人妻精品一区| 无码一区18禁| 丁香六月综合网| 精品伊人久久久久7777人| 亚洲综合亚洲国产尤物| 国产精品尹人在线观看| 欧美亚洲激情| 免费国产高清视频| 免费a在线观看播放| 亚洲人成网站日本片| 欧美日韩免费观看| 久久久久久午夜精品| 精品精品国产高清A毛片| 99久久人妻精品免费二区| 欧美在线视频a| 亚洲天堂久久| 久久久久88色偷偷| 国产午夜在线观看视频| 天天综合天天综合| 青青草91视频| 成人免费网站久久久| 制服无码网站| 国产一二三区在线| 中文字幕永久视频| 在线观看精品自拍视频| 日韩国产精品无码一区二区三区| 曰AV在线无码| 国产欧美精品一区二区| 成人福利视频网| 国内毛片视频| 国产成年女人特黄特色毛片免| 国产黑丝视频在线观看| 国产精品视频导航| 成人免费一级片| 91精品国产综合久久不国产大片| 日本精品中文字幕在线不卡| 在线观看国产精品一区| 国产精品高清国产三级囯产AV| 国产玖玖玖精品视频| 久久精品人人做人人|