曲晉瑤,徐志凌,竇海學,唐義號
(中國直升機設計研究所 產品部,江西 景德鎮 333001)
飛參數據是反映飛機飛行狀態和性能的一系列數據,目前已廣泛應用于飛行質量評估、飛機性能測試、故障診斷、事故調查等方面。從來源上講,飛參數據通常由飛行記錄儀記錄,包含整次飛行過程,但未對飛行階段如起飛、巡航、降落等進行明確劃分。然而飛機飛行狀態和性能在不同階段存在差異,質量評估、性能測試、趨勢預測等諸多研究均建立在階段劃分的思想上[1-2]。一般情況下,人為觀察高度數據變化趨勢可快速區分飛行階段。但為了獲取更全面和準確的信息,通常需要對數據庫中多次飛行數據進行階段劃分,人為劃分方法需要大量人力且易受主觀因素影響。因此,根據飛參數據自身特點,采用數據挖掘算法,開發一種飛參階段自適應劃分方法,實現大量飛行數據的準確階段劃分對在飛行領域開展深層次研究有重要的指導意義。
目前針對該領域研究的主要成果有:
(1)專家系統推理[3]:領域專家在長期工程實踐經驗中總結出飛參變化特征并建立知識庫,用計算機高級語言研制成推理機,實現正向精確推理。目前該方法在工程上應用較為廣泛,但一方面人工判讀需要耗費大量人力物力,且無法保證效率。另一方面不同機型性能存在差異,導致系統泛化性不強。
(2)有監督訓練:文獻[4]首先使用PCA方法對飛參進行維數約簡,再使用不同階段飛行數據對支持向量機模型訓練。文獻[5]首先獲取標準飛行動作模板數據,然后構建描述特征節點集合,最后使用貝葉斯網絡進行飛行動作識別。該方法在訓練樣本大量準確情況下可以取得較好效果,但大量標準飛行樣本數據不易獲取。
(3)無監督聚類:基于上述方法存在的問題,近年來不少學者嘗試使用無監督聚類對飛行階段自動劃分。文獻[6]將每幀飛行數據根據專家知識得到的隸屬度矢量作為模糊Kohonen網絡的輸入,得到標準飛行階段自適應劃分。但專家經驗權值向量同樣存在獲取代價大的問題。文獻[7]使用Kernel κ-means算法對飛參進行階段聚類。這些研究方法大都從聚類角度出發選取適當算法參數及飛參特征,并沒有根據飛參數據特點引導聚類。文獻[8]利用趨勢識別技術分析飛行數據法向過載參數變化趨勢,并以此為判據結合數據挖掘技術實現機動動作自動劃分,達到了較高精度,但算法參數過多,調參困難。
飛行數據一般為多維非線性時間序列,其階段劃分通??沙橄鬄槎嗑S非線性時間序列分類,而目前常用的分類算法如k-means等對多維非線性時間序列通常難以達到理想效果。此外飛參維度通常較高,不同維度間關系復雜,使得飛參特征及聚類算法選擇成為其主要研究難點。張建業等[9]證實飛行數據具有典型混沌特性,為開展飛行數據處理技術研究提供了新思路。文獻[10]表明,相空間重構法是分析混沌時間序列的有效方法,通過確定時間序列的延遲時間和嵌入維數得到重構混沌吸引子軌道。重構后的吸引子軌道表征為規則有形的軌跡,通常可將其看作高維空間流形,因此可采用適當的流形學習算法得到其拓撲結構。近年來許多學者使用相空間重構—流形學習方法在同樣具有強烈非線性的降噪、金融數據分析、故障診斷等問題中進行了深入研究[11-14],取得了較好效果。
綜上,本文提出一種基于相空間重構和流形拓撲結構的飛參階段自適應劃分方法APMFPS(Adaptive Partition Method for Flight Parameter Stage)。該方法首先使用C-C法將單次連續飛行中一維高度數據進行相空間重構,得到描述原系統內在動力學特性的混沌吸引子軌跡;然后將重構軌跡數據作為輸入,利用不同階段高度數據在相空間中呈現出不同流形形態,使用局部切空間排列算法LTSA(Local Tangent Space Alignment)得到其拓撲結構。經處理后,不同階段飛行數據在全局拓撲結構中沿不同軸向緊密排列,從而利用飛參內部結構性質實現階段自適應劃分。
APMFPS方法主要有兩大關鍵技術。首先是選取合適維度,采用適當方法求取合適延遲時間和嵌入維數完成相空間重構。其目的是在高維相空間中準確恢復表征系統運動規律的規則、有形的混沌吸引子軌跡,使其與原始時間序列動力學系統拓撲等價[15],即由重構系統獲取原始系統完整信息,為下一步工作奠定基礎。然后針對吸引子軌跡流形特征,結合飛參數據自身特點,選擇合適的流形學習算法得到吸引子軌跡拓撲結構,利用飛參內部結構特征實現階段自適應劃分。
相空間即決定狀態的幾何空間,系統在某一時刻狀態稱為相。對于多維時間序列動力學系統,系統任一分量的演化由與之相互作用的其他分量共同決定,因此相關分量信息蘊含在任一分量的發展過程中[16]。對于一維時間序列x1,x2,…,xn嵌入到m維相空間的矩陣表達式如式(1)

(1)
其中Yi為重構后相空間向量,i=1,2,…,N;N為重構后相空間向量個數,N=n-(m-1)τ;τ為延遲時間;m為嵌入維數;n為原始時間序列點數。因此采用適當方法求取合適的τ和m成為相空間重構的關鍵。
C-C法[17]是一種在工程上廣泛使用求取延遲時間τ和嵌入維數m的實踐方法。其主要思想是認為延遲時間窗口τw[18]不變,定義關聯積分及其統計量求取時間延遲τ和時間窗口τw,進而確定嵌入維數m,表達式如式(2)
τw=(m-1)τ
(2)
C-C法具體過程如下:
(1)定義重構相空間中嵌入時間序列每點Y(i)的關聯積分,關聯積分是一個累積分布函數,表示相空間中任意兩點間距離小于給定距離r的概率,表達式見式(3)
(3)

r>0,為給定距離值。M為相空間數據點數,N為原始時間序列數據點,m為嵌入維數,M=N-(m-1)τ。
(2)根據式(3)定義式(4)檢測統計量,將給定一維時間序列拆分成t個等長不相交的子時間序列,求取檢測統計量的值。
S1(m,N,r,t)=C(m,N,r,t)-Cm(1,N,r,t)
(4)

(5)
當N→∞時,計算上述每個序列S2(m,r,t)如式(6)
(6)
(3)選擇對應值最大和最小的兩個半徑r,按式(7)定義差量。
ΔS2(m,t)=max{S2(m,rj,t)}-min{S2(m,rj,t)}
(7)
分析可得,式(6)S2(m,r,t)~t反映了時間序列自相關特性。一般認為S2(m,r,t)值為零時相應時間序列滿足獨立同分布特征,可達到較好重構效果。式(7)度量了S2(m,r,t)~t對所有半徑r的最大偏差,最優延遲時間應選取S2(m,r,t)~t關系中所有半徑r相互差別最小時間點所對應的值,此時重建相空間中點最接近均勻分布,重構吸引子軌道完全展開。因此最優時延τ對應著S2(m,r,t)第一個零點或ΔS2(m,t)第一個極小值對應時刻。
實際計算中,可通過BDS統計得到N、m、r的適當估計值。通常取N=3 000(N值選取過大沒有意義),m=2,3,4,5,ri=iσ/2,i=1,2,3,4,計算式(8)、式(9)、式(10)的值。

我從小崇拜李錦文,全省有名的農民詩人嘛。不知不覺受他影響,連西裝領帶皮鞋,都選他喜歡的式樣和顏色。參加工作第一次期末家訪,我穿著他送的西裝,順帶著一一拜訪了父親記下的那些人家。臨出門,我抽出講義夾里的賬頁,向父親示意。他哼哼呀呀,眼里卻是笑盈盈的,我曉得,他眼巴巴地等著這一天呢。他也在示意我,帶著在墻上掛了十多年的挎包。我當然懂得他的意思,從讀小學一年級開始,我屁股上就被他用竹鞭抽得像草書字帖,所以,我一研墨揮毫,耳邊總會有竹鞭嗖嗖作響。
(8)

(9)
(10)
求取m和τ后,根據式(1)即可完成相空間重構。
重構后混沌吸引子為有規律流形軌跡,可選擇適當流形學習算法識別出其拓撲結構[19]??紤]到飛行是一個連續過程,相鄰軌跡點間關聯性高,因此需重點考慮軌跡局部幾何特征。LTSA算法作為一種典型非線性流形學習算法,采取先局部擬合后全局排列思想。首先利用樣本點鄰域切空間表示局部幾何性質,然后根據整體誤差最小化原則求取全局坐標排列[20],符合本文需求。給定采樣于d維流形M樣本集X={x1,x2,…,xn},N為樣本個數。算法主要步驟如下:
(1)確定鄰域:對每一個樣本xi(i=1,2,…,N),選擇與其最近的k個樣本(包含xi)構成局部鄰域Xi={xi1,xi2,…,xik}。
(2)基于PCA計算局部坐標:根據步驟(1)確定的鄰域,求投影矩陣V使各樣本到其投影距離平方之和最小,即
s.t.VTV=I
(11)
(3)局部坐標最優排列:設X的全局低維坐標為Y={y1,y2,…,yn},同時假設全局低維坐標Yi和局部坐標Θi滿足關系yij=Liθij+ci+εij,εij為xij重構錯誤,Li為每個鄰域Xi對應仿射變換矩陣,ci為鄰域Yi的排列中心,通過最小化下式局部誤差求取局部最優坐標排列。

(12)
(4)最小化所有鄰域排列誤差之和獲得低維全局坐標矩陣Y。

(13)
綜上,LTSA算法利用誤差最小化的思想得到全局坐標矩陣Y,在充分保留局部特征基礎上得到流形全局拓撲結構。但LTSA算法要求數據稠密均勻分布,且對噪聲敏感,因此在實際使用時要先對數據進行去噪平滑處理[21]。
實際應用時,考慮到高度可作為區分不同飛行階段的主要維度,因此選取一維高度時間序列進行相空間重構。APMFPS方法主要步驟如下:
步驟1:選取單次連續飛行數據中一維高度時間序列,首先對數據進行平滑去噪處理,而后利用C-C法求取合適延遲時間和嵌入維數。
步驟2:根據步驟1求出的和值驗證時間序列的混沌特性,進行相空間重構,得到混沌吸引子軌跡。
步驟3:將步驟2中的重構軌跡數據作為LTSA算法輸入,適當調整參數k值,得到其拓撲結構。理想情況下不同階段數據會因結構不同而呈現不同排列方式,進而完成階段劃分。
本文方法流程如圖1所示。

圖1 APMFPS方法流程圖
為驗證本文提出方法的有效性,選取某型號飛機某次連續飛行27 min數據(共16 078個)作為測試數據。該組數據包含40個參數,選取一維高度數據作為測試輸入。整個實驗環境在Windows XP操作系統、Matlab2016a環境下進行。
測試數據原圖像及平滑降噪后的高度圖像分別如圖2所示。
根據高度圖可對該次飛行過程進行階段劃分,如表1所示。

圖2 測試數據高度圖像

表1 測試數據階段劃分
選取高度序列中前3 000個數據,使用C-C法得到結果如圖3所示。

圖3 C-C法運算結果
為了進一步驗證結果準確性,根據時間延遲及嵌入維數數值求取高度時間序列最大lyapunov指數為0.003 8,最大lyapunov指數為正,證明系統確實具有混沌特性[22]。
重構后相空間整體軌跡及局部放大圖如圖4所示。

圖4 測試數據相空間重構結果
對重構結果直觀分析,所得軌跡在整體及局部上均呈現出一定規律性,是有形軌跡而不是雜亂無章排列,滿足混沌吸引子軌跡特征。
將重構后相空間數據作為LTSA算法的輸入,經多次試驗,選取參數k=8,輸出本征維數為3維。將LTSA輸出結果按表1劃分階段并做不同標記,結果如圖5a所示。
由圖5a可知,本文提出方法可準確劃分起飛、巡航平飛、爬升及下降階段,且將起飛、巡航爬升、下降3個主要階段映射到了三維坐標軸的3個維度上,這也正體現了飛參相空間軌跡在不同飛行階段呈現出不同流形形態,因而可采用LTSA算法得到其拓撲結構。

圖5 測試數據LTSA階段劃分結果
圖5a中巡航平飛段位于坐標軸中心處,將圖5a充分放大得到圖5b。由于圖5a中實線、雙劃線圖例在局部區域表示個別點時易產生混淆,為準確表示劃分結果,將圖5a中圖例更換為易于區別的幾何圖形。同時為了確保階段劃分的準確性,將兩次巡航爬升和下降階段區別開,使用同一圖例分別表示。分析圖5b可得,平飛階段整體分布于坐標軸中心處,可與其他階段在坐標空間較明顯區別開,且不同階段以坐標原點為中心各自向不同方向延伸。因平飛階段未體現出任何上升或下降趨勢,所以這樣分布也是合理的。同時在放大多倍后,各階段在圖中仍能準確區分,這進一步說明了本文方法的合理性。
進一步分析本文方法在同型號飛機三次不同飛行軌跡下的階段劃分效果。軌跡一、二、三的高度圖像、相空間重構及階段劃分結果分別如圖6、7、8所示,相關參數如表2所示。

圖6 軌跡一

圖7 軌跡二
綜合分析圖5~8可得,本文方法可實現不同軌跡下飛參階段準確劃分;分析圖4、6、7、8b、8c可得,不同飛行軌跡下相空間重構軌跡不同,說明本文方法是從系統內在屬性入手研究的;分析表2可得,本文方法在準確劃分階段情況下相關參數取值不同,說明本文方法可針對不同情況自適應求取參數,具有較好的泛化性;同時本文使用數據均來源于真實飛機長時間穩定飛行數據,具有較高可信度。綜上,本文方法可實現單次連續飛行數據飛參階段自適應準確劃分。

圖8 軌跡三

表2 實驗數據相關參數表
在5次不同飛行過程中共提取30組上升、下降、巡航序列片段,采用本文方法、SVM方法、k-means方法進行階段識別,分別計算平均識別率和平均計算時間。
在使用SVM方法時,選取15組數據作為訓練樣本,15組數據作為測試樣本。其中SVM的主要參數設置為C=1,q=0.001 5(此時SVM達到最佳識別率);由于本文方法不需要訓練樣本,因此直接使用SVM方法測試樣本的15組數據作為本文方法和k-means方法輸入,本文方法參數設置為τ=23,m=3,k=8;k-means方法參數設置為k=7,平均識別率和平均計算時間如表3所示。

表3 平均識別率和識別時間
分析表3可得,本文方法在此次訓練樣本的平均識別率上和SVM方法效果相同,15組測試樣本都識別出了13組,好于k-means方法,具有較高的識別率;在平均識別時間上略低于SVM方法,好于k-means方法。從平均識別率上分析:SVM方法是在實際分類過程中識別率較高的一種方法,而本文方法在不需要訓練樣本的情況下達到了和SVM方法相同的識別率,同時相比于k-means這種應用廣泛的無監督聚類算法,本文方法識別率更高,說明本文方法可以實現較為準確的飛行階段劃分。本文方法在平均識別時間上略低于SVM方法,而SVM方法訓練同樣需要一定時間,本文方法則不需要。所以綜合來看,本文方法在平均識別時間上更優。
本文利用一維高度數據重構混沌吸引子軌跡,較好地恢復了原系統動力學特征。使用LTSA算法得到重構軌跡拓撲結構,根據飛參不同階段流形結構不同實現飛參階段自適應劃分。結論如下:
(1)利用飛參內部結構性質實現階段劃分,無需任何先驗知識,具有較高準確性和較好泛化性。
(2)本文方法所需設置參數較少,只有1個,為實際應用時調參帶來方便。可直接處理單次連續飛行全部數據,通過去噪平滑處理將噪聲影響保持在可控范圍內,具有較高實用性。
進一步研究方向如下:
(1)采用適當無監督學習算法提取劃分結果,完成飛參階段自適應分類。
(2)提升方法性能。一方面選取除高度外其他能有效區分階段的特征量,進行多變量相空間融合;另一方面針對LTSA算法性能存在的不足,從多角度提高LTSA算法性能,從而達到更好的劃分效果。