哈 圣, 白楚楓, 杜建紅, 朱赤洲, 姜 華
(中國航發沈陽發動機研究所,遼寧 沈陽 110015)
航空發動機穩態數據受實際復雜工況影響,數據本身會具有一定的非定常性。受測量方式、工作環境、控制規律等多方面因素影響,穩態數據本身將存在噪聲,有時甚至存在一定的漂移[1-3]。隨著我國發動機試驗測試能力的提升,數據采集能力也有了較為顯著的提高,往往試驗過程中穩態數據樣本點數量在上千量級。隨著試驗考核項內容的不同,穩態數據樣本空間成倍增長,使得噪聲數據的數量也隨之增長。傳統的數據噪聲剔除與融合方法大多適用于小樣本空間,且數據分布特性基于單一正態分布特性假設[1,4],這類方法本身很難保證數據得到充分利用,且在時間尺度增加致使樣本空間加大時很難保證穩態數據樣本符合單一分布特性。航空發動機穩態數據在大樣本空間下的數據篩選便成為一個難題。
近些年,隨著人工智能的興起,國內外逐漸開始使用一些智能分類算法進行數據篩選,例如K-means聚類算法[5-6]、LOF檢測算法[7]等方法。文獻[8]中指出,K-means算法自20世紀60年代以來經Bradley與Berkhin等改進后,算法本身收斂速度得以提升并擴展到了分布式聚類領域,使其成為一種應用較廣、較為高效的聚類方法,在數據異常值剔除方面有著較為廣泛的應用。但此類方法依托閔可夫斯基距離,很難表征測量數據的分布特性和樣本概率。為了能夠盡可能地表征穩態數據本身的分布特性,考慮到小樣本空間的數據正態性假設[4],將其拓展至大樣本空間,采取高斯混合模型進行數據分類,從而篩選數據,并利用混合模型本身良好的回歸特性表征數據的概率特性。
目前,常見的高斯混合模型求解方法為期望極大(Exceptation Maximization,EM)算法[9-10],該算法因計算簡便得到了廣泛應用,但算法本身僅具有局部收斂特性,工程上往往采取多次計算,選擇最佳回歸解作為最終結果。為此,本文采用遺傳算法對EM算法進行優化,利用遺傳算法并行搜索得到模型求解結果全局最優。基于高斯混合模型求解結果篩選有效數據并將模型參數進行融合得到反映該穩定狀態的特征參數值。
混合模型作為統計學的一類重要模型,被廣泛應用于生物、金融、地質統計和社會科學等諸多領域。根據模型組合形式分為線性混合模型與非線性混合模型。線性混合模型中的子單元模型構造類型不同分為高斯混合模型、狄利克雷混合模型等。
根據文獻[4]、文獻[11]和文獻[12]可知,因發動機穩態數據采用等精度傳感器測量,并且在航空發動機試驗過程中測量形式符合中心極限定理使用情況,可認為發動機穩態數據基本符合正態分布特性,因此采用高斯混合模型作為數據分類模型,其概率分布為
(1)

對于高斯混合模型,工程上常采用EM算法求解,但該算法所得近似解本身僅具備局部最優。遺傳算法是一種模擬生物在自然環境中的遺傳和進化過程的自適應全局優化搜索算法。該算法因具有高效、實用、強魯棒性被廣泛應用于機器學習、模式識別、神經網絡、控制系統優化等多個領域[13]。在全局優化問題上,遺傳算法通過對當前種群施加選擇、交叉和變異等一系列遺傳操作,產生新的種群,并逐步使種群進化至群體最優,達到求解近似最優解的目的。因此,可利用該算法的全局搜索特點,求解高斯混合模型全局最優解。
遺傳算法雖然具有較強的全局收斂特性,但算法本身對局部搜索能力較差,這與算法本身的變異、交叉、擇優方式選擇相關。因此,為了增強算法局部搜索能力,且彌補遺傳算法因保證計算結果精度所帶來的迭代時間延長,將EM算法作為遺傳算法的補充算法,采用遺傳算法與EM算法的混合優化EM算法。EM算法在每次迭代過程中分為:E步,求解模型期望值;M步,求解模型極大似然估計值[14]。
具體求解過程如下。
① 給定分模型數量K,提取樣本數量為N的穩態數據樣本。
② 遺傳算法求解模型參數,得到粗略模型參數值。
③ E步,依據當前模型參數,計算分模型k對觀測數據yj響應度:
(2)
④ M步,計算新一輪迭代模型參數:
(3)
(4)
(5)
通過高斯混合模型對穩態樣本數據進行數據篩選,可以得到不同劃分數量以及當前模型參數下樣本統計特性。為防止高斯混合模型在使用過程中出現樣本數據的“過擬合”和“欠擬合”現象,選擇AIC信息準則[15-16]和BIC信息準則[17]作為混合模型回歸最優解的評判標準。具體計算方法為
AIC=2K-2lnL
(6)
BIC=KlnN-2lnL
(7)
式中:K為模型參數個數;L為模型極大似然函數值;N為樣本數量。
由于發動機試驗過程中穩態參數數據特性受控制規律、工作環境和測量設備特性影響,數據本身時不變性隨采集時間增長,數據波動性愈發顯現,部分參數存在溫漂、時漂的現象較為明顯。隨著采集時間增長,樣本空間中數據本身不再滿足單一正態分布。從時間域來看,可將數據視為由若干正態分布穩定工作點數據與噪聲混合疊加構成,波動性表現為若干穩定工作點間的數值切換。

通過選取經高斯混合模型篩選過的方差水平接近合理量級的分模型均值,對均值所劃分模型權重做加權平均即可得到穩態數據融合特征。具體算法為
(8)
式中:m為篩選方差后合理量級分模型總個數。
因為BIC信息準相較AIC信息準則而言,采用KlnN代替2K,在大樣本空間中較AIC數值低,具有更高的穩定性。充分利用AIC與BIC在不同樣本空間的適應性,采取對小樣本空間使用AIC值作為評判模型最優化參數、對大樣本空間使用BIC值作為模型最優化參數的方法。整個計算過程包括高斯混合模型求解、模型最優化形式確定和最優化模型參數特征值融合,具體計算過程如圖1所示。

圖1 穩態數據融合過程圖
為了驗證GA-EM混合優化算法較遺傳算法收斂速度提升,以及采用AIC/BIC信息準則后數據篩選結果準確性提高,使用樣本數據為300個N(600,5)、400個N(570,3)和300個N(610,7)作為穩態基本數據。為模擬發動機試驗過程中測量的數據噪聲,分別對穩態基本數據添加一定比例正弦與脈沖噪聲,添加后數據形式如圖2所示。

圖2 仿真數據折線圖
圖2中折線1為在穩態基本數據基礎上添加的脈沖信號,折線3、折線5分別為添加的10sin(300t)+15、40sin(300t)噪聲,其余折線為上述原始模擬樣本數據。
使用遺傳算法求解在圖2樣本數據下高斯混合模型,經計算高斯混合模型在[2,10]區間取整數時,經EM算法多次計算確定分模型個數為8時BIC值最小。遺傳算法選定種群規模為20,交配概率為0.8,變異概率為0.2,收斂標準選定為超過連續代數不進化,用StallGenLimit表示,其值分別設為50,100,150,200,400,600,800,1000,根據BIC值判定模型求解結果優劣,計算結果如表1所示。
由表1結果可知,遺傳算法作為一種啟發式搜索算法,其計算結果穩定性很難保證,算法本身受種群規模、交配率、變異率、適應度函數選取影響,一般為了使結果更加準確會選擇增加種群規模的方式提升樣本的多樣性。因此,本節增加種群規模至50,StallGenLimit設為1000,計算過程如圖3所示,樣本數據的分類結果如表2所示。

表1 不同StallGenLimit遺傳算法計算結果(種群規模=20)

圖3 種群規模=50,StallGenLimit=1000計算過程圖

表2 計算結果(種群規模=50,StallGenLimit=1000)
將表2計算結果與仿真樣本數據進行對比發現,根據方差與數據權重篩選可求得高斯混合模型的穩態基本數據的近似解為N(569.9303,2.7890)、N(609.7696,7.0112)、N(600.2323,4.6395),且AIC與BIC值分別為7623.123與7736.001。根據式(8)所得數據融合特征值為591.4626,與仿真數據穩態基本數據融合后的特征值591.7143相比,相對誤差為0.04%。
考慮算法局部收斂對初始值選擇的敏感性,將StallGenLimit設為100,作為遺傳算法的收斂標準,選定種群規模為20,交配概率為0.8,變異概率為0.2。按照2.2節中算法進行求解高斯混合模型,求解結果如表3所示,數據分類效果圖如圖3所示。

表3 GA-EM優化算法求解模型結果

圖4 數據分類效果圖
根據數據分布相似性原則和權重可知篩選出穩態基本數據近似解為N(569.9335,2.887734)、N(609.6485,14.21605)、N(599.6962,3.661312),且AIC與BIC值分別為7617.5367與7730.415。根據式(8)所得數據融合特征值為593.0123,與仿真數據穩態基本數據融合后的特征值591.7143相比,相對誤差為0.22%。
選取某型號發動機試驗過程中的某段推力穩態片段數據作為驗證數據。因測量故障原因,該數據片段存在噪聲,且信噪比較大,波動量明顯。為方便描述,對推力數據進行歸一化處理。經GA-EM求解后BIC最優的模型分類結果如圖5所示。

圖5 推力穩態片段分類結果
通過對比以往推力數據,根據分布相似理論選擇第1類、第3類作為穩態基本數據,其均值近似解按權重融合后為1.0058,進行大氣環境修正的換算推力歸一化結果為1.0119。將該結果與同一批次該發動機無測量故障數據對比,在同狀態下按低壓換算轉速插值得到大氣環境修正后的歸一化結果為1.0101。
本文基于測量數據正態性假設,使用高斯混合模型對穩態數據進行篩選,并對數據篩選結果進行數據融合。通過仿真對比與試驗數據驗證結果表明:
① 遺傳算法求解的模型速度較慢,且參數變量較多,對算法結果穩定性影響較大,采用GA-EM算法可加快收斂速度且算法計算結果相對穩定。
② 使用AIC/BIC作為數據篩選結果最優準則,可有效劃分數據類別。
③ 通過模型求解參數按照數據分布相似原則,對數據進行融合可得到較為準確的穩態參數特征值。
該方法對正態分布樣本或近似正態分布樣本數據進行篩選分類,通過權重和分布相似性原理進行數據篩選。但收斂速度主要受遺傳算法影響較大,而且EM算法初始值對遺傳算法計算結果較為敏感,雖然可以循環迭代使用GA-EM提升結果的準確性與穩定性,但仍需對遺傳算法進行改良,以加快收斂速度。