陳振林,薛永亮
(海軍航空大學 岸防兵學院, 山東 煙臺 264001)
關于航材的預測,國內外學者采用了多種方法進行試驗擬合,其中包括線性回歸、神經網絡、支持向量機等方法[1-5]。線性回歸模型對缺少明確變化趨勢、離散型數據擬合較差,但其算法固定,通過規定的算法得出唯一結果,且其延伸性能較好;支持向量機是一種優秀的機器學習預測算法,能較好解決局部最優、過度學習等問題,對小樣本信息預測效果較好,但其對于較大步幅預測,由于缺少樣本支撐,經常擬合效果較差。
對某型引俄直升機航材消耗建立模型時,需要考慮兩個特點:一是機型較新、服役時間短,難以獲取足夠數據,不能劃分訓練集;二是機型備件國產化水平低,大部分要依靠進口,補給難度較大且易受多種因素影響,對該機型航材消耗,不僅要預測T+1時刻,還要預測T之后較長步幅的區間。基于上述問題,本文使用非參數回歸算法建立模型。非參數回歸是一種不對模型參數做任何假設的回歸算法[6],僅規定一些一般性條件,近年來該算法在多學科運用較為廣泛[7-13]。
回歸分析是應用最廣的統計分析方法,其一般模型數學表達式為:
Y=m(X)+U
(1)
式(1)中:X預測變量;Y是X的響應變量;U是隨機誤差,且滿足E(U|X)=0,E(U2|X)=σ2(X);m(·)是光滑函數[14]。若m(·)模型已知,參數未知即為參數回歸。對于模型的估計,需要一定的先驗知識做出強假設,否則會有較大偏差。當m(·)模型未知,該回歸函數即為非參數回歸,在分析時不做任何參數假定。
對該型直升機,預測時可以根據相似機型基礎上修正,計算出足夠量的先驗知識,利用貝葉斯大數定律預測[15-17]。但是類比推測的過程中不可避免會產生誤差,并且使用參數回歸形式一旦固定,經常擬合效果差。在這種情況下,當數據樣本容量足夠,使用非參數回歸具有一定的可行性,且應用范圍更廣,性能更穩健[18]。使用非參數回歸建模,不需要對數據樣本做先驗估計,僅依靠數據自身規律進行擬合,通過每個數據計算權重,使得回歸曲線具有整體性,對長步幅區間的預測效果較好[6],能較好解決該機型樣本數據少、預測長區間等問題。
非參數回歸有多種算法,最經典的是局部核回歸,對m(·)估計的數學表達式為:

(2)
式(2)中:k(·)是核函數;h是帶寬;Xi、Yi分別為預測變量與響應變量。如式(2)所示,平滑函數僅與X、Y相關,通過選取適當的核函數與帶寬,建立預測模型。
選取某型引俄直升機一種關鍵航材,統計8年的航材消耗數據。在8年時間內,該型飛機由于各種原因服役數量存在波動,在本文中,轉換為單機月平均消耗件數,方便預測模型的建立。其消耗序列如圖1所示,可以初步看出,消耗序列較為離散,有緩慢上升趨勢。利用非參數回歸模型,對數據樣本不做先驗假設,依據數據樣本自身特點進行回歸運算。
局部核回歸存在邊界帶估計偏差較大的缺點,對其回歸算法進行改進,建立局部多項式回歸[7]。其主要方法是在x的一個鄰域內,用多階多項式去估計光滑函數m(·),然后進行核函數加權,求出m(·)及各階系數。p階局部多項式估計是求下式最小值的解,即:
(3)

(4)
Y=(Y1,Y2,…,Yn)′
(5)
β=(β0,β1,…,βp)′
(6)
(7)
將式(3)轉化為:
M=(Y-Xxβ)TWx(Y-Xxβ)
(8)
即轉化為求式(4)的最小二乘問題。
取p=1,有:
(9)
經計算可得
(10)

圖1 航材消耗序列圖
核函數有多種選擇,通常有Triangle、Epanechnikov、Quartic、Triweight、Gaussian等核函數,有學者指出當帶寬h合適時,核函數的選擇對于回歸結果影響較小[20-22]。針對上述數據較為離散、變化趨勢不明顯的問題,使用高次方函數精確性會有一定提高[23],使用Triweight函數作為備選函數,其數學表達式為:

(11)
在試驗中發現,使用Triweight核函數,在序列兩端偏差較大,高次冪對權重影響較大,對該核函數改造為:
K(x)=(1-3x2+0.5x4)(1-0.2x2)
(12)
由此能有效降低高次冪在兩端的影響,一定程度消除偏差。
對于帶寬h的選擇優化問題,有了較多的研究,較多學者使用交叉驗證選取[20-24]。交叉驗證是通過構建均方誤差最小的估計量來確定最優帶寬,通過剩余數據量來預測響應變量,但對于預測外延有一定誤差,本文使用經典拇指法則[6],其數學表達式為:
h=1.06σn-0.2
(13)
式(13)中:σ為樣本方差;n為樣本個數。
為有效對比非參數回歸模型準確性,使用多種方法對消耗數據進行建模。使用前72個數據建立模型,預測73-84數據,與真實數據做對比。
數據檢驗是回歸建模的基礎工作,對數據的平穩性做出檢驗,若不滿足要求,在回歸擬合前需要進行偏差處理。使用Eviews進行單位根檢驗,檢驗結果如圖2所示。

圖2 平穩性檢驗結果
通過ADF(Augmented Dickey-Fuller)檢驗T值滿足要求顯著性檢驗,P值為0,認為消耗序列平穩,無需進行差分運算[15]。
分別使用最小二乘法 (Least Square Method)2階、3階、4階,自回歸滑動平均模型(Autoregressive Moving Average Model)、非參數回歸(Non-parametric Regression)等方法建模,仿真曲線如圖3所示。
由圖3可以看出,自回歸滑動平均模型對于長步距預測效果較差,最小二乘法擬合曲線由于序列自身波動性較大而缺少明顯趨勢,擬合過于平滑,但3階算法預測結果與實際消耗趨勢相同。非參數回歸由于兩端高次冪影響偏差較大,通過改進后模型有了較好優化,曲線擬合與實際消耗情況相近。

圖3 回歸仿真曲線
支持向量機(Support Vector Machine)對小樣本預測較為理想,多名學者在此基礎上進行了改進,取得了一定的成果[25]。為充分對比,本文使用SVM對上述仿真進行建模。在上文建模仿真中,73至84數據設為未知,因此在設計SVM試驗時,設置[1,60]數據為訓練集、[61,72]數據為標準集,對[61-84]數據預測擬合,其推導原理及試驗過程在此不做描述,仿真結果如圖4所示。

圖4 SVM仿真曲線
由圖4可以看出,由于前期數據支撐,對于近鄰階段預測效果較好,61~72仿真數據擬合較為理想,對比回歸曲線更加接近數據樣本。但74之后數據擬合效果較差,對于消耗數據上升趨勢未做有效預測分析。
為有效評價模型擬合效果,使用以下兩個指標分析對比不同模型的預測準確性。
1) 均值百分比誤差MAPE。其數學表達式為[10]:
(14)
2) 均方根差RMSE。其數學表達式為[10]:
(15)

對其后12項數據預測結果如表1所示。由表1可以看出,最小二乘3階模型與非參數局部多項式回歸預測效果接近,而改進后非參數局部多項式回歸預測效果明顯較好。

表1 預測效果對比
基于非參數回歸算法建立航材消耗預測模型,在建模時不對變量作強假設推定,通過樣本數據自身進行擬合,使得模型具有自適應性。利用局部多項式回歸算法建立模型,并根據數據特點修正模型,仿真實驗表明,對于多種回歸算法,基于非參數回歸的航材消耗預測模型擬合效果更好、預測誤差更小,具有較高的準確性。