劉登一,侯勝利
(1.空軍勤務學院 研究生大隊,江蘇 徐州 221000; 2.空軍勤務學院 航材四站系,江蘇 徐州 221000)
備件是影響維修保障能力的關鍵因素,其籌、儲、供、管等方面決策的科學性與合理性,對于確保裝備正常運轉具有重要的作用[1]?,F代化高科技的局部戰爭對飛機備件保障提出了更高的要求,如何在資源經費有限條件下提高飛機備件保障能力,成為了近些年來戰斗機保障的突出問題。
為了實現對飛機備件快速準確的預測,需要運用降維思想對大量的備件消耗數據進行分析轉換,在所有特征變量中提取最能反映需求的主要成分,實現對特征空間的壓縮,提高數據的運算速度。關于飛機備件的預測問題,國內外的諸多研究者進行了深入的分析。常見預測模型有支持向量機模型、人工神經網絡模型、灰色模型、時間序列預測模型等。例如,文獻[2]利用非參數回歸進行航材消耗的預測,對新機航材消備件消耗預測性較好,但由于數據較少、沒有綜合考慮多方因素,無法準確把握飛機備件消耗的影響因素;文獻[3]利用GM(1,1)對新機備件進行需求預測,對于不確定性的新機備件消耗預測效果較好,但灰色模型沒有考慮消耗的隨機性問題,對中長期的預測精度較差;文獻[4]利用人工神經網絡對民航航材備件需求數據進行預測,模型預測結果誤差小、精度高,對非線性特點的航材需求具有較好的適應性,但神經網絡算法種類較多,且運行速度隨著模型復雜度和數據量的增加而極具變慢,不易作為計算機算法在航材業務系統中嵌入應用[5],且神經網絡容易陷入局部最小值,從而使得訓練沒完成就已經結束[6]。與國內備件預測方法不同,美軍利用美空軍提出的METRIC及其擴展模型,對初始備件進行預測,并以需求數據庫為基礎,利用加權滑動平均法對正常供應階段的備件需求進行預測。盡管對GM(1,1)和神經網絡等預測模型有了相當的研究,但在飛機備件預測中也沒有推廣應用,究其原因,這類模型計算體系復雜,只有對不同種類、不同壽命階段以及不同影響因素下的備件運用恰當的優化算法對參數進行優化,才能取得較好的預測效果,而對于數量占比巨大且符合多重共線性需求規律的消耗品和部分價值較高且易磨損的可修復備件來說,這類模型的計算速度慢,因此在實際應用中效果并不理想。
針對飛機備件需求影響因素較多、指標體系復雜等特點,本文提出了一種基于有偏估計的航材需求預測模型,綜合考慮了影響備件需求不同影響因素之間的關聯性,通過主成分分析(principal components analysis,PCA)對數據降維,利用嶺回歸[7]方法進行預測,有效提升了運算速度,預測精度與其他模型相差很小,且模型簡單且易于運行,既符合飛機備件需求預測的精度要求,又提高了計算速度,為大數據下飛機備件需求的預測提供了一種簡單可行的模型。
主成分分析(PCA)是一種非監督學習的降維技巧,它能將大量的相關變量轉化成一組很少的不相關變量,這些無關變量稱為主成分[8],并利用投影矩陣將高維信息數據映射到低維空間,并期望在所投影維度上數據的方差最大,在信息量不丟失的前提下,對原始數據進行降維,旨在使用較少的數據來反映原始數據的特性[9]。累計方差解釋比率反映了前k個主成分所代表的原始指標信息的百分比,一般要求累計方差解釋比率不少于85%。在實際問題中,主成分的選取,需要綜合計算速度和預測準確性來決定。
A.E.Hoerl在1962年首次提出嶺回歸方法,用以控制與最小二乘估計相關的方差膨脹性和產生的不穩定性。A.E.Hoerl和R.W.Kennard[10]對嶺回歸給出了具體的分析與證明。嶺回歸與最小二乘法十分相似,但與最小二乘法相比,嶺回歸采用有偏估計進行參數估計,最大優勢就在于它綜合權衡了誤差與方差[11],它放棄了最小二乘法的無偏性,以損失部分信息降低精度為代價獲得回歸系數,因此,它是更符合實際、更可靠的回歸方法。
本文將用主成分分析法(PCA)來實現數據的降維,這里直接調用R語言中的prcomp()命令進行主成分分析,主成分分析的算法以及具體實現見文獻[11]。有偏估計模型的實現主要分為兩步:一是通過PCA對變量進行降維;二是利用嶺回歸方法對測試集數據進行預測。
設有n個預測變量,x1,x2,x3,…,xn分別代表每個預測變量的n種特性,對有N個訓練樣本的訓練集來說,則可用N×n矩陣表示。由于預測變量之間的指標體系和單位數量級不同,因此需對數據按式(1)進行標準化處理,生成標準化矩陣Y,即:
(1)
(2)
式(2)中,rij為標準化矩陣Y中的yi和yj的相關系數,且rij=rji。利用得到的rij生成相關系數矩陣RN×n,之后對特征方程|λI-R|=0求解,求出特征值λn,然后按大小順序進行排序,即:
λ1≥λ2≥λ3…≥λn≥0

(3)
在主成分選取時,應首先考慮方差的解釋比率(PVE),一般情況下,取累計PVE達到85%~95%的主成分,其次應綜合衡量計算速度和準確性,選取主成分盡可能少,累計PVE多且精度相對高的主成分,主成分數量的選取可參考本文最后的算例。
設x1,x2,x3,…,xn是標準化變量,標準化過程按式(4)處理。
(4)
與最小二乘法不同,嶺回歸估計為:
β(k)=(XTX+λI)-1XTY
(5)
式(5)中:XTX為x1,x2,x3,…,xn的相關系數矩陣;β為嶺回歸估計;I為單位矩陣;λ(λ≥0)為嶺回歸參數。當自變量之間存在復共線關系時,|XTX|≈0,最小二乘估計求得的回歸系數會出現與實際情況很不符合的異?,F象,而XTX+λI接近異常的程度會比XTX接近異常的程度小得多,即最小二乘在復共線狀態下的偏差部分雖然為零,但它的方差部分卻很大,最終致使它的均方誤差很大,而嶺回歸是犧牲無偏性,換取方差部分的大幅度減少,最終降低其均方誤差。
本文利用十折交叉檢驗的方法對進行篩選,最終得到使交叉檢驗誤差最小的值。
首先對數據進行適用性判別,并利用主成分分析法對含有多個影響備件需求的變量進行篩選,得到對飛機備件需求量影響較大的幾個主成分,將計算后的因子作為嶺回歸模型的輸入變量,最終得到主成分分析優化后的飛機備件需求預測模型。計算過程如下:
1) 根據影響飛機備件需求的不同因素,收集相關數據,形成備件需求的原始數據集。
2) 對數據進行適用性判別等預處理工作后進行標準化處理,采用主成分分析法對數據進行處理,并選擇合適的主成分。
3) 根據篩選出的主成分,選擇訓練集和測試集。將訓練集數據輸入嶺回歸模型進行學習。
4) 采用十折交叉驗證方法選擇合適的,代入嶺回歸模型進行學習。采用選取最優的嶺回歸模型對測試集進行預測,得到相應的預測結果。
基于有偏估計模型的備件需求預測模型的計算流程如圖1所示。
通過對某場站備件保障情況進行分析后得出,影響該型飛機備件需求的影響因素包括以下幾個方面。
1) 飛行訓練任務。航材備件的消耗與飛行訓練任務直接相關,主要的影響因素有飛行時間、起落次數、飛行強度和飛行員技術等因素,一般來說,飛行時間越長,起落次數越多,飛行強度越大,備件消耗量越大,需求也就越大。
2) 飛機備件本身屬性。飛機備件的技術狀態、產品的質量和生產的工藝等因素都會對備件的消耗產生影響,技術越成熟、器材質量越好,故障率就會越小,備件的需求量也會減小。
3) 自然環境因素。自然環境對飛機備件的技術狀態產生較大的影響,其中溫濕度對備件的影響最顯著,按照保管要求,庫房內溫度應維持在5~30 ℃,濕度應維持在45%~60%,將溫濕度不在該范圍的視為異常溫濕度[12]。

圖1 計算流程框圖
算例選取發付量Y、飛行時間x1(小時)、飛行起落x2(次數)、操控人員熟練程度x3(百分比)、異常環境溫度x4(百分比)、異常環境濕度x5(百分比)、備件故障率x6(百分比)、維修人員技術水平x7(百分比)等7個飛機備件需求量影響因素進行分析,在滿足多重共線性需求規律的一次性消耗備件和部分價值較高的可修復備件中隨機選取10組數據,算例選取前6組數據為訓練樣本、后4組數據為測試樣本。
利用最小二乘法和R語言對變量進行線性判別分析得到表1,方差膨脹因子見表2,顯著性檢驗結果如表3所示。

表1 線性判別分析Table 1 Linear discriminant analysis

表2 方差膨脹因子Table 2 Variance expansion factor

表3 顯著性檢驗結果Table 3 Significance test
由表1和表3可知,Multiple R-squared =0.99和Adjusted R-squared=0.96數值較大,F=28.78通過了顯著性檢驗,總體來說擬合度較好,但在顯著性檢驗時發現,沒有變量通過檢驗且顯著性較弱,說明變量不適合用于最小二乘法建模,因此檢查變量之間是否存在多重共線性問題。通過R語言car包中的vif函數,利用方差膨脹因子(variance inflation factor,VIF)進行判斷,一般認為,vif>5,存在嚴重的多重共線性問題,由表2可知,變量的方差膨脹因子均大于5,說明變量之間存在多重共線性關系。
利用SPSS軟件對數據進行相關性分析,結果如表4所示。
由表4相關系數矩陣可知,變量之間具有很強的相關性,結合方差膨脹因子表明,各項指標之間具有較強的相關性和重疊性,變量之間存在多重共線性,因此適合采用主成分分析法。
將數據按式(1)標準化處理后得到標準化數據,如表5所示。
利用R語言中的prcomp()函數作為主成分分析工具,將表5數據進行主成分分析,得到各主成分方差解釋比例和載荷向量,如表6所示。累計方差解釋比率(proportion of variance explained,PVE)如圖2所示。

表4 相關系數矩陣元素Table 4 Correlation matrix

表5 標準化數據Table 5 Standardized data

表6 主成分載荷向量和方差解釋比率Table 6 Principal component load vector and proportion of variance explained

圖2 累計PVE折線
根據表6所得的主成分載荷向量,得到各主成分具體數據,選取前6組的相關數據作為訓練集,后4組的相關數據作為測試集,將訓練集帶入嶺回歸模型進行學習,運用R語言glmnet包中的cv.glmnet()函數進行十折交叉檢驗,篩選出最佳值,最后將測試集數據帶入模型得到最終預測的結果。根據預測性能綜合選擇主成分個數,主成分個數和預測結果之間的關系如表7所示。
由表6可知,當主成分選取2個時,累計PVE達到0.916 6,預測效果較好;當主成分個數大于2時,累計PVE雖然有所上升但并不明顯,且運算步驟增加導致運算時間增加,預測效果并不樂觀,因此綜合分析后,算例選擇2個主成分作為嶺回歸的輸入變量。
為了驗證模型預測的可靠性和準確性,采用支持向量回歸(support vector regression,SVR)[13]和RBF(radial basis function)核的支持向量機(support vector machine,SVM)[14]進行預測實驗對比。算例數據較少,γ和cost的值通過十折交叉檢驗獲得。筆者借助R語言,利用R語言e1071包中的tune()函數獲得最佳的γ和cost的值,預測結果比較如表8所示。

表7 預測結果對比Table 7 Comparison of prediction results

表8 模型比較結果Table 8 Model comparison results
根據表8的預測結果可知,對于具有多重共線性關系的變量來說,RBF-SVM的預測效果并不理想;SVR預測效果與有偏估計模型相當,但gamma和cost的選擇需要對大量數據進行交叉檢驗或者利用相關優化算法得到,增加了計算的復雜度且預測精度提高并不明顯;與其他模型相比,有偏估計模型的RMSE較小,擬合效果較好,計算簡單便捷且預測精度較高,對于處理數據量很大的數據集具有明顯的優勢。
對飛機備件需求進行合理的預測是備件訂貨的重要一環,根據不同因素綜合分析,備件的需求能夠使預測結果更加科學準確,從而節省大量的人力物力,提高備件保障的軍事效益和經濟效益。本文利用有偏估計的思想,首先利用主成分分析法對影響備件需求的多個因素進行分析篩選,有效縮小了數據的規模,降低了數據采集的難度,然后利用嶺回歸模型進行需求預測,結果表明,有偏估計模型能夠很好地解決具有多重共線性關系影響因素的飛機備件需求預測問題,對處理數據量大的數據集具有計算簡便、運算速度快等優勢,為飛機備件的合理預測提供了一種快速有效的模型。