谷潤平,來靖晗,魏志強
(中國民航大學空中交通管理學院,天津 300300)
隨著航班量不斷增長,其延誤情況愈發嚴重,若不及時分析所潛在的影響因素與規律,并研究相關估計模型以盡可能減小延誤損失,將對民航業各方的效益造成不良后果。因此,對其針對性的研究是十分必要的,同時,延誤預測研究將為民航相關部門的航班運行決策提供理論參考[1]。
目前,已有多種算法[2-14]進行了延誤預測的相關研究。國外,Kim[2]等研究了容量和需求對紐約地區機場延誤水平的影響;Mukherjee[3]等采用邏輯回歸和決策樹模型,預測機場地面延誤的發生;Noboru[4]等利用淺層人工神經網絡(ANN, artificial neural network)對機場空域進行延誤預測;Khanmohammadi[6]等引入多級輸入層神經網絡算法處理航班數據中的名義變量,以預測延誤;Pyrgiotis等[7]進行了近似網絡延誤建模,并運用排隊論模型進行單個機場的延誤計算;Rebollo[8]等利用隨機森林方法預測航班的平均離港延誤;國內,徐濤[9]等針對空運需求與機場容量沖突條件,采用增量式排列支持向量機算法進行延誤預警;程華[10]等結合航班數據特點,構建了基于C4.5決策樹方法的延誤預測模型;羅謙[11]等采用構建的非線性回歸模型,預測了大型樞紐機場的航班延誤;吳薇薇[12]等運用加權馬爾科夫鏈模型,對關鍵機場的整體延誤狀態進行預測;吳仁彪[13]等進行基于Spark并融合氣象數據的并行化航班延誤預測;張敏[14]運用集對分析的方法,建立了航班延誤預警模型。
綜上,國內外學者多以某一具體機場的延誤問題作為研究對象,且對延誤特性的統計量化規律研究有所欠缺;對延誤影響參數的優化研究較少,忽視了其預測效率和結構優化;另外,延誤預測建??紤]的影響因素較為局限,多是僅考慮航班時刻表中的參數數據,缺少全面性與系統性,在實踐應用中具有一定限制。近年來,面向大數據的深度學習方法廣泛應用于計算機視覺、語音識別、自然語言處理等方面,其性能明顯優于傳統算法[15]。鑒于此,首先利用數據處理與統計方法,全面分析航班延誤影響因素與規律,之后采用灰色關聯算法,進行延誤相關性分析以篩選出關鍵因素,最終實現基于灰色GA-BP神經網絡的延誤分析與預測建模方法,實現延誤的高精度估計,為提高航班正常率與運行效率提供研究思路,其方法示意圖如圖1。

圖1 航班延誤預測建模流程
航班延誤情況可能會出現明顯的差異性,即具有不同的延誤分布特性與規律[16,17],將航班延誤定義為實際起飛/到達相對于計劃起飛/到達時間的偏離,正值即為航班延誤時長。依據某航空公司2018全年的航班延誤統計數據,運用數據統計與處理方法,獲得基于時空屬性的起飛與到達延誤統計分布曲線,以進行延誤特性分析。
2.1.1 月統計延誤分布
對起飛延誤和到達延誤在全年每個月中的平均延誤情況進行統計,結果如圖2。每月的延誤水平會有一定差異,即波動性較強;全年的延誤水平隨著季節差異性而變化,其中平均延誤時長的分布浮動在20~80min之間,且7月份延誤狀況最嚴重。另外,到達平均延誤時間整體大于起飛平均延誤,且變化趨勢相似。

圖2 月統計延誤分布
2.1.2 周統計延誤分布
星期屬性在航班延誤程度上也有一定波動性,每日平均延誤時長具有一定差異性,每周平均延誤時長整體穩定在30~70min之間,如圖3。同時,在該條件下,航班到達延誤平均時間明顯較起飛延誤平均時間長。

圖3 周統計延誤分布
2.1.3 小時統計延誤分布
對于起飛與到達延誤水平,兩者變化規律趨于一致,且各時段隨著時間變量都具有明顯的強波動性,如圖4。另外,延誤時長較高的時段整體集中在8時和13時,即為繁忙時段。

圖4 小時統計延誤分布
2.1.4 空間分布統計分析
由圖5可知,由于不同機場規模以及發展水平等眾多因素的影響,導致不同機場的延誤水平具有較大差異性。因此,獲取所涉及機場的規模數據、正常性數據及其機場服務評級作為航班延誤的影響參數。

圖5 多機場統計延誤分布
由上述分布特性分析可知,航班延誤在時空屬性上具有強烈的關聯性。月份、星期和時段特征可以一定程度上來表征延誤分布特性及其航班延誤程度,同時考慮節假日的差異性,因此將是否節假日屬性與小時、星期和月份屬性作為時間影響參數。同時,各機場的起飛延誤和到達延誤具有明顯相似的變化趨勢,相關性較強,即起飛延誤會一定程度上影響到達延誤,是以將起飛延誤作為后續到達延誤估計模型的影響參數。
據此,結合民航航班正常統計辦法規定,以航空公司、機場、天氣和其它四個維度為出發點,基于航空公司歷史航班運行數據及獲取的相關影響參數數據,建立航班延誤估計指標體系,如圖6。通過處理該延誤相關數據,具體包括數據清洗、定量化及其多維匹配與融合,為后續延誤預測模型的構建提供基礎。

圖6 航班延誤估計參數指標
由上述航班延誤的分布規律與影響因素分析可知,各參數都能夠不同程度地反映延誤度,比較容易建立建模數據庫。然而,因獲取的影響因素數據具有多樣性的特點,且各因素影響下的延誤情況具有一定差異性,與歷史運行數據進行匹配后構建的數據庫,將會引入不必要的延誤預測誤差。因此,采用灰色關聯分析(Grey Relational Analysis,GRA)優選參數建模數據庫,依據關聯度大小來厘定延誤參數建模數據庫的有效性。
GRA是一種基于關聯性分析的多因素量化分析方法,其主要思想是根據相關計算得到影響因子間的灰色關聯度,以此衡量各因子與研究對象的關聯與貢獻程度[18]。因子之間具有越為相似的變化態勢與程度,則表明其關聯性越強?;疑P聯建模具體流程如下:
1)確定分析序列
令某航班的到達延誤時間(X0)為參考序列,且影響延誤各個指標參數分別為:航班號(X1)、機號(X2)、機型(X3)、計劃起飛(X4)、計劃到達(X5)、起飛機場(X6)、到達機場(X7)、航班性質(X8)、月份(X9)、星期(X10)、是否節假日(X11)、飛機狀態(X12)、起飛機場規模(X13)、到達機場規模(X14)、起飛機場正常性(X15)、到達機場正常性(X16)、起飛機場評級(X17)、到達機場評級(X18)、天氣狀況(X19)、延誤波及(X20)、流量控制(X21)、軍事活動(X22)、空管狀態(X23)、旅客(X24)、特殊事件(X25)、其它(X26)、起飛延誤(X27)為比較序列。
參考序列X0={X0(k)|k=1,2,…,n}與比較序列Xi={Xi(k)|k=1,2,…,n},(i=1,2,…,n)構成的矩陣為

(1)
2)無量綱化
為了消除各序列數據的量綱差異,利用均值化法進行延誤數據及其相關影響因子數據的處理,公式為
(i=1,2,…,27;k=1,2,…,n)
(2)
3)計算序列間關聯系數
X0與Xi的關聯系數公式如下

(3)

4)計算序列間關聯度
將各關聯系數ξ0i集中體現在一個值,即為關聯度。其值越大,表明兩者的幾何曲線形狀越接近,相關性越強。公式如下

(4)
5)序列間關聯度排序
對各比較序列與參考序列的關聯度由高到低進行排序,得到各影響因素與延誤的相關性結果,例如:假設γ01<γ02,即表示X1與X0更為一致,X1與延誤的相關程度更高。
優化模型的基本思路為:由于BP神經網絡具有易陷入局部極小值等不足,將遺傳算法(Genetic algorithm,GA)作為其優化方法,實現非線性與多維空間的全局尋優。首先,將延誤預測網絡的初始權值與閾值作為其遺傳染色體基因進行相關編碼,完成GA算法的種群初始化;然后,計算遺傳過程中的個體適應度,經由選擇、交叉和變異算子運行,得到高適應度的染色體并保留,繼而獲得新種群,直至達到算法終止條件[19]。
GA-BP網絡延誤預測模型構建流程圖如圖7,其優化建模的具體實現步驟如下所示:


(5)
式中:Xi為第i個數據樣本;Xmax為序列中的最大值,Xmin為其最小值。
2)GA參數設置及其種群初始化。標定遺傳中的種群規模為80,迭代次數為200,交叉及變異概率分別為0.6、0.08,并進行相關染色體基因編碼。
3)計算適應度。設定適應度為預測值和期望值之間的誤差平方和,公式為

(6)
式中:k為系數;n為輸出個數;yi為第i個神經節點的期望值,oi為其實際值。
4)隨機性選擇種群個體,并進行交叉和變異,從而生成新染色體,保留優化的染色體并遺傳至下一代得到新種群。
5)重復3)、4)步,當適應度收斂至迭代次數時,獲得最優染色體,以此作為BP網絡模型的初始權值與閾值。
6)設置BP參數。基于遺傳進化得到的初始權值與閾值,標定延誤預測網絡模型中的學習算法為Trainlm,學習率為0.01,訓練次數與目標分別為1000和10e-5。
7)將GRA優化的延誤影響因子數據與到達延誤時間數據輸入網絡。輸入層的神經節點獲取延誤影響因子數據后,由激活函數fX計算得到Y″,之后輸出到隱含層神經節點,并由激活函數gX計算得到Y,其運行公式為
Y″=fX(WinY′+θin)
(7)
Y=gX(WoutY″+θout)
(8)
式中:Y′、Y″和Y分別為輸入層、隱含層與輸出層;Win和θin分別為輸入層到隱含層之間的權值與閾值;Wout和θout分別為隱含層至輸出層之間的權值與閾值;fX為Logsig函數,gX為Purelin函數,公式為

(9)
gX=X
(10)
式中:X為輸入樣本數據。
8)計算輸出Y與輸入到達延誤時間數據間的誤差δ。將δ反饋至前兩層神經節點,分別修正每層神經節點的權值與閾值,并基于新的權值與閾值對7)步進行循環運算,直至δ小于訓練目標10e-5。

圖7 GA優化BP神經網絡流程圖
根據獲取的某航空公司2018年1月1日-2018年12月31日全年實際延誤數據及其相關參數數據,由式(1)對航班到達延誤及影響因素,取分辨系數ρ=0.5,根據式(2)、(3)、(4)計算關聯度,將特征按照關聯度由大至小排序,見表1。其中,關聯度閾值取0.8,即選擇灰色關聯度大于0.8的影響因子為主要影響因子,作為GA-BP網絡的輸入。

表1 延誤影響因子的灰色關聯分析結果
由表1中的灰色關聯度可知,航班號、機號、起飛機場規模及到達機場規模4個因子相比于其它因子而言與到達延誤的關聯度不大,表明該數據序列對到達延誤時間的影響能力不足,可作為無效數據點進行剔除。最終選取關聯度在0.8以上的23個影響因子作為GA-BP網絡模型的輸入神經元,到達延誤時間作為輸出結果。
利用預處理后的延誤優化參數數據庫,據經驗公式并通過網絡性能測試,確定中間層設置6個神經節點,進行灰色GA-BP網絡延誤預測模型構建。令網絡訓練集為隨機選擇的7000個樣本數據集,檢驗樣本為其余300個樣本數據集,對其進行網絡模型的學習訓練與效能驗證對比。
首先,通過GA算法優化延誤預測模型網絡,即獲得該網絡初始權值與閾值的最優解。隨著代數增加,適應度函數在遺傳進化中的變化曲線如圖8。經過多次迭代,種群個體的適應力得到增強,進化80代附近時個體適應度趨于穩定。

圖8 GA算法進化曲線
該延誤預測模型網絡的訓練誤差結果如圖9,在較少的訓練次數下,達到最佳驗證性能;延誤預測與期望的對比曲線如圖10,由預測的擬合曲線可知,灰色GA-BP網絡模型在航班延誤預測應用中的擬合程度與預測精度較高。

圖9 灰色GA-BP網絡延誤預測訓練誤差圖

圖10 預測與期望對比
為了進一步評估此灰色GA-BP網絡性能的質量與優化效果,針對進行灰色關聯模型篩選的關鍵因子數據和未篩選的原始數據,分別采用GA-BP網絡、BP網絡模型進行預測。將不同隨機數據組合分為5組進行試驗,運用相同模型參數,選擇絕對誤差(MAE)以及擬合優度(R2)作為模型性能指標,對該延誤預測模型的模擬和驗證結果進行評價與對比,結果見表2。

表2 模型指標評價結果
由表2可知,灰色GA-BP網絡延誤預測模型的擬合優度平均值為0.938,且每組均不小于0.8,平均絕對誤差僅為12.027,與未進行GRA與GA優化的延誤預測網絡模型相比,該模型性能與精度得到了提高,效果與適用性更好,驗證了其延誤估計的可靠性。
1)依據航空公司的實際延誤數據,對其延誤分布進行了不同條件下的統計分析,全面、系統地分析了延誤因素的影響,建立了延誤影響指標體系,為后續建模參數的選擇提供基礎。
2)以灰色關聯分析方法進行航班延誤相關性的度量,對多個變量指標進行了定量計算與篩選,優選了延誤影響參數,由此確定23個主要的決定指標參數作為輸入,后續模型結構得到簡化,網絡訓練效率得到提升。
3)灰色GA-BP延誤預測模型與優化前的網絡模型相比,平均絕對誤差至少下降了5%,提升了模型穩定性,優化了模型性能與精度,可為航班延誤預估提供支撐,從而有力降低延誤損失。