羅鳳娥+張成偉
摘 ?要: 航班延誤一直作為國際國內民航業的一個熱點問題。通過對航班延誤的相關概念進行簡要介紹,建立時間序列預測模型,將數據挖掘中隱馬爾可夫模型和指數平滑預測方法應用于航班延誤預測分析中。通過與所采集時間點的實際航班延誤數對比分析來評估預測模型,得到較為理想的預測結果。該分析為航空公司運行指揮中心提供決策支持和理論依據,對保障航班正常運行有著重要的實際意義。
關鍵詞: 航班延誤; 數據挖掘; 時間序列模型; 決策支持
中圖分類號: TN911?34; V352 ? ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2014)24?0052?04
Forecasting analysis of flight delay based on time?sequence data mining
LUO Feng?e, ZHANG Cheng?wei
(College of Air Traffic Management, Civil Aviation Flight University of China, Guanghan 618307, China)
Abstract: Flight delay has been a hot issue existing in the civil aviation industries at home and abroad. The related concepts of flight delays are introduced briefly. A time?series prediction model was established to apply hidden Markov model (HMM) in data mining and exponential smoothing prediction method into the flight delay prediction analysis. The forecasting model is evaluated through comparative analysis of the actual flight delay quantity. A more satisfactory prediction result was obtained. The model provided a decision support for airport operations control center. It has important practical significance to guarantee the normal take?off and landing of flights.
Keywords: flight delay; data mining; time?series model; decision support
0 ?引 ?言
隨著航空運輸市場需求量的不斷增長,國內各大航空公司均相應增大了運力的投入,特別是在航班流量比較大的機場,延誤情況尤為突出。一旦發生大面積的航班延誤,如果沒有良好的應對機制不僅會產生旅客群體性事件,還會帶來一系列延誤所造成的波及效應。根據中國民用航空總局發布的《民航航班正常統計辦法》所列航班延誤原因就多達五大類:天氣原因;空中交通原因;機場保障原因;旅客自身原因;航空公司原因等。因此解決好航班延誤問題已成為民航運輸業快速發展的重要決定性因素[1]。
在國外Paul等研究人員建立了一種分析模型用來顯示空間容量、流量需求和航線規劃之間的相互作用關系,并可以將延誤的可控制因素隨機分離出來;而我國針對航班延誤問題的研究起步較晚,而且大部分研究主要都集中于流量管控方面。對比于國外航空運輸業的情況來看,我國有很多不同于國外的現實狀況,國內三大航空集團在運作中也是各自劃分成分子公司獨立運行的。
針對航班整體運行效率偏低這一實際情況,本文主要依據數據挖掘分類當中的預測方法,從航班延誤數量的角度建立航班延誤時間序列模型,進而進行時序數據挖掘。隱馬爾可夫模型 (Hidden Markov Model) 是一種統計模型,用來描述一個含有隱含未知參數的馬爾可夫過程,在統計學領域中不斷的被學者所認可并得到廣泛的應用;指數平滑法預測在實際生產預測中是被經常采納的一種預測方法。
本文基于隱馬爾科夫統計模型并結合指數平滑預測方法構建時間序列預測模型,數據項預處理的重點在于從已放行的航班信息表中統計出隨機采樣的進、離港航班延誤數量。以我院航空運行控制實驗室中的FOC系統數據庫2012年的航班進離港信息表為原始數據,計算出每個航班的延誤時間,進而累計出單位時段的延誤架次。
1 ?航班延誤
嚴格意義上講,按照航班計劃準時執行的航班才能叫做正常航班,否則叫做不正常航班。在航空運輸背景下所使用的延誤和正點的概念有多種定義[2]。
圖1闡述了延誤的不同定義的使用情況。鑒于延誤成本對航空公司來說影響很大,這里將延誤定義為一架航空器的撤輪檔/放輪檔時間相對于航空公司公布的航班時刻表時間之間的差別。此概念的標準相對最為清晰,并與航空運輸系統的最終用戶,即乘客的聯系最為直接。在本文中所使用的延誤定義如圖1右側所示。
根據中國民航總局規定,機票上標明的時間與航空公司在航班時刻表上公布的時間是一致的,這一時間的準確表述為“離港時間”,即“飛機關艙門時間”,“進港時間”,即“飛機打開艙門時間”。
圖1 延誤的相對概念
根據表1航班延誤判斷標準的說明,飛機按機票上標明的時間關閉艙門,并在15 min,20 min,25 min或30 min內起飛,屬于正常起飛航班。
表1 航班延誤的判斷標準
2 ?航班延誤時序事件模型
2.1 ?航班原始數據分析
本文從航班延誤數量的角度建立時間序列預測模型,從現有航班信息表中統計出不同時段的進、離港航班延誤數量來進行數據項預處理。以我院航空運行控制實驗室中的FOC系統數據庫2012年的航班信息表為原始樣本數據。該表按時間順序記錄了進、離港航班的計劃起降時間、實際起降時間、開/關艙門時間等相關信息。依據信息表中各項信息進一步計算出每個航班的延誤時間,累計出單位時段的航班延誤量。航班信息如表2所示。
表2 航班信息表
2.2 ?模型結構
時序數據挖掘包括許多常規的數據挖掘方法[3],可以基于相似性對時間序列數據進行聚類,也可以對未來值進行預測。一個時序數據庫(Temporal Database)中,保存的不是一個時間點的數據,而是大量時間點上的數據。本文主要研究對未來值進行預測的方法中針對時序事件序列建模方式的一種:隱馬爾可夫模型(Hidden Markov Model,HMM)。首先介紹隱馬爾可夫模型定義如下:
隱馬爾可夫模型[4]是一個有向圖,頂點V={v1,v2,…,vn}代表狀態,弧A={|vi,vj∈V}代表狀態之間的轉移。每條弧用從vi到vj的轉移概率pij來表示。任意時刻t,一個狀態被設為當前狀態vt,任何將要進行的轉移只依賴于vt而不依賴于t之前的其他狀態。圖2所示為一個隱馬爾可夫模型的例子。
圖2 簡單的隱馬爾可夫模型
圖2所示模型和馬爾可夫模型之間的一個最明顯的區別是附加概率的出現。注意一個含有N個狀態的一階過程有N2個狀態轉移。每一個轉移的概率叫做狀態轉移概率,就是從一個狀態轉移到另一個狀態的概率。這所有的N2個概率可以用一個狀態轉移矩陣來表示,其表示形式如下:
[A=a11a12…a1j…a1Na21a22…a2j…a2N??…?…?ai1ai2…aij…aiN??????aN1aN2…aNJ…aNN,aij=P(qt=jqt-1=i), ? ?1≤i,j≤N] ? ? (1)
對該矩陣有如下約束條件:[aij≥0,?i,j] ? ?[j=1Naij=1,?i]。如下為基于式(1)的航班延誤實例的狀態轉移矩陣(主要選取三大類延誤影響因素):
[ ? ? ? ? Todayα ? ? ? ? ? β ? ? ? ? ? ?γ]
[Yesterdayαβγ0.500.3750.1250.250.1250.6250.250.3750.375] (2)
式中:α表示天氣原因導致的航班延誤;β表示空中交通原因導致的航班延誤;γ表示機場保障原因導致的航班延誤。式(2)表示,如果昨天是天氣原因導致的延誤,那么今天有50%的可能還是天氣原因導致,37.5%的概率是空中交通原因導致延誤,12.5%的概率是機場保障原因導致的延誤,可以看出矩陣中每一行的和都是1,為了初始化這樣一個系統需要一個初始的概率向量為:(1.0,0.0,0.0)。
每個隱馬爾可夫模型有以下附加部分:
(1) 初始狀態分布,它用于確定0時刻的初始狀態v0。
(2) 每條弧用一個從vi到vj的轉移概率pij來標記,這個值是固定的。
(3) 給定一組可能的觀測值O{o1,o2,…,ok},每個狀態vi都包含一組分別對應各個觀察值的觀測概率{pi1,pi2,…,pik}。給定一個隱馬爾可夫模型,可以用如下算法生成一個觀測序列。在算法中設產生的觀測序列包括m個觀測值,變量t表示時間。
輸入:H ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?//隱馬爾可夫模型
輸出:
S= ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?//輸出序列
隱馬爾可夫模型觀測序列算法:
t=0
Based on initial state distribution,determine vt;
repeat
Output ?st ?based on observation probabilities { pt1,pt2,…,ptk };
Choose ?vt+1 ?based on transition probabilities at ?vt ;
t=t+1;
until ? t=k ;
2.3 ?時間序列預測分析
時間序列[5]是一個具有n個值的集合{,,…}。這里假定有n個時間值,每個時間值與一個屬性A的值相互關聯。通常情況下,這些值由一些經過明確定義的時間點來標識,可以認為這些取值是一個向量。
本文采用常用的數據挖掘預測方法,針對時間序列的典型數據挖掘應用中的一種,給定一個具有一組已知值的時間序列,預測屬性未來值。2012年4月1日—4月15日,連續預測15天,每天取15個預測點,共計225個預測點,數據挖掘所使用的數據訓練集合從2012年1月1日—2012年3月31日,所采用預測方法和相應結果如下:平滑(smoothing)就是一種去除時間序列中非系統化行為的方法。指數平滑[6]的原理為:當利用過去觀測值的加權平均來預測未來的觀測值時,離得越近的觀測值要給予更大的權。指數平滑法通過對權數加以改進,能提供良好的短期預測精度,因而實際應用較為廣泛。本文采用一次指數平滑法的基本思想來解決航班延誤預測模型的分析。如果用Yt表示在t時間平滑后的數據(或預測值),而用X1,X2,…,Xt表示原始時間序列,那么一次指數平滑模型為:
[Yt=?Xt+(1-?)Yt-1, ? ?0<?<1]
或:
[Yt=?k=0t-1(1-?)kXt-k] (3)
這里的系數為幾何級數,一次指數平滑模型用于預測的公式為:
[Yt+1=?Xt+(1-?)Yt] (4)
需要注意的是對距離預測期較近的觀察值賦予相對較大的權重,對距離預測值比較遠的觀察值賦予較小的權重,權數由近及遠按指數規律遞減。指數平滑法主要任務就是要利用已知的航班延誤觀測值來確定[?]的值,合理確定[?]的取值方法十分重要。一般來說,當時間序列波動很大,長期趨勢變化幅度較大,呈現明顯且迅速的上升或下降趨勢時,宜選擇較大的[?]值,如可在0.6~0.8間選對應的權值,達到預測模型精度高的目的,以便于能迅速跟上數據變化的趨勢。根據式(3)、式(4)和統計出的航班延誤量數據,本文中[?]取值為0.7從而得到預測模型,然后利用該模型進行航班延誤預測。圖3給出了預測結果。通過指數平滑法的預測曲線圖以及預測結果對比可以看出,預測結果較為理想,趨勢基本和實際情況保持一致。
3 ?模型評估
在模型評估階段,對所建立的預測模型進行評價必須基于一定的評價指標[7],本文選擇如下統計量檢驗預測效果:
(1) 均方根誤差(Root Mean Square Error):
[RMSE=1ni=1n(yi-yi)2] ?(5)
(2) 平均絕對百分比誤差(Mean Absolute Percentage Error):
[MAPE=1ni=1nyi-yiyi] (6)
(3) 平均絕對誤差(Mean Absolute Error):
[MAE=1ni=1nyi-yi] ?(7)
式中:[yi]為實際值;[yi]為預測值。由式(5)~式(7)經對航班延誤數據的預測值和實際值進行統計分析得出模型評估結果如表3所示。
表3 方差分析
由表3分析得出組內方差和均方差SS=MS=0.011 059,F檢驗結果F=0.000 35說明使用指數平滑法對航班延誤預測模型的分析試驗精度較高,有較為理想的效果。
4 ?結 ?語
(1) 本文以航班信息表作為主要研究對象,針對航班延誤問題建立了時間序列預測模型,使用指數平滑預測方法實現對航班延誤預測分析取得了較好的預測結果,證明了所建立的模型和算法的可行性。
(2) 一次指數平滑法有其局限性,短期預測效果精確度較高但不適合在中長期預測中使用,由于預測值是采取的歷史數據平均值,故與實際序列的變化相比有滯后現象。這一問題將在今后的學習中作進一步研究。
圖3 指數平滑法的預測結果
參考文獻
[1] 朱金福.航空運輸規劃[M].西安:西北工業大學出版社,2009.
[2] 中國民用航空總局.大型飛機公共航空運輸承運人運行合格審定規則[EB/OL]. [2010?01?04].http://www.caac.gov.cn/B1/B6/201003/t20100319_31073.html.
[3] DUNHAM M H.數據挖掘教程[M].郭崇慧,田鳳占,譯.北京:清華大學出版社,2005.
[4] KANTARDZIC Mehmed.數據挖掘概念模型和算法[M].王曉海,吳志剛,譯.北京:清華大學出版社,2013.
[5] 毛國君,段立娟,王實,等.數據挖掘原理與算法[M].北京:清華大學出版社,2005.
[6] 羅鳳娥,賈振振.基于模糊綜合評價法的航空公司延誤控制水平分析[J].科技創新報,2013(6):88?89.
[7] 呂曉玲,謝邦昌.數據挖掘方法與應用[M].北京:中國人民大學出版社,2009.
本文采用常用的數據挖掘預測方法,針對時間序列的典型數據挖掘應用中的一種,給定一個具有一組已知值的時間序列,預測屬性未來值。2012年4月1日—4月15日,連續預測15天,每天取15個預測點,共計225個預測點,數據挖掘所使用的數據訓練集合從2012年1月1日—2012年3月31日,所采用預測方法和相應結果如下:平滑(smoothing)就是一種去除時間序列中非系統化行為的方法。指數平滑[6]的原理為:當利用過去觀測值的加權平均來預測未來的觀測值時,離得越近的觀測值要給予更大的權。指數平滑法通過對權數加以改進,能提供良好的短期預測精度,因而實際應用較為廣泛。本文采用一次指數平滑法的基本思想來解決航班延誤預測模型的分析。如果用Yt表示在t時間平滑后的數據(或預測值),而用X1,X2,…,Xt表示原始時間序列,那么一次指數平滑模型為:
[Yt=?Xt+(1-?)Yt-1, ? ?0<?<1]
或:
[Yt=?k=0t-1(1-?)kXt-k] (3)
這里的系數為幾何級數,一次指數平滑模型用于預測的公式為:
[Yt+1=?Xt+(1-?)Yt] (4)
需要注意的是對距離預測期較近的觀察值賦予相對較大的權重,對距離預測值比較遠的觀察值賦予較小的權重,權數由近及遠按指數規律遞減。指數平滑法主要任務就是要利用已知的航班延誤觀測值來確定[?]的值,合理確定[?]的取值方法十分重要。一般來說,當時間序列波動很大,長期趨勢變化幅度較大,呈現明顯且迅速的上升或下降趨勢時,宜選擇較大的[?]值,如可在0.6~0.8間選對應的權值,達到預測模型精度高的目的,以便于能迅速跟上數據變化的趨勢。根據式(3)、式(4)和統計出的航班延誤量數據,本文中[?]取值為0.7從而得到預測模型,然后利用該模型進行航班延誤預測。圖3給出了預測結果。通過指數平滑法的預測曲線圖以及預測結果對比可以看出,預測結果較為理想,趨勢基本和實際情況保持一致。
3 ?模型評估
在模型評估階段,對所建立的預測模型進行評價必須基于一定的評價指標[7],本文選擇如下統計量檢驗預測效果:
(1) 均方根誤差(Root Mean Square Error):
[RMSE=1ni=1n(yi-yi)2] ?(5)
(2) 平均絕對百分比誤差(Mean Absolute Percentage Error):
[MAPE=1ni=1nyi-yiyi] (6)
(3) 平均絕對誤差(Mean Absolute Error):
[MAE=1ni=1nyi-yi] ?(7)
式中:[yi]為實際值;[yi]為預測值。由式(5)~式(7)經對航班延誤數據的預測值和實際值進行統計分析得出模型評估結果如表3所示。
表3 方差分析
由表3分析得出組內方差和均方差SS=MS=0.011 059,F檢驗結果F=0.000 35說明使用指數平滑法對航班延誤預測模型的分析試驗精度較高,有較為理想的效果。
4 ?結 ?語
(1) 本文以航班信息表作為主要研究對象,針對航班延誤問題建立了時間序列預測模型,使用指數平滑預測方法實現對航班延誤預測分析取得了較好的預測結果,證明了所建立的模型和算法的可行性。
(2) 一次指數平滑法有其局限性,短期預測效果精確度較高但不適合在中長期預測中使用,由于預測值是采取的歷史數據平均值,故與實際序列的變化相比有滯后現象。這一問題將在今后的學習中作進一步研究。
圖3 指數平滑法的預測結果
參考文獻
[1] 朱金福.航空運輸規劃[M].西安:西北工業大學出版社,2009.
[2] 中國民用航空總局.大型飛機公共航空運輸承運人運行合格審定規則[EB/OL]. [2010?01?04].http://www.caac.gov.cn/B1/B6/201003/t20100319_31073.html.
[3] DUNHAM M H.數據挖掘教程[M].郭崇慧,田鳳占,譯.北京:清華大學出版社,2005.
[4] KANTARDZIC Mehmed.數據挖掘概念模型和算法[M].王曉海,吳志剛,譯.北京:清華大學出版社,2013.
[5] 毛國君,段立娟,王實,等.數據挖掘原理與算法[M].北京:清華大學出版社,2005.
[6] 羅鳳娥,賈振振.基于模糊綜合評價法的航空公司延誤控制水平分析[J].科技創新報,2013(6):88?89.
[7] 呂曉玲,謝邦昌.數據挖掘方法與應用[M].北京:中國人民大學出版社,2009.
本文采用常用的數據挖掘預測方法,針對時間序列的典型數據挖掘應用中的一種,給定一個具有一組已知值的時間序列,預測屬性未來值。2012年4月1日—4月15日,連續預測15天,每天取15個預測點,共計225個預測點,數據挖掘所使用的數據訓練集合從2012年1月1日—2012年3月31日,所采用預測方法和相應結果如下:平滑(smoothing)就是一種去除時間序列中非系統化行為的方法。指數平滑[6]的原理為:當利用過去觀測值的加權平均來預測未來的觀測值時,離得越近的觀測值要給予更大的權。指數平滑法通過對權數加以改進,能提供良好的短期預測精度,因而實際應用較為廣泛。本文采用一次指數平滑法的基本思想來解決航班延誤預測模型的分析。如果用Yt表示在t時間平滑后的數據(或預測值),而用X1,X2,…,Xt表示原始時間序列,那么一次指數平滑模型為:
[Yt=?Xt+(1-?)Yt-1, ? ?0<?<1]
或:
[Yt=?k=0t-1(1-?)kXt-k] (3)
這里的系數為幾何級數,一次指數平滑模型用于預測的公式為:
[Yt+1=?Xt+(1-?)Yt] (4)
需要注意的是對距離預測期較近的觀察值賦予相對較大的權重,對距離預測值比較遠的觀察值賦予較小的權重,權數由近及遠按指數規律遞減。指數平滑法主要任務就是要利用已知的航班延誤觀測值來確定[?]的值,合理確定[?]的取值方法十分重要。一般來說,當時間序列波動很大,長期趨勢變化幅度較大,呈現明顯且迅速的上升或下降趨勢時,宜選擇較大的[?]值,如可在0.6~0.8間選對應的權值,達到預測模型精度高的目的,以便于能迅速跟上數據變化的趨勢。根據式(3)、式(4)和統計出的航班延誤量數據,本文中[?]取值為0.7從而得到預測模型,然后利用該模型進行航班延誤預測。圖3給出了預測結果。通過指數平滑法的預測曲線圖以及預測結果對比可以看出,預測結果較為理想,趨勢基本和實際情況保持一致。
3 ?模型評估
在模型評估階段,對所建立的預測模型進行評價必須基于一定的評價指標[7],本文選擇如下統計量檢驗預測效果:
(1) 均方根誤差(Root Mean Square Error):
[RMSE=1ni=1n(yi-yi)2] ?(5)
(2) 平均絕對百分比誤差(Mean Absolute Percentage Error):
[MAPE=1ni=1nyi-yiyi] (6)
(3) 平均絕對誤差(Mean Absolute Error):
[MAE=1ni=1nyi-yi] ?(7)
式中:[yi]為實際值;[yi]為預測值。由式(5)~式(7)經對航班延誤數據的預測值和實際值進行統計分析得出模型評估結果如表3所示。
表3 方差分析
由表3分析得出組內方差和均方差SS=MS=0.011 059,F檢驗結果F=0.000 35說明使用指數平滑法對航班延誤預測模型的分析試驗精度較高,有較為理想的效果。
4 ?結 ?語
(1) 本文以航班信息表作為主要研究對象,針對航班延誤問題建立了時間序列預測模型,使用指數平滑預測方法實現對航班延誤預測分析取得了較好的預測結果,證明了所建立的模型和算法的可行性。
(2) 一次指數平滑法有其局限性,短期預測效果精確度較高但不適合在中長期預測中使用,由于預測值是采取的歷史數據平均值,故與實際序列的變化相比有滯后現象。這一問題將在今后的學習中作進一步研究。
圖3 指數平滑法的預測結果
參考文獻
[1] 朱金福.航空運輸規劃[M].西安:西北工業大學出版社,2009.
[2] 中國民用航空總局.大型飛機公共航空運輸承運人運行合格審定規則[EB/OL]. [2010?01?04].http://www.caac.gov.cn/B1/B6/201003/t20100319_31073.html.
[3] DUNHAM M H.數據挖掘教程[M].郭崇慧,田鳳占,譯.北京:清華大學出版社,2005.
[4] KANTARDZIC Mehmed.數據挖掘概念模型和算法[M].王曉海,吳志剛,譯.北京:清華大學出版社,2013.
[5] 毛國君,段立娟,王實,等.數據挖掘原理與算法[M].北京:清華大學出版社,2005.
[6] 羅鳳娥,賈振振.基于模糊綜合評價法的航空公司延誤控制水平分析[J].科技創新報,2013(6):88?89.
[7] 呂曉玲,謝邦昌.數據挖掘方法與應用[M].北京:中國人民大學出版社,2009.