徐 濤 孫媛媛 盧 敏
1(中國民航大學計算機科學與技術學院 天津 300300)2(中國民航信息技術科研基地 天津 300300)3(民航旅客服務智能化應用技術重點實驗室 北京 101318)
近年來,隨著旅客出行需求的逐步增長,越來越多人選擇飛機出行。實現航線客流量的準確預測,對航空公司而言,無論是對運力安排、市場拓展、未來發展等作出重要決策,還是制定航班計劃和機隊規劃都是必不可少的[1]。
國內外關于航線客流量預測研究從早期的統計模型和計量經濟學模型到現階段的時間序列模型[2]、神經網絡模型[3]、支持向量機模型[4]以及組合模型[5]等。這些模型大都只是基于旅客訂票歷史數據進行預測,鮮見考慮民航旅客出行的隨機性及航線旅客流量的非線性特征。由于民航行業的特殊性,較難準確獲取旅客在航線上的具體信息,因而對客流量預測影響較大的因素(如折扣、機型、艙位等)與客流量之間的關系分析不足。
綜上,現有對航線客流量的研究存在以下問題:(1) 鮮見對航線客流量數據特征作準確分析,根據數據特征選用合適模型進行預測;(2) 缺乏對航線客流量影響較大因素的分析,影響預測精度。
針對上述問題,本文對航線客流量數據的非線性及隨機性進行分析,同時驗證平均折扣率對航線客流量的影響。運用灰色理論弱化航線客流量數據的隨機性,再結合非線性處理能力較強的BP神經網絡,構建灰色神經網絡模型對航線的客流量進行預測,避免了選用模型的盲目性以及對客流量影響較大因素的疏忽。
本文的數據來源是中國民航旅客訂票記錄(Passenger Name Record,PNR),旅客的一次出行記錄為一條信息,記錄中包含旅客訂票的航班、艙位、折扣等重要屬性。數據集中屬性含義如下:
身份證號:為保護旅客個人隱私,根據真實身份證號通過加密算法進行處理。
航空公司:為保護航空公司的隱私,航空公司的名稱采用數字代號表示。
航班號:由真實航班號信息進行填充,用于區分不同航班信息。
起飛日期:表示旅客具體出行時間(年月日),出于對旅客出行信息的保護,年份采用201X表示。
起飛機場、目的機場:采用國際航空運輸協會規定的機場“三字碼”表示。
艙位:區分旅客出行的艙位等級。如:F艙表示頭等艙,C艙表示商務艙,Y艙表示經濟艙,W艙表示折扣普通艙。
折扣:表示旅客購買機票時的折扣信息。
數據示例如表1所示。

表1 PNR數據示例
選取201X年及次年某航空公司每天北京飛三亞航線的旅客流量、折扣等指標作為本文研究的對象。
將數據進行整合分析,以天為單位統計北京飛三亞航線的旅客流量、平均折扣率,記Ys為該航線第s天的旅客流量:
(1)
式中:m表示該航線的航班數;nj表示該航線第j個航班的旅客人數。
不同航班不同艙位對應折扣的含義不同,對含航班艙位等級的平均折扣率Diss計算如下:
(2)
式中:l表示該航線有l種艙位;zjk表示乘坐第j個航班第k種艙位的旅客人數;Pjk表示第j個航班上第k種艙位的價格(根據航空公司、航班號及艙位結合現有訂票軟件統計得到各個艙位的價格);Gjki表示第i位旅客在第j個航班上乘坐第k種艙位的折扣。
根據式(1)-式(2),可以得到北京飛三亞航線的旅客流量、平均折扣率等指標數據。
航空客流量受不同因素影響,通常表現出不同的變化特征[6]。對航空公司航線客流量進行建模首先要對航線客流量的數據特征進行分析,根據表現出的特征構建合適的模型進行預測。
根據北京飛三亞航線客流量的分布特征,淡旺季區分較明顯,每年的十月至次年的四月三亞氣候適宜,這段時間客流量明顯高于其他月份。淡季客流量變化相對平穩,本文主要針對該航線旺季(201X年十月下旬至次年三月下旬)進行分析預測,航線客流量通常表現出很強的非平穩非線性特征。
首先,對航線客流量序列進行單位根檢驗以驗證序列是否平穩以及對序列的自相關性進行分析,驗證序列的非線性特征。據表2航線客流量序列的單位根檢驗可知,概率值(P值)大于10%,不能拒絕原始假設,因此序列為非平穩序列[7],說明民航旅客訂票隨機性較強。

表2 航線客流量序列的單位根檢驗
其次,對航線客流量序列進行一階差分并進行單位根檢驗,由表3檢驗結果知,序列一階差分后概率值(P值)小于10%,證明差分后的序列已平穩。且表3中自相關、偏相關圖與右邊自相關系數與偏相關系數相關,“*”代表其超出置信空間,而“·”代表在置信空間內。通過對一階差分后的序列進行自相關、偏相關分析后發現,自相關系數和偏相關系數三階后快速收斂于置信區間內,故存在三階截尾,所以對差分后的序列建立自回歸積分滑動平均模型ARIMA(3,3,1)。

表3 一階差分序列的相關性檢驗
最后,對序列殘差以及殘差的平方進行自相關分析(見表4、表5),自相關系數與零存在顯著的差異,說明序列殘差及殘差的平方均存在自相關性。因此,航線客流量序列具有非線性特征。

表4 序列殘差的相關性檢驗

表5 序列殘差平方的相關性檢驗
式(2)平均折扣率的計算中包含了旅客訂票的航班以及艙位等信息,故將平均折扣率作為航線客流量的影響因素較為全面。兩者相關性通過相關系數進行分析。
相關系數是反映變量之間密切程度的一種統計指標[8],它的主要目的是分析兩個或多個變量之間的相關程度。1代表兩個變量完全正相關,0代表兩個變量不相關,-1代表兩個變量完全負相關。對航線客流量Ys和平均折扣率Diss建立相關系數表進行相關性分析。由表6可知,航線客流量Ys與平均折扣率Diss的相關性系數為-0.667 91,說明這兩個變量呈負相關關系。平均折扣率降低意味著折扣力度增大,旅客會更偏向于乘坐該航線,使得航線客流量增大。

表6 相關系數表
航線客流量預測是具有不確定性的復雜系統,受許多因素的制約。灰色系統理論是一種處理“部分信息已知、部分信息未知”的“小樣本、貧信息”不確定性的理論[9],該理論認為通過生成變換可以將無規律的數據序列變成有規律的數據序列,弱化數據的隨機性。通過1.3節對航線客流量數據的特征分析發現,航線上旅客流量具有隨機性的特征,符合灰色理論的特點。并且航線客流量具有很強的非線性特征,BP神經網絡具有較強非線性映射能力[10],所以運用灰色系統理論和BP神經網絡組合對航線客流量進行預測,具有較強的針對性。
灰色神經網絡是在灰色系統理論中融入了神經網絡的思想,通過網絡反饋的形式不斷地進行學習[11]。具體的算法流程如圖1所示。

圖1 灰色神經網絡模型流程圖
(3)

(4)

式(4)的時間響應式為:
(5)

令:
式(5)可作如下轉化以映射到BP神經網絡:
(6)
將變換后的式(6)映射到擴展的BP神經網絡中,得到n-1個輸入參數、1個輸出參數的灰色神經網絡,網絡拓撲結構如圖2所示。

圖2 灰色神經網絡拓撲結構


(7)
LD層輸出節點的閾值為:
(8)
由航線客流量與平均折扣率的相關性分析可知,后者對前者存在較強的影響,故將平均折扣率作為影響因素加入航線客流量的預測。所以灰色神經網絡結構為1-1-2-1,即LA層有1個節點,輸入為時間序列t,LB層有1個節點,LC層有2個節點,第2個為平均折扣率,輸出為航線客流量預測值,灰色神經網絡的訓練流程如下:
1) 網絡初始化。根據訓練數據特征確定網絡拓撲結構,初始化參數a、b和學習速率μ。
2) 據式(7)計算網絡權值ω。
3) 計算各層輸出。對每一個輸入序列(t,X(1)(t)),t=1,2,…,N,計算各層輸出。
LA層:a=ω11t。

LD層:d=ω31c1+ω32c2-θ。
4) 計算誤差。計算網絡預測輸出與期望輸出的誤差。
LC層誤差:δ1=δ2=δ0(1+e-ω11t)。
5) 根據誤差更新權值和閾值。
更新LA到LB的連接權值:ω11=ω11-atδ3。

6) 判斷訓練是否結束,若沒有結束,返回步驟3。
以某航空公司北京飛三亞航線數據為例,該公司在本條航線上每日有4個班次,濾除訂票后退票即沒有實際乘坐的訂票數。選取北京飛三亞航線201X年11月17日至次年1月17日(除元旦節假日)旅客流量及平均折扣率作為歷史數據,對次年1月18日-1月31日航線客流量進行預測。
由于旅客訂票數據量巨大,傳統數據庫進行操作速度緩慢,故航線客流量的統計通過搭建Hadoop偽分布式平臺,采用Map-Reduce技術對大規模旅客訂票數據進行處理,如圖3所示。

圖3 Map-Reduce數據處理
通過采用Map-Reduce技術將數據處理集處理成北京-三亞航線上起飛日期-航線客流量記錄文檔的形式如表7所示。出于對數據的保密,對涉及到的航線客流量作了單位化處理。平均折扣率根據上面的計算得出,最終基于灰色神經網絡的輸入樣例如表8所示。

表7 日期-航線客流量記錄文檔

表8 基于灰色神經網絡的輸入樣例
用預測客流量與真實的客流量的相對誤差對實驗結果進行評價。其計算公式如下:
(9)

根據輸入信息的特征以及期望輸出,確定灰色神經網絡的結構為1-1-2-1,因累加的數據具有單調增加的趨勢,BP神經網絡的非線性激活函數易逼近,故LB層神經元激活函數為Sigmoid型函數,其他層激活函數取線性函數。設置訓練次數為100,學習速率u為0.001。
為驗證灰色神經網絡模型在航線客流量預測方面的有效性,與灰色模型GM(Grey Model)、BP神經網絡模型作對比實驗。
根據上面的討論,將平均折扣率作為影響因素加入到航線客流量預測中,建立灰色GM(1,2)模型和輸入節點為2,輸出節點為1的BP神經網絡模型作對比實驗,采用相同的航線客流量數據進行實驗。圖4給出了三種模型的客流量預測結果,以相對誤差QRE為評價指標。

圖4 北京-三亞航線客流量預測相對誤差對比圖
由圖4可知,灰色GM(1,2)模型因結合航線客流量隨機性的數據特征,預測相對誤差較低,控制在7%以內,但預測穩定性較差,如在1月21日預測相對誤差在3%左右,而1月30日預測相對誤差卻在6.5%左右。因BP神經網絡模型結合航線客流量非線性的數據特征,預測相對誤差較低,控制在6%以內,但預測穩定性也相對較差。
相比于BP神經網絡模型和灰色GM(1,2)模型,灰色神經網絡模型結合了航線客流量非線性和隨機性的數據特征,預測相對誤差更低,而且預測穩定性更高。同時平均相對誤差(表9)比其他兩種模型提高了1%左右,說明灰色神經網絡模型更適用于航線客流量預測。

表9 模型對比
航線客流量預測對于提高航空公司收益有重要意義。本文對平均折扣率與航線客流量的相關性進行分析,結果表明,平均折扣率與航線客流量呈負相關關系,即隨著平均折扣率的降低,折扣力度增大,旅客會更偏向于乘坐該航線,使得航線客流量增大。同時在對航線客流量數據特征分析的基礎上,將弱化航線客流量數據隨機性的灰色理論以及非線性處理能力強的BP神經網絡模型組合為灰色神經網絡模型對航線客流量數據進行預測。在相同數據集下的實驗結果表明,針對航線客流量預測,灰色神經網絡模型具有更高的預測準確率和更強的預測穩定性。