徐勤蘭, 樊重俊, 張 鵬
(上海理工大學管理學院,上海 200093)
貨郵吞吐量是機場吞吐量的重要組成部分,是 機場運營管理的重要依據之一,是實現機場資源有效配置的基本依據.隨著我國航空業的迅速發展,機場貨郵吞吐量也增長迅猛,為實現機場及航空公司的有效管理,提高貨郵吞吐量的預測精度越來越成為人們關注的重點.傳統的預測方法按性質大致可分為兩類[1-2]:定性預測法和定量預測法.定性預測法注重事物發展性質方面的預測,具體方法主要有德爾菲法、主觀概率法、專家會議法,這些方法有較大的靈活性、操作簡單、可靠性好,但受主觀因素影響較大.定量預測法關注事物在數量上的變化,主要包括時間序列法、趨勢外推法、計量經濟法、重力模型法、灰色預測法、神經網絡法等,但神經網絡預測法具有較強的經驗色彩,受網絡結構復雜度和樣本復雜度的影響較大,會出現泛化能力差和過學習等現象.這些傳統的預測方法通常在處理線性數據時有較好的應用,但在處理非線性數據時常常不能滿足人們的要求.隨著人們對數據處理的精度要求越來越高,而單一的預測模型必然存在某方面的盲區,因此,利用組合預測模型進行數據處理,優勢互補,提高預測精度,成為一種研究的趨勢.本文重點關注灰色系統與支持向量回歸機組合模型的研究以及在機場貨郵吞吐量預測中的應用.
灰色系統理論是我國著名學者鄧聚龍于1982年創立的一門學科,以“部分信息已知,部分信息未知”的“小樣本”、“貧信息”不確定系統為研究對象.GM(1,1)模型是灰色系統理論的重要組成部分,具有建模所需數據少的特點[3].支持向量機(support vector machines,SVM)是Vapnik等在統計學習理論(statistical learning theory,SLT)的基礎之上提出的一種新的機器學習方法[4].它基于結構風險最小化原則來提高泛化能力,有效解決了小樣本、非線性、高維數、局部極小點等實際問題,具有良好的推廣性和較好的分類精確性.
將灰色系統與支持向量機組合起來得到灰色支持向量機模型,此模型既具有灰色系統在處理“小樣本”、“貧信息”數據方面的優勢,又具有支持向量機在處理不規則、混沌等非線性數據方面的自適應能力.
灰色預測的實質是將“隨機過程”當作“灰色過程”,“隨機量”當作“灰色量”,并以灰色系統理論中的GM(1,1)模型為主進行數據分析處理.GM(1,1)模型的主要建模過程如下:
令非負原始序列為x(0),對x(0)作一次累加生成得到1-AGO序列,即

則x(0),x(1)符合灰導數條件,將x(0),x(1)各時刻數據代入灰色微分方程

其中



支持向量機模型已在模式識別、回歸分析、文章分類等領域得到了應用,并取得了較好的效果,其基本思想如下:
這時非線性回歸問題的優化方程轉化為

其中,ξi,ξ*i≥0,i=1,2,…,n,且約束于



約束于

求解此對偶問題,可得到回歸決策函數為

機場貨郵吞吐量的產生受多種因素的影響,而許多影響因素在做數據預測時不易定量處理或有些因素尚不明確,因此本文嘗試結合灰色模型與支持向量機模型各自的優點,建立灰色支持向量機模型,基本思想如下:
a.設原始序列為

其中,x(0)(k)≥0,k=1,2,…,n,利用上述G(1,1)模型對原始序列進行分析預測,得到預測值

b.設原始序列值X(0)(k)與G(1,1)模型預測值X⌒(0)(k)的比值為d(0)(k),k=1,2,…,n.從比值序列中選取模型的訓練樣本集和測試樣本集.
c.選擇適當的核函數K(xi,x)及參數.
d.用支持向量機方法求解比值序列優化問題的Lagrange對偶問題,并構造回歸決策函數f(x).
e.利用回歸決策函數f(x),計算出比值序列d(0)(k)的預測值
以上海浦東機場和上海虹橋機場2009年9月~2010年12月貨郵吞吐量數據為研究對象,數據見表1.

表1 2009年9月~2010年12月年上海機場貨郵吞吐量Tab.1 Cargo and mail throughput of the Shanghai airport in 2009.9~2010.12 萬t
首先,利用表中01~12的數據建立灰色G(1,1)模型,并利用此模型對2010年9月~2010年12月的吞吐量進行分析預測,其預測結果及誤差見表2.

表2 模型預測值及誤差Tab.2 Predictive value and error of the model萬t
其次,利用支持向量機與灰色支持向量機理論建立分析預測模型,其間需要做如下工作:
a.選取訓練樣本與測試樣本 支持向量機選取原始數據中01~12的數據作為訓練樣本,13~16的數據作為測試樣本.灰色支持向量機選取比值序列中01~12的數據作為訓練樣本,并利用均值生成法處理編號為06的異常數據,13~16的數據作為測試樣本.
b.選擇核函數 由于徑向機基函數具有較好的普適性,且在處理時間序列問題時表現一般比其它核函數更好,因此,選用徑向基函數K(xi,xj)=作為灰色支持向量機模型與支持向量機模型的核函數.
c.選擇最優參數 需要確定的參數有不敏感損失誤差ε、懲罰系數C以及核函數參數σ.然而,對這3個參數的選擇,目前尚沒有較好的方法,也沒有較成熟地選取理論與指導原則[9],其主要的選擇算法有留一法、交叉驗證法、試湊法、網格搜索法、梯度下降法和免疫算法等.本文選取計算精度較高的交叉驗證法作為參數的選擇算法,其基本原理為:將訓練數據集分成k份相等的子集,每次將其中k-1份數據作為訓練數據,而將另外一份數據作為測試數據.這樣重復k次,根據k次迭代后得到的均方誤差平均值來估計期望泛化誤差,最后選擇一組最優的參數[10].
經計算得支持向量機的最優參數為C=4.0、σ=8.0、ε=0.001;灰色支持向量機的最優參數為C=256.0、σ=0.001、ε=0.001.
最后,分別利用支持向量機與灰色支持向量機對數據進行分析預測,預測及對比結果分別見表2和圖1.

圖1 灰色支持向量機分析結果與實際值的比較Fig.1 Compare gray support vector machine prediction results with the actual value
從結果及誤差可以看出灰色支持向量機模型在分析預測機場貨郵吞吐量方面明顯優于灰色及支持向量機模型.灰色模型與支持向量機模型的融合彌補了單一模型在數據處理方面的缺陷,盡管組合模型中有個別數據擬合誤差偏大,但從整體預測效果看,仍然優于單一的灰色模型或支持向量機模型.
由于機場貨郵吞吐量的產生受多種因素影響,包括宏微觀經濟發展、貿易發展、資源狀況等因素等,因此,預測機場貨郵吞吐量時,不應僅僅考慮時間因素,也應綜合考慮社會經濟等綜合因素,以建立更準確地預測模型,這也是以后要進一步深入研究的方向.
[1] 王芳.基于支持向量機的航段運量預測研究[D].江蘇:南京航空航天大學,2007.
[2] 張慧,王喆.機場吞吐量預測方法探討[J].中國民用航空,2008,10(94):67-68.
[3] 鄧聚龍.灰理論基礎[M].武漢:華中科技大學出版社,2002.
[4] Vapnik V.The nature of statistical learning theory[M].New York:Springer,1999.
[5] 董雁萍.支持向量機預測模型的構建及其應用[D].西安:西安理工大學,2010.
[6] 梁路宏,艾海舟,張鈸.基于模板匹配與支持向量機的人臉檢測[J].計算機學報.2002,25(1):22-29.
[7] Thissen U,Brakel R,Weijer A P,et al.Using support vector machines for tiem series prediction[J].Chemometrics and Intelligent Laboratory System,2003,69(1):35-49.
[8] Gavrishchaka V V,Ganguli S B.Volatility forecasting from multiscale and high-dimensional market data[J].Neurocomputing,2003,55(1):285-305.
[9] 朱家元,張喜斌.多參數裝備費用的支持向量機預測[J].系統工程與電子技術,2003,25(6):701-703.
[10] 奉國和.SVM分類核函數及參數選擇比較[J].計算機工程與應用,2011,47(3):123-128.