陳靜杰,王 希
(1.中國民航大學 電子信息與自動化學院,天津 300300;2.中國民航大學 計算機科學與技術學院,天津 300300;3.中國民航大學 中國民航環境與可持續發展研究中心(智庫),天津 300300;4.中國民航大學 綜合交通大數據應用技術國家工程實驗室,天津 300300)
目前,國內外很多學者從不同角度對飛機油耗進行了研究,主要分為基于飛機性能參數的油耗模型[1-3]和基于飛行數據分析的油耗模型[4-7]。然而實際的油耗分析和預測模型參數具有很強的不確定性。由于風向、風速、溫濕度、駕駛員習慣等眾多因素的影響,同一航程所對應的飛機油耗差異較大,點預測結果必然無法表征實際飛機油耗潛在的隨機性。因此如果能在點預測的結果上,對由不確定性因素引起的預測結果變動范圍進行量化,從而顯示出油耗數值波動的區間。目前國內外還沒有對飛機航段油耗應用場景下的區間估計的研究,主要運用在電力負荷、風速等領域。Yang等[8]采用了Bootstrap自助法對于小樣本構造樣本進行估計;Zong等[9]采用了高斯過程回歸(GPR)對不同核函數建模進行區間估計;Wang等[10]基于BP神經網絡多輸出特性的風電距離預測模型;Yang等[11]提出一種基于雙變量經驗模態分解技術和最小二乘支持向量機的組合區間預測方法;Yang等[12]提出一種基于Beta分布的風電功率預測誤差區間的估計方法;Fan等[13]利用貝葉斯框架下的相關向量機模型可以獲得概率輸出,量化預測結果的不確定性。
同時,多數情況下飛機油耗都會存在著因業載、飛行時間、風速等原因而導致油耗相對較多/少的問題,這種情況下,這部分航程對應的油耗數據集相對近鄰航程的數據集會整體偏上或者偏下。然而航程與油耗基本正相關,但因為部分航程的油耗消耗過多,在擬合時會出現航程與油耗負相關的趨勢,并且會影響其余航程的油耗區間估計結果。基于以上背景,本文分析研究了基于數據偏離性和密度分布欠采樣的飛機油耗區間估計方法,將會提高區間估計的精度。
飛機油耗數據由于眾多因素的影響,同一航程(標準距離:國際上普遍采用標準大圓距離下的飛機油耗水平來衡量航段燃效效率)對應著多個油耗值,并且實際的油耗數據在部分航程處由于業載等原因導致油耗值整體偏高/偏低,這一現象在區間估計時會產生航程與油耗呈負相關的趨勢以及對整體區間結果產生擾動,因此就需要對油耗值偏離‘正相關趨勢’的航程對應的油耗值進行篩選,利用基于密度聚類的方法能夠將密集且靠近的數據點組合成一個集群這一優勢將油耗值進行聚類,對于偏離度大的類直接進行欠采樣處理。基于以上思想,本文綜合考慮數據偏離性和密度分布的特點,去除少數航程中偏離性較大的數據對區間估計整體結果的影響。首先對于同一機型的全部航程,按照航程的數值將數據劃分成n類,并進行野值剔除數據預處理。其次,計算每個航程中所有油耗值的均值,進行線性擬合。接著計算每個航程的均值相對于線性擬合直線的偏離度,選定偏離度閾值D’, 選出偏離度大于D’的航程數據集定義為Dd(d為航程編號),并對其油耗數據進行密度分析,得到每個樣本點的密度,選定T為密度閾值,并根據T作為劃分標準將數據集分為高密度數據簇H0,H1,H2,…,Hr1和低密度數據簇L0,L1,L2,…,Lr2(r為各數據簇中數據編號)。最后,根據偏離性(正、負偏離),將偏離度大的數據簇進行剔除,并設定保留原則,這樣能夠保證在保留大部分數據信息的同時,將偏離度大的數據簇進行欠采樣。
US-D-DD算法具體步驟如下:
(1)根據航程數值劃分成n類;
(2)計算每個航程油耗均值,并線性擬合,得線性方程式y=ax+b;
(3)計算每個航程均值的偏離度D;
(4)選定偏離閾值D’, 將一定偏離度區域內的航程數據集定義為Dd;
(5)對于選出航程分別選定密度閾值T;
(6)根據密度閾值將數據劃分為高密度數據簇H0,H1,H2,…,Hr1和低密度數據簇L0,L1,L2,…,Lr2并進行聚類;
(7)根據偏離性和保留原則,將偏離度大的數據簇進行剔除。
實際飛機油耗預測領域中,航油消耗量會隨著航程的增加而增加,即航程與油耗呈正相關趨勢。然而多數情況下的飛機油耗都會存在著因為業載、飛行時間、風速等原因而導致部分航程油耗消耗相對較多/少的問題,從而這部分航程的整體數據會整體偏上/下,偏離了線性增長這一趨勢。在航程較疏散的部分,擬合時會出現航程與油耗呈負相關的趨勢,若增加某一新的航線(對應新的航程),會導致油耗預估的區間整體嚴重偏離;在航程較密集的部分,由于部分航程數值的偏離,擬合的結果會因此而受到擾動,影響區間的變化趨勢,導致結果不夠準確。基于此,考慮到了數據偏離性(deviation)分布特點,去除了少數航程對整體結果的影響。偏離度的表達式為
(1)
式中:D為航程油耗均值偏離度;A為目標數據,即運用每個航程對應的所有油耗數值的均值得出的線性擬合函數,從而求出的每個航程在該函數對應的數據為目標數據;X為實際數據,即每個航程對應的實際油耗均值。并且,定義均值高于擬合線時稱“正偏離”,低于擬合線稱“負偏離”。
考慮油耗數據集密度分布的不均衡性,按照密度的大小可分為高密度和低密度數據簇,高密度數據簇數據相對集中,更能象征整體數據,能夠提供足夠的樣本信息,可視為可靠樣本,在樣本數量和可靠性兩方面優于低密度數據簇的樣本,所以在欠采樣過程中盡可能保留高密度數據簇中的樣本[14]。而低密度數據簇分布相對稀疏,沒有能夠提供足夠的樣本信息,對聚類會產生一定的干擾,可視為不可靠樣本,所以應該盡可能刪除這部分數據。
具體方法如下,給定一個小區域上的數據集,任意選定某個樣本點為P,以P點為中心、l為半徑的區域數據是均勻分布的,密度由ρ=m/l給出,其中m是該區域內除P以外的點數。例如,圖1和圖2分別代表航程為3815 km所對應的實際油耗圖(物理意義)和數據密度示意圖(數學意義)。

圖1 實際油耗

圖2 密度變化
圖1對應航程為3815 km時的所有油耗數據按照數值大小排列組成數據集Dd, 計算每個樣本點的數據密度,得到密度變化示意圖(圖2),其中,橫軸為同一航程油耗數據樣本點Dd, 縱軸為樣本點對應的數據密度ρ(Dd), 并且設定用于區分高密度數據簇和低密度數據簇的密度閾值為T, 則可以找到的3個高密度數據簇簇為T1、T2和T3, 數據集中不屬于任何集群的簇則視為低密度數據簇。將油耗值劃分成多個數據簇后,根據偏離性和保留原則進行欠采樣,如航程3815 km為正偏離,則根據保留原則僅剔除偏離度大(油耗值大)的數據簇。其中,密度閾值T可以由該區域高、低密度數據簇劃分所需的最小點數指定。按照密度將數據進行聚類是為了可以將密集且靠近的數據點組合成一個集群,這樣的集群代表的數據特征相似。
相關向量機(relevance vector machine,RVM)是tipping提出的相關向量機的稀疏概率模型、統計學理論研究在近年來產生的一種監督學習方法。該算法最大的優點是極大地減少了核函數的計算量,克服核函數必須滿足Mercer條件,并且具有檢測速度快、可以獲得概率輸出、對小樣本具有明顯的優勢、泛化性能好、適用范圍廣等特點。

ti=y(xi,w)+εi
(2)
式中:w為模型權值,w=[w0,w1,…,wN]T, 樣本噪聲εi~N(0,σ2), 則p(ti/xi)~N(ti/y(xi,w),σ2)。 則RVM的輸出函數y(x,w),y(x,w) 定義為
(3)


(4)
式中: Φ∈RN×(N+1)是核函數矩陣。
根據SVM中的結構風險最小化原則可知,根據上式求得的訓練樣本的似然函數容易導致嚴重的過擬合現象,所以為了使模型具有稀疏性,為權值定義高斯先驗概率分布
(5)
式中:αi是決定連接權值wi先驗分布的獨立超參數,α=(α0,α1,…,αN)T。
由貝葉斯準則計算連接權值后的后驗概率分布為

(6)
其中
μ=σ-2ΣΦTt
(7)
Σ=(σ-2ΦTΦ+A)-1
(8)
A=diag(α0,α1,…,αN)
(9)
可以看出相關向量機的權值w可以由超參數α、σ2計算得到,用貝葉斯框架計算超參數的似然分布為
(10)
式中:C為協方差,C=σ-2I+ΦA-1ΦT。
由MacKay迭代法求解最優超參數
(11)
(12)
tγk=1-αkΣkk
(13)
式中:μk為第k個后驗平均權值, Σkk是矩陣Σ的第k個對角元素,γk∈[0,1]。 對上述公式重復進行RVM模型的訓練不斷更新兩個超參數,直到滿足收斂要求或達到最大迭代次數,訓練停止。剩下的非零權值和對應的訓練樣本稱為相關向量。
若給定一組數據x*, 則對應的輸出為
t*=Φ(x*)μ
(14)
(15)
式(14)、式(15)代表預測數據集對應的均值和方差。
為驗證US-D-DD方法的有效性,本文選取QAR數據中A330機型2013年各航程飛機油耗數據為樣本進行飛機油耗區間估計研究。數據中包含35個航程,每個航程對應著不同數量的油耗值,傳統的點預測方法很難全面描述油耗的變化范圍,所以對其區間估計更為合理。
對于油耗數據,首先按照航程的數值進行劃分,并對油耗數據的野值剔除預處理;接著計算出每個航程油耗的均值并進行線性擬合,根據偏離度的公式計算出每個航程相對偏離線性方程的偏離度;選定偏離值D’, 偏離值小于D’的航程數據不進行處理;對于偏離值大于D’的航程進行油耗數據密度計算,并進行聚類,根據偏離性及聚類結果進行欠采樣,并根據偏離度設定保留原則;最后將欠采樣后的數據運用區間估計模型進行運算,并用評價指標對結果進行評估。US-D-DD飛機油耗區間估計流程如圖3所示。

圖3 US-D-DD飛機油耗區間估計流程
合理的誤差分析能對所使用的方法進行恰當的評判,本文選取以下4個指標對區間估計結果進行有效性評估。
(1)估計區間覆蓋率EICP(estimation interval cove-rage percentage)是衡量區間質量最關鍵的指標,表達的是實際觀測點落在區間內的概率
(16)
式中:ξ(1-α)為置信度1-α下實際油耗值落入估計區間的數量,本文選取置信水平95%,EICP用于評估所構造區間的可信度,其值越大,可信度越高。
(2)區間平均寬度MWP(mean width percentage)是評估區間質量的重要指標,該指標度量了固定航程的估計區間寬度占該航程油耗值的百分比。在飛機油耗預測問題中,飛機的燃油消耗量往往受不同風向、風速、駕駛員飛行習慣等多種不可控因素的影響,同一航程產生的油耗卻相差很多,且航程越長,油量消耗越多,寬度也應更寬[13],因此以相對寬度比絕對寬度更具有實用價值
(17)
式中:U(xi),L(xi) 為第i個樣本的上界和下界(采用相對寬度),ti是固定航程對應所有油耗值。MWP用于評價結果描述不確定信息的能力,其值越小,估計精度越高,不確定性程度越小。
(3)平均累積偏差MAD(mean accumulated deviation),除常用的區間覆蓋率和區間平均寬度之外,還應對區間之外的點相對于區間的偏離程度進行統計,表達式為
(18)
式中:εi表示觀測值偏離估計區間邊界的程度,表達式為

(19)
累積偏差與區間平均寬度類似,其值越小,區間質量越高。
(4)區間估計滿意度EISI(estimation interval satisfaction index),由于EICP越大,說明區間質量越高,而MWP、MAD越小,說明區間質量越高,這3個指標相互獨立,且相互沖突,所以綜合考慮這3個指標,提出區間估計滿意度來綜合評估,表達式為
EISI=[1-λ·(1+η·MAD)·MWP·(μ-EICP)]×
100%
(20)
式中:λ,η是EISI中的懲罰系數,可以根據需求進行選取;μ為給定的置信水平。
本文實驗首先按照航程的數值進行劃分(選取的數據航程數為35),并進行野值剔除預處理,計算出每個航程油耗的均值并進行線性擬合,擬合結果如圖4所示。

圖4 油耗均值線性擬合結果
擬合線性方程式為:y=6.6789x+3.231·103, 可以看出航程與油耗基本正相關的趨勢。
根據式(1)偏離度公式計算出每個航程相對偏離擬合線性方程的偏離度,如圖5所示,偏離度按照數值可劃分為5組,其中大部分航程的偏離度在0-0.05的區域,這部分航程的油耗數據保留,即選取D’=0.05,偏離度小于D’的航程數據保留,得到偏離度較大的1000、1506、1719、2092和3815(單位km)這5個航程及其正負偏離性,見表1。

表1 偏離度>D’航程

圖5 偏離度分布
其中導致航程油耗較多的主要原因是業載過大,例如航程3815 km相較于鄰近航程4474 km,其業載(包括人、油、貨)均值偏高了5×103kg。對這5個航程的油耗數據,本文采用DBSCAN算法,設置樣本領域包含點數和半徑為m1=3,l1=60、m2=3,l2=55、m3=6,l3=60、m4=4,l4=100、m5=4,l5=300,得到數據密度大于密度閾值的多個數據簇,對于這部分數據簇結合偏離性進行欠采樣,并采取以下4種保留原則,見表2(所屬偏離度區間為1-4,并采取a-d這4種欠采樣保留原則)。

表2 欠采樣保留原則
將原始油耗數據運用相關向量機區間估計模型進行運算得到每個航程的上下邊界,對35組上下界邊界值進行多項式擬合。一般情況下,多項式擬合的階數越高,精度就越高,擬合的曲線越貼近實際數值,但是階數超過一定數量,就會產生過擬合的現象,求解的系數可能是不準確的。一般會采用相關系數和最大殘差來評價擬合結果,而本文是飛機油耗的區間估計,且數據包含同一自變量對應不同因變量的情況,所以對于“最優階數”仍選擇區間覆蓋率、平均區間寬度、平均累積偏差,以及區間估計滿意度來評價擬合結果。
由于n=12時出現了上下界劇烈變化或交集的現象,所以選取n為1到11進行對比。由表3可以看出,當欠采樣保留原則為a時,即使用原始油耗數據進行飛機油耗區間估計時,在n=9處,區間估計滿意度綜合指標最好,運用US-D-DD模型前區間估計結果如圖6所示。

表3 各階數擬合評價指標對比

圖6 原區間估計結果
將US-D-DD模型運算后的4種結果采用n=9階進行多項式擬合,并將運用US-D-DD模型前后的結果進行對比分析。其中Aa-Ad分別代表根據不同保留原則運用US-D-DD模型前后,評價時包含5個偏離度大于D’的全部航程進行的綜合指標評價結果;Ba-Bd分別代表根據不同保留原則運用US-D-DD模型前后,評價時不包含5個偏離度大于D’的航程(共30個航程)進行的綜合指標評價結果。由表4可以看出,經過US-D-DD模型運算后,b-d這3種保留原則相比較保留原則a,估計區間覆蓋率均有多提高,平均區間寬度和平均累計偏差均有不同程度的減少,并且對于區間估計滿意度這一評價指標,保留原則d取得了更好的結果(區間估計結果如圖7所示),可以看出保留原則并不是將數據保留的越多或者越少就會達到最好的效果,而是應該結合偏離度區間來對數據進行合理的欠采樣保留原則設置,也說明了對于部分數據的偏離而影響到整體區間估計結果時應利用數據的偏離性和密度分布等分布特點來取得更好的區間估計結果。

表4 4種情況結果對比

圖7 US-D-DD模型區間估計結果
并且對比圖6和圖7可以看出,圖7的區間更符合航程與油耗正相關的趨勢。在航程較疏散的部分,航程與油耗呈負相關的趨勢得到緩解,在航程較密集的部分,部分航程數值的偏離對擬合的結果產生的擾動也有所減少。
本文針對點估計無法描述實際飛機油耗潛在的隨機性,以及部分航程由于業載等原因導致油耗相對較多/少從而影響整體區間估計結果的問題,利用區間估計能夠對由不確定性因素引起的預測結果變動范圍進行量化和基于密度聚類的方法能夠將密集且靠近的數據點組合成一個集群的優勢,對于偏離度較大的油耗數據,提出了基于數據偏離性和密度分布欠采樣的飛機油耗區間估計模型(US-D-DD),并給出綜合評價指標將運用US-D-DD模型前后的結果進行對比分析。結果表明本文提出的模型取得了更好的區間估計結果,對飛機油耗的整體區間估計有改進作用。該方法可進一步推廣到其它機型、航段,為航空公司進行油耗估算提供了參考方法。進一步的,如何自適應地確定閾值和研究其它改善區間估計效果的方法將會是今后進一步的工作任務。