999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost 的航班延誤預(yù)測

2020-11-02 07:59:50莊剛強(qiáng)王欣
現(xiàn)代計算機(jī) 2020年27期
關(guān)鍵詞:特征模型

莊剛強(qiáng),王欣

(中國民用航空飛行學(xué)院計算機(jī)學(xué)院,廣漢 618307)

0 引言

根據(jù)《2019 年全球機(jī)場&航空公司準(zhǔn)點率報告》顯示,2019 年中國大陸地區(qū)機(jī)場實際出港航班量達(dá)480.23 萬架次,出港延誤率達(dá)到了24.43%,起飛平均延誤時長達(dá)到28.11 分鐘,由于飛機(jī)延誤問題長期困擾著旅客,不正常航班也成為消費者投訴最多的服務(wù)類型。查閱中國民航局“月度消費者投訴通報”發(fā)現(xiàn),2019 年1-10 月份航空運輸消費者投訴類型中,排名前三位的分別為:不正常航班服務(wù)、票務(wù)服務(wù)和行李服務(wù),盡管不同月份投訴件數(shù)和占比有差別,但不正常航班服務(wù)的投訴比例始終在50%左右浮動。因此航班延誤預(yù)測可以對航班動態(tài)的掌握,提前做好相關(guān)應(yīng)急措施,從而減少不利影響。

在目前航班延誤研究分析中,文獻(xiàn)[1]結(jié)合航班數(shù)據(jù)的特點構(gòu)建了基于C4.5 決策樹的航班延誤預(yù)測模型,對國內(nèi)某大型機(jī)場的真實數(shù)據(jù)集,該研究設(shè)計了大量實驗,實驗結(jié)果表明所提模型正確率接近80%。文獻(xiàn)[2,3]采用支持向量機(jī)回歸方法建立航班到港延誤預(yù)測模型,實驗結(jié)果表明,能夠有效預(yù)測航班延誤。文獻(xiàn)[4]從某個樞紐機(jī)場航班延誤出發(fā),對其關(guān)聯(lián)機(jī)場的銜接航班的延誤影響進(jìn)行分析,提出了基于貝葉斯網(wǎng)絡(luò)的航班延誤傳播模型,實驗表明所提出的方法能有效地分析航班延誤從局部到全局的傳播。文獻(xiàn)[5]針對航班延誤預(yù)測數(shù)據(jù)量大、特征提取困難而傳統(tǒng)算法處理能力有限的問題,提出一種基于雙通道卷積神經(jīng)網(wǎng)絡(luò)(DCNN)的航班延誤預(yù)測模型,實驗結(jié)果表明準(zhǔn)確率達(dá)到92.1%。文獻(xiàn)[6]考慮對機(jī)場中長期航班延誤的預(yù)測需求,以時間序列預(yù)測算法為基礎(chǔ),選擇建立ARIMA模型,實驗結(jié)果表明,模型對機(jī)場中長期航班延誤預(yù)測有良好的效果。文獻(xiàn)[7]介紹了一種新的多層輸入層神經(jīng)網(wǎng)絡(luò)算法,該方法應(yīng)用于預(yù)測在肯尼迪機(jī)場延誤的航班,與傳統(tǒng)的梯度下降反向傳播神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了比較,所提出的模型在預(yù)測誤差(均方根誤差)和訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型所需的時間方面都優(yōu)于傳統(tǒng)的反向傳播方法。

在本次研究中,選擇極限梯度提升算法XGBoost來進(jìn)行航班延誤預(yù)測,基于樹模型的XGBoost 在訓(xùn)練樣本有限、訓(xùn)練時間短、調(diào)參具有獨特優(yōu)勢。在代價函數(shù)中加入了正則項,用于控制模型的復(fù)雜度;支持并行處理和支持用戶自定義目標(biāo)函數(shù)和評估函數(shù),靈活性高;具有缺失值自動處理能力;內(nèi)置交叉驗證,可以很方便的獲取最優(yōu)迭代次數(shù)。相比于近年流行的神經(jīng)網(wǎng)絡(luò)能夠更好的處理表格數(shù)據(jù),并具有更強(qiáng)的可解釋性,另外具有易于調(diào)參、輸入數(shù)據(jù)不變等優(yōu)勢。本文首先介紹了XGBoost 算法,然后基于該算法構(gòu)建了航班延誤預(yù)測模型,對模型所用到的實驗數(shù)據(jù)集進(jìn)行預(yù)處理和特征工程。實驗分析部分,為了實現(xiàn)對原XGBoost模型的改進(jìn),通過網(wǎng)格搜索與交叉驗證相結(jié)合的方法實現(xiàn)模型的參數(shù)優(yōu)化。實驗結(jié)果表明,與GBDT 與隨機(jī)森林兩種預(yù)測模型相比,XGBoost 模型預(yù)測更加準(zhǔn)確,擬合優(yōu)度更好,可以為航班延誤預(yù)測研究提供有價值的參考。

1 基于XGBoost的航班延誤預(yù)測

1.1 XGBBoooosstt算法介紹

XGBoost 全名叫(eXtreme Gradient Boosting)極端梯度提升,是對梯度提升算法的改進(jìn)。對于XGBoost的預(yù)測模型可以表示為:

其中K 為樹的總個數(shù),fk表示第k 顆樹,表示樣本xi的預(yù)測結(jié)果。

XGBoost 是實現(xiàn)了模型表現(xiàn)和運算速度的平衡算法,它引入了模型的復(fù)雜度來衡量算法的運算效率,以此來防止模型過擬合。XGBoost 的目標(biāo)函數(shù)被寫作:傳統(tǒng)的損失函數(shù)+模型復(fù)雜度。

其中i 代表數(shù)據(jù)集中的第i 個樣本,m 表示導(dǎo)入第k 棵樹的數(shù)據(jù)總量,K 表示建立的所有樹的數(shù)目,式子中第一項代表傳統(tǒng)的損失函數(shù),衡量真實標(biāo)簽yi與預(yù)測值之間的差異,通常是調(diào)節(jié)后的均方誤差RMSE。第二項代表模型的復(fù)雜度,使用樹模型的某種變換Ω 表示,這個變化代表了一個從樹模型的結(jié)構(gòu)來衡量樹模型的復(fù)雜度式子,可以表示如下所示。

其中γ和λ為人工設(shè)置的參數(shù),T 為葉子總數(shù),w為葉子節(jié)點的分值為 w 的 L2 模平方。

1.2 航班延誤預(yù)測模型構(gòu)建

航班延誤預(yù)測的大致流程首先對數(shù)據(jù)進(jìn)行預(yù)處理,采用嵌入法對特征進(jìn)行選擇,剔除對模型預(yù)測準(zhǔn)確度用無用的特征,將選擇之后的數(shù)據(jù)集作為最終模型的輸入數(shù)據(jù)集,對數(shù)據(jù)集進(jìn)行劃分為訓(xùn)練集和測試集兩部分,采用網(wǎng)格搜索與交叉驗證相結(jié)合的方法實現(xiàn)模型的參數(shù)優(yōu)化得到最優(yōu)參數(shù)值組合,使用XGBoost算法對訓(xùn)練集進(jìn)行訓(xùn)練生成模型再用測試集進(jìn)行預(yù)測,具體流程如圖1 所示。

圖1 基于XGBoost的航班延誤預(yù)測流程

2 航班延誤影響因素及特征選擇

2.1 航班延誤影響因素

目前航班延誤的主要原因有4 種:一是由于天氣,自然災(zāi)害等不可抗拒的原因造成的,往往每年的七八月份是航班延誤的高發(fā)季節(jié);二是空管部門為了保證航空安全,采取航班流量控制;三是由于航空公司自身原因造成的;四是由于旅客原因,比如遲到之類。以上這四大原因中,惡劣的氣象條件造成航班延誤的占70%;空中交通管制造成航班延誤的占15%;由旅客自身原因造成航班延誤的占5%;由航空公司本身原因造成的航班延誤占10%左右。

2.2 數(shù)據(jù)預(yù)處理

本文研究所用的數(shù)據(jù)是所有數(shù)據(jù)文件均從OST 網(wǎng)站下載,該網(wǎng)站存儲了1987 年至今的航班準(zhǔn)點數(shù)據(jù),本文選取了2018 年一整年的美國航班數(shù)據(jù)作為實驗,由于數(shù)據(jù)量過于龐大,篩選了其中由亞特蘭哈茲菲爾德-杰克遜機(jī)場(ATL)為出發(fā)機(jī)場,芝加哥奧黑爾際機(jī)場(ORD)、肯尼迪際機(jī)場(JFK)、洛杉磯際機(jī)場(LAX)、舊金山際機(jī)場(SFO)、西雅圖際機(jī)場或西雅圖∕塔科馬機(jī)場(SEA)為目的地的樣本數(shù)據(jù)23665 條,每條樣本包含了航班日期、航空公司代碼、出發(fā)及目的機(jī)場代碼、計劃出港時間、實際出港時間、起始機(jī)場距離、計劃到港時間、實際到港時間等27 個特征。考慮到月份為天氣影響的重要特征,對于航班日期的文本數(shù)據(jù)拆分并轉(zhuǎn)換為年月日的數(shù)值型。

(1)缺失值處理

通過檢查數(shù)據(jù)發(fā)現(xiàn)包含缺失值為計劃進(jìn)出港時間與實際進(jìn)出港時間相等時,進(jìn)出港延時為空值缺失,因此采用0 填補(bǔ)缺失值,進(jìn)港滑行時間的空值采用中位數(shù)填補(bǔ)。對于其他含有缺失值的樣本,由于占比非常少便直接刪除含有空值的樣本。

(2)數(shù)據(jù)編碼及轉(zhuǎn)換

對于航空公司代碼等非數(shù)值型的數(shù)據(jù)需要進(jìn)行編碼,本次樣本中包含了15 個航空公司,其中有些是廉價航空,不同的航空公司的延誤率是不一樣的,往往廉價航空的延誤率較高。因此航空公司的代碼有序變量需要進(jìn)行編碼,于是將航空公司的延誤率按從小到大的順序進(jìn)行排列,并將樣本中的航空公司代碼替換為1到15 即可。

2.3 特征選擇

特征選擇有助于我們發(fā)現(xiàn)感興趣的輸出結(jié)果的特征,如果特征中包含有無關(guān)的特征屬性,就會降低算法的準(zhǔn)確度。嵌入法是一種讓算法決定使用那些特征的方法,即特征選擇和算法訓(xùn)練同時進(jìn)行。先使用XGBoost 模型進(jìn)行訓(xùn)練后,得到各個特征的權(quán)值系數(shù),而權(quán)值系數(shù)往往代表了特征對于模型的某種貢獻(xiàn)程度或者重要性,XGBoost 算法中feature_importance 屬性可以列出各個特征的對樹建立的貢獻(xiàn),在sklearn 中使用SelectFromModel 方法設(shè)定閾值參數(shù),對于低于該閾值的特征則認(rèn)為該特征不重要,本次實驗設(shè)置的閾值為0.0009,最后選擇的特征如表1 所示。

3 實驗及結(jié)果分析

XGBoost 算法是通過在數(shù)據(jù)上構(gòu)建多個弱評估器,然后匯總所有弱評估器的建模結(jié)果的集成算法,算法模型中有多種超參數(shù),為了找到最佳的參數(shù)組合采用了網(wǎng)格搜索交叉驗證的方法。網(wǎng)格搜索是指定參數(shù)的一種窮舉搜索方法,將各個參數(shù)可能的取值進(jìn)行排列組合,列出所有可能的組合結(jié)果,然后將各組合用于XGBoost 訓(xùn)練,并使用交叉驗證對表現(xiàn)進(jìn)行評估[8]。在擬合函數(shù)嘗試了所有的參數(shù)組合后,返回一個合適的分類器,自動調(diào)整至最佳參數(shù)組合,通過best_params_獲得參數(shù)值。首先根據(jù)網(wǎng)格搜索的原理,將需要的超參數(shù)值設(shè)定區(qū)間范圍,然后不斷地訓(xùn)練模型,通過評分函數(shù)對每個超參數(shù)值進(jìn)行打分并選擇得分最高的參數(shù)值,最后得到所有最優(yōu)參數(shù)組合。在scikit-learn 中使用GridSearchCV 來實現(xiàn)對參數(shù)的調(diào)整與評估,從而得到最優(yōu)參數(shù)如表2 所示。

表1 特征字段解釋說明

表2 最優(yōu)參數(shù)值

將處理后的數(shù)據(jù)樣本劃分為70%為訓(xùn)練樣本集,30%劃分為測試樣本集。使用構(gòu)建的模型對訓(xùn)練樣本集進(jìn)行訓(xùn)練,對測試集進(jìn)行預(yù)測得到R-Squared 為0.9805106,平均絕對誤差為4.09 分鐘,均方根誤差為6.77 分鐘。得到最后真實值與預(yù)測值的對比如圖2所示。

圖2 基于XGBoost的航班延誤預(yù)測

最后采用相同的樣本數(shù)據(jù)集使用了GBDT 算法、隨機(jī)森林算法預(yù)測,并通過R-Squared、平均絕對誤差(MAE)以及均方根誤差(RMSE)與本文的XGBoost 算法進(jìn)行對比如表3。其中R-Squared 越接近1,代表預(yù)測值越接近真實值;MAE 值能更好地反映預(yù)測值誤差的實際情況,RMSE 是用來衡量觀測值同真實值之間的偏差。結(jié)果顯示本文的XGBoost 算法模型的RMSE 為6.77 最小,說明XGBoost 預(yù)測值偏差最小,預(yù)測精度最高。

表3 算法結(jié)果的對比

4 結(jié)語

本文提出了基于XGBoost 集成算法的航班延誤預(yù)測模型,首先分析了航班延誤預(yù)測的影響因素,對美國的亞特蘭哈茲菲爾德-杰克遜機(jī)場(ATL)飛往芝加哥奧黑爾際機(jī)場(ORD)等五大國際機(jī)場2018 年全年的航班數(shù)據(jù)進(jìn)行預(yù)處理和特征工程,采用網(wǎng)格搜索與交叉驗證相結(jié)合的方法實現(xiàn)模型的參數(shù)優(yōu)化,通過隨機(jī)抽樣把數(shù)據(jù)分為訓(xùn)練集與測試集,最后在測試集上進(jìn)行預(yù)測,結(jié)果顯示R-Squared 為0.9805106,平均絕對誤差(MAE)為 4.09 分鐘,均方根誤差(RMSE)為 6.77分鐘。相比于GBDT、隨機(jī)森林算法,改進(jìn)的XGBoost算法在R-Squared、MAE、RMSE 指標(biāo)方面均優(yōu)于比較算法,表現(xiàn)出較高的預(yù)測精度。考慮到對航班延誤的影響因素眾多,本文的模型還有較大優(yōu)化空間,例如對于數(shù)據(jù)集中加入天氣的詳細(xì)數(shù)據(jù),法定節(jié)假日信息等特征以及增加航班數(shù)據(jù)樣本量來進(jìn)一步提高算法模型預(yù)測精度。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學(xué)特征認(rèn)識
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 亚洲高清在线播放| 国产69精品久久久久孕妇大杂乱| 国产一级精品毛片基地| 国产成人8x视频一区二区| 欧美成人一级| 狠狠做深爱婷婷久久一区| 五月天丁香婷婷综合久久| 亚洲一区二区三区在线视频| 久青草网站| 一本大道无码日韩精品影视| 精品视频在线观看你懂的一区| 久久久久国产一区二区| 538国产在线| 亚洲人精品亚洲人成在线| 国产激情无码一区二区APP| 制服丝袜亚洲| 国产制服丝袜91在线| 欧美在线网| 久久国产精品娇妻素人| av午夜福利一片免费看| 1769国产精品视频免费观看| 亚洲精品色AV无码看| 5555国产在线观看| 中文国产成人精品久久一| 又爽又黄又无遮挡网站| 国产美女丝袜高潮| 88av在线看| 国产精品99在线观看| 亚洲日韩第九十九页| 亚洲永久免费网站| a毛片免费在线观看| 欧美日韩午夜| 中文字幕乱码二三区免费| 三级视频中文字幕| 免费在线色| JIZZ亚洲国产| 超碰免费91| 91免费国产高清观看| 无码一区中文字幕| 伊人久久婷婷| 国产69精品久久久久孕妇大杂乱| 狠狠色丁香婷婷| 啊嗯不日本网站| 亚洲人成网站观看在线观看| 亚洲区第一页| a毛片在线播放| 丰满的熟女一区二区三区l| 国产成人精品一区二区不卡| 麻豆精选在线| 91色老久久精品偷偷蜜臀| 日韩中文字幕免费在线观看| 免费一级毛片在线播放傲雪网 | 日韩无码视频播放| 美女无遮挡免费视频网站| a级毛片在线免费观看| 伦伦影院精品一区| 欧美a在线看| 9cao视频精品| 国产96在线 | 国产玖玖视频| 伊人天堂网| 久久中文无码精品| 99re这里只有国产中文精品国产精品| 亚洲国产成人综合精品2020| 久久婷婷六月| 日本欧美在线观看| 国产欧美日韩在线一区| 国产91小视频在线观看| 欧美午夜精品| 国产精品亚洲专区一区| 免费观看亚洲人成网站| 亚洲一区第一页| 国产一区在线观看无码| 日韩A级毛片一区二区三区| 毛片手机在线看| 精品国产福利在线| 2021国产v亚洲v天堂无码| 亚洲国产中文精品va在线播放| 中文字幕亚洲第一| 亚洲精品国产精品乱码不卞| 一区二区理伦视频| 国模在线视频一区二区三区|