999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Catboost算法的航班延誤預(yù)測研究

2022-04-22 11:20:10李任坤何元清
現(xiàn)代計(jì)算機(jī) 2022年3期
關(guān)鍵詞:特征模型

李任坤,何元清

(中國民用航空飛行學(xué)院計(jì)算機(jī)學(xué)院,廣漢 618307)

0 引言

《2020年上半年全球機(jī)場和航空公司準(zhǔn)點(diǎn)率報(bào)告》指出,因新冠肺炎疫情席卷全球,各機(jī)場航班量較之以前呈現(xiàn)大幅縮減,2020年上半年各大機(jī)場實(shí)際排班航班量約970萬架次,同比下降46.63%。準(zhǔn)點(diǎn)率排名前三的國家依次是日本、中國和俄羅斯,分別為91.64%、88.36%和87.85%。航班延誤問題不僅打亂乘客的時(shí)間規(guī)劃,給公司帶來許多負(fù)面影響,還會(huì)影響后續(xù)的航班時(shí)間規(guī)劃。所以對航班延誤時(shí)間進(jìn)行預(yù)測可以預(yù)告機(jī)場和乘客提前采取相應(yīng)措施以減少或者避免后續(xù)影響,從而盡可能的減少航班延誤所帶來的損失。

目前在航班延誤預(yù)測領(lǐng)域,國內(nèi)外研究人員已進(jìn)行了深入探索。文獻(xiàn)[1]以XGBoost回歸算法為切入點(diǎn),利用數(shù)據(jù)清洗加網(wǎng)格搜索結(jié)合交叉驗(yàn)證的方法實(shí)現(xiàn)航班延誤預(yù)測模型的優(yōu)化。文獻(xiàn)[2]詳細(xì)介紹了GBDT模型的來源,該算法核心是通過學(xué)習(xí)之前決策樹的殘差來擬合當(dāng)前決策樹。文獻(xiàn)[3]介紹了一種新興的深度機(jī)器學(xué)習(xí)優(yōu)化算法,極限梯度提升(XGBoost)算法能適應(yīng)復(fù)雜的非線性關(guān)系,模型具有更佳的并行計(jì)算能力,能夠有效地解決過擬合問題。文獻(xiàn)[4]提出一種基于XGBoost模型升級的LightGBM模型,利用leaf-wise分裂策略,對已有的葉子結(jié)點(diǎn)進(jìn)行對比,從中選擇分類收益最大節(jié)點(diǎn)完成分裂,極大減少了模型的訓(xùn)練時(shí)間。文獻(xiàn)[5]使用了一種新型的Boosting算法CatBoost,創(chuàng)新性地在數(shù)據(jù)挖掘過程中選擇IV值分析進(jìn)行特征選擇,有效去除了冗余特征。

本次實(shí)驗(yàn)通過分析BST網(wǎng)站上公開的航班數(shù)據(jù),利用CatBoost算法對比不同特征對航班的影響程度,選擇對航班延誤影響因素較高的特征用以精準(zhǔn)預(yù)測航班延誤。本文先簡單介紹了CatBoost算法的原理,然后梳理了航班延誤預(yù)測的總體流程。①數(shù)據(jù)處理部分利用數(shù)據(jù)清洗和特征選擇輸出最優(yōu)樣本集。②數(shù)據(jù)分析部分通過網(wǎng)格搜索及交叉驗(yàn)證方法并結(jié)合訓(xùn)練得到航班預(yù)測優(yōu)化模型。③使用類似算法LightGBM和XGBoost對同樣數(shù)據(jù)集進(jìn)行預(yù)測結(jié)果比對,可以看出,CatBoost算法的延誤預(yù)測精確度更高,時(shí)間更短,可以有效預(yù)測航班延誤。

1 算法介紹和流程搭建

1.1 Cat Boost算法介紹

CatBoost是一種能夠很好地處理類別型特征的梯度提升算法庫,作為GBDT框架的一種改進(jìn)實(shí)現(xiàn),其有著參數(shù)少、能夠匹配類別型變量以及準(zhǔn)確性較高的優(yōu)點(diǎn),可以高效且合理地處理類別型特征。

1.1.1 類別型特征

CatBoost算法為了更好地選擇GBDT已有特征中存在的類別型特征,對以前的目標(biāo)變量統(tǒng)計(jì)法(Greedy Target-based Statistics)進(jìn)行了改進(jìn),通過添加先驗(yàn)分布項(xiàng),使得數(shù)據(jù)分布免受噪聲和低頻的影響,公式示例如下:

為了避免回歸錯(cuò)誤造成過擬合問題,Cat?Boost對已有葉子的節(jié)點(diǎn)值進(jìn)行計(jì)算,規(guī)避了多個(gè)數(shù)據(jù)集排列直接進(jìn)行計(jì)算。

1.1.2 梯度提升(Gradient Boosting)

梯度提升是利用不可重復(fù)的迭代變量,不斷循環(huán)添加子模型,同時(shí)確保損失函數(shù)逐漸減小。

假設(shè)f()為子模型,復(fù)合模型為

設(shè)損失函數(shù)為[ ]F(),,進(jìn)行迭代后添加全新子模型,隨著影響因子次高變量的梯度比前一次小,損失函數(shù)不斷減小。

作為GBDT的一種,CatBoost采用了完全對稱樹作為基模型,開創(chuàng)性地加入了自動(dòng)轉(zhuǎn)換算法,將類別型通過計(jì)算轉(zhuǎn)換為數(shù)值型特征,達(dá)到高效處理類別型特征的目的。除此之外,Cat?Boost還解決了梯度偏差(Gradient Bias)和預(yù)測偏移(Prediction Shift)可能存在的問題,從而減少過擬合的發(fā)生,體現(xiàn)了本算法在提升準(zhǔn)確性和加強(qiáng)泛化方面有明顯改善。

1.2 搭建預(yù)測實(shí)驗(yàn)流程

本文對預(yù)測實(shí)驗(yàn)進(jìn)行了流程搭建,如圖1所示:第一步通過數(shù)據(jù)清洗對初始數(shù)據(jù)進(jìn)行處理,利用嵌入算法篩選出有利于模型預(yù)測準(zhǔn)確度的特征,獲取合適的樣本集后,將樣本特征隨機(jī)分為測試樣本集和訓(xùn)練樣本集,通過網(wǎng)格搜索和交叉驗(yàn)證的方法組合出最優(yōu)參數(shù)解,再使用CatBoost算法對訓(xùn)練樣本集進(jìn)行訓(xùn)練獲得預(yù)測模型,最后將最優(yōu)參數(shù)組合帶入模型中得到航班延誤預(yù)測結(jié)果。

圖1 基于CatBoost的航班延誤預(yù)測流程

2 數(shù)據(jù)獲取、處理及分析

2.1 數(shù)據(jù)獲取處理

本文研究選取的是2019年全年的美國航班數(shù)據(jù)作為實(shí)驗(yàn),但因數(shù)據(jù)量巨大且考慮大型機(jī)場因自身原因造成的延誤可能性較小,篩選了由亞特蘭大哈茲菲爾德-杰克遜機(jī)場為出發(fā)機(jī)場,洛杉磯國際機(jī)場、西雅圖際機(jī)場或西雅圖塔科馬機(jī)場、芝加哥奧黑爾際機(jī)場、肯尼迪國際機(jī)場、舊金山國際機(jī)場為目的地的樣本數(shù)據(jù)38849條,每條樣本包含了計(jì)劃到港時(shí)間、起始機(jī)場距離、航班日期、航空公司代碼、始發(fā)機(jī)場代碼、目的機(jī)場代碼、原定出發(fā)時(shí)間、實(shí)際出發(fā)時(shí)間、實(shí)際到達(dá)時(shí)間等27個(gè)特征。因不同月份的天氣對預(yù)測相當(dāng)重要,故使用數(shù)值型的年月日作為航班日期的特征表達(dá)。

2.1.1 數(shù)據(jù)補(bǔ)齊處理

數(shù)據(jù)集出現(xiàn)空值將影響實(shí)驗(yàn)結(jié)果,需要一定的值去填充空值,從而使數(shù)據(jù)完備化。通常基于統(tǒng)計(jì)學(xué)原理,根據(jù)初始數(shù)據(jù)集中其余對象取值的分布情況來對一個(gè)缺失值進(jìn)行填充,在本實(shí)驗(yàn)中,對于較高比例樣本存在缺失的情況,首先將樣本進(jìn)行分類,然后以該類中樣本的均值來插補(bǔ)缺失值,較少比例樣本則直接去除空值樣本。

2.1.2 數(shù)值型處理

本文中因航空公司代碼為非數(shù)值型,無法有效進(jìn)行數(shù)據(jù)處理,需轉(zhuǎn)換為數(shù)值型,本實(shí)驗(yàn)采用15個(gè)航空公司的樣本數(shù)據(jù),將航空公司按延誤率高低進(jìn)行排序,并使用1~15的數(shù)值代替航空公式代碼。

2.2 特征選擇

選取對航班預(yù)測結(jié)果有用的特征至關(guān)重要,無用的特征會(huì)對預(yù)測準(zhǔn)確度造成影響。先使用CatBoost模型進(jìn)行訓(xùn)練,獲得每個(gè)特征的權(quán)值系數(shù),權(quán)值系數(shù)越高就表明了特征對模型的重要性或者程度越高,本實(shí)驗(yàn)在sklearn中使用Se?lectFromModel設(shè)置的閾值參數(shù)為0.001,低于該閾值的特征則認(rèn)為對模型不重要進(jìn)行剔除,最后特征選擇字段如表1所示。

表1 特征字段解釋說明

3 結(jié)果分析及對比

CatBoost算法是通過在數(shù)據(jù)上構(gòu)建多棵決策樹,匯總所有決策樹模擬結(jié)果的新型預(yù)測算法,本實(shí)驗(yàn)中,為得到最優(yōu)參數(shù)組合,將參數(shù)可能存在的取值進(jìn)行依次列舉,得到組合結(jié)果后生成“網(wǎng)格”,然后將各網(wǎng)格結(jié)果帶入CatBoost算法進(jìn)行訓(xùn)練,最后利用交叉驗(yàn)證評估測試集中的數(shù)據(jù)。通過評分函數(shù)得到評分最高的參數(shù)值,最后得到所有參數(shù)組合中的最優(yōu)參數(shù)組合。下一步調(diào)整和評估參數(shù),本文使用了Grid?SearchCV來完成,從而得到最優(yōu)參數(shù)組合如表2所示。

表2 最優(yōu)參數(shù)組合

將前面經(jīng)過處理后的數(shù)據(jù)集進(jìn)行劃分,20%的數(shù)據(jù)作為測試樣本集,剩余80%作為訓(xùn)練樣本集,并通過CatBoost算法對訓(xùn)練樣本進(jìn)行訓(xùn)練得到預(yù)測模型后,帶入測試集得到預(yù)測結(jié)果R-Squared為0.9897624,平均絕對誤差(MAE)為3.08分鐘,訓(xùn)練時(shí)間為106 ms。最后使用LightGBM算法、XGBoost算法對相同的數(shù)據(jù)集進(jìn)行類比預(yù)測,對比結(jié)果見表3。其中RSquared代表方差,值越趨近1,表示預(yù)測越準(zhǔn)確;MAE值體現(xiàn)了預(yù)測值偏向真實(shí)值的差值;訓(xùn)練時(shí)間與算f法的運(yùn)行速度成反比:時(shí)間越短說明運(yùn)行速度越快。通過實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),使用CatBoost算法進(jìn)行預(yù)測,結(jié)果精度更高,訓(xùn)練時(shí)間更短。

表3 三種算法預(yù)測結(jié)果對比

4 結(jié)語

本文在航班受多種影響因素導(dǎo)致延誤的大背景下,使用了一種新型Boosting算法CatBoost進(jìn)行航班延誤預(yù)測,取得了良好效果。首先對美國的亞特蘭大哈茲菲爾德-杰克遜機(jī)場、肯尼迪國際機(jī)場等五大國際機(jī)場在2019年全年的航班數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,提取出對航班預(yù)測影響較大的關(guān)鍵類別型特征,并采用網(wǎng)格搜索和交叉驗(yàn)證方法得到最優(yōu)參數(shù)組合,帶入數(shù)據(jù)訓(xùn)練獲取的預(yù)測模型中,通過實(shí)驗(yàn)分析,CatBoost算法的R-Squared為0.9897624,MAE為3.08分鐘、訓(xùn)練時(shí)間為0.106 s,相比于LightGBM、XGBoost算法,CatBoost在回歸指標(biāo)方面都具有明顯優(yōu)勢,表現(xiàn)出更高的預(yù)測精度和更短的預(yù)測時(shí)間。然而,由于現(xiàn)實(shí)中導(dǎo)致航班延誤的原因相當(dāng)復(fù)雜,本文在特征選擇和參數(shù)調(diào)整上還有待進(jìn)一步優(yōu)化,比如將天氣、空管控流、電子故障等因素列入特征樣本中,從而更趨近現(xiàn)實(shí)情況以提升預(yù)測準(zhǔn)確性。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學(xué)特征認(rèn)識
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产在线精品美女观看| 久草国产在线观看| 日韩精品毛片| 99无码中文字幕视频| 一级成人a毛片免费播放| 婷婷午夜影院| 精品国产Ⅴ无码大片在线观看81| 日韩高清欧美| 欧美日韩高清| 国产一区二区丝袜高跟鞋| 欧美一区福利| 丰满的熟女一区二区三区l| 成人国产精品一级毛片天堂 | 日本在线国产| 在线毛片网站| 美女无遮挡拍拍拍免费视频| 国产AV毛片| 国产成年女人特黄特色大片免费| 亚欧成人无码AV在线播放| 女人一级毛片| 成年网址网站在线观看| 超清人妻系列无码专区| 一级黄色网站在线免费看| 女人av社区男人的天堂| 一级毛片免费的| 国产一级α片| 亚国产欧美在线人成| 亚洲精品国产综合99| 99国产在线视频| 少妇高潮惨叫久久久久久| 亚洲国产精品久久久久秋霞影院| 激情综合五月网| 在线观看欧美国产| 久久久波多野结衣av一区二区| 九九热在线视频| 欧美亚洲中文精品三区| 国产乱子伦一区二区=| 亚洲精品国产精品乱码不卞| 亚洲成人精品| 日韩成人高清无码| 91无码网站| 亚洲v日韩v欧美在线观看| 欧美亚洲国产视频| 亚洲国产欧美国产综合久久| 国产精品亚洲一区二区三区z| 国产激情无码一区二区三区免费| www欧美在线观看| 精品国产免费第一区二区三区日韩| 欧美成人国产| 日韩少妇激情一区二区| 亚洲天堂精品在线| 久久鸭综合久久国产| Jizz国产色系免费| 性69交片免费看| 综合色亚洲| 午夜日b视频| 国产精品嫩草影院av | 91在线丝袜| 亚洲区视频在线观看| 一区二区三区成人| 91在线播放免费不卡无毒| 网友自拍视频精品区| 国产精品无码久久久久AV| 丰满人妻被猛烈进入无码| 国产成人无码综合亚洲日韩不卡| 久久久久夜色精品波多野结衣| 欧美午夜精品| 久久精品娱乐亚洲领先| 性视频久久| 亚洲AV无码久久天堂| 制服无码网站| 丁香六月激情婷婷| 国内毛片视频| 在线观看亚洲人成网站| 欧美一级一级做性视频| 少妇精品网站| 国产精女同一区二区三区久| 这里只有精品在线| 97国产成人无码精品久久久| 国产真实乱子伦视频播放| 嫩草国产在线| 91精品专区国产盗摄|