999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據與機器學習的安檢通道開放數預測

2020-12-23 05:47:19夏侯康王麗娟林勖江敏婷羅浩賢
軟件 2020年10期
關鍵詞:機器學習大數據

夏侯康 王麗娟 林勖 江敏婷 羅浩賢

摘? 要: 有效地預測安檢通道開放數,對合理制定機場安檢排班有重要的指導意義,能夠提升機場安全保障和旅客體驗。隨著大數據的浪潮,大數據機器學習在各領域已有廣泛的應用,本文將其應用到了機場安檢通道開放數的預測上。結合安檢人數歷史數據和航班信息數據,實現對安檢人數的預測,進而實現安檢通道口的預測,并對比多種算法預測效果。

關鍵詞: 安檢通道數;大數據;機器學習;XGBoost

中圖分類號: TP181? ? 文獻標識碼: A? ? DOI:10.3969/j.issn.1003-6970.2020.10.034

本文著錄格式:夏侯康,王麗娟,林勖,等. 基于大數據與機器學習的安檢通道開放數預測[J]. 軟件,2020,41(10):137140

【Abstract】: Effectively predicting the opening number of security inspection channels has important guiding significance for the reasonable formulation of airport security inspection schedules, and can improve airport security and passenger experience. With the wave of big data, big data machine learning has been widely used in various fields. This article applies it to the prediction of the opening number of airport security channels. Combining the historical data of security inspection number and flight information data, it can realize the prediction of security inspection number, and then realize the prediction of security inspection channel, and compare the prediction effects of various algorithms.

【Key words】: Number of security check channels; Big data; Machine learning; XGBoost

0? 引言

隨著中國經濟的快速發展,民航業數據呈現出了爆發式的增長。一個機場在生產運營的各個階段,都會源源不斷地產生數據,同時系統和數據庫會把數據存儲下來,機場積累了大量各種各樣的數據。如何在旅客吞吐量高速增長的情況下,使用機場內有限的保障資源,仍然保持良好的服務質量,這是一個值得研究的問題。目前,大多數國內機場仍然通過人工調配設備和加大人力資源來盡可能地滿足旅客安全需要與服務體驗。這種方式,存在相當多弊端。為了更科學的提升機場的管理效能,使旅客的出行體驗更加便捷、高效和個性化,需要新的技術體系去實現[1-2]。

1? 大數據與機器學習平臺搭建

對于樞紐機場來說,每天安檢人數龐大,安檢過程中產生的數據量通常會達到千萬條,甚至上億條。Hadoop是Apache Foundation開發的分布式系統基礎設施,其軟件框架能夠處理大量數據[3]。HDFS(Hadoop Distribu-tedFileSystem)分布式文件系統為海量數據提供了存儲空間,MapReduce有效提高了大數據的處理速度[4-6]。

大數據技術下的機器學習平臺支持海量數據處理,利用并行計算,構建模型流程,支持常見的機器學習算法,支持常用的特征工程組件。本文選擇了 mllib,mllib是spark中的機器學習庫,包括了大量的機器學習算法。通過簡單的配置可以進行模型訓練和評估,支持決策樹和神經網絡等多種模型訓練。大數據技術下的機器學習平臺如圖1所示。

2? 算法綜述

GBDT(Grdient Boosted Regression Tree)是一種迭代決策樹算法,通過構造一組弱的學習器(樹),并把多棵決策樹的結果累加起來作為最終的預測進行輸出[7]。XGBoost是基于GBDT梯度提升框架提出的一種可擴展的Boosting算法,是大型分布式通用GBDT庫,實現GBDT和一些在梯度廣義線性機器學習的集成算法框架,能利用 CPU 多線程并行加速樹的構建,支持 YARN、MPI等多個平臺,實現分布式運算[8]。

模型的參數用來讓數據更好的擬合預測結果,改變參數就是改變了已有模型。目標函數在保證模型泛化能力同時將代價降至最小。XGBoost算法在梯度提升樹的基礎上采用前向分布算法,初始提升樹

XGBoost算法的優勢在于設計和構建高度可擴展的端到端提升樹,提出了一個合理加權分位數略圖(weighted quantile sketch)來計算候選集,它引入了一種新穎的稀疏感知算法用于并行樹學習。它提出了一個有效的用于核外樹形學習的緩存感知塊結構,并用緩存加速尋找排序后被打亂的索引的列數據。

3? 基于大數據與機器學習的安檢通道數預測

3.1? 數據處理及模型構建

3.1.1? 數據獲取

利用大數據hadoop平臺對國內某樞紐機場的海量數據進行處理,獲取所需要的原始數據,選取2018年9月至2019年9月安檢和航班信息相關數據,并進行探索分析。

3.1.2? 數據清洗

為了避免數據不穩定對預測效果造成影響,結合業務知識和分析結果,對原始數據進行了預處理,如圖2所示。

3.1.3? 特征工程

分析歷史安檢旅客數據發現:(1)每個區域每天的安檢數據呈現規律性,所以將安檢人數統計值作為了特征;(2)安檢人數受時間、節假日、航季等因素影響,因此,分區域選取了時間相關、節假日、航季等數據作為了基礎特征。航班架次與旅客人數有著直接的關系,結合國內樞紐機場推薦的值機時間及對歷史數據的統計分析,將航班計劃起飛前2小時的航班都記為正在安檢的航班,計算得到的航班架次數據作為了特征。

統計分析航班歷史運載旅客數據,獲得該航班在每個時間片人數的分布,累計每個航班的分布情況,并結合當日安檢人數總數,得到了旅客分布。

3.1.4? 模型構建

在開始訓練之前,首先劃分訓練集、測試集和預測集,對數據進行歸一化處理。對于具有相同規律的數據集以外的數據(數據集中沒有出現的數據),訓練后的模型可以給出適當的輸出。本文對模型通過Hyperopt 進行參數自動調優,對模型不斷進行凸優化,在多次快速迭代中選出最優超參數組合。

3.2? 預測結果與分析

本文對國內某樞紐機場的兩個安檢區域,以10 min為粒度,進行人數預測。利用訓練集和內部測試集(2018年9月1日-2019年9月22日),通過調參,得到每個區域的最優參數及模型,預測(2019年9月23日-2019年9月29日)。通過均方根誤差(RMSE)評估預測精度及預測方法表現力。

(1)真實數據形態及趨勢

(2)人數預測結果分析

利用XGBoost算法對兩個區域安檢人數進行預測,預測結果與真實值對比圖如圖4所示。可以看出,XGBoost算法能夠很好的擬合出數據趨勢和周期,這說明該模型具有較好的普適性和泛化能力。

有較好的表現,平均誤差雖有波動,但總體均低于5%。

3.3? 通道數轉換及分析

選取4.2節中安檢人數預測結果,結合樞紐機場安檢業務規則,分區域進行通道數的換算。轉換公式如下:

通道口的開關取決于安檢人數的多少,通過預測的人數轉換得到的通道數,更加合理科學。基于大數據和機器學習技術的安檢通道數預測,能夠解決旅客在安檢區域長時間滯留的問題,亦能為安檢工作人員調配和工作分配提供科學性導和數據支持。

4? 結論

通過大數據機器學習技術,挖掘安檢區域歷史人數信息和航班動態數據中潛在的規律,以預測未來一段時間該區域的旅客人數變化,進而預測安檢通道數,合理的調配人力和物力資源,提升旅客在機場的體驗度,也能夠及時避免因旅客長時間滯留而引發的安全性事件。

參考文獻

[1]李向明. 大數據在機場運營管理中的運用研究[J]. 空運商務, 2017(3): 20-22.

[2]牛虎. 大數據時代下的機場旅客數據價值挖掘[J]. 綜合運輸, 2015, 37(11): 92-95+135.

[3]彭仁通. Hadoop的核心技術研究或概述[J]. 科技廣場, 2012(5): 41-43.

[4]Condie T, Mineiro P, Polyzotis N, et al. Machine learning for big data[C]//2013.

[5]陳康, 向勇, 喻超. 大數據時代機器學習的新趨勢[J]. 電信科學, 2012, 28(12): 88-95.

[6]李尚晉. 大數據環境下的機器學習研究[J]. 電子世界, 2018(1): 62-63.

[7]Friedman J H . Greedy Function Approximation: A Gradient Boosting Machine[J]. The Annals of Statistics, 2001, 29(5): 1189-1232.

[8]Tianqi Chen, Carlos Guestrin. XGBoost: A Scalable Tree Boosting System. knowledge discovery and data mining, 2016.

猜你喜歡
機器學習大數據
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數據分析研究
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
機器學習理論在高中自主學習中的應用
主站蜘蛛池模板: 国产亚洲精品无码专| 亚洲中文制服丝袜欧美精品| 三上悠亚在线精品二区| 全免费a级毛片免费看不卡| AV不卡在线永久免费观看| 在线亚洲小视频| 国产在线精品人成导航| 尤物午夜福利视频| 国产簧片免费在线播放| 好紧好深好大乳无码中文字幕| 国产美女一级毛片| 午夜福利视频一区| 亚洲AV无码一二区三区在线播放| 亚洲国产成人超福利久久精品| 成年人国产网站| 久久免费视频播放| 成人免费网站久久久| 国产精品一区在线观看你懂的| 亚洲午夜片| 天天做天天爱夜夜爽毛片毛片| 波多野结衣视频网站| 一本一道波多野结衣一区二区| 九色最新网址| 美臀人妻中出中文字幕在线| 国产美女免费网站| 久久精品一卡日本电影| lhav亚洲精品| 在线亚洲小视频| 亚洲欧美综合在线观看| 久久黄色一级片| 日本人妻丰满熟妇区| 亚洲天堂日韩在线| 真人高潮娇喘嗯啊在线观看| 欧美一区二区精品久久久| 亚洲日本www| 免费人成视频在线观看网站| 亚洲三级色| 亚洲人成高清| 国产欧美日韩在线一区| 国产精品xxx| 亚洲欧美日韩成人高清在线一区| 亚洲手机在线| 国产亚洲精品无码专| 国产成人夜色91| 亚洲视频色图| 亚洲国产日韩在线观看| 麻豆精品国产自产在线| 人妻91无码色偷偷色噜噜噜| 国产99视频精品免费视频7 | 无码日韩视频| 欧美a在线| 玩两个丰满老熟女久久网| 久久人人97超碰人人澡爱香蕉| 人妻中文字幕无码久久一区| 欧美天堂久久| 免费全部高H视频无码无遮掩| 国产成人禁片在线观看| 亚洲色图欧美| 大香伊人久久| 国产SUV精品一区二区6| 亚洲国产精品无码AV| 亚洲丝袜第一页| 欧美性猛交xxxx乱大交极品| 无码AV日韩一二三区| 国产午夜不卡| 日本在线欧美在线| 97超爽成人免费视频在线播放| 日韩天堂网| 一边摸一边做爽的视频17国产| 999国产精品| 精品亚洲欧美中文字幕在线看| 婷婷综合在线观看丁香| 久久婷婷五月综合97色| 成人在线观看不卡| 国产激爽大片在线播放| 国产理论最新国产精品视频| 日韩最新中文字幕| 最新国产麻豆aⅴ精品无| 永久免费精品视频| 成人伊人色一区二区三区| 青青草欧美| 国产国产人免费视频成18|