夏侯康 王麗娟 林勖 江敏婷 羅浩賢



摘? 要: 有效地預測安檢通道開放數,對合理制定機場安檢排班有重要的指導意義,能夠提升機場安全保障和旅客體驗。隨著大數據的浪潮,大數據機器學習在各領域已有廣泛的應用,本文將其應用到了機場安檢通道開放數的預測上。結合安檢人數歷史數據和航班信息數據,實現對安檢人數的預測,進而實現安檢通道口的預測,并對比多種算法預測效果。
關鍵詞: 安檢通道數;大數據;機器學習;XGBoost
中圖分類號: TP181? ? 文獻標識碼: A? ? DOI:10.3969/j.issn.1003-6970.2020.10.034
本文著錄格式:夏侯康,王麗娟,林勖,等. 基于大數據與機器學習的安檢通道開放數預測[J]. 軟件,2020,41(10):137140
【Abstract】: Effectively predicting the opening number of security inspection channels has important guiding significance for the reasonable formulation of airport security inspection schedules, and can improve airport security and passenger experience. With the wave of big data, big data machine learning has been widely used in various fields. This article applies it to the prediction of the opening number of airport security channels. Combining the historical data of security inspection number and flight information data, it can realize the prediction of security inspection number, and then realize the prediction of security inspection channel, and compare the prediction effects of various algorithms.
【Key words】: Number of security check channels; Big data; Machine learning; XGBoost
0? 引言
隨著中國經濟的快速發展,民航業數據呈現出了爆發式的增長。一個機場在生產運營的各個階段,都會源源不斷地產生數據,同時系統和數據庫會把數據存儲下來,機場積累了大量各種各樣的數據。如何在旅客吞吐量高速增長的情況下,使用機場內有限的保障資源,仍然保持良好的服務質量,這是一個值得研究的問題。目前,大多數國內機場仍然通過人工調配設備和加大人力資源來盡可能地滿足旅客安全需要與服務體驗。這種方式,存在相當多弊端。為了更科學的提升機場的管理效能,使旅客的出行體驗更加便捷、高效和個性化,需要新的技術體系去實現[1-2]。
1? 大數據與機器學習平臺搭建
對于樞紐機場來說,每天安檢人數龐大,安檢過程中產生的數據量通常會達到千萬條,甚至上億條。Hadoop是Apache Foundation開發的分布式系統基礎設施,其軟件框架能夠處理大量數據[3]。HDFS(Hadoop Distribu-tedFileSystem)分布式文件系統為海量數據提供了存儲空間,MapReduce有效提高了大數據的處理速度[4-6]。
大數據技術下的機器學習平臺支持海量數據處理,利用并行計算,構建模型流程,支持常見的機器學習算法,支持常用的特征工程組件。本文選擇了 mllib,mllib是spark中的機器學習庫,包括了大量的機器學習算法。通過簡單的配置可以進行模型訓練和評估,支持決策樹和神經網絡等多種模型訓練。大數據技術下的機器學習平臺如圖1所示。
2? 算法綜述
GBDT(Grdient Boosted Regression Tree)是一種迭代決策樹算法,通過構造一組弱的學習器(樹),并把多棵決策樹的結果累加起來作為最終的預測進行輸出[7]。XGBoost是基于GBDT梯度提升框架提出的一種可擴展的Boosting算法,是大型分布式通用GBDT庫,實現GBDT和一些在梯度廣義線性機器學習的集成算法框架,能利用 CPU 多線程并行加速樹的構建,支持 YARN、MPI等多個平臺,實現分布式運算[8]。
模型的參數用來讓數據更好的擬合預測結果,改變參數就是改變了已有模型。目標函數在保證模型泛化能力同時將代價降至最小。XGBoost算法在梯度提升樹的基礎上采用前向分布算法,初始提升樹
XGBoost算法的優勢在于設計和構建高度可擴展的端到端提升樹,提出了一個合理加權分位數略圖(weighted quantile sketch)來計算候選集,它引入了一種新穎的稀疏感知算法用于并行樹學習。它提出了一個有效的用于核外樹形學習的緩存感知塊結構,并用緩存加速尋找排序后被打亂的索引的列數據。
3? 基于大數據與機器學習的安檢通道數預測
3.1? 數據處理及模型構建
3.1.1? 數據獲取
利用大數據hadoop平臺對國內某樞紐機場的海量數據進行處理,獲取所需要的原始數據,選取2018年9月至2019年9月安檢和航班信息相關數據,并進行探索分析。
3.1.2? 數據清洗
為了避免數據不穩定對預測效果造成影響,結合業務知識和分析結果,對原始數據進行了預處理,如圖2所示。
3.1.3? 特征工程
分析歷史安檢旅客數據發現:(1)每個區域每天的安檢數據呈現規律性,所以將安檢人數統計值作為了特征;(2)安檢人數受時間、節假日、航季等因素影響,因此,分區域選取了時間相關、節假日、航季等數據作為了基礎特征。航班架次與旅客人數有著直接的關系,結合國內樞紐機場推薦的值機時間及對歷史數據的統計分析,將航班計劃起飛前2小時的航班都記為正在安檢的航班,計算得到的航班架次數據作為了特征。
統計分析航班歷史運載旅客數據,獲得該航班在每個時間片人數的分布,累計每個航班的分布情況,并結合當日安檢人數總數,得到了旅客分布。
3.1.4? 模型構建
在開始訓練之前,首先劃分訓練集、測試集和預測集,對數據進行歸一化處理。對于具有相同規律的數據集以外的數據(數據集中沒有出現的數據),訓練后的模型可以給出適當的輸出。本文對模型通過Hyperopt 進行參數自動調優,對模型不斷進行凸優化,在多次快速迭代中選出最優超參數組合。
3.2? 預測結果與分析
本文對國內某樞紐機場的兩個安檢區域,以10 min為粒度,進行人數預測。利用訓練集和內部測試集(2018年9月1日-2019年9月22日),通過調參,得到每個區域的最優參數及模型,預測(2019年9月23日-2019年9月29日)。通過均方根誤差(RMSE)評估預測精度及預測方法表現力。
(1)真實數據形態及趨勢
(2)人數預測結果分析
利用XGBoost算法對兩個區域安檢人數進行預測,預測結果與真實值對比圖如圖4所示。可以看出,XGBoost算法能夠很好的擬合出數據趨勢和周期,這說明該模型具有較好的普適性和泛化能力。
有較好的表現,平均誤差雖有波動,但總體均低于5%。
3.3? 通道數轉換及分析
選取4.2節中安檢人數預測結果,結合樞紐機場安檢業務規則,分區域進行通道數的換算。轉換公式如下:
通道口的開關取決于安檢人數的多少,通過預測的人數轉換得到的通道數,更加合理科學。基于大數據和機器學習技術的安檢通道數預測,能夠解決旅客在安檢區域長時間滯留的問題,亦能為安檢工作人員調配和工作分配提供科學性導和數據支持。
4? 結論
通過大數據機器學習技術,挖掘安檢區域歷史人數信息和航班動態數據中潛在的規律,以預測未來一段時間該區域的旅客人數變化,進而預測安檢通道數,合理的調配人力和物力資源,提升旅客在機場的體驗度,也能夠及時避免因旅客長時間滯留而引發的安全性事件。
參考文獻
[1]李向明. 大數據在機場運營管理中的運用研究[J]. 空運商務, 2017(3): 20-22.
[2]牛虎. 大數據時代下的機場旅客數據價值挖掘[J]. 綜合運輸, 2015, 37(11): 92-95+135.
[3]彭仁通. Hadoop的核心技術研究或概述[J]. 科技廣場, 2012(5): 41-43.
[4]Condie T, Mineiro P, Polyzotis N, et al. Machine learning for big data[C]//2013.
[5]陳康, 向勇, 喻超. 大數據時代機器學習的新趨勢[J]. 電信科學, 2012, 28(12): 88-95.
[6]李尚晉. 大數據環境下的機器學習研究[J]. 電子世界, 2018(1): 62-63.
[7]Friedman J H . Greedy Function Approximation: A Gradient Boosting Machine[J]. The Annals of Statistics, 2001, 29(5): 1189-1232.
[8]Tianqi Chen, Carlos Guestrin. XGBoost: A Scalable Tree Boosting System. knowledge discovery and data mining, 2016.