李卿
(四川大學視覺合成圖形圖像技術重點學科實驗室,成都610065)
隨著旅客出行總次數(shù)的增加,歷史航跡數(shù)據(jù)和氣象雷達數(shù)據(jù)也呈指數(shù)及增長,空管系統(tǒng)中的硬件性能的更新遠遠不及高速增長的數(shù)據(jù),這就需要我們進行實時統(tǒng)計和計算,例如提取出高價值的歷史流量信息并結合氣象數(shù)據(jù)信息,還原機場的某個歷史實時狀態(tài),為后續(xù)的基于神經(jīng)網(wǎng)絡的諸多算法在流量預測,流量控制策略選擇方面的應用提供原始數(shù)據(jù)。流量預測需要從多方面考慮,造成流量擁堵或者流量控制的因素非常多,從根本原因上可以分為氣象因素、軍事活動、歷史流控信息和自然業(yè)務增長沖突幾個方面。羅萌、崔德光等在文獻中指出,流量管理原型系統(tǒng)的形成需要從空管部門得到與流量管理相關的原始數(shù)據(jù)并進行整理和加載[1],但從實際工作中來看,在空管部門得到的數(shù)據(jù)往往是零散的、碎片化的,就需要數(shù)據(jù)處理程序運行在相對更加靈活的平臺上,傳統(tǒng)的基于數(shù)據(jù)庫的模型配置也較為繁瑣。所以針對以上方面,本文使用基于Pandas+Python 的靈活數(shù)據(jù)處理框架,構建了一種數(shù)據(jù)采集、融合、挖掘的系統(tǒng)方案,采用本方案可以讓數(shù)據(jù)在終端完成處理,降低本地數(shù)據(jù)庫主機的存儲負荷,提高數(shù)據(jù)的可用性,提升系統(tǒng)的穩(wěn)定性,并且可以減輕預測系統(tǒng)的深度數(shù)據(jù)挖掘的工作量,為進一步精確的機場短時流量預測提供了良好基礎。
流量數(shù)據(jù)和氣象數(shù)據(jù)都有相當大規(guī)模的數(shù)據(jù)統(tǒng)計,流量數(shù)據(jù)是一種較為高層的抽象數(shù)據(jù),它來自于實時航跡信息,計劃報文信息,其中包含了大量的雷達配對信息,各種飛越信息和各種實時計劃報文信息,從這些基礎數(shù)據(jù)中可以抽象出短時流量信息,并進一步累積出長期報文信息[2]。流控信息為管制部門實時發(fā)布,短期的流量和實時的氣象信息可以作為長期流量和歷史氣象的依據(jù),依托大量短期甚至實時的數(shù)據(jù)統(tǒng)計,可以挖掘出機場長期的行為模式和相關空管協(xié)調模式。這三塊數(shù)據(jù)涉及到部門眾多,在數(shù)據(jù)的采集過程中很難做到向中心化的匯聚,從而導致龐大的協(xié)調開銷。所以我們提出采用基于Pandas+Python 的方案在現(xiàn)有的邊緣終端上進行數(shù)據(jù)處理和分析,然后按照時間序列統(tǒng)一匯聚成一份精煉有用的數(shù)據(jù)集。
Pandas 是Python 的核心數(shù)據(jù)分析支持庫,提供了快速、靈活、明確的數(shù)據(jù)結構,旨在簡單、直觀地處理關系型、標記型數(shù)據(jù)。Pandas 的主要數(shù)據(jù)結構是一維數(shù)據(jù)(Series)與二維數(shù)據(jù)(DataFrame),這兩種數(shù)據(jù)結構足以整理分析相關的氣象情報和飛行情報。此外在現(xiàn)有的空管系統(tǒng)環(huán)境中,進行數(shù)據(jù)采集需要對I/O 文件的良好支持,而Pandas 能夠很好地完成該項任務[3]。另外航行數(shù)據(jù)和處理過的METAR 報文都是一種時間序列數(shù)據(jù),對于缺失的數(shù)據(jù),Pandas 能夠使用靈活的方法,例如支持范圍日期的生成、窗口統(tǒng)計、頻率轉換、移動窗口線性回歸、UTC 時間和GMT8+序列轉換等功能。也有助于處理很多實際序列中的缺值或異常值的問題。
Pandas 的靈活性體現(xiàn)在安裝方便,部署簡單,代碼量極少,在本地終端使用腳本化的處理方式就可以完成數(shù)據(jù)的分析處理。針對數(shù)據(jù)的來源我們分別對三套系統(tǒng)進行單獨設計,在實際運行中,這樣的方案取得了較好的效果。只要部署Python3+Numpy 就可以很方便地運行。
本系統(tǒng)只統(tǒng)計短期機場的進出場流量數(shù)據(jù),通過實際起飛降落情況以每個小時為單位統(tǒng)計流量,最后將計算出的流量數(shù)據(jù)以csv 的形式加入文件中。對于數(shù)據(jù)的統(tǒng)計最好是一天一次,這樣可以避免數(shù)據(jù)磁盤容量不足的情況。如圖1 所示,其中DEP 是起飛計劃,從起飛計劃中可以找到實際起飛時間,從而統(tǒng)計實際出場流量,而ARR 為到達報,從到達報中解析出實際到達時間就可統(tǒng)計進場流量。流量統(tǒng)計具有不同的時間粒度,有10min、30min、1h 的統(tǒng)計方式,最后通過存成csv 文件放到飛行計劃服務器上。

圖1 歷史流量分析統(tǒng)計系統(tǒng)
本系統(tǒng)主要是統(tǒng)計機場航行氣象通告,將三種氣象報文中的氣象相關特征進行數(shù)據(jù)挖掘,得到例如風速、風向變化、能見度、下雨、雷暴、大霧等具體的氣象特征。由于處理出來的情報較少,為了方便拷入拷出,氣象情報服務器處理聚合報文后,通過.csv 文件的形式進行歸檔。

圖2 歷史氣象情報統(tǒng)計分析系統(tǒng)
流控信息主要關注來自氣象因素、機場因素和管制中心調配因素,將三種因素作為流量控制影響流量的主要因素進行整理,同上述操作一致,放到.csv 上進行存儲。

圖3 流控信息統(tǒng)計系統(tǒng)
以上零散的系統(tǒng)需要進行聚合,把上面三個系統(tǒng)聚合后效果如圖4。

圖4 聚合系統(tǒng)
數(shù)據(jù)來源分為三大部分,分別是氣象情報信息,航跡數(shù)據(jù)和計劃情報報文,歷史流量控制信息。以上數(shù)據(jù)源經(jīng)數(shù)據(jù)清洗后放入數(shù)據(jù)庫中,具體數(shù)據(jù)存放結構需要統(tǒng)籌規(guī)劃,對核心數(shù)據(jù)進行初步計算和統(tǒng)計分析,才能最后得到切實可用的數(shù)據(jù)集。
機場氣象情報來自于METAR(METeorological Aerodrome Report)、TAF(Terminal Aerodrome Forecasts)和SPECI(SPECIal weather report),其 中METAR 和SPECI 通告了實際氣象信息,TAF 報則表示了未來一段時間的預報信息。主要通過METAR 報文可以解析得到全面的氣象指標,如表1 展示了2019 年4 月3 日19 時的雙流機場及其附近的氣象指標。通常全球的METAR 報文都是實時發(fā)布的,需要自己采集整理原始報文,從而累積起可用的歷史氣象數(shù)據(jù)。而TAF 可以作為預測流量的修正值來使用,在短時間內的TAF 對極端氣象指標的預測是較為可信的。在氣象特征中,雷暴、風、霧是對民用機場流量影響最大的因素[4],特別是變化很強的風,短時強對流天氣對安全飛行造成了很大的隱患[5]。同時,由于METAR 等報文的歷史統(tǒng)計信息并沒有一個開源共享的歷史信息,所以需要自己整理和統(tǒng)計相關數(shù)據(jù)[6],以備從一個長期的歷史范圍去研究氣象變化對機場正常航行的影響。

表1 2019 年4 月3 日19 時雙流機場實時氣象指標
通過機場的計劃起飛(DEP)降落(ARR)報文中的實時起飛時間和實時降落時間字段,可以較為精確的統(tǒng)計進出場流量信息,也可以通過飛機飛越報告點的時間來進行統(tǒng)計,如表2 就表示了2019 年9 月23 日的進出場流量信息。

表2 2019 年9 月23 日17 時至23 時進出場流量統(tǒng)計結果
本文給出一種靈活、高效的解決方案,Pandas 相比較于傳統(tǒng)的數(shù)據(jù)庫方式可以省去很多工作,例如數(shù)據(jù)庫的安裝,數(shù)據(jù)庫關系結構化等。若基于傳統(tǒng)的數(shù)據(jù)庫,在處理數(shù)據(jù)上就會顯得較為笨重,而一個復雜的系統(tǒng)它的易用性和穩(wěn)定性都是難做到較好的效果的。此外,在生產(chǎn)終端的運算量往往不會很大,現(xiàn)在的生產(chǎn)終端或者后繼節(jié)點實際上是具有很大算力空間的,而把以往匯聚到中心的計算放到邊緣終端,則會很好地利用到這些冗余算力。再者,本文也總結了目前流量預測和流量控制系統(tǒng)中較為重要的幾個特征量,在統(tǒng)一的時間段內,將重要的特征量聚合起來,為下一步基于統(tǒng)計的數(shù)據(jù)挖掘提供了巨大的發(fā)揮空間。筆者認為,空管數(shù)據(jù)由于其固有的慣性,注定是分散的,處理空管數(shù)據(jù)也可以用到基于分布式的一些技術例如Hadoop+Spark 的成熟運算架構,以其提升運算速度和存儲規(guī)模。