周烈瑜

摘要:隨著大數據技術越來越多地得到了各行業的關注,如何將大數據應用于空中交通管理系統成為一個新的研究方向。本文分析歸納了大數據技術的特點和對空管大數據概念的理解,同時以無線電干擾統計數據的建模分析為例,對大數據技術在空管系統的實際應用進行了探討。本文希望通過實例分析,助推大數據技術的行業應用。
關鍵字:數據分析;空管大數據;無線電干擾;SPSS
中圖分類號:v355 文獻標識碼:A 文章編號:1672-3791(2016)04(B)-0000-00
一.引言
隨著大數據時代的到來,數據從簡單的處理對象轉變為一種基礎性資源。空中交通管理(以下簡稱空管)系統作為民用航空的中樞系統,亟須尋找與大數據的結合點,利用大數據改進生產方式,優化資源配置,提升服務質量。某種意義上來說,大數據對于空管系統而言,代表著一種生產力。
二.大數據技術
大數據是指數據規模超過傳統數據庫處理能力的大規模數據,是需要具有全面性、洞察力和流程優化能力的革新性處理模式才能處理的海量、多樣化和高增長率的數據信息資源。[1]數據信息時代先后經歷了計算能力先導、存儲能力先導2個階段,隨著網絡應用的日趨成熟,以網絡運載作為先導的網絡信息時代已經開啟。[2]"十三五"規劃正式提出:"實施國家大數據戰略,推進數據資源開放共享"。大數據,被認為是未來的石油和礦產,近年來已經被引入至交通,醫療,家居,金融等諸多領域,改變著人類的生活方式。
隨著研究的不斷深入,大數據普遍被認為有四個特點,業界歸納為“4V”,即Volume(數據量巨大)、Variety(數據類型多樣化)、Velocity(數據時效性高) Veracity(數據真實性低)。
大數據領域有四個需要研討的核心技術:
1、 數據采集與預處理,數據采集是通過多個數據庫接收來自用戶、程序、互聯網以及傳感器網等方式獲得的各種類型的結構化及非結構化的數據,特點是并發數高,需進行負載均衡和分片。預處理則是對已收集數據進行篩選、辨析、凈化等操作,去除無效數據。
2、 數據存儲與管理,建立數據中心活著數據倉庫,存儲經過預處理的海量采集數據,并進行管理和調用。主要解決大數據可存儲,可處理及有效傳輸等關鍵問題。
3、 數據分析與挖掘,數據分析及挖掘技術是大數據的核心技術。主要是在現有的數據上進行基于各種算法的計算,從而起到預測的效果,從而實現一些高級別數據分析的需求。
4、 數據展現與應用,數據挖掘和數據分析技術可以發現潛在規律,輔助事件決策,從而提高生產效率和經濟效益。就目前而言,“數據中國”側重于以下三大領域:商業智能、政府決策、公共服務。[3]
三.空管大數據
空中交通管理過程涉及的空中交通活動呈現一個周期性過程,在空中交通活動的準備、實施、評估過程中涉及多種海量數據,我們把這些數據的總和稱為空管大數據。
空管大數據囊括整個空中交通管理活動的過程數據,主要可以分為設備數據,操作數據,管理數據和環境數據。對比大數據的“4V”特性,空管系統的大數據也有四個顯著特征:
1、 數據量大。根據規劃2020年全國空管的設備數量將超過十萬臺(套)。以普通的服務器為例,長期運行的交互數據量是TB級別的,撇開數據的有效性而言,全國空管的設備數據將達到EB級別。[4]
2、 數據類型多。核心業務的數據包括雷達航跡數據、地空通信話音數據、天氣數據、情報數據、報文數據、人員操作數據等,其它業務數據包括人員數據、OA數據、視頻數據、媒體數據等。這中間既包含了靜態數據,也包含了動態數據。
3、 數據時效性高。與其他大數據相比,空管核心業務對數據時效性有著更高的要求,例如二次雷達數據4秒刷新,甚高頻設備故障切換時間要求在30秒內。因此部分數據分析如果超過時效就失去了意義。
4、 數據相對真實。其他大數據的采集過程中,數據多來自于主觀意愿及傳感器,據統計,59%的數據是無效的,85%的數據過于復雜。與此不同的是,空管業務的大部分數據來自一線投產設備和秉持安全生產理念的職工,數據真實性高且具有完整的格式,結構化數據占比高。
四.無線電干擾數據的簡單建模分析
華東設備運維管理系統(以下簡稱運維系統)的上線,為空管系統各類數據的收集增添了一個新的有效途徑。本文的建模分析以運維系統統計的無線電干擾數據為元數據,以IBM SPSS Modeler(以下簡稱SPSS)軟件為工具,使用Apriori算法進行關聯規則建模,并作簡單數據分析。無線電干擾統計的數據量并不大,但對空管大數據的分析和應用有一定的參考價值。
(一)數據提取與凈化
登錄運維系統,查詢近五年來登記的無線電干擾數據并導出成Excel表格,共生成無線電干擾數據2293條。由于本次建模只做簡單數據分析,因此只提取部分規則性強的結構化數據,包括扇區,頻率,飛行航向,業務用途,申訴地區,干擾特征,干擾類型,干擾強度,干擾規律和干擾影響。根據SPSS的測量級別分類,申訴地區測量級別為標志,干擾強度和干擾規律的測量級別為有序,其余數據的測量級別為名義。
(二)Apriori算法數據建模
在關聯分析中,有幾個關鍵數值的閾值設置很重要:
支持度(Support),表示項集{X,Y}在總項集里出現的頻率,公式為Support(X→Y) = P(X,Y) / P(I) = P(X∪Y) / P(I) = num(XUY) / num(I)。
置信度 (Confidence),表示在先決條件X發生的情況下,由關聯規則推出Y的概率。即在含有X的項集中,含有Y的可能性,公式為 Confidence(X→Y) = P(Y|X) = P(X,Y) / P(X) = P(XUY) / P(X)。
若支持度和置信度閾值設置過高,隱含的非頻繁特征項就可能被忽略。若支持度和置信度設置過低,則可能產生無意義規則,導致過擬合問題。[5]
在SPSS軟件新建的流中,添加Excel數據源節點,類型字段節點和Apriori建模節點。在數據預處理過程中發現,ACC02扇區和ACC08扇區干擾發生頻率相對較高,本次建模選擇以這兩個扇區的數據為主要樣本,設立兩個模型:
模型一:以ACC02扇區干擾特征為輸出的Apriori建模
篩選出ACC02扇區數據,“干擾特征”字段角色設為目標,其他字段角色設為輸入,支持度設為20%,置信度設為70%。
模型二:以ACC08扇區干擾特征為輸出的Apriori建模
篩選出ACC08扇區數據,“干擾特征”字段角色設為目標,其他字段角色設為輸入,支持度設為20%,置信度設為70%。
(三)Apriori算法數據分析
經過SPSS建模計算,可以得到三個模型生成的各類圖表數據,本次建模僅對最大前項數為5的Apriori模型表進行分析。
圖表1以ACC02扇區干擾特征為輸出的Apriori模型
由上表可見,ACC02扇區的干擾以廣播干擾為主,支持度和置信度同時滿足閾值設置的只有航路上的空中干擾。如果數據分析成立且得到進一步驗證,ACC02扇區的干擾排查可以適當側重于航路上的廣播。
由上表可見,雖然ACC08扇區的干擾發生同樣不少,但與ACC02扇區不同的是,ACC08扇區的廣播以語音干擾和噪音干擾為主。其中127.75頻率的干擾次數明顯多于其他,因此常用的措施是被迫切換頻率,值得重點關注。
(四) 其他常用的算法和分析方法
述的三種Apriori算法建模的功能是幫助我們從大量數據之間找到一些關聯規則。而Apriori算法只是眾多數據挖掘和數據分析建模中的一種,常用的建模方法還包括主成分分析,神經網絡,K-Means,Kohonen等。常用的分析方法包括主成分分析,聚類分析,差異檢測,數據導向決策等,每種分析方法都有各自的適用條件和優缺點,需要研究者結合實際情況合理使用。[6]
五.大數據技術在空管系統的應用前景
隨著信息技術快速發展,數據收集成本不斷降低,空管大數據的應用將是科研的一個重要方向。在這種背景下,我們需要做的是建立數據倉庫收集海量空管數據,并合理利用工具進行挖掘分析,此外需要注意數據收集、整合與分析過程中的科學性,使得其具有一定的現實意義和操作價值,實現數據挖掘的價值。
首先,空管大數據可以優化生產管理。對于備件配置,通過對各地各系統設備實際使用率和故障率的數據統計,分析各地各系統設備所需的冗余數量,優化資源配置,降低采購成本。對于耗材采購,通過大量的數據統計和環境變量,可以嘗試得出各個時期各部門各設備的耗材需求,各品牌耗材的性價比,甚至得出一些趨勢預測,利于預案、預算和決策的制定。
其次,空管大數據可以用于安全管理和風險控制。現在空管系統的風險管理主要通過事前的危險源排查和事后的分析學習,這要求決策者具有優秀的業務水平和良好的風險意識,主觀性較強卻缺乏理論依據。而大數據分析則彌補了這一點,當數據量積累到一定程度時,通過故障數據分析,可以有效得出各設備在各種環境條件下的故障機率,列出高風險設備。此外,通過對處理過程的統計分析,可以嘗試得到最優的故障排查方式,幫助一線員工的當場做出更優的決策。數據驅動的科學化管理和科學化決策將進一步提升空管系統的安全管理水平。
此外,空管數據分析還可以應用于氣象預測和服務提供,管制模擬仿真,新技術新設備投產分析等。
六.結束語
盡管目前空管大數據還沒有一定的標準,但是身處這個大數據的時代,整個空中交通管理活動無時無刻不在產生、收集、處理各種數據。我們是數據的生產者,也是數據的使用者。空管大數據的研究還處于起步階段,我們需要做的是利用好大數據技術,從中挖掘出新的內涵,以期提高安全標準,提升服務品質,助推行業發展。
參考文獻
[1] Yaxiong Zhao.Jie Wu .Cong Liu.Dache: A Data Aware Caching for Big-Data Applications Using the MapReduce Framework.Tsinghua Science and Technology.2014(1):39-50.
[2]李德毅.劉常昱.杜鹢等.不確定性人工智能.軟件學報.2004.15(11):1583-1594.
[3]張戰波.空管大數據的概念,特征和應用.中國民航飛行學院學報.2015(26):18-21
[4]高紅旭.康永.郭芃.大數據技術在民航空管監控系統中的應用.現代導航.2015(02):144-150
[5]張健.王蔚.基于支持度與置信度閾值優化技術的關聯分類算法.計算機應用.2007.12(27):3032-3035
[6]曹正鳳.數據分析基礎.電子工業出版社.2015.2.