鄭海飛 徐有成 郝 蓮 陸 軍 楊 波
(上海飛機設計研究院,上海 201210)
面向持續適航工程數據的大數據采集和處理技術初探
鄭海飛 徐有成 郝 蓮 陸 軍 楊 波
(上海飛機設計研究院,上海 201210)
國產某型飛機在持續適航階段開展事件收集、風險評估、工程調查和措施制定等工作時,需要機型資料、機隊信息、運營記錄、事故事件、局方信息等工程數據提供輸入、參考以及輔助分析。研究了持續適航工程數據與大數據之間的關系,初步規劃了面向持續適航工程數據的大數據系統架構,并通過以下自動化方式實現了相關數據的采集與處理,形成了持續適航工程數據庫:首先利用網絡爬蟲數據采集技術實時準確地獲取一些國內外公開數據;其次應用VBA語言對已獲得數據進行整理與自定義處理;最后基于大數據的映射分析方法對這些工程數據進行分析。該持續適航工程數據庫已有效應用于某型國產飛機持續適航體系的日常運行工作。
持續適航;工程數據;大數據;風險評估;數據抓取;數據處理;映射分析
國產某型飛機在持續適航階段開展事件收集、安全風險評估、工程調查和制定改正改進措施等工作時,需要工程數據庫為風險評估工作提供數據輸入、數據參考以及分析結論。目前,應用大數據采集和處理技術,持續適航體系已初步建立“持續適航工程數據庫”,并在持續完備中。該數據庫包含多種數據類型:(1) 針對特有機型的數據:設計需求數據、設計要求數據、設計規范(英文)、詳細設計報告、結構或系統CATIA數模、審定計劃,適航符合性報告(MOC1-MOC9)、交聯系統——專項審定計劃、技術出版物以及飛機在運營階段的事件、事故癥候和事故,以及相關的客戶服務文件、適航指令;(2) 針對國內外不同機型的數據:國內外不同機型的事故、事故癥候數據,國內外不同機型的適航指令數據。
該數據庫的主要使用目的為:(1) 為持續適航事件的風險評估提供飛機型號數據輸入,包括設計數據、三維結構數據、安全性分析數據、運營維修數據等,為風險評估中的潛在不安全狀態分析提供數據依據;(2) 利用反證法或引證法,為持續適航事件的風險評估提供參考依據;(3) 實現內網搜索查詢、實現跨庫搜索查詢和支持輔助分析的功能。
持續適航工程數據庫的數據量化指標如表1所示。

表1 持續適航工程數據庫的數據量化指標
綜上所述,持續適航工程數據的特征與大數據的特征極為相似[1]。大數據的五大特征與特性為:數據體量大(Volume)、數據處理速度快(Velocity)、數據類別多(Variety)、數據真實性強(Veracity)、數據潛在價值高(Value),簡稱為“5V”特征[2-8]。為了確保航空器的安全運營以及運營的經濟性,持續適航體系要求針對航空器的運營過程中出現的任何事件,要做出及時、迅速的風險評估,以及分析出航空器的潛在不安全狀態,因此要求快速地對持續適航工程數據進行處理與分析,并得出有效的措施建議;持續適航工程數據與大數據類似,其數據來源于航空器的設計、制造、試飛與日常運營過程中,均為原始數據,因此具有很強的真實性。可以看出,持續適航工程數據是大數據在民航制造業、民航運輸業的具體體現,站在大數據層面,從大數據的視角,在持續適航工程數據的采集、存儲及分析處理方面引入大數據理念,可以更好、更快、更有效地支持并服務于持續適航體系的運行。
基于大數據的理念分析處理持續適航工程數據,就需要一個完備的持續適航工程數據大數據系統。持續適航體系提出了關于持續適航工程數據的大數據系統的系統架構,主要包括數據架構和管理架構兩部分。持續適航工程數據庫基礎架構的數據架構和管理架構如圖1、圖2所示。
2.1 數據架構
主要基于數據層、功能層、應用層和外觀層搭建持續適航工程數據庫的數據架構,實現數據庫的工程數據輸入、輸出和處理及人機交互等功能。
1) 數據層包括型號資料數據模塊、機隊信息數據模塊、試飛信息數據模塊和運營數據模塊,以及可輸出分析數據的專題分析數據模塊。
2) 功能層包括字段搜索(含數據下載功能)、報告上傳、數據增刪和模塊增刪四個基礎功能模塊,數據統計分析和數據關聯兩個延伸功能模塊,數據預測和人工智能兩個高階功能模塊,功能層總共包含八個功能模塊。
字段搜索功能模塊(含數據下載功能)對數據層進行關鍵字段檢索,從而輸出相應持續適航工程數據;報告上傳功能模塊僅針對專題分析數據模塊進行工程數據分析報告的上傳;數據增刪功能模塊針對數據層中數據的實效性、正確性進行更新、更正的操作;模塊增刪功能模塊針對數據層中數據模塊的實效性、正確性進行更新、更正及拓展的操作;統計分析功能模塊具有數據的科學統計、處理分析功能,并將分析處理后的數據套用專題分析數據模塊中的分析報告模板進行分析報告輸出;數據關聯功能模塊將關聯數據之間的相似性、矛盾性等具有工程研究價值的關系與映射;數據預測和人工智能將通過對現有數據及數據之間的關聯的運算與分析,得出具有工程研究價值和實際操作價值的結論和建議。
3) 應用層包括風險評估、事件篩選、工程調查和經驗總結等服務項目,服務于持續適航體系的運營。
4) 外觀層包括文字輸出、圖表輸出、圖形輸出、3D人機交互及報告輸出五個應用模塊。3D人機交互是為了實現持續適航工程數據的3D交互式可視化,高效、便捷地為持續適航體系運行提供數據支持。
2.2 管理架構
主要基于訪問層、訪問層(會員)、操作層以及維護層搭建持續適航工程數據庫的管理架構,實現工程數據輸入、輸出和處理以及數據庫更新、維護的流程化和權限化管理(權限向上兼容)。
1) 訪問層具有對數據庫的字段搜索(含數據下載權限)權限和統計分析權限,可以得到文字、圖表、圖形及報告的輸出;
2) 會員具有對數據庫的報告上傳及統計分析權限,對專題分析數據庫進行數據補充;工程數據庫會員擁有個人賬戶,可以實現對自己已有數據的關聯,亦可對已關聯的其他會員數據的關聯,即多層次的數據關聯;
3) 操作層對持續適航工程數據進行實時跟蹤,具有對數據庫數據的增加和刪減權限;
4) 維護層具有對數據庫數據模塊的增加、刪減和拓展權限。
建立持續適航工程數據的大數據系統,首先需要獲得數據,利用網絡爬蟲的數據采集技術可以高效準確地獲取一些國內外公開數據;其次是對已獲得數據的整理與處理,以便后續分析使用;最后是利用大數據的分析方法,例如線性回歸、決策樹、支持向量機、貝葉斯網絡、k均值以及Apriori關聯等算法[9-10],對系統中的數據進行分析,因此需要建立針對不同應用場合的輔助分析方法。已實現的大數據技術方案如下所述。
3.1 基于網絡爬蟲的數據采集技術
持續適航的工程數據具有體量大的特點,包括飛機型號數據和國外相似機型數據。因此數據的采集不能靠人工來實現。
利用網絡數據抓取技術,包括開源網絡數據爬蟲抓取技術或者Python語言自編譯數據抓取技術,建立高效、準確的抓取規則,執行持續適航工程數據的抓取工作。基于網絡爬蟲數據采集的關鍵技術是抓取規則的建立,其技術方案如圖3所示。
持續適航工程數據是不斷更新的,不能使用不具有時效性的數據。利用網絡數據抓取技術以及上述的數據抓取規則模型,建立數據更新的抓取規則,實現持續適航工程數據的定時更新。采集的數據均來自FAA、EASA以及NTSB的公開數據,因此數據的真實性是可以保證的。
針對采集數據的重復性,在應用3.2節的數據處理技術之后,利用Excel工具中自帶的“刪除重復數據”功能,即可實現數據的去重復性。
3.2 基于VBA語言的數據處理技術
持續適航工程數據的數據量較大,數據存儲量已達到數十GB,數據條數已有三十多萬條,人工手動處理是不現實的,必須開發數據自動化批處理技術。因此本文提出了基于VBA語言的數據處理技術,其關鍵技術是數據處理的核心代碼,如圖4和圖5所示。
圖4和圖5展示了核心代碼主體框架,中間具體算法已省略;可根據數據結構的變化,制定不同的算法,從而實現基于VBA語言的數據處理技術。
3.3 基于映射分析的數據精確定位方法
持續適航工程數據系統的數據量已達到數十萬條,同時具備了基本的查詢、關鍵詞搜索功能。但是,查詢和搜索的精度還較低。查詢和搜索結果經常為數十條或者幾百條,而真正與持續適航事件切合的數據就隱藏在這些查詢結果中,往往需要人工查閱這些查詢結果才能進行有效數據的定位,不利于工作效率的提升,不符合持續適航事件快速處理的原則。因此開展“基于映射分析的持續適航工程數據精確定位方法”的研究。
持續適航工程數據系統中的外部數據絕大部分為英文數據,而在持續適航事件風險評估工作過程中接觸的數據均為中文數據,因此需要應用“映射分析法”,建立BigTable數據庫——映射關系數據庫。該數據庫中包含多種數據映射表,例如“飛機結構/系統部件數據映射關系表”、“飛機安全性數據映射關系表”等多種數據映射表。
“基于映射分析的持續適航工程數據精確定位方法”的實現路徑有兩種:一是基于某型飛機結構或者系統部件的映射分析數據精確定位法;二是基于某型飛機安全性數據的映射分析數據精確定位法。如圖6所示。
1) 方法一
根據接收到的某型飛機持續適航事件,從事件中提取出涉及的飛機結構或者系統相關的數據,依據提取的數據在“某型飛機機型數據”中進行飛機結構或者系統數據的精確、全面定位,為風險評估做充分輸入。
依據提取的飛機結構或系統的精確、全面數據,使用“BigTable數據庫”,定位國內外其他機型的映射關系,為在“持續適航工程數據外部數據”中進行數據定位提供輸入。“BigTable數據庫”中的飛機結構/系統部件映射關系表如圖7所示。以防冰系統為例。
從圖中可以看出,映射關系表不僅包含某型飛機中英文映射關系,還包含常見機型(737、A320)的映射關系。根據映射關系查詢結果,使用“持續適航工程數據外部數據”,可進行國內外相關機型事故、事故癥候的初步精確定位——標題、概述定位;在初步定位結果不滿足需求的情況下,可進行深度精確定位——調查報告、適航指令報告的全文搜索定位。從而實現數據的精確定位功能,為持續適航事件的風險評估工作提供驗證性依據。
2) 方法二
根據接收到的某型飛機持續適航事件,從事件中提取出涉及的飛機安全性指標相關的數據,依據提取的數據在“某型飛機機型數據”中進行飛機安全性分析數據的精確、全面定位,為風險評估做充分輸入。
依據提取的飛機安全性分析數據的精確、全面數據,使用“BigTable數據庫”,定位國內外其他機型的映射關系,為在“持續適航工程數據外部數據”中進行數據定位提供輸入。“BigTable數據庫”中的飛機安全性分析數據映射關系表如圖8所示。以防冰系統為例。
從圖中可以看出包含某型飛機座艙壓調系統FHA的中英文映射關系。根據映射關系查詢結果,使用“持續適航工程數據外部數據”,可進行國內外相關機型事故、事故癥候的初步精確定位——標題、概述定位,例如根據FHA數據可進行初步精確定位;在初步定位結果不滿足需求的情況下,可進行深度精確定位——調查報告、適航指令報告的全文搜索定位,例如根據FMEA、FTA數據進行深度精確定位。從而實現數據的精確定位功能,為持續適航事件的風險評估工作提供驗證性依據。
依據確定的持續適航工程數據大數據系統的系統架構,利用基于網絡爬蟲的數據采集技術、基于VBA語言的數據處理技術和基于映射分析的數據精確定位方法,已形成了大數據系統的初步形態,持續適航工程數據庫已有效應用于國產某型飛機持續適航體系的日常運行工作中。
在之后的工作,需要在以下兩個方面開展研究工作:(1) 數據的更新與迭代,系統內的數據必須能夠體現出當前民航運輸和航空工業的最新狀態;
(2) 針對持續適航技術工作的,更深層次的大數據輔助分析方法的研究,包括事件相似度研究、風險識別方法研究、風險后果嚴重性等級輔助分析方法研究和風險概率輔助分析方法研究。
[1] 鄭海飛, 陸軍. 民機持續適航工程數據的大數據視角[J]. 航空科學技術, 2017, 28(5): 53-58.
[2] 靳小龍, 王元卓, 程學旗. 大數據的研究體系與現狀[J]. 信息通信技術, 2013, 6: 35-43.
[3] 馬建光, 姜巍. 大數據的概念、特征及其應用[J]. 國防科技, 2013, 34(2): 10-17.
[4] 張引, 陳敏, 廖小飛. 大數據應用的現狀與展望[J]. 計算機研究與發展, 2013, 50(9): 216-233.
[5] 李戰懷, 王國仁, 周傲英. 從數據庫視角解讀大數據的研究進展與趨勢[J]. 計算機工程與科學, 2009, 35(10): 1-11.
[6] 程學旗, 靳小龍, 王元卓, 郭嘉豐, 張鐵贏, 李國杰. 大數據系統和分析技術綜述[J]. 軟件學報, 2011, 25(9): 1889-1908.
[7] 鐘瑛, 張恒山. 大數據的緣起、沖擊及其應對[J]. 現代傳播(中國傳媒大學學報), 2013, 7: 104-109.
[8] 何非, 何克清. 大數據及其科學問題與方法的探討[J]. 武漢大學學報(理學版), 2014, 60(1): 1-12.
[9] 袁梅宇. 數據挖掘與機器學習[M]. 北京: 清華大學出版社, 2016.
[10] 范明, 范宏建. 數據挖掘導論[M]. 北京: 人民郵電出版社, 2011.
A Preliminary Study on Big-data Acquisition and Processing Technology for Continuous Airworthiness Engineering Data
/ ZHENG Haifei XU Youcheng HAO Lian LU Jun YANG Bo
(Shanghai Aircraft Design and Research Insitute, Shanghai 201210, China)
When an aircraft in continuous airworthiness phase, the airplane maker needs to do the work of event collection, risk assessment, engineering survey and measure establishment, and then needs plenty of engineering data provided as input information, reference, also can provide the auxiliary analysis, these engineering data such as model data, fleet information, operation records, accident and events, and Airworthiness Directive. This paper studies the relationship between the continued airworthiness engineering data and Big Data, preliminary planning for the continued airworthiness engineering data system structure based on Big Data concept, and through the following automated way to realize the data acquisition and processing, to form the continuous airworthiness engineering database: first of all, using web crawler data acquisition technology to accurately obtain some public data. Secondly, the data is collected and processed by VBA language. Finally, analyzes the engineering data based on the mapping analysis method. The continuous airworthiness engineering database has been used for the daily operation of the continuous airworthiness system.
continuous airworthiness; engineering data; big data; risk assessment; data acquisition; data processing; mapping analysis method
10.19416/j.cnki.1674-9804.2017.03.014
鄭海飛男,博士,工程師。主要研究方向:持續適航工程數據的采集、處理技術以及分析方法,E-mail:zhenghaifei@comac.cc
V221+.91
:A
徐有成男,碩士,研究員。主要研究方向:適航技術與管理研究,E-mail:xuyoucheng@comac.cc
郝蓮女,碩士,研究員。主要研究方向:適航技術研究,E-mail:haolian@comac.cc
陸軍男,博士,高級工程師。主要研究方向:持續適航事件風險評估方法與技術,E-mail:lujun1@comac.cc
楊波男,碩士,助理工程師。主要研究方向:SMS安全管理系統,E-mail:yangbo2@comac.cc