熊明蘭,王華偉,倪曉梅,藺瑞管
(南京航空航天大學 民航學院,南京 211106)
隨著中國國產大飛機項目的不斷推進,C919已取得中國民航局適航認證,ARJ-21已進入持續載客運營階段,對民機系統的安全保障能力提出了更高的要求。認知運行風險的基礎是數據,但民機作為特高安全性和可靠性系統,難以采集到直接的事故信息,兩者之間的矛盾更增加了運行風險分析的難度。因此,為及時識別安全風險,實現安全關口前移,就有必要從事故數據中充分挖掘出有價值的風險信息。
事故分析是實施危險識別和安全管理的基本前提。重大民機事故(major civil aircraft accidents,MCAA)的發生往往不是單一風險因素導致,而是多種風險因素的耦合。通過對風險因素的有效識別,可以反映出民機在運行過程中存在的安全問題,實現事故預防及風險管控[1]。相關學者從不同角度研究了如何準確認知安全風險。Imai等[2]分析了傳感器數據錯誤對飛行安全的影響,并提出使用容錯數據流處理可以減少傳感器軟件錯誤的風險。Kelly和Efthymiou[3]對50次飛機受控飛行進入地形進行分析,強調人為因素是受控飛行進入地形事故的重要原因。Pan等[4]提出一種多分類信息融合方法對結構性風險進行評估,為結構的健康狀況及關鍵風險因素的深入分析提供了方案。Chen等[5]在概率基礎上對設備故障進行風險評估,所提出的方法可在緊急情況下為設備提供早期預警。董雷霆等[6]提出可以結合數字孿生技術,對飛機的結構疲勞風險進行管控。
隨著數據可用性和計算能力的提高,越來越多的學者采用可視化數據挖掘的方法[7]對事故進行研究。Moura等[8]將人工神經網絡方法用于重大事故數據集分析,提出從事故中學習、增強事故溝通風險的方法。余冠華[9]基于人工智能中的自組織映射方法分析了事故的規律及關鍵致因,并提出相應的改進措施。Zaranezhad等[10]通過集成人工神經網絡、模糊系統和元啟發式算法,提出了用于早期事故預測的最佳模型。Asgary等[11]開發了一種簡單新穎的飛機風險地圖,為深度調查飛機墜毀原因提供基礎。李哲等[12]通過對飛行安全參數進行風險預測,借助仿真手段為事故演化提供了可視化的分析方法。Zhang等[13]利用深度學習的方法對事故進行分析和提取特征,進一步提高了事故檢測的準確性。
重大民機事故的風險信息分散在不同來源的文本、視頻、音頻等非結構化數據資料中,不利于風險信息的準確獲取。以上方法為重大民機事故的研究提供了一定的方法和技術,但不利于增強對民機運行風險信息挖掘的研究,也不利于提高其可讀性和解釋性,不能快速有效的傳輸相關風險信息。
本文通過分析收集到的MCAA數據,針對民機運行特點,改進認知可靠性和失誤分析方法(cognitive reliability and error analysis method,CREAM),得出MCAA的40個風險因素。提取的40個風險因素系統、全面地表征了民機運行過程中的風險致因,通過逆向挖掘運行風險的深層次特征,探知導致事故的根本原因,實現事故的預防。構建的MCAA多屬性技術數據集作為模型輸入空間樣本,實現非結構化數據與結構化數據的轉換,結合自組織映射(self-organizing maps,SOM)模型輸出民機運行事故2D聚類地圖,使得風險因素有效集成,以更直觀的方式對民機運行風險進行分析與控制,同時利用關聯規則(association rule,AR)識別出各風險因素間的影響及關聯關系。研究結果表明,本文所提出的方法可以直觀、快速的傳遞民機運行風險信息,深入解析風險要素間的關聯關系,挖掘風險致因間的演化規律,為民機運行風險研究提供一種新的技術和手段。
美國學者Hollnagel提出了CREAM的概念[14],用于事故案例原因調查和預測可能發生的不安全事件,為大多數工業領域事故風險因素的調查提供了有效途徑。然而,現有的CREAM是一種通用模型框架,考慮到民機運行具有區別于一般領域的自身特性,直接將CREAM運用到民機運行風險因素分析的效果并不理想,因此需針對民機運行特點對其進行改進。
通過分析收集到的MCAA數據,并結合民機運行的風險理論及特殊性,對原有的CREAM進行事故因素的刪除、增加等修改,得到適合民機運行風險研究的MCAA認知可靠性和失誤分析方法(major civil aircraft accidents-cognitive reliability and error analysis method,MCAA-CREAM)模型。設計出的模型保留了原有CREAM的3個經典組別:人、技術、組織,如圖1(a)~(c)所示。圖中白色框圖表示原有CREAM存在的因素,灰色填充框圖表示增加的因素,虛線框圖表示與原有因素功能相近的類別,刪除的因素沒有在模型中體現。

圖1 MCAA-CREAM模型Fig.1 MCAA-CREAM model
數據挖掘的目的是揭示事故的通用結構及重要特征。SOM模型是一種包含無監督學習的過程[15],可通過訓練學習[16]將高維數據轉化到低維空間,并保留數據的拓撲結構[17]。將SOM模型用于事故分析[18],可以更加直觀地展示事故數據信息。其算法原理[19]由以下4個步驟組成:
1)初始化和歸一化。對所有權向量進行隨機初始化,設η(0)為初始學習率,r(0)為初始鄰域半徑。
2)競爭。通過歐氏距離式(1)可以尋找獲勝的輸出神經元節點j*,其權向量對應記為wj*。

式中:xi=(xi1,xi2,…,xim)為輸入向量,設有m個樣本;wj=(wj1,wj2,…,wjn)為各神經元對應的權向量;d(t)為計算出的距離。
3)合作。得到獲勝神經元后,使用領域函數Nj*(t)定義相鄰神經元的最佳匹配單元,通常是高斯函數方程,如下:
式中:η(t)為學習率;r(t)為鄰域半徑。
4)適應。由于η(0)、r(0)的初始值較大,輸出的結果并不好,而在SOM模型適應過程中,所有相鄰神經元的權重都將按順序更新,η(t)與r(t)不斷衰減。通過不斷迭代,地圖會逐漸收斂,同時神經元根據權向量wj逐漸趨于聚類中心,規則如下:

其中,學習率η(t)隨時間的推移逐漸減小,如下:

關聯規則可以挖掘事故風險之間的耦合關系[20],識別數據中一些關聯性較強的規則。目前的關聯規則算法主要采用支持度和置信度作為評價指標[21],而由于在MCAA事故數據集中特別重大事故數據占比較少,且大多為軍機擊毀、劫機等意外情況,事故致因單一,因此,將此關聯規則方法運用到MCAA數據集時發現往往會得到一些無效甚至錯誤的強關聯關系。為解決這一問題,采用考慮提升度及事故等級間權重差異的關聯規則方法[9]。
需要指出的是,民機運行相較于其他運輸方式更容易受到天氣等不可控環境的影響,風險機制更加復雜,產生的事故影響及逃生可能完全不同。尤其是人為因素,往往受到組織因素的影響;同時又與其他因素發生耦合機制及動力學機制。將SOM方法和關聯規則應用到民機運行安全研究中,能從紛繁復雜的多因素致因機制中,挖掘出潛在的深層次特征,有效識別風險,提升安全風險控制的精準性。充分考慮了民機所特有的風險致因因素,關注在民航安全風險表征的基礎上挖掘深層次風險特征,改進后的模型對民機運行安全的研究更具適用性,為民機運行風險研究提供一種新的思路。
設I={i1,i2,…,im}為項目集合,D={t1,t2,…,tn}為聚類后的MCAA事故數據集,由多個事故組成,每個事故ti(i=1,2,…,n)均包含項集I中的一項或者若干項,滿足ti∈I,風險因素A與風險因素B之間的關聯規則表達形式為A→B,其中A,B∈I且A∩B≠?。將重大事故等級權重設為1,特別重大事故等級權重設為2,則事故數據集D中的事故對應等級權值為W={w1,w2,…,wk,…,wn},wk∈[1,2]且wk為整數。A的加權支持度為所有包含A的事故ti對應的等級權值wi之和除以事故數據庫中所有事故對應的等級權值之和。相關等式如下:

式中:Ws為加權支持度;Wc為加權置信度;Wl為加權提升度。設Wmins為最小支持度,Wminc為最小置信度,若在事故數據庫D中,Ws(A→B)≥Wmins,Wc(A→B)≥Wminc,則A→B為 強 關 聯規則。
根據改進的MCAA-CREAM模型,對收集到的MCAA進行數據處理和信息提取。在1.1節中,將民機運行風險因素分為7個技術風險因素,19個人為風險因素,14個組織風險因素,共計40個民機運行風險因素特征。利用上述40個風險因素對241個案例進行分析,形成241個案例樣本、40個風險因素的特征矩陣,將這一矩陣稱為重大民機事故的多屬性技術事故(major civil aircraft accidents-multi-attribute technological accident,MCAA-MATA)數據集,記為M,其表達式為

該數據集能清晰的描述所有收集到的MCAA案例及其風險因素特征,為后續的可視化數據挖掘提供了基礎。
基于SOM和關聯規則的民機運行風險研究算法流程如圖2所示。其算法流程如下:

圖2 基于SOM和關聯規則的民機運行風險研究算法流程Fig.2 Operational risk algorithm of civil aircraft based on SOM and AR
1)結合MCAA-CREAM模型將收集到的MCAA非結構化數據轉化為結構化數據,形成MCAA-MATA數據集M。
2)根據1.2節中的SOM模型數據挖掘流程,將數據集作為樣本輸入,經過多次迭代計算最終得到民機運行事故聚類結果。
3)針對得到的每一聚類結果,根據1.3節中計算各聚類類別中風險要素的關聯規則,通過計算候選項集、頻繁項集、加權支持度、加權置信度以及加權提升度得到有效的強關聯規則。
數據主要來源于:美國聯邦航空管理局(FAA)、美國航空安全網官方網站(ASN)、航空安全報告體系(ASRS)。根據國際民航組織(ICAO)對事故的定義,選取的MCAA均為民機重大事故及以上的案例,發生時間為1972年12月—2020年1月,共 計241個MCAA案例。
民機運行風險的SOM模型是通過相似性將MCAA進行聚類,事故越相似,在輸出空間中的位置就越接近。利用Viscovery SOMine?軟件,為了保證算法的收斂性,通過多次訓練,當高斯領域半徑設為0.5,學習率為0.5對樣本進行訓練時,學習率和優勝鄰域值都隨著迭代次數增加而不斷減小,算法逐漸收斂,映射結果良好。可將241個MCAA事故案例分為3類(C1,C2,C3),以可視化的圖形形式增強風險因素的可讀性。如圖3所示,顯示了輸入空間[數據集M(241×40)]在輸出空間2D地圖中的可視化表示。

圖3 2D聚類地圖Fig.3 2D cluster map
為驗證聚類的可靠性,Viscovery SOMine?軟件提供了聚類質量指標直方圖,通過為每種可能的聚類安排一個索引來對可能的分組進行分類。如圖4所示,當群集聚類結果為3時,其質量指標最高為73,表示其解釋更具有可靠性,因此選取3個聚類對民機運行風險因素進行聚類分析。

圖4 聚類質量指標Fig.4 Cluster quality indicator
在此聚類條件下,數據頻率和量化誤差會均勻分布在整個地圖上,表明網絡訓練映射效果良好。對MCAA的聚類基本信息進一步分析,可得表1所示的聚類信息結果。

表1 聚類特征Table1 Clusters feature s
類別C1包含111個MCAA,占比最大,為46.06%。事故風險因素在1~12個之間波動,平均風險因素為5.16個,中位數為5,在該類別中多數案例包含風險因素為4個。
類別C2包含93個MCAA,占比38.59%。風險因素在1~12個之間波動,與類別C1不同的是,該類別中事故平均風險因素為3.67個,中位數為3,多數事故包含風險因素為2個,表明該類別中的事故風險因素較為分散。
類別C3包含37個MCAA,占比15.35%,是最小的類別。事故風險因素在3~15個之間波動,案例平均風險因素為8.5個,中位數為8,在該類別中多數事故包含風險因素為7個與8個,是3個類別中包含風險因素最多也是最集中的類別。
圖3顯示了具有相似特征的MCAA在地圖中的分布結果,表2為數據集M中各個風險特征聚類的統計結果。經過分析,3個類別具有鮮明的風險水平特征,主要體現在風險致因因素的明顯區別上,這3種風險致因因素對事故的作用機制、致因規律與表現形式上均有所不同:

表2 風險特征聚類統計結果Table2 Characteristic clustering statistical results of each risk factor
1)在類別C1中,主要以組織因素為主,其中由于不利天氣/地形(60.40%)引起的MCAA占主導因素。此外,在C1類中,還嚴重受到運營人管理問題(35.10%)及飛行員技能/知識不足(32.40%)的影響。從技術角度看,設備故障(18.90%)是主要原因;人為因素中飛行員決策錯誤(29.70%)、分心/粗心(28.80%)也是重要的風險原因。
2)類別C2中,技術因素中的設備故障(40.09%)及設計缺陷(39.80%)是該類別的首要風險因素。管理問題(38.70%)及質量控制不足(35.50%)并列為第二大風險影響因素;該分類主要考量技術原因包括鳥擊/軍機擊毀/劫機等意外情況(31.20%)。
3)類別C3中最突出的是人為組織原因,如管理問題(73.00%)、團隊支持不足(67.60%)、任務分配不足(62.20%)。此外,人為因素在該類別中也占有很大影響,如認知方式(56.80%)、沒有按手冊執行(48.60%)、心理/精神壓力(43.20%)。
對MCAA進行重新組織以地圖形式呈現時,主要以事故案例中的風險因素相似性進行聚類,可以識別民機運行風險并顯示數據集中事故特征的重要聯系。將影響民機運行的風險因素劃分為40個因素(具體因素見MCAA-CREAM模型),由于篇幅限制無法一一呈現。現展示241個MCAA案例中影響比較大的8個風險因素地圖(見圖5),包括管理問題、不利天氣/地形、沒有按手冊執行、設計缺陷、分心/粗心、決策錯誤、技能/知識不足、設備故障,其他風險因素以文字進行說明。圖5中:深灰色表示不存在該特征,灰色表示存在該特征,淺灰色是多個類別交集的邊界。風險因素地圖在于通過事故表征和基本描述,挖掘事故致因與事故之間的深層次關聯,在此基礎上為識別潛在風險源,控制事故提供依據。通過對風險因素地圖分析,可將實際事故與圖像直接關聯起來,從而快速傳遞民機運行風險,增強事故信息可讀性、全面性和系統性。
由圖5(a)可以看出,組織因素中管理問題,在每一類中都占有很大的比例,因此不是事故聚類的依據。

圖5 MCAA中8個風險因素可視化地圖Fig.5 Visual maps of8risk factors in MCAA
1個組織因素(不利天氣/地形)及3個人為因素(分心/粗心、沒有按手冊執行、技能/知識不足)占據了C1的大部分區域,意味著這些是導致分組C1聚類的主要因素。此外,傳遞信息錯誤、錯誤預測、用錯方式覆蓋了C1面積的1/3左右;人為因素中錯誤預測、沒看到、執行時間錯誤、執行順序錯誤、信息傳遞錯誤,及技術因素中設備信息模糊、設備信息不完整、設備信息顯示錯誤都主要分布在C1,可見技術設備的缺陷與人為錯誤的聯系十分緊密。大量的人為錯誤劃分到這一類,表明有效的培訓策略不應只是書面程序的形式,還應適當培養在緊急情況下需要的決策技能和重點關注對象,采用適當的操作流程等。
技術因素中設備故障、設計缺陷及組織因素中質量控制不足占據了C2的大部分區域,可以看出設備故障往往與設計缺陷/組織能力有關,且設備問題常伴隨質量控制問題和設計缺陷。維修失效雖然完全被劃分在C2,但可以通過圖形看出,不能將加強維修能力看作是減少設備故障可能性的唯一解決方案。此外,設備設計復雜、設備設計錯誤主要分布在C2,可見設備的風險管控與技術因素的關聯性較高。
組織因素中任務分配不足、團隊支持不足及人為因素中認知方式是C3聚類的主要事故原因,占據大部分面積。人為因素中的延遲措施、用錯執行設備、沒看到、認知方式、計劃不充分、優先級錯誤、看錯、記憶失效、疲勞、心理/精神壓力、交流障礙、身體疾病、技能/知識不足、決策錯誤主要分布在C3區域。這表明人的組織管理對民機運行安全有著重要的影響。
根據2.2節中關聯規則的算法流程,經過多次試驗,將MCAA中各事故類別最小支持度設為0.10,最小置信度設為0.60,利用關聯規則對各聚類群進行分析,得到關聯規則集。圖6中數字1/數字2代表該關聯規則的支持度/置信度。由圖6可知,在事故聚類群1中不利天氣/地形條件下最容易暴露民機運行中存在的安全問題,通過關聯規則有效挖掘出了不利天氣/地形情況下關聯的7個強致因,其中人為因素是造成C1類MCAA發生的主要因素,包括:執行時間錯誤、設備信息模糊、傳遞信息錯誤、分心/粗心、技能/知識不足及管理問題;同時有效挖掘出了其他3個強關聯規則:執行時間錯誤導致延遲措施、設備信息模糊導致信息傳遞錯誤、分心/粗心造成的執行順序錯誤,技能/知識不足往往是由于培訓不足導致。
事故聚類群C2中主要項集為技術因素中的設備故障,挖掘出了3個與設備故障具有強關聯規則的事故致因項:設計缺陷、設計復雜及決策錯誤。這證明在飛機設計過程中,飛機上的使用設備的缺陷會在運行過程中暴露出來,設計缺陷及設計于復雜會導致設備故障或致使機組人員做出錯誤決策。
如圖6(c)所示,事故聚類群C3中存在4條人為因素致因鏈:①執行時間錯誤—延遲措施—用錯執行設備;②沒有按手冊執行—錯誤預測—用錯執行設備;③沒有按手冊執行—用錯執行設備;④沒有按手冊執行—決策錯誤—用錯執行設備。以此有效挖掘出了用錯執行設備的4個主要致因,并闡明沒有按手冊執行將會帶來的不利影響,因此需加強對機組人員的管理與培訓,實際操作時必須根據飛機機型結構按照手冊嚴格執行。

圖6 事故聚類群強關聯規則可視化Fig.6 Visualization of AR in accident clustering group
結合SOM模型,將重大民機事故的多屬性、復雜結構化高維數據轉化為2D可視化地圖,為民機運行風險信息的獲取提供了新的手段。通過對重大民機事故的研究,可以得出以下結論:
1)利用關聯規則在SOM模型可以從重大事故中進行學習,可以快速傳遞民機運行風險,增強事故信息可讀性,充分理解事故現象挖掘出深層次的致因特征。
2)風險地圖為研究者提供直觀、清晰的視覺理解,在輸出空間中完全保留輸入數據,并可以檢索數據集記錄,幫助研究者將事故與圖像進行聯系。
3)提出的方法有助于理解重大事故原因之間的關系。如需加強飛行員在不利天氣環境下的操作技能和培訓;先進的維護手段也不能保證設備不出現故障,需進一步采取措施;人的組織管理對民機運行安全有著重要的影響。
4)加權關聯規則更有助于挖掘風險致因間的演化規律,為民機的安全運行保障提供科學借鑒。
通過關聯分析與可視化技術為解析事故發生的深層次特征進行了探索,隨著數據提取挖掘及主動學習技術的深入,還可以通過集成、增強學習技術等,提升信息挖掘的深度和廣度,為制定安全管理對策提供支持。