武 明,遲浩洋,李長隆,張國華,文 軍,吳 賢
(1.中國電子科技集團公司第三十研究所,四川 成都 610041;2.海軍工程大學,湖北 武漢 430033;3.中國人民武裝警察部隊參謀部,北京 100089)
故障樹分析(Fault Tree Analysis,FTA)法是目前一種重要的故障診斷和可靠性分析方法,是指導系統可靠性設計和優化薄弱環節設計的重要分析工具,也是用于分析故障原因、實現故障定位、支撐故障維修的重要工具。因其具有知識結構簡單清晰、邏輯推理機制嚴密,在大型復雜系統的故障診斷中得到了廣泛運用[1]。
工業技術和電子信息技術的蓬勃發展使得應急通信車的集成度和復雜度越來越高,其組成要素種類、數量和體系類型、結構關系也越來越復雜。相應地,應急通信車通信網絡分系統的手段多樣化、組網關系復雜、拓撲多變等復雜性特性也已充分呈現,其在綜合組織運用過程中硬件、軟件、環境、人員等潛在故障因素導致的故障概率、故障模式種類和故障影響程度也隨之增加。通信網絡分系統作為應急通信車的核心部分,是保障應急指揮大廳與應急處置現場信息聯絡的橋梁,是決定應急任務是否成功的關鍵。
傳統的憑借人工和經驗進行故障率估算、故障排查、故障處置的方式,已經不能完全滿足應急通信車對通信網絡故障快速響應處置能力的要求,大大制約了應急通信車這類多任務綜合集成、故障事件關系復雜的大型系統的故障診斷和系統維修或自動恢復效率,嚴重影響了裝備執行任務的效能發揮。然而,利用FTA 和計算機輔助定性分析和定量計算,可以快速分析獲得系統的失效模式和故障概率;結合專家知識庫經驗支撐,可以實現故障的快速診斷、定位;基于策略庫自動調整或通過處置建議和人工處置,可以提升故障診斷準確度、完整性和故障處置效率。因此,本文提出一種基于故障樹的應急通信車通信網絡故障診斷系統設計方案,給出了應急通信車通信網絡故障樹構造和定性定量分析方法和過程,基于設備固有可靠性、專家經驗庫和人工統計概率,形成可靠的推斷邏輯,縮小了故障診斷和排查范圍,提高了診斷推理的效率。本文對應急通信車通信網絡故障診斷推理系統相關模型和算法進行了設計,為應急通信車通信網絡運維系統的故障診斷和處置尋求了一種更為可靠的新方法。
按照GJB/Z 768A-98《故障樹分析指南》[2]描述,FTA 是通過邏輯門符號和轉移符號將底事件、中間事件、頂事件描述為系統事件邏輯因果關系,并基于規范化、簡化和模塊化方法進行定性定量分析的故障診斷方法。
FTA 系統是分析可靠性和安全性的工具之一,用來尋找頂事件發生的所有原因和原因組合。在產品設計階段,FTA 可幫助判明系統故障模式和災難性危險因素,發現可靠性和安全性薄弱環節,改進可靠性、安全性設計;在產品的生產、使用階段,FTA 可幫助故障診斷,改進維修方案。
FTA 是在19 世紀60 年代由貝爾電話研究所的H.A.Wastson 首先提出。目前,FTA 已從宇航、核能等領域發展進入一般電子、電力、化工、機械、交通乃至土木建筑等領域。設計人員和工程人員愈來愈傾向于采用FTA 作為評價系統可靠性和安全性的手段,用來預測和診斷故障,分析系統的薄弱環節,指導系統設計和維修,實現系統設計的最優化,快速定位故障并完成維修。
將FTA 應用于系統設計過程中,可以通過對可能造成系統失效的硬件、軟件、環境、人員等各種因素進行分析繪出相應的故障樹,然后可以對最小割集進行簡化,確定系統失效原因的最小可能組合方式及其發生的概率,從而計算系統失效的概率,采取相應的糾正設計和備份設計措施,提高系統的可靠性。這個分析流程會運用圖形演繹的方式來構造一種類似于樹的結構,因此被稱為FTA[3]。將FTA 應用于工程故障診斷過程中,可以通過故障樹建造和最小割集簡化,分析系統失效機制和概率,然后通過人工經驗和計算機專家庫快速分析故障原因集和故障原因概率,從而快速檢查和定位故障并實施維修,提高系統的可維修性。
FTA 的步驟如下:(1)構建故障樹,利用圖形演繹,將系統最不希望發生的事件作為頂事件,然后通過對系統進行原理表述和故障原因分析,尋找導致該頂事件發生的下一級事件,最后遞歸尋找導致事件發生的更下一級事件,直至底事件為止;(2)邏輯推理和分析,利用故障樹,定性和定量分析系統產生故障的原因、導致系統發生故障的概率、部件對系統的重要程度等,為改善設計和評價系統提供數據。
故障診斷系統是指依托計算機輔助對系統的故障模式進行分類和識別,并根據現有知識,模擬人類專家思維方式進行一定的推理判斷,找出系統的故障原因,然后通過人工檢修、故障處置開展維修,或依托人工智能自動配置參數修復系統的過程[4]。
一個最基本的故障診斷系統主要由診斷知識模塊和診斷推理模塊組成。診斷知識模塊包括故障樹信息庫、故障事件信息庫、專家知識庫,診斷推理模塊包括故障征兆識別和故障推理算法。基于FTA的故障診斷系統還應包括故障診斷信息反饋、診斷信息呈現和人工智能輔助修復模塊。基于FTA 的故障診斷系統首先利用故障邏輯關系圖構建故障樹信息庫和故障事件信息庫,其次通過定性和定量分析獲得事件重要度和故障匹配優先級排序,再次通過診斷推理獲得故障發生的真正原因或原因組合,最后將故障診斷結果反饋故障信息呈現模塊和人工智能輔助修復模塊進行檢驗、維修或自動修復。系統主要功能如圖1 所示。

圖1 基于FTA 的故障診斷系統
應急通信車包括通信保障、指揮調度、圖像采集、供電系統、環境控制、照明系統、輔助設備等功能分系統[5]。其中,通信保障功能分系統包括短波電臺、北斗設備、衛通終端、移動通信終端和通信控制設備等,指揮調度功能分系統包括數據終端、IP 話機、視頻終端等。應急通信車功能架構如圖2所示。

圖2 應急通信車功能架構
本文重點研究基于FTA 的應急通信車智能通信網絡管控系統,主要研究對象是通信網絡的故障診斷,其直觀體現是業務通聯,所涉及的功能分系統主要為通信保障和指揮調度功能分系統。
幾點約束:(1)以“某業務無法通聯”為頂事件進行故障樹分析;(2)為簡化分析,針對通信和終端系統的設備整機故障、端口參數配置錯誤、通信約束導致設備通信失效這3 種故障進行故障樹分析;(3)供電系統、環境控制等其他相關的影響因素不作為故障原因。
為便于后續分析,對業務無法通聯故障樹事件進行編號建樹,如圖3 所示。
某業務無法通聯的故障樹編號對應的故障信息見表1,包括事件編號、事件描述、事件類型和事件發生概率。其中,發生概率是底事件發生的概率,主要來源是應急通信車所集成設備的可靠性參數、歷次任務組織過程的故障統計、系統模型和試驗分析及專家經驗評估。

表1 應急通信車某業務無法通聯故障樹故障事件信息
本文通過上行法(布爾代數化簡法)求解業務無法通聯故障樹最小割集(Minimum Cut Set,MCS),其中,或門是邏輯之和,與門則是邏輯之積。為提升文章易讀性,事件編號的字母斜體對應該事件的布爾變量描述。
依據圖3 的應急通信車業務無法通聯故障樹,利用布爾代數運算簡化其結構函數,得:
根據布爾代數吸收率,獲得故障樹結構函數的化簡值,得:
從而獲得應急通信車某業務不通故障樹的MCS為{X5},{X7},{X8},{X11},{X1、X6},{X1、X10},{X3、X4},{X6、X12},{X10、X12},{X14、X15},{X17、X18}。
從MCS 分析來看,1 階底事件故障割集包含{X5},{X7},{X8},{X11}4 個,為重要的故障源;2 階底事件故障割集包含{X1、X6},{X1、X10},{X3、X4},{X6、X12},{X10、X12},{X14、X15},{X17、X18}7個,為次重要的故障源。其中,底事件X8 在簡化過程中出現3 次,為最重要的故障源。由于通信控制設備若出現故障將導致除勤務話音以外的所有業務不能通聯,因此分析結果與事實相符。
通過容斥定理計算頂事件故障概率。設頂事件的故障概率為P(T)為所有最小割集發生的概率之和,Ci,Cj,Ck是序號為i,j,k的最小割集,最大割集序號為n,則:
為避免“組合爆炸”,P(T)一般去掉高階項進行近似值計算,表示為:
概率重要度描述基本事件發生時對頂事件的貢獻,反映了基本事件故障狀態變化系統故障概率變化的貢獻大小。序號為i的最小割集貢獻率表示為:
依據表1 給出的底事件發生概率值,通過式(1)計算得到頂事件故障概率為24.3e-4,通過式(2)計算得到應急通信車故障樹的最小割集故障概率和重要度見表2。

表2 某業務無法通聯故障事件的故障樹最小割集重要度
通過多維立體網絡建模方法構建故障樹信息模型,采用4 元組表示和存儲故障樹信息,即FTobj=<FTId,FTInfo,FTTopId,FTProb>,其中,FTId表示故障樹編號,FTInfo為故障樹信息描述,FTTopId為故障樹字典事件編號,FTProb表示故障樹故障概率。故障樹字典事件編號FTTopId=<FactId,FactDesc,FactMeth,FactNum,FactPorb>,其中,FactId表示故障事件編號,FactDesc用于故障事件描述,FactMeth用于存儲故障事件處置措施(包括計算機自動和人工干預方法),FactNum表示一次任務該故障事件發生的次數,FactPorb用于存儲故障事件概率(通過設備本身固有可靠性、專家經驗庫和統計概率獲得或進行綜合獲得)。
故障節點信息存儲于故障診斷推理系統的數據庫,用9 元組表示故障節點存儲數據結構信息,即NDobj=<FTId,NDId,FactID,NDType,ParentNDId,NDgateType,ParentNDdegree,BrotherNDnum,NDProb>,其中,FTId表示節點所屬故障樹編號,NDId表示節點編號和位置,FactID表示故障事件字典的編號,NDType表示故障類型(頂事件、中間事件或底事件),ParentNDId表示父節點編號,NDgateType表示該節點的子節點之間的邏輯門類型,ParentNDdegree表示對父節點的貢獻度,BrotherNDnum表示兄弟節點數量,NDProb表示失效概率。
通過故障節點信息和故障樹模型可以將故障節點的類型和關聯關系進行描述,完成故障樹建立。
定性分析算法的具體步驟如下文所述。
(1)構建一個二維數組<Cstring,CString&>,用于存儲割集。
(2)利用循環嵌套語句按照從左向右、從低向上的順序對每一個基本事件進行遍歷。若該事件與上一級事件是或門邏輯關系,則增加割集數組數量;若該事件與上一級事件是與門邏輯關系,則增加數組存儲的容量。依次遞歸直到遍歷到頂事件,從而獲得該頂事件故障樹的全部割集數組集合,并存儲在步驟(1)構建的二維數組中。
(3)為便于計算機語言實現,通過Semanders算法和素數法[6],為故障樹底事件賦值一個素數,構成某一割集的各底事件對應的素數積,并按從小到大的順序進行排列。
(4)用最前面一個割集的素數積去除其余素數積。若被整除,就表示需要布爾吸收運算,就去除對應的割集。依次向右循環運算,最后剩下均不能被整除的素數積,這些素數積對應的割集即為頂事件最小割集。
(5)構建一個6 元組<FTId,CUTId,CUTPorb,CUTImport,FactId>結構,描述和存儲最小割集。FTId指向故障樹編號,CUTId表示割集編號,CUTImport表示割集重要度,FactId指向事件描述。其元素CUTId為數組集,指向一個三元組<CUTId,FactId,FactPorbImport>,表示最小割集的底事件,其中,CUTId表示割集編號,FactId表示事件編號,FactPorbImport表示事件概率重要度。
定量分析算法的實現即為式(1)和式(2)的算法實現,具體如下文所述。
(1)構建一個與3.2 節中步驟(5)最小割集結構一致的二維數組<Cmi_string,CmiString&>。
(2)將3.2 節中步驟(5)得到的最小割集存儲到步驟(1)的二維數組中。
(3)遍歷最小割集二維數組,若最小割集底事件為1 階,發生概率CUTPorb賦值為FactPorb;若大于1 階,則利用組合理論和算法[7-10],通過循環嵌套函數語句求得每一個最小割集的發生概率。
(4)遍歷最小割集發生概率,利用組合理論和算法[7-10],通過循環嵌套函數語句求得頂事件概率值的近似值。
(5)遍歷最小割集,求得每個割集概率與頂事件概率的比值,獲得每一個最小割集的重要度值。
故障診斷系統交互模型是應急通信車通信網絡運行維護系統交互模型的一部分,主要實現設備、鏈路故障狀態呈現和故障信息顯示,以及故障樹信息庫和專家經驗庫信息維護等。故障診斷系統交互模型主要包括故障狀態管理、故障樹信息管理、專家經驗庫管理和故障信息呈現4 個交互子模型,其中,故障狀態管理交互模型、故障信息呈現交互模型分別如圖4、圖5 所示。

圖4 故障狀態管理交互模型

圖5 故障信息呈現交互模型
由于應急通信車的通信手段多樣、組網模式靈活、拓撲動態變化、參數配置繁雜,其通信網絡故障的原因分析和診斷方法也異常復雜。本文基于FTA,分析與設計一種智能化故障診斷方法。本文首先對FTA 和基于FTA 的故障診斷系統進行了綜述和分析;其次分析了應急通信車通信網絡功能架構,基于FTA 故障樹構建方法和定性定量分析方法,構建了以業務無法通聯故障樹為頂事件的全量故障樹并進行了分析;最后針對應急通信車通信網絡故障診斷推理系統設計了故障樹模型、定性分析算法、定量分析算法和故障診斷交互模型。本文提供了一種針對應急通信車故障診斷的創新探索性研究,可推廣應用到應急通信系統、區域通信系統等大型復雜通信系統,以及通信平臺節點、指揮平臺節點和武器平臺節點等單通信節點的運行維護管理系統中,也可為其他類型的系統、分系統、單設備提供一種故障診斷的設計參考。該方法的運用可以提升系統的可靠性、安全性、可維修性,具有較廣闊的工程應用前景。