趙丹妮
(西北空管局,西安 710000)
空管設備為空管業務提供了技術保障,由很多不同時期建立的子系統組成,這些子系統作用各異,且由不同部門分別維護。尤其傳輸線路由專門的部門維護,一條鏈路上設備眾多。當不正常事件發生后,各部門分頭排查自己的設備,缺乏配合,效率低,易留下安全隱患。為了盡快排除故障,各部門對故障必須協同診斷。本文初步探討了診斷體系的基本框架。
協同診斷體系分為兩個層次,第一層是總體拓撲圖,回答了作為一個整體的空管設備由哪些子系統組成,以及各子系統之間的關系;第二層描述了各子系統故障間的因果關系。下面敘述這兩層的構建。
圖1的節點是各個子系統。鑒于協同診斷的目標是建立各維護部門在面對設備故障時的協作關系,所以節點按系統組成和維護部門劃分,一個節點有惟一確定的一個維護部門,節點之間有簡單清晰的關系,至于節點本身的簡單或復雜則無關緊要。
一個設備,即便非常復雜,但如果由一個部門維護,應作為一個節點。如果一個部門維護的設備中夾雜了其他部門維護的設備,則應劃分成多個節點。為了突出連接關系,兩個維護單位在某個設備上的接口在需要時可以分別設計為兩個節點。總之,節點劃分基于子系統的劃分,但與子系統的劃分又有很大不同,其目的是便于故障協同診斷。
表達各個節點的連接關系。連接線路類型、速率、名稱等參數在節點中表達,不在連接關系中表達。
總體拓撲圖表達了空管設備的全貌和各維護單位之間的接口,是故障協同診斷的基礎。
故障關系圖:
空管設備整體用拓撲圖表示,即表示為節點及節點間的連接關系,其中連接關系是固定的,要么有,要么沒有,與設備的正常與否無關。連接線路的實際運行狀況則在節點中表示。這樣,設備(包括連接線路)的某個故障一定可以歸結為節點的故障。
節點的故障分為兩種情況,一種是節點自身故障,另一種則由其他節點的故障引起。這樣,一個節點的某個故障可以成為其他節點故障的原因,稱為原因故障。
我們根據設備情況和維護經驗找出各個節點的所有故障,其中節點內部的故障簡單列舉即可,重點考慮有因果關系的各個故障,將這些因果關系畫成圖,就是故障關系圖,其中原因故障按出現可能性從大到小的順序排列。
故障關系圖用于快速診斷故障。發現故障時,從故障關系圖迅速找到引起這個故障的所有原因并逐一排查,可以根據情況同時排查,也可以按順序排查,也可以優先排查本維護單位負責的故障,為此需要制定故障排查預案。
現在我們以一個實例說明并驗證上述的基本架構。該實例假定有這樣一個系統,該系統用采集子系統采集數據,通過傳輸線路發送給處理子系統處理,處理所得的數據在顯示器上顯示,顯示器通過KVM 與處理系統連接。采集子系統由采集子系統維護部門維護,處理子系統由處理子系統維護部門維護,KVM、傳輸線路由傳輸維護部門維護。總體拓撲圖和故障關系圖如下,圖1、圖2。

圖1 總體拓撲圖

圖2 故障關系圖
節點基本上對應子系統,但非一一對應,將子系統轉換為節點是該框架的難點。要解決好這個問題,須緊緊把握節點的本質,在遇到問題時,用下面幾個標準反復衡量。
(1)節點的基本作用是承載故障,實際出現的故障要歸結到節點。
(2)節點表示了維護部門的分工。
(3)總體拓撲圖表示了空管設備的總體結構。
(4)節點劃分表示了對系統現狀的認識。現狀改變、認識深化后是可以修改的,不是一成不變的。
(5)重視節點的命名,命名不要重復,而且要和實際功能一致。
對熟悉系統的專業人員來說,列舉出大部分故障并非難事。但列舉出所有故障,找出因果關系,并指引故障排查則很困難。需要反復思考,集思廣益,并經歷多輪修改。把握如下原則有助于故障的列舉。
(1)征求盡量多的實際維護人員的意見。在征求意見時,不用著急整理和歸納,應著重于收集所有可能的線索。
(2)將所有故障歸類,歸類的層次盡量多一點,每類包含的故障不要多,最好是三四個。提取每類共同的特征,從共同的特征找出未發現的故障。等這項工作做完后,再減少歸類的層次,使表述更簡潔、更實用。
(3)列舉故障的目的是找出故障間的因果關系,對于和其他故障沒有因果關系的故障,可以不細分。
(4)故障列舉務求涵蓋所有故障。如無把握全部列舉,可歸為“其他故障”,以便出現未想到的故障時,也有基本的應對措施。
(5)重視故障命名。
(6)為隨時擴展創造條件。
故障協同診斷是加快設備應急、故障排查的有效方法。本文作者參與了西北空管局協同診斷手冊的編寫工作,本文提出的方法用于設備和故障梳理,取得了較好的效果。后續可在此基礎上可以設計一個協同診斷軟件系統。另外,該方法亦可用于子系統內部的結構分析和故障梳理。