李軍麗,張友鵬
基于動態故障樹的計算機聯鎖系統安全性及性能分析研究
李軍麗,張友鵬
(蘭州交通大學 自動化與電氣工程學院,甘肅 蘭州 730070)
針對2種常用冗余結構計算機聯鎖系統中的聯鎖機子系統,在考慮單元模塊、比較模塊和系統間切換模塊全故障模式的情況下,建立雙機熱備和2×2取2計算機聯鎖系統的危險失效概率PFD和安全失效概率PFS的動態故障樹模型。由于故障樹概率近似法和Markov方法計算結果非常近似且概率近似法的求解過程簡單和存儲要求低等特點,采用概率近似法求解對應的PFD和PFS,實例對比分析2種冗余結構計算機聯鎖系統的安全性。研究結果表明:在全故障模式下,2×2取2計算機聯鎖系統的安全性高于雙機熱備。
計算機聯鎖;安全性;動態故障樹;概率近似法;危險失效概率;安全失效概率
計算機聯鎖系統用于保證列車及調車車列的運行安全,為提高可靠性和安全性采用了冗余結構。自1997年至今,相關學者主要采用可靠性框圖、馬爾科夫、故障樹和動態故障樹方法對計算機聯鎖硬件系統可靠性和安全性進行了相關研 究[1?4]。馬爾科夫通過系統狀態的轉移來描述動態冗余系統,系統規模決定了系統狀態的多少和建模的復雜程度。故障樹無法處理類似于冗余系統中的動態行為[5]。同時對要求高可靠性和高安全性的計算機聯鎖系統來說,也無法采用蒙特卡洛仿真方法分析計算其安全性[6];動態故障樹結合了馬爾科夫和故障樹的優點,具有順序相關、冗余等特性,能夠表達動態冗余系統的相關特性。計算機聯鎖系統是一種典型的動態冗余系統,故可以用動態故障樹分析其可靠性和安全性。馮雪等[3]采用動態故障樹對計算機聯鎖系統可靠性進行了分析研究,對建立的動態故障樹模型進行了模塊化,將獨立的靜態子樹和動態子樹分別采用BDD(Binary Decisions Diagrams,二元決策圖)和馬爾科夫進行了分析,但建立的動態故障樹模型只考慮了故障檢測覆蓋率對系統可靠性的影響。許崇[4]采用動態故障樹對2×2取2結構計算機聯鎖系統進行了分析研究,建模過程中考慮了故障檢測覆蓋率、單元模塊失效、比較模塊失效以及切換模塊失效等因素對系統可靠性的影響。張文韜等[7]采用動態故障樹對CTCS-3級ATP系統可靠性進行了分析研究,采用解析法和馬爾科夫矩陣迭代法求解其子樹,但運算量還是會隨著動態子樹的數量而增大。蘇宏升等[8]采用動態故障樹對區域計算機聯鎖安全性進行了分析研究,建模過程中考慮了故障檢測覆蓋率、維修率和共因失效對系統安全性的影響,同時,采用概率近似法求解動態故障樹,該方法減少了運算量且在同樣條件下與Markov計算結果非常接近,但是在建模過程中未考慮比較模塊失效和切換模塊失效對系統安全性的影響。基于此,本文針對2種常用冗余結構計算機聯鎖系統,在考慮單元模塊故障(主要考慮故障檢測覆蓋率、共因失效、維修率等因素的影響)、比較模塊故障和系統間切換模塊故障[9](主要考慮故障檢測覆蓋率、常規失效、維修率等因素的影響)的基礎上,建立其動態故障樹模型,并采用概率近似法求取安全性相關指標,最后通過實例進行對比分析。
計算機聯鎖系統應能實現聯鎖、顯示、故障檢測及診斷等功能,且需要晝夜不停不間斷工作,可靠性和安全性要求高。相應要求計算機聯鎖系統采用多層的層次結構,典型計算機聯鎖系統的層次結構如圖1所示。

圖1 典型計算機聯鎖系統的層次結構圖
計算機聯鎖硬件系統的可靠性和安全性很大程度上決定了整個計算機聯鎖系統的可靠性和安全性[10]。而在整個層次結構中,最關鍵的是聯鎖運算層的聯鎖計算機,聯鎖機的可靠性和安全性決定了整個計算機聯鎖系統的可靠性和安全性[11]。為了提高聯鎖機的可靠性和安全性,聯鎖機主要采用了2種冗余結構,即雙機熱備和2×2取2,其結構分別如圖2和圖3所示。

圖2 雙機熱備結構示意圖
圖2所示的雙機熱備冗余結構由2個相同的功能單元組成,且2個單元同時工作,但僅有1個單元產生對外輸出的有效運算結果。當工作單元故障,通過切換模塊Q輸出備用單元的運算結果作為系統的輸出[12]。

圖3 2×2取2結構示意圖
圖3所示的2×2取2冗余結構由4個單元組成,4個單元分為相同的兩系,每一系中的2個單元同步執行相同的聯鎖運算,兩者只有在運算結果完全相同時才能對外輸出;當單系中2個CPU失去同步或者比較不一致,則該系不應對外輸出有效運算結果,兩系互為主備[12]。
計算機聯鎖系統的不同冗余類型是根據計算機聯鎖系統中最為關鍵的聯鎖機的冗余方式來界定的[13],為此,本文重點對聯鎖機進行系統的動態故障樹分析。
為了便于分析,進行了如下的假設[4]:
1) 系統中各個單元模塊相互獨立,且失效率服從指數分布。單元模塊的失效率為,比較模塊的失效率為,切換模塊的失效率為;
2) 系統開始工作時,各個單元模塊均處于正常工作狀態。對于雙機熱備,A機為主機,B機為備機;對于2×2取2,I系為工作系,Ⅱ系為備用系;
3) 考慮到比較模塊和切換模塊沒有相應的故障診斷電路,故將其失效看作是不可測失效;
4) 對于2×2取2冗余結構而言,故障系的定義有2種情況,一種是某一系中的任一單元模塊發生可測故障;另一種是某一系中的任一單元模塊發生了不可測故障,但比較模塊正常工作能夠判斷出2個模塊的輸出不一致;
5) 考慮單元模塊與切換模塊及(或)比較模塊因同樣差錯結果導致的多重非共因故障;
6) 不考慮比較模塊與切換模塊因同樣差錯結果導致的多重非共因故障;
7) 假設備機B機(或備用系Ⅱ系)先發生可測故障后,及時進行維修,維修期間系統的其他模塊不會發生任何故障。

考慮到聯鎖機的失效率非常低,式(1)可以近似為:

對式(2)進行變換后得,

式(3)表明,當很小時,可以用失效率與時間間隔的乘積來近似表示一個元件在給定時間間隔的故障概率[14]。
計算機聯鎖系統作為一個可維修系統,維修方式有在線維修和定期維修。其中,設R為平均維修時間,適用于所有可測故障的維修時間。對于定期維修,假設系統在任意時刻發生失效的概率是相同的,則周期性檢查時間就是定期維修時間[15]。當采用概率近似方法計算系統在給定時間間隔的故障概率時,R或就是對應的時間間隔。
1) 安全失效概率PFS:發生失效時,系統處于安全狀態的概率;
2) 危險失效概率PFD:發生失效時,系統處于危險狀態的概率。
這2個指標是描述系統非正常運行(發生了失效)時的2個指標。
計算機聯鎖系統作為一種安全苛求系統,對失效安全有嚴格的要求。若用表示失效率,根據失效后系統輸出的是安全側結果還是危險側結果,有安全失效和危險失效。即,



聯鎖機單元模塊設有自診斷程序,準確的診斷既能夠提高安全性和增強可用性,又有利于減少系統修復時間,同時,診斷特性控制著一些容錯結構的運行。設自診斷程序的診斷覆蓋率為,對安全失效和危險失效2種失效模式,則有:


共因失效會抵消容錯系統的優點,導致系統安全性和可靠性降低。模型將每個部件的失效分為共因失效和常規失效。設共因失效因子為,則有,


由此可知:




綜合以上因素,對于雙機熱備冗余結構,僅考慮切換器的常規失效。對于2×2取2冗余結構,僅考慮每一系中2個單元模塊的共因失效、比較模塊及切換模塊的常規失效。
動態故障樹通過引入表征動態特性的新的邏輯門類型,如優先與門,建立并分析相應的動態故障樹,是解決具有順序相關性以及各種可修復系統等動態冗余特性系統的可靠性和安全性分析的有效途徑[16]。其中,優先與門如圖4所示。

圖4 優先與門示意圖
當系統的故障模式不僅與基本事件的組合有關,還與事件發生的順序有關時,此時用優先與門進行表示。即,事件X和事件Y都發生,且事件X早于事件Y發生,此時,事件Z才發生[17]。
3.2.1 雙機熱備計算機聯鎖系統的動態故障樹
雙機熱備計算機聯鎖系統在工作機發生可測故障后,系統順利倒機至備用機的關鍵在于切換模塊是否正常。根據假設條件,在切換模塊正常工作的前提下工作機先發生故障,備用機接替故障機工作,之后系統的狀態取決于備用機的工作狀態,此時,系統失效采用優先與門表示。在工作機工作的過程中,如若備用機先于工作機發生了不可測故障,之后工作機發生可測故障,系統順利倒向備用機后系統的狀態就取決于先發生故障的單元模塊,此時,系統失效時也采用優先與門表示。當切換模塊故障,系統無法實現倒機,此時,系統狀態取決于切換模塊的失效狀態或由切換模塊與工作單元模塊狀態共同決定,此時,系統失效采用與優先與門表示。其工作模式分析情況如表1所示。
由表1可得雙機熱備計算機聯鎖系統的系統危險失效PFD1和系統安全失效PFS1的動態故障樹模型分別如圖5和圖6所示。

表1 雙機熱備計算機聯鎖系統的工作模式分析情況
注:A,B和Q分別表示單元模塊和切換模塊。

圖5 雙機熱備計算機聯鎖系統的PFD動態故障樹模型
由圖5可知,雙機熱備計算機聯鎖系統發生危險失效的概率1為:





由圖6可知,雙機熱備計算機聯鎖系統發生安全失效的概率1為:



3.2.2 2×2取2計算機聯鎖系統的動態故障樹
根據2×2取2的工作模式及2.2節中的相關假設條件,其工作模式分析情況如表2所示。

圖6 雙機熱備計算機聯鎖系統的PFS動態故障樹模型

表2 2×2取2結構計算機聯鎖系統的工作模式分析情況

Ⅰ系A/B不可測故障,M無故障,Q無故障,Ⅱ系故障(安全或危險)由Ⅱ系的失效狀態決定 Ⅰ系A/B不可測故障,M不可測故障,Q無故障由Ⅰ系與M的失效狀態共同決定 Ⅰ系A/B不可測故障,M無故障,Q無故障,Ⅱ系C和D共因失效由C和D的失效狀態共同決定 Ⅱ系C/D先可測故障系統正常 Ⅱ系C/D先不可測故障,Ⅰ系A/B后可測故障,M無故障,Q無故障由Ⅱ系的失效狀態決定 Ⅱ系C/D先不可測故障,Ⅰ系A/B后可測故障,M不可測故障,Q無故障由Ⅰ系和M的失效狀態共同決定 Ⅱ系C/D先不可測故障,Ⅰ系A/B后可測故障,M無故障,Q不可測故障由Ⅰ系和Q的失效狀態共同決定 Ⅱ系C/D先不可測故障,Ⅰ系A/B后不可測故障,M無故障,Q無故障由Ⅱ系的失效狀態決定 Ⅱ系C/D先不可測故障,Ⅰ系A/B后不可測故障,M不可測故障,Q無故障由Ⅰ系和M的失效狀態共同決定 Ⅱ系C/D先不可測故障,Ⅰ系A/B后不可測故障,M無故障,Q不可測故障由Ⅰ系和Q的失效狀態共同決定 Ⅰ系A和B共因失效,M無故障,Q無故障由A和B的失效狀態決定
注:1) A,B,C和D分別表示4個相同的單元模塊;2) M表示比較模塊;3) Q表示切換模塊。
由表2中2×2取2計算機聯鎖系統的各種工作模式組合情況表可以得出2×2取2計算機聯鎖系統危險失效PFD2和系統安全失效PFS2的動態故障樹模型分別如圖7和圖8所示。

圖7 2×2取2計算機聯鎖系統的PFD動態故障樹模型

圖8 2×2取2計算機聯鎖系統的PFS動態故障樹模型
由圖7可知,2×2取2計算機聯鎖系統發生危險失效的概率2為:







由圖8可知,2×2取2計算機聯鎖系統發生安全失效的概率2為:




利用Matlab對式(13)~(16)進行計算,分析計算過程中各個參數的選取如表3所示[1, 3, 6]。
將表3中的參數代入式(13)~(16),可得結果如表4所示。

表3 參數表

表4 計算結果
由表4的計算結果可以看出:1) 對2種不同冗余結構計算機聯鎖系統來說,在分析過程中無論是否考慮切換模塊和(或)比較模塊及其切換模塊和比較模塊在不同的故障概率下,均有PFD小于PFS,滿足“故障?安全”原則;2) 建立系統的動態故障樹模型時考慮的影響因素越多,系統的PFD和PFS越大;且當切換模塊和比較模塊發生故障的概率越小,系統的PFD及PFS越小;3) 當切換模塊和比較模塊均非完全可靠且在不同的故障概率條件下,雙機熱備的PFD及PFS均比2×2取2的低,即2×2取2計算機聯鎖系統的安全性高于雙機熱備計算機聯鎖系統的安全性。
1) 基于2種常用冗余結構計算機聯鎖系統的工作情況,建立了全故障模式下計算機聯鎖系統的PFD和PFS動態故障樹模型,使得所建立的模型更加完善,更加符合系統的實際工作情況。
2) 實際情況下,由主機(主系)倒向備機(備系)后,故障機切除后不會影響系統性能,但是在建立系統動態故障樹模型時,此時采用優先與門表示兩個事件發生的關系。所以,采用動態故障樹分析具有冗余特性的計算機聯鎖系統,結果相對保守。
3) 建立模塊動態故障樹時考慮的因素越多,2×2取2系統的安全性能更好,這符合鐵路對計算機聯鎖系統高安全性的發展要求。同時,當系統中的切換模塊和比較模塊越可靠,系統的安全性 越高。
[1] 張萍, 趙陽. 鐵路車站計算機聯鎖控制系統的可靠性和安全性分析[J]. 中國安全科學學報, 2003, 13(4): 48?50.ZHANG Ping, ZHAO Yang. Analysis on the reliability and safety of the interlocking control system of railway computer[J].China Safety Science Journal, 2003, 13(4): 48?50.
[2] 張佳楠, 王海峰, 蔣大明. 計算機聯鎖系統二乘二取二容錯結構分析[J]. 鐵路計算機應用, 2006, 15(11): 46?49. ZHANG Jianan, WANG Haifeng, JIANG Daming. Analysis of double 2-vote-2 fault-tolerant architecture used in computer based interlocking system[J].Railway Computer Implication, 2006, 15(11): 46?49.
[3] 馮雪, 王喜富. 基于動態故障樹的計算機聯鎖系統可靠性及性能分析研究[J]. 鐵道學報, 2011, 33(12): 78? 82. FENG Xue, WANG Xifu. Analysis on reliability and performance of computer based interlocking system with the dynamic fault tree method[J]. Journal of the China Railway Society, 2011, 33(12): 78?82.
[4] 許崇. 二乘二取二系統的可靠性和安全性[D]. 合肥: 合肥工業大學, 2013: 10?35. XU Chong. Reliability and safety of double 2-vote-2 redundancy system[D]. Hefei: Hefei University of Technology, 2013: 10?35.
[5] Sohag Kabir. An overview of fault tree analysis and its application in model based dependability analysis[J]. Experts Systems With Applications, 2017(77): 114?135.
[6] Sergey Porotsky. Rare-event estimation for dynamic fault trees[J]. Statistics, 2016(2): 1?10.
[7] 張文韜, 張友鵬, 蘇宏升, 等. 基于動態故障樹的CTCS-3級ATP系統可靠性分析[J]. 工程設計學報, 2014, 21(1): 18?26. ZHANG Wentao, ZHANG Youpeng, SU Hongsheng, et al. Reliability analysis on ATP system of CTCS-3 based on dynamic fault tree[J]. Chinese Journal of Engineering Design, 2014, 21(1): 18?26.
[8] 蘇宏升, 文俊. 區域計算機聯鎖系統安全性分析的動態故障樹模型與方法研究[J]. 鐵道學報, 2015, 37(3): 46?53. SU Hongsheng, WEN Jun. Research on modeling of dynamic fault tree in regional computer based interlocking system safety analysis[J]. Journal of the China Railway Society, 2015, 37(3): 46?53.
[9] Mykhaylo Lobur, Tetyana Stefanovych, Serhiy Shcherbovskykh. Modeling of type I and II errors of switching device for systems with hot and cold redundancy based on two-terminal dynamic fault trees: CAD Systems in Microelectronics (CADSM)[C]// The 14th International Conference the Experience of Designing and Application.Lviv, Ukraine: IEEE, 2017: 19?21.
[10] 單冬. 鐵道行業標準《鐵路車站計算機聯鎖技術條件》修訂解析[J]. 鐵道技術監督, 2016, 44(8): 1?6. SHAN Dong. Railway industry standard《computer based interlocking technical specifications》revision interpretation[J]. Railway Quality Control, 2016, 44(8): 1?6.
[11] 盧佩玲. TYJL-ECC容錯計算機聯鎖系統的可靠性評估[J]. 中國鐵道科學, 2005, 26(6): 102?105. LU Peiling. Reliability evaluation of TYJL—ECC fault-tolerant computer interlocking control system[J]. China Railway Science, 2005, 26(6): 102?105.
[12] TB/T 3027—2015, 鐵路車站計算機聯鎖技術條件[S]. TB/T 3027—2015, Computer based interlocking technical specifications[S].
[13] 中國鐵路總公司. 計算機聯鎖系統[M]. 北京: 中國鐵道出版社, 2015: 48?65. China Railway. Computer based interlocking system[M]. Beijing: China Railway Press, 2015: 48-65.
[14] 李永強. 國鐵與地鐵信號聯鎖技術差異簡談[J]. 鐵路通信信號工程技術, 2017, 14(5): 121?123. LI Yongqiang. Introduction and analysis of the technical differences between the national railway and subway signal interlocking systems[J]. Railway Signaling & Communication Engineering, 2017, 14(5): 121?123.
[15] 威廉·戈布爾. 控制系統的安全評估與可靠性[M]. 白焰, 董玲, 楊國田, 譯. 北京: 中國電力出版社, 2008: 65?278. William Goble. Control systems safety evaluation and reliability[M]. BAI Yan, DONG Ling, YANG Guotian, trans. Beijing: China Electric Power Press, 2008: 65-278.
[16] 季會媛. 動態故障樹分析方法研究[D]. 長沙: 國防科學技術大學, 2002: 1?16. JI Huiyuan. Research analysis method of the dynamic fault tree[D]. Changsha: National University of Defense Technology, 2002: 1?16.
[17] Manno G, Chiacchio F, Compagno L, et al. Conception of repairable dynamic fault trees and resolution by use of RAATSS, a Matlab toolbox based on the ATS formalism[J]. Reliability Engineering and System Safety, 2014(121): 250?262.
Research on safety and performance analysis of computer based interlocking system based on dynamic fault tree analysis
LI Junli, ZHANG Youpeng
(School of Automation & Electrical Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China)
For two common redundant computer based interlocking systems’ interlocking computer, considering all faults for unit module as well as the comparison module and switching module, dynamic fault tree analysis model of probability of falling danger (PFD) and probability of falling safety (PFS) were established for hot standby and 2 out of 2 plus 2 computer based interlocking systems. In addition, the calculation results of fault tree probability approximation method and Markov method were very similar, and the calculation process of probability approximation method was simple and the storage requirements are low. In consequence, the PFD and PFS were solved using the probabilistic approximation method. Finally, the safety for two redundant computer based interlocking systems was contrasted and analyzed by instance. The results show that the 2 out of 2 plus 2 computer-based interlocking is more secure than the hot standby in the condition of all faults.
computer based interlocking; safety; dynamic fault tree analysis; probabilistic approximate method; probability of falling danger; probability of falling safety
U284.3
A
1672 ? 7029(2019)06? 1543 ? 10
10.19713/j.cnki.43?1423/u.2019.06.026
2018?08?31
國家自然科學基金資助項目(51867013)
李軍麗(1987?),女,甘肅定西人,博士研究生,從事交通信息工程及控制系統可靠性與安全性研究;E?mail:lijunli_2012@126.com
(編輯 蔣學東)