丁定浩
對 《定期檢修系統的可靠性建模與仿真》的商榷
丁定浩
商榷論文給出了描述連續工作狀態下的定期檢修系統的可靠性解析模型和仿真框圖,但文中并沒有涉及失效單元的檢修方式和檢修能力,并且沒有考慮檢修中的備件保障,因此難以正確地反映客觀實際。通過示例指出了文中的不合理之處,希望引起相關人員的重視。
定期檢修系統;可靠性解析模型;數字仿真;連續工作狀態;間斷工作狀態
在經典的可靠性模型研究中,存在停機檢修和聯機檢修兩類模型。停機檢修是指當工作中的冗余單元發生失效時,不能立即對其檢修,必須等到任務結束后或在下次開機前對其進行檢修;聯機檢修是指當工作中的冗余單元發生失效時容許在不停機的條件下立即對其進行檢修,修復后隨即接入工作直到任務結束[1]。
但在實際的工程中,還需要進行定期檢修,由此需要研究定期檢修的模型。例如:對于在相控陣雷達天線射頻收發陣列中的冗余收發單元,在整機性能參數符合指標的情況下,高懸空間的天線環境使得不適宜頻繁地在每次任務結束后都對已經失效了的冗余收發單元進行檢修。又如:對于密封在油箱中的、包含有冗余單元在內的高壓整流硅堆的高壓電源,更不可能在每次任務結束后都對其進行檢修;因為是高壓,不可能在油箱外的引線處對其進行檢測,必須打開油箱進行。打開油箱后,當發現有失效單元時便對其進行更換;但當發現無失效單元時,打開和封閉油箱的一系列工作便成了無效的勞動。對于此類系統,必須采用定期檢修的方式進行檢修,即工作過程中每隔規定的周期后,才對已經失效了的冗余單元進行檢修,再重復前面的工作與檢修的整個過程。當任務剖面為連續工作狀態時,檢修失效單元時是不停機的。
定期檢修的可靠度模型,筆者在參考文獻 [2-3]中已經介紹過,它適用于任務剖面為間斷工作狀態。因此,在使用定期檢修的可靠度模型時必須權衡各種條件,最終確定合適的周期進行檢測檢修,具體的解析模型如下所示:

式 (1)中:T0——定期檢修周期;
ts——任務持續工作時間。
由式 (1)可知,對于由串聯結構構成的系統而言,定期檢修與停機檢修是相同的;而對于存在冗余結構的系統而言,兩者則有明顯的差別。從物理概念上也不難理解,這是因為,對于由串聯結構構成的系統,一旦系統發生故障,則必須立即對其進行檢修,否則系統將不能繼續工作;而對于存在冗余結構的系統,當其中的冗余單元發生故障時,因為冗余單元失效并不影響系統正常工作,所以可以不立刻對故障進行檢修,但當系統中的冗余單元減少時,系統的可靠性會降低。
定期檢修可以在不修復已經發生故障的冗余單元的條件下而使系統繼續工作,但要以任務可靠度的降低為代價。但是,這一問題可以通過增加冗余單元數來補償。冗余單元的補償數量,可以通過式(1)來計算。
計算的目標值是Rs(ts|T0),即在定期檢修周期為T0條件下的任務可靠度的要求值,由此可以計算出在定期檢修條件下要求可靠度保持原有的水平時冗余單元增多的數量。
商榷論文最終討論的模型[4]不是任務剖面為間斷工作狀態的定期檢修的任務可靠度模型,而是任務剖面為連續工作狀態的平均致命故障間隔時間模型。這兩者都是定期檢修模型但又描述的是完全不同的狀態和不同的參數。前者的任務剖面是間斷工作狀態,而后者的是連續工作狀態;前者的參數是任務可靠度,而后者的是平均致命故障間隔時間(MTBCF:Mean Time Between Critical Failure)。商榷論文的示例顯示其參數是連續工作狀態下的平均致命故障間隔時間。
這種模型的過程應該是系統在定期檢修周期中保持正常工作,在周期的最后時刻,在系統繼續保持正常工作的時間內,要求修復已經失效了的冗余單元,隨后又轉入新一輪定期檢修周期,重復上述過程,直到發生系統失效為止。
從商榷論文給出的解析模型和仿真框圖可以看出,兩者均沒有涉及失效單元的檢修方式,而失效單元的檢修方式涉及修復時間的長短,因此,商榷論文就不可能反映定期檢修客觀過程的真實性。
檢修方式通常包括3種,即逐個檢修方式、同時檢修方式和有限同時檢修方式。逐個檢修方式是指對一批已經失效的單元只能一個修復后再修復另一個,逐一地進行修復,直到全部修復為止;同時檢修方式是指對所有的失效單元同時進行檢修;有限同時檢修方式是指同時對有限數量的失效單元進行檢修。
不言而喻,對于同一批失效單元,這3種檢修方式的修復時間是完全不同的。即,同時檢修方式的平均修復時間最短,有限同時檢修方式的平均修復時間次之,逐個檢修方式的平均修復時間無疑是最長的。
順便指出,對于多個失效單元同時檢修的平均修復時間,筆者已經糾正了美國MIL-HDBK-338《電子設備可靠性設計手冊》中給出的平均修復時間模型[5],該手冊的模型表示多個相同單元同時檢修的平均修復時間與檢修1個失效單元的平均修復時間是相同的,這種觀念的錯誤在于把隨機變量的修復時間作為常數對待了。至于有限同時檢修模型,迄今為止仍未見此類模型問世,筆者也給出了相應的模型[5]。
附帶指出,商榷論文對修復概率與修復率不加區分,并令故障檢測率、故障隔離率和修復率的乘積等于修復概率,這也是不適宜的。修復概率是在規定的時間內修復故障的概率,而修復率是指在單位時間內能夠修復故障的次數,兩者的量綱是不同的。修復率通常包含故障檢測、故障隔離、拆卸、重裝、檢測和調整因素在內,并把這些因素占用的平均時間相加,作為平均修復時間。商榷論文中令故障檢測率與故障隔離率這兩個比例參數和修復率參數三者的乘積等于修復概率,但實際上,無論將這一乘積作為修復概率,還是作為修復率,都是不合適的。
最后,備件保障是修復失效單元的必要條件之一。沒有備件保障,定期檢修體制將無法實現,但是,商榷論文卻沒有考慮備件保障問題。
在商榷論文所給出的仿真示例中,系統由1 000個相同的單元組成,其中,要求保持900個單元正常工作,其他100個單元容許失效,這是1 000中取900的表決結構模型。單個單元的平均工作時間是20 000 h。
通過商榷論文中給出的仿真方法得到的MTBCF數據如表1所示。

表1 商榷論文系統仿真MTBCF數據
從表1中第1行的數據可以看出,定期檢修周期為90 d的系統的MTBCF為2 554.7 h。但實際上這是不可能出現的,因為在此周期內已經平均有102個單元發生了失效,而系統必須保持900個單元處于工作狀態,這就是說,90 d的定期檢修周期是不容許的。
下面證明一下所給出的相應定期檢修周期內的平均失效數的依據。
在起始狀態,由于平均工作時間為20 000 h的1 000個單元處于同時工作狀態,所以第1次發生單元失效的時間是平均經過20 h,原因是在此狀態下,系統的平均壽命是20 000 h除以1 000個工作單元,即20 h;第2次又發生1個單元失效的平均時間是20 000 h除以999個工作單元,即20.020 020 02 h;依此類推,把每次平均失效時間和失效數相加,就得到了累計時間為2 160 h、失效單元數為102個。
用相同的方法,可以得到其他6個定期檢修周期的平均失效單元數。
用人工手算的方式相加,上述過程還是比較繁瑣,但是,如果能夠編制一個簡單的計算程序,就可以快速地得到上述的結果。
下面我們再以表1中定期檢修周期為60天、MTBCF為1 151 200 h等數據為依據,反推在此條件下失效單元的修復率和檢修方式,得到的結果是單元的修復率等于0.682 875/h,檢修方式為逐個地進行檢修。
在此檢修條件下,再計算其他定期檢修周期下系統的MTBCF,得到的結果如表2所示。

表2 筆者得到的系統的MTBCF數值
下面將對表2中定期檢修周期為90、85天的兩組數據進行分析。通過上述討論及表2中的數據可以看出,將90天作為周期是不能采用的,因為此時系統的MTBCF為2 128 h,實際上就是停機檢修狀態的MTBCF。85天檢修周期的數據是通過利用定期檢修周期為60天反推得到的失效單元的檢修方式和檢修能力數據得到的,此時,在檢修時間內系統的累計失效單元達到了103個,系統已進入失效狀態,因此,在此維修條件下,85天檢修周期也是不能采用的。
當修復率為0.941 192/h且檢修方式為同時檢修時,要求MTBCF達到35 000 h,在定期檢修周期為70天的條件下,冗余單元的數量可以大大地減少,但要補充備件保障設計。
建造此類定期檢修的解析模型時,首先,要確立定期檢修周期的界限,以保證系統不進入失效期;然后,在此基礎上確定后續周期的工作時間,以使系統達到要求的MTBCF水平,這取決于3個必備的條件,即保持初始工作狀態的條件、修復已經發生失效單元的條件和失效更換模塊備件得到保障的條件。
如何利用解析式表達初始狀態、上述3個必備的條件和狀態的持續與衰退同步發生直到狀態終止的整個過程,這就是定期檢修的設計模型需要解決的問題。對此,我們將另文導出。
定期檢修模型的提出,是可靠性理論模型研究中的一個突破,因為原來在可靠性經典研究中只存在停機檢修和聯機檢修的兩類模型,而在實際的工程中許多系統均需要通過定期檢修的方式來檢修。解決了定期檢修方式的理論模型,是對實際工程可靠性設計的重要貢獻。
實際上,定期檢修模型是設計無人值守系統使用可用度的最佳途徑,因此,除了應關注MTBCF參數外,還需注意系統的平均停機時間,包括平均修復時間、平均備件延誤時間和平均停機預防維修時間[6]。
此外,對于可靠性、維修性和保障性的數字仿真更要謹慎,必須對仿真設計模型的客觀符合性進行仔細推敲[7],因為此類仿真結果沒法通過儀器、儀表來驗證,只能進行試驗來驗證。但是,對可靠性、維修性和保障性的定量試驗驗證,在要求相當的置信度條件下,通常需要的時間和費用均難以讓人接受。對于仿真結果可用儀器、儀表驗證的場合,數字仿真能發揮重要的作用,因為錯誤的數字仿真很容易被儀器、儀表檢測結果所否定。
[1]丁定浩.聯機檢修的冗余結構使用可用度模型修正 [J].電子產品可靠性與環境試驗,2012,30(5):1-5.
[2]丁定浩.可靠性與維修性工程 [M].北京:北京電子工業出版社,1986.
[3]丁定浩.系統可靠性結構模型的新進展 [J].電子學報,1988,16(5):110-112.
[4]胡寧,張三娣,黃永進.定期檢修系統的可靠性建模與仿真 [J].電子產品可靠性環境試驗,2014,32(2):22-26.
[5]丁定浩,陸軍.維修時間新參數和維修性設計新進展[J].中國電子科學研究院學報,2010,5(4):391-384,388.
[6]丁定浩.裝備壽命周期使用保障的理論模型與設計技術[M].北京:北京電子工業出版社,2011.
[7]丁定浩.可靠性數字仿真結果的作用、局限和陷阱的防范 [J].電子產品可靠性與環境試驗,2007,25(6):4-5.
Discussion on“Reliability Modeling and Simulation of Systems Periodically Maintained”
DING Ding-hao
The reliability analytical model and simulation block diagram of systems periodically maintained under continuous working state are given in the discussed article,but the maintenance mode and repair capacity of failure units are not involved and the service ability is not considered in the article,so it can't correctly reflect the objective process.And the unreasonable places are describled through an example,hoping to attract some attention of relevant personnel.
system periodically maintained;reliability analytical model;digital simulation;continuous working state;intermittent working state
TB 114.33;TP 391.92
A
1672-5468(2016)04-0001-04
10.3969/j.issn.1672-5468.2016.04.001
2015-05-05
丁定浩 (1929-),男,江蘇吳江人,中國電子科技集團公司電子科學研究院研究員,上海大學、南京航空航天大學兼職教授,長期從事系統可靠性、維修性、保障性理論和工程設計研究工作。ddh_ddh@126.com