馮麗媛,姚緒梁,曹 然,鄒艾利
(1.哈爾濱工程大學自動化學院,黑龍江哈爾濱150001;2.黑龍江科技大學電子與信息工程學院,黑龍江哈爾濱150022)
基于分布式系統(tǒng)可修復控制方法可靠性和安全性分析
馮麗媛1,2,姚緒梁1,曹 然1,鄒艾利1
(1.哈爾濱工程大學自動化學院,黑龍江哈爾濱150001;2.黑龍江科技大學電子與信息工程學院,黑龍江哈爾濱150022)
冗余技術對于規(guī)模大復雜程度高的系統(tǒng)主要采用雙機熱備的方法,但其難點是不能準確定位失效單元。針對上述難點,提出一種基于分布式系統(tǒng)的可修復控制方法。通過對系統(tǒng)進行可修復設置,并利用馬爾可夫過程進行建模和仿真,最后針對可靠性和安全性進行了分析。仿真結果表明,可修復控制方法可以提高系統(tǒng)的可靠性及安全性,冗余單元的故障檢測率等于主單元的故障檢測率且冗余單元的失效率大于主單元的失效率時,系統(tǒng)的安全性和可靠度達到最大值。
可修復控制;冗余單元;故障檢測率;失效率
科學技術飛速發(fā)展的結果導致系統(tǒng)規(guī)模的迅速擴大以及復雜程度的日益加劇,系統(tǒng)安全性和可靠性受到越來越多的重視,通常情況下采用冗余技術來提高系統(tǒng)的可靠性和安全性。文獻[1]分析了備份系統(tǒng)的可靠性,給出了仿真程序,但是備份系統(tǒng)沒有給出具體的應用場合。文獻[2]分別基于遺傳算法和整數(shù)編程方法優(yōu)化了冗余備份設計,但此方法只適用于串并聯(lián)系統(tǒng)。目前較為常用的冗余技術有雙機熱備、三取二、二乘二取二等結構。對于規(guī)模較大的系統(tǒng)以及復雜程度較高的系統(tǒng),經濟成本是必須要考慮的因素,因此通常采用雙機熱備作為保障系統(tǒng)安全性和可靠性的冗余設計。文獻[3]給出了一種利用可編程邏輯控制器(programmable logic controller,PLC)實現(xiàn)的雙機熱備系統(tǒng)的可靠性評估,PLC工作在主從模式下,但其分析的前提是備用單元的故障率要低于主單元的故障率,此前提條件限制了其應用場合以及增加了具體實現(xiàn)的難度;文獻[4]以可修復供應鏈系統(tǒng)為例研究了雙機熱備系統(tǒng)的可靠性,不足之處在于其模型中定義的狀態(tài)為完全可逆狀態(tài),這種假設在多數(shù)的系統(tǒng)上是不適用的;文獻[5]對一般雙機熱備和相互比較雙機熱備兩種方式的可靠性進行了對比,但對于相互比較雙機熱備的比較功能沒有提及如何定位失效單元以及故障檢測率的問題;文獻[6]給出了一種可維修雙機熱備系統(tǒng)的可靠性分析,對于備用單元發(fā)生不可測失效時不能及時修復的問題,提出在狀態(tài)轉移圖中增加一個狀態(tài)來區(qū)分此種降級工作狀態(tài),其不足之處在于分析的模型仍然是常規(guī)的雙機熱備結構,并沒有提高雙機熱備結構的可靠性;文獻[7]提出了一種基于雙機聯(lián)合故障檢測的雙機熱備系統(tǒng)方案,通過仿真與獨立故障單元的雙機熱備系統(tǒng)的可靠性和安全性進行比較;聯(lián)合故障檢測的雙機熱備系統(tǒng)雖然在可靠性方面要優(yōu)于基于獨立故障單元的雙機熱備系統(tǒng),但其始終為雙機熱備系統(tǒng),仍然沒有解決失效單元定位問題。
分布式系統(tǒng)的廣泛應用促使分布式系統(tǒng)的安全性和可靠性受到越來越多的重視,尤其是針對一些大型、復雜的分布式系統(tǒng),例如電力控制、鐵路、民航等領域。為了盡早發(fā)現(xiàn)故障,減少損失,常規(guī)的辦法是對系統(tǒng)進行冗余設計。文獻[8]對基于分布式監(jiān)控系統(tǒng)提出了一種改進方法,硬件上利用雙機備份,軟件上利用探測來確定軟件是否運行正常,雖然原有的監(jiān)控系統(tǒng)進行了改進,但其核心仍然是雙機熱備結構。文獻[9]為電力系統(tǒng)中對分布式發(fā)電的可靠性評估,其中硬件部分采用雙機熱備結構,文章的重點在于研究分布式發(fā)電對可靠性的影響,并假設分布式發(fā)電單元作為備用發(fā)電單元。
綜上所述,為提高雙機熱備系統(tǒng)的可靠性在雙機熱備系統(tǒng)的結構上有所調整,但仍然存在定位失效單元的問題。為了解決確定失效單元的問題,增加了冗余單元。基于上述考慮,本文基于分布式系統(tǒng)提出了一種分布式系統(tǒng)可修復控制方法,給出了其結構并對其進行建模分析。最后利用仿真結果驗證了增加冗余單元的可修復控制方法可以提高分布式系統(tǒng)的可靠性和安全性。
文獻[5]對一般方式下的雙機熱備和具有比較功能的雙機熱備結構分別從可靠度和不安全度兩方面進行了分析和比較。結果表明,一般方式的雙機熱備結構的可靠度要高于具有比較功能的雙機熱備結構,具有比較功能的雙機熱備結構的安全性要高于一般方式的雙機熱備結構。從綜合的角度考慮,具有比較功能的雙機熱備結構是一個更好的折中方案。主備單元結果比較能夠提高系統(tǒng)的安全性,但文章并沒有給出主備單元比較的方法,以及如何確定失效單元的方法。
文獻[7]對傳統(tǒng)的雙機熱備結構進行改進,采用聯(lián)合故障檢測結構,并與具有獨立故障檢測的雙機熱備結構從可靠度和安全度兩方面做了對比分析。結果表明,在一定條件下,聯(lián)合故障檢測的雙機熱備結構在可靠度和安全性兩方面的性能要優(yōu)于獨立故障檢測的雙機熱備結構。聯(lián)合故障檢測分為單元自檢及它檢,自檢用于檢測自身發(fā)生的故障,它檢用于檢測另一單元的故障,這種設置勢必會降低主備單元的運行速度;利用心跳信號是否正常來檢測是否發(fā)生故障的可靠性也有待考慮。
雙機熱備方法的核心是當其中一個單元失效時,另外一個單元能夠代替失效單元正常工作。關鍵的問題是要如何確定失效單元,無論是具有故障檢測功能的雙機熱備結構還是具有聯(lián)合故障檢測的雙機熱備結構,其目的都是要確定故障單元。但僅僅依靠主備兩個單元來確定失效單元是不夠的,需要增加其他的判定條件來確定失效單元,并能使系統(tǒng)繼續(xù)正常工作。
2.1 可修復控制結構
首先對分布式系統(tǒng)進行可修復連接設置,如圖1所示:假設分布式系統(tǒng)有n層,每層有mi個節(jié)點(i=1,2,3,…,n),從分布式系統(tǒng)的第二層開始放置冗余節(jié)點。冗余節(jié)點的安放位置及數(shù)量與系統(tǒng)具體的節(jié)點設置有關。每層冗余節(jié)點的數(shù)量是上一層除冗余節(jié)點外所有節(jié)點的數(shù)量,即mi個冗余節(jié)點。每個冗余節(jié)點安放的位置為屬于上一層同一節(jié)點控制的一組節(jié)點增加一個冗余節(jié)點。

圖1 分布式系統(tǒng)可修復連接圖
圖2為可修復控制方法的方案圖,輸入信號同時進入主備單元進行處理,處理結束后對主備單元的結果進行比較,如果結果一致,則主單元輸出;若比較結果不一致,冗余單元介入,進行失效單元的定位。輸入信號進入冗余單元進行處理,運行結束后與主備單元的結果進行比較,3個結果中取2個相同的結果為正確結果,另一單元則確定為失效單元。

圖2 可修復控制方法結構圖
2.2 可修復控制方法的可靠性及安全性分析模型
目前對于系統(tǒng)可靠性及安全性分析較為常用的是馬爾可夫模型,很多學者利用馬爾可夫模型對雙機熱備結構的可靠性及安全性進行了研究。文獻[4]中的可修復供應鏈系統(tǒng)、文獻[5]中的兩種雙機熱備結構、文獻[6]中的可維修雙機熱備結構的可靠性和安全性的分析均采用了馬爾可夫模型。由于可修復控制方法對于雙機熱備的結構并沒有要求,因此本文選擇了文獻[7]中提出的基于雙機聯(lián)合故障檢測的雙機熱備結構作為可修復控制方法中的雙機熱備結構。首先做如下假設:
(1)主單元、備用單元、冗余單元只能取正常或者失效兩種狀態(tài),失效后不可維修。
(2)系統(tǒng)的狀態(tài)轉移過程為馬爾可夫過程:主單元、備用單元、冗余單元的故障分布均服從指數(shù)分布,主單元與備用單元的失效率相等,為λ,冗余單元的失效率為λ1。
(3)主單元、備用單元及冗余單元發(fā)生可測失效時產生的危險輸出的比例因子相等,為α。
(4)主單元的自檢故障率等于備用單元的自檢故障率,為c1;主單元的它檢故障率等于備用單元的它檢故障率,為c2;主單元的自檢和它檢檢出同一故障率等于備用單元自檢和它檢檢出同一故障率,為c12;冗余單元故障檢出率為c3。
根據(jù)主備及冗余單元的狀態(tài),定義系統(tǒng)以下4種狀態(tài):
狀態(tài)0:系統(tǒng)運行正常,主單元及備用單元均處于無故障運行;
狀態(tài)1:系統(tǒng)運行正常,主單元或備用單元中有一個產生故障,另一個單元使系統(tǒng)正常工作,且產生的故障為可測失效故障;
狀態(tài)2:系統(tǒng)運行不正常,處于失效狀態(tài),但不處于危險狀態(tài);
狀態(tài)3:系統(tǒng)運行不正常,且處于危險狀態(tài);
系統(tǒng)在運行過程中若發(fā)生故障,系統(tǒng)狀態(tài)在狀態(tài)0~狀態(tài)3之間轉移,系統(tǒng)的狀態(tài)轉移圖如圖3所示。對可修復控制方法的狀態(tài)轉移圖說明如下:
(1)狀態(tài)0~狀態(tài)1:當系統(tǒng)中主單元或備用單元任意單元發(fā)生可測失效,通過冗余單元定位失效單元時,另一單元正常工作,系統(tǒng)由狀態(tài)0轉移到狀態(tài)1;
(2)狀態(tài)1~狀態(tài)2:當只有一個單元正常工作時,若發(fā)生可測失效則整個系統(tǒng)進入失效狀態(tài),但不會處于危險狀態(tài),仍然為安全狀態(tài);
(3)狀態(tài)0~狀態(tài)3:當主單元或備用單元發(fā)生不可測失效時,將導致整個系統(tǒng)處于危險狀態(tài);
(4)狀態(tài)1~狀態(tài)3:當只有一個單元正常工作時,若發(fā)生危險可測或危險不可測失效則整個系統(tǒng)進入失效狀態(tài),且處于危險狀態(tài)。

圖3 狀態(tài)轉移圖
根據(jù)狀態(tài)轉移圖,得如下方程:

由狀態(tài)轉移矩陣,列出如下微分方程:

對上式進行拉氏變換,有

帶入初始條件P0(0)=1,P1(0)=0,P2(0)=0,P3(0)=0
求解上述微分方程,得

系統(tǒng)可靠度為

系統(tǒng)安全度為


令文獻[7]中的可靠度為R1(t),安全度為S1(t),則

因為

由此可見可修復控制方法的可靠度要高于文獻[7]中給出的方法。
因為

所以

由文獻[7]得

又因為

所以

即可修復控制方法的安全度要高于文獻[7]中給出的方法。
若冗余單元的失效率與主備單元的失效率相同,冗余單元的故障檢測率與主單元的故障檢測率相同,由圖4可以得出可修復控制方法的可靠度和安全度要高于文獻[7]中提出的雙機熱備的方法。

圖4 可靠度與安全度比較
根據(jù)可修復控制結構,系統(tǒng)中每層只有一個冗余節(jié)點,冗余節(jié)點的失效率與其他主備單元的失效率之間的大小關系是變化的,因此冗余節(jié)點的失效率變化情況會影響系統(tǒng)的可靠性和安全性。
圖5分別為冗余單元失效率小于、等于及大于主備單元失效率時,冗余單元的故障檢測率對于可靠度的影響。當冗余單元的故障檢測率等于主單元的故障檢測率時,系統(tǒng)的可靠度最高;當冗余單元的故障檢測率大于主單元的故障檢測率時,系統(tǒng)的可靠度最低。
通常情況下主單元的故障檢測率要大于備用單元的故障檢測率,即c1>c2。由于可修復控制結構的特殊性,冗余單元的故障檢測率c3與c1之間沒有固定的關系,c3與c1之間的變化情況會影響系統(tǒng)的可靠性和安全性。

圖5 故障檢測率對于可靠度的影響比較
圖6分別為冗余單元故障檢測率小于,等于及大于主單元故障檢測率時,冗余單元的失效率對于可靠度的影響。當冗余單元的失效率大于主備單元的失效率時,系統(tǒng)的可靠度最高;當冗余單元的失效率小于主備單元的失效率時,系統(tǒng)的可靠度最低。

圖6 失效率對于可靠度的影響
由以上分析可知,冗余單元的故障檢測率以及失效率均會影響系統(tǒng)的可靠度,當冗余單元的故障檢測率等于主單元的故障檢測率以及冗余單元的失效率大于主單元的失效率時,系統(tǒng)的可靠度達到最大值。
當冗余單元的失效率等于主備單元的失效率時,由圖7可知,冗余單元的故障檢測率等于主單元的故障檢測率時安全度最高;當冗余單元的故障檢測率等于主單元的故障檢測率時,由圖8可知,冗余單元的失效率大于主單元的失效率時,系統(tǒng)安全度最高。由以上分析可知,冗余單元的故障檢測率以及失效率均會影響系統(tǒng)的安全度,當冗余單元的故障檢測率等于主單元的故障檢測率以及冗余單元的失效率大于主單元的失效率時,系統(tǒng)的安全度達到最大值。

圖7 故障檢測率對安全度的影響

圖8 失效率對安全度的影響
雙機熱備結構是目前應用廣泛的冗余設計,為進一步提高系統(tǒng)的可靠性和安全性,并最大限度地減少額外成本,本文給出了一種適用于分布式系統(tǒng)的可修復控制方法。通過增加冗余單元對系統(tǒng)進行可修復設置,并利用馬爾可夫過程進行建模和仿真,根據(jù)仿真結果對可靠性和安全性進行了分析。仿真結果表明,可修復控制方法可以提高系統(tǒng)的可靠性及安全性,冗余單元的故障檢測率和失效率與主單元的故障檢測率和失效率之間的關系均會影響系統(tǒng)的可靠性和安全性,當冗余單元的故障檢測率等于主單元的故障檢測率且冗余單元的失效率大于主單元的失效率時,系統(tǒng)的安全性和可靠度達到最大值。
[1]Amari S V,Dill G.A new method for reliability analysis of standby systems[C]∥Proc.of the Reliability and Maintaiability Symposium,2009:417- 422.
[2]Tannous O,Xing L,Rui P,et al.Redundancy allocation for series-parallel warm-standby systems[C]∥Proc.of the IEEE International Conference on Industral Engineering and Engineering Management,2011:1261- 1265.
[3]Parashar B,Taneja G.Reliability and profit evaluation of a PLC hot standby system based on a master-slave concept and two types of repair facilities[J].IEEE Trans.on Reliability,2007,56(3):534- 539.
[4]Ren S H,Zhang C L.Study on the reliability of hot standby repairable supply system based on Markov model[C]∥Proc.of the 6th International Conference on Service Systems and Service Management,2009:318- 322.
[5]Yan J P,Wang X S.Reliability and safety analysis of two modes of dual module hot spare architecture[J].Journal of the China Railway Society,2000,22(3):124- 127.(閆劍平,汪希時.兩種方式雙機熱備結構的可靠性和安全性分析[J].鐵道學報,2000,22(3):124- 127.)
[6]Yu M,He Z Y,Qian Q Q.Reliability analysis of repairable hotstand-by redundant system based on Markov model[J].Computer Engineering and Design,2009,30(8):2040- 2046.(于敏,何正友,錢清泉.基于Markov模型的可維修雙機熱備系統(tǒng)可靠性分析[J].計算機工程與設計,2009,30(8):2040- 2046.)
[7]Qin Q N,Wei X Y,Yu R R,et al.Reliability and security study of dual computer hot-standby system based on dual computer joint fault detection[J].Systems Engineering and Electronics,2011,33(12):2776- 2780.(覃慶努,魏學業(yè),于蓉蓉,等.基于雙機聯(lián)合故障檢測的雙機熱備系統(tǒng)可靠性和安全性研究[J].系統(tǒng)工程與電子技術,2011,33(12):2776- 2780.)
[8]Jiang M,Liu Y P,Gu X Z.An approach to improving reliability for distributed video-based monitoring systems[C]∥Proc.of the IEEE 3rd International Conference on Secure Software Integration and Reliability Improvement,2009:293- 294.
[9]Jahangiri P,F(xiàn)otuhi-Firuzabad M.Reliability assessment of distribution system with distributed generation[C]∥Proc.of the IEEE 2nd International Conference on Power and Energy,2008:1551- 1556.
馮麗媛(197-8- ),女,博士研究生,主要研究方向為復雜系統(tǒng)可靠性及安全性、分布式系統(tǒng)可靠性及安全性。
E-mail:fengly1978@126.com
姚緒梁(196-9- ),男,教授,博士,主要研究方向為復雜系統(tǒng)可靠性及安全性、電力電子與電氣傳動。
E-mail:yao_1126@163.com
曹 然(198-0- ),女,博士研究生,主要研究方向為復雜系統(tǒng)連鎖失效、博弈論。
E-mail:caohefan@126.com
Reliability and safety analysis of repairable control method based on distributed systems
FENG Li-yuan1,2,YAO Xu-liang1,CAO Ran1,ZOU Ai-li1
(1.College of Automation,Harbin Engineering University,Harbin 150001,China;2.School of Electronics and Information Engineering,Heilongjiang University of Science and Technology,Harbin 150022,China)
Redundant technology mainly uses the method of hot standby to cope with high complexity and large-scale system,but the difficulty is that it cannot accurately position the failure unit.In response to the difficulty,a repair method based on distributed control systems is proposed,which uses the repairable setting to realize fault position.By establishing Markov models and simulation respectively,the reliability and safety of the two schemes are analyzed.The simulation results show that the repairable control method can improve the reliability and safety,the safety and reliability of the system is maximized when the fault detection rate of the redundancy unit is equal to the main unit and the failure rate of the redundancy unit is greater than the main unit.
repairable control;redundancy unit;fault detection rate;failure rate
TP 273
A
10.3969/j.issn.1001-506X.2015.11.36
1001-506X(2015)11-2663-06
2014- 12- 03;
2015- 04- 28;網絡優(yōu)先出版日期:2015- 07- 27。
網絡優(yōu)先出版地址:http://www.cnki.net/kcms/detail/11.2422.TN.20150727.1601.006.html
國防科工局技術基礎研究基金(Z192011B001)資助課題