李丹, 胡曉光
(北京航空航天大學 虛擬現實技術與系統國家重點實驗室, 北京 100191)
?
武器裝備實時測控系統冗余容錯方法研究
李丹, 胡曉光
(北京航空航天大學 虛擬現實技術與系統國家重點實驗室, 北京 100191)
針對武器裝備實時測控系統中對高可靠性的需求,對應用較為廣泛的武器裝備緊湊型PCI總線測控系統的冗余容錯問題進行了研究。構建了一種利用心跳檢測聯系主、備用設備的冗余設計方法,并在VxWorks實時操作系統中實現了高可用熱插拔技術來提高系統的冗余容錯性能。提出一種基于非精確計算理論的實時容錯調度算法,將該算法實際應用于測控系統中來驗證其對冗余容錯性的提升。仿真與實驗驗證結果表明,該系統具有良好的冗余容錯性能,該設計方法可以有效地提升系統的可靠性。
兵器科學與技術; 冗余; 容錯; 可靠性; 非精確計算; 緊湊型PCI總線
現代戰爭對武器裝備實時性、精確性的要求逐漸增加,測控系統所承受的負荷持續日漸加重[1],各測試端口對其穩定性的要求也大幅度提高。因此如何提高測控系統的可靠性,成了各國專家關注的焦點。目前國內外針對測控系統可靠性的研究主要集中在對實時性要求不高的民用系統方面,方法主要為建立單純的硬件冗余系統或通過建立系統評估模型來分析計算系統的可靠性[2]。如徐文芳等[3]針對系統的硬件冗余容錯設計出了三模冗余管理板,使嵌入式計算機系統實現了表決、重構與熱備份等關鍵技術,增加了系統的可維修性。Suprasad等[4]對n取k的溫備份冗余系統進行了建模分析,研究者以n個完全相同的單元為基礎,對至少k個單元正常工作時的可靠性進行了分析。Al-Omari等[5]與朱曉敏等[6]采用主/副版本容錯模型對容錯調度算法進行了研究,其采用的多處理器或者分布式等硬件冗余方法可以有效屏蔽持久硬件故障產生的錯誤,采用時間冗余可以有效屏蔽暫時故障的影響,但其存在一定的主/副同步時間冗余問題,且在被動方式下的硬件利用率較低。因此針對實時性要求較高的武器裝備測控系統而言,研究出一種能夠保證系統實時性的冗余容錯方法是當前迫切需要解決的問題。
本文針對目前武器裝備測控系統中應用較為廣泛的緊湊型PCI(CPCI)總線實時測控系統,提出了一套可用于實際操作的全面提升系統可靠性解決方案,主要表現在以下兩個方面:1)全面改進 CPCI總線設備與系統軟硬件結構,并利用高可用模式熱插拔與熱備份技術[7],使得測控系統具備熱冗余與熱備份功能,可以有效提高系統整體的運行與維護效率,增強系統的可靠性[8];2)針對CPCI測控系統實時性高和多任務類型造成的容錯操作難以實現的困難,提出了一種基于非精確計算的容錯思想。利用實時調度理論和非精確計算方法,在有限的時間內以最優的效果完成容錯操作,在最大程度上保障系統的可靠性。
1.1 系統總體結構
對于測控系統而言,構造設備間的冗余關系是容錯優化的主要思路之一。對于武器裝備實時測控系統,若能將熱冗余、熱備份技術用于系統的冗余設計中,用以保證當硬件設備發生故障時,系統能夠立即隔離故障部件并啟用新部件接續此前因故中斷的系統任務,則可以在很大程度上提高系統的可靠性。本文研制的高可靠性CPCI測控系統,即采用了先進的熱冗余與熱備份技術。如圖1所示,其主要由上位機系統、下位機系統和相應的外測平臺組成。上位機采用可視化程度好的Windows操作系統,下位機系統采用實時性強的VxWorks嵌入式實時多任務操作系統來構成,下位機的CPCI機箱內插入自行研發的用于實現特定功能的開關量輸入板卡和串口通訊板卡來完成實現系統功能與冗余設計。VxWorks操作系統提供了高效的實時任務調度、內存塊管理、中斷管理、異常錯誤管理、實時的系統資源和實時的多任務間通信和同步的手段[9],其內部采用層次化的結構,可在系統下運行實時任務冗余容錯調度算法,從而在保證系統實時性的情況下提高系統的可靠性。上位機和下位機之間采用TCP-IP協議進行通訊,系統同時對CPCI板卡的工作情況進行故障檢測與診斷,當系統監測出正在工作中的主卡發生故障時,立即隔離主卡并啟用備卡,讓工作繼續進行,保證數據不丟失。這樣主卡和備卡就構成了一個熱冗余系統,而及時準確地判斷出工作板卡的狀態就成了保證整個系統可靠性的另一個關鍵。

圖1 系統總體結構Fig.1 Overall structure of system
1.2 心跳檢測
本文提出采用一種心跳檢測方法保證主卡與備卡聯系并進行故障診斷。所謂心跳,指的是主從系統之間相互按照一定的時間間隔發送通訊信號,表明各自系統當前的運行狀態。
如圖2所示,板卡1的CPU(CPU1)正常工作時,處于Active(活躍)狀態,并向處于Standby(冗余)狀態的備用系統即板卡2的CPU(CPU2)發送心跳信號。一旦檢測算法判定主卡系統發生故障,立即令主卡停止工作,并將系統資源轉移到備卡系統上,備卡系統將替代主卡發揮作用,以保證運行不間斷。此時工作狀態切換,主卡系統處于Standby狀態,備卡系統處于Active狀態。此后需要將故障板卡及時拔出,進行維修和更換,并再次插入機箱中。

圖2 主卡與備卡聯系關系圖Fig.2 Relation diagram of main and standby cards
快速、高效、準確的心跳檢測算法是保證冗余容錯效率的前提與基礎,此處使用的是基于PULL模型建立的心跳檢測算法。在PULL模型中檢測的節點設備主動向被檢測節點設備發送周期性的心跳信息,同時被檢測的節點設備收到心跳信息后,將自己的心跳回復信息返回發送給檢測設備,若檢測設備在規定的時間內沒有收到被檢測節點設備的心跳回復信息,則判斷被檢測節點設備故障。
具體檢測過程如圖3所示。

圖3 心跳檢測時間進程Fig.3 Time course of heartbeat detection
1)運行心跳檢驗算法后,備卡程序進程每隔Δt時間便向主卡進程發送一次心跳信息,λi為心跳信息的發送時刻。
2)主卡在φi時刻接收到了備卡發送的心跳信息后立即向備卡回復自己的狀態信息。δi為主卡接收到心跳信息并向備卡發送自己心跳信息的時刻,αi為備卡接收到主卡心跳信息并處理的時刻。
3)若在Δt的時間間隔內,備卡未收到主卡心跳信息或收到信息錯誤,則判定主卡工作狀態異常。
如圖3所示的備卡進程在λi+3時刻仍未收到主卡回應的心跳信息,則判定主卡工作故障,立即啟用備卡接替主卡繼續工作。
在備份卡替代故障卡后,需要將故障卡及時拔出后進行替換或修理,另外在有些情況下需要把正在工作中的卡進行插拔操作,這種對運行的板卡任意拔插的操作,需要熱拔插的3個等級中(基本熱插拔、完全熱插拔、高可用熱插拔)的最高等級標準——高可用熱插拔技術的支持。本文采用高可用模式下的熱插拔技術來解決測控系統熱冗余熱備份的硬件問題。
以往的CPCI雙冗余系統,不具備熱插拔功能,為不可修冗余系統。即兩個相同設備接入系統中工作,設備發生故障后不可即時替換、維修,只能切換到備用設備繼續工作,當主設備與備用設備依次都發生故障后,系統只能停止工作。而采用了熱插拔技術的CPCI雙冗余系統,可在一個設備發生故障后隨時替換、維修,為雙冗余可修CPCI系統。
1.3 基于馬爾可夫模型的系統可靠性分析
通過建立馬爾可夫模型來對雙冗余不可修系統與可修系統的可靠性進行分析比較。
馬爾可夫模型建立的前提為:
1)初始狀態所有設備都是新的;
2)當系統中有一個設備處于工作狀態,另一個處于備用工作狀態的設備不會損壞;
3)損壞的設備在修好之后是全新的,概率分布保持不變,且將其立即投入到系統中運行;
4)同一時刻只能有一個設備處于修理狀態,若出現兩個設備依次都損壞的情況,則按損壞先后順序進行修理。
把雙冗余系統中某個設備可能存在的狀態列為如下3種情況:
狀態0,系統主、備設備均工作正常,整個系統運行無故障;
狀態1,系統中存在一個故障設備,整個系統運行無故障;
狀態2,系統中主、備設備均出現故障,整個系統故障。
設雙機系統的失效分布和維修分布均服從指數分布,其失效率和維修率分別為λ和μ. 設每個設備的可靠性為隨機變量X,X服從參數為λ的指數分布;設備的可維修性設為隨機變量Y,Y服從參數μ的指數分布。即
X~F(t)= 1-e-λt, 0<λ<1,t≥0;
(1)
Y~H(t)=1-e-μt, 0<μ<1,t≥0.
(2)
其狀態轉移過程如圖4所示。

圖4 雙冗余可修系統狀態轉移圖Fig.4 State transition diagram of dual-redundant repairable system
根據狀態轉移圖可以得出雙冗余可修系統的狀態轉移概率矩陣
(3)
求得系統的瞬時可用度為

(4)
式中:s1、s2是方程(5)式的兩個實根,
s2+(3λ+2μ-λ2-2λμ)s+2λμ-2λ2μ+2λ2-
λ3+μ2-λμ2=0.
(5)
雙冗余并聯不可修系統狀態轉移過程圖如圖5所示。

圖5 雙冗余不可修狀態轉移圖Fig.5 State transition diagram of dual-redundant unrepairable system
同理,根據狀態轉移圖得出轉移概率矩陣為
(6)
得到系統的可用度為
Aur(t)=2e-λt-e(λ2-2λ)t.
(7)
利用Matlab對雙冗余可修系統與不可修系統的可靠性,即系統可用度進行仿真。設時間t從0~100按照步長為1采樣,假設設備失效率λ=0.01,設備可維修率μ=0.1,在實際系統中,設備失效率會遠大于0.01,設備可維修率會遠大于0.1. 將數值代入(4)式、(5)式、(7)式中可得(計算結果保留至小數點后第8位)
s1=-0.083 856 77,s2=-0.144 043 23,
Ar(t)=0.991 803 957+0.035 786 173e-0.083 856 77t-
0.020 139 182e-0.144 043 23t,
(8)
Aur(t)=2e-0.01t-e-0.019 9t.
(9)
從圖6可以看出,雙冗余可修系統和不可修系統的系統可用度隨著的時間的推移不斷降低,但雙冗余可修系統的系統可用度明顯比不可修系統下降緩慢,且至后期基本穩定。由此可以看出,采用雙冗余可修系統對提高系統的可靠性有著明顯的功效。

圖6 系統可靠性仿真Fig.6 System reliability
2.1 算法優勢
傳統的冗余容錯算法,通常是通過預留空閑處理器時間來滿足任務的正常運行和容錯操作[10-12],但對于武器裝備測控系統,由于其工作期間的實時任務量大、處理器利用率高,僅依賴預留空閑時間的辦法往往會有很大的局限性:一是預留過多的時間會對系統的實時性造成影響;二是針對不同類型的任務,預留的時間往往很難準確估計。在武器裝備測控系統實際運行過程中,為了充分顧及系統的實時性,有些情況下往往僅需滿足最低需要輸出即可。例如某武器攻擊系統對目標信號的探測,對信號的處理時間越長,對目標的打擊會越準確,在一些特定的情況下,由于某些原因造成當前完整的信號處理計算無法在時限內完成,但由于該系統的殺傷面積是有一定大的范圍,故若能滿足規定的最低計算精度,其結果可以接受,這種滿足最低要求的處理方式稱為非精確計算。
2.2 系統模型
采用非精確計算的實時系統將任務分割為兩部分:強制執行部分M和可選執行部分O.M必須在任務的時限到來前結束,以保證該任務的輸出滿足用戶的基本功能要求。O的執行有兩種選擇:要么完全執行,要么完全放棄,若O在時限到來前運行完,則稱該任務實現精確計算。實時任務運行中,若M出錯,則要進行容錯處理,如重新執行;若O出錯,則放棄,因為M的輸出已能滿足用戶的基本需求。在這種情況下,實時任務只要在時限到來前完成M的正確運行即可,而容錯操作所占用的處理器時間可以由處理器空閑時間和O占用的時間共同提供。
本文提出的非精確計算的容錯實時調度算法以最早截止時間優先(EDF)算法為基本調度算法。EDF調度算法是按實時任務截止期的遠近來分配優先級,任何時刻總是運行優先級最高的任務,也就是優先運行最緊迫的任務。EDF對于硬實時周期任務或硬實時非周期任務的調度來說都是最優的動態優先級調度算法[13]。將非精確計算理論應用于EDF算法的改進[14],可以有效地提高系統的吞吐量和資源利用率。
基于非精確計算的容錯EDF(IC-FT-EDF)實時任務集的模型可以表述如下:本文中用τi表示任務,Ci表示實時任務的最壞執行時間,則存在任務集S(τ1,τ2,…,τn)。所有實時任務必須滿足以下限制條件:
1)所有實時任務均為周期任務,且周期大于或等于時限;
2)所有實時任務必須在其時限到來前結束;
3)所有實時任務相互獨立;
4)所有實時任務均具有恒定的運行時問。
所有任務按照其周期值由小到大排列為T1≤T2≤…≤Tn,其任務優先級是按照其任務時限與當前時刻的距離來決定,距離越近則優先級越高。按照非精確計算的特點,將每個任務τi分為強制執行部分Mi和可選執行部分Oi,mi和oi分別為Mi和Oi的運行時問,Oi只能在Mi完成后開始,則最壞執行時間Ci為任務執行了強制執行部分后還執行了可選執行部分,即Ci=mi+oi.Oi的執行按0/1決定,即只能選擇完全執行和完全放棄兩種方式。
2.3 基于IC-FT-EDF可調度條件
對于任何一個實時調度算法,其可調度條件都是算法的關鍵所在。根據容錯EDF(FT-EDF)的設計目標,在Tn-1+Tn內,冗余的處理器資源要保證一次容錯操作,且所有任務均需滿足時限要求。
針對FT-EDF調度,若實時任務集滿足

(10)
則必可由FT-EDF調度。
將(10)式根據非精確計算特性進行改寫,若實時任務集滿足

(11)
則可以進行基于IC-FT-EDF調度。
為了驗證(11)式的正確性,對(11)式進行證明:設周期實時任務集S(τ1(T1,C1),τ2(T2,C2),…,τn(Tn,Cn)),根據系統模型的定義,T1≤T2≤…≤Tn,任務間相互獨立。每個任務τi在其每個周期kTi(k=1,2,…,i)邊界上就緒,在下一個周期邊界(k+1)Ti必須結束運行。為了證明滿足該可調度條件的實時任務集,能夠實現單個錯誤的容錯,其實就是證明以下兩個命題條件:1)任務出錯時,本調度算法必須保證該任務在時限到來前完成再次運行;2)任意出錯任務的再次運行不能導致其他任務的運行超過時限。
關于條件1的證明,經典的參考文獻[15]已經給出“從所有任務同時就緒開始,調度算法只要能滿足關鍵實例的時限,就能滿足后面所有時限的要求”和“只要任務集的資源利用率小于1,則必能由EDF調度”的證明。基于該證明的結果,對于條件1的情況來說,關鍵的實例為優先級高于出錯任務的任務,故只需考慮優先級高于出錯任務的任務對出錯任務的影響。設在第e個任務出錯,從所有任務同時就緒開始,當出錯任務τe完成再次運行后,其處理器的運行時間與Te的比值為

(12)
因此,根據(12)式,若滿足
(13)
則必可滿足條件1.
同理,對于條件2的情況來說,關鍵的任務為比當前優先級高的任務中執行時間最長的任務,故只需考慮該任務進行的容錯操作即可。從所有任務同時就緒開始,當前任務τi完成運行后,其處理器的運行時間與Ti的比值為
(14)
因此,根據(14)式,若滿足

(15)
則必滿足條件2. 取表達式(13)式和(15)式的最大值,得

(16)
實時任務集S滿足(16)式,則必可由基于IC-FT-EDF算法進行調度。
2.4 冗余容錯策略和調度算法
對于滿足調度條件的實時任務集,EDF算法是按照任務優先級分配處理器資源,保證所有的任務都滿足時限的要求,冗余的處理器資源由所有任務共享,特別適用于資源利用率高的實時應用。由于其容錯設計目標是在Tn-1+Tn內要保證一次容錯操作且所有任務滿足時限要求,故在兩個連續的最大周期邊界[kTn,(k+1)Tn]內,冗余的處理器資源為max (Ci),i∈S,又因為根據非精確計算理論,為節省處理器資源,容錯操作只需完成基本任務即可,即冗余的處理器資源為max (Mi),i∈S. 在系統運行時,若當前執行的任務τi出錯,則調度該任務再次運行。在容錯處理中,若新就緒的任務τj的優先級高于τi,則τj搶占τi. 任務的優先級用D表示,其算法如下:
Queue Ready Q;
1)事件:An instance ofτiis end
Ifτiis False
Then Call Retry ( );
Else
Dispatch ( );
Endif
2)事件:New instance of taskτjarrives
IFDJ≥DI
Then Insertτjto Ready Q;
Else
Insertτito Ready Q;
Runτj;
Endif
基于非精確計算理論的FT-EDF通過效率較高的算法,解決了任務的容錯問題,同時保證了系統正常工作時的工作效率。
3.1 實例分析
用一個測控系統CPCI板卡工作實例來進一步分析基于IC-FT-EDF實時調度算法的優越性。設周期實時任務集S的參數如下:
τ1:C1=1.0,M1=0.6,O1=0.4,T1=8.0;
τ2:C2=2.0,M2=1.0,O2=1.0,T2=8.0;
τ3:C3=2.0,M3=1.5,O3=0.5,T3=10.0;
τ4:C4=3.0,M4=1.5,O4=1.5,T4=12.0.
根據上述參數,由(10式)和(16)式可算出,FT-EDF和基于IC-FT-EDF的可調度條件參數分別為

(17)
=0.95.
(18)
可見,在該條件下,UFT-EDF>1而UIC-FT-EDF<1,因此該實時任務集對于FT-EDF無法調度,但對IC-FT-EDF則是可行的。
顯然,對于可以采用非精確計算的實時任務集,IC-FT-EDF在同等情況下比FT-EDF更容易滿足可調度條件,因而具有更為廣泛的適用范圍。
3.2 算法的模擬與分析
算法的模擬與分析是對冗余容錯算法評價的重要方法,本文利用自建的算法模擬仿真平臺對EDF算法、FT-EDF算法和IC-FT-EDF算法進行仿真與比較分析。實驗以任務丟失率作為評價標準,針對這3種算法在同等條件下的任務丟失率來進行比較分析。
國內外對算法模擬平臺有多種不同的實現形式,本文采用基于事件驅動的方式加以實現。事件驅動方式具有與底層平臺無關聯性的特點,其在任何系統上運行均能獲得同樣的效果,具有一定的普遍性意義。該平臺模擬實時任務集的運行環境,根據實驗者設定輸入的參數來創建相應的實時任務集,利用任務集來模擬在相應算法調度下的運行情況。該平臺根據當前時間、上一個錯誤出現的時間和平均無故障時間(MTTF)來判斷當前任務的運行結果是否正確。設處理器運行任務的最大時間為WCT,其與任務處理器運行的最大時間M的比值為M/WCT.
為了驗證EDF、FT-EDF與IC-FT-EDF在不同負載情況下的任務丟失率。本實驗采用的任務利用率在0.15~0.25的范圍內,平均無故障時間設為100,其任務的M/WCT為0.7~0.8的范圍內。實驗結果如圖7所示,本文提出的IC-FT-EDF算法的任務丟失率明顯低于EDF算法和FT-EDF算法,驗證了該算法的先進性。

圖7 任務丟失率比較Fig.7 Comparison of task loss rates
3.3 實驗驗證
在CPCI測控系統中利用IC-FT-EDF算法來檢驗實時任務集熱冗余與容錯性能。實驗裝置由上位機(Windows PC機)、下位機(美國NI公司雙核嵌入式VxWorks機)和自制的外測平臺所構成,如圖8所示。

圖8 冗余容錯系統測試平臺Fig.8 The test platform of redundant fault-tolerance system
實驗時運用到插入到機箱內自行研發的兩塊相同串口通訊板卡和一塊開關量輸出板卡,開關量輸出卡為32位開關量輸出至外測平臺,串口卡為16位數據通訊,設置外測平臺僅將接收到開關量輸出卡的高16位數據輸出至串口卡。設置任務1:開關量輸出卡向外測平臺輸出開關量;任務2:串口卡接收外測平臺數據進行通訊;任務3:心跳信號檢測程序監控主卡狀態以便隨時做熱替換。每項任務都設有強制執行任務和可選執行任務。強制執行任務為完成基本功能的任務,可選執行任務為一些不重要的任務(如一些非關鍵配置信息的初始化)。兩塊串口通訊板卡一塊處于工作狀態(主卡),另一塊處于熱儲備狀態(備卡)。多功能串口板卡設有兩個通道,本實驗均在通道1中進行。利用開關量輸出板卡向外測平臺發送如下數據:0x00010000、0x00030000、0x0007000. 為了驗證該冗余系統的可靠性,在主卡正在進行讀數過程中,模擬主卡發生故障的情況,將主卡突然拔出機箱,系統監測到主卡發生故障的緊急情況,采用IC-FT-EDF算法來節省任務量,舍棄任務2、任務3的可選執行部分,只執行強制執行部分,主卡被安全移除,立即啟用備卡接替主卡來工作,如圖9所示。

圖9 主卡安全移除Fig.9 Safely moved main card
在多功能串口板卡界面,點擊通道1“讀取FIFO”按鈕;可觀測到備卡工作狀態正常,讀取數據正確,對板卡的拔出操作并沒有對讀數工作造成任何影響。由于之前主卡讀取數據后,已將數據及時上傳,故啟用了備用板卡后,跟原先的主卡一直工作沒有區別。
再次將主卡插入機箱,模擬正式工作中對板卡檢修完畢,讓主卡再次進入系統以作熱備份的場景,系統發現新板卡后立即進行處理,如圖10所示。這時為了節省時間,使主卡迅速完成初始化進入熱備份工作狀態的同時可以保證備卡的正常數據傳輸工作,系統采用了IC-FT-EDF算法來舍棄任務的可選操作。開關量輸出板卡所即時發送數據(0x0005000、0x000D0000、0x00870000)與串口卡備卡通道1收到的數據一致,系統工作正常。VxWorks工作界面如圖11所示。

圖10 主卡再次進入系統Fig.10 Main card returning into system

圖11 Vxworks工作界面Fig.11 Operating interface of Vxworks
通過以上實驗,證明了應用IC-FT-EDF算法的CPCI測控系統可以有效地提高系統的冗余容錯特性,對提升系統的可靠性具有一定貢獻。
本文針對武器裝備實時測控系統的高可靠性需求, 對目前應用較為廣泛的CPCI測控系統的冗余容錯問題進行了研究,提出了一種利用心跳檢測相聯系主、備卡系統的高可靠性CPCI冗余容錯測控系統的構建方法,并分析了利用熱插拔技術構建雙冗余可修系統從而提高系統可靠性的理論依據。在軟件容錯方面提出了基于非精確計算理論的IC-FT-EDF實時容錯調度算法,將該算法實際應用于測控系統來驗證其對冗余容錯性能的提升。實例分析與實驗結果表明,將該方法應用到武器裝備CPCI多任務實時系統中可以有效地實現冗余容錯。本文的研究對其他類型武器裝備測控系統冗余容錯升級改造也具有一定的借鑒價值。
References)
[1] 蓋京波, 孔耀. 基于物理特性參數的可靠性評估[J]. 兵工學報, 2015, 36(6): 1104-1109. GAI Jing-bo, KONG Yao. Reliability assessment based on physical parameters[J]. Acta Armamentarii, 2015, 36(6): 1104-1109. (in Chinese)
[2] 萬磊, 張英浩, 孫玉山, 等. 基于重構容錯的智能水下機器人定深運動控制[J]. 兵工學報, 2015, 36(4):723-730. WAN Lei, ZHANG Ying-hao, SUN Yu-shan, et al. AUV's depth control based on reconstructive fault-tolerant control[J]. Acta Armamentarii, 2015,36(4):723-730. (in Chinese)
[3] 徐文芳, 劉宏偉, 舒燕君, 等. 三模冗余容錯系統管理板[J]. 清華大學學報:自然科學版, 2011, 51(6): 1434-1439. XU Wen-fang, LIU Hong-wei, SHU Yan-jun, et al. Management board for triple module redundant fault-tolerance system[J]. Journal of Tsinghua University: Science and Technology, 2011, 51(6): 1434-1439. (in Chinese)
[4] Suprasad V A, Ravindra B M. Reliability characteristics of k-out-of-n warm standby systems[J]. IEEE Transactions on Reliability, 2012, 61(4): 1007-1018.
[5] Al-Omari R, Somani A K, Manimaran G. Efficient overloading techniques for primary-backup scheduling in real-time systems[J]. Journal of Parallel and Distributed Computing, 2004, 64(5): 629-648.
[6] 朱曉敏, 王建江, 王吉, 等. 面向容錯的對地觀測衛星實時任務調度研究[J].電子學報, 2015, 43(8):1471-1480. ZHU Xiao-min, WANG Jian-jiang, WANG Ji, et al. Fault-tolerance oriented real-time task scheduling on multiple earth-observing satellites[J]. Acta Electronica Sinica, 2015, 43(8): 1471-1480. (in Chinese)
[7] 鄒德清, 向軍, 張曉旭, 等. 基于Remus的雙機熱備份優化機制研究[J].山東大學學報:理學版, 2014, 49(9):50-55,61. ZOU De-qing, XIANG Jun, ZHANG Xiao-xu, et al. Optimization research of hot standy with Remus[J]. Journal of Shandong University: Natural Science, 2014, 49(9): 50-55, 61. (in Chinese)
[8] Jain M, Gupta R. Redundancy issues in software and hardware systems: an overview[J]. International Journal of Reliability, Quality and Safety Engineering, 2011, 18(1): 61-98.
[9] 賀庚賢, 李俊霖, 寧飛. 星務仿真系統高精度時標設計[J]. 電子測量與儀器學報, 2014, 28(8):827-835. HE Geng-xian, LI Jun-lin, NING Fei. Design of for new housekeeping simulation system’s high accuracy time synchronization[J]. Journal of Electronic Measurement and Instrument, 2014, 28(8): 827-835. (in Chinese)
[10] Beitollahi H, Miremadi S G, Deconinck G. Fault-tolerant earliest-deadline-first scheduling algorithm[C]∥21st International Parallel and Distributed Processing Symposium. Long Beach, CA, US: IEEE, 2007.
[11] Abhaya K S, Rajib M, Chittaranjan T. Fault tolerant scheduling of hard real-time tasks on multiprocessor system using a hybrid genetic algorithm [J].Swarm and Evolutionary Computation, 2014, 14(10): 92-105.
[12] Risat M P. Fault-tolerant and real-time scheduling for mixed-criticality systems [J]. Real-Time Systems, 2014, 50(4): 509-547.
[13] He Z Z, Men C G, Chen Y J, et al. Schedulability of fault tolerant real time system based on local optimum checkpoint under priority mixed strategy [J]. Chinese Journal of Electronics,2015, 24(2): 236-244.
[14] Rivas J M, Javier G J, Carlos P J, et al. Deadline assignment in EDF schedulers for real-time distributed systems [J]. IEEE Transactions on Parallel and Distributed Systems,2015, 26(10): 2671-2684.
[15] Liu C L, Layland J W. Scheduling algorithms for multiprogramming in a hard-real-time environment[J]. Journal of the Association for Computing Machinery, 1973, 20(1): 46-61.
Redundant Fault-tolerant Method for Real-time Measurement and Control System of Weapons and Equipment
LI Dan, HU Xiao-guang
(State Key Laboratory of Virtual Reality Technology and Systems, Beihang University, Beijing 100191, China)
A redundant fault-tolerant issue of a measurement and control system with compact PCI bus is studied to satisfy the requirements for high reliability of real-time measurement and control system. A redundancy design method is constructed, in which a heartbeat detection is used to connect the main and backup devices. And the high available hot-swap technology based on VxWorks real-time system is used to improve the redundant fault-tolerant capability of the system. A real-time fault-tolerance scheduling algorithm based on imprecise computation theory is proposed. The proposed algorithm is used for the measurement and control system to verify its improvement for redundant fault-tolerance. Simulated and experimental results show that the system can satisfy the requirements of redundancy and fault tolerance. The design method can effectively improve the reliability of the system.
ordnance science and technology; redundancy; fault-tolerance; reliability; imprecise computation; compact PCI bus
2016-03-28
航空科學基金項目(2015ZC51032)
李丹(1986—), 男, 博士研究生。E-mail: lidanbuaa@sina.com; 胡曉光(1961—), 女, 教授, 博士生導師。E-mail: xiaoguang@buaa.edu.cn
TJ06
A
1000-1093(2016)11-2066-09
10.3969/j.issn.1000-1093.2016.11.015