摘要:通過馬爾可夫模型對SHD2IP系統中的雙機熱備份系統進行可信性建模和分析,從理論上對SHD2IP系統的可信度和安全度進行研究,并根據設定的參數分析參數對系統可信度和安全度的影響。最后根據參數對系統影響的大小提出提高系統性能的思路。
關鍵詞:雙機熱備份; 可信性建模; 馬爾可夫模型
中圖法分類號:TP309.3文獻標識碼:A
文章編號:1001-3695(2007)01-0196-03
隨著系統可靠性的不斷提高,許多系統在關鍵節點都需要雙機熱備份系統的支持,本文對SHD2IP系統中的一個雙機熱備份進行了可信性建模分析和比較。通過對系統建立可信性模型的分析和驗證,對掌握系統的可靠性和可信性以及系統的性能有很大的指導意義。
1SHD2IP系統的雙機熱備份機群
SHD2IP系統是運行在移動網絡中的一個監控系統,主要是接收前端采集設備發送來的數據,并對數據進行分析和處理,如果發現被監控的對象有故障,就進行報警。圖1是SHD2IP系統中分光器與 LSC之間的雙機熱備份圖。為了敘述方便,我們分別稱運行主外掛服務器和從外掛服務器的系統為主服務系統和從服務系統。主服務系統和從服務系統之間通過心跳線進行連接,開始時,主服務系統和從服務系統均處于打開狀態,它們都接收從分光器發送來的數據信號。但是只有主服務系統向LSC發送信息,從服務系統不向LSC發送信息。一旦主服務系統出現故障,就完成了向從服務系統的切換,轉換設備(BOX)與外掛服務器作為一個整體工作,切換時進行整體切換。該監控系統的實時要求比較高,要求其可用性達到99.999%甚至更高,如果進行實際驗證,會浪費大量資源,所以從理論上對系統的可用性進行分析具有很重要的意義。通過使用符合系統狀態變化的模型和設定的參數來驗證系統的可靠度和安全度,并通過改變這些設定的參數來看它們對系統的影響;然后根據對系統可靠度和安全度有影響的參數因子來指導系統的設計,使系統的可用性符合系統的要求。
圖1SHD2IP系統中的雙機熱備份系統圖
2可信性模型的選取
在計算機容錯系統中有許多評價模型[1~3],主要有組合模型 、動態故障樹模型、馬爾可夫模型和神經網絡模型。在這四種模型中,組合模型比較適合解決簡單的、靜態系統的可靠性問題,在比較復雜的系統中用組合模型很難分析,所以一般時候不采用這種模型;動態故障樹模型分析雖然可以分析出系統的薄弱環節,但是不能對具有動態隨機性的系統和順序相關的系統進行分析;神經網絡模型在系統的設計過程中,對系統參數的選擇起指導作用,對評價既定系統的可靠度和安全度還需要進一步的研究和探索;馬爾可夫模型不但建模簡單,而且很適合描述具有計算機容錯系統的狀態轉移。由于本系統中的狀態轉換符合馬爾可夫模型,所以本文選擇了馬爾可夫模型來對雙機熱備份系統進行建模分析比較。
3馬爾可夫模型對SHD2IP中雙機熱備份系統的描述
3.1SHD2IP中雙機熱備份系統的馬爾可夫模型建立
為了能正確地反映組成模塊在工作狀態和失效狀態之間的不斷轉換,在馬爾可夫模型中定義了所有可能的系統狀態和狀態轉移[2]。其中系統狀態描述了在該系統中的任何時刻系統可能處于的狀態。在馬爾可夫模型中,系統的下一步運行狀態與如何進入當前狀態無關,而僅僅與當前狀態有關系。狀態轉移表示了系統從一個狀態轉移到另一個狀態的概率。
在SHD2IP系統中,雙機熱備主要處于四種狀態:雙機互備狀態、Work_primary_handler狀態、Work_secondary_handler狀態和Work_standalone狀態。圖2是它們的狀態轉換圖。
為了刻畫系統的馬爾可夫模型,根據系統處于的狀態定義系統的馬爾可夫狀態集s={0,1,2,…,n},該系統有四個狀態,如圖3所示。
狀態0:兩個服務系統都正常工作,處于完好狀態。
狀態1:主服務系統或者備用服務系統有一個系統發生故障,系統處于單服務系統工作狀態。
狀態2:在單服務系統下,檢測到該系統也發生故障并被切除。
狀態3:系統處于危險狀態。
那么,根據上面的定義,假設系統在時刻t正常工作,而在時刻t+Δt失效的概率p為p=1-e-λΔt,如果把上面部分用指數展開,當Δt很小時,p=1-e-λΔt≈λΔt。如果假設系統的可維修概率是μ,故障覆蓋率是c,那么該系統出現故障后,被隔離維修后系統的轉換概率是λcΔt,若沒有檢測切除則其概率是λ(1-c)Δt,系統維修后轉換為正常工作模塊的轉換概率是μΔt。于是可以得到在馬爾可夫模型中的轉移概率函數,如表1所示。
表1狀態轉移概率表
3.2可靠度與安全度的計算
可靠度r(t)[4,5]表示電子元器件產品在規定條件下使用一段時間t后,還能完成規定功能的概率;安全度s(t)表示在系統的可靠度與失效安全狀態下條件概率的和。如果用pn(t)表示系統在時刻t處于狀態n的概率, pn(t+Δt)表示系統在t+Δt時刻處于狀態n的概率,其中n的取值是{0,1,2,3}中的一個,那么根據圖3,可以得到如下方程組:
求上述偏微分方程的解,由式(6)可得p0(t)=p′1(t)+(λ+μ)p1(t)2λc,然后把它帶入式(5),再結合系統的初始條件(在條件t=0時刻,系統完全可靠,沒有故障發生,所以有p0(0)=1,p1(0)=p2(0)=p3(0)=0),可以求得到如下結果:
4系統可靠度和安全度分析
通過上面的公式,可以利用仿真語言MATLAB來對影響系統性能的關鍵參數c,λ,μ進行分析。圖4和圖5是可靠度和安全度隨時間變化的函數。表2和表3列出了參數μ和參數c對系統可靠度和安全度的影響。其中c=0.95, λ=0.
通過上面的分析可得到下面的結論:
(1)當系統的失效率和故障覆蓋率是一個常數時,系統的可靠度和安全度隨著系統維修率的改變而改變。當維修率增加時系統的可靠度和安全度也增加,所以可以通過增加系統的維修率來增加系統的可靠度和安全度。
(2)當系統的維修率固定后,系統的可靠度隨著時間的運行急劇下降,而系統的安全度受到的影響不是很大;當系統的故障覆蓋率比較低時,系統的可靠度也很低,而系統的安全度受到的影響不是很大。
(3)從圖4和圖5可以看出,系統的可靠度和安全度隨著時間的增加而降低,并且有一個時間段急劇下降。
表3參數c對雙機熱備份系統可靠度和安全度的影響
所以為了提高SHD2IP系統的可靠度和安全度,需要做下列工作:
(1)提高系統的可維修率μ。
(2)提高系統的故障覆蓋率c。
(3)定期對系統中的備份系統進行維修檢查,以提高系統的安全度和可靠度。
這就需要從硬件和軟件兩個方面對系統進行可靠性設計,在設計時需要考慮能使系統可靠的各種因素。
5結論
本文通過對SHD2IP系統中的雙機熱備份系統進行建模分析,了解影響系統可靠度和安全度性能的關鍵參數,這對于設計、使用、維護SHD2IP系統應用有一定的理論指導價值。
參考文獻:
[1]劉新宇,高文,孫凝暉.雙機熱備份集群的可信性建模分析與比較[J].小型微型計算機系統,20-04,25(4):747751.
[2]Raj Jain.The Art of Computer Systems Performance Analysis:Techniques for Experimental Design,Measurement, Simulation and Mode ̄ling[M].NewYork:John wileg Sons, 1991.8182.
[3]Allen M Johnson, Miroslaw Malek.Survey of Software Tools for Evalua ̄ting Reliability, Availability and Serviceability[J]. ACM Computing Surveys,1998,20(4):227269.
[4]孫青,莊奕琪,等.電子元器件可靠性工程[M].北京:電子工業出版社,2002.4854.
[5]高繼祥.雙機熱備計算機連鎖系統可靠與安全性指標分析[J].北方交通大學,1998,22(5):7377.
[6]袁振東,洪淵,等.數學建模[M].上海:華東師范大學出版社,2000.241258.
作者簡介:
白立軍(1982),男,山東聊城人,碩士,主要研究方向為網絡安全;
陳曙暉(1974),男,助理研究員,碩士,主要研究方向為網絡安全與嵌入式系統;
張銀福(1948),男,研究員,碩士生導師,主要研究方向為數據庫技術、網絡應用技術。
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文