孫 健,張興軍,董小社
(西安交通大學電子與信息工程學院,陜西西安 710049)
一種可靠性框圖的異構系統可用性評價模型
孫 健,張興軍,董小社
(西安交通大學電子與信息工程學院,陜西西安 710049)
針對異構系統內自治節點性能特征差異導致系統整體可用性評價困難的問題,提出一種采用可靠性框圖的可用性評價模型.首先,分析系統異構性,從節點和任務角度對異構性進行分類,對資源異構性進行數學量化;然后,結合異構性分類構建串并行混聯的異構系統可靠性框圖可用性評價模型,并根據模型分析節點和整體異構系統的可用性度量方法.可用性評價以典型雙節點和多節點異構系統為例,同時與馬爾可夫過程可用性模型的評價結果進行比較,結果表明,文中所提模型能對異構系統可用性進行準確評價,可為研究異構系統可用性提升及高可用設計提供參考.
異構系統;可靠性框圖;可用性;異構性;高可用
近年來實時應用服務范圍不斷擴大,系統復雜性持續提高.物聯網、云計算及大數據等各種新型技術的興起,使得具有卓越性價比、良好可擴展性及高可用性的異構系統[1]成為解決計算密集型、數據密集型服務的有效方案[2],如何對異構系統進行可用性評價也成為研究異構系統高可用性的熱點問題.
目前國內外系統可用性分析建模方法主要有隨機Petri網(Stochastic Petri Net,SPN)[3-5]、Markov過程[6-7]、故障樹模型[8]及可靠性框圖(Reliability Block Diagram,RBD)[9-11]等.文獻[5]采用隨機Petri網對容錯服務器系統進行可用性建模評價,并考慮服務可用性.文獻[7]采用Markov過程方法對熱備k-out-of-n表決系統可靠性進行了研究.文獻[12]結合Markov過程與隨機Petri網評價雙控制器磁盤陣列系統的可用性.文獻[11]采用可靠性框圖方法分析評價了私有云計算環境的可用性.然而針對異構系統可用性的研究較少,缺乏完善有效的可用性建模及評價方法.
異構系統的重要特點是系統內各自治節點特征、性能及可用性等差異很大,因此,在對異構系統可用性進行建模時,不僅要考慮單個節點和節點內各部件的自身性能與特征,還要考慮相互制約的各自治節點集中體現出的異構系統整體可用性,給異構系統可用性建模評價帶來了諸多困難.筆者對異構性進行分類、量化,進而采用可靠性框圖方法設計實現異構系統的可用性評價模型.該模型采用串并行混聯RBD結構,分析可用性度量方法,并對異構系統的可用性進行準確的評價度量.對比Markov過程模型評價結果,該模型充分考慮了異構性對系統可用性的影響,準確評價系統可用性為異構系統的可用性提升提供了理論性參考.
1.1異構性分類
異構系統是指由多臺獨立自治節點通過高速互聯網絡相互連接而成的高性能、高可用的計算機系統,各自治節點的中央處理單元(Central Processing Unit,CPU)處理能力、內存容量、I/O及其他資源均不相同.各用戶可向系統內任何節點提交各種不同計算量和需求的任務,由特定節點承載的特定服務來執行并完成對應任務.因此,異構系統的異構性可分為節點異構性和任務異構性.
任務異構性由具體任務處理時間與全部任務隊列平均處理時間的比值來體現.對節點異構性定義如下.
定義1 類型異構性,指不同自治節點其指令集結構(Instruction Set Architecture,ISA)與操作系統(Operating System,OS)的不相同.
定義2 資源異構性,指不同自治節點資源如CPU、內存和I/O資源等的擁有量不同.
特別對于資源異構性,其主要體現在各資源部件的結構和特性上.結構上的異構是指各部件操作管理和優化方式的不同,特性上的異構是指各部件性能參數的差異.異構系統規模越大,資源異構性越突出.
1.2異構性量化
根據上述異構性分類及定義2進一步對異構系統資源異構性進行數學量化:①設HS={N1,N2,…,Ni,…,Nn},為異構系統集合,n是異構系統中自治節點的個數,且n≥2;②H為異構性,如CPU異構性Hcpu,內存異構性Hmem,I/O異構性Hio等;③C為自治節點中各部件的性能量化值,如對于CPU,Ccpu(i)為自治節點i的綜合處理速度;若對于內存,Cmem(i)則指自治節點i的用戶可用內存總量,操作系統占用的內存量除外;④RC為自治節點中各部件的性能量化值相對所有部件中性能最高部件的比值,有RC(i)=C(i)根據文獻[13]對資源異構性的數學描述,令,n為自治節點的個數,得異構性公式為

對于一般的情況,如CPU資源異構性,有


2.1異構系統RBD可用性評價模型
文中提出的異構系統RBD可用性評價模型如圖1所示,是一個串行與并行結構混聯的RBD模型.Task Q為異構系統任務隊列,其可用性用串行RBD模型來表示.A?Nodei代表自治節點可用性,A?Conni代表節點Nodei到異構系統間網絡連接的可用性.對于Nodei與Conni所構成的子系統,其可用性用串行RBD模型來表示;對于Nodei與Conni子系統集合,其可用性用并行RBD模型來表示;對于每個Nodei,其可用性受節點內部資源及類型如CPU、內存、I/O等部件可用性的影響.另外,模型中任何子模塊可用性均受對應異構性的制約,后面會具體討論各模塊可用性與異構性的制約關系,進而度量系統的整體可用性.

圖1 異構RBD可用性模型
2.2系統穩態可用度
系統可用性指系統提供正常服務的時間占系統總運行時間的比例[14],其度量方式可以是一個百分數或概率值,更實際的情況下也可以是年平均系統正常運行時間的比率.系統可用度有3種評價模式,瞬時可用度、平均可用度及穩態可用度.瞬時可用度指系統在瞬時時刻可運行的概率;平均可用度指系統在區域時間段內可用度的平均值;穩態可用度指系統長期可正常運行的概率.通常用穩態可用度來評價計算機系統的可用性:ASS=tMTBF/(tMTBF+tMTTR).其中,ASS為系統穩態可用度;tMTBF為系統正常運行直至發生故障的平均時間,即系統可靠性;tMTTR為系統由故障態恢復至工作狀態所用的平均時間,即系統可恢復性.另外,當系統故障服從指數分布時,故障率為一個常數.設故障率為λ,有λ=1/tMTBF;當系統修復服從指數分布時,修復率為一個常數.設修復率為μ,則有μ=1/tMTTR.
2.3系統可用性度量
設異構性函數f(H)=1-H/0.5.根據1.2節中對異構性量化值H計算公式及取值范圍的描述,可得f(H)取值分布在0到1區間,即0 設自治節點集合NodeSet={Node1,Node2,…,Noden}.Nodei到異構系統的網絡連接集合ConnSet={Conn1,Conn2,…,Connn}.任意一個Nodei與Conni組合模塊相對于其他模塊獨立,設其可用性為A? Node?Conni,失效率為F?Node?Conni,有A?Node?Conni+F?Node?Conni=1;設異構系統整體可用性為A? HeteroSys,失效率為F?HeteroSys,有A?HeteroSys+F?HeteroSys=1. 將Nodei與Conni模塊組合看作是局部串行的RBD模型,考慮異構性對模塊的影響,有 對自治節點Nodei的可用性A?Nodei,根據圖1中的描述,從異構性量化的角度出發,可將其看作是節點內多個類型與資源模塊的串聯,有 對網絡連接模塊Conn的自身可用性A?Conni,假設其故障率與修復率分別為αi和βi,其可用性可通過公式A?Con ni=βi/(αi+βi)計算得出.同時若將自治節點模塊按異構性分類為類型模塊和資源模塊,節點Nodei類型模塊可用性為A?Node?typei,資源模塊可用性為A?Node?resi,式(3)可進一步描述為 其中,A?Node?Conni可由式(2)計算得出.由異構系統可用性計算公式可知,影響異構系統可用性度量的因素包括自治節點可用性、自治節點間網絡連接可用性、所運行任務集合的可用性,以及這3部分的異構性.對于自治節點還要考慮節點內部異構類型及異構資源的可用性. 以采用可靠性框圖的可用性模型評價異構系統為例,圖2描述了異構系統的整體硬件體系框架.系統由n個各自獨立自治的高性能服務器節點構成,節點間通過高速以太網鏈路相互連接,并由冗余心跳檢測機制監測各服務器節點的運行情況.各節點通過虛擬IP技術透明的為用戶/終端提供高可用服務.各服務器節點硬件體系結構支持SMP、cc Numa;處理器支持x86、IA64、AMD、SPARC;支持Infiniband、PCI Express、Hyper Transports等I/O技術;支持網卡、SCSI卡、RAID卡、磁盤陣列柜等接口卡及外圍設備;操作系統支持Windows、Linux及AIX. 圖2 異構系統硬件體系框架 圖3根據可靠性框圖的可用性評價模型,結合隨機Petri網方法描述了異構系統內自治服務器節點的狀態轉換情況.服務器節點與網絡鏈接的4個運行狀態分別為:正常、故障、修復及宕機/關閉.服務器節點或網絡鏈接平時處于正常運行態;發生故障時,服務器節點宕機,網絡鏈接關閉;服務器節點或網絡鏈接修復后,節點重新啟動并恢復至正常態. 對于整個異構系統,由圖3中狀態轉換關系可知,其屬于k/n表決系統[15]范疇.假設異構系統是可修復系統,即任何故障服務器節點都可通過修復恢復至正常運行態;且由n個自治節點組成的異構系統中,處于運行正常態的自治節點個數為k,0≤k≤n.當1≤k≤n時,異構系統能夠為用戶/終端提供服務;當k=0時,異構系統內所有服務器節點/網絡鏈接處于宕機/關閉狀態,系統不再向用戶/終端提供服務,直到系統內自治節點修復. 圖3 異構系統狀態轉換圖 3.1參數選取 評價參數設置部分選用文獻[14]中描述的異構系統可用性評價參數.之后,將得到的系統可用度計算結果與文獻[16]中結果進行比較分析,所用到的參數如表1所示.由于異構系統是可修復系統,假設系統內部各自治節點與網絡鏈接的修復時間均為1 h.期間自治節點停機檢修,進行系統備份,存儲設備、磁盤陣列或連接設備的維修及更換,有tMTTR1=tMTTR2=…=tMTTRn=1 h;tMTTRconn1=tMTTRconn2=…=tMTTRconnn=1 h;相應地,有μnode1=μnode2=…=μnoden=1/h;μconn1=μconn2=…=μconnn=1/h.對于自治節點的異構性函數f(Hnode1),f(Hnode2),…,f(Hnoden)與網絡鏈接異構性函數f(Hconn1),f(Hconn2),…,f(Hconnn),有0< f(Hnode1),f(Hnode2),…,f(Hnoden),f(Hconn1),f(Hconn2),…,f(Hnoden)≤1. 表1 評價參數列表 3.2評價結果與比較分析 對具有雙節點的異構系統進行可用性評價.從之前對異構性量化的分析也可得知,在異構部件為兩個的情況下,系統內部異構性差異的體現最為明顯,對系統可用性的影響最大,評價分析相比多部件異構系統更具有典型性.考慮自治節點與網絡鏈接異構性函數值不變且均為1的情況,即節點與網絡鏈接同構,設tMTBFconn1=tMTBFconn2=1 000 h;tMTBFnode1=tMTBFnode2=tMTBFnodes.簡化評價模型中任務隊列Task Q的部分,對比采用可靠性框圖的異構系統可用性評價模型與文獻[16]中使用的Markov過程方法可用性評價模型,結果如表2所示.說明采用RBD的可用性模型能夠對異構系統進行準確的可用性評價.并且當tMTBFnodes值大于1 000 h時,系統可用度可以達到5個9的高可用指標要求. 表2 RBD/Markov過程評價模型系統可用度結果比較 圖4(a)描述了自治節點與網絡鏈接tMTTF一定,tMTBFnodes與tMTBFconns變化的情況下,異構系統可用度的計算情況.坐標系中位于上方的曲線是tMTBFconn1=tMTBFconn2=1 000 h時,tMTBFnodes取值分別為10 h,100 h,500 h,1 000 h時,系統可用性的計算結果.坐標系中位于下方的曲線是tMTBFnode1=tMTBFnode2=10 h時,tMTBFconns取值分別為10 h,100 h,500 h,1 000 h時,系統可用性的計算結果.說明在tMTTF一定時,tMTBF越大,異構系統可用性越高;另外,一般網絡鏈接的可靠性要優于自治節點,因此,tMTBFnodes對系統可用性影響要大于tMTBFconns,采用提升tMTBFnodes所帶來的系統可用性提高要明顯高于提升tMTBFconns. 圖4 異構系統可用性評價結果 考慮tMTTR變化的情況,假設tMTBFnodes與tMTBFconns值不變,tMTBFnodes=100 h,tMTBFconns=1 000 h;tMTTR1=tMTTR2=tMTTRconn1=tMTTRconn2=tMTTRs.選取4個不同tMTTRs值(10 h,100 h,500 h,1 000 h)計算異構系統的可用性,結果如圖4(b)所示.計算結果說明系統可用性隨tMTTRs的增加而逐漸降低,最后趨于0. 考慮自治節點異構性函數變化,而網絡鏈接異構性函數不變且仍為1的情況,即自治節點異構,網絡鏈接同構.設異構系統中自治節點異構性函數值f(Hnode1)=f(Hnode2)=f(Hnodes)={0,0.1,0.2,…,1.0},取值范圍為0 對多節點異構系統進行可用性評價.設系統內自治節點tMTBFnodes=1 000 h,各自治節點與網絡鏈接的修復時間均為1 h,f(H)取值分別為0.2,0.5,0.8,異構節點數變化的情況下異構系統可用性的計算結果如圖5所示.說明異構系統中自治節點越多,系統可用性越高;在相同節點數的情況下,異構函數值越大,即節點異構性越小,系統可用性越高.綜上所述,可通過提高自治節點、網絡鏈接的平均故障時間間隔、降低系統內各部件修復時間、降低系統異構性及增加節點冗余個數的方法,以達到提升異構系統可用性及系統高可用的目的. 圖5 節點數對可用性的影響 從分析異構系統異構性,對異構性進行分類、性量化入手,筆者提出一種可靠性框圖的異構系統可用性評價模型.評價模型采用串并行混聯RBD結構,結合系統異構性分析異構系統可用性度量方法.模型以典型雙節點和多節點異構系統為例,對比Markov過程模型并對系統可用性進行評價.評價結果與比較分析表明該模型不僅能準確對異構系統可用性進行評價,而且從數學量化角度考慮系統異構性對可用性的影響,為研究異構系統可用性提升方法以及異構系統高可用提供了有意義的理論性參考. [1]HAMID A,JORGE G.List Scheduling Algorithm for Heterogeneous System by an Optimistic Cost Table[J].IEEE Transactions on Parallel and Distributed Systems,2014,25(3):682-694. [2]KIM J S,HENRIQUE A,ALAN S.Principles for Designing Data/Compute-Intensive Distributed Applications and Middleware Systems for Heterogeneous Environments[J].Journal of Parallel&Distributed Computing,2007,67(7): 755-771. [3]林闖.隨機Petri網和系統性能評價[M].2版.北京:清華大學出版社,2009. [4]李曄,王映輝,于振華.信息物理融合系統的面向對象Petri網建模[J].西安電子科技大學學報,2014,41(2): 165-171. LI Ye,WANG Yinghui,YU Zhenhua.Formal Modeling of Cyber-physical Systems Using Object-oriented Petri Nets [J].Journal of Xidian University,2014,41(2):165-171. [5]SALFNER F,WOLTER K.A Petri Net Model for Service Availability in Redundant Computing Systems[C]// Proceedings of Winter Simulation Conference.Piscataway:IEEE,2009:819-826. [6]SHAHRZAD F R,MIN X,KIEN M N,et al.Dynamic Availability Assessment and Optimal Component Design of Multi-state Weighted k-out-of-n Systems[J].Reliability Engineering and System Safety,2014,123:57-62. [7]SUPRASAD V A,HOANG P,PAVINDRA B M.Reliability Characteristics of k-out-of-n Warm Standby Systems[J]. IEEE Transactions on Reliability,2012,61(4):1007-1018. [8]ANTHONY M,AOWLING R,DRNO N,et al.Reliability Analysis for Power to Fire Pump Using Fault Tree and RBD [J].IEEE Transactions on Industry Applications,2013,49(2):997-1003. [9]YANG B,HU Y M,HUANG C Y.An Architecture-based Multi-objective Optimization Approach to Testing Resource Allocation[J].IEEE Transactions on Reliability,2015,64(1):497-515. [10]ERICA S,FERNANDO L,EDUARDO T,et al.A Modeling Approach for Cloud Infrastructure Planning Considering Dependability and Cost Requirements[J].IEEE Transactions on System,Man,and Cybernetics:Systems,2015,45 (4):549-558. [11]SOUZA D,MATOS R,ARAUJO J,et al.EucaBomber:Experimental Evaluation of Availability in Eucalyptus Private Clouds[C]//Proceedings of International Conference on Systems,Man,and Cybernetics.Piscataway:IEEE,2013: 4080-4085. [12]WAN Y P,FENG D,YANG T M,et al.The Adaptive Heartbeat Design of High Availability RAID Dual-Controller [C]//Proceedings of International Conference on Multimedia and Ubiquitous Engineering.Piscataway:IEEE,2008: 45-50. [13]ZHANG X D,QIU Y X,XIAO L.Improving Distributed Workload Performance by Sharing both CPU and Memory Resources[C]//Proceedings of International Conference on Distributed Computing Systems.Piscataway:IEEE,2000: 233-241. [14]HEIMANN D,MITTAL N,TRIVEDI K S.Availability and Reliability Modeling for Computer Systems[J].Advances in Computers,1990,31:175-233. [15]方永峰,陳建軍,曹鴻鈞.可修復的k/n表決系統的可靠性分析[J].西安電子科技大學學報,2014,41(5):180-184. FANG Yongfeng,CHEN Jianjun,CAO Hongjun.Analysis of Dynamic Reliability of the Repairable k-out-of-n System under Several Times Random Shocks[J].Journal of Xidian University,2014,41(5):180-184. [16]SUN J,GONG W F,DONG X S,et al.High Availability Analysis and Evaluation of Heterogeneous Dual Computer Fault-Tolerant System[C]//Proceedings of International Conference on Software Engineering and Service Science. Piscataway:IEEE,2014:460-464. (編輯:齊淑娟) Availability evaluation model for the heterogeneous system based on RBD SUN Jian,ZHANG Xingjun,DONG Xiaoshe In order to cope with difficulty of heterogeneous system availability evaluation caused by autonomous node performance and characteristic differences,the paper proposes an availability evaluation model based on the reliability block diagram(RBD).First,we analyze and catalog system heterogeneity from the angle of nodes and tasks,and quantify resource heterogeneity.Then by heterogeneity classification,we build a serial and parallel mixed RBD availability evaluation model,and discuss the availability measurement method of nodes and the whole heterogeneous system.Availability evaluation takes the dual-computer and multi node heterogeneous system for example,and compares evaluation results with the Markov process availability model.Results show that the model we propose can evaluate the heterogeneous system with accuracy,and hence,provide for research on availability improving and high-availability design of the heterogeneous system. heterogeneous system;reliability block diagram;availability;heterogeneity;high-availability TP302.7 A 1001-2400(2016)03-0190-07 10.3969/j.issn.1001-2400.2016.03.033 2015-06-15 國家“863計劃”資助項目(2008AA01A202) 孫 健(1983-),男,西安交通大學博士研究生,E-mail:sunjian83@sina.com.






3 可用性評價與比較分析






4 結束語
(School of Electronic and Information Engineering,Xi’an Jiaotong Univ.,Xi’an 710049,China)