林雪峰 曹子勇 曹家玉
(上海儀電物聯技術股份有限公司 上海市 200233)
軌道交通自動售檢票系統承擔著乘客售票、檢票,及系統的數據統計功能,自動售檢票系統的失效會直接影響乘客的進出站。為了保證地鐵運營,自動售檢票系統需具備很高的可靠性。因此,在進行系統設計時,需對整個系統的可靠性進行估算,以確認系統設計方案的可靠性指標是否滿足可靠性要求。
傳統的可靠性設計模型為串聯模型、并聯模型和混合結構模型。對于非云架構的傳統自動售檢票系統而言,終端設備和車站計算機系統這些無冗余設計的系統,用串聯模型來進行建模,而線路中心和清分中心系統由于部分模塊存在冗余設計,因此在進行可靠性設計和估算時,常使用混合模型。
隨著云架構技術在軌道交通領域的廣泛應用,自動售檢票系統從傳統的五層架構向三層或者四層架構發展。在三/四層架構下,原有的車站計算機系統、線路中心系統和清分系統合并為一個數據管理中心系統。數據管理中心系統采用服務器集群組成資源池,使用虛擬機/容器等技術提高服務器機計算資源的利用率。
服務器資源池有別于傳統的冗余設計的服務器架構,傳統的可靠性設計模型無法應用于新的系統架構,本文將提供一種針對服務器資源池的可靠性設計模型和可靠性指標的估算方法。
在組成系統的所有單元中,只要有一個單元發生故障(失效)都會導致整個系統故障(失效)的系統為串聯系統。如圖1。
假設串聯系統中的n 個單元是相互獨立的,每個單元的可靠度為Ri(t),根據乘法規則,其數學模型為:

式中,Rs(t)——系統可靠度
Ri(t)——第i 個單元的可靠度;
整個系統的故障率:

由此可見:
(1)整個串聯系統的可靠度與n 的數量及Ri(t)有關。
(2)串聯系統中各單元壽命和系統的壽命都服從指數分布。
(3)由于0<Ri(t)<1,所以由公式(1)知,串聯單元越多系統可靠度越低,有公式(3)知,串聯單元越多系統的MTBF 值越小。
在組成系統的所有單元中,當所有的單元發生故障(失效)時,才會導致整個系統故障(失效)或者只要有一個單元不失效,整個系統就能正常工作的系統為并聯系統。其結構如圖2。
假設串聯系統中的n 個單元是相互獨立的,每個單元的可靠度為Ri(t),其失效概率為Fi(t),根據并聯結構定義,根據乘法規則,其數學模型為:


圖1

圖2

圖3

圖4

圖5
式中,Fs(t)——系統累積失效率(系統不可靠度)
系統的可靠度為:

式中,Rs(t)——系統可靠度
Ri(t)——第i 個單元的可靠度
當系統中各個單元的可靠度相同時,系統的可靠度服從二項分布,即:

若n 個并聯的系統不僅可靠度相同,而且壽命都服從指數分布,則數學模型為:

由此可見:
(1)并聯系統中Fs(t)小于任一單元的Fn(t)。
(2)隨著系統單元的增加,系統地可靠度與系統平均時間間隔MTBF 都增大,Rs 比MTBF 增長都快。
(3)并聯系統中,若單元的壽命分布服從指數分布,則系統的壽命分布并不服從指數分布。
把若干個串聯結構和并聯結構組合在一起的結構為混合結構,最簡單的混合結構模型如圖3。
為得到混合結構模型的數學表達式,先將混合結構化簡為串聯結構,在按串聯結構分析。如圖4。
在新的云平臺架構下,原有的自動售檢票系統的通信服務器、數據庫服務器和應用服務器的架構被打破,代之以由一組服務器組成的計算資源池。服務器資源池需要兩臺固定的服務器作為資源池管理服務器,這兩臺服務器做冗余配置,為并聯模型。
剩余的服務器做集群,在服務器上開啟虛擬機或者容器來運行各個程序。由于單臺服務器的存儲資源和計算資源具有有限性,為了支撐整個系統的后臺業務,往往至少需要不止一臺服務器才能覆蓋系統的業務。而且,因為資源池的特性,一臺物理機在失效后可以在剩余服務器的虛擬機或者容器中重新建立失效物理機中的虛擬機或者容器。系統業務最少需要的物理機可以是資源池剩余服務器中的任意的指定臺數。因此,服務器資源池中除了兩臺冗余的資源池管理服務器外的服務器并不是并聯模型,無法用并聯模型的計算方法來估算整個服務器資源池的可靠性指標。
服務器資源池的架構示意圖如圖5。
假設某個服務器資源池,共有服務器m 臺,其中,資源池管理服務器為2 臺,做冗余配置。支撐整個業務最少需要的服務器數量為n 臺,其中n ≤m。
單臺服務器的失效率=λ服務器
則兩臺資源池管理服務器的失效率

當資源池中失效的服務器數量超過支撐業務最少需要的服務器數量(n)時,整個服務器資源池將失效。即這n臺服務器為串聯模型。
但是這n 臺服務器不是固定的,有可能是剩余的m-2 臺服務器中的任意n 臺,在這m-2 臺服務器中選擇任意n 臺服務器的組合數量p 為:

n 臺固定服務器的失效率:

則這n 臺不固定服務器的失效率:

剩余的m-n-2 臺服務器如果是固定的,可以認為是并聯模型,其失效率:

在m 臺服務器中選擇m-n 臺服務器的組合數量:

則,剩余的不固定的m-n-2 臺服務器的失效率:

故,整個資源池服務器的失效率:

服務器資源池的MTBF:

對于MTBSF 而言,服務器資源池的核心設備為兩臺資源池管理服務器和支撐業務的最少數量的n 臺服務器。
故,服務器資源池的MTBSF:

服務器資源池的MTTR:

式中,λi為系統各個模塊的失效率
Ri為系統各個模塊的MTTR
由于服務器資源池的組成部分都是同型號的服務器,MTTR 為定值,故,服務器資源池的MTTR=MTTR服務器
服務器資源池的可用性:

本文通過組合學的方法對服務器資源池硬件的可靠性指標估算提出了一種估算的方法。該方法結合了傳統的可靠性計算模型,未來需要結合云平臺技術的發展對該算法進行進一步的優化和驗證。
本文提出的服務器資源池可靠性指標的估算方法,地鐵自動售檢票系統的可靠性設計、驗證和估算提供了一個參考方法。