姜 楠
(北京全路通信信號研究設計院集團有限公司,北京 100070)
我國鐵路行業正在經歷飛速的發展,越來越多的高速鐵路開通,帶來鐵路運行速度、舒適性和列車密度的提升。國內高速鐵路的運營里程已經超過其他國家,并且還在不斷地增長。
伴隨著高速鐵路的建設和運營,鐵路信號設備也在向計算機化、信息化、多系統協同工作的方向發展。
中國高速鐵路的發展在實踐和工程中帶動和促進了世界高速鐵路技術的不斷發展,高速列車的商業運行速度迅速提高。旅行時間的節約,旅行條件的改善,旅行費用的降低,綠色環保出行理念的提升,使得高速鐵路在世界范圍內呈現出蓬勃發展的強勁勢頭。
高速鐵路在中國以及世界范圍內的快速發展,人們對高速鐵路認同程度不斷提高,同時對高速鐵路的安全性提出了期待和要求。參考民航飛機的安全性,自1970年起,飛機系統建立以1×10-9為特征的事故率標準。對于災難性的事件,期望其發生的概率低于1×10-9時,認為是極不可能發生的。目前高速鐵路要求達到的安全目標,即不發生災難性事件的概率,基本也是1×10-9數量級。
人們對安全的追求是沒有止境的,高速鐵路相關的安全標準和規范也隨著工程實踐而改進。本文本著防微杜漸的思想,結合信號控制系統設計、維護、調試中發現的一些問題,給出一些對安全性改進的建議和方法。
高速鐵路信號系統已經是一個復雜的系統,應用了大量的計算機技術、軟件工程技術、通信信息技術。高速鐵路的信號系統由多個子系統構成,如TCC子系統、ATP子系統、RBC子系統、CTC子系統。每個子系統都運行著復雜的軟件,有的子系統的代碼可能超過30萬行。這些子系統大部分是安全相關系統,承擔著保障鐵路安全運行的功能,如果安全功能失效,可能導致災難性的后果。
GB/T 20438(IEC 61508)對于簡單安全相關系統有一個定義:一種安全相關系統,應滿足兩個條件:
1) 已很好地確定了每個單獨部件的失效模式 ;
2) 能夠完全確定在故障狀態下系統的行為。
GB/T 20438同時給出一個簡單安全系統的舉例:一個或幾個限位開關,通過一些繼電器來切斷電機電源的系統。
對比簡單安全相關系統的定義,TCC、ATP等不能歸類為簡單安全相關系統,而是復雜的安全相關系統。根據簡單安全相關系統定義,可以推定,對于TCC、ATP等復雜安全相關系統:
1) 不能很好地確定每個單獨部件的失效模式 ;
2) 不能完全確定在故障狀態下系統的行為。
對于復雜系統,由于其失效模式難以一一確定,也難以完全確定在故障狀態下的行為,必然存在不確定性。尤其是對于系統性故障復雜軟件,現在還沒有好的方法來完全排除軟件中的錯誤,實現復雜的無錯軟件,這一點在EN 50128的引言中有如下描述。
目前,無論是質量保證法(即避錯措施)還是軟件容錯法的應用,都無法保證系統絕對安全。尚未發現一個可證明較復雜的安全相關軟件中不存在錯誤的方法,特別是規范和設計的錯誤。
如何減少系統性故障,尤其是軟件的錯誤,是高速鐵路信號控制系統面臨的一個挑戰。
高速鐵路的發展,帶來大量的計算機化技術、通信和信息技術、大量復雜的軟件。現代鐵路的信號系統,已經由當初的硬接線繼電系統,發展為基于大規模集成電路、邏輯器件和處理器為基礎的電子系統。
基于處理器系統與硬接線繼電系統的一個明顯區別就是信息和邏輯的可視化程度完全不同。
基于硬接線的繼電系統,其電路和動作是完全可視的,所有接線對于設計人員、調試人員、維護人員等是公開的。對于聯鎖系統,繼電聯鎖的解鎖電路,最終用戶可以與電路設計人員一樣,了解所有的電路邏輯,根據電路和接線圖,推斷電路的檢查條件和動作特征。
基于處理器的電子系統,其內部的數據流、邏輯流、控制流一般對外不可見,只能從系統邊界的輸入和輸出來推斷其內部行為。除了設計人員,其他人員很難清楚內部的處理邏輯、實現方式。在一定程度上,基于處理器的電子系統,內部錯誤更難以發現。
現代高速鐵路系統是由多個系統協同工作的大系統,各子系統間具有復雜的信息流、每一個子系統需要根據來自其他子系統的信息配合,并與其他子系統配合輸出相應的信息。
一個典型的CTCS-3信號控制系統中的信息數據流向,如圖1所示。由圖1可以看出,地面設備、軌旁設備、車載設備三者間有復雜的信息交互和數據流向;地面設備各子系統內部間,也有著復雜的信息流。
以S5聯鎖子系統為例,流入的信息流有:CTC信息、TCC信息、站內設備信息;流出的信息流有:CTC信息、TCC信息、站內設備信息、RBC信息。各信息說明如表1所示。
這種多系統協同工作的大系統,面臨的共同問題是子系統間信息流的故障傳播,一個子系統信息流故障時如何抑制其傳播,以縮小有害影響。
在TR50506-2中,對故障傳播給出一個示例,如圖2所示。

圖1 CTCS信號系統數據流
在一個指定的功能單元(FU)內的錯誤傳播(如內部傳播)是由計算過程導致的:一個錯誤成功地演化成其他錯誤。
錯誤傳播從一個功能單元(i級)到另一個從i級功能單元接受服務的功能單元(i+1級)通過服務接口傳播發生。同時,i級功能單元提供給i+1級的服務錯誤,且隨后i+1級功能單元的故障看起來是i級功能單元的一個外部失效,并將錯誤傳播給了i+1級別的功能單元。
此處指的功能單元,可以是某個子系統,也可以是某個子系統內部的一個模塊,失效傳播的機制是類似的。
從飛機系統安全性的發展來看,安全性的提升經歷了以下幾個階段:
階段1:追求系統功能的完整性,沒有引入單故障概念;

表1 聯鎖系統與RBC交互信息

圖2 故障、錯誤和失效的產生以及表現機制的例子
階段2:完整性加上有限的設計特征選擇冗余,考慮單故障的故障率;
階段3:引入單故障概念,必須考慮災難性單故障;
階段4:引入故障安全概念,考慮任一單故障加上任一可預知故障組合。使用FMEA,FHA,FTA進行風險分析。
借鑒飛機系統的安全性,結合鐵路信號設備運行的實踐情況來看,單故障在鐵路信號設備中可以引起巨大的危害,鐵路相關的標準,如EN 50129,明確提出了對單點隨機故障的防護要求,對于SIL3/SIL4系統,任何單一可能的隨機故障,不應導致系統處于危險狀態,危及行車安全。
從鐵路信號設備的實際運營情況來看,相比單點隨機故障,系統性的單點故障頻率更高,產生的危害也更大。
有針對性地給出應對系統高復雜性、信息隱藏、多系統協同工作和單故障的幾點改進研究方向。
形式化方法(Formal Methods)的基本含義是借助數學方法來研究計算機科學中的有關問題。
形式化方法提供一個框架,在框架中可以用數學的方式開發和驗證系統。
形式化方法在EN 50129和EN 50128中都有要求。由于軟件的錯誤都是系統性故障,沒有隨機性故障,所以在EN 50128中,多次出現對形式化方法的強烈推薦(HR)使用要求。
如在EN 50128中,表A.2軟件需求規范,采用形式化方法進行軟件需求描述,被強烈推薦使用。
對于形式化方法來說,由于其基于嚴格的數學,具有嚴格的語法和語義定義,從而可以準確地描述系統模型,排除矛盾、二義性、含糊性等情況;同時,在對系統進行嚴格描述的過程中,將會幫助用戶明確其原本模糊的需求,并發現用戶所陳述的需求中存在的矛盾等情況,從而相對完整、正確地理解用戶需求,最終得到一個完整、正確的系統模型。
形成完整的形式化模型后,則可以進行形式證明。
在EN 50128表A.5,如表2所示,驗證和測試中,形式證明技術在SIL3和SIL4等級中被強烈推薦使用。

表2 驗證和測試技術要求
形式證明的目標是使用理論模型、數學模型及規則,就有可能在程序不需要運行的條件下證明程序的正確性。
如PROVER公司提供針對鐵路信號領域的形式化證明工具。在根據要求編寫形式化設計規范、測試規范、安全規范后,可以證明軟件實現的正確性。由于形式化證明是基于數學的方法,其結果是嚴謹可信的。或者說在假設其前期規范正確的前提下,產生的軟件是無錯的。
法國在鐵路信號的形式化上應用較多,如巴黎地鐵14號線的安全關鍵部分就采用形式化的開發和證明方法。
對于復雜的軟件,采用形式化方法開發、形式證明;或對既有傳統開發方法設計的復雜系統,采用形式化方法來對其驗證,或要求第三方采用形式化方法來進行獨立形式驗證,可能是復雜系統安全性提升的一個重點方向。
可視化是指將數據信息轉化為一種視覺形式,其充分利用人們對可視模式快速識別的自然能力。可視化將人腦與計算機這兩個最強大的信息處理系統聯系在一起。可視界面能夠更有效地監視、操作、過濾、對比與理解大規模數據,并與之方便交互,從而可以極其有效地發現隱藏在信息內部的特征和規律。
可視化是一種計算方法,它把計算機使用的數字和代碼轉換成幾何信息,使外部人員可以觀看他們的計算邏輯和結果。
對于基于計算機的鐵路信號設備來說,數據信息的可視化,應包括將安全相關運算和輸出結果信息以易于工程和操作人員理解、熟悉的圖形化形式直觀展示出來。
對于研發人員來說,關鍵信息的圖形化展示,每一個數據項作為單個圖元元素表示,大量的數據集構成數據圖像,同時將數據的各個屬性值以多維數據的形式表示,可以從不同的維度觀察數據,從而對數據進行更深入的觀察和分析。
對于工程、調試、運營、維護人員來說,關鍵信息的圖形化展示,可以實時、全面地向使用人員交互設備狀態和輸出,作為圖形化信息的觀察者,可以方便、直觀地與自己的預期進行比較,更容易發現問題。
如聯鎖系統對于涉及行車安全的對外輸出信息,根據是否在人機界面進行顯示,說明如表3所示。
根據數據信息可視化原則,對于涉及行車安全的信息,應在有人值守終端進行顯示,而不是只由最終使用該信息的系統進行處理和使用。
遵循信息可視化原則可以大大增加各個環節發現錯誤輸出的概率。
聯鎖形成的給RBC的SA信息應與進路信息疊加顯示;CTC顯示RBC生成的行車許可延伸。當信息有誤時,操作人員有機會及時發現和盯防,在系統調試期間也容易發現異常。

表3 聯鎖輸出數據信息
如果所有安全信息輸出不能實現,至少在調試,測試、安裝階段,應具備信息可視化的條件,使隱藏故障容易發現。
多源信息融合(簡稱為信息融合)是指組合和合并多個來源的信息或數據以便形成一個統一結果的技術。它起源于軍事領域中的多傳感器綜合應用,往往又叫多傳感器數據融合(或數據融合)。
信息融合是一種多層次、多方面的數據處理過程,對來自多個信息源的數據進行自動檢測、關聯、相關、估計及組合等處理。
對于高速鐵路信號控制系統這種多協作、多數據來源的大系統,有條件做信息融合處理。對于涉及行車安全的信息,當具備多信息融合的條件時,應采用自監督或相互監督的機制,對多數據進行關聯、組合等處理,通過多數據源來提高安全性、同時防止錯誤的數據在子系統間有害傳播。
根據《鐵路車站計算機聯鎖安全原則》TB/T3482如下2條要求。
1) 來自其他安全系統的通信數據,如果經安全校驗后數據出現非預期或矛盾的結果,計算機聯鎖系統應采取安全措施。
推而廣之,所有安全相關的設備,作為信息使用方,可以在已有信息的基礎上根據冗余信息進行規則符合性校驗,避免單一信息出錯造成不可接受的安全后果。
某一信息接收方,當具有一致或相近信息含義的數據具有多個來源時,應對多來源數據進行基于安全的一致性檢查。
2) 聯鎖軟件內部同一設備狀態和運算結果,需要對外驅動以及給多個外部系統發送時,對外驅動以及給各系統發送的信息含義應一致。
推而廣之,所有安全相關的設備,軟件應采取技術手段檢查輸出的一致性。如車載可根據收到的C2和C3信息,進行基于安全的行車許可比較,提升系統安全性能。
EN 50129中對單故障的要求:當可識別的任何一種單一隨機硬件故障發生時,應保證SIL3/SIL4的系統保持安全。
除單一故障外,還對多重故障的影響有要求:應及時檢測可能直接造成危害或與繼發故障組合后造成危害的多重故障(例如兩重或三重故障),并且強制達到一個安全狀態。
另外,還要求進行共因失效分析,以確保多重故障只在多個隨機單一故障組合情況下發生,而不是一個共因故障的結果。
EN 50129中,對單一故障防御的要求是基于硬件隨機故障提出的,基于硬件的隨機故障,系統性故障則不可量化。比如軟件的實現錯誤,是通過一系列技術、質量、安全管理的要求,來降低系統性故障發生的概率。
從另一個角度來說,EN 50129并沒有提出對系統性單一故障防御的要求。而是采取了與SIL等級對應的技術和管理措施后,可以認為系統性故障發生的概率與硬件隨機性故障在一個量級上。
但是目前鐵路領域的信號系統,其規模、復雜度均已經達到很高的水平,通過采取標準要求的技術和管理措施,從實踐來看,是否能同硬件隨機失效一樣,降低到可以忽略的水平,是一個值得商榷和進一步探討的問題。
正如EN 50129中B3.6中提到的系統性故障防護(人的設計錯誤,軟件錯誤)要求:除通過質量和安全管理技術來減少人為錯誤的概率之外,還應通過技術性措施,使即便存在一個危害性系統性故障,也應最大程度地防止它產生不可接受的風險。不妨也在有條件時,適當考慮單一的系統性故障防御,如上文提到的多源數據校驗、信息可視化技術,從工程實踐的角度,提高鐵路信號設備的安全水平。
本文通過對高速鐵路信號系統的發展、面臨的問題和挑戰的分析,提出安全性改進的幾個可能的方向,希望能夠進一步提升中國高速鐵路信號系統的安全性,滿足人們安全、高效出行的要求。
[1]中華人民共和國國家質量監督檢驗檢疫總局,中國國家標準化管理委員會.GB/T 28808-2012 軌道交通 通信、信號和處理系統控制和防護系統軟件[S].北京:中國標準出版社,2013.
[2]中華人民共和國國家質量監督檢驗檢疫總局,中國國家標準化管理委員.GB/T 28809-2012 軌道交通 通信、信號和處理系統信號用安全相關電子系統[S].北京:中國標準出版社,2013.
[3]國家鐵路局.TB/T 3482-2017 鐵路車站計算機聯鎖安全原則[S].北京:中國鐵道出版社,2017.
[4]中華人民共和國國家質量監督檢驗檢疫總局,中國國家標準化管理委員會.GB/T 20438.1-2006 電氣/電子/可編程電子安全相關系統的功能安全[S].北京:中國標準出版社,2006.
[5]佘曉麗.協同交互失效分析方法及鐵路信號系統應用[D].北京:清華大學,2016.
[6]英國標準學會.BS PD CLC/TR 50506-2-2009鐵路應用-通信、信號和處理系統-50129應用指導[S].英國標準學會,2009.
[7]呂毅.形式化方法介紹及其在工程中的應用[J].微電子學與計算機,2003(10):26-28.
[8]陳科文.多源信息融合關鍵問題、研究進展與新動向[J].計算機科學,2013(8):6-8.