馮 飛,趙紅霞
(中國鐵路上海局集團有限公司徐州電務段,江蘇徐州 221000)
信號安全數據網應用在CTCS-2級或CTCS-3級客運專線系統中,實現信號設備(TCC、CBI、TSRS、RBC)之間的安全信息交互。隨著高速鐵路的迅速發展,信號安全數據網出現的問題也日益嚴峻起來。如果一旦安全數據網出現故障,將有可能直接導致高鐵系統無法工作,影響列車正常運行。本文通過對安全數據網常見案例進行分析,總結故障處理思路,并針對性的改進對策,旨在幫助維護人員提高維護能力。
信號安全數據網由車站、線路所、中繼站,以及RBC機房中的工業級以太網交換機設備構成雙套相互獨立的冗余網環,環網設備間光纖鋪設方式采用不同物理路徑,即在每個環網中,采用不同路徑的光纖構成環,在兩個環網相同的網絡路徑處也采用不同路徑的光纖來實現。同時為避免車站設備停電后造成網絡中斷,兩個環中用于組成環網的中繼設備也不應在同一個車站或中繼站設置,最大限度地保障信號系統安全數據網的通信可靠性,如圖1所示。各站交換機L串接采用左側干線通道光纜,迂回通道中繼器采用右側干線通道光纜。各站交換機R串接采用右側干線通道光纜,迂回通道中繼器采用左側干線通道光纜。另外,避免由于廣播風暴數據引起整個網絡癱瘓,每一獨立子網中接入的網絡設備超過一定數量時,將網絡環路分割成不同子網。子環網劃分利用三層工業以太網交換機實現,三層交換機間采用雙冗余光纜進行連接,雙通道冗余光纜應采用不同路徑鋪設,以提高通道的物理冗余性。左右網的子網劃分界面不能設在同一車站或中繼站,避免車站或中繼站設備停電后造成通信中斷。

圖1 信號安全數據網連接示意圖Fig.1 Schematic diagram of signal safety data network connection
全線所有車站的以太網交換機作為網絡數據通信接入點,采用8芯光纖構成信號系統安全數據網,其中4芯光纖由線路一側光纜提供,另4芯光纖由線路另一側光纜提供,每側光纜中應另增加2芯光纖作為信號安全數據網的備用光纖。網絡中包括工業級以太網交換機、路由器或者協議轉換器、專用光纖、ODF架、專用的網管系統等設備,如圖2所示。其中,工業交換機是信號安全數據網的核心設備,其核心功能包括業務及管理數據包的轉發和光信號中繼放大。按照要求,信號安全數據網需設置綜合網管系統,用于監控并管理網絡,現場一般設置在中心機房或者主站機房,主要是以網絡拓撲圖形式實現信號安全數據網中所有交換機設備和通道狀態、報警信息、電源狀態和回放等監督維護功能。該綜合網管系統還具備遠程終端協議和遠程登錄工業交換機、FTP上傳/下載工業交換機配置等功能,以服務器和客戶端的形式提供遠程信息復視等。

圖2 網絡管理系統示意圖Fig.2 Schematic diagram of network management system
由于信號安全數據網是環網,一個冗余環網必須有且只有一個主站,主站在鐵科設備的安全數據網終端是標注出來,其余均為從站,主站負責環網狀態監測和環網倒換。同時為防止網絡風暴的產生,目前安全數據網主要采用Dt-ring環網協議,可以通過對交換機端口狀態檢測并通過較少的協議報文,來決定環和端口的狀態,從而保障冗余網絡不成環。主站交換機的一側端口中,一個為轉發狀態完成接發數據,并以一定周期從轉發端口發送環協議報文,環網內交換機依次處理該報文。另一個為阻塞狀態,不接發業務數據,僅接收環協議報文。主站交換機最后從阻塞端口接收到該報文,從而完成一次檢測。正常的環網協議檢測幀從轉發端口發出到阻塞端口接收;當阻塞端口沒有接收到檢測包,認為環斷開,主站迅速將阻塞端口轉換為轉發狀態,完成一次環倒換。
在安全數據網終端的拓撲圖中,不管是左環網還是右環網都可看到一條虛線,這就是環網中的邏輯斷點。當環網中任意單一節點或者鏈路出現故障時,Dt-ring協議可以快速檢測到故障信息并發生倒換,在一定時間內完成,這時備用端口恢復連接并進行數據傳輸。
3.1.1 故障概況
2019年,12:47:11徐 鹽RBC1的1系 與 所有連接站聯鎖的1網雙系通信中斷,12:47:13徐鹽RBC1進行切系,由1系切換至2系主控。12:47:22徐鹽RBC1的1系與徐州東線路所、徐州東徐蘭場、后馬莊站計算機聯鎖的1網雙系通信恢復。
3.1.2 故障分析
通過查看安全數據網終端數據,安全數據網LAN1網中徐鹽RBC1(172.74.203.175)與CBI2(徐州東徐蘭場172.74.203.17)之間出現大量Dup Ack數據包,其中RBC1-I系為主系(172.74.203.175),CBI2-I系為主系(172.74.203.17),172.74.204.x網段與CBI的通信未出現該現象,如圖3所示,表明網絡出現亂序或者丟包現象。

圖3 安全數據網數據Fig.3 Data of safety data network
12:47:16.341,CBI2-I系回復TCP ACK(#58804)中,Ack Numbe發生異常(10921→ 15301)。RBC1一直重新發送ACK(Seq=10921,Ack=34945),表示下一個想要的是Seq=10921包,而收到卻是CBI2一直重新發送Ack(Seq=34945,Ack=15301),且Ack值不隨著CBI的消息更新,進而造成RBC1與CBI2間互傳大量Dup Ack數據包,如圖4所示。

圖4 RBC1與CBI2間在互傳大量Dup Ack數據包Fig.4 A large number of Dup Ack packets are being transmitted between RBC1 and CBI2
12:47:18,RBC1-I系 向 所 有CBI設 備 的172.74.203.x網段的 TCP連接發送RST,關閉異常的連接后,RBC1-I系與CBI2-I系間的Dup Ack數據包發送停止。
隨后工區人員查詢維護終端,發現RBC向維護終端輸出系統報警信息0x00C1,表明網絡風暴發生/恢復檢測。
3.1.3 故障原因
經過上述分析發現,此次故障是由于CBI發送的大量異常Ack包觸發RBC網絡風暴防御機制,因此RBC向該通道的所有TCP連接設備發送RST斷開TCP通信,由于其他連接通道未出現該現象,因此不影響RBC與所有CBI的應用層通信。
3.2.1 故障概況
2018年,工區接到調度電話通知鄭徐線安全數據網出現電源模塊報警,工區人員查看安全數據網終端,發現網絡拓撲圖中TSRS-L交換機顯示紅色。同時下方報警類型顯示電源狀態報警,告警原因是未啟動電源。
3.2.2 故障分析
通號的安全數據網終端用的軟件是HIVISION,該軟件用不同的顏色去顯示交換機狀態。正常情況下交換機無填充色,綠色表明發生故障已經恢復,黃色表明交換機通道類出現故障,紅色表明交換機本身出現故障。
維護人員首先查看拓撲圖,發現交換機填充色是紅色,繼續查看告警事件,告警類型是電源狀態,告警原因是未啟動電源。接著工區人員查看交換機狀態,工區使用的交換機是赫斯曼MACH102型號的交換機,發現Fault燈亮紅燈,同時電源指示燈P顯示黃色,表明是單電源情況。正常情況下P燈應該是綠燈,Fault燈滅燈。
在信號系統中,信號安全數據網的電源都是冗余的,每一個交換機都是兩路220 V或者24 V電源輸入,而且是從電源屏直接輸入,所以出現一路電源掉電情況下交換機報警,但是不會影響通信通道。
接著維護人員查看電源屏模塊,顯示有兩路220 V電源輸出。然后查看交換機電源接頭,連接都牢固,最后發現空開處于懸空位置,導致交換機單點運行。維護人員合上空開設備,恢復正常運行。
3.2.3 故障原因
此次故障是由于交換機空開處于中間位置,沒有閉合導致的。
3.3.1 故障概況
聯調聯試期間需要對安全數據網通道進行測試,在測試期間發現A站和B站經常報警光功率過低,查看鐵科安全數據網終端軟件Kyvision Pro,發現A站和B站通道多次出現光功率過低報警,然后會恢復,但是報警經常反復出現。
3.3.2 故障分析
由于聯調聯試期間的安全數據網設備,還牽涉到通信專業,所以這次故障排查需要聯合通信專業。信號人員在安全數據網終端站查看安全數據網信息,通信專業到報警站去排查,主要查看安全數據網的尾纖到ODF架之間的通道,從ODF架到通信機房之間的光纜鋪設情況,同時對光線接頭進行擦拭。通過排查,發現ODF的蓋板壓住尾纖通道,造成光衰耗過低。
3.3.3 故障原因
光纖鋪設過程中,由于前期施工單位沒有注意,在施工過程對光纖通道擠壓,造成光功率過低。
通過以上的分析,結合質量管理的思想,從人、機、法、環4個方面提出維護對策。
第一,由于安全數據網涉及到通信相關領域知識,但是目前信號專業在該領域知識點比較薄弱,需要有針對性的提高。可以由通信段出面,邀請設備廠家和通信段職培基地人員對維護人員進行培訓,重點是安全數據網報警數據分析和通信信號結合部的相關知識。
第二,加強維護人員對安全數據網組成結構的學習。經過分析可以看出安全數據網包含設備種類較多,比如設備間接口、物理通道種類和設備間接口信息,需要維護人員對此加強學習,由此方便去判斷故障范圍,到底是硬件還是軟件問題。
第三,培養安全意識。每次拷貝數據一定要用專用的優盤,并進行格式化處理,建立健全相關的設備資料臺賬。
第一,研究表明,三層交換機比兩層交換機防范網絡風暴更加有效,可以更多的升級成三層交換機,但是需要相關的配置。
第二,定期檢查設備使用年限,對超出年限的設備及時進行更換。
第三、更換設備時,必須選擇經過CRCC認證的設備。
第一,剛開始組網時根據設備IP數量劃分子網,子網間采用三層交換機,避免網絡風暴發生時擴大故障范圍。
第二,維護人員熟練掌握安全數據網作業指導書和相關維護標準,段、車間進行考試考評。
第三,定期通知通信專業人員來信號機械室對光通道進行各種相關測試,并保留好測試數據。
第一,由于安全數據網里面傳遞的信息直接影響行車安全,所以嚴禁安全數據網介入外網,同時嚴禁安裝不相關的軟件,這不僅會影響程序運行,還會增加CPU利用率。
第二,對各種USB和其他外部接口進行封堵,光纖曲率半徑不能太小。
第三,安裝殺毒軟件并且定期更新病毒庫。
第四,注意機房的溫度、濕度。
通過對安全數據網的相關介紹,以及常見的案例分析,結合質量管理的思想針對性的提出維護改進對策,為維護人員提供設備管理幫助以及故障排查思路。