時明薇
摘要:縱觀國內AFC系統建設現狀,建設方式多數采用在車站部署一臺AFC系統機房,通過星型網或者環網將SC與終端設備進行連接,既有SC系統不具備災備的功能,發生車站服務器出現故障時時,無法臨時接管,客流數據無法實時銜接,不具備交易文件斷點續傳,不能監控狀態瞬間切換等功能,造成系統宕機。如果在車站使用雙擊備份,確實可以解決這一問題,但建設成本翻倍。考慮到對乘客服務的優質要求及維護成本控制,從實際出發,設計出一套AFC車站服務器在線容災備份系統。
關鍵詞:SC系統;容災;備份;
隨著城市軌道交通的大力發展,以及郊區線路的建設,運營維護的問題逐步凸顯,當SC出現故障,技術人員并不能夠在第一時間趕赴現場維修解決故障,影響車站故障監控、實時客流數據。
1.研究思路啟發
通過數據庫雙機熱備的啟發,從實用性,經濟性出發,充分對比雙機熱備和在線容災的優缺點,最終確定實施在線容災備份方案。
1)雙機熱備方案:就是將服務器安裝成互為備份的兩臺服務器,并且在同一時間內只有一臺服務器運行。當正在運行的主服務器出現故障無法工作時,另一臺備用服務器會立即啟動并運行,從而保證AFC車站系統的業務正常運行。針對現場生產環境,車站服務器需增加一臺。
優點:技術改造難度小,故障時自動切換。
缺點:需額外增加1臺服務器,改造成本大,浪費現場可用資源。
2)在線容災備份方案:充分利用現有車站工作站環境和設備,通過資源整合,將車站服務器的業務部署到車站工作站上虛擬機上,作為備用服務器,實現災備的功能。
優點:最大化節省成本,充分調用既有設備資源,經濟可行。
缺點:不能自動切換,需人工手動切換。
2.基于VirtualBox虛擬機災備方案實現
3.VirtualBox虛擬機部署
1)系統安裝:在車站工作站上安裝VirtualBox虛擬機,安裝跟車站服務器統一的操作系統,數據庫環境以及相應服務包。安裝完成后,修改相關配置設置,驗證系統通信服務,設備監控、客流監控、交易數據管理、時鐘管理、參數管理、設備管理、日始日終處理功能是否正常。
驗證通過,將該硬盤制作為母盤,克隆出來,復制至其余車站,修改相應車站配置,節約時間成本并降低安裝系統及數據庫途中出問題的風險。現場安裝后,需檢查:主機防火墻是否已關閉,時間,USB口,監控工作站功能是否正常。
2)系統切換:將故障車站SC服務器斷網(服務器后面網線斷開),監控工作站打開VirtualBox虛擬機,啟動"SC_Backup" CentOS 5.8 系統。檢查時間是否一致,進入“系統-管理-網絡” eth0,確認IP地址、網關正確,激活eth0,啟動相關服務進程及服務。再查看車站監控、中央監控、文件上傳情況。
3)系統恢復:故障修復后,關閉各項進程、關閉數據庫、關閉虛擬機系統、關閉虛擬機。啟用車站服務器。
4.系統硬件要求
介于是在原工作站上模擬車站服務器運行環境,對內存要求較高,因此需根據原有車站服務器類型,需增配內存條。
5.系統軟件要求
為了提高工作站的性能,建議使用Windows7 64位及以上版本的正版操作系統。其他性能應如下:
1)通信服務
系統實現LC指終端設備的通信銜接功能,整個通信分為外接系統(內部和外部系統)的消息接入模塊和消息處理模塊。
消息接入模塊接受來自外接的消息報文,然后轉由消息處理模塊處理消息接入模塊主要提供通信服務,包括消息報文的接受和發送,分別由通信服務模塊和通信客戶模塊來完成。通信服務模塊接受外接系統的連接請求,建立通信連接,接收消息請求報文,發送給消息處理模塊。通信服務模塊從消息處理模塊接收應答報文,發送到外接系統。通信客戶模塊向外接系統發送消息請求和接收外接系統的消息應答。
消息處理模塊接受來自外部和內部接入模塊的各種消息,進行業務處理后,形成應答報文發送給外部和內部系統系統采用 CORBA通信技術實現ZLC到SLE之間的實時數據通信系統中的各節點的文件傳輸采用FTP通信協議。
SC對單臺設備能夠指定特別的FTP登錄信息,便于參數的下載、應用、測試等。
2)設備監控
服務器故障后,災備系統能夠實現車站級設備監控,對設備的監控主要包括運行模式、設備狀態、設備故障及報警等各類監控信息。各類監控信息準確、實時,顯示直觀、清晰,監控信息分類、分級顯示,使監控人員可以快速判斷和響應。其中設備狀態包括正常、警告、故障、離線和關機狀態,各狀態以不同顏色的圖標顯示。系統可集中控制車站內設備的運行,可向某組設備、某類設備、某臺設備下達控制指令。這樣的指令主要包括設備運行模式轉換指令、設備數據查詢指令、設備運行指令等。
3)客流監控
系統監視車站的客流情況,以提供制定運營計劃的基礎數據。所監視的客流應包括所有設備處理的客流。所監視的客流可按時間段進行查詢,最小時間段為1分鐘。監視范圍可按整個車站、某組設備、某類設備、某臺設備進行靈活選擇。監控內容的顯示清晰,圖形多樣化。顯示內容主要包括購買各類車票人數、充值人數、車票更新人數、各類車票進站人數、各類車票出站人數、補票人數等。客流監視數據上傳頻度和內容可由參數或通過系統進行設定。客流監視還可記錄全線日最高峰記錄,當某日客流超過該記錄時,報警提示,以促進車站的疏導工作。
4)交易數據管理
災備系統收集各類車票交易數據,并上傳到LC。數據包括各種車站設備對各種車票的賦值、發售、充值、扣值、進出站、更新、替換、退款等各種交易類型的數據,交易數據可以不解析入本地庫,但需對傳輸的數據進行記錄,并進行備份,便于差異跟蹤、分析。
5)時鐘管理
災備系統以LC通信時鐘服務器作為主時鐘源。系統使用SNTP協議進行時鐘同步。
系統從時鐘源獲得標準時鐘后,把自己作為SNTP服務器,向本區域中心管理終端提供標準時鐘。每隔1個時間段(由參數設置)同步一次,當時鐘出現差異時,在1秒內得到同步,其中大于7200秒的差異不能自動同步,系統進行日志記錄備案,小于5秒的差異不需要同步(閾值可由參數設置)。
系統通信中斷的情況下可人工修正時鐘。對于不能自動同步的終端,可通過強制同步終端時鐘,并記錄日志。
時鐘接口、傳輸協議等應與ZLC保持一致。
ZLC-SC-SLE各級之間的SNTP報文傳輸采用基于 Socket的TCP聯機報文方式實現,上層為服務端、下層為客戶端。
各同步終端,將時鐘狀態上傳給上級監控,醒目列出時鐘差異在設定范圍以外的設備,并可以發送命令強制進行時鐘同步。
6)參數管理
參數主要包括EOD參數、黑灰名單和模式履歷。EOD參數又分為ACC級參數和ZLC級參數。ACC級別的參數在ACC生成,向全線網所有區域中心發布。
LC級別的參數,向本ZLC的下級SC發布,SC轉發給下級設備。黑灰名單在ACC生成,以文件的形式向全線網所有區域中心發布。模式履歷在ACC生成,以文件的形式向全線網所有區域中心發布。
災備系統能接收LC下達的系統參數,同時將參數下達到相關車站設備。對于系統參數應能實現以下功能:
1、正確接收、確認并保存ZLC所下達的系統參數;
2、將系統參數下載到相關車站設備。若與車站設備通信中斷,在恢復通信時能自動更新車站設備的系統參數;
3、災備系統每日能自動確認所保存的系統參數是否與車站設備一致,如不致將自動更新車站設備參數;
4、災備系統所保存的系統參數在設置的參數生效時間能進行自動生效;
5、操作員應可查詢或打印ZLC下載的系統參數。
7)設備管理
系統實現如下設備管理功能:
1、管理設備數據庫,該數據庫中包含系統中所有的設備信息,但 SC設備只能查看本站的設備信息,也不具有設備信息編輯功能。
2、提供數據訪問接口以供其他軟件包訪問設備信息。
3、監視設備數據庫的改變,當改變發生時,其通知相關設備信息敏感模塊。
4、接收來自ZL下發的系統初始設備信息及變更的設備信息。
8)日始處理
系統在每日運營開始時,自動執行運營開始處理程序。
系統具有手動配置日始處理任務的功能,當系統到達設置的日始程序運行時間后,將啟動日始程序。日始步驟如下
1、準備日始;
2、檢查參數版本,如果有新版本時需要下載;
3、下載黑名單文件;
4、下載模式履歷文件;
5、日終處理
系統在每日運營結東后,自動執行運營結束處理程序,處理當天買有數據及文件,并完成運行結束管理工作。
系統具有手動配置日終處理任務的功能,當系統到達設置的日終程序運行時間后,將啟動日終程序。運營結程序應至少包括:
1、交易、審計和事件文件流水號連續性檢查;
2、如果文件流水號不連續,索取設備文件;
3、備份交易數據;
4、對超過保存日期的數據進行清理。
6.結束語
車站在線容災備份系統通過最小成本實現了車站服務器故障時線路的穩定運營。
車站計算機故障時,技術人員進行確認后斷開車站服務器連接。災備系統提供配置界面,技術人員對災備系統進行配置修改后,接入AFC系統即可。
車站計算機故障修復,技術人員將備份系統斷開,原車站計算機繼續工作,可將災備系統在故障期間的交易恢復至車站計算及,對原系統不產生影響。
設備故障時,實現車站業務正常無縫無差別繼續運行,保證了對車站設備狀態的正常監控,數據正常接收解析,收益客流數據正常上報等,實現了SC服務器發生故障對業務和現場零影響的效果,災備系統對設備交易文件提供補傳機制,確保交易文件上傳,數據準確率不低于99.99%。
在以后新線建設中,各專業的服務均可借鑒本次改造的方案,實現在線容災備份,,即提高了服務器系統的可靠性,也復用了服務器資源,為公司節約新線建設成本,降低故障影響。
參考文獻:
[1]劉韞暉,宋茂強.基于消息同步的雙機熱備份系統[J].北京郵電大學學報,1998, 21(2)