王曉莉
(1.北京全路通信信號研究設計院集團有限公司,北京 100070;2.北京市高速鐵路運行控制系統工程技術研究中心,北京 100070)
鐵路信息系統是利用計算存儲設備、網絡通信設備、采集傳感設備對鐵路運輸生產過程中的各類數據進行分析、處理并產生各類管理信息或決策信息的人機系統。目前,鐵路信息系統已經成為支撐鐵路運輸生產的關鍵裝備,在運輸組織、客貨營銷、經營管理等領域發揮了重要作用。
隨著國內經濟的持續高速發展,人口流動、物資流通在總量及速度上不斷提升的需求對鐵路信息化建設提出了更高要求。高速鐵路、客運專線、城際干線的進一步發展意味著更多鐵路信息化基礎設施的投入;物聯網、智慧城市等理念的提出及落地將逐漸打破鐵路及周邊業務領域的邊界,鐵路信息系統將逐漸為越來越多的領域提供服務。在市場經濟快速發展、國家產業結構不斷優化調整的今天,如何以最小成本滿足鐵路及周邊領域日益增長的業務需求,成為一個亟待解決的課題。
傳統的鐵路信息系統解決方案為了滿足應用程序運行性能及隔離性需求,往往使完成某項特定任務的應用程序獨占一臺計算機資源,且計算機的配置還必須能應對應用程序在最壞情況下的工作負載。因此在日常的信息系統運行過程中,大部分計算機負載處于很低的狀態,導致硬件資源嚴重浪費。另一方面,傳統的鐵路信息系統解決方案往往缺乏對運行環境的統一管理及調度,從而需要更多的運維成本。如在計算機的硬件出現故障時,維護人員需要先人工診斷故障,再將數據手動遷移到空閑服務器;若需要調整應用運行環境的硬件規格,維護人員需要奔赴現場調整硬件設備。綜上,傳統的鐵路信息系統解決方案中硬件資源浪費、系統維護成本高等現象成為降低系統成本的障礙。
目前,一種逐漸成熟的IT技術——云計算技術已經在政務、金融、互聯網、通訊等領域得到了廣泛推廣及成功應用。云計算技術的載體——云平臺能自動管理計算、存儲、網絡等硬件資源,減少運維成本,同時向上層應用提供彈性的硬件資源服務,提升資源利用率,最終消除傳統鐵路信息系統解決方案所面臨的上述障礙。
本文對云平臺進行分析,初步探索云平臺在鐵路信息系統中的應用,并對應用中遇到的一些問題給出相應的解決方案及注意事項。
云平臺又稱云計算平臺,其核心思想是整合及統一管理大量計算、存儲、網絡資源,并將這些資源按可計量的方式提供給用戶。
云平臺根據部署方案來劃分主要有公有云、私有云及混合云3類。公有云是面向社會的,能連接到互聯網的設備均可訪問云平臺,其優點在于無需考慮服務器采購、架設、配置管理及相關配套設施的管理,用戶可快速上線應用程序,但由于數據處于第三方托管的公網,一些大型客戶或敏感行業客戶會有安全方面的顧慮。而私有云是基于客戶可控集群部署云平臺管理軟件的,因此數據私密性好、平臺可控程度高,所有數據可在內網環境高速安全地傳輸,可節省互聯網帶寬租用費,但初期的搭建成本相對公有云要高一些。混合云則是同時使用上述兩種云模式:數據私密性要求較高的業務使用私有云,而其他業務則使用公有云。由于鐵路數據信息直接關系到國家交通命脈,絕大部分應用不能運行于公有云環境,所以鐵路信息系統主要采用私有云方案。
相比傳統鐵路信息系統解決方案,云平臺有主要下列幾個方面的特點。
1)硬件資源的統一管理。云平臺管理系統可對服務器集群進行統一管理,并實時監控設備的運行狀態,運維人員只需打開管理界面便能全面了解設備運行及資源使用情況。
2)統一的虛擬化數據中心管理。采用虛擬化管理軟件將硬件資源劃分為多個虛擬機資源,并對虛擬機進行統一管理。通過虛擬化技術的資源復用,云平臺為所有虛擬機分配的資源可超過硬件資源的總和。虛擬機故障隔離技術保證虛擬機故障不會影響其他虛擬機的正常運行。虛擬機操作系統故障檢測會檢測操作系統常見故障,確保在出現故障后,系統能夠根據用戶預先設置的策略處理故障。
3)按需提供在線的彈性服務。虛擬機資源,包括CPU、內存、硬盤及網卡等,可根據客戶需求隨時進行擴展,且擴展過程中可不中斷應用。精準控制虛擬機資源的分配、預留及使用,滿足用戶需求。
4)自動化虛擬機調度。可根據預定義的策略在線自動遷移虛擬機,使物理服務器中資源分配更優。啟用HA功能后,當虛擬機所在主機故障時,系統將自動遷移該虛擬機至其他運行正常的主機上,以保證虛擬機的繼續運行。
5)廣泛采用主備機、多副本、快照等技術確保系統整體的可用性。云平臺管理節點采用了主備機模式,確保管理系統的可用性。云平臺提供的FT功能能自動控制主備虛擬機之間的切換,使應用程序實現零停機。云平臺可將所有磁盤管理起來并配置多個數據副本,確保任一磁盤在損壞或不可訪問時虛擬機數據不會丟失,最終保證數據的可用性。支持對虛擬機進行快照,當虛擬機損壞時,可以使用備份的快照快速恢復虛擬機。
綜合以上的特點,采用云平臺方案主要具有以下優勢。
1)節省硬件成本。通過云平臺的虛擬化技術及資源復用可大大節省硬件成本。
2)減少平均故障時間及運維成本。基于云平臺的資源管理、在線的彈性服務、自動化虛擬機調度及可用性保障技術,云平臺可自動、快速地進行故障檢測及處理,大大減少運維人員的工作量,使運維人員可同時維護更多集群,因此可在減少應用程序故障時間的同時降低運維成本。
3)虛擬機靈活可控。通過云平臺管理界面,運維人員不進入機房便可控制虛擬機各項行為,包括啟動、關閉及重啟,可根據業務量增長的需求隨時擴容虛擬機的硬件,可手動熱遷移虛擬機到其他主機等等。
然而使用云平臺也有一些注意事項。
1)若要搭建的信息系統比較簡單,運行時所占用的硬件資源較少,那么云平臺方案的成本可能比傳統方案更高。這是由于云平臺管理軟件本身也會占用一些硬件資源。若信息系統本身并不占用較多硬件資源,那么部署云平臺節省的硬件成本可能不及部署云平臺管理軟件的投入成本。此時,可根據業務需求及項目預算等因素權衡部署云平臺成本及云平臺所提供的功能特性及優點。另外,也可考慮與其它信息系統共用一個云平臺,從而分擔成本。
2)由傳統解決方案向云平臺方案過渡時存在的挑戰。傳統解決方案與云平臺方案理念相差較大,應用程序的研發人員由過去直接操作物理機變為操作虛擬機,雖然在平時使用虛擬機時感受不到差別,但初步使用時可能會存在一定的質疑及不信任。另外,需要對系統運維人員進行培訓,使其了解云平臺管理軟件的使用。
以下以某鐵路局級別的信息系統應用為例,闡述云平臺的部署方案、遇到的問題、相應解決方案或注意事項。
傳統的部署方案如圖1所示。在該方案中,每個站段均配備機房,負責該站段業務的處理。機房里每臺物理服務器只負責一項專門的業務,資源利用率不高。此外,各站段之間難以及時共享業務數據。
基于云平臺的方案如圖2所示。該方案在路局中心集中建設中心云平臺。中心云平臺是業務運行核心平臺,各站段的業務系統統一運行在該云平臺上。在各站段配備一個保證本地業務運行的最小規模的“后備云”,其與中心云平臺存在資源映射關系。一旦中心云平臺或中心至站段冗余通道出現不可逆災難時便根據預設的應急計劃啟動后備系統,恢復站段業務運行環境。

各站段的業務系統在中心云平臺上可隔離運行,不同站段的業務雖然運行在同一個物理平臺,但互不干擾。
云平臺方案使每個站段硬件成本(含云管理系統)平均下降27%;實現了以路局為中心的統一計算及存儲平臺,打破了數據壁壘,達到數據共享、資源整合的目的;運維人員主要在中心云平臺進行操作,可減少差旅,方便運維。該方案還能滿足后續可擴展性需求,在升級硬件及添加虛擬機過程中不需要中斷現有業務或重新配置現有業務環境。
在應用云平臺的過程中,需要解決的問題主要有網絡安全的適配及隔離,另外在平臺高可用性保障方面有一些注意事項。
3.2.1 網絡安全
在傳統架構方案下,鐵路信息系統可以依靠多防火墻組合來對各種異構網絡進行很好的信息過濾與網絡隔離,而在云平臺架構下,多系統多異構網絡運行于相同的物理設備上,如何保證云平臺架構下鐵路信息系統的網絡安全是一個重要問題。
首先從網絡層面上對各平面進行隔離。云平臺的網絡通信平面劃分為業務平面、存儲平面和管理平面,且3個平面之間是隔離的。業務平面為鐵路信息系統提供業務通道,是虛擬機虛擬網卡的通信平面,對外提供業務應用。存儲平面為存儲設備提供通信平面,并為虛擬機提供存儲資源,但不直接與虛擬機通信,而是通過虛擬化平臺轉化。管理平面負責整個云計算系統的管理、業務部署、系統加載等流量的通信。
然后還可通過配置虛擬網橋實現虛擬交換功能,可進一步隔離業務平面的虛擬機,同時保證處于同一VLAN的虛擬機之間可通信。使用虛擬網橋需要在云平臺管理界面進行配置,包括配置虛擬機虛擬網卡的VLAN標識,這樣網絡中的交換機和路由器可以根據VLAN標識決定對數據幀路由和轉發,提供虛擬網絡的隔離功能。
可創建安全組,每個安全組可以設定一組訪問規則。在創建虛擬機時為該虛擬機選定要加入的安全組,而后該虛擬機便受到該訪問規則組的保護。同一個安全組中的虛擬機可能分布在多個物理位置分散的物理機上,一個安全組內的虛擬機之間是可以相互通信,而不同的安全組之間的虛擬機默認是不允許進行通信的,除非被配置為允許通信。
此外,還可以通過綁定IP及MAC、配置虛擬防火墻等保證虛擬機的網絡安全。
3.2.2 平臺高可用性
傳統架構方案下,鐵路信息系統一般通過雙機主備冗余或雙機故障轉移集群配以雙網的冗余來實現高可用性。在云平臺架構下,為各服務提供資源的容器變成了虛擬機。雖然云平臺提供了諸多保障可用性的特性,但使用時仍有一些注意事項,否則當服務器或虛擬機出現故障后,云平臺并不能像預期那樣對虛擬機進行快速的故障恢復。
云平臺能提供HA功能:當物理服務器故障時,系統將自動遷移服務器上的虛擬機至其他運行正常的服務器上,以保證虛擬機的繼續運行。然而,必須保證正常運行的服務器可用資源之和大于要遷移的虛擬機資源占用之和,否則將由于資源不足導致部分虛擬機遷移失敗,從而不能使這部分虛擬機從故障中恢復。在硬件資源不是很寬裕的集群中,盡量確保各個服務器分配給虛擬機的資源均勻。
HA功能主要是為了在無人值守時出現服務器不可用或虛擬機藍屏等現象時提供一種自動化的快速恢復策略,恢復過程中仍會有短暫的不可用時間(除非配置了主備冗余)。而對于可預見的人為因素直接導致服務器不可用的情況,可以事先執行操作避免業務中斷。例如運維人員在更換或升級物理服務器硬件時,不應期盼通過HA功能自動恢復虛擬機而直接下電服務器,而是應先遷移該服務器上的虛擬機至其他服務器,然后設置服務器進入維護模式,最后才下電進行硬件操作。
云平臺已經在政務、金融、互聯網、通訊等領域得到推廣及應用,取得了良好的經濟效益,但在鐵路信息系統中的實際應用還比較有限,目前的相關工作主要以探索和試驗為主。隨著云平臺在鐵路信息系統中應用的逐步深入,其技術可行性和先進性會逐步得到驗證,鐵路運輸生產將從云平臺中受益更多。