姚益靜 中國鐵路上海局集團有限公司金華車務段
鐵路信息化建設(shè)過程中,幾乎都是采用傳統(tǒng)的物理服務器、PC的辦公模式.局內(nèi)各車務段的業(yè)務都大同小異,包括OA辦公系統(tǒng)、18點、smis、信息共享系統(tǒng)、超偏載軌道系統(tǒng)、確報收發(fā)調(diào)傳系統(tǒng)等,這些系統(tǒng)的物理服務器一般都部署在站段中心機房或者地區(qū)中心機房,業(yè)務終端則分散在車站各生產(chǎn)崗位,使得這些信息系統(tǒng)在其生命周期內(nèi)出現(xiàn)了諸如運維工作量大,數(shù)據(jù)安全無法保障等一系列問題,鐵路站段超融合云管平臺就是針對以上問題而設(shè)計的一款既能有效減少人力財力資源的浪費,符合節(jié)支降耗的要求,又可以大大提升數(shù)據(jù)安全性和管理高效性的一款系統(tǒng)平臺。
本文結(jié)合上海局集團有限公司金華車務段信息系統(tǒng)的實際情況,研究探討鐵路信息系統(tǒng)采用基于超融合基礎(chǔ)架構(gòu),利用虛擬化技術(shù)實現(xiàn)服務器虛擬化和業(yè)務終端桌面虛擬化的解決方案。
車務段目前共有5種應用系統(tǒng)(見表1):

表1 車務段目前使用的應用系統(tǒng)
另外還有OA服務器,以及部分備用服務器,這些系統(tǒng)采用的都是傳統(tǒng)的物理服務器的架構(gòu),基本上是一個應用對應一臺物理服務器,另有兩個自建的文件共享服務器。服務器都已使用超過3年,沒有備份容災措施,靠冷機備份的方式進行。
內(nèi)網(wǎng)桌面用戶有1 000多個(不包括客票系統(tǒng)用戶),分布在管內(nèi)49個車站的生產(chǎn)崗位,主要用于OA辦公、18點、TMIS及其他一些生產(chǎn)應用系統(tǒng),涉及操作系統(tǒng)有winxp(應用需求)、win7、win8及win10,部分為32位版本。常用軟件有Office、PDF、各類瀏覽器(Chrome、IE、Firefox等)、360天擎軟件和北信源。有多種型號的打印機,大部分為USB接口,也有部分并口打印機,還有高拍儀、STP勾傳設(shè)備、讀卡器、掃描儀和指紋識別設(shè)備。
由于現(xiàn)有應用系統(tǒng)都是采用獨立的物理服務器方式進行部署的,1 000多個辦公網(wǎng)終端分散在管內(nèi)49個車站的生產(chǎn)崗位,所以存在以下問題:
(1)服務器的利用率低。車務段機房內(nèi)運行的服務器利用率都非常低,由于一臺服務器只能有一個操作系統(tǒng),受系統(tǒng)和軟件開發(fā)平臺的限制,CPU、內(nèi)存、硬盤空間的資源利用率都很低,大量的系統(tǒng)資源被閑置。
(2)可管理性差。首先是可用性低,幾乎每個應用服務器都是單機,如果某臺服務器出現(xiàn)故障,相對應的業(yè)務也將中斷。其次是當硬件需要維護、升級或出現(xiàn)硬件故障時,相關(guān)的業(yè)務系統(tǒng)會出現(xiàn)較長時間的中斷,影響運輸生產(chǎn)。
(3)兼容性差,部署速度慢。鐵路內(nèi)部很多用于運輸生產(chǎn)的信息系統(tǒng)對高版本的軟硬件的適應性沒那么強,系統(tǒng)和應用遷移到新服務器,不能保證兼容,當有新的應用需要部署時,需要重新部署服務器、存儲系統(tǒng),快則3 h-4 h慢則半天甚至24 h。
(4)缺乏備份和冗災。應用基本沒有備份容災措施,靠冷機備份的方式進行。
(5)運維工作量巨大,效率低。車務段管轄滬昆線、衢寧線、金千線、衢九線、金溫線五條線,車站多范圍廣,重要生產(chǎn)崗位,比如TMIS業(yè)務終端,通常采用一主一備的模式來應對突發(fā)故障,可即便這樣,一旦發(fā)生故障還是有一種鞭長莫及的感覺。
平臺由超融合基礎(chǔ)設(shè)施和云管平臺兩部分組成,利用6臺物理服務器搭建超融合基礎(chǔ)架構(gòu),其中3臺建成企業(yè)級云平臺,采用服務器虛擬化技術(shù),借助遷移工具將原先運行在獨立物理服務器上的數(shù)據(jù)庫和應用無縫遷移至云平臺,可以通過CDP技術(shù)、數(shù)據(jù)多副本技術(shù)、虛擬機備份技術(shù)、網(wǎng)絡行為管理等多技術(shù)來保障數(shù)據(jù)的可靠性與完整性及數(shù)據(jù)的安全,滿足車務段主要業(yè)務系統(tǒng)的需求;另3臺物理機建成桌面云平臺,通過虛擬化技術(shù)將TMIS終端業(yè)務統(tǒng)一運行到后端的數(shù)據(jù)服務器上,實現(xiàn)運維的統(tǒng)一管理。
整體環(huán)境由6臺物理服務器、2臺千兆上聯(lián)交換機、2臺萬兆光交換機,兩臺DELL ME4012存儲設(shè)備,一臺千兆管理交換機組成(表2)。

表2 超融合云管平臺硬件組成功用表

圖1 超融合云管平臺拓撲圖
根據(jù)表一中的硬件配置采用三臺DELL R740服務器,一臺ME4012存儲,10 GB網(wǎng)絡交換機與aDesk平臺共用,來組成整個服務器虛擬化平臺,包括備份空間。此配置中,SSD與數(shù)據(jù)磁盤的配置大概在1:10左右,高于廠商的推薦配置。根據(jù)配置,整個平臺可以提供60C、384GB MEM和大概30TB左右的存儲空間,其中超融合部分存儲空間14TB用于虛擬機,ME4012的16TB空間用于備份。根據(jù)虛擬機資源類型的不同來測算,目前的配置完全能夠支持目前車務段對虛擬服務器的需求,表3是根據(jù)虛擬機配置,估算的支持虛擬服務器數(shù)量的統(tǒng)計表:

表3 支持虛擬服務器數(shù)量的統(tǒng)計表
云管平臺軟件采用aCMP:V6.0.10和aCloud:5.8.8_R1,如果遇內(nèi)存資源緊張,可按需增加物理服務器內(nèi)存,如遇CPU、磁盤資源緊張,可以通過增加物理服務器的方式,來提升平臺的整體運算能力。
虛擬桌面平臺利用計算虛擬化aSV、存儲虛擬化aSAN,將計算、存儲、網(wǎng)絡整合在一套桌面云環(huán)境中,使用瘦客戶機、PC等多種接入方式,只要綜合計算機網(wǎng)絡可達的情況下,用戶就可以通過各種類型的終端去訪問位于服務器上的個人桌面,讓數(shù)據(jù)保護更安全,桌面管理更高效。整個車務段有1 000多個終端PC,用于TMIS業(yè)務的終端50多個,此次只規(guī)劃了TMIS業(yè)務終端部分,以后如果需求增加,aDesk平臺可以很方便的進行橫向擴展,為今后整個車務段實現(xiàn)完全桌面虛擬化做好基礎(chǔ)。
桌面云平臺采用和企業(yè)級云平臺一樣的硬件配置,根據(jù)配置整個平臺可以提供60C、384GB MEM和大概30TB左右的存儲空間,其中超融合部分存儲空間14TB用于虛擬桌面,ME4012的16TB空間用于虛擬桌面?zhèn)€人數(shù)據(jù)的備份。根據(jù)虛擬桌面資源類型的不同,估算的支持虛擬桌面數(shù)量的統(tǒng)計如表4:

表4 估算的支持虛擬桌面數(shù)量的統(tǒng)計情況
同樣可以通過增加物理服務器內(nèi)存和增加物理服務器的方式來解決內(nèi)存、CPU、磁盤資源緊張的問題,提升平臺的整體運算能力。當前配置了60個VDI的許可,60C物理內(nèi)核的許可,可以滿足車務段TMIS業(yè)務終端虛擬化的需要。
(1)平臺建成初期,出現(xiàn)CDP自動備份不能進行下發(fā),所有授權(quán)全部掉線的問題,重啟acmp授權(quán)服務,發(fā)現(xiàn)不能識別到key或者key識別非常慢,因此懷疑為key識別問題,于是工程師現(xiàn)場進行key插拔,之后key映射正常,授權(quán)也全部正常,業(yè)務恢復,判斷主要為key識別故障導致。
(2)在進行虛擬存儲擴容時,出現(xiàn)服務器I/O繁忙度100%,在進行5.3.8升級至5.4.2版本時也出現(xiàn)I/O繁忙問題。最終導致虛擬存儲添加失敗、升級失敗等問題處理方法:針對讀寫IO較低磁盤,進行磁盤模式更換,從鏡像模式改為普通模式,此時再測試主機磁盤IO速率,結(jié)果正常,虛擬存儲添加失敗問題在集群內(nèi)主機全部分批重啟一遍后問題解決,升級失敗問題通過后臺升級解決。
。
(3)車站使用虛擬桌面操作TMIS終端業(yè)務的時候,STP勾傳功能串口服務器無法正常使用,但是在桌面云管理系統(tǒng)里的策略組→USB設(shè)備訪問控制里已經(jīng)添加了該設(shè)備的VID:PID,而且在Nport administrator里也可以搜索到該串口服務器,后來考慮到STP串口服務器設(shè)備在車站本地,而虛擬桌面服務器在車務段,嘗試將虛擬桌面IP地址加入到Nport administrator管理程序的Accessible IPS列表中,問題解決。
目前,該平臺已經(jīng)在金華車務段投入使用,通過該平臺提供的簡單的單一管理方法,大大提升了站段生產(chǎn)數(shù)據(jù)的安全性,提升站段IT運維的效率,提高管理水平,取得了良好的安全效益、管理效益和經(jīng)濟效益。該平臺適合應用于鐵路基層站段OA辦公系統(tǒng)、18點、TMIS等,能滿足大部分基層站段對信息系統(tǒng)建設(shè)的需求,具有在全路各站段推廣的前景。