文/黃保青 羅萱 金耀輝

數據中心是承載信息應用系統的主要設施,是數字化校園的重要組成部分。近年來隨著云計算的興起,數據中心相關的新技術不斷涌現,深刻改變著數據中心的建設理念。
上海交通大學數據中心在閔行校區建有主機房,在徐匯校區建有容災機房,主、備機房距離超過30千米,通過校園網絡實現萬兆互連,現階段部署了120余臺服務器,近一半的服務器采用虛擬化技術,2013年底將擴容到240臺。
我們在數據中心建設時,主要面臨以下挑戰:
1. 如何最大限度地保護已有投資,并且積極引入新技術;
2. 網絡安全的挑戰,傳統互聯網數據中心一般采用出口防火墻控制,對校務、財務、人事和科研等核心系統的保護顯然不夠;
3. 虛擬化支持的挑戰,為了適應虛擬化遷移的需求,數據中心網絡架構向大二層過渡,生成樹協議支持冗余拓撲的效率較差;
4. 數據與存儲網絡融合,隨著以太網的普及,FCoE技術日益成熟,數據中心應該如何支持FC、FCoE、iSCSI和NAS等多種存儲協議,存儲系統又應該如何適應虛擬化的要求;
5. 如何實現跨校園網的多數據中心互聯,實現備份容災;
6. 如何建設校園云計算環境,采用開源還是商業方案;
7. 校園信息系統逐步向云計算遷移,但并不是所有的應用都適合遷移到云計算環境中,運維管理需要如何適應傳統應用和云計算應用的共存情況。
針對以上問題,我們從網絡架構、虛擬化應用、容災系統、多租戶實現、運維和安全監控、云計算環境等幾個方面闡述我校數據中心建設方案。
上海交通大學數據中心主、備機房網絡架構如圖1所示。
1. 服務器分區,提高安全性
閔行主機房的網絡水平分割為WEB、應用、數據和云服務4個服務器區。考慮到學校云計算環境會采用很多新的技術,對安全性與穩定性的要求與生產系統有區別,因此單獨設置了一個云服務器區。4個區均配置匯聚交換機,運行三層路由協議,與數據中心核心交換機通過多條萬兆以太網鏈路互連。數據中心核心交換機通過2條冗余的萬兆以太網鏈路接入校園網。在此架構下,每個服務器區的安全級別和策略可以不同,但每個區匯聚層基本上都是同類型相似的安全策略,容易設置和排錯。服務器區內部是大二層架構,可以支持虛擬機的在線遷移。
徐匯災備機房交換機數量遠少于閔行機房,借助VRF技術在邏輯上仍然保持了WEB、應用和數據3個服務器分區的架構。
2. 交換機虛擬化,減輕對STP協議的依賴

圖1 數據中心主、備機房網絡架構
核心交換機使用了2臺H3C 10508V交換機,2臺交換機通過IRF2(Intelligent Resilient Framework智能彈性架構)在二層和三層上均虛擬成一臺交換機,極大方便了交換機的管理。匯聚交換機使用了Cisco Nexus 5500系列交換機,2個一組,在接入端啟用vPC(Virtual Port Channel)實現跨交換機的鏈路聚合,配置VRRP實現默認網關的冗余。接入交換機使用了Nexus 2000Fabric Extender和第三方的接入交換機,第三方接入交換機通過鏈路聚合雙上行接入Nexus 5500交換機組。服務器也是雙鏈路上行,萬兆端口可直接接入Nexus 5500,千兆端口則接入Nexus 2000和千兆接入交換機。這是一個無環的網絡架構,能充分利用所有上行鏈路,STP協議仍然啟用,但只會在異常情況才會發揮作用。
3. 數據與存儲網絡融合
近年來,IP存儲的性能和穩定性逐步被認可,隨著萬兆以太網端口價格的不斷下降,IP存儲與光纖存儲在帶寬上的差距也基本解決。新興的FCoE能實現傳統FC存儲網絡向FCoE存儲網絡平穩過渡,EMC、NetApp、Dell等存儲廠商均正式推出支持FCoE的SAN存儲系統,多家廠商也推出了支持Windows、Linux、VMware vSphere ESXi的CNA網卡。有鑒于此,我校在建設新的數據中心網絡時決定走數據與存儲網絡融合之路。數據服務器區的Cisco Nexus 5500啟用FCoE功能,部分接口配置8G FC SFP模塊, SAN存儲系統選擇了支持FCoE的NetApp FAS系列存儲系統。NetApp FAS和服務器的萬兆網卡接入Nexus交換機的萬兆接口,在同一萬兆端口上可以同時支持FCoE、iSCSI和NAS協議,原有配置FC網卡的存儲設備和服務器接入到Cisco Nexus 5500的FC接口上,與FCoE網絡融合。NetApp FAS的FC接口接入現有的FC交換機,為原有的FC SAN提供存儲空間。考慮到各廠商的FC交換機有極強的排他性,我們沒有將原有的FC交換機與Nexus 5500互連。隨著時間的推移,FC SAN設備將自然淘汰,數據中心將過渡到純FCoE存儲。位于WEB和應用服務器區的服務器主要通過IP協議訪問數據服務器區的存儲。
融合網絡極大減少了服務器物理接口的數量,減少了數據中心的設備數量。預計未來2年內,我校數據中心一半以上的服務器會配置萬兆融合接口。
4. 通過VPLS實現主備中心二層互通
我校的校園網絡通過MPLS和VPLS實現多業務承載,數據中心借助校園網的這一特點,通過VPLS實現了閔行主中心和徐匯災備中心的二層互通。校園網VPLS網絡上的低延時能支持VMware的vMotion,支持存儲的異地復制,支持主備中心的雙活。因此,主備中心可以同時對外服務,極大提高了設備的可用性。
2004年我校在Sun的小型機上開始應用Solaris 10的zone虛擬化技術,在保障安全的基礎上極大提高了小型機的利用率,之后就開始有意識地將虛擬化技術引入數據中心,是國內較早應用服務器虛擬化技術的學校。目前的生產系統主要應用了VMware、KVM和OpenVZ這三類虛擬機。KVM和OpenVZ都是Linux平臺上開源的虛擬化技術,其中OpenVZ是一種操作系統級別的虛擬化技術,雖然只支持Linux虛擬機,但OpenVZ虛擬機的性能接近物理機,備份、管理和安全控制比其它虛擬技術更方便。我校的DNS、OpenLDAP、Postfix、IBM Websphere等Linux平臺上的應用都長期穩定地運行在OpenVZ虛擬機中。
目前,除了數據庫和一些富媒體應用外,數據中心的絕大部分應用都運行在虛擬機中,可以方便地向云計算演進。
數據備份通過Symantec的Veritas NetBackup完成,以磁盤備份為主,需要歸檔的數據再轉存到磁帶上。VMware虛擬機通過EMC Avmar Virtual Edition備份,Avmar支持源端重復數據刪除,極大提高了虛擬機的備份和恢復速度,減少了備份空間的占用。
根據學校的應用特點,我們主要為關鍵應用實現應用災備,采用了以下方法:
1. 通過SQL Server的Mirror功能實現SQL Server的異地災備,在出現問題時可以迅速切換到鏡像數據庫。
2. 對于Oracle數據庫,曾經測試過Oracle的GoldenGate,但GoldenGate對數據庫結構有一定需求,不能解決已有Oracle數據庫的異地災備,因此擬通過NetApp存儲系統的SnapMirror實現Oracle數據庫的容災。
3. 郵件系統和關鍵應用的虛擬機映像文件通過NetApp的SnapMirror通過IP網絡鏡像到徐匯備用中心,可根據需要迅速啟用。
4. 關鍵應用的WEB端和應用端在徐匯備份中心建有備份,并加入負載均衡中。
設備集中、數據集中和應用集中是IT建設的大趨勢,為適應這一趨勢,數據中心必須支持多租戶,在虛擬化和云計算環境下,通過物理設備實現用戶隔離的方法已無法實現,為此我校數據中心采用如下措施實現多租戶功能:
1. 在網絡設備層面,通過VRF實現租戶間的網絡隔離。在采購三層交換機、防火墻和負載均衡設備時,要求這些設備都支持VRF或虛擬化功能,通過VRF,可以在相同的網絡設備上虛擬出多個彼此隔離的網絡。
2. 在SAN存儲系統上,我們啟用NetApp Multistore功能, 為不同租戶建立不同的vFiler,每個vFiler是一個邏輯控制器,可以配置自己的路由表,建立自己存儲資源,實現IP存儲的訪問隔離。NetApp的存儲系統升級到DataOntap 8.1Cluster模式后,通過Vserver可以實現FC/FCoE存儲資源的虛擬化,能實現FC/FCoE存儲訪問的隔離。
目前學校的互聯網基礎服務、管理信息系統、財務系統、一卡通系統均運行在數據中心統一的硬件平臺上,但應用之間實現了安全隔離。
高校數據中心的應用復雜多樣,商業化的運維管理系統沒有達到理想的性價比,因此我們的運維監控系統選擇了開源Zabbix,在Zabbix的基礎上定制而成。目前可以支持服務器、虛擬機、交換機、部分存儲系統和各類應用系統的集中監測和報警,以圖形化方式展示設備和應用的當前狀態和歷史數據。Zabbix支持agent,可方便定制自己的監控程序,比較適合我校數據中心多樣的服務器和應用的監控。在數據中心的安全監測建設方面,針對WEB應用,我們在數據中心出口監控所有HTTP 80端口對內、對外的訪問,在追蹤和發現數據中心內部WEB應用的安全漏洞上發揮了巨大作用。運維管理和安全建設是我校數據中心建設相對薄弱的環節,還有很多工作有待完善。
虛擬化技術讓IT資源的分配變得更靈活、更加可靠、更加容易擴展和升級。在虛擬化技術的基礎上,云計算提供了一種全新的服務交付模式,允許用戶以服務的方式從服務提供商那里獲得應用程序、開發環境、硬件平臺、虛擬物理服務器等資源,按需使用,按需付費。云計算可以幫助數據中心實現資源整合,工作負載自動管理,管理流程自動化,按需應用交付。
在云計算建設上,我們不排斥商業化的軟件,但更看重開源的云平臺,主要基于以下原因:
1. 降低成本。現有商業云計算軟件的使用許可費用偏高,而大部分開源云計算軟件可以免費使用,即使考慮到初期開發和維護的人力投入,仍然可以有效降低建設成本。
2. 選擇自由。可以不被某一企業的專有產品鎖定,且可以根據自己的需求靈活開發新的功能。
3. 有較好成熟度。不少開源云計算軟件經過幾年的發展,已經逐漸成熟穩定,國外很多公司、學校和科研機構已經開始應用在生產環境中。
4. 是很好的教研工具。開源軟件對于學校來說是“工具”,是現成的教科書,也是最好的試金石。
上海交通大學云平臺建設從以下三個方面入手:
1. IaaS平臺建設
IaaS平臺我們采用OpenStack搭建,可以提供類似Amazon的EC2、S3、EBS和VPC等服務。OpenStack是一個由社區開發推動的開源云計算項目,用于建設和管理公有/私有云,具有良好的可擴展性。
OpenStack目前擁有6個核心項目:
(1) 對象存儲服務(Swift):提供高可用、分布式、最終一致的對象存儲服務,使得用戶可以高效、安全且廉價的存儲/獲取數據。
(2) 鏡像服務(Glance):提供虛擬機鏡像的發現、注冊和獲取等服務。這些鏡像主要用于計算服務。
(3) 計算服務(Nova):按需為用戶提供虛擬機。通過內部的nova-volume模塊,它也能提供類似于Amazon EBS的塊存儲服務。
(4) 身份認證服務(Keystone):提供身份認證(Identity)、令牌(Token)、目錄(Catalog)和策略(Policy)服務。
(5) 儀表盤服務(Horizon):為所有的OpenStack項目提供基于WEB的訪問接口。
(6) 網絡連接服務(Quantum):在設備接口(如虛擬機網卡)之間提供網絡連接服務。
我們基于上述6個項目搭建了IaaS測試平臺,包括40多臺服務器,100TB iSCSI存儲,400TB對象存儲,設備之間通過全萬兆以太網互聯。考慮到實際應用中可能會存在熱點鏡像,我們還額外配置一塊320G的SSD卡,可以加快鏡像的部署,有效降低虛擬機供給時間。為了兼容現有的網絡設備,不同租戶之間的虛擬網絡采用VLAN隔離。
為了能對IaaS平臺中的物理機/虛擬機/網絡等進行統一監控,我們基于sFlow開發部署了一套監控系統,能夠實時采集系統的健康狀態和用戶的資源使用情況,并實現了用戶自助監控和計費管理。用戶不需要額外安裝監控工具就可以在統一的Web界面中對自己所申請的虛擬機/存儲/網絡的狀態進行監控。
經過近半年的測試,我們認為現有的測試平臺基本能夠滿足運營需求,計劃新增40臺服務器,完成OpenStack生產環境部署,為全校提供云主機服務。
2. PaaS平臺建設
我們與VMware密切協作,已完成開源的Cloud Foundry平臺的測試性部署,即將為學校提供PaaS服務。
Cloud Foundry是由VMware主導推動的開源PaaS平臺,可以有效簡化應用的部署、運行和擴展。Cloud Foundry最大的特性是可以在multi-cloud上構建,可以在私有云和共有云環境中工作。Cloud Foundry的底層平臺可以是vSphere、OpenStack、Amazon或Eucalyptus等,能夠支持大量不同的應用程序框架和開發工具,并支持多種開發語言,用戶不會束縛于某一種編程語言或模型。此外,Cloud Foundry還集成了多種服務,包括數據庫、Messaging、自動伸縮等。
3. 云存儲平臺建設
2012年3月,我校推出了個人云存儲服務jCube,為教師提供20G,為學生提供10G的存儲空間,通過jCube用戶可以實現多臺PC間的文件同步與分享,通過智能手機訪問云存儲空間。jCube的后臺存儲服務基于夠快公司的云存儲技術,可以按需動態擴容,公司提供開發接口,我們可以根據需要實現定制開發。
我校數據中心建設正在從單純的硬件系統建設向平臺建設轉化,從單純支持校園信息系統向支持學生創新和教師科研轉化,在這個過程中我們面臨了技術和運維上的諸多挑戰,我們的思路是積極嘗試、開放兼容、適度創新,很多問題將在今后的運維過程中逐步暴露,有待于進一步的解決與完善。