陳春華,李軍,梁奐
(1.中國電信股份有限公司廣州研究院,廣東 廣州 510630;2.中國電信股份有限公司,北京 100033)
電信運營商現有IT架構主要采用以IBM、Oracle、EMC為代表的小型機、集中式關系型數據庫和高端存儲的IOE架構進行構建,其架構主要特點是穩定、可靠和數據的一致性好。但隨著業務量的快速增長,帶來的大數據量、高并發使原有基于IOE架構的應用日益成為瓶頸,其擴展靈活性差,對大型IT廠商依賴和成本過高的矛盾突出。為了應對新的挑戰,電信運營商啟動對現有IT架構的變革,主要體現在以下2個方面:
(1)現有系統進行去IOE的實踐,以提高基礎設施共享水平及應用系統彈性,降低IT總體擁有成本:即對于B/S的Web服務器和應用服務器向X86服務器遷移;同時推進非核心系統的數據庫向X86服務器遷移,并優先選擇虛擬機部署,盡可能保障故障快速恢復;對于大型核心系統的數據庫服務器暫保留IOE架構,將歷史訂單、歷史客戶資料、歷史話單、計費清單等只讀數據剝離到云計算環境,降低核心數據庫處理壓力等;數據分析類應用全面基于Hadoop等分布式技術進行構建。
(2)構建新的“集中、開放和云化的IT架構”,基于互聯網化思維,以平臺化、服務化、組件化的方式構建IT架構,平臺與硬件解耦,硬件與軟件解耦,基礎設施云化,對內實現按角色提供個性化應用和數據,對外通過服務組裝快速支撐價值鏈合作。
為適應上述轉變,首先需要在IT基礎設施層面進行整合、建設形成統一的資源池,既滿足Web和應用服務器云化遷移到X86服務器(包括物理機和虛擬機)的需求,又滿足核心數據庫的小型機需求,同時還要滿足分布式計算架構的需求,這樣資源池就形成多種計算能力混合的資源池(包括X86虛擬機資源池、X86物理機資源池、UNIX小型機資源池)。其典型混合架構的云資源池架構如圖1所示。
如何構建合理的資源池來滿足上述不同特征系統的不同計算能力需求,是運營商IT部門面臨的一項重要挑戰。云資源池主要包括計算資源、存儲資源和網絡資源,總體部署策略應體系化、集約化和自動化,以降低資源池部署與運營成本,保障資源池的安全。
根據計算功能和資源提供方式不同,可將計算資源分為3類,即虛擬計算資源池、物理計算資源池(包括X86和UNIX物理資源池)和分布式計算資源池。在資源分配過程中,可根據承載業務類型和需求不同,又將資源池劃分為不同的區域,如內網生產區、公網DMZ(Demilitarized Zone,隔離區)區和開發測試區等。不同資源分類、區域劃分主要是為了滿足不同應用的計算需求,并在保障安全的前提下降低計算資源部署成本。
(1)虛擬計算資源池:基于X86服務器部署主流虛擬化技術,以虛擬機方式提供計算能力,并以集群方式部署,按集群擴展。由于目前不同虛擬化技術資源無法共享,需分別部署在不同集群,建議同一資源池中盡量采用相同的虛擬化技術和CPU架構,以保持良好的資源調度能力,主要適用于各系統Web服務器、APP服務器、接口服務器等。
(2)X86物理計算資源:基于X86服務器直接以物理整機方式提供計算能力,主要滿足部分資源要求較高的數據庫和大型應用模塊部署需求。
(3)小型機物理計算資源:基于UNIX小型機直接以整機方式或者以分區的方式提供計算能力,主要滿足核心系統的數據庫部署需求。

圖1 混合架構的云資源池
(4)分布式計算資源:基于X86服務器集群部署分布式計算技術,主要滿足大規模數據存儲與處理需求,按集群部署和擴展。
另外,由于各類計算資源服務對象和資源形態的不同,資源間不能共享,需要統籌考慮資源的部署布局,按照功能又可分為以下3類,不同類型的區域需要按其特性進行計算能力的部署:
(1)生產區:生產類的系統資源穩定、可靠、安全性要求較高,可配置穩定性、可靠性、性能較高的虛擬計算和物理計算資源,以虛擬計算資源為主。針對大數據分析類應用,根據分布式計算特點,可配置中低端定制化X86物理服務器,部分場景(對性能要求不高)可配置虛擬計算資源。對于核心系統的數據庫,可沿用現有高可靠的小型機計算資源。
(2)開發測試類區:由于用于開發測試的資源配置、環境等調整較頻繁,穩定性和性能要求不高,為滿足各類系統的測試需要,可同時配置虛擬計算、物理計算和分布式計算3類資源,以虛擬計算資源為主,可配置中低端物理計算資源及分布式計算資源。
(3)DMZ區:以提供對外訪問的Web和應用平臺為主,應以虛擬計算資源為主。
存儲資源分為集中式存儲和分布式存儲。其中,集中式存儲是資源池存儲的主要提供方式,主要通過硬件保障性能和可靠性,主流技術包括FC-SAN、IPSAN、NAS(Network Attached Storage,網絡附加存儲)等,但部署成本較高、擴容不靈活;分布式存儲是可基于X86服務器部署的新興存儲技術,主要通過軟件保障性能和可靠性,主流技術包括分布式對象存儲、分布式塊存儲、分布式文件存儲等,具備低成本、靈活擴容、高并發訪問等優勢。應根據不同存儲需求提供分級存儲手段,以降低存儲資源部署成本。
由于混合的資源池規模、存儲量都較大,承載不同特征的應用類型較多,所以應根據不同業務特性和存儲需求(如高I/O存儲、高容量冷溫數據存儲、大數據存儲、備份和歸檔存儲等),配置不同的存儲(集中式、分布式的不同存儲技術選擇),實現分級存儲,差異化利用資源,從而降低成本以及提升資源利用率。
由于集中式存儲存在多種不同技術架構(如FCSAN和IP-SAN),難以實現資源共享,需相對獨立部署,但同一技術架構產品可通過存儲虛擬化技術實現資源整合共享;分布式存儲本質上可實現底層硬件資源共享,通過軟件方式提供差異化存儲能力和接口,但其中分布式塊存儲對I/O要求較高,需要特殊考慮硬件配置,如配置SSD(Solid State Disk,固態硬盤)、萬兆卡等。
資源池網絡主要包括節點內網絡、節點間網絡和對外訪問網絡3部分。
(1)節點內網絡主要承載業務流量、存儲流量以及虛機間流量,應實現流量之間的隔離,節點內網絡架構盡量扁平化。
(2)節點間網絡應充分考慮多個資源池節點間的雙活、異地容災、跨節點虛機遷移等需求,規模不大的資源池可選擇星形網絡結構,后續隨著資源池規模不斷擴大和二層廣域互聯技術基本成熟,資源池網絡可向環形結構調整。
(3)對外訪問網絡主要考慮防火墻、負載均衡方案設計。
建設資源池運營管理能力,是資源池運營管理的重要技術手段。對資源池的運營管理功能一般包括采集與控制域、監視管理域、資源調度域以及服務門戶等關鍵功能,具體如圖2所示。
其中,最基礎、最關鍵的能力就是要建立接口適配層,屏蔽不同類型的資源池的接口差異,能通過統一的接口適配來接入不同的計算資源池的資源。
與不同計算資源互聯適配的方式主要如下:
(1)小型機、X86物理機適配方式:一般通過第三方管理軟件、SNMP(Simple Network Management Protocol,簡單網絡管理協議)采集方式、安裝Agent代理采集方式、自定義采集腳本方式來收集小型機的配置信息、采集性能數據和告警信息。

圖2 混合架構的云資源池管理能力
(2)虛擬機接口適配方式:根據虛擬化軟件提供的接口可以有2種適配方式。第1種是與虛擬化廠商管理軟件提供的接口進行互聯(如圖2中的管理接口2),即通過如VMware的vCenter、Xen的XenServer提供的開放API(Application Programming Interface,應用程序編程接口)來進行基本配置信息、性能數據和告警數據的收集;第2種是通過與虛擬化廠商Hypervisor提供的接口進行互聯(如圖2中的管理接口1)。由于第1種接口在穩定性、全面性、開放性和后向兼容性方面都優于第2種,所以盡可能優先采用第1種。但對于虛擬化軟件提供接口不夠豐富、不能滿足運維要求的(如KVM),可能根據管理需要還要自行開發Agent部署到虛機上(與管理物理機方式類似)。
資源池運營管理的另一個重要方面就是采集各類資源的關鍵性能指標,通過不斷地優化性能閾值設置,及時發現異常或潛在的風險,便于運維人員及時進行處理。
UNIX小型機、X86物理機資源的性能指標都有一些共性,主要關注CPU、內存和I/O等主要性能數據,這方面的技術比較成熟,其性能數據也是主要通過與第三方管理平臺或者自行部署Agent的方式進行性能數據的采集。
但虛擬機有一些特殊的性能指標需要特別注意。由于虛擬機的性能與宿主機(物理機)有關聯,因此不能單純從虛擬機的性能指標來判斷其性能,需要與宿主機的性能指標進行關聯分析。其中需要特別關注的性能指標如下:
(1)虛擬機的CPU就緒時間:是指虛機準備就緒、但無法安排在物理CPU上運行的時間所占的百分比,取決于宿主機上的虛擬機數量及CPU負載。即若宿主機上虛機較多且虛機CPU超額分配,會導致虛機在申請CPU資源時產生額外開銷;若宿主機CPU過載,會導致虛機申請不到足夠的CPU資源。
虛擬機CPU是否不足的判斷:若宿主機CPU未過載,可根據虛機CPU使用情況判斷虛機CPU是否分配不足,如CPU就緒時間占比過高,可適當減少虛機CPU分配或遷移部分虛機來減少CPU就緒時間;若宿主機CPU過載,會導致虛機得不到足夠的CPU,虛機CPU就緒時間增大,應及時優化最耗CPU的虛機或遷移虛機至負載較輕的宿主機。
(2)氣泡內存和內存換入/換出速率:以VMware為例,氣泡內存是指VMkernel從虛機回收的內存,回收的內存會以文件的形式存放在數據存儲上,擴展名為vswp。內存換入速率是指內存交換到虛機中的平均速率;內存換出速率是指內存從虛機中交換出的平均速率。
虛擬機內存是否充足的判斷:不能僅從虛機CPU使用率來單純判斷,此項指標只能作為虛機內存繁忙程度的依據,還需要另外采集虛機操作系統內存使用情況關系,即虛機操作系統內存使用率和交換區使用率這2項指標。若氣泡內存較多且內存換入/換出速率較高,則說明虛機內存不足,應及時考慮遷移虛擬機或擴容宿主機。
通過合理構建部署混合的IT云資源池,可以適應不同特征的應用需要;構建中應加強對資源池的運營管理能力建設,實現對資源池進行統一的管理;在運營過程中要關注虛擬化資源池的特殊性能指標的關聯,及時發現運營過程潛在的風險,優化資源配置,提升資源池運營能力。
[1]陳春華,梁奐,李軍. 云資源池環境下的IT服務管理系統優化及實施策略[J]. 移動通信, 2013(16): 83-87.
[2]陳春華,李軍,梁奐,等. 資源池環境下的IT服務管理實施策略[J]. 電信科學, 2012(9): 142-147.
[3]陳春華,梁奐. 全業務電信運營商的IT服務管理實踐探討[J]. 電信科學, 2011(3): 118-125.
[4]秦潤鋒,樊勇兵,唐宏,等. 電信運營商開放式IaaS云平臺研究[J]. 電信科學, 2013(10): 5-9.
[5]楊經緯,胡林,李金嶺,等. 支撐電信運營商集約管理的云計算平臺研究探索與實踐[J]. 電信科學, 2013(8): 136-145.
[6]燕杰,樊勇兵,金華敏,等. 電信運營商的云計算資源池部署方法概述[J]. 電信科學, 2011(10): 13-19.
[7]韋赟. 淺析云計算及其在電信運營商中的應用[J]. 廣西通信技術, 2014(3): 18-23.
[8]Peter Brooks. IT服務管理指標[M]. 豐祖軍,譯. 北京: 清華大學出版社, 2008.
[9]Theo Thiadens. IT管理的知識體系[M]. 李東,牛芳,譯. 北京: 清華大學出版社, 2007.
[10]Jan van Bon. 基于ITIL的全球最佳實踐[M]. 章斌,譯.北京: 清華大學出版社, 2006.