郭 濤,于 瀛,欒美生,祖宏權
(1 哈爾濱工業大學 網絡與信息中心,哈爾濱 150001;2 哈爾濱工業大學 圖書館,哈爾濱 150001)
隨著教育信息化的逐步深入,信息系統已經成為校園建設的重要基礎設施,數字化校園的基礎建設愈發重要,其全局性地位日益增強,對業務系統的穩定性、可靠性要求也越來越高[1]。因此必須強化信息化校園運維的管理和技術手段的建設,在重視校園網及網內業務系統運維管理的同時,對校園網的運行服務、保障平臺進行徹底的改進和完善,重構部分關鍵設備的納管流程,形成校內統一的運維管理平臺,使之能適應不斷增長變化的校園業務的需要[2-3]。快捷地幫助學校客服人員與技術人員處理業務,提高用戶故障的處理效率和服務的滿意度。
校園網絡運行監控和服務保障體系已成為學校的核心業務流程。建設健全校園網監控,完善服務規范,建立智能化的咨詢服務內部管理平臺,從而能夠隨時隨地為用戶提供不間斷的保障服務。建設網絡、服務器和應用的綜合監控管理平臺,利用相關技術和工具,逐步實現精細化、可視化和集約化管理。建設統一的運維管理體系可以對校園內網絡、設備、數據庫、中間件及應用系統等資源進行全面監控,有利于各部門對其負責的資源進行管理[4]。可以對日常運行維護工作提供高效的管理框架,建立更好的部門間溝通平臺。資源納管的建設將大大簡化運維流程、提高運維效率,同時可使得面向全校各級部門的信息化服務質量和服務水平實現大幅度提升。綜上所述,為學校當前亟需統一的運維管理體系平臺,運維平臺資源納管系統提供規范化、透明化、智能化、互動化服務能力[5]。
目前網絡中心運維工作枯燥繁瑣,雖然運維人員工作十分忙碌,但教職工經常抱怨“找不到人”、“解決問題太慢”等。另外缺少運維監控管理平臺,運維人員每天的工作量難以得到體現和量化,很難體現運維人員工作的價值和意義。
由于缺乏網絡資源管理平臺,應用系統一旦無法使用,運維人員首先要做的工作就是對問題進行定位和排查。但是應用系統故障往往不僅僅單是數據中心的問題,還有很多時候,涉及到了網絡和應用系統本身故障,因此故障及問題定位非常考驗運維人員的經驗和技術水平。而在問題解決的過程中,如果應用涉及到多個系統,不同的運維人員相互之間推卸責任的情況不在少數。即使多個運維人員一起解決問題,不同人員的溝通效率低下,問題的描述不清和分工委派復雜的難題依然存在。
現存網絡運維管理平臺自動智能化程度不夠,通過對新華三技術股份有限公司、銳捷股份有限公司以及北京廣通新達軟件有限公司等調研了解,目前,各公司實現的網絡運維管理平臺自動智能化程度均存在一定程度的不足,例如,現有功能無法實現交換機更換后的一鍵式配置信息恢復;現有功能無法實現故障和故障解決方案的自動關聯聯動等等[6-7]。
資源管理平臺設計旨在為網絡運維人員實時提供各種設備運行狀況,分析報表以及便捷的設備管理。能夠對主流廠商的網絡、系統、主機、存儲、應用、虛擬化等設備進行統一監控管理。能夠對設備進行資源統計和直觀的顯示設備的工作狀態。以便于對學校的業務系統和日常運行情況進行監控管理。
目前高校網絡運維平臺主要功能包括設備管理、信息安全管理、日常管理、業務管理等模塊,但對目前校園網系統來說,這幾個功能遠遠不夠。目前的平臺需要實現虛擬網絡管理、網絡應用管理、無線管理、主機資源管理等功能,可以從各個方面對網絡設備進行監測和管理,內容包括網絡設備的可用性、性能、流量管理和業務分析等。通過持續監測、報告網絡的運行情況,有助于實時發現異常并及時告警。
校園網絡設備眾多已經成為普遍現象,校園的接入設備在千臺以上,這還不包含核心設備、安全設備、服務器、物聯網設備等。如此龐大的設備數量,對于運維人員的日常運行維護的確是個挑戰,通過資源監控平臺可將各個樓宇的設備全部納管,包含管井的設備等。一旦發現某臺設備出現異常,平臺自動將告警推送至手機APP中,這樣就能夠第一時間獲知故障現象,避免被動發現,在摸不著頭腦的情況下去解決問題。
設備加入到監控管理平臺之后,通過web頁面就能實時查看到設備的運行數據,以及歷史運行數據,但相同的設備在不同的環境下應用,自身的負載情況也不近相同。根據每個設備自身的運行數據規律,設定符合其實際的個性化的閾值,這樣一旦設備出現性能方面告警,就知道設備肯定遇到了問題,運維人員及早介入,避免形成故障了,再去事后搶救。
學校核心設備接口連接的都是重要的匯聚交換機或應用服務器,一旦接口出現問題,帶來的影響很大,如果發現不及時,不能準確定位問題,迅速恢復正常,其他職能部門的投訴將接踵而至,現在通過資源監控管理平臺可實時監控接口的狀態信息,一旦核心接口出現掉線,立即反應,及時應對,快速恢復,避免影響重要的業務應用。
網絡出口流量能直接反映整個網絡性能的好壞,學校的出口設備連接了中國移動、聯通、教育網等多個出口,掌握出口流量的占用率,對學校網絡暢通運行,高效運行起著至關重要的作用。通過對出口流量的監控,不僅能夠及時發現網絡瓶頸,還能幫助判斷網絡中是否存在故障或安全隱患,這樣才能更好地保障學校網絡正常、穩定、高效地運行。
日常運維工作中,可以通過微信、企業微信、短信等方式收到資源管理平臺的故障告警通知。通過資源管理系統對設備故障原因進行預判,還可生成故障處理的工單。設備變更,設備故障都需審批和處理,整個故障生成,問題處理過程都有留痕。
最底層是IT基礎設施層,即運維平臺的被管對象,總體設計原則要支持管理網絡信息中心運行管理的所有對象;通過分類將網絡設備、服務器、計算存儲資源、系統應用軟件、中間件、虛擬化資源、機房動力環境實現統一納管。其次是業務處理,包括數據采集和數據處理。
第二層是業務處理層,包括數據采集和數據處理。數據采集可以實現網絡監控、系統監控、機房環境監控、性能監控,告警事件、日志等數據的集中采集。數據處理是對所有IT基礎設施的監控,從而掌握IT資源的配置狀況和設備的運行狀態、性能參數,在此基礎上可按照業務進行建模。
在業務處理部分,包含了性能管理及分析、統一事件管理、業務可用性管理、資產配置管理、自動化操作管理、大數據日志分析等功能。可了解業務的整體運行情況,進行業務預警和快速發現IT系統的根源故障,并可與服務管理流程平臺集成,及時響應和規范化地處理故障。實現故障的閉環管理。
第三層是業務展示層,提供了多種展示視圖和方式,為不同的用戶提供不同的管理視圖,包括領導視圖、運維門戶、自服務門戶和大屏展示視圖等。這樣能便于了解學校校園網絡設備的整體運行情況,及時進行故障報警和快速發現告警的根源故障。平臺總體架構如圖1所示。

圖1 資源管理平臺總體框架
資源對象包括:網絡設備、服務器、存儲、數據庫、應用、虛擬化、動力環境等資源。其目前可通過手動添加設備或自動搜索設備把資源對象進行納管,實現統一的監控和管理。
其中網絡設備可對路由器、交換機、防火墻、負載均衡、vpn、堡壘機等網絡設備全面納管。支持跨廣域網分布式部署拓撲引擎。可將各引擎的拓撲搜索結果上傳到中心進行匯總,創建出一張完整的拓撲圖,實現統一展現,如圖2所示。

圖2 資源納管
性能管理支持管理多種協議采集資源的運行狀態和性能狀態指標,如通過SNMP、IPMI、SSH、SMI-S、TELMET、JDBC、Syslog等協議讀取設備數據。
支持學習設備性能指標的歷史數據(默認5周以上,動態自學習計算出設備該性能指標的最佳閾值,當性能指標偏離于學習到的最佳閾值時,平臺產生性能告警通知運維人員)。
目前資源管理平臺在設備出現問題時,告警方式支持多種提醒,如告警實時提醒告警板、告警提示音后續可擴容、微信告警、APP告警,支持與學校現有統一通信平臺進行對接;平臺支持靈活定制告警級別,并支持自動升級持續出現、重復發生以及超過規定處理時間仍未解決的告警;支持重復告警過濾,支持告警轉儲功能,提供告警信息的自動轉儲功能,滿足轉儲條件的告警信息會被系統備份成文件后存儲到指定目錄下,并把轉儲的數據從系統中刪除。
打開資源管理模塊,就可直接看到網絡設備的運行情況,以不同顏色顯示設備的緊急、重要、次要告警狀態。也可通過點擊功能模塊按鈕直接進入到具體的詳情展示頁,方便網管對關鍵設備數據進行實時監控,歷史性進行追溯。并可查看設備當前告警列表;告警信息:顯示全局最新告警信息模塊、告警信息列表;待辦工單顯示待辦工單模塊、待辦工單列表,用戶可根據工單緊急程度進行工單處理操作,基于任務的性能監控,可以定制監控任務,也可長期監控被納管對象的詳細性能情況,按日報、周報、月報等報表呈現便于工程師進行周期性數據分析。
資源管理平臺需要采用B/S架構,便于通過web頁面進行訪問,整體的架構是分布式的,支持系統安裝、卸載、數據同步備份、數據恢復的可視化界面管理。支持各業務在首頁portal展示,每個widget具有折疊、還原、最大化、拖拉、關閉、新窗口打開等功能;系統支持6 000以上節點的數據采集要求;對現有網絡服務的數據進行業務維度的資源管理,資源管理平臺的CMDB模塊在靜態資源維度進行管控。
數據庫使用Microsoft SQL Server,支持部署到Windows、Linux平臺,管理平臺功能設計中,采用模塊化的設計理念,將視圖、資源納管、網絡監控、無線監控、服務器監控、應用監控等功能設計進行分類納管和呈現[8]。
視圖分為自定義視圖、位置視圖和接口視圖,創建視圖后自動生成拓撲。平臺具有多種類型的拓撲,提供傳統的基于IP網絡的IP拓撲、二層拓撲和鄰居拓撲。用戶可以根據實際組網情況,自由定義自己關注的網絡拓撲視圖(自定義拓撲)。自定義視圖設計,如圖3所示。

圖3 自定義視圖
對網絡設備的監測是根據ping、snmp、ssh等協議進行監控,通過ping協議探測設備在線后,再通過snmp或ssh讀取設備的性能數據,包括設備的在線狀態和運行狀態,以及設備的CPU、內存、端口狀態、接口流量、接口發送速率、接口接收速率、丟包數、錯包數等數據,并將數據進行存儲以備查閱。當前校園網是有線、無線網絡同步覆蓋,通過將校園網有線、無線的網關都統一接在核心設備上。實現有線無線集中監測,統一監控,及時發現故障,有效避免設備故障發現的響應時間,網絡運行穩定率上升,保障網絡高可用性。
支持的網絡設備包括:路由器、交換機、防火墻、負載均衡、堡壘機、網閘、流量控制等,如圖4所示。

圖4 網絡設備監測
需要支持對主流廠商服務器的全面監控,可通過IPMI的方式對服務器的電源、硬盤、風扇、主板進行監控,同時支持多種主機操作系統的監控管理,提供業務主機整體負載情況的監測,包括CPU負載,內存與虛擬內存利用率,主機網絡會話數量、源與目的及流量,各個物理網絡接口流量,設備連續運行時間等信息;并支持對業務主機各文件系統的磁盤空間大小、利用率、剩余空間,磁盤增長率的監測;能實現主機上關鍵進程的運行狀況及其對CPU和內存占用情況的管理等。
可實現主機一體化顯示,按照不同的操作系統進行數據分類,系統將提供基礎信息、運行信息、進程管理、事件與告警、服務器硬件信息等各類管理信息的監控和展示,如圖5所示。

圖5 服務器監測
支持監控的操作系統:
Windows系統包括:各版本的Windows Server。
Unix系統包括:AIX、FreeBSD、OpenBSD、Solaris、Mac OS、HP-UX。
Linux系統包括:各種版本的Linux,支持國產麒麟操作系統。
應用監控需要對數據庫、中間件、常用標準協議等進行監控。其中根據學校實際IT環境,平臺需要支持對ORACLE、SQL Server、Informix等主流數據庫的監控管理。支持監測連接數是否過大、讀緩存命中率是否過低、寫緩存命中率是否過低、死鎖數量是否過大、回滾數是否過高等異常狀態。支持監測表空間和數據文件的大小、狀態和使用率。
中間件監控:根據實際IT環境,平臺要對J2EE(WebSphere、Weblogic、TOMCAT)、JBOSS、Tuxedo、Apache、Resin、IIS、Apache、Exchange、Domino等中間件實現監控,如圖6所示。

圖6 應用監控可視化
對于一線工程師日常維護來說,故障發生是突發情況,而掌握設備運行的關鍵狀態又是常態管理,為了滿足工程師對于所負責區域重點設備的狀態監控,系統需要有自定義首頁功能,該功能提供基于角色的個性功能展示,不同的用戶可以自行選擇不同管理指標以及展現方式,將自身重點關注的設備運行情況放在首頁展示,做到重點實時掌握。
網絡資源管理平臺的測試環境:
硬件環境:資源監控管理平臺運行在服務器虛擬化的VMware虛擬機中,IP地址為10.160.10.22、10.160.10.24.
軟件環境:操作系統 Windows Server 2012標準版,CPU在8核以上,128G內存。數據庫使用SQL server 2012。瀏覽器:Google Chromee、Firefox、360極速版。
網絡環境:使用的是校園內網環境,千兆局域網,確保安全性能,降低使用風險。
運行環境:給網絡設備劃分管理IP和管理VLAN并開通SNMP協議,統一配置只讀團體名稱。通過資源監控管理平臺自動搜索、自動納管、自動采集。
測試結果:從系統試運行情況來看,平臺滿足設備數據采集,包含設備cpu、mem、接口流量等性能數據,端口實時up/down狀態、設備離線立即告警,及時通知。
總體滿足設計要求,系統運行穩定。
通過資源管理平臺設計,目前已大幅提高了各類日常運維的可視化程度、量化運行質量,提高IT系統運行效率,為業務穩定、高效、安全、不間斷運行提供保障。為學校提供運維支持、建立標準化的運維機制,提升運維中心的IT服務質量和運維管理水平。將網絡設備、無線設備、服務器、存儲、虛擬化、應用、含數據庫,中間件等進行分類納管統計和呈現。現已實現以下功能:
(1)資源管理包含對所有納管設備的分類統計,并顯示設備運行狀態概覽。
(2)以視圖的形式呈現核心設備鏈路出口的收發速率及帶寬占用率。
(3)實時采集平臺納管設備的trap信息,過濾重復trap的同時,比對閾值,超出標準值立即觸發告警通知。
(4)監控大屏輪播展現3個校區的樓宇地圖,當樓宇內設備出現告警,所對應樓宇開始閃爍,點擊樓宇亦可看到告警設備數量,再點擊對應數值,可下鉆查看告警詳情頁面。
(5)采集到的告警信息,會同步推送到手機APP中,運維人員能夠通過手機實時掌握設備的運行狀態和告警消息,發現異常指標,及時響應,使設備快速恢復正常運行狀態。
系統管理員通過監測平臺,查看系統所監測的性能指標/關鍵業務,查看未恢復的告警統計,查看設備中斷持續時間、重復次數及分析斷網原因,為了滿足工程師對于自身所關注的納管對象監控要求,系統提供了自定義功能,該功能提供基于角色的個性展示功能,用戶可以自行選擇不同管理重點指標以及展現方式,以便完成一圖呈現所有重點監控;通過網絡拓撲圖,可以打開設備的面板,設備面板和真實面板相似,并通過端口形狀能夠辨別端口是光口還是電口,同時通過顏色能夠辨別端口是關閉、休眠、開啟3種狀態。
對當前網絡線路的流量、帶寬占用比等信息進行排名查看,并可進一步查看指定線路的性能負載歷史記錄。可及時了解當前負載較高的線路,在問題苗頭出現的時候,及時進行處置,保障網絡不間斷的平穩運行。
網絡資源管理平臺的建設將帶動網絡中心建立科學合理的運維管理體系,應用先進、實用、高效的運維管理工具和手段,由被動管理向主動管理轉變。大幅提高資源監控系統日常運維的可視化程度、量化運行質量,提高IT系統運行效率,為業務穩定、高效、安全、不間斷運行提供保障。