陳順平,朱智宇
隨著高校數(shù)字校園軟硬件規(guī)模不斷擴(kuò)大,新應(yīng)用、新設(shè)備相繼投入使用,數(shù)字校園的各個(gè)應(yīng)用給師生提供的服務(wù)已經(jīng)成為了日常學(xué)習(xí)、工作和生活必不可缺少的一部分。與此同時(shí),計(jì)算機(jī)機(jī)房及辦公場(chǎng)地配套的環(huán)境設(shè)備也日益增多,這就導(dǎo)致其管理的難度大大增加,維護(hù)人員常常疲于應(yīng)對(duì),故障處理效率難以保證。所以,高校信息中心迫切需要一套能夠提供7×24小時(shí),全網(wǎng)不間斷監(jiān)控的運(yùn)維系統(tǒng),來(lái)及時(shí)發(fā)現(xiàn)各類設(shè)備運(yùn)行中存在的問(wèn)題、并及時(shí)定位故障,協(xié)助運(yùn)維人員進(jìn)行及時(shí)有效處置。
在運(yùn)維系統(tǒng)研究和開(kāi)發(fā)方面,經(jīng)歷了幾個(gè)階段:早起由于入網(wǎng)設(shè)備和系統(tǒng)及用戶較少, 用戶對(duì)網(wǎng)絡(luò)故障的處理時(shí)效性要求不高, 采用傳統(tǒng)的手工維護(hù)方式就能滿足需求。此類方式,常見(jiàn)的如:維護(hù)人員攜帶筆記本,直接在設(shè)備存放現(xiàn)場(chǎng),通過(guò)串口方式接入設(shè)備并用系統(tǒng)自帶命令進(jìn)行故障維護(hù),或者直接現(xiàn)場(chǎng)排查故障點(diǎn)后進(jìn)行硬件模塊更換。隨著,信息化程度的不斷深入,設(shè)備維護(hù)和用戶需求越來(lái)越高,基于網(wǎng)絡(luò)的運(yùn)維工具隨之孕育而生,如:常見(jiàn)的Secure CRT、Putty等,借助此類軟件工具,能幫助運(yùn)維人員通過(guò)網(wǎng)絡(luò)遠(yuǎn)程方式,異地處理故障,很大程度上緩解了運(yùn)維壓力。再之后,由于設(shè)備系統(tǒng)類型越來(lái)越多,設(shè)備技術(shù)架構(gòu)和故障類型越來(lái)越復(fù)雜,專用的運(yùn)維管理系統(tǒng)響應(yīng)而生,比較有代表性的如:摩卡、北塔等,此類系統(tǒng)功能強(qiáng)大,但一般主要針對(duì)同類硬件設(shè)備故障運(yùn)維。
當(dāng)前,隨著高校信息化建設(shè)工作的推進(jìn),在數(shù)字校園框架體系下,設(shè)備、系統(tǒng)、用戶不但數(shù)量龐大,而且類型各異,所以運(yùn)維人員迫切需要一種既能滿足設(shè)備運(yùn)維,同時(shí)又能滿足軟件數(shù)據(jù)維護(hù)需求的運(yùn)維系統(tǒng),同時(shí)能集成狀態(tài)監(jiān)控、故障發(fā)現(xiàn)、預(yù)警告知、工單處理、資產(chǎn)管理等功能模塊,滿足運(yùn)維工作中各方面的需求,同時(shí)減低多套系統(tǒng)建設(shè)成本的投入和運(yùn)維人員技術(shù)操作的難度,另外網(wǎng)絡(luò)安全也是當(dāng)前運(yùn)維工作中一個(gè)研究的重點(diǎn)。國(guó)內(nèi)方面,如:趙冰冰[1]就在《IT化網(wǎng)絡(luò)運(yùn)維的探索與應(yīng)用》提出了一種模塊化的運(yùn)維系統(tǒng)設(shè)計(jì)思路,論述了當(dāng)前運(yùn)維系統(tǒng)應(yīng)該具備的一些基本功能模塊構(gòu)成;劉紅梅,陳剛等[2]詳細(xì)介紹了一種基于組織、流程、IT的集中故障管理改革創(chuàng)新實(shí)踐模式,并對(duì)故障處理工單功能在運(yùn)維系統(tǒng)中的實(shí)現(xiàn)進(jìn)行了介紹;付強(qiáng)[3]在其研究中就特別指出了新形勢(shì)下,網(wǎng)絡(luò)安全運(yùn)維的重要性和安全運(yùn)維工作的關(guān)注點(diǎn)。
在數(shù)字校園框架體系中,各類網(wǎng)絡(luò)設(shè)備是基礎(chǔ)設(shè)施,如:光纖線路、交互設(shè)備、服務(wù)器、存儲(chǔ)等;在此基礎(chǔ)上,通過(guò)虛擬化、共享數(shù)據(jù)倉(cāng)庫(kù)等技術(shù)手段為上層各類應(yīng)用服務(wù)提供服務(wù)和數(shù)據(jù)的支撐;上層則通過(guò)統(tǒng)一身份認(rèn)證和服務(wù)總線方式調(diào)用來(lái)自如:OA、教務(wù)、財(cái)務(wù)、科研、一卡通等應(yīng)用系統(tǒng)的中的數(shù)據(jù)服務(wù),并基于信息門戶手段為不同用戶提供個(gè)性化的應(yīng)用服務(wù)[4]。圖1為高校典型的數(shù)字校園的技術(shù)框架圖。
基于數(shù)字校園技術(shù)框架,我們針對(duì)網(wǎng)絡(luò)運(yùn)維需求梳理如下。

圖1 高校數(shù)字校園技術(shù)框架體系
各類網(wǎng)絡(luò)設(shè)備,包括:交換機(jī)、無(wú)線AP、服務(wù)存儲(chǔ)等,是數(shù)字校園的基礎(chǔ)設(shè)施,其中交換機(jī)是數(shù)字校園運(yùn)行的心臟,每臺(tái)換機(jī)都直接影響著眾多師生的上網(wǎng)情 況和使用情況,而高校數(shù)字校園框架體系中,交換機(jī)數(shù)量往往就有幾百臺(tái);服務(wù)器存儲(chǔ)設(shè)備是各類應(yīng)用承載的基礎(chǔ),其關(guān)鍵指標(biāo),如:CPU內(nèi)存使用率、磁盤空間、IOPS、設(shè)備流量等,直接影響各類應(yīng)用服務(wù)的穩(wěn)定性;另外,當(dāng)前各高校都自建了自建的IDC數(shù)據(jù)中心機(jī)房,機(jī)房的溫度、濕度、供電等動(dòng)環(huán)因素也是直接影響各類設(shè)備正常運(yùn)行的關(guān)鍵。鑒于以上復(fù)雜情況,單靠傳統(tǒng)的人力的巡檢,已無(wú)法滿足數(shù)字校園高穩(wěn)定、高可靠性的運(yùn)行需求。
在數(shù)字校園框架體系下,數(shù)據(jù)是核心,各高校一般都在建設(shè)有數(shù)據(jù)倉(cāng)庫(kù),用于集中存儲(chǔ)各類應(yīng)用服務(wù)需數(shù)據(jù),常見(jiàn)的結(jié)構(gòu)化數(shù)據(jù)庫(kù)包括:Oracle、SQL Server、Informix等,非結(jié)構(gòu)化的如:MongnDB、HBase等,此類數(shù)據(jù)庫(kù)的實(shí)時(shí)鏈接數(shù)、響應(yīng)時(shí)間、數(shù)據(jù)查詢效率等關(guān)鍵指標(biāo)也是服務(wù)穩(wěn)定的重要保障;另外,在應(yīng)用層面,各類系統(tǒng),特別是B/S架構(gòu)的系統(tǒng),頁(yè)面防篡改、HTTP請(qǐng)求時(shí)間、中間件連接數(shù)等,都是日常運(yùn)維中必須關(guān)注的重點(diǎn)對(duì)象。
運(yùn)維工單是對(duì)數(shù)字校園運(yùn)維過(guò)程中的各項(xiàng)故障、任務(wù)進(jìn)行線上管理的憑據(jù)。運(yùn)維工單一般包含兩個(gè)部分,一個(gè)是手動(dòng)工單、一個(gè)是監(jiān)測(cè)程序的自動(dòng)工單。通過(guò)運(yùn)維工單的線上流程化管理,可以建立運(yùn)維管理人員和用戶、設(shè)備以及各類資產(chǎn)的相互聯(lián)系,也可以建立網(wǎng)絡(luò)中心的責(zé)任機(jī)制,為各類運(yùn)維工單進(jìn)行跟蹤、管理、派發(fā)、績(jī)效考核等工作提供依據(jù)。
隨著網(wǎng)絡(luò)信息中心采購(gòu)的設(shè)備、資產(chǎn)越來(lái)越多,設(shè)備資產(chǎn)的管理成為網(wǎng)絡(luò)信息中心的一項(xiàng)繁重工作。區(qū)別于國(guó)資處的資產(chǎn)管理,網(wǎng)絡(luò)信息中心的資產(chǎn)需要解決的是在線巡檢、資產(chǎn)的實(shí)時(shí)識(shí)別、資產(chǎn)的報(bào)修、外借等問(wèn)題。網(wǎng)絡(luò)信息中心的資產(chǎn)管理需要完成內(nèi)部管理的有序、網(wǎng)絡(luò)設(shè)備的可用、設(shè)備壽命年限的評(píng)估、更新迭代的分析等需求。通過(guò)IT資產(chǎn)管理,可以提高網(wǎng)絡(luò)信息中心的工作效率和服務(wù)質(zhì)量,為設(shè)備的采購(gòu)、更新、售后提供支撐。
當(dāng)前,對(duì)于運(yùn)維工作的要求,越來(lái)越強(qiáng)調(diào)實(shí)時(shí)性、便捷性,高校信息中心的運(yùn)維人員長(zhǎng)期需要外出進(jìn)行故障處理,所以針對(duì)各類故障信息需要能夠及時(shí)方便的獲取相關(guān)信息。隨著移動(dòng)設(shè)備和應(yīng)用的普及,這也給移動(dòng)運(yùn)維提供了可能,通過(guò)在移動(dòng)端按照運(yùn)維軟件,可以將各類故障告警信息、設(shè)備運(yùn)行數(shù)據(jù)、用戶報(bào)修申請(qǐng)直接發(fā)送到運(yùn)維人員手機(jī)上,方便后續(xù)跟蹤處置。
根據(jù)前期開(kāi)展的系統(tǒng)建設(shè)需求分析,運(yùn)維管理系統(tǒng)規(guī)劃了5個(gè)主要功能模塊:設(shè)備監(jiān)控模塊、系統(tǒng)監(jiān)控模塊、故障預(yù)警模塊、資產(chǎn)管理模塊、工單管理模塊。
設(shè)備監(jiān)控模塊:主要涵蓋下圖2中交換機(jī)監(jiān)控和其他網(wǎng)絡(luò)設(shè)備監(jiān)控,該模塊基于SNMP協(xié)議對(duì)各類網(wǎng)絡(luò)交互設(shè)備進(jìn)行輪詢,定時(shí)采集網(wǎng)絡(luò)設(shè)備的網(wǎng)絡(luò)流量、端口運(yùn)行、CPU使用、內(nèi)存占用、磁盤存儲(chǔ)等關(guān)鍵硬件指標(biāo)信息。由于SNMP是標(biāo)準(zhǔn)協(xié)議,所以采用SNMP協(xié)議機(jī)制,能方便運(yùn)維人員及時(shí)監(jiān)控?cái)?shù)字校園中的各類交換機(jī)、服務(wù)器、存儲(chǔ)等網(wǎng)絡(luò)設(shè)備。
平臺(tái)監(jiān)控模塊:主要針對(duì)下圖中信息門戶、網(wǎng)站等各類Web信息系統(tǒng)平臺(tái)的頁(yè)面安全性、服務(wù)暢通性、中間件和數(shù)據(jù)庫(kù)穩(wěn)定性進(jìn)行監(jiān)控;監(jiān)控采用的主要技術(shù)手段主要包括:網(wǎng)頁(yè)防篡改技術(shù)、數(shù)據(jù)線性采集技術(shù)等。通過(guò)系統(tǒng)設(shè)置的計(jì)劃任務(wù),對(duì)各類應(yīng)用服務(wù)系統(tǒng)進(jìn)行定時(shí)檢測(cè),監(jiān)控系統(tǒng)的正常性、安全性、穩(wěn)定性。
故障告警模塊:基于監(jiān)控模塊獲取的數(shù)據(jù),通過(guò)Cache緩存技術(shù)及相關(guān)算法,可自定義監(jiān)控參數(shù),如:監(jiān)控監(jiān)測(cè)頻率、響應(yīng)時(shí)間閾值、異常報(bào)警閾值、最大報(bào)警次數(shù)。并基于可視化技術(shù),以友好的界面為運(yùn)維人員提供直觀的故障預(yù)警信息,同時(shí)通過(guò)調(diào)用微信、電子郵件、MAS短信等接口,將告警信息及時(shí)傳送到運(yùn)維人員的終端設(shè)備。
資產(chǎn)管理模塊:運(yùn)維系統(tǒng)根據(jù)需求添加已有的IT資產(chǎn)信息,主要包括:資產(chǎn)設(shè)備類型、品牌、型號(hào)、規(guī)格、價(jià)格、生產(chǎn)廠家、供應(yīng)商聯(lián)系方式等,同時(shí)為資產(chǎn)生成唯一二維碼,使用手機(jī)掃描即可展示資產(chǎn)信息,生成掃描記錄,方便管理人員了解資產(chǎn)動(dòng)態(tài),并能根據(jù)資產(chǎn)使用情況進(jìn)行統(tǒng)計(jì)報(bào)表。
工單管理模塊:主要包含報(bào)修系統(tǒng)提交的手動(dòng)工單和運(yùn)維系統(tǒng)自動(dòng)監(jiān)測(cè)到的自動(dòng)工單。平臺(tái)根據(jù)之前預(yù)設(shè)的工單責(zé)任人,會(huì)對(duì)工單進(jìn)行自動(dòng)派發(fā),委派給相應(yīng)的責(zé)任人,工單管理員可以根據(jù)實(shí)際情況對(duì)工單進(jìn)行責(zé)任人的修改和扭轉(zhuǎn)。工單完成后,用戶可以對(duì)工單進(jìn)行評(píng)價(jià)和跟蹤。

圖2 數(shù)字校園運(yùn)維系統(tǒng)各功能模塊
基于SNMP協(xié)議采集網(wǎng)絡(luò)設(shè)備狀態(tài)信息,實(shí)現(xiàn)網(wǎng)絡(luò)設(shè)備監(jiān)控功能:SNMP(簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議),是IETF提出的一種通用協(xié)議。目前,各類主流網(wǎng)絡(luò)設(shè)備商,如:CISOHUAWEIDELLHP等都支持該協(xié)議組[5];基于該協(xié)議,能接收來(lái)自網(wǎng)絡(luò)設(shè)備中的相關(guān)事件報(bào)告,從而幫助運(yùn)維管理人員獲知網(wǎng)絡(luò)中出現(xiàn)的問(wèn)題[6],如:CPU內(nèi)存使用率、磁盤占用率、網(wǎng)絡(luò)端口狀態(tài)、網(wǎng)絡(luò)流量情況等。下面給出的就是在linux環(huán)境下,在安裝了SNMP協(xié)議包的情況下,通過(guò)snmpwalk命令查看設(shè)備信息的方法。
snmpwalk -v 1 -c SNMP Password IP OID
其中:v指定SNMP的版本;c指定連接對(duì)象的主機(jī)口令
IP指定對(duì)象設(shè)備網(wǎng)絡(luò)地址;Oid 指定要讀取設(shè)備 指標(biāo)
下面給出的是SNMP協(xié)議中常用的Oid用途。

表1 SNMP協(xié)議中常用的Oid
基于防篡改技術(shù)監(jiān)控Web頁(yè)面安全性,實(shí)現(xiàn)對(duì)網(wǎng)站/平臺(tái)的監(jiān)控:通過(guò)爬蟲(chóng)程序定時(shí)抓取被監(jiān)控對(duì)象的Web頁(yè)面;針對(duì)爬取的頁(yè)面與原系統(tǒng)備份頁(yè)面進(jìn)行對(duì)比分析;如發(fā)現(xiàn)頁(yè)面文件大小、修改時(shí)間、摘要信息發(fā)生改變,則發(fā)送頁(yè)面被篡改告警。由于該技術(shù)需要定期對(duì)被監(jiān)控對(duì)象進(jìn)行計(jì)劃操作,如:定時(shí)頁(yè)面爬取、頁(yè)面文件摘要信息生成等,所以會(huì)產(chǎn)生額外的系統(tǒng)開(kāi)銷,所以如何優(yōu)化以上任務(wù)操作機(jī)制,則是決定此類服務(wù)優(yōu)劣的重要因素[7]。下面介紹的是兩種頁(yè)面文件摘要信息的生成機(jī)制。
識(shí)別Web頁(yè)面是否篡改,最有效的手段就是分析頁(yè)面文件的摘要信息。當(dāng)前,文件摘要算法主要包括:SHA和MD5,表2是不同算法的計(jì)算效率。

表2 兩類算法進(jìn)行文件摘要信息處理速度
根據(jù)以上分析,在計(jì)算較小的文件時(shí),算法計(jì)算速度無(wú)明顯差異;在進(jìn)行大的文件摘要信息處理時(shí),MD5優(yōu)勢(shì)明顯。在本系統(tǒng)設(shè)計(jì)中,我們采用的就是MD5摘要算法。
基于J2EE技術(shù)框架進(jìn)行運(yùn)維系統(tǒng)開(kāi)發(fā),實(shí)現(xiàn)運(yùn)維系統(tǒng)的整體開(kāi)發(fā):J2EE體系結(jié)構(gòu)提供中間層集成技術(shù)框架,用于解決低成本的應(yīng)用程序的高可用性、高可靠性和可擴(kuò)展性的開(kāi)發(fā)需求,大大降低了開(kāi)發(fā)分布式應(yīng)用的成本和復(fù)雜性,并且支持Enterprise JavaBeans和應(yīng)用程序集成。整個(gè)平臺(tái)打包方便,易于部署[8]。本系統(tǒng)采用的是最為典型的三層結(jié)構(gòu)開(kāi)發(fā),分為表現(xiàn)層、業(yè)務(wù)邏輯層和數(shù)據(jù)服務(wù)層。業(yè)務(wù)邏輯、數(shù)據(jù)操作及合法性校驗(yàn)等工作放在業(yè)務(wù)邏輯層處理??蛻舳送ㄟ^(guò)組件與中間層建立連接,再由中間層與數(shù)據(jù)庫(kù)交互。另外,J2EE體系下的Spring技術(shù)框架技術(shù)+HTML5+CSS能方便的定制系統(tǒng)移動(dòng)端程序。下面給出的是在J2EE框架下,JAVA編寫的一段代碼,通過(guò)先定義SNMP服務(wù)類指定Oid,采集218.196.*.* 主機(jī)的CPU和RAM 使用率。
import java.io.IOException;
public class Demo {
public static void main(String[] args) {
SnmpService snmpService = new SnmpService();
SnmpModel snmpModel = new SnmpModel();
snmpModel.setIp("218.196.*.*"); snmpModel.setCommunityName("public");
snmpModel.setHostIp("218.196.*.*");
snmpModel.setPort(161);
snmpModel.setVersion(1);
System.out.println("cpu利用率:"+ snmpService.getCpuUtilization(snmpModel));
System.out.println("RAM 使用率:"+ snmpService.getMemoryUtilization(snmpModel));
}
}
數(shù)字校園網(wǎng)絡(luò)運(yùn)維管理系統(tǒng)支持多種部署方式,既能實(shí)現(xiàn)在高校本地校園網(wǎng)中的部署,也能實(shí)現(xiàn)適合范圍廣的遠(yuǎn)程部署模式。系統(tǒng)采用Browser/Server體系結(jié)構(gòu),提供Windows和linux版本,完成系統(tǒng)安裝后,運(yùn)維服務(wù)人員只需要在顯示器上安裝瀏覽器就能訪問(wèn),客戶端零安裝、零維護(hù),系統(tǒng)擴(kuò)展非常容易,同時(shí)支持移動(dòng)端使用。

圖3 數(shù)字校園運(yùn)維系統(tǒng)的部署
系統(tǒng)采用AJAX異步刷新技術(shù),實(shí)時(shí)展示對(duì)園區(qū)各類B/S系統(tǒng)、各種類型的數(shù)據(jù)庫(kù)、服務(wù)器、交換機(jī)等軟硬件設(shè)備的集中監(jiān)管,通過(guò)條形圖、餅狀圖、百分比以及顏色的不同來(lái)表現(xiàn)資源使用情況,并利用實(shí)時(shí)刷新、滾動(dòng)、輪播的方式推送最新數(shù)據(jù),讓用戶第一時(shí)間發(fā)現(xiàn)故障異常。平臺(tái)還可以根據(jù)不同的運(yùn)維需求進(jìn)行個(gè)性化的參數(shù)配置,記錄資源運(yùn)行情況,針對(duì)異常情況發(fā)送預(yù)警信息,使用戶即時(shí)掌控各個(gè)資源的異常狀態(tài),降低故障的發(fā)生概率。圖4給出的是系統(tǒng)的綜合監(jiān)控首頁(yè),運(yùn)維人員可以及時(shí)方便的掌握各類監(jiān)控設(shè)備和應(yīng)用的運(yùn)行狀態(tài)。
另外,根據(jù)前期需求規(guī)劃,系統(tǒng)還附帶了工單和資產(chǎn)管理模塊,采用Hibernate技術(shù)開(kāi)發(fā),并通過(guò):Session、SessionFactory、Transaction、Query和Configuration核心接口,對(duì)持久化對(duì)象進(jìn)行存取和事務(wù)控制。Hibernate能實(shí)現(xiàn)對(duì)JDBC進(jìn)行輕量級(jí)對(duì)象封裝,適用場(chǎng)景多樣,能夠很好的支持運(yùn)維管理系統(tǒng)的前后臺(tái)程序開(kāi)發(fā)。圖5給出的是運(yùn)維管理系統(tǒng)的故障報(bào)修工單模塊效果。
數(shù)字校園運(yùn)維管理系統(tǒng)在投入應(yīng)用后,給高校信息中心帶來(lái)的收益是顯著的,主要體現(xiàn)在以下方面。
* 問(wèn)題主動(dòng)發(fā)現(xiàn),準(zhǔn)確定位故障;
* 對(duì)軟硬件性能的實(shí)時(shí)監(jiān)管和預(yù)警功能;
* 實(shí)時(shí)性能狀態(tài)、數(shù)據(jù)分析、統(tǒng)計(jì)圖表一應(yīng)俱全;
* 提供數(shù)據(jù)分析,給性能調(diào)優(yōu)提供參考和依據(jù);
* 人性化工單管理,大大降低監(jiān)控和維護(hù)的人力成本;
* 提高信息化運(yùn)維服務(wù)水平,規(guī)避故障所帶來(lái)的損失;
* 提供7×24小時(shí)不間斷的穩(wěn)定監(jiān)控,及時(shí)發(fā)現(xiàn)故障并預(yù)警。

圖4 數(shù)字校園運(yùn)維管理系統(tǒng)的監(jiān)控頁(yè)面

圖5 數(shù)字校園運(yùn)維管理系統(tǒng)的報(bào)修工單模塊
綜上所述, 在數(shù)字校園框架體系下,運(yùn)維管理系統(tǒng)的開(kāi)發(fā)與應(yīng)用,能有效管控校園終端設(shè)備、網(wǎng)絡(luò)鏈路、網(wǎng)絡(luò)資產(chǎn)、服務(wù)器、交換機(jī)、數(shù)字校園子系統(tǒng),由于一體化的設(shè)計(jì),結(jié)合工單和資產(chǎn)等模塊,解決了運(yùn)維管理人員操作不同系統(tǒng),多頭管理的現(xiàn)象,提高流程化管理水平、縮短故障響應(yīng)時(shí)間,降低了技術(shù)部門的壓力和人力投入,有助于高校數(shù)字校園的運(yùn)維質(zhì)量和服務(wù)水平的提升。