文/ 曾敏 胡國南 王賢川
隨著網(wǎng)絡規(guī)模的不斷擴大及應用和業(yè)務類型的不斷增加,對網(wǎng)絡自身實施有效的性能監(jiān)控,全面客觀地反映網(wǎng)絡的真實運行狀態(tài),已成為不容忽視的問題。使用專業(yè)的網(wǎng)絡監(jiān)控軟件對網(wǎng)絡設備進行集中式監(jiān)測已經(jīng)成為網(wǎng)絡管理的發(fā)展方向。利用監(jiān)控系統(tǒng),網(wǎng)絡管理人員能夠及時發(fā)現(xiàn)并主動響應網(wǎng)絡異常,監(jiān)測網(wǎng)絡性能,指導網(wǎng)絡結(jié)構優(yōu)化,提高管理維護的工作效率,提升網(wǎng)路服務的質(zhì)量,從而保障網(wǎng)絡的穩(wěn)定運行。
校園網(wǎng)是各高校基礎建設的重要組成部分,為高校的信息化建設奠定了堅實基礎,在高校的教學、科研及社會服務等各方面擔負起重要的歷史使命,校園網(wǎng)絡的可靠與穩(wěn)定在很大程度上決定了學校各項工作的正常運轉(zhuǎn)。隨著高校擴招后的快速發(fā)展,以及數(shù)字化校園建設的步伐,校園網(wǎng)絡的規(guī)模也在不斷擴大,網(wǎng)絡設備數(shù)量增多,型號多樣化,導致網(wǎng)絡問題日益復雜化,問題層出無窮,傳統(tǒng)的網(wǎng)絡管理方法已經(jīng)不能滿足現(xiàn)時的需求。
研制和建立一個不僅能全面監(jiān)控校園網(wǎng)絡的運行狀態(tài),而且能夠?qū)⒕W(wǎng)絡管理從事后救助轉(zhuǎn)向事前預警的,融機房環(huán)境、網(wǎng)絡設備、應用系統(tǒng)為一體的智能化運維管理平臺,已成為各高校網(wǎng)絡建設與管理的重大需求。
計算機網(wǎng)絡的安全、高效、穩(wěn)定運行是網(wǎng)絡運維工作的終極目標。在7×2 4小時的網(wǎng)絡運維工作中,能在合理的范圍內(nèi),對異常事件的預警進行分析,依據(jù)預設的規(guī)則自動處理一般事件,并根據(jù)事件的危害程度選擇管理員通知方式(郵件、手機短信等)。對異常事件出現(xiàn)的頻率進行統(tǒng)計分析并提供異常事件報表,有效降低網(wǎng)絡管理人員的工作強度。對分期建設的系統(tǒng)之間融合如一體,保持向下兼容性。各系統(tǒng)協(xié)同工作,最大限度發(fā)揮同一品牌設備的兼容性優(yōu)勢,共享信息資源平臺和軟件管理平臺,實現(xiàn)校園網(wǎng)的有效服務與管理。
第一,能夠?qū)崟r監(jiān)控網(wǎng)絡機房運行環(huán)境。中心機房的基本設施與配套設備(如:供電系統(tǒng)、U P S電源、精密空調(diào)、環(huán)境溫濕度、漏水監(jiān)測、消防監(jiān)測與聯(lián)動、安保等),必須得到實時的監(jiān)控,以便提前預防,及時處置故障。并且能夠監(jiān)控和記錄中心機房內(nèi)所有機器的使用情況,對系統(tǒng)資源消耗情況(內(nèi)存、C P U的利用率)給予警示,具有實時跟蹤屏幕和進程狀態(tài)的功能,可以對所監(jiān)控的機器正在運行的進程進行控制。
第二,能夠及時對網(wǎng)絡設備運行狀況進行管理。目前,校園網(wǎng)絡設備(包括:路由器、交換機、安全產(chǎn)品、服務器、存儲、無線聯(lián)接設備與P C電腦等)種類、數(shù)量多而品牌雜、購置時間跨度大,且分布在不同物理位置,需要有一個能夠監(jiān)控于多種品牌設備的可視化的網(wǎng)絡管理軟件,便于全網(wǎng)的監(jiān)測與故障的響應。
第三,能夠及時對網(wǎng)絡運行狀況進行評估。隨著校園計算機網(wǎng)絡規(guī)模日益的擴大, 網(wǎng)絡結(jié)構越來越復雜,加之網(wǎng)絡設備和應用系統(tǒng)自身的脆弱性以及被外界的侵攏,極易發(fā)生各種各樣的故障,需要管理者及時對潛在事故和故障進行發(fā)現(xiàn)、追蹤、分析、定位直至問題的解決。需要有一個對整個網(wǎng)絡系統(tǒng)運行狀況的診斷、評估和快速處理的機制,以提高網(wǎng)絡穩(wěn)定性和可靠性。
智能網(wǎng)絡運維管理平臺主要是架設在核心設備上,如圖1所示,對整個網(wǎng)絡設備進行監(jiān)控,系統(tǒng)收集各個網(wǎng)絡設備資料,包括應用服務器、數(shù)據(jù)庫服務器、各種品牌的網(wǎng)絡設備、機房動力和環(huán)境設備等,紀錄設備運行狀態(tài),分析紀錄正常運行的數(shù)據(jù),和當前設備狀態(tài)信息進行對比,發(fā)現(xiàn)異常后進行報警,并為管理員提供解決手段,確保網(wǎng)絡設備正常運行。
智能網(wǎng)絡運維管理平臺主要由監(jiān)控報警主系統(tǒng)和管理分析主系統(tǒng)組成,如圖2所示,其中監(jiān)控報警主系統(tǒng)包括對網(wǎng)絡線路、桐廬動力環(huán)境、網(wǎng)絡設備和服務器的監(jiān)控管理,管理分析主系統(tǒng)包括網(wǎng)絡流量性能分析和故障診斷、告警管理、日志查詢和報表分析系統(tǒng)。
網(wǎng)絡線路監(jiān)控管理
監(jiān)控上網(wǎng)線路、D D N 和 V P N 專網(wǎng)的流量、延時、丟包率等情況,提前發(fā)現(xiàn)線路問題,及時定位引起問題的原因和對異常情況進行處理。網(wǎng)絡管理員通過線路流量性能報告、丟包率和延時報告以及網(wǎng)絡設備端口錯誤包情況等指標來評估線路帶寬使用率、質(zhì)量等,同時可以預先了解企業(yè)對線路帶寬的整體需求,規(guī)劃額外的容量。

機房動力環(huán)境監(jiān)控管理
可監(jiān)控機房的各項環(huán)境參數(shù),包括溫度、濕度、煙霧、漏水、紅外線感應、供配電系統(tǒng)及其它智能設備,如空調(diào)、UPS、蓄電池組、門禁系統(tǒng)等。要實現(xiàn)機房中智能設備的監(jiān)控,必須結(jié)合 FS 智能設備監(jiān)控器(獨立硬件);實現(xiàn)動力環(huán)境監(jiān)控,要結(jié)合 FS 綜合環(huán)境監(jiān)控儀(獨立硬件)和各類傳感器探頭。監(jiān)控系統(tǒng)通過 TCP/IP 、Modbus 協(xié)議通過智能設備監(jiān)控器(硬件)和綜合環(huán)境監(jiān)控儀(硬件)對進行動力和環(huán)境參數(shù)進行監(jiān)控。
網(wǎng)絡設備監(jiān)控管理
監(jiān)控和管理Cisco/Juniper/Fortinet/Watchguard/Sonicwall/H3C/HUAWEI/ 聯(lián)想網(wǎng)御/ 天融信/ 深信服/ 安達通等著名品牌的路由器、交換機和防火墻網(wǎng)絡設備,包括設備接口流量、接口錯誤包等性能指標,設備 CPU 負載、內(nèi)存使用量、并發(fā)會話數(shù)等運行狀態(tài)參數(shù)。網(wǎng)絡管理員能通過對網(wǎng)絡設備的監(jiān)控可提前預知網(wǎng)絡設備潛在的故障或者異常流量對設備造成的影響,提前發(fā)現(xiàn)問題,及時定位引起問題的原因和對異常情況進行處理,避免故障的發(fā)生或?qū)⒂?/p>
響減少到最低。服務器監(jiān)控管理
硬件狀態(tài)監(jiān)控:監(jiān)控和管理 IBM、DELL、HP、SUN、聯(lián)想、浪潮、方正、同方等服務器的硬件狀態(tài),如風扇轉(zhuǎn)速、溫度、電壓和 CMOS 電池容量等(需服務器支持 IPMI),并實現(xiàn)遠程開關機。
性能監(jiān)控:無論服務器上運行的是 Unix、Linux或 Windows操作系統(tǒng),都可以監(jiān)控服務器上的 CPU 負載、內(nèi)存和磁盤使用量,網(wǎng)絡接口流量、接口錯誤包等性能指標和運行狀態(tài)參數(shù)。
應用服務監(jiān)控:對服務器上運行的 HTTP、HTTPS、FTP、Telnet、FTP、ICMP、IMAP、Mysql、Pop3、SMTP 和任意 TCP端口上的應用服務進行監(jiān)控,通過服務器的響應速度來提前預知服務異常和可能存在攻擊。
目錄及文件監(jiān)控: 通過獨創(chuàng)的目錄、文件內(nèi)容檢查技術,確保服務器上的如 w e b網(wǎng)站的內(nèi)容等在受到黑客威脅,文件內(nèi)容被修改、增加文件或者刪除文件時能迅速通知管理員,讓管理員能及時處理,避免造成跟企業(yè)聲譽等有關的影響。
針對 windows 服務器的監(jiān)控:通過對 WMI 的支持,可監(jiān)控 windows 服務器的事件日志、MS Exchange Server、SQL Server、LDAP、IIS、Media Server、Terminal Server等服務的可用性。
網(wǎng)絡流量性能分析和故障診斷系統(tǒng)
通過抓取內(nèi)部網(wǎng)絡訪問互聯(lián)網(wǎng)的流量(或者特定的流量,如總部到分支的專線的流量),可以監(jiān)控網(wǎng)絡出口總流量和整體I P協(xié)議分布情況,每臺計算機整體流量統(tǒng)計情況、當前占用帶寬的情況、訪問應用協(xié)議的情況、當前會話情況等等,發(fā)現(xiàn)網(wǎng)絡內(nèi)存在的 a r p 欺騙問題、攻擊和被攻擊問題、發(fā)現(xiàn)可能有蠕蟲病毒的計算機、發(fā)現(xiàn)使用B T或者其他工具進行大量下載和上傳而影響網(wǎng)絡其他用戶正常使用互聯(lián)網(wǎng)的計算機等。告警管理系統(tǒng)
通過事前的運維管理,主動反映網(wǎng)絡故障隱患,讓管理員對網(wǎng)絡和服務器的管理工作由被動管理變?yōu)橹鲃庸芾恚嬲龑崿F(xiàn)無人值守的網(wǎng)絡運維管理。系統(tǒng)支持多種報警方式,包括手機短信、電子郵件和監(jiān)控終端屏幕、蜂鳴器、電話等。用戶可以非常靈活的設定報警規(guī)則,包括對聯(lián)系人進行分組;任意設定報警的時間段;任意設定報警間隔,對不同級別的管理員應用不同的策略。
日志查詢和報表分析系統(tǒng)
通過 syslog 協(xié)議接收和儲存被監(jiān)控的網(wǎng)絡設備、服務器等日志信息,并提供對儲存日志信息按設備名、程序模塊(Facility)、日志等級(Severity、Level)等進行查詢和管理。同時,可以設置監(jiān)控包含特定關鍵字的日志信息,實現(xiàn)手機短信、電子郵件等報警。系統(tǒng)提供詳盡的報警記錄和通知信息發(fā)送記錄,并且提供詳盡的性能曲線、可用性趨勢圖和分析表,報警柱狀圖和分析表等。
智能網(wǎng)絡運維管理平臺可以對網(wǎng)絡和業(yè)務應用實施深入而全面的監(jiān)控,把網(wǎng)絡拓撲發(fā)現(xiàn)、資源管理、設備管理、終端管理、性能管理、故障分析、異常流量監(jiān)測、服務器管理、數(shù)據(jù)庫管理、W E B 監(jiān)控等融為一體。通過可視化、儀表化、智能化的網(wǎng)絡導航管理模式,將復雜的網(wǎng)絡管理工作簡單化、人性化,讓網(wǎng)管軟件帶動用戶來熟悉與掌控自己的網(wǎng)絡,大大降低了用戶技術入門的門檻,讓校園網(wǎng)管理人員能夠輕松駕馭網(wǎng)絡。這必將成為未來高校進行網(wǎng)絡運維管理的發(fā)展方向。