引言:在網(wǎng)絡(luò)的運(yùn)行維護(hù)中,網(wǎng)管人員經(jīng)常關(guān)注的是網(wǎng)絡(luò)的通斷、丟包率和時(shí)延等指標(biāo),而對(duì)組成網(wǎng)絡(luò)的各個(gè)網(wǎng)絡(luò)設(shè)備的性能關(guān)注不夠,導(dǎo)致看似運(yùn)行正常的網(wǎng)絡(luò),故障的隱患正在悄然積聚。筆者單位發(fā)生的一起故障,就是因?yàn)榻粨Q機(jī)系統(tǒng)問題,導(dǎo)致內(nèi)存利用率出現(xiàn)單調(diào)遞增的現(xiàn)象。
單位為實(shí)現(xiàn)總部與各分散下屬單位召開視頻會(huì)議,根據(jù)需要先后采購(gòu)了3套視頻會(huì)議系統(tǒng),在總部中心機(jī)房利用3臺(tái)華為S5700交換機(jī)分別作為3套系統(tǒng)的接入交換機(jī),進(jìn)行連接入網(wǎng)。同時(shí),利用現(xiàn)有的運(yùn)維管理系統(tǒng)對(duì)新入網(wǎng)的3臺(tái)交換機(jī)進(jìn)行了監(jiān)測(cè)。網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
某天,最先投入使用的視頻會(huì)議系統(tǒng)在一次使用中突然出現(xiàn)畫面中斷,現(xiàn)場(chǎng)保障人員迅速到機(jī)房查看系統(tǒng)運(yùn)行情況,發(fā)現(xiàn)是網(wǎng)絡(luò)連接中斷導(dǎo)致。由于查看及時(shí),還觀察到了該視頻會(huì)議系統(tǒng)的接入交換機(jī)正在進(jìn)行重啟。隨即排除了線路的原因,將排查的重點(diǎn)定位在華為S5700視頻接入交換機(jī)上。約5分鐘后,交換機(jī)重新啟動(dòng),并恢復(fù)了視頻會(huì)議系統(tǒng)的業(yè)務(wù)功能。

圖1 視頻會(huì)議系統(tǒng)網(wǎng)絡(luò)組織圖

圖2 視頻交換機(jī)一個(gè)月的內(nèi)存變化曲線
由于事先將該交換機(jī)納入了運(yùn)維系統(tǒng)的監(jiān)測(cè)管理,運(yùn)維系統(tǒng)通過SNMP主動(dòng)向交換機(jī)輪詢采集各種數(shù)據(jù),同時(shí)交換機(jī)也通過trap配置,適時(shí)向運(yùn)維服務(wù)器發(fā)送trap事件。就在故障發(fā)生的同時(shí),在運(yùn)維系統(tǒng)的監(jiān)測(cè)畫面中也出現(xiàn)了該交換機(jī)發(fā)生linkdown事件的告警,由此更加斷定確實(shí)是由于交換機(jī)故障才導(dǎo)致的視頻會(huì)議系統(tǒng)中斷。……