引言:網絡核心層設備雖然非常穩定,但是一旦出現異常將會產生很大的負面影響。本次筆者將在運維中遇到的實際情況,從問題的發現、原因查找和故障排除整個過程進行反思總結。
在某次機房安全檢查時,筆者突然發現內網和外網核心交換機故障燈亮起了紅燈。
筆者首先對機房進行物理環境檢測,結果設備正常,雖然有一層的灰塵,但對排風影響不大;室內空調溫度正常;靜電地板出風口正常(我們采用的是空調向下吹風)。
接著,登陸核心交換機,查看設備運行狀態、設備日志、風扇轉速和溫度等,結果發現是設備溫度過高,超過了設備板卡報警溫度,導致故障燈亮起。
筆者發現網絡核心溫度過高后,馬上對機房的其他匯聚層交換機進行全面“體檢”,匯聚層溫度狀態都為normal,于是立即將情況向主管匯報。在機房查經過一系列問題排查,物理環境基本都沒有問題,也沒有查找到原因所在。

圖1主進風口防塵網清理
經詢問售后工程師,原來是我們對自己的設備了解不充分造成的,只知道核心交換機前后有出風口,前面是電源的進風口,后面是4個風扇的主排風口。但事實上設備的主進風口并不在前面而是在側面,而設備側面又緊挨著機柜側面板,兩者相距僅有5cm左右。當我打開機柜側面板一看交換機側面主進風口已經掛滿了厚厚一層灰塵絮狀物,至此在算找到了罪魁禍首。
設備的主進風口防塵網清理方法如圖1所示,以供參考。經過這件事情,自己也經行了認真反思總結。
首要原因就是對自己的設備了解不清楚、認識不全面,核心設備雖然非常穩定,但是一旦出現問題影響會非常大。次要原因就是由于空調冷卻采取的是下吹風,在工程交付時可能由于地面沒有清理干凈,造成地板下面有一定的積灰。
在以后的工作中,會詳細了解設備的結構,只有知道主進風口位置,才能避免它不被遮擋影響設備散熱,因為小問題而引發大故障。