徐燃柏
【關鍵詞】機房管理;計算機硬件;故障分析;維護要求
在針對計算機機房中的硬件設備開展維護與管理工作時,工作人員需要明確計算機機房的一般結構形式,并依據此結構形式,選擇具體的問題排查辦法。一般情況下,計算機機房的整體結構形式并不會十分復雜,這與計算機機房自身的散熱需求相關。其中,機柜的布置應整齊有序,與機柜相連接的各類輔助設備應運轉正常,且運行穩定,需要滿足不同區域的計算機硬件設備控制需求。從硬件設備組成內容的角度分析,其中,與網絡通信相關的設備數量往往較多,包括路由器設備以及數據交換機設備等,此類設備對計算機服務器設備的運行效率有關鍵影響。除此之外,在開展此類計算機硬件管理與維護工作之前,工作人員應明確此類硬件設備常見的問題,并將此類問題固定到單一類比的硬件設備上,這不僅有利于定位問題的源頭,更有利于提升計算機硬件問題的處理效率。
(一)電源系統硬件故障分析
電源系統硬件故障問題是常見的硬件設備問題,此類問題的主要原因與電源本身的供電穩定性和供電能力相關[1]。但是,在出現了電源系統硬件故障問題時,此類問題的表現形式往往較為復雜。計算機機房中的電源種類眾多,體積相對較大的電源控制硬件單元一般會與機柜或者空調系統相連,并且此類硬件單元的整體結構形式往往較為復雜。在出現問題時,這種電源作用效果會出現在下游設備中,進而對計算機硬件設備的運行效能產生影響。例如,在總線輸入電源出現問題時,下游的計算機散熱機組以及網絡交互機組可能會出現運行穩定性問題或者直接停止運行。此時,工作人員需要從計算機散熱機組以及網絡交互機組端開始排查,并且往往不能馬上斷定是否為電源的問題。另外,硬件設備自身的電路電壓也會影響硬件設備的運行穩定性,而這種電路層面的問題極其麻煩,會對工作人員排查硬件問題產生干擾。
(二)空調系統硬件故障分析
如果計算機機房的環境溫度超出了35℃,則此時的環境溫度已經不適合機房中硬件設備的運行要求了,需要馬上進行降溫處理,否則會誘發計算機設備運行安全的問題,導致實際的運行效能下降[2]。在較高的溫度狀態下,計算機硬件設備的運轉滯后性將會更加明顯,一些與網絡數據交換、數據存儲相關的硬件設備甚至會直接報錯。空調系統故障時,工作人員需要對空調系統的自適應調節控制單元進行檢修,明確此類空調系統存在的控制問題。現階段,計算機機房的空調系統具備了智能化調節的屬性,可以根據環境溫度自行進行空氣溫度調節,從而促使計算機機房的溫度可以維持在固定的溫度區間。但是,智能化控制系統如果出現了問題,其發送的空氣調節指令就會出錯。此時,如果溫度傳感器檢測到的溫度與實際的指令控制溫度之間存在沖突,則相應的溫度調節行為就會出現沖突,從而無法表現正確的溫度調節行為,最為常見的溫度調節行為即為溫度失衡調節行為,其會直接影響機房的控制溫度,進而影響計算機機房中各類硬件的運行效能。
(一)應具備錯時維護特點,不能與固定需求之間出現維護沖突
錯時維護要求是計算機機房硬件設備管理及維護的基本要求,維護工作與故障處理工作可以同時進行,但是維護工作需要為故障處理工作提供處理參考數據,此類數據也是計算機硬件設備的維護經驗數據。一般情況下,計算機機房中的機柜數量較多,不同機柜復雜的運行功能不同,對應的硬件設備運行需求也存在差異[3]。在出現硬件設備問題時,會體現在具體的軟件運行層面,尤其是網絡信息交互層面。此時,工作人員需要及時定位此類問題硬件所在的機柜,之后需要根據硬件的運行要求,啟動備用硬件設備。但是這個過程的持續時間可能會比較長。為此,工作人員應選擇錯時維護的辦法,在機柜運行需求不高時,依次維護運行設備,檢修設備的實際運行狀態,這樣,既可以避免對已經參與運行的硬件設備產生影響,也可以避免與固定需求之間出現維護沖突,實際的硬件維護管理工作質量也會更好。
(二)應具備良好的維護成本管控效能,降低硬件資源浪費
維護成本管理是計算機機房硬件設備管理與維護中的關鍵內容,現階段,智能化的計算機硬件維護管理方式比較常見,但是其內部運行的各類指令依舊需要工作人員進行控制,并且需要根據機房的實際運行狀態進行變化和調整。在這個過程中,設備的維護和檢修工作往往相對復雜,與電力系統維護、空調系統維護、網絡組件維護以及線路管網維護相關的工作內容較多,需要工作人員按照標準化的檢修流程進行作業。如果計算機機房出現了明顯的硬件設備問題,此時,與此硬件設備相關的維護與檢修工作則需要多名檢修人員相互配合完成,這樣才能獲得較好的硬件設備維護效果。但是,這種時間成本會直接轉化為經濟成本,而且往往消耗的維護資金比較多。這就要求工作人員在參與此類硬件設備維護與管理工作時,需要注意成本的管理和控制。同時,更需要注重減少硬件資源的浪費,這樣才能有效控制計算機機房硬件設備管理與維護成本。
(一)重視指示燈、儀器儀表維護檢修數據,強化數字化維修基礎
指示燈以及指示等相關的儀器儀表數據是計算機機房硬件維護的數據基礎,此類數據會直接顯示在相應的故障報錯組件中,工作人員根據相應的指示燈形態即可確定具體的硬件故障和問題。在這個過程中,工作人員需要明確不同指示燈的具體指代情況。例如,在硬件網關的運行過程中,其運行狀態往往包含三種顏色的指示燈,即黃色、綠色和紅色。其中,黃色和綠色代表硬件網關運行正常,但是如果黃色等閃爍,則說明可能存在網關延遲性問題,此時,工作人員需要對具體的延時進行測試。如果滯后的時長并未超出硬件網關的相應時效,則不需要進行維修,在后續的運行過程中此類設備可能會自動調節指令的引導下恢復正常[4]。但是,如果硬件網關的紅燈亮起,則說明網關并未通過,實際的數據吞吐量已經降到了最低,無法滿足計算機硬件系統的運行要求。則此時,工作人員應對相應的硬件設備進行針對性地維修和處理。需要注意的是,現階段,數字化維修的故障顯示效果并不十分完善,與此相關的數據可能顯示不正常,但是實際的硬件運行過程卻沒有顯性問題。這一方面與數字化控制系統的運行敏感度相關,另一方面也與硬件設備自身的質量相關。
(二)細化硬件設備維護調試流程,歸納總結常見硬件問題
硬件設備的維護調試流程具有規范化的特點,并且其細節性突出,需要工作人員在明確具體的排查流程基礎上,強化設備維護與調試工作的規范性,同時,應在實踐工作中積累技術應用經驗,變化故障排查辦法,從而提升故障設備管理與維護的有效性。首先,在對計算機機房硬件設備的組建形式有了充分的了解之后,工作人員需要明確此類設備的運行過程中可能會出現的問題。例如,對于空調設備,其常見的問題即為溫度感應器的自動控制問題。針對此種問題,工作人員需要明確引發此類問題的常見因素,這樣,在出現類似問題時,即可以直接進行問題的排查和故障的檢修;其次,工作人員需要明確計算機硬件設備故障排查的系統性特點,這種系統性特點與硬件設備自身的運行需求相關,但更多的在于硬件設備本身運行的功能性。換言之,硬件設備的功能實現形式并非單一設備功能實現形式,而是需要多種設備相互配合。如果出現了設備運行問題,工作人員也需要從結構整體的角度排查此類問題,這樣才能提升設備維護及管理調試工作質量。
(三)準備硬件故障響應預案,合理安排設備管理與維護周期
針對易損設備組件制定故障相應預案尤為關鍵。現階段,這種故障相應預案會在實際的設備運行過程中表現出不同的設備應用形式,但基本上均為增加備用設備的數量。在電力系統出現問題時,為了確保電能供應的穩定性,工作人員可為關鍵機柜設備的總線開關提供應應急相應備用方案。在出現了類似問題時,系統會直接啟用備用電力裝置,停止故障裝置的運行。這樣不僅可以提升電力系統運行安全性,也可降低故障設備對計算機機房硬件設備運行成本的影響。需要注意的是,并非所有的硬件設備均需要配置應急預案,此類設備為維護周期比較長,一般情況下,并不會出現明顯的故障問題。例如,與線路運行相關的網線設備或者交換設備等,此類設備的運行穩定性較好,并不會在運行過程中出現明顯的故障問題。
總之,計算機機房硬件設備管理與維護的具體形式和辦法需要符合機房自身的運行管理需求,其中,電力系統與空調系統為設備維護與管理中的關鍵系統,也是影響硬件設備維護效能的關鍵內容。此間,工作人員需要合理選擇備用系統資源,積極調整設備管理與維護周期,從而降低設備維護與管理成本,提高設備管理與維護工作的整體質量。