高校計算機實驗室機房的硬件設備維護

2020-02-03 02:38:40王光燁

電子技術與軟件工程 2020年19期

王光燁

（山西管理職業學院山西省臨汾市 041051）

隨著高校教育的不斷發展，計算機實驗室不再僅僅承擔計算機課程的實驗教學任務。計算機實驗室的作用正在逐步增多。除了進行計算機課程的實驗教學外，還負責進行課程的設計。計算機課程以外教育目標的實現，需要軟件的協助，以及負責多種質量考試和多種技能競賽的任務，導致計算機實驗室中的計算機使用緊張。此外，計算機機房中還存在許多不確定因素：灰塵、室溫和濕度、電壓不穩定等現象。因此，計算機機房中的計算機硬件進行維護十分重要[1]。

1 硬件維護的基本原則及方法

如果計算機出現故障要遵循先軟后硬、先外后內、先簡后繁、先大后小的原則，通過直接觀察法、簡單插拔法、逐一插拔法、替換法、內存交換法的步驟進行故障排除[2]。

2 硬件維修的基本步驟

2.1 觀察故障

在啟動或操作過程中，請仔細觀察微機故障現象。假如在計算機可以進行繼續加操作的狀況下，可以通過進行重復操作并對相似故障進行詳細分析，從不同之出來進行故障的分析，以便可以準確的進行故障類型分辨。

2.2 進行一般檢查

2.2.1 系統硬件安裝檢查

先查看電源是處于正常連接的狀態，電源電壓伏數是不是適用于設備使用，然后是外在部件與主機、鍵盤、顯示器是否正常連接，接頭是否完好[3]。

2.2.2 監察系統CMOS 的Setup 設置

在系統可以正常顯示時進入CMOS 的Setup 對系統設置進行檢查，看其是否正確，主要是對硬盤參數的檢測、軟盤驅動器參數和引導順序以及軟驅交換等參數。假如對硬盤參數的正確性無法做到準確判斷，將硬盤參數進行重新制定，比如用CMOS 中硬盤自動檢測程序進行操作。

2.2.3 對計算機病毒進行檢查

在系統可以進行軟盤操作時，對計算機是否存在病毒的檢測，利用殺病毒軟件進行，比如在遇到硬盤引導故障或者是打印機故障時，就可以采用查病毒軟件進行病毒查殺[4]。

2.3 故障部件的查找

想要對故障類型作出準確的辨別，之后對計算機進行基礎的檢查，例如；相關組件的連接和設置問題等，進行逐一排除，排除計算機病毒的影響，并結合上述故障診斷方式找到導致故障的原因并進行排除。

2.4 進行故障處理

處理故障部件。

3 硬件的故障分析及維護方法

計算機的硬件部分經常有許多而復雜的故障出現。最常見的就是黑屏、開機沒反應或者反復死機等情況，這都是由于硬件故障而造成的。涉及到主機所有組件包括主板故障，顯卡故障和硬盤故障等。下面是針對主板診斷卡、硬盤等硬件的故障及診斷方法做出的分析。

3.1 主板診斷卡的故障診斷

主板診斷卡是在設備開機狀態下出現無顯示故障時進行，例如出現自檢硬件錯誤，揚聲器發出滴滴聲，屏幕不能正常顯示等。其診斷方法如表1所示。

3.2 診斷處理硬盤存在的故障

下面是對硬盤故障的分析與一般的處理步驟如表2所示。

3.3 內存故障處理方法

內存是計算機的內存組件，用來對計算機臨時處理的數據和程序進行存儲。內存如果出現故障會直接影響計算機運行以及程序的應用。比如不能玩大型游戲，除了顯卡出現故障再就是內存出現故障的表現。下面講了智能故障處理方法原理及實現。

3.3.1 智能處理方案的應用場景

可以根據重復出現的故障將一致的外觀，規則的出現和外觀轉換為特定的業務或系統指標。根據這些指標，可以提供各種故障的解決方案，因此，當發生故障時，可以自動進行智能判斷和處理。

3.3.2 模塊說明

內存數據庫錯誤處理解決方案主要分為五個模塊：事件監視（錯誤監視），閾值設置，智能判斷，錯誤管理和及時警告。

（1）事件監控。事件監控（即故障監視）將各種獨立的故障現象以事件的形式進行監視，利用各種算法對業務和系統操作信息進行統計分析并將其轉換為能夠進行識別的指標。

（2）閾值設置。該模塊主要基于從事件監視轉換得到的指標信息，根據故障和過去累積的知識庫以及預定義的指標閾值，為智能判斷模塊進行處理做出引導。并且可以根據實際情況對該閾值進行調整。

（3）智能判斷。智能判斷模塊將從事件監控模塊獲得的指標信息與閾值調整模塊設置的閾值進行比較，并根據比較結果選擇不同的錯誤處理過程。

（4）故障處理。故障處理模塊是利用智能對模塊執行和故障處理相關的程序進行判斷，并根據特定的故障和處理程序創建這些程序。

（5）實時預警。實時警報模塊是實時顯示和通知整個智能處理進行過程的相關信息的模塊。它主要用于給相關人員發送信息，比如發送故障發生，智能處理過程信息和結果信息。便于相關處理人員監視故障處理過程。

3.3.3 智能處理方案的具體流程

以TimesTen 內存數據庫執行的實時計費系統中的錯誤為例。這種情況是由于數據庫統計信息異常而導致的錯誤?；趯崟r計費系統的業務性質，當存儲器數據庫中的統計信息與業務表中的實際數據量之間的差異大于30%時，會發生異常，這將導致業務系統發生故障。這種情況分為2 個事件：CPU 使用率和離線話單率。

表1：主板診斷卡的故障診斷

表2：硬盤故障的分析與處理步驟

（1）分析和總結故障現象，然后轉向事件監視。

（2）預設事件發生的失敗閾值，對其進行優化，然后根據后續的業務運營進行相應調整。

根據當前發生的事件，預定義的錯誤閾值有兩種：一種是處理器利用率預設為百分之八十。業務正常運行時，CPU 利用率低于百分之八十。另一種是離線計費率預設為百分之十。在正常的業務活動過程中，離線計費率低于百分之十。

（3）根據事件錯誤的出現執行首次智能處理。假如CPU 使用率或脫機計費率超過預定義的閾值，在沒有進行其他任何系統更改的狀況下，則可以將其設定為中間臨時表，對不準引發故障進行統計收集。即可對中間臨時表的統計信息進行統計。中間臨時表中的數據通常不高于三十萬行，因此所需的運行時間相對短，通常可以將時間控制在五分鐘內。

（4）進行了首次處理，在完成五分鐘以后，對CPU 使用率和離線話單率進行重復統計分析。

（5）由于第一次處理僅完成中間臨時表上的統計信息收集，因此不得不考慮業務突然修改其他非臨時表中的許多數據。所以，即便在第一次處理沒能將故障解決，此時也必須及時收集整個數據庫數據以進行第二次智能處理。整個數據庫的統計信息收集通常在不到30 分鐘的時間就可以完成，但是對于實時計費系統講，30 分鐘的處理時間是不能接受的。因此，應立即向操作和維護人員發出警報，以同步處理并減少故障排除時間。

（6）假如即便在完成整個數據庫的統計信息收集后仍未解決該故障，則可以確定該故障是由其他原因造成的，應該專業維護人員進行處理，此時，警報需要再次響起，警報級別應增加。

4 結束語

隨著科學技術的不斷發展與進步，計算機面臨著各種各樣的故障問題，只有持續的進行探索與實踐，從而得到經驗才可以更好的對計算機軟硬件進行維護。