摘 要隨著計算機技術的飛速發展,給人們的工作及生活提供了大量的便利,不僅縮短了工作時間,同時提高了效率。計算機高效準確的計算力也是各行業生存及發展的必要因素,計算機的穩定性至關重要。人們也越來越重視計算機系統的容錯技術。本文主要介紹了當前的計算機系統容錯技術及合理的升級方法,并為計算機系統的合理化發展提出了相關的建議。
【關鍵詞】計算機系統 容錯技術 硬件錯誤 軟件錯誤
1 計算機系統常見的錯誤
計算機系統錯誤不僅來源于軟件的運行故障,硬件的失靈也是造成計算機系統錯誤的原因。近年來,隨著科研人員工作的不斷深入,電路主板技術的不斷完善,計算機硬件的問題主要來源于計算機處理器的瞬時故障。而出現的原因主要是有幾個方面:首先是電壓超載,使計算機晶體管無法正常工作,從而出現瞬時故障;其次是計算機處理器的超頻處理,造成負荷過載,從而出現故障;第三是當某一個發生問題時就會造成計算機處理器出現問題,由于晶體管數量巨大,也增加了計算機故障出現的頻率。
2 計算機系統容錯技術分析
2.1 計算機硬件容錯技術
相比較軟件層面的問題,硬件方面的故障更容易發生,且修復更為困難。計算機硬件發生故障主要有兩個方面,一個是瞬時故障,主要來源于個別系統短時間停止工作,大多數是由于系統超載,這種情況主要由于計算機的多部件整合;一個是永久故障,主要源于個別系統部件損壞,而維修方法只能是更換損壞的部件。
計算機的硬件容錯設計思路是通過對設備的溫度管理或對操作系統安裝備用設備,來解決在硬件發生錯誤時及時啟動備用裝備,并且反饋故障信息,以便及時檢修。
現代計算機系統的設計中通常采用的是雙系統模式,甚至三系統模式也很常見,多系統的設計方案存在固有的問題,每個系統的錯誤都需要獨立修復,這就說明允許出現的故障率是n-1,在使用過程中,必須保證其中的一套系統處于工作狀態,才能保證計算機不會停止運行。多系統的設計方案會造成計算機發生故障時,就會造成故障信息的反饋延遲,需要統一管理設備進行查找故障。
計算機系統的冗余設計指的是在信息傳輸過程中,通過增加信息的重復以便在計算機出現故障時確保信息傳輸的完整性。計算機信息冗余容錯技術有兩種方法,一種是計算機錯誤信息的檢測,另一種是計算機錯誤信息的糾正。
計算機信息的冗余技術故障檢測方式的優勢有以下幾個方面:成本低、操作簡單、故障檢測速度快、信息處理及時。
計算機時間冗余技術可以增加計算機系統的容錯率,操作方法是在統一的硬件設施上,在不同的時間段對相應的計算機指令操作。計算機在表決電路的協同下,將信息數據延遲發送至處理器,并根據處理時間復制為多個附件,再推送至表決器,從而查找故障原因。
計算機實踐容錯技術的核心是推送數據流的延遲,延遲時間過長會錯過計算機修復的最佳時間,增加系統出現問題的概率。如果延遲時間過短,則會在短時間內數據量過大,從而造成信息的冗余,也會增加計算機系統的故障率。
計算機硬件線程技術是通過多核心的中央處理器使真正線程上的錯誤降級,這就可以有效的減少計算機整體系統故障的發生率。多線程容錯技術的核心是啟用多個主引導線程和多個備用線程分別進行數據計算,并將計算結果上傳到頂層數據分析器進行比對,最終發現錯誤。但是這種容錯技術也存在缺陷:工作量大,效率低,并且多個主引導線程和多個備用線程同時計算,很容易引發設備部件鎖死。
2.2 計算機軟件容錯技術
計算機軟件的容錯技術主要是提前控制。計算機軟件多樣,并且在涉及過程中并沒有統一的標準,因此對于各個軟件的故障控制較為困難。所以計算機軟件在出現故障問題時,大多數屬于編程人員的編寫錯誤。為了提高計算機軟件的使用效率,降低出錯率,就要求軟件在編寫過程中采用高級編程語言來進行,當前C++是最高級的編程語言,可以有效的降低計算機軟件的報錯率,提高使用效率。
計算機軟件出現故障時的應對策略有兩種,一種是回滾恢復,即計算機回滾至出錯之前的最后一次正確運行狀態,重新進入正常運轉;一種是后向深入,即計算機軟件可以自我查找故障原因,自主排除故障,從而恢復正常運轉。
計算機多版本軟件容錯技術的方法是通過多種編程語言和開發工作制造多版本軟件,大大提升計算機的兼容性,從而提高計算機的容錯率。多版本軟件容錯技術設計需要注意保持設計框架的一致性。從而確保軟件發生故障時的回滾。
3 計算機系統錯誤回卷恢復機制
計算機硬件及軟件錯誤排除方法的核心都是在系統運行過程中,通過反饋信息,對故障進行針對性的解決。這種排除方法的優勢在于可以排除虛假信息,并且不會中斷計算機的運行。缺點是對于錯誤的檢測和恢復能力是有限的。
計算機系統錯誤回卷恢復機制有兩個方面:一個是以之前計算機操作系統的檢測點為基準,進行錯誤回卷恢復;一種是以計算機操作系統錯誤統計信息為基準,進行錯誤回卷恢復。
4 常見的計算機故障排除策略
針對不同計算機的安裝環境、運行方法、信息處理方式,采用相應的故障排除方法。當前計算機容錯方法主要還是在廣泛的方法上進行創新,通過非定制的COTS預防式處理計算機可能出現的系統故障,同時COTS可以確保計算機軟件在修復錯誤時的可靠性。
當前,計算機硬件故障的檢測和排除相對比較完善,但是對于軟件方面的故障排除技術有待發展,未來通過不斷對軟件故障排除研究的深入,從而提高計算機系統的容錯率,有效的提高計算機的使用效率,降低軟件故障排除成本。
計算機的操作系統是計算機運行、儲備的核心,因此提高計算機的安全性可以從計算機操作系統進行著手研究,在高精尖的技術領域中,國外的操作系統安全性低,不利于國防事業的發展,而國內的操作系統相對落后,也不適合應用到高精尖領域。因此提高我國操作系統的應用能力,是未來我國計算機產業發展的方向。
參考文獻
[1]徐奡,夏德天,鄭久壽.高升力系統控制計算機容錯技術研究[J].微電子學與計算機,2015,6(17):36-40+45.
[2]賈佳,楊學軍,李志凌.一種基于冗余線程的GPU多副本容錯技術[J].計算機研究與發展,2013,07(23):1551-1562.
作者簡介
卓杰(1976-),男,山西省臨汾市人。助講,主要從事計算機教學工作。
作者單位
臨汾職業技術學院 山西省臨汾市 041000