歐盟CLERECO項目跨層技術的可靠性評價
為了降低成本、優化設計并縮短產品的開發周期,使產品提前上市,需要開發一種新的方法以在早期設計階段對一些系統的可靠性進行評估。而歐盟的CLERECO-(連續計算跨層技術的早期可靠性評估)項目通過在不同的計算科學、計算系統層和細分計算這3個方面施行跨層方案可以解決系統的早期可靠性評估問題。
跨層系統可靠性分析的實現需要深入了解系統的故障產生層、系統故障如何演變為錯誤,以及錯誤如何在層與層之間傳播,并影響系統的最終任務。一個系統可以被看做一個堆棧,主要包括3個層次:技術層、硬件層和軟件層。圖1說明了故障是如何在系統中產生和傳播的。
系統的可靠性分析需要識別合適的高級統計模型,以使該模型能夠表示系統及其脆弱性因素并能夠進行統計推理。CLERECO項目選擇貝葉斯網絡作為建立早期系統可靠性分析的基本模型。簡化的貝葉斯系統模型示例見圖2,該示例可表明基本的建模概念,并說明如何實現系統可靠性的統計推理。
功能模塊對系統硬件脆弱性因素影響較大,需開發能夠表征功能模塊特性的工具。在CLERECO項目所提出的系統可靠性模型框架中,CLERECO項目開發了微架構模擬器工具。利用微架構模擬器,通過故障注入架構將故障模型注入系統中以評估硬件對系統可靠性的貢獻。
軟件堆棧在屏蔽錯誤中起重要作用,從而提高系統的可靠性。在CLERECO項目中,利用依靠軟件虛擬化的概念將指令集架構(ISR)與硬件分離,通過將軟件故障模型注入到基于低級虛擬機(LLVM)的故障注入器中評估軟件對系統可靠性的貢獻。
CLERECO項目的基本目標是深入研究一種面向未來的連續計算系統方法,以在早期系統設計階段對其可靠性進行評估。CLERECO項目的解決方案不能取代傳統設計結束時采用的可靠性驗證技術,只能在方案設計早期,幫助工程師優化系統設計并原始錯誤 時間脆弱性因子細胞脆弱性因子
μ架構脆弱性因子架構脆弱性因子軟件脆弱性因子提高產品成功的可能性。

圖1 故障的跨層傳播

圖2 貝葉斯系統模型
刊名:Microprocessors and Microsystems(英)刊期:2015年第8期
作者:A.Vallero et al
編譯:徐濤