999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

SRAM 存儲的容錯設計和可靠性評估研究?

2019-11-29 05:13:54程振洪熊庭剛
計算機與數字工程 2019年11期

程振洪 阮 航 熊庭剛

(武漢數字工程研究所 武漢 430205)

1 引言

計算機系統離不開存儲設備支持,惡劣環境中的存儲設備的存儲性能易受影響甚至引發故障,直接導致計算機系統的崩潰。據統計,80%以上的系統崩潰問題均由存儲設備數據錯誤引起。近年來針對糾錯碼的研究推動了存儲容錯進程[1]。文獻[2]針對硬件實現糾一檢二的編碼用于內存保護時糾錯能力有限的問題,提出了一種軟硬件協同的EDAC(error detection and correction)檢錯糾錯方法。在硬件對水平方向的每個字進行糾一檢二編碼的基礎上,該方法在軟件上對垂直方向的每個位片進行奇偶編碼,并通過軟硬協同方式發現并糾正內存位翻轉錯誤。該方法無需增加額外硬件開銷,相比純硬件EDAC 的可靠性有一定提高,不足之處是系統性能的開銷有所增加。漢明糾錯編碼在硬件容錯方向應用廣泛,如文獻[3]提出一種基于[12,8]拓展漢明編碼[4]的AES(Advanced Encryption Standard)硬件容錯設計方法。文獻[5]基于一套ECC加固的SRAM 可靠性評估體系,采用廣泛應用的MTTF(平均無故障失效時間)作為可靠性依據。文獻[6]提出了基于閃存錯誤特征的聯合譯碼策略,并研究了面向閃存系統的多進制LDPC 碼。文獻[7]針對內存單粒子翻轉問題采用SEC-DED編碼進行糾錯。文獻[8]用軟件實現SEC-DED 編碼,盡管多位錯誤翻轉出現概率不大,但仍是該可靠計算機設計不得不考慮的問題。除了存儲器本身出現的數據錯誤外,數據在片外傳輸通道上的信號衰變和損耗也會導致錯誤發生,故設計合適的糾錯編碼保證傳輸質量十分重要[9]。另外,NAND 閃存的糾錯工作也是近年的研究熱點,多種編碼得到應用,如二維漢明編碼[10],QC-LDPC碼[11],RS碼[12]。其他應用場景,如存儲系統芯片級容錯[13]、光存儲糾錯[14]、云存儲容錯[15]也有研究。

采用軟件或者軟硬件結合的糾錯技術雖然能夠一定程度上滿足糾錯需求,但存在數據糾正效率較低,難以解決內存在連續訪問模式下的數據糾錯問題,另外當前涉及鏡像存儲結構的可靠性研究十分稀少,本文針對此情況展開研究。

2 SRAM存儲容錯硬件設計

本文的SRAM 存儲容錯方案在硬件上采用鏡像內存結構。鏡像內存采用兩片物理特性相同的內存,通過添加額外的特殊控制電路,使得內存的寫操作得以同時進入兩片內存。當錯誤發生時,可以快速切換至備份內存總進行讀寫操作。鏡像內存通過內存熱插拔技術,即使內存出現物理性的永久損壞,也可以在系統運行時替換內存。執行替換后,再通過內存間拷貝的方式,迅速從備份內存中恢復有效,提高內存系統的可靠性,從而達到延長系統無故障運行時間的目的。本文所采用的鏡像內存系統原理框圖如圖1所示。

圖1 原理框圖中兩套物理上獨立的CPU 總線分別與存儲模塊A、B 連接,用于傳遞CPU 的讀寫事務和內存反饋的數據信息??偩€協議解析/封裝模塊起到兩個作用:1)從CPU總線解析得到內存訪問的類型、類型、數據信息;2)將讀取的內存數據封裝成CPU 總線的協議。ECC 編碼模塊將CPU 總線寫入內存的原始數據進行ECC編碼處理,在其后添加校驗碼字段,形成ECC編碼字段。ECC解碼模塊將從內存讀出的ECC編碼數據進行解碼,解碼過程中按照ECC 規則進行,如果數據校驗不通過,則在ECC 的糾錯能力范圍內對錯誤數據位進行糾正。如果錯誤個數超出糾錯能力范圍,就通告總線協議解析模塊,將錯誤信息反饋至CPU總線。內存分兩部分:一部分是數據存儲顆粒,用于存儲數據,即ECC 的信息碼;另一部分是校驗碼存儲顆粒,用于存放校驗數據,即ECC的校驗碼。

圖1 鏡像內存系統原理框圖

板間修復控制器用于應對ECC 解碼模塊檢出數據錯誤,但無法將錯誤糾正的情況。一旦出現ECC解碼模塊不能糾正的錯誤,ECC解碼模塊通告板間修復控制器,板間修復控制器向另一存儲模塊發出修復請求,獲取相應數據單元的正確數據。在獲取正確數據后,正確數據和其校驗碼將被存儲控制器重新寫入原出錯單元,完成覆蓋和糾正。

對于圖1 鏡像內存系統,當內存數據讀出時,ECC 解碼模塊會存在兩種可能性:第一種情況,數據位翻轉導致的錯誤在糾錯碼的糾錯能力范圍內,ECC解碼模塊可以糾正這類錯誤,并獲得正確的譯碼后數據交給總線協議封裝模塊進行封裝;第二種情況,數據位翻轉導致的錯誤超出糾錯碼的糾錯能力范圍。此時,ECC 解碼模塊可能檢測到這類錯誤,并將這一錯誤通過信號傳遞給板間修復控制器。通過板間修復控制器,正確數據可以通過請求和應答的握手方式由存儲模塊間的數據通道傳遞,完成對糾錯碼不可糾正錯誤的糾正工作。

3 SRAM存儲容錯邏輯設計

3.1 存儲容錯邏輯頂層設計

根據圖1 所述鏡像內存系統原理框圖,并結合自頂而下的數字邏輯設計思想,本文設計了如圖2所示的鏡像內存系統邏輯頂層。

圖2 用于鏡像內存的糾錯系統具有數據/地址總線、存儲模塊A、存儲模塊B,其中存儲模塊A 與存儲模塊B 具有相同的內部結構,形成冗余關系。訪問類型指定內存存儲陣列的訪問模式,如單次寫、單次讀、突發寫、突發讀;原始數據指定即將寫入內存的數據流;無誤讀出數據指定從內存單元讀出的經過糾錯處理的正確數據流;交錯通道A-B與交錯通道B-A 實現存儲模塊A 與存儲模塊B 間的錯誤信息和正確數據片段的實時交換。另外,存儲模塊A與B結構相同,可以替換使用。

圖2 鏡像內存系統邏輯頂層

事件/數據緩沖單元實現了對訪問類型和原始數據的忙時緩沖和閑時釋放功能。當糾錯控制核心處于數據糾錯、恢復的繁忙狀態時,事件/數據緩沖單元分別將訪問類型和原始數據緩存到一級事件緩存和一級數據緩存中。當糾錯控制核心完成糾錯控制過程,只要一級事件緩存或一級數據緩存非空,則打開緩存使能,選擇器將選擇緩存類型和緩存數據分別作為事件輸入和寫入數據進行輸出,從而提高下一個內存訪問事務的處理速度。另外,如果糾錯控制核心空閑時這兩個一級緩存為空,則選擇器選擇訪問類型和原始數據作為事件輸入和寫入數據,從而達到減少內存訪問的延遲,提高內存響應速度的效果。

編碼觸發單元實現了對不同訪問類型的編碼和觸發功能。它的輸入為事件輸入,來自事件/數據緩沖單元。它的輸出為事件編碼,連至糾錯控制核心。ECC 編碼/譯碼單元實現對寫入數據的糾錯編碼和內存讀出數據的糾錯譯碼。它的寫入數據來自事件/數據緩沖單元,即待編碼數據,由它輸出的編碼數據連接數據修復存儲控制器及存儲陣列,是通過糾錯編碼處理后的結果。糾錯譯碼過程相反,待譯碼數據來自數據修復存儲控制器及存儲陣列,經過ECC 編碼/譯碼單元譯碼后輸出譯碼結果交給糾錯控制核心處理。交錯修復單元實現存儲模塊間的錯誤字節碼、正確字節段的交換和數據修復功能的輔助功能。

司大愣子媳婦遇見我,悄悄地說:“嫂子我是過來人,你呀,還是離別呦呦遠點,她是妖精,你小小年紀,別被她吸干了?!?/p>

3.2 糾錯控制核心設計

圖2 中糾錯控制核心采用狀態機設計實現。該狀態機在多個外部輸入條件的變化下,在不同的狀態間進行跳轉,并控制內存控制器進行各種操作,如內存單次寫、內存單次讀、內存burst 讀。糾錯控制核心中重要的功能是多個出錯狀態的檢測和對應的糾錯控制狀態。為了使糾錯控制的過程更加明白清晰,在此使用圖3 糾錯控制核心狀態機流程圖進行解釋。

圖3 糾錯控制核心狀態機流程圖

糾錯控制核心狀態機的行為如下。

在IDLE 狀態下,等待各種類型內存訪問事件的觸發。在WRITE狀態下,進行單次/突發寫控制,指示內存控制器將編碼數據寫入存儲陣列。在SINGLE_READ狀態下,進行內存單次讀控制,指示內存控制器將待譯碼數據從存儲陣列讀出。在ECC_CHECK 狀態下,單次檢查ECC 譯碼單元輸出的錯誤字節碼。在LOCAL_FIX 狀態下,控制本模塊內存數據修復過程,修復數據來自與之通過交錯通道連接的另一存儲模塊。在OTHER_FIX 狀態下,將本模塊譯碼數據通過交錯通道交給與之連接的另一存儲模塊,以滿足其他存儲模塊數據修復需求。在BURST_READ 狀態下,進行內存突發讀,按照設定的突發長度管理內存控制器從存儲陣列中連續讀數。在BURST_CHECK 狀態下,連續檢查ECC 譯碼單元輸出的錯誤字節碼。在BURST_FIX狀態下,控制交錯修復單元在兩個存儲模塊間交換錯誤字節碼,并將對方錯誤字節碼對應所需的正確字節片段進行互換,最后在各自存儲模塊通過內存控制器寫入修復數據完成數據修復。

4 SRAM存儲容錯可靠性評估

為了提高系統存儲的可靠性,針對每個字節增加了5位監督碼元,構成了13位的漢明編碼。漢明編碼可以糾正存儲字最多出現1 位錯誤,同時可以檢出2 位錯誤,即俗稱的“糾一檢二”。令p 為單個位出錯概率,并假設各個位的故障是獨立的,提供了系統可靠性的上界。在這種情況下,可以容忍每個字一個故障。通過排列組合可以得到無錯誤概率Pno_error,一位錯誤概率Pone_error,兩位錯誤概率Ptwo_error,如下所示。

通過漢明編碼提高存儲可靠性的原理可以通過以下公式證明:

這表明,通過向1 字節增加5 位監督碼元構成的漢明編碼比無糾錯編碼的原始字節數據的正確概率高。若系統使用的存儲為16MB(含監督碼元)的靜態存儲器,根據《電子設備可靠性預計手冊》,查表可得該靜態存儲器的整體失效率:

現在需要根據整體失效率得到單bit 失效率,根據單bit 失效率繼續求得無錯、單錯、雙錯概率,繼而得出ECC 功能下的存儲失效率。根據統計規律,充分的數據表明,整個芯片失效這一方式對大部分芯片來說不是主要失效方式,個別位、行、列失效才是導致芯片失效的主要原因,因此有理由使用單個位失效模型SBFM(Single Bit Failure Mode)進行存儲失效性分析。該模型假設單個位的失效是獨立事件,并且每個位單元都遵循指數失效規律,其失效率為λb,可靠度函數為Rb( )t ,每n個位組成一個字,存儲器一共有w 字。根據可靠性函數與MTTF的關系:

即:

經過整理,得到:

為了在系統可靠性模型分析中使用單存儲模型失效率參數λsingle和雙存儲模型的失效率參數λdouble,必須分情況求解存儲器的整體失效率。單存儲模型和鏡像存儲模型下的失效率:

在式(13)中,有:

在式(12)與式(13)中,n為13,w是存儲器總字數,經計算得到:

根據式(12)與式(13)計算所得結果,證實本文采用的SRAM 容錯存儲方法在可靠性方面較未采用ECC 和存儲鏡像技術的方案均有明顯提升。其中,含ECC 的單存儲模型可靠性提高了大約22 倍,而鏡像存儲模型則比單存儲模型的可靠性高三個數量級。

5 結語

針對SRAM 的數據糾錯問題,本文提出一種基于漢明編碼的鏡像存儲糾錯方法,在漢明編碼提供每個字節可糾正一位錯誤的基礎上,利用兩個SRAM 存儲間數據片段共享的特征,建立數據交換信道,從而提高了糾錯能力的提高。理論分析也表明,該方法較未采用ECC和存儲鏡像技術的方案均有明顯提升。今后的工作可以進一步研究存儲數據恢復技術對于可靠性的影響,用馬爾可夫建模方法評估分析,并用實驗方法對可靠性進行驗證。

主站蜘蛛池模板: 人妻少妇久久久久久97人妻| 亚洲av色吊丝无码| 国产拍揄自揄精品视频网站| 99re在线视频观看| 久久精品aⅴ无码中文字幕| 国产黄网站在线观看| 日本国产精品| 日韩精品毛片| 婷婷午夜天| 国产午夜精品一区二区三| 四虎永久在线精品国产免费| 日韩在线播放欧美字幕| 伊人网址在线| 免费观看亚洲人成网站| 国产成年女人特黄特色毛片免| а∨天堂一区中文字幕| 国产成人凹凸视频在线| 欧美性爱精品一区二区三区| 青青国产视频| 久久精品国产国语对白| 成人年鲁鲁在线观看视频| 久久久噜噜噜久久中文字幕色伊伊| 黄色网页在线观看| 国产微拍一区| 国产粉嫩粉嫩的18在线播放91 | 亚洲精品日产AⅤ| www.日韩三级| 99成人在线观看| 精品伊人久久大香线蕉网站| 国产免费久久精品99re不卡| 日韩亚洲高清一区二区| 尤物成AV人片在线观看| 亚洲av无码人妻| 久久精品嫩草研究院| 少妇精品在线| 999国产精品永久免费视频精品久久| 女人毛片a级大学毛片免费| 亚洲香蕉在线| 国产精品久久久久鬼色| 国产综合精品日本亚洲777| 亚洲成人黄色网址| 97国产在线播放| 伊人无码视屏| 亚洲精品成人7777在线观看| 国产精品久久久久久久久久98| 欧美日韩在线亚洲国产人| 日韩欧美高清视频| 毛片在线播放a| 亚洲色图另类| 国产成人久久综合777777麻豆| 亚洲中文久久精品无玛| 免费毛片视频| 一区二区三区精品视频在线观看| 在线99视频| 国产精品永久免费嫩草研究院| 精品免费在线视频| 免费一级毛片在线播放傲雪网| 最新国产成人剧情在线播放| 呦女精品网站| 亚洲性色永久网址| 天堂成人在线视频| 久草视频精品| 无码国产伊人| 国产一区二区人大臿蕉香蕉| 欧美成人h精品网站| 国产一级毛片网站| 最新国产高清在线| 日韩欧美中文字幕在线精品| 亚洲天天更新| 亚洲Aⅴ无码专区在线观看q| 2020极品精品国产 | 美女一级免费毛片| 亚洲av无码专区久久蜜芽| 久久综合色播五月男人的天堂| 国产尹人香蕉综合在线电影| 四虎精品免费久久| 欧美自慰一级看片免费| 无码区日韩专区免费系列| 手机在线国产精品| 日韩在线2020专区| 国产一级α片| 亚洲欧美人成电影在线观看|