999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

軟件定義的“可靠性”到底可不可靠

2022-07-19 09:35:04李進才
計算機與網絡 2022年11期
關鍵詞:定義機制故障

李進才

服務器宕機可能是很多運維工程師最可怕的噩夢。谷歌的一項研究表明大多數死機故障是由內存問題引起的,而且每年有1/3的谷歌服務器都會出現可糾正的內存故障,而有1 %的谷歌服務器會出現不可糾正的內存故障,后者是造成系統宕機的典型情況之一。

如果有人說,用軟件的方式,可以解決硬件的內存問題,還能減少30 %的服務器宕機故障,你覺得可靠嗎?

當前的數據中心已經走向軟件定義的時代,從最初的軟件定義網絡SDN到軟件定義數據中心SDDC。為了防止服務器宕機的意外發生,越來越多的企業開始考慮軟件定義的解決方案,并通過軟件定義的可靠性屏蔽服務器、內存等硬件故障帶來的影響。那么軟件是如何實現對內存以及服務器可用性的提升呢?

內存故障非常多,就看系統能不能識別出來,有些故障是內存單個或多個bit故障,有些是內存顆粒故障,有些是內存顆粒上的單行或單列的存儲單元出現故障,還有firmware故障、內存控制器故障。另外還有一些是內存金手指焊接點老化、主板上的內存插槽松動或有灰塵等引起的故障。

器件質量類的故障只能通過工藝的改進來解決,而信服云要解決的是軟件層面可以控制的bit級故障。往往大故障來自于bit級小故障的持續積累,這時要做的就是“防微杜漸”,在小故障發生的時候就抓住它、隔離它,避免影響擴大。

Intel有一種機制叫做MCA(MachineCheck Architecture),可以監測這種類型錯誤。這個機制的運行方式是:首先需定義出這些錯誤模型,把可以自動糾正的錯誤叫做CE(Correctable Error),這些往往是任意單比特錯誤、部分是單顆粒比特的錯誤。但是一些錯誤無法自動糾正恢復,會導致系統宕機,這些錯誤被定義為UCE(Uncorrectable Error)。根據統計,CE/UCE類的問題類型占內存所有類型問題的59 %,所以,如果能夠設計一種故障檢查和糾正的機制,其價值會非常大。

這個全套的錯誤檢查和糾正的機制就是ECC(Error Checking and Correcting)。ECC在遇到故障時首先會進行問題識別,通過設計內存主動掃描機制,可以設置一天24 h不休(也可以調整)掃描和發現故障。識別后判斷故障位置(這里其實用到了一些特殊的bit計算和校驗算法),認定故障位置后,就嘗試隔離有問題的內存空間,避免后續業務再次使用該內存空間。

業界主流的IT服務商都會利用Intel的MCA機制進行內存錯誤處理,但是其軟件實現的精細化程度不一,比如有些服務商只是把CE錯誤屏蔽掉,或者只是簡單的告警,沒有做進一步處理;還有一些服務商即使有告警但是無法準確定位到發生問題的插槽。而信服云則提出了一個風險區機制,一旦發生內存錯誤,就將問題單元置于一個“緩沖區”進行觀察,當CE錯誤達到一定閾值則立刻自動隔離有風險的內存區域,避免錯誤繼續擴大引起嚴重的宕機。

近年來,信服云在內存隔離恢復機制上不斷優化,2022年1月推出的超融合HCI6.7.0中還對ECC機制進行了增強。該增強機制的運行方式是:首先通過CPU的BIOS設置CE Record選項,使得硬件識別出內存錯誤,一旦發現CE/UCE錯誤,硬件就會把這個錯誤上報給信服云的軟件。然后輪到軟件機制上場,OS系統先是判斷這個內存是否被軟件(包括應用軟件和操作系統)使用,如果沒有使用就直接隔離,不允許再分配給軟件使用。

如果被軟件使用了,就獲取軟件的上下文,判斷區分其是被操作系統內核(in_kernel)還是被用戶應用軟件(in_user)使用。

如果是被應用軟件(in_user)使用,對于CE可糾正錯誤,信服云的內存ECC增強機制就用一塊好的內存區域替換掉有錯誤的內存區域,這個過程中業務完全不受影響。如果是UCE不可糾正的錯誤,該機制就重新啟動該進程,把錯誤的內存區域釋放出來并隔離出去不再使用,進程重啟后就可以使用完全正常的內存了。

如果是被操作系統內核(in_kernel)使用,其內存ECC增強機制就把有錯誤的內存區域的信息記錄下來,在系統再次啟動的時候,該機制會隔離這些有錯誤的內存,以保證不會被再次使用。

推出上述機制后,信服云在1 000臺主機環境中進行了驗證。結果證明,通過軟件控制的ECC機制,能夠提前發現內存異常,并且100 %自動隔離成功,提前處置以規避更大的故障影響,總體上相對原有方式能夠減少30 %的服務器宕機故障。

回到開頭的問題,用軟件可以解決硬件層面帶來的問題嗎?毫無疑問,當然可以。信服云的ECC機制就通過創新性的軟件技術,更加準確、智能地控制了服務器的內存故障,有效地提高了IT系統的可靠性。

猜你喜歡
定義機制故障
故障一點通
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
奔馳R320車ABS、ESP故障燈異常點亮
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
故障一點通
江淮車故障3例
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
主站蜘蛛池模板: 欧美亚洲国产精品久久蜜芽| 中文无码伦av中文字幕| 国产人人干| 国产在线专区| 污网站在线观看视频| 欧美成人日韩| 国产精品yjizz视频网一二区| 中国丰满人妻无码束缚啪啪| 国产精品久久久久无码网站| 波多野结衣一区二区三区四区视频| 热久久综合这里只有精品电影| 黄色网站在线观看无码| 久久无码av一区二区三区| 国产美女精品一区二区| 亚洲国产成人自拍| 成人午夜视频免费看欧美| 免费看一级毛片波多结衣| 日韩无码真实干出血视频| 精品无码日韩国产不卡av| 潮喷在线无码白浆| 精品久久久久久成人AV| 国产尤物jk自慰制服喷水| 九九九精品视频| 午夜啪啪福利| 九九热视频在线免费观看| 91免费国产高清观看| 国产亚洲成AⅤ人片在线观看| 67194亚洲无码| 亚洲成人精品在线| 亚洲精品第一在线观看视频| 一级毛片不卡片免费观看| 狠狠五月天中文字幕| 国产精品久久久久久久久| 国产精品视屏| 日韩黄色在线| 无码专区第一页| 日本道综合一本久久久88| 99成人在线观看| 91视频国产高清| 日韩久久精品无码aV| 91高清在线视频| 亚洲第一成年网| 理论片一区| 国产黄网站在线观看| 国产免费福利网站| 国产网站免费观看| 国产成人精品亚洲日本对白优播| 欧美特级AAAAAA视频免费观看| 一级一级特黄女人精品毛片| 欧美、日韩、国产综合一区| 欧美日韩国产成人在线观看| 精品视频在线观看你懂的一区| 香蕉久人久人青草青草| 国产欧美在线观看精品一区污| 91欧美在线| 人人澡人人爽欧美一区| 日韩中文字幕免费在线观看| 国产经典三级在线| 成人欧美日韩| 亚洲最黄视频| 日韩视频免费| 精品欧美一区二区三区久久久| 日韩精品一区二区三区免费在线观看| 第一页亚洲| 99手机在线视频| 国产福利大秀91| 欧美一级在线播放| 亚洲国产中文欧美在线人成大黄瓜 | 亚洲国产欧美目韩成人综合| 亚洲美女视频一区| 永久免费无码成人网站| 极品国产一区二区三区| 无码中文字幕精品推荐| 精品自窥自偷在线看| 亚洲综合色婷婷中文字幕| 国产噜噜噜视频在线观看| 国产成人精品三级| 亚洲成aⅴ人片在线影院八| 永久免费精品视频| 日韩 欧美 小说 综合网 另类| 久久国产精品77777| 欧美成人精品在线|