999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高性能計(jì)算機(jī)可靠性的提升策略

2018-04-03 07:40:59吳曉風(fēng)
關(guān)鍵詞:優(yōu)化系統(tǒng)

吳曉風(fēng)

(山西國(guó)際商務(wù)職業(yè)學(xué)院 山西·太原 030031)

一、高性能計(jì)算機(jī)概述

HPC高性能計(jì)算機(jī)的英文全稱為:High performance computing,是指在較多處理器同時(shí)運(yùn)行的情況下,完成單個(gè)運(yùn)行設(shè)備與集群中多臺(tái)計(jì)算機(jī)設(shè)備的資源整合,其計(jì)算系統(tǒng)或環(huán)境本身架構(gòu)了更多的單獨(dú)運(yùn)行系統(tǒng),相當(dāng)于無(wú)限擴(kuò)充了基礎(chǔ)運(yùn)算量和運(yùn)行效率。多數(shù)HPC系統(tǒng)的界定標(biāo)準(zhǔn)可以從大型集群化程度來(lái)甄別,或者高度專用的硬件系統(tǒng)也是HPC高性能計(jì)算機(jī)的普遍應(yīng)用狀態(tài)。大多數(shù)基于集群的HPC系統(tǒng)使用高性能網(wǎng)絡(luò)互連,諸如InfiniBand或Myrinet網(wǎng)絡(luò)互聯(lián)形式。基本的網(wǎng)絡(luò)拓?fù)浜徒M織通過(guò)運(yùn)用總線拓?fù)洌纬闪烁叩木W(wǎng)絡(luò)性能環(huán)境,網(wǎng)狀網(wǎng)絡(luò)系統(tǒng)構(gòu)建了主機(jī)之間更短的潛伏期,故而加強(qiáng)了總體網(wǎng)絡(luò)性能,乃至數(shù)據(jù)信息傳輸速率。因此,HPC高性能計(jì)算機(jī)反而超越了單體計(jì)算機(jī)的性能。

二、HPC的可靠性需求

近年來(lái),各個(gè)行業(yè)的用戶對(duì)于四路以上HPC高性能計(jì)算機(jī)系統(tǒng)的服務(wù)器需求量逐步增加。一方面,在云計(jì)算、移動(dòng)互聯(lián)、BYOD等新一代信息化應(yīng)用快速發(fā)展的過(guò)程中,用戶業(yè)務(wù)系統(tǒng)的訪問(wèn)壓力在不斷上升,而數(shù)據(jù)處理需求也在不斷增加。另一方面,對(duì)于一些長(zhǎng)期處于高危領(lǐng)域的應(yīng)用系統(tǒng)而言,不間斷的運(yùn)行條件以及是否能夠在運(yùn)行期間保持長(zhǎng)期的高速運(yùn)行狀態(tài),是對(duì)于系統(tǒng)運(yùn)行指標(biāo)的終極需求。諸如軍事、醫(yī)療、交通、金融等領(lǐng)域中,停止系統(tǒng)所造成的風(fēng)險(xiǎn)和威脅都可造成無(wú)法估量的損失。因此,HPC高性能計(jì)算機(jī)的系統(tǒng)可靠性成為諸多領(lǐng)域發(fā)展的必然需求。其中最為關(guān)鍵的便是RAS(Reliability可靠性,Availability可用性,Serviceability適用性)特性。

(一)系統(tǒng)運(yùn)行可靠性

可靠性是對(duì)于計(jì)算機(jī)系統(tǒng)處理數(shù)據(jù)信息時(shí)的準(zhǔn)確度與時(shí)效性要求,是對(duì)于計(jì)算機(jī)系統(tǒng)在加速運(yùn)行狀態(tài)下仍然保持較高的穩(wěn)定性,仍然能夠隨機(jī)調(diào)動(dòng)應(yīng)用程序,而不出現(xiàn)死機(jī)或程序中斷的可靠性指標(biāo)。在占用最小內(nèi)存空間的情況下,達(dá)到數(shù)據(jù)信息存儲(chǔ)、傳輸、應(yīng)用的最高效率,令占用網(wǎng)絡(luò)帶寬的比例最低,且能夠完成穩(wěn)定的數(shù)據(jù)輸出,則代表HPC系統(tǒng)運(yùn)行具備了這種可靠性。

(二)系統(tǒng)支持可用性

可用性是HPC系統(tǒng)在運(yùn)行期間是否存在業(yè)務(wù)中斷的評(píng)估標(biāo)準(zhǔn),通過(guò)專用Metro Mirror實(shí)現(xiàn)存儲(chǔ)數(shù)據(jù)復(fù)制,滿足主機(jī)多應(yīng)用、異構(gòu)的存儲(chǔ)高可用性需求,是長(zhǎng)期以來(lái)HPC的可靠性需求表現(xiàn)。因此,在實(shí)現(xiàn)Global Mirror或Metro Mirror數(shù)據(jù)備份的效果上,也決定了無(wú)數(shù)據(jù)丟失的基本需求,是HPC系統(tǒng)發(fā)展的本質(zhì)訴求。

(三)系統(tǒng)檢測(cè)適用性

適用性是對(duì)于可靠性的補(bǔ)充,在RAS特性中適用性代表避免由于存儲(chǔ)介質(zhì)損壞導(dǎo)致的業(yè)務(wù)中斷,是保障HPC系統(tǒng)運(yùn)行條件的必要支持。在系統(tǒng)運(yùn)行周期內(nèi)的任何執(zhí)行錯(cuò)誤類型是否能夠被快速檢測(cè)、甄別、糾錯(cuò)、修復(fù)等,均為HPC系統(tǒng)運(yùn)行的適用性。因此,適用性是對(duì)于可用性的補(bǔ)充,也是對(duì)于可靠性的最終驗(yàn)證條件,是進(jìn)一步加強(qiáng)HPC系統(tǒng)可靠性的界定指標(biāo)。

三、高性能計(jì)算機(jī)可靠性的提升策略

(一)優(yōu)化數(shù)據(jù)完整性

HPC系統(tǒng)可靠性本身是對(duì)于數(shù)據(jù)信息的安全管理,在此方面主要以優(yōu)化數(shù)據(jù)完整性及備份效果為基本策略。諸如金品計(jì)算機(jī)科技(天津)有限公司是國(guó)內(nèi)服務(wù)器最新出品的金品K2400存儲(chǔ)模型技術(shù),在利用了切片以及負(fù)載均衡技術(shù)之后,充分利用硬件和網(wǎng)絡(luò)的性能,構(gòu)造高效數(shù)據(jù)通道,消除傳統(tǒng)存儲(chǔ)系統(tǒng)中由于壓力不均導(dǎo)致性能變差的問(wèn)題,從而提升數(shù)據(jù)寫入帶寬的總體速率,由單盤7200轉(zhuǎn)SATA盤可提供50MB/s以上的聚合帶寬信息共享度。在借助存儲(chǔ)冗余算法之后,可以大幅提升副本情況下的存儲(chǔ)磁盤利用率,在單臺(tái)存儲(chǔ)節(jié)點(diǎn)的配置上,使用冗余副本技術(shù),可以獲得80%的空間利用率。由于可以支持Linux、windows、MAC等多種操作系統(tǒng),其集群計(jì)算應(yīng)用性能更強(qiáng),可以在可訪問(wèn)存儲(chǔ)集群中隨時(shí)更換硬件設(shè)備,因此其兼容性以及靈活性更加完備。

在數(shù)據(jù)安全可靠的性能優(yōu)化方面,系統(tǒng)內(nèi)置智能故障探測(cè)機(jī)制,可自動(dòng)探測(cè)并處理存儲(chǔ)異常,即使出現(xiàn)宕機(jī)、網(wǎng)絡(luò)中斷、磁盤損壞等情況,仍然能夠保障數(shù)據(jù)完整性和數(shù)據(jù)服務(wù)的持續(xù)運(yùn)行。真正數(shù)據(jù)完整性的設(shè)計(jì)方案,是借助多位驗(yàn)錯(cuò),以及校錯(cuò)功能來(lái)實(shí)現(xiàn)的系統(tǒng)運(yùn)行可靠性。在HPC系統(tǒng)中IOPS可以達(dá)到60萬(wàn)/秒的運(yùn)行速率,同時(shí)支持NFS、ISCSI、Cinder、CIFS、KFS、S3、Swift、FTP 等協(xié)議,并借助Leo Raid技術(shù),N+M糾刪碼模式,以及1-4副本模式完善了數(shù)據(jù)采集的基礎(chǔ)條件,繼而拓展了快照及克隆技術(shù),數(shù)據(jù)信息的可靠性必然有所增加。NAS文件庫(kù)、數(shù)據(jù)庫(kù)平臺(tái)、對(duì)象存儲(chǔ)、企業(yè)云盤、備份機(jī)等多種存儲(chǔ)路徑中,糾錯(cuò)內(nèi)存鏡像的基礎(chǔ)功能是進(jìn)一步優(yōu)化HPC可靠性的運(yùn)行保障,因此其系統(tǒng)故障的排查能力更強(qiáng),可以在最短時(shí)間內(nèi)將備份數(shù)據(jù)進(jìn)行加載,最大限度的提升HPC系統(tǒng)可靠性。

(二)芯片級(jí)可靠性保障

HPC系統(tǒng)運(yùn)行能力與所選芯片的技術(shù)規(guī)格存在必然聯(lián)系,而內(nèi)存需求對(duì)于芯片級(jí)運(yùn)行效率的需求也在不斷加深。雖然目前我國(guó)芯片技術(shù)尚未達(dá)到較高的水平,但是仍然在借助了國(guó)外生產(chǎn)商的技術(shù)支持后,達(dá)到了較高的系統(tǒng)運(yùn)行穩(wěn)定性。其中主要以Intel安騰系列處理器為主,隨著計(jì)算和數(shù)據(jù)分析的發(fā)展,HPC系統(tǒng)遇到了許多瓶頸,高可靠性的需求便是其中最為關(guān)鍵的技術(shù)支撐點(diǎn)。英特爾安騰系列處理器的可擴(kuò)展系統(tǒng)框架,可以通過(guò)節(jié)能方式跨計(jì)算和數(shù)據(jù),完成更為密集的系統(tǒng)運(yùn)行狀態(tài)和基礎(chǔ)運(yùn)算量,提供可擴(kuò)展的解決方案。雖然安騰9500系列對(duì)于軟件支持的效果欠佳,但是安騰處理器9700系列所提供的數(shù)據(jù)信息處理效果仍然是今為止HPC系統(tǒng)性能最高芯片級(jí)可靠性保障。8個(gè)內(nèi)核及31億個(gè)晶體管是9700系列的主要配置,雙域及多線程的增強(qiáng)支持,加強(qiáng)了前端和后端流水線執(zhí)行效果,并能夠提高HPC系統(tǒng)吞吐量和可擴(kuò)展性。通過(guò)實(shí)現(xiàn)芯片級(jí)電源監(jiān)視和控制,從而提供更高的處理器增強(qiáng)頻率,增強(qiáng)HPC系統(tǒng)工作負(fù)荷,并在散熱層利用率上優(yōu)化系統(tǒng)結(jié)構(gòu)的負(fù)載量。因此,芯片級(jí)技術(shù)的開(kāi)發(fā)成為HPC主流系統(tǒng)的高可靠性提升策略之一。

(三)運(yùn)用標(biāo)準(zhǔn)協(xié)議內(nèi)支持RAS架構(gòu)

英特爾2016年發(fā)布的E7 v4處理器標(biāo)準(zhǔn)協(xié)議架構(gòu)方式,取締了原有的RAS技術(shù)結(jié)構(gòu),支持8路HPC系統(tǒng),并最高可獲得24TB內(nèi)存。借助最高單插槽內(nèi)存容量,該處理器產(chǎn)品可支持更為龐大的數(shù)據(jù)集存儲(chǔ),而且是數(shù)據(jù)信息在內(nèi)存中的存儲(chǔ),而并非硬盤,那么相對(duì)的數(shù)據(jù)洞察與決策時(shí)間也會(huì)極大縮短。同時(shí),作為縱向擴(kuò)展平臺(tái)中計(jì)算引擎的HPC系統(tǒng)協(xié)議優(yōu)化方案,遠(yuǎn)比IBM Power8的解決方案可靠性更強(qiáng)。基于英特爾至強(qiáng)E7 v4處理器協(xié)議的技術(shù)優(yōu)化方向,其解決方案本身可提供高達(dá)1.4倍的優(yōu)化性能,擁有高達(dá)10倍的性價(jià)比,以及僅為50%的系統(tǒng)功耗。北京飛機(jī)維修工程有限公司主要為向航空公司提供航線維護(hù)、客機(jī)維修等服務(wù)。其日常工作內(nèi)容中對(duì)于系統(tǒng)內(nèi)存儲(chǔ)的歷史維護(hù)資料必須極為完整,而原有基于RISC架構(gòu)的關(guān)鍵業(yè)務(wù),并非絕對(duì)的穩(wěn)定性與可靠性。而在運(yùn)用了英特爾至強(qiáng)E7系列處理器的解決方案之后,HPC系統(tǒng)可同時(shí)滿足2000名工程師的800個(gè)在線訪問(wèn)需求,系統(tǒng)可用性提升至99.99%、響應(yīng)速度提升3.5倍。這種可靠性的提升,也是基于RAS能力的機(jī)制表現(xiàn),并在協(xié)調(diào)系統(tǒng)內(nèi)部組件功能需求之后,達(dá)到了運(yùn)用標(biāo)準(zhǔn)協(xié)議的可能性,是進(jìn)一步支持高性能計(jì)算機(jī)可靠性的優(yōu)化方案之一。

(四)高可用性的系統(tǒng)優(yōu)化方案

HPC系統(tǒng)服務(wù)器承擔(dān)的應(yīng)用場(chǎng)景均為核心數(shù)據(jù)庫(kù)、中間件等關(guān)鍵應(yīng)用場(chǎng)景,計(jì)劃外停機(jī)與業(yè)務(wù)災(zāi)難存在必然聯(lián)系。目前HPC系統(tǒng)連續(xù)運(yùn)行水平雖然以RAS特性為評(píng)估條件,但是可用性的指標(biāo)也是必然需要優(yōu)化的性能指標(biāo)。雖然英特爾芯片級(jí)處理器能夠達(dá)到99.99%的高可用性,但是仍然存在每年停機(jī)時(shí)間不超過(guò)5分鐘的風(fēng)險(xiǎn)。高可用性的發(fā)展目標(biāo)是隔離故障,其中涉及到故障自動(dòng)化監(jiān)測(cè)、備用數(shù)據(jù)或設(shè)備切換、故障記錄分析等方面。其優(yōu)化路徑在于健全周期性的服務(wù)器檢測(cè)技術(shù),進(jìn)而在HPC系統(tǒng)運(yùn)行故障出現(xiàn)后及時(shí)發(fā)現(xiàn)并報(bào)警,為修復(fù)系統(tǒng)漏洞提供更多的時(shí)間。同時(shí)在發(fā)現(xiàn)故障后,遷移至備用部分中,再次核實(shí)故障信息、修復(fù)、記錄等基礎(chǔ)內(nèi)容。如果要增進(jìn)高可用性,必然需要權(quán)衡信號(hào)、板卡、BIOS、部件等其他各個(gè)層面系統(tǒng)運(yùn)行狀態(tài)。

高可用需要部分資源閑置作為熱備份,可能在一定程度上制約了服務(wù)器運(yùn)行效率。諸如硬盤RAID 1技術(shù),在兩塊硬盤中同時(shí)寫入備份數(shù)據(jù),硬盤空間的利用率則降為原有的50%。為了消解這一弊端,部分HPC系統(tǒng)設(shè)置了N共享熱備技術(shù),將多部件單元共享為同一個(gè)熱備件,或者開(kāi)發(fā)互享熱備等技術(shù)類型。那么HPC系統(tǒng)服務(wù)器的復(fù)雜性也決定了熱備策略及其技術(shù)的可拓展性。此前,天梭TS860的系統(tǒng)結(jié)構(gòu)運(yùn)用了類似技術(shù),通過(guò)架構(gòu)模塊級(jí)、鏈路級(jí)、芯片級(jí)、系統(tǒng)級(jí)的四維體系,拓展了60余項(xiàng)高可用技術(shù),其技術(shù)核心在于底層雙工信號(hào)的傳輸效率是否完全可控,指導(dǎo)部件級(jí)別的熱替換是否可行,以及硬盤、風(fēng)扇、網(wǎng)卡、電源等模塊對(duì)于熱插拔的需求是否滿足。因此,HPC系統(tǒng)用戶在不停機(jī)狀態(tài)下完成的部件替換,也是HPC系統(tǒng)可靠性的重要表現(xiàn),是進(jìn)一步優(yōu)化HPC系統(tǒng)性能的主要策略。

(五)智能決策機(jī)制的優(yōu)化方案

HPC高性能計(jì)算機(jī)系統(tǒng)要求更高的RAS(Reliability可靠性,Availability可用性,Serviceability適用性)特性,勢(shì)必需要消解人為操作的干預(yù)和弊端。但是智能決策機(jī)制的實(shí)現(xiàn)方案并非一蹴而就,此前部分研究對(duì)于實(shí)際數(shù)據(jù)交換速率,在結(jié)合FPGA的I/O接口速率中是否能夠突破達(dá)200Mbps的指標(biāo)界限仍然并未達(dá)成一致。而對(duì)外A/D、I/O、RS485網(wǎng)絡(luò)接口等都為雙冗余設(shè)計(jì)的情況下,HPC系統(tǒng)結(jié)構(gòu)的復(fù)雜性也會(huì)隨之增加,能夠創(chuàng)造的優(yōu)化性能是否具備了快速剝離故障信息有未可知。

此前中標(biāo)普華高可用性集群系統(tǒng)的設(shè)置方案是加強(qiáng)系統(tǒng)自身的自檢性能,以watchdog的定時(shí)器來(lái)進(jìn)行系統(tǒng)自檢,本地機(jī)在意外停止運(yùn)行60s時(shí),則系統(tǒng)自啟,以便恢復(fù)系統(tǒng)備份及數(shù)據(jù)處理。但是其中的時(shí)間滯后性也并不足以支持特定應(yīng)用場(chǎng)景。

近期,浪潮M13服務(wù)器對(duì)于RAS的設(shè)計(jì)效果提出了 IMS(Intelligent Memory Surveillance)內(nèi)存檢測(cè)隔離技術(shù),這種技術(shù)是利用開(kāi)機(jī)時(shí)IMS測(cè)試結(jié)果作為系統(tǒng)智能化評(píng)估條件。系統(tǒng)啟動(dòng)成功后進(jìn)入OS,IMS在實(shí)時(shí)檢測(cè)內(nèi)存運(yùn)行效果時(shí)提出了保護(hù)和處理的雙向執(zhí)行條件。一方面,IMS系統(tǒng)以內(nèi)存ECC錯(cuò)誤信息為統(tǒng)計(jì)數(shù)據(jù),針對(duì)錯(cuò)誤地址進(jìn)行驗(yàn)算,以IMS自帶的多個(gè)測(cè)試算法為基礎(chǔ)條件。待錯(cuò)誤指令被確認(rèn)后,智能化的預(yù)測(cè)效果也保障了系統(tǒng)運(yùn)行的可靠性。另一方面,IMS系統(tǒng)對(duì)確認(rèn)錯(cuò)誤或預(yù)測(cè)所產(chǎn)生的不可糾錯(cuò)性,也支持了OS鏡像隔離技術(shù)的延伸,能夠在內(nèi)存區(qū)域空閑的時(shí)間間隔內(nèi)完成信息隔離,并離開(kāi)原有的應(yīng)用程序和執(zhí)行路徑。因此,智能化的決策機(jī)制在于支持預(yù)測(cè)效果的評(píng)估,并審核HPC高性能計(jì)算機(jī)系統(tǒng)是否達(dá)到了預(yù)期的可靠性,才能進(jìn)一步優(yōu)化其系統(tǒng)的穩(wěn)定性,在出現(xiàn)運(yùn)行錯(cuò)誤之前自動(dòng)解決和處理,進(jìn)而優(yōu)化和補(bǔ)充其系統(tǒng)性能的可靠性條件。

結(jié)語(yǔ)

綜上所述,高性能計(jì)算機(jī)必須在更高可靠性的基礎(chǔ)上完善系統(tǒng)性能,其運(yùn)行效率必須更高,才能支持高速運(yùn)行狀態(tài)下的系統(tǒng)程序趨于穩(wěn)定狀態(tài),且能夠以降低出錯(cuò)率為指標(biāo),保障RAS性能發(fā)揮出更強(qiáng)的應(yīng)用優(yōu)勢(shì)。為了保障RAS性能的突出作用,需要優(yōu)化數(shù)據(jù)信息的完整度,并打造芯片級(jí)數(shù)據(jù)信息處理的可靠性。同時(shí)需要逐步開(kāi)發(fā)更為穩(wěn)定的技術(shù)類型,支持HPC性能逐步完善,運(yùn)用標(biāo)準(zhǔn)協(xié)議支持RAS架構(gòu),開(kāi)發(fā)智能決策機(jī)制的優(yōu)化方案。繼而支持HPC系統(tǒng)的可靠性,達(dá)到預(yù)期的開(kāi)發(fā)與設(shè)計(jì)效果。

猜你喜歡
優(yōu)化系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
WJ-700無(wú)人機(jī)系統(tǒng)
由“形”啟“數(shù)”優(yōu)化運(yùn)算——以2021年解析幾何高考題為例
ZC系列無(wú)人機(jī)遙感系統(tǒng)
基于PowerPC+FPGA顯示系統(tǒng)
半沸制皂系統(tǒng)(下)
主站蜘蛛池模板: 精品国产Ⅴ无码大片在线观看81| 日韩久草视频| 午夜成人在线视频| 国产经典免费播放视频| 精品国产三级在线观看| 国产成人一区二区| 亚洲精品人成网线在线| 在线国产三级| 伊人久久久久久久久久| 亚洲专区一区二区在线观看| 亚洲熟女中文字幕男人总站| 国产精品亚洲天堂| 国产免费观看av大片的网站| 国产情侣一区| 精品黑人一区二区三区| 999国内精品视频免费| 国产在线拍偷自揄拍精品| 国产永久无码观看在线| 亚洲无码高清视频在线观看| 免费在线看黄网址| 色男人的天堂久久综合| 欧洲成人免费视频| 国产精品成人免费视频99| av免费在线观看美女叉开腿| 2021最新国产精品网站| 丁香婷婷综合激情| 亚洲av日韩av制服丝袜| 蜜桃视频一区二区三区| 狼友视频一区二区三区| 亚洲制服丝袜第一页| 国产人成乱码视频免费观看| 动漫精品啪啪一区二区三区| 超清无码一区二区三区| 亚洲成a人在线观看| 免费在线a视频| 亚洲中文字幕在线一区播放| 免费啪啪网址| 浮力影院国产第一页| 国产色伊人| 人妻丰满熟妇啪啪| 国产鲁鲁视频在线观看| 日韩中文欧美| 国产精品部在线观看| 成人福利视频网| 亚洲精品国产精品乱码不卞| 激情成人综合网| 伊人查蕉在线观看国产精品| 国产极品粉嫩小泬免费看| 久久精品亚洲专区| 亚洲一区二区三区国产精华液| 亚洲av无码久久无遮挡| 天堂成人在线视频| 中文一区二区视频| 一本大道东京热无码av| 亚洲天堂日韩在线| 欧美日韩国产高清一区二区三区| 亚洲综合色吧| 亚洲男人在线天堂| 色视频国产| 亚洲精品不卡午夜精品| 亚洲无码一区在线观看| 秋霞午夜国产精品成人片| 麻豆国产在线不卡一区二区| 精品欧美日韩国产日漫一区不卡| 特级欧美视频aaaaaa| 成人午夜福利视频| 国产免费观看av大片的网站| 亚洲天堂久久久| 专干老肥熟女视频网站| 欧美激情福利| 一级毛片免费高清视频| 91久草视频| 91娇喘视频| 亚洲综合第一区| 久久久久中文字幕精品视频| 一级毛片免费不卡在线| 国产精品不卡永久免费| 亚洲欧美成aⅴ人在线观看 | 日韩成人高清无码| 亚洲天堂色色人体| 丁香六月综合网| 亚洲精品国产精品乱码不卞 |