999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

共享時代下高校高性能計算系統的設計與實踐

2019-08-16 00:32:48
實驗室研究與探索 2019年7期
關鍵詞:管理

姚 舸

(南京大學 物理學院,南京 210093)

0 引 言

隨著計算機技術的高速發展,高性能計算已經成為與理論和實驗并駕齊驅的三大研究方法之一。2006年2月9日,國務院頒布的《國家中長期科學和技術發展規劃綱要(2006-2020)》中提出將千萬億次高效能計算機研制列入優先主題:重點開發具有先進概念的計算方法和理論,發展以新概念為基礎的、具有1017/s次以上浮點運算能力和高效可信的超級計算機系統、新一代服務器系統,開發新體系結構、海量存儲、系統容錯等關鍵技術。

高性能計算可以模擬高溫、高壓、強磁場等極端環境下研究對象的變化;獲取實驗全過程、全時空的全部變化信息;以極低的成本反復運行,獲取各種條件下的全面數據以便于比較。這些都是真實實驗無法達到或代價過于高昂而不值得的。[1]從“中國制造”向“中國創造”的跨越,創造新產品如同科研,需要通過高性能計算進行各類仿真,縮短研發周期搶先占領市場,近些年來高性能計算扮演著越來越重要的角色。[2]

1 高校高性能計算建設現狀

2010年11月由國防科技大學研制的天河1A超級計算機系統首次問鼎世界超級計算500強系統排名中的占用率逐年增加,從2013年至2018年初我國一直占據TOP500第一的位置[3-4]。隨著國家對于高性能計算重視程度不斷提升,科研院所科研經費投入加大,我國已建成6個國家級超級計算中心,眾多高校均建設了校級的高性能計算中心,部分院系有院系級高性能計算平臺,許多課題組也自建有高性能計算集群,科研人員可使用這些計算資源進行數值計算模擬。[5-6]

1.1 校級高性能計算中心

南京大學是國內較早成立校級高性能計算中心的高校,分別于2007年購置了共享內存型架構的小型計算機SGI Altix 4700(256核,512GB內存),2009年購置了IBM大型刀片集群(約3200核,理論計算峰值34×1014/s)[7],2015年學校又投資5 000余萬元購置了聯想刀片集群,具備910臺計算節點、21 840個CPU核心,8塊NVIDIA Tesla K40,理論計算峰值達885×1014/s[8-9]。類似的,中國科學技術大學超級計算中心的曙光TC4600 1016/s超級計算系統,具備506臺計算節點、12 200顆CPU核心,8塊NVIDIA Tesla K80,8個Intel Xeon Phi 7210,理論計算峰值519×1014/s[10]。上海交通大學高性能計算中心的“π”集群,具備435臺計算節點、約7 000個核心,100塊NVIDIA Tesla K20、10塊K40、24塊K80、4塊P100,理論計算峰值343×1014/s[11]。

不難看出,作為服務于全校性的大型共享平臺,校級高性能計算中心規模大、預算充足,能獲得學校、廠商和代理商的重點支持。此外,校級高性能計算中心一般均配備有相當數量的專職管理人員,且管理人員隊伍穩定,集群運行狀態良好。

1.2 院系及課題組級別的高性能計算平臺

許多高校除了校級高性能計算中心,部分計算需求較高的院系建設有院系級的高性能計算平臺[12]。某高校自2012年1月至2017年12月購置的各類服務器,排除校級高性能計算中心、明顯不用于高性能計算的學校部處機關、職能部門(如網絡中心、圖書館等)和部分文科院系,設備資產總值已超過4 000萬元。各品牌的采購金額統計見表1,其中5大主流品牌IBM/Lenovo System X、HP/HPE、Dell、浪潮和曙光的占比約88%,且絕大部分均應用于高性能計算,屬于院系及課題組級別的高性能計算平臺。以某學院為例,現有的高性能計算平臺中IBM 105臺、Lenovo System X 72臺、HP/HPE 126臺、Dell 104臺、浪潮63臺、曙光8臺,五大品牌均有涉及。

表1 院系級高性能計算設備品牌統計

相較于校級計算中心,院系和課題組集群專為本學科方向科研服務,配置和環境更貼合本學科的計算需求。特別是課題組自有集群,完全自主控制無需排隊,可優先計算突發緊急任務,受到眾多科研人員的喜愛。另一方面,高校工作人員編制異常緊張,學校更多地將有限的編制名額用于引進科研人才,普遍忽略了實驗技術隊伍的建設,導致課題組內的高性能計算集群一般由年輕教師或研究生兼職管理。由于集群管理專業性很強,科研人員的專長在學術研究不一定在集群管理,他們花費了寶貴的時間和精力卻又很難管好。以研究生管理為例,第一位學生一般參與服務器的安裝部署過程,對集群構架有了整體的了解,能夠較好的管理集群。幾年后,當第一位學生面臨畢業,專注于撰寫論文和找工作,后續接替管理的學生則很難再次得到系統的培訓。一旦第一位學生畢業離校,集群管理就容易“斷檔”,甚至出現后續學生只會使用登錄節點計算,而不知道還存在計算節點的情況。集群長期處于亞健康狀態運行,疏于管理使用率低,一定程度上造成了科研經費的浪費[13]。甚至出現設備采購后,因無人管理一直沒有正常運行,多年后直接報廢,造成的浪費令人痛心。

課題組和院系緊密聯系不可分割,院系級的高性能計算平臺管理一般有4種類型:

(1)院系無機房等公共設施,各個課題組完全自行建設管理高性能計算集群。因無專門的機房,課題組一般在其實驗室分割一小塊區域作為簡易機房安裝高性能計算集群,機房環境較差,很難保證設備長期穩定運行。

(2)為提高實驗用房利用效率加強管理,避免分散建設機房,院系統一建設機房供各個課題組使用。課題組將高性能計算集群統一托管,院系負責機房基礎設施運行,如空調、UPS、配電等,不涉及計算機系統的管理,一般無需專職管理人員。

(3)在為課題組托管設備的基礎上,院系還購置有公共的高性能計算集群共享使用,院系需管理共享集群,因此需要專職管理人員或服務商管理維護。

(4)院系將公共和課題組高性能計算集群統一管理互聯互通,實現了真正的融合統一,資源共享,需要專職管理人員或服務商協助管理。

一般高校的大多數院系屬于前3種管理類型,各個課題組集群自行管理、各自為政,無法避免上文提及的無人管理的困境。而且各組研究進度不同,相應集群資源使用也不平衡,有的組有大量資源閑置,而有的組卻很緊張需要到外面購置計算資源。各用戶賬號和科研數據均不互通,所用系統支撐軟件有所不同,無法進行共享。

只有第4種類型的統一共享才能解決上述問題,由院系的專職人員管理,讓課題組師生從日常管理中解脫出來專注于科研,通過打通用戶賬號和科研數據,實現資源共享,提高集群的工作效率和科研經費的使用效率。

2 構建混合品牌和架構的共享高性能計算系統

校級高性能計算中心由于規模大,普遍為一次性投資,單一品牌和架構便于管理,廠商或代理商也均能提供良好的售后服務。而課題組和院系集群屬于持續性投資,特別是各個課題組經費預算和使用周期不同,一些較大規模的院系基本每年均有購置。計算機設備各品牌競爭極其激烈,每次招標各有勝負,這也就造成了院系級或課題組的計算平臺設備品牌眾多架構復雜,要實現這些集群的互聯互通,需要考慮多方面因素。

2.1 高熱密度機房

為了整合各個集群,首先需將集群集中托管。高速低延遲網絡(如InfiniBand、Omni-Path等)對線纜長度有嚴格的要求,在可接受的延遲內只能滿足機房內的互聯。隨著高性能計算集群密度不斷提升和刀片式服務器等高密度設備的廣泛應用,應建設統一的高熱密度機房,實現集群的集中托管。

與普通機房不同,高熱密度機房是專為高密度服務器設計的。2 m高度標準機柜提供42U空間,主流品牌平均10U高度提供約16臺雙路CPU計算節點,規劃使用30U高度安裝約50臺雙路服務器,剩余空間用于安裝存儲、I/O節點、交換機、電源分配單元等低熱密度設備和布線。基于上述需求單機柜設計供電散熱能力應達到20 kVA,機柜一路為UPS供電,另一路為市電直接供電,每回路采用三相五線制,每相電流32 A。

散熱是高熱密度機房遇到的最大挑戰,針對高熱密度制冷方式主要有冷熱通道分離、密閉制冷機柜和溫水冷卻。冷熱通道分離將熱空氣區和冷空氣區分隔,防止冷熱空氣混合,迫使所有冷空氣經過服務器等設備后進入熱區再回到空調進行冷卻,提高了冷卻效率,常用行間制冷空調冷卻熱空氣。密閉制冷機柜前后柜門密閉,空調和機柜一體化,冷熱空氣完全在機柜內部循環,進一步提高了制冷效率[14]。溫水冷卻使用溫水直接冷卻CPU等主要熱源,具有極佳的能效比[15],電源使用效率(Power Usage Effective,PUE)值約1.1。但溫水冷卻尚無統一的標準,先建設機房后分批采購設備無法采用此種冷卻方式,只能使用冷熱通道分離或密閉制冷機柜。采用傳統房間級空調冷熱通道分割如圖1所示。

圖1 高熱密度機房剖面圖

2.2 服務器等設備要求

雖然不同批次采購的設備品牌架構不同,但是為了統一管理應制定一套基本要求。根據采購相關管理規定,此套基本要求應是大多數產品均能滿足的,不應成為采購過程中的限制條件。

服務器應支持完善的遠程管理功能,這也是服務器與工作站或臺式機的重要區別。X86服務器普遍支持的智能平臺管理接口(Intelligent Platform Management Interface,IPMI)是由Intel發起的遠程控制服務器接口,提供了統一的服務器硬件遠程操控和監控方案。IPMI的核心是提供IPMI功能的基本管理控制器(Baseboard Management Controller,BMC),BMC獨立于操作系統直接對服務器硬件進行操控[16]。通過IPMI遠程控制服務器,實現開關機和設置下一次啟動設備,服務器安裝操作系統和開關機日常維護均可遠程進行,IPMI還提供了豐富的監控功能,在線對故障進行報警和診斷,實現遠程報修。需要注意的是Lenovo System X、HPE、Dell的部分服務器需購買許可升級才可遠程查看控制臺界面,這對查看安裝操作系統中的錯誤或宕機狀態極其重要。

所有硬件設備均應支持遠程操作和監控,做到日常運維不進機房;應支持遠程日志發送和電子郵件報警,通過遠程日志發送集中歸檔,關鍵故障通過電子郵件報警通知管理員及時處理。

2.3 網絡架構

通過統一的網絡將各個品牌和架構設備互聯才能構建單一的系統。網絡分為3種:硬件管理網、集群管理網和高速低延遲通信網。

硬件管理網連接所有硬件設備管理網絡,如服務器的IPMI端口、存儲管理端口,實現硬件設備遠程操控和監控。網絡帶寬需求低,無高可用要求,采用100 MB接入1 GB級聯即可滿足需求。集群管理網連接所有服務器操作系統的以太網,用于節點互相通訊,對網絡帶寬需求較高,有高可用性要求,一旦癱瘓整個集群都不可用,采用1 GB或10 GB接入40 GB/100 GB級聯。考慮到安全因素,上述兩個網絡應實現隔離,既可通過硬件隔離也可通過VLAN邏輯隔離。

高速低延遲通信網是采用InfiniBand、Omni-Path等專用網絡,與普通以太網相比延遲和帶寬均有數量級的提升,能夠為消息傳遞接口(Massage Passing Inteface,MPI)和文件系統提供高帶寬低延遲的通訊,是實現大規模并行計算的關鍵。對于部分要求不高的集群,可以采用集群管理網兼顧該項功能,那么集群管理網應采用10 GB甚至25 GB接入。

上述3套網絡將不同品牌和架構的設備互相連接,規劃IP地址時應使用3個容量相同的獨立子網,預留在可預見的將來足夠使用的地址資源,如3個B類網絡可以滿足絕大多數需求。集群一旦建立正常運行以后,修改網絡架構和地址可能需要長時間停機以調整各個設備配置,這基本是不可接受的,因此需要前期預留足夠的冗余。

高性能計算集群中非計算和I/O的節點,可利用虛擬化技術減少硬件投入,共享高性能計算系統架構見圖2。

圖2 高性能計算集群架構

2.4 集群系統管理軟件

xCAT(Extreme Cluster/Cloud Administration Toolkit)作為集群系統管理工具是一套開源的集群管理和配置工具,它允許使用者通過單點控制和管理一套集群系統,不僅簡化集群管理,還提供批量部署功能,從而提高了管理員的工作效率[17]。

xCAT使用數據庫存儲集群信息,如每個節點的BMC地址、操作系統版本、主機名、MAC地址、IP地址等,并生成相應的配置文件。集群部署時xCAT通過BMC設置節點下一次通過網絡啟動,再遠程開啟節點電源。節點開機從網卡啟動,向本地廣播地址發送含有PXE option的DHCP Discover包,xCAT服務器根據請求的MAC地址提供對應的網絡配置和PXE啟動文件。節點獲取相應配置后,從xCAT服務器下載文件,在本地部署操作系統,并執行后處理腳本,如建立SSH互信等。

管理員使用xCAT的批量文件分發和執行命令的功能,在所有節點并發安裝驅動程序、文件系統等工作,工作強度和執行時間與節點數量無顯著關系。xCAT提供的批量功能操作,不僅將管理員從繁瑣重復的勞動中解脫,而且各個節點執行命令統一,盡量消除節點間差異。編排一套系統部署流程,將其標準化腳本化,實現了節點從部署操作系統到最終上線正常運行的全自動操作。節點出現無法通過重啟解決的故障時,使用一條命令即可在10 min以內,無人工干預完成節點操作系統重新安裝,將重裝的時間從h級縮短到min級,提高了整個集群的利用效率也降低了管理員的工作量。

2.5 并行文件系統

并行文件系統為高性能計算集群提供了共享、統一命名空間的共享存儲空間,與傳統的NFS文件系統相比,并行文件系統支持MPI-I/O多進程可對單一文件并發讀寫,有更高的性能和更好的橫向擴展性[18]。對于各課題組原有存儲,將性能相近的存儲合并為一個文件系統,性能差異明顯的作為不同的文件系統使用。每個課題組仍使用原有存儲,但文件系統掛載到整個共享平臺中,打破數據壁壘。院系還應購置公共的存儲供所有用戶使用,其中元數據宜采用獨立的固態硬盤,大幅提高元數據操作性能,這樣當存儲負載較高時,用戶前臺操作不會有明顯的延遲。

集群中有部分文件是所有用戶均需使用的,如作業調度系統、編譯器數學庫等,有條件時可將公共軟件使用獨立的硬盤陣列提供,防止由于用戶作業大、I/O阻塞,導致所有用戶訪問公共目錄緩慢,甚至作業調度系統崩潰。

2.6 計算隊列

不同時期購置的服務器,CPU網絡等配置均不盡相同,不同配置的服務器如果運行同一個并行計算,慢的節點會顯著拖慢整體計算,需要通過不同的隊列區分,相同CPU和網絡的節點才能組成一個計算隊列。

與校級或院系級平臺不同,整合的平臺中各個隊列的節點由不同的課題組購買,課題組自建集群的重要因素是可以獨享使用而無需排隊,故作為整合平臺應首先滿足課題組自己的計算需求,空閑節點再開放共享。因此在作業調度策略上,應該配置兩個優先級不同的隊列,低優先級的隊列對所有用戶開放,高優先級隊列只對隊列節點購置的課題組成員開放。作業派發時,首先派發高優先級的隊列,當高優先級隊列為空時派發低優先級隊列作業,這樣就在作業派發環節上保證了隊列節點所有者的優先權。在實際使用中發現,有時由于隊列節點所有者課題組作業很少,此隊列大多數節點被低優先級隊列的作業運行占用,當隊列節點所有者提交作業到高優先級隊列時因無空閑節點而無法派發作業。出現此種情況可以配置搶占策略,當高優先級隊列作業無足夠資源派發時,可以掛起低優先級作業空出足夠的資源讓高優先級隊列作業運行。

一個隊列的節點可能由不止一個課題組購置,當有兩個或兩個以上課題組購置的節點組成同一個隊列時,在高優先級隊列上限制正在運行作業所使用的CPU核數為本課題購置節點的CPU核數總和,這可保證在高優先級隊列上多個課題組最多只能使用自己購置的那部分節點。

2.7 賬號管理

高校的學生,特別是研究生是高性能計算集群的主要使用者,從精細化管理和數據安全的角度出發,應該為每個人開設獨立的賬號。但是每年都有約1/5的學生更替,即老學生畢業離校和新學生入校,大量的賬號刪除和新建操作增加了管理員的工作量,故很多集群只給導師開設賬號,并由導師負責管理這些賬號。這就不可避免的導致賬號多人共享,使用情況混亂,學生畢業后無法及時回收賬號,給集群帶來違規使用和安全風險。鑒于面對的風險,開發了用戶管理平臺,系統管理員只管理導師賬號,學生賬號由導師自主管理,每個學生均有獨立的賬號,學生畢業時系統自動收回賬號。

3 共享平臺運行情況統計

將各課題組高性能計算集群統一管理并融合為一套混合品牌和架構的高性能計算系統后,通過對2015-01-01~2017-12-31日作業信息進行統計,結果顯示共累計完成作業1.257×107個,達9.801×107CPU h。集群運行近3年,根據機房基礎設施情況和收費政策,可分為以下3個階段:

2015-01-01~2016-03-11為第1階段。因機房空調系統長時間高負荷使用,加之室外機散熱不良,空調故障頻發,集群無法全部開放使用,故于2016年3月12至18日更換了機房空調。此階段集群不收費。

2016-03-19~07-14為第2階段。新空調提供穩定而高效的制冷效果,集群滿負荷運行,此階段集群不收費。

2017-7-17~2017-12-31為第3階段。2017-07-15~16機房停電,17日恢復運行后集群開始執行收費政策。用戶在使用非本組購置的節點時,按照CPU核時收取計算費,并將收取的計算費返回給被使用節點的購置課題組。

對每個階段總的和共享的CPU核時進行統計,其中共享的CPU核時指用戶使用非本組購置的節點,在第3階段共享CPU核時需要繳納計算費,見表2。

表2 高性能計算集群使用統計 CPU核×104h

2011年Intel推出Sandy Bridge微架構,開始支持高級矢量擴展(Advanced Vector Extensions,AVX)指令集,AVX將向量化寬度擴展到256位,理想狀態下每時鐘周期浮點運算能力是前一代的2倍[19-20]。集群中部分節點CPU較老,不支持AVX指令集,實際使用中發現這些節點使用率低,故排除這些節點后再做一次總的和共享的CPU核時統計,見表3。

表3 高性能計算集群使用統計(CPU支持AVX) CPU核×104h

*支持AVX的CPU核時占所有CPU核時的比例。

從表2可見,3年間總計2 232萬CPU核時的計算時間均為多集群融合后,課題組間可方便共享計算資源多出的計算時間。其中第2階段機房制冷條件好,且不收取任何費用,共享達到頂峰,整個集群基本滿負荷運行。在第3階段,增加對共享CPU使用的收費,用戶傾向于使用本組購置的節點,共享CPU使用比有所下降。表3展現出在經濟杠桿的調節下,一旦開始收費,用戶會盡可能使用新的節點,追求更高的性價比。

集群融合統一,3年間不僅增加了2.232×107CPU核時的計算,且在整個第3階段集群一直穩定運行,無超過24 h的停機,這在以前各個課題組獨立管理無專人負責的情況下基本不可能。這足以說明打破課題組壁壘,構建一個統一的集群可極大的提高集群使用效率,挖掘潛能,節約經費開支。

4 結 語

通過整合各個高性能計算資源,構建混合品牌和架構的共享高性能計算系統方案。對于每年分批次采購的校級高性能計算中心,將各個批次集群統一融合,打破了賬號和數據的壁壘,提高整體使用效率。對于院系內各個課題組高性能計算集群,將其與院系已有公共集群融合,成為新的院系級高性能計算平臺,解決了課題組集群分散無專人管理的窘境;在滿足本組優先使用的前提下,開放共享,減少資源閑置。該方案有利于科研人員專注于科研工作本身,從集群管理中解脫出來真正成為集群的使用者。截至目前,共享集群規模近600個節點,涵蓋IBM/Lenovo、HP/HPE、Dell、Huawei、H3C、浪潮、曙光、DDN、Brocade、BNT等主流品牌,3大高速網絡InfiniBand、Omni-Path和iWARP,iSCSI、SAS、FC和Infiniband等各類存儲,期間經歷操作系統、并行文件系統和作業調度系統的大版本升級,六年多來整個集群系統一直穩定運行,很好地支撐了科研工作。

猜你喜歡
管理
棗前期管理再好,后期管不好,前功盡棄
今日農業(2022年15期)2022-09-20 06:56:20
《水利建設與管理》征訂啟事
聆聽兩會
——關注自然資源管理
2020年《水利建設與管理》征稿函
運行管理
管理就是溝通
中國制筆(2019年1期)2019-08-28 10:07:26
加強土木工程造價的控制與管理
如何加強土木工程造價的控制與管理
解秘眼健康管理
“這下管理創新了!等7則
雜文月刊(2016年1期)2016-02-11 10:35:51
主站蜘蛛池模板: 日本精品视频一区二区| 亚洲精品久综合蜜| 亚洲欧洲日产国产无码AV| 日本免费a视频| 日本一区高清| 亚亚洲乱码一二三四区| 国产精品手机在线播放| 免费又黄又爽又猛大片午夜| 亚洲制服丝袜第一页| 欧美视频在线不卡| 国产精品国产主播在线观看| 国产在线精品美女观看| 91色爱欧美精品www| 国产精品无码影视久久久久久久 | 97久久免费视频| 亚洲AV无码乱码在线观看裸奔| 亚洲欧美日韩动漫| 国产成人高清亚洲一区久久| 无码一区中文字幕| 在线看片国产| 欧美午夜视频在线| 欧美激情网址| 98超碰在线观看| 福利国产微拍广场一区视频在线 | 国产精选自拍| 色亚洲成人| 亚洲日本中文字幕天堂网| 久久久久亚洲精品无码网站| 国产黄色视频综合| 青青极品在线| 狠狠色综合网| 香蕉eeww99国产在线观看| 成人亚洲天堂| 在线观看无码av免费不卡网站| 国产91线观看| 国产午夜在线观看视频| 久久人妻xunleige无码| 日韩一级二级三级| 精品无码一区二区三区电影| 都市激情亚洲综合久久| 久操中文在线| 日本五区在线不卡精品| 久久香蕉国产线看观看亚洲片| 久草视频中文| 国产理论精品| 精品久久久久久久久久久| 国产乱人伦精品一区二区| 无码不卡的中文字幕视频| 亚洲午夜福利在线| 另类专区亚洲| 91久久偷偷做嫩草影院电| 丁香五月婷婷激情基地| 久久久久人妻一区精品| 天堂成人在线视频| 国产成人亚洲综合A∨在线播放| 久久鸭综合久久国产| 久久国产拍爱| 亚洲精品欧美重口| 国产成人三级| 毛片三级在线观看| 一级毛片免费观看不卡视频| 久久免费精品琪琪| 亚洲色图欧美视频| 无码精品福利一区二区三区| 日本精品αv中文字幕| 天天综合网色中文字幕| 91九色视频网| 国产网站在线看| 欧美精品黑人粗大| 久久香蕉欧美精品| 亚洲手机在线| 国产高清精品在线91| 国产精品视频3p| 亚洲第一成年免费网站| 国产99在线| 久久美女精品国产精品亚洲| 亚洲精品午夜天堂网页| 精品国产黑色丝袜高跟鞋| 在线播放精品一区二区啪视频| 婷婷亚洲视频| 中国丰满人妻无码束缚啪啪| 久爱午夜精品免费视频|