
張武生清華大學高性能計算研究所高級工程師

樊春北京大學高性能計算平臺主任工程師

張紫徽浙江大學信息技術(shù)中心總工程師

劉浩華中農(nóng)業(yè)大學作物遺傳改良全國重點實驗室生物信息高性能計算平臺工程師

蔡哲賽爾網(wǎng)絡(luò)有限公司副總經(jīng)理
近年來,我國算力建設(shè)迎來高速發(fā)展的新階段。作為教學科研重地的高校也在不斷建立和發(fā)展超算中心,為廣大師生和科研人員提供優(yōu)質(zhì)高效的計算資源與服務(wù)支持。
如何推進高校算力服務(wù)建設(shè)?本刊邀請清華大學高性能計算研究所高級工程師張武生、北京大學高性能計算平臺主任工程師樊春、浙江大學信息技術(shù)中心總工程師張紫徽、華中農(nóng)業(yè)大學作物遺傳改良全國重點實驗室生物信息高性能計算平臺工程師劉浩、賽爾網(wǎng)絡(luò)有限公司副總經(jīng)理蔡哲對高校算力難點挑戰(zhàn)、建設(shè)模式、隊伍建設(shè)、未來發(fā)展等話題進行了深入探討。
算力平臺作為“數(shù)字新基建”,在高校發(fā)揮著越來越大的作用。GhatGPT等人工智能應(yīng)用的爆發(fā),也對算力提出了更高的要求和期待。算力在高校已經(jīng)不是可有可無的存在,而是學校教學、科研、管理的重要基礎(chǔ)。高校算力服務(wù)建設(shè)面臨不少挑戰(zhàn):
第一,算力基礎(chǔ)設(shè)施建設(shè)還遠遠不夠。比如機房建設(shè),機房往往需要很長的建設(shè)周期,很多高校在建設(shè)時依據(jù)的標準并不像專業(yè)機房那么高,所以后期的運維管理就會存在很多限制,而學校對基礎(chǔ)設(shè)施的持續(xù)投入比較保守。
第二,算力服務(wù)人才隊伍面臨挑戰(zhàn)。高校從事算力服務(wù)的人員在專業(yè)建設(shè)上的引領(lǐng)能力普遍偏弱,很多情況下都只是在做基礎(chǔ)的運維工作。而運維服務(wù)、安全服務(wù)、容量規(guī)劃,以及冗余、容災(zāi)等相關(guān)工作,已經(jīng)遠遠超過了高校算力隊伍的能力范圍,在團隊規(guī)模和技術(shù)上與企業(yè)相比都存在一定差距。
第三,算力服務(wù)在應(yīng)對新需求方面能力不足。很多情況下,面對院系教師提出的新科研場景需求,超算中心現(xiàn)有的能力往往難以應(yīng)對,比較被動。
第四,高校對算力服務(wù)本身的認識有待提升。無論從資金、人員投入還是學校重視程度上看,都存在不少欠缺。
高校的科研和教學對算力的需求一直在逐年增加。有幾種因素促進了算力服務(wù)設(shè)施的建設(shè):第一,人才培養(yǎng)和引進力度加大,高校在優(yōu)勢專業(yè)培育和開拓方面不斷進展,留在或流入教學科研領(lǐng)域的高水平人員越來越多,這使得算力設(shè)施的建設(shè)有了需求基礎(chǔ);第二,國家和地方政府的持續(xù)支持,其中國家層面對教學科研儀器的引入和研發(fā)支持力度一直都很大,地方政府也會為高校的計算設(shè)施建設(shè)提供支持;第三,算力設(shè)施在學校設(shè)備管理中一般歸結(jié)為大型科研儀器,儀器建設(shè)的投入與高校教學科研水平提升顯然是正相關(guān)的;此外就是社會需求,大數(shù)據(jù)和統(tǒng)計學習在產(chǎn)業(yè)領(lǐng)域的應(yīng)用得到回報,反過來影響人才培養(yǎng)和科研課題的設(shè)立,也推動了高校算力平臺的建設(shè)。
但與此同時,高校算力平臺建設(shè)也面臨不少挑戰(zhàn)。從平臺硬件投入來看,高校算力平臺從傳統(tǒng)的同構(gòu)型CPU平臺轉(zhuǎn)向了異構(gòu)型的CPU和加速計算混合平臺。平臺的規(guī)模越來越大,絕對能耗隨著硬件升級逐年增高,系統(tǒng)架構(gòu)愈加復(fù)雜,應(yīng)用軟件越來越豐富、版本迭代更加頻繁。計算平臺價值高、生命周期短、能耗大,如何確保每一臺設(shè)備投入都能在學科建設(shè)中發(fā)揮最大效用,如何客觀評估平臺的使用效益、解決應(yīng)用運行中產(chǎn)生的各種瓶頸等,都是高校建設(shè)算力平臺面臨的挑戰(zhàn)。
對華中農(nóng)業(yè)大學作物遺傳改良全國重點實驗室來說,算力平臺主要的作用是服務(wù)于科研任務(wù)。計算平臺助力實驗室完成生物學研究的重要手段基因組測序,并對測序的數(shù)據(jù)進行存儲分析。
我們需要非常大的存儲和計算來分析些數(shù)據(jù),因此,算力增長跟不上數(shù)據(jù)的增長,是實驗室算力平臺面臨的難題。基因組測序的成本下降速度往往比IT領(lǐng)域硬件的摩爾定律還要快很多,導(dǎo)致我們的算力硬件投入往往跟不上數(shù)據(jù)產(chǎn)出。尤其是近幾年,數(shù)據(jù)由10年前的幾百T,擴展到十幾PB,相應(yīng)的計算能力雖然在同步增長,但遠遠跟不上數(shù)據(jù)產(chǎn)出的速度。
除了對存儲容量要求大,存儲性能也非常重要,否則算力服務(wù)的效率就會下降很多。平臺在購買硬件設(shè)備時要格外重視存儲性能,才能更好地為用戶服務(wù)。
從高性能計算的發(fā)展趨勢來看,高校算力平臺建設(shè)面臨著以下挑戰(zhàn):
一是算力大眾化(HPC/AI for Everyone)帶來使用挑戰(zhàn)。當前,算力正變得越來越廉價,越來越多的用戶開始使用算力。這表明算力走向大眾化,大量傳統(tǒng)學科紛紛開始在研究中使用算力。以北京大學為例,很多文科生也開始使用高性能計算平臺。在此情況下,傳統(tǒng)的HPC軟件接入就顯得過于復(fù)雜,使用門檻過高,需要一種更簡單便捷的HPC算力使用方式。
在這方面,北京大學自主研制的開源算力中心門戶和管理平臺SCOW(Super Computing On Web)通過簡化集群軟件部署流程、統(tǒng)一平臺管理模式、提供圖形化操作界面、降低用戶使用門檻,實現(xiàn)算力中心資源易管理、易使用的目標,提高算力資源使用效率。
二是算力資源使用不均衡。我們看到,近一兩年來,國內(nèi)高校迎來超算項目建設(shè)的浪潮。當高校開始紛紛建設(shè)算力平臺,就會出現(xiàn)算力資源使用不均衡的問題,有的學校算力不足,有的卻使用不飽和,這就需要“削峰填谷”,實現(xiàn)算力資源利用效率最大化。
三是面臨“雙碳”目標的挑戰(zhàn)。實現(xiàn)碳達峰和碳中和,實現(xiàn)綠色發(fā)展,是中國對國際社會作出的莊嚴承諾。而算力設(shè)備能源消耗巨大,在實現(xiàn)“雙碳”目標時面臨諸多挑戰(zhàn)。面對該挑戰(zhàn),如果在能夠產(chǎn)生綠色電能的地方建立數(shù)據(jù)中心,是一個最合理的方向,通過光纖直達等技術(shù)“消除”數(shù)據(jù)中心和用戶之間的距離。但在這一點上,我們還面臨著決策和決心不足的問題。
四是算力融合的挑戰(zhàn)。當前,各地紛紛建立超算中心、智算中心,但在很多情況下,這些超算和智算中心是分別建立的。而當前有很多科研項目既需要超算算力,又需要智算算力,從應(yīng)用的需求上看就需要將這兩種算力融合。這就要求我們進一步研究相關(guān)技術(shù),保證超算中心和智算中心更好地融合成為計算中心(算力中心),達到1+1>2的效果。
五是技術(shù)更新的挑戰(zhàn)。RoCE(RDMA over Converged Ethernet,基于以太網(wǎng)的RDMA技術(shù);RDMA,遠程直接數(shù)據(jù)存取)網(wǎng)絡(luò)替代傳統(tǒng)的IB(InfiniBand,無限帶寬)是一種趨勢。但其推廣可能存在一定困難,因為人們往往習慣舊有的方式而不愿意改變。
六是打造創(chuàng)新土壤面臨挑戰(zhàn)。創(chuàng)新的土壤,“浪費”是必要的。在日前舉辦的ChatGPT研討會上,中國工程院院士趙沁平指出:“ChatGPT的出現(xiàn)和火爆使我們再次看到美國科技企業(yè)作為國家技術(shù)創(chuàng)新主體所具有的強大創(chuàng)新能力。創(chuàng)新型科技文化是創(chuàng)新型國家的靈魂因素。基礎(chǔ)研究和科技創(chuàng)新是不能追求效率的,而我們對基礎(chǔ)研究采用的評價基本還是以效率為重的工程性評價方法。”這給我們帶來的啟示是,在做研究時,科研人員需要充足的資源、良好的國際交流環(huán)境,能夠自由探索,并得到方向性的指引。這些都是算力發(fā)展的過程中需要突破的困境。
對于華中農(nóng)業(yè)大學來說,經(jīng)過對比和權(quán)衡,我們覺得自建算力平臺、自己管理/運營平臺的模式對學校來說更合適。主要基于兩方面的考量。
一是成本問題。對老師們來說,使用實驗室自建的平臺,收費大概只有外部商業(yè)服務(wù)的10%~20%。二是安全問題。我們實驗室的數(shù)據(jù)量非常大,使用自建平臺,可以有效保障數(shù)據(jù)傳輸和數(shù)據(jù)安全。
清華大學的科研計算平臺是校內(nèi)惠及學科門類最多、支撐用戶最廣的科研平臺之一。計算平臺由實驗室與設(shè)備處指導(dǎo)建設(shè)和運行,計算機科學與技術(shù)系負責技術(shù)保障,按照大型儀器進行管理,其建設(shè)得到了學校持續(xù)支持。與大多數(shù)大型科研儀器的管理類似,采取科研和服務(wù)相結(jié)合的建設(shè)運行模式,一方面是與各研究課題組合作,開展應(yīng)用研究,同時也依托和支撐高性能計算和系統(tǒng)結(jié)構(gòu)學科的研究。來自應(yīng)用領(lǐng)域的算法問題往往是高性能計算的研究熱點,反過來高性能計算所開發(fā)的移植、優(yōu)化、并行化技術(shù)又可促進各學科領(lǐng)域應(yīng)用軟件性能和效率的提升。我們與材料、地學、生命科學等學科深入合作,共同開發(fā)并行算法和軟件,同時也承擔高性能計算和系統(tǒng)結(jié)構(gòu)方面研究課題。
高校算力服務(wù)大概有以下幾種模式,一種是自建算力平臺,一種是使用云平臺算力,一種是使用超算專業(yè)服務(wù)公司提供的計算服務(wù)。
另外還有一種模式是算力市場。當前的算力市場是把應(yīng)用作為一個市場,其算力組成還是算力服務(wù)商自建的算力。未來,算力服務(wù)商本身也應(yīng)該市場化,也就是不僅在算力服務(wù)商平臺上有多種軟件的市場化,還有一個平臺能夠容納各種算力服務(wù)商來提供算力服務(wù)。這種形式是目前市面上比較缺乏的。我們在建設(shè)算力網(wǎng)絡(luò)時,可以在這方面做一些突破性的研究。

高校超算的運營模式跟學校的規(guī)模、算力發(fā)展的階段息息相關(guān)。第一種是自建模式,能夠滿足學校的一些教學科研和治理服務(wù)基本需求。第二種是混合模式,有自建平臺,也有和企業(yè)合作的公有云平臺, 其中自有機房可以承載核心應(yīng)用和私密應(yīng)用,其他應(yīng)用則可以用云平臺實現(xiàn)。除了基本的算力需求,還可以滿足突發(fā)的場景和需求變化。第三種模式,與學校其他部門的資源大戶合作,用信息中心的操作系統(tǒng)去調(diào)度其超算設(shè)備。實際上,第三種模式需要學校規(guī)模足夠大,對機房規(guī)模、電力的要求很高,建設(shè)周期也特別長,實現(xiàn)起來有一定難度。
以浙大為例,浙大算力平臺的建設(shè)分為三個階段。第一階段,自建算力服務(wù),專有云平臺;第二階段,將專有云和公有云打通,形成混合模式;第三階段,學校信息技術(shù)中心與CAD&CG國家重點實驗室聯(lián)合打造了“浙大云—圖形計算平臺”。平臺作為校內(nèi)首個眾籌式混合云,具有更完善、可擴展和更節(jié)省的特點以及低成本、靈活性和超高集成優(yōu)勢。
未來,我們希望可以將此眾籌式模式從“1+1”拓展到“1+N”,進一步服務(wù)校內(nèi)師生日益增長的科研需求。更進一步,可以將學校之間的算力平臺連接起來,形成眾籌的生態(tài)圈。學校之間的算力“眾籌”有很多好處,規(guī)模小的學校其算力資源可能用不掉,而規(guī)模大的學校,算力又可能遠遠不夠,將不同學校的算力打通,可以更好地統(tǒng)籌利用算力資源。
當然,除了算力合作,未來我們希望能更進一步做跨校間的科研合作,打造科研協(xié)作的大平臺。比如國際大科學計劃(DDE計劃),就是國內(nèi)外眾多高校和學者共同參與的項目。可以預(yù)見,未來這種跨越千山萬水,由不同國家/地區(qū)、不同學校的學者共同參與的、基于算力協(xié)同的大科研方式,能夠讓人們合作參與大規(guī)模科研,隨時匯集科研成果,了解科研進度。這就是算力驅(qū)動科研范式變革的典范。
強大的超算能力可以更好地支撐科研成果的產(chǎn)出。我國高校非常重視算力建設(shè),整體需求旺盛,亟需高質(zhì)量的算力服務(wù)。對于研究型大學而言尤為明顯。但總體來看,目前我國大多數(shù)高校的算力建設(shè)僅集中在學科、學院或項目層面,擁有校級算力平臺的高校還是少數(shù),對于算力資源的整合能力有待提升。
站在企業(yè)的角度看,高校算力服務(wù)大概分為兩類,一類是智能AI算力GPU,還有一類是超算CPU,兩者特性不同,能夠完成的任務(wù)也不同。學校會根據(jù)需求不同,選擇不同的算力服務(wù)。
賽爾目前正在致力于算力建設(shè)服務(wù),在服務(wù)高校算力方面的最終服務(wù)目標是發(fā)揮教科專網(wǎng)作用,助力教學科研。
以階段劃分來看,整體建設(shè)規(guī)劃為“三步走”:第一階段,為學校提供算力設(shè)備及安裝調(diào)試,這也是賽爾正在做的工作;第二階段,規(guī)劃是要推進算力調(diào)優(yōu)服務(wù)和算力資源引進,包括引進CPU、GPU的原廠資源,賽爾是AMD在中國教育行業(yè)的獨家合作伙伴,還在申請英偉達NPN的服務(wù)資質(zhì),并也在與英特爾逐漸建立聯(lián)系,這一階段整體是通過對廠商芯片的調(diào)優(yōu)來服務(wù)學校的算力;第三階段,未來要發(fā)揮教科專網(wǎng)作用,建立教育科研行業(yè)的算力專網(wǎng)以及資源平臺,做到算網(wǎng)融合,為學校提供算力異地同步,在學校突發(fā)算力需求時,能夠通過算力專網(wǎng)引入外部資源。
當超算平臺所屬單位為信息中心/網(wǎng)絡(luò)中心時,其人員往往是計算機相關(guān)專業(yè)出身,具備較強的IT背景,但對于數(shù)學、物理、能源、力學、材料等應(yīng)用背景卻很難介入。而當超算平臺所屬單位為應(yīng)用院系時,其人員具備比較好的專業(yè)應(yīng)用背景,但計算機素養(yǎng)卻有所不足。
但人才隊伍建設(shè)是一個比較復(fù)雜的問題,面臨著制度、管理等諸多方面的限制。比如在招聘員工時,人事部門對人才的學歷和專業(yè)都會有詳細要求,這就可能把合適的人才拒之門外;此外,與互聯(lián)網(wǎng)公司相比,高校的待遇普遍偏低,網(wǎng)絡(luò)中心與院系相比又很難給出相應(yīng)的編制,導(dǎo)致很難招到高水平的人才。這些都是人才隊伍建設(shè)中面臨的具體困難。
在現(xiàn)實中,因為軟硬件技術(shù)發(fā)展得很快,一些新的軟件能夠一定程度上減少集群管理工作的壓力。另外,如果能把高性能計算集群云化部署,或采用購買服務(wù)的方式,也能減緩人才隊伍缺失的壓力。
高校超算人才隊伍,需要各個類型的人才。
一是專家團隊。在超算平臺建設(shè)初期,由顧問型的專家團隊來指導(dǎo)如何建設(shè)機房、配置設(shè)備、分配電力、容災(zāi)設(shè)計、消防安全管理,等等。
二是運維團隊。在超算平臺建成后,日常運維工作可以采用與企業(yè)合作的方式,將相關(guān)職能外包給企業(yè)。

三是科研服務(wù)團隊。科研服務(wù)團隊應(yīng)了解教師用戶的具體需求,做好溝通,在算力配置、經(jīng)費管理、軟硬件選擇等方面提供優(yōu)質(zhì)的解決方案。
四是學科人才團隊。學科人才應(yīng)該充分了解學科,讓不同學科的老師們形成學科交叉、科研交叉,打造學科融合的大項目。
五是宣傳隊伍。宣傳隊伍能夠?qū)W校算力建設(shè)的實踐經(jīng)驗總結(jié)提煉,形成案例,再向更多的老師們推薦。
由此,各個人才隊伍將學校超算平臺從開始建設(shè),到日常運維,到未來推廣的整個鏈條打通,形成環(huán)路,自然會有更多的教師用戶選擇使用平臺。
高校超算團隊的建設(shè),有以下幾方面值得考量。
第一,除了計算機之外,需要對行業(yè)領(lǐng)域比較熟悉的人才。比如我們實驗室,需要由基因組測序相關(guān)專業(yè)背景的人來協(xié)助管理和運營,在跟用戶溝通時就會比較順暢。為了打造有專業(yè)背景的人才隊伍,建議學校超算中心多跟相關(guān)學院或?qū)I(yè)合作,打造相關(guān)的項目或比賽,在這個過程中發(fā)現(xiàn)人才、留住人才。
第二,高校超算中心對應(yīng)用的開發(fā)能力還比較欠缺,往往只能提供基礎(chǔ)的算力資源和服務(wù),對用戶應(yīng)用的開發(fā)和優(yōu)化還有很多不足,因此,具備開發(fā)能力
人們常說超算是國之重器,計算平臺對高校來說也是重要的大型科研設(shè)備。從外部條件來說,高校建設(shè)算力平臺普遍面臨能耗、空間等條件限制。就內(nèi)部機制而言,還是要讓建好的平臺充分發(fā)揮效用。在硬件建設(shè)過程中,應(yīng)結(jié)合學校的學科特點充分論證,先落實具體的用戶和應(yīng)用特征,再結(jié)合計算設(shè)備的硬件結(jié)構(gòu)妥善規(guī)劃,淡化對硬指標的追求,強化應(yīng)用成果方面的評價,確保以應(yīng)用成果為導(dǎo)向?qū)崿F(xiàn)投資效益最大化。
東數(shù)西算政策、算力網(wǎng)絡(luò)技術(shù)為計算平臺建設(shè)提供了一個新的思路。國外高校也有這種建設(shè)模式,比如波士頓大學、哈佛大學、MIT、東北大學、馬薩諸塞系統(tǒng)大學等幾所高校聯(lián)合在Holyoke這個地方建設(shè)了一個以消耗清潔能源為主的馬薩諸塞綠色高性能計算中心(MGHPCC),目前已具備服務(wù)兩萬多師生及研究人員的科研計算需求的能力。國內(nèi)高校,也可考慮借助國家東數(shù)西算政策探索類似的平臺建設(shè)思路,國家的信息基礎(chǔ)設(shè)施已經(jīng)提供了相當好的條件,高校平臺參與東數(shù)西算在技術(shù)上沒有難度,可能需要一些具體的頂層政策設(shè)計。
算力網(wǎng)絡(luò)的內(nèi)涵不僅限于科研計算平臺的互聯(lián)互通,應(yīng)該是可以作為促進實體產(chǎn)業(yè)發(fā)展的更高水平的基礎(chǔ)設(shè)施。特別是隨著大數(shù)據(jù)和統(tǒng)計學習技術(shù)與產(chǎn)業(yè)深度融合,一場生產(chǎn)力平臺的變革正在發(fā)生。算力網(wǎng)絡(luò)的基礎(chǔ)是網(wǎng)絡(luò),核心是應(yīng)用,推動高校算力服務(wù)和算力網(wǎng)絡(luò)建設(shè),還是得立足于各校學科特色,加強跨的人才也是高校超算中心所急需的。
第三,無論是資源、技術(shù)、還是管理方面,各高校都有自己的特色和可借鑒的經(jīng)驗,高校超算平臺之間應(yīng)該加強各方面的交流,取長補短。交流體現(xiàn)在很多方面,其中在人才培養(yǎng)上,超算中心很多時候依賴傳統(tǒng)的傳幫帶,缺乏專業(yè)的交流培訓機制,這一點有很多加強空間。另外,面對人才編制等方面的限制和要求,高校可以轉(zhuǎn)變觀念,與科研單位、企業(yè)更多地合作交流,把部分管理、運營的工作交給專業(yè)的公司去做。

馬薩諸塞綠色高性能計算中心(MGHPCC)
學科交叉合作和應(yīng)用能力方面的研發(fā),建設(shè)高速低延遲網(wǎng)絡(luò),促進互聯(lián)互通和數(shù)據(jù)共享,以持續(xù)投入支持自主開發(fā)應(yīng)用軟件,形成活躍的科研應(yīng)用社區(qū)。以人工智能技術(shù)為驅(qū)動的新一代生產(chǎn)力平臺、聯(lián)邦學習、隱私計算等應(yīng)用對算力基礎(chǔ)設(shè)施的需求沒有上限,這方面算力網(wǎng)絡(luò)相關(guān)的技術(shù)研發(fā)和設(shè)施建設(shè)也大有可為。
高校算力平臺建設(shè)和服務(wù)關(guān)鍵得看成效,要重視從需求論證到規(guī)劃設(shè)計建設(shè)全過程,盡量避免為建而建、先建后用的思維。平臺的硬件成本和運行成本都比較大,我們強調(diào)平臺的使用效益,用得好不好跟建得合不合適有很大關(guān)系。所謂細節(jié)決定成敗,比如,冷卻、互聯(lián)網(wǎng)絡(luò)、存儲系統(tǒng)這三個子系統(tǒng)在算力平臺建設(shè)中,我們往往不會把它當作核心設(shè)備,但每一個子系統(tǒng)設(shè)計規(guī)劃不到位都會影響整個計算平臺有效運行。因此建設(shè)算力平臺之前有必要仔細規(guī)劃和論證好每個技術(shù)方案細節(jié)。
高校算力服務(wù)的前景非常廣闊。下一步,對于沒有高性能計算算力的學校來說,需要做好規(guī)劃,建設(shè)高性能計算平臺或購置高性能計算的算力服務(wù),同時在人事和管理制度上也要做好相應(yīng)的規(guī)劃;對于已有高性能算力平臺的學校來說,則要考慮如何進一步用好平臺,站在整個學校的高度和視角,探索出最優(yōu)的平臺管理運行制度。
近來,ChatGPT等人工智能應(yīng)用的火熱,表明人工智能到了一個新的發(fā)展階段,從傳統(tǒng)的只能解決機器視覺和語言處理等個別領(lǐng)域問題,到現(xiàn)在解決跨模態(tài)的問題。在這樣的背景下,更多的學校老師會投入到人工智能領(lǐng)域,作為學校的支撐部門,要順應(yīng)時代潮流,為學校的人工智能發(fā)展提供相應(yīng)的支撐服務(wù),包括經(jīng)費、人員、制度等在必要的情況下都可以向AI領(lǐng)域傾斜。
如果一個高校同時維持人工智能平臺和算力平臺,一般需要配置兩套班子、兩套設(shè)備,對大部分高校是非常昂貴的投入。因此,高校可以考慮建立人工智能和超算的融合平臺,建立統(tǒng)一的管理制度,包括資源分配制度、財務(wù)制度、收費制度、費用支出制度等,可以方便同時處理高性能計算任務(wù)和人工智能算力任務(wù),還可以由同一個團隊把兩個平臺一起管好用好。
此外,高校算力服務(wù)還應(yīng)該善用我們現(xiàn)有的一些工作基礎(chǔ)。比如,賽爾網(wǎng)絡(luò)和教科網(wǎng)在各個高校之間建立了很好的帶寬連接,包括IPv6連接;而北京大學和賽爾網(wǎng)絡(luò)共同打造的CARSI體系,是非常重要的基礎(chǔ)性認證軟件平臺。剛才提到,高校之前需要“削峰填谷”,實現(xiàn)算力資源利用效率最大化,這就需要我們充分利用這些已有的基礎(chǔ)性硬件網(wǎng)絡(luò)設(shè)施和認證平臺,再結(jié)合專門的算力資源管理工具,將學校之間的算力打通,為國內(nèi)高校算力服務(wù)做好基礎(chǔ)的儲備。除了高校之間的交流打通,高校與社會化算力之間也要加強交流,綜合評估各種社會算力資源,共同納入學校的算力生態(tài)體系中來。
未來,在高校算力服務(wù)發(fā)展上,有以下幾個方面要多加關(guān)注:
一是加強軟件建設(shè)。在算力支撐科研上,要更多關(guān)注老師們的科研環(huán)境,提供更加精準的科研環(huán)境和軟件,從而對算力進行更好的調(diào)度和更高效的使用。
二是構(gòu)建數(shù)據(jù)中心。在滿足教師的算力任務(wù)后,要想辦法把沉淀的數(shù)據(jù)存儲并利用起來。由此,基于數(shù)據(jù)的協(xié)同和驅(qū)動,可能也會引起很多科研范式的變化。

三是形成算力社區(qū)。我們在建設(shè)算力時,不能只局限于算力本身,也要想辦法構(gòu)建它的上層應(yīng)用,如數(shù)據(jù)中心、模型中心,甚至再上層的開發(fā)者社區(qū)。
對于算力建設(shè),學校領(lǐng)導(dǎo)的重視和支持非常重要;在軟件配置、優(yōu)先支持等方面也要允許小范圍的試錯,最終達到百花齊放的狀態(tài);此外,持續(xù)的投入也很關(guān)鍵。
未來的一流大學,除了學科科研之外,誰對數(shù)字能力的把握更好,誰就能夠脫穎而出。我們需要用更大的格局、更高的戰(zhàn)略眼光來看待算力服務(wù),它不是一個部門自己關(guān)起門來建機房的事,而是未來整個大學變革的巨大源泉。
未來高校算力服務(wù)的前景非常廣闊,中國教育和科研計算機網(wǎng)作為教育領(lǐng)域的專網(wǎng),應(yīng)該發(fā)揮自身優(yōu)勢,聚焦服務(wù)教育科研。為高校提供優(yōu)質(zhì)的算力服務(wù),是教科網(wǎng)和賽爾網(wǎng)絡(luò)的使命和責任。賽爾網(wǎng)絡(luò)也會持續(xù)加大投入力度,并在以下三個方面發(fā)力:
一是整體按照“三步走”規(guī)劃推動算力建設(shè),從簡單的設(shè)備供貨及安裝調(diào)試,向算力服務(wù)優(yōu)化演進,最終發(fā)揮教科專網(wǎng)的作用,實現(xiàn)算網(wǎng)融合。目前賽爾正在做的是算力資源共享平臺建設(shè),目標就是為高校提供優(yōu)質(zhì)的算力資源服務(wù)。
二是推動算力服務(wù)性能力的輸出,依據(jù)學校特定需求,有針對性地做好網(wǎng)絡(luò)層面的服務(wù)。以第三代互聯(lián)網(wǎng)FITI為載體,未來還會根據(jù)高校學科分類來做細分專網(wǎng),促進資源共享共建,進一步推動科研成果融合。
三是賽爾內(nèi)部會不斷加強算力隊伍建設(shè),培養(yǎng)專業(yè)團隊,為高校做好算力服務(wù)和維護。