于 泠, 王雨順, 朱 瑩, 陳文通
(1. 南京師范大學(xué) 科學(xué)計(jì)算中心, 江蘇 南京 210023;2. 江蘇省大規(guī)模復(fù)雜系統(tǒng)數(shù)值計(jì)算重點(diǎn)實(shí)驗(yàn)室, 江蘇 南京 210023)
?
科學(xué)計(jì)算中心建設(shè)與服務(wù)的探索與實(shí)踐
于 泠1,2, 王雨順1,2, 朱 瑩1,2, 陳文通1,2
(1. 南京師范大學(xué) 科學(xué)計(jì)算中心, 江蘇 南京 210023;2. 江蘇省大規(guī)模復(fù)雜系統(tǒng)數(shù)值計(jì)算重點(diǎn)實(shí)驗(yàn)室, 江蘇 南京 210023)
介紹了南京師范大學(xué)科學(xué)計(jì)算中心的建設(shè)情況,以及中心對人才培養(yǎng)和科學(xué)研究的支撐服務(wù)。中心面向拔尖人才的層次化能力培養(yǎng)以及面向協(xié)同創(chuàng)新的多元化服務(wù)通道的探索與實(shí)踐具有較強(qiáng)的借鑒意義。該科學(xué)計(jì)算中心共享平臺能夠較好地滿足各學(xué)科的科學(xué)計(jì)算需求,為校內(nèi)外科研工作者提供了高質(zhì)量的計(jì)算服務(wù),同時也提高了資源的使用效率。
科學(xué)計(jì)算中心; 共享平臺; 人才培養(yǎng); 協(xié)同創(chuàng)新
計(jì)算是數(shù)學(xué)科學(xué)在其他領(lǐng)域最普遍的應(yīng)用,有關(guān)計(jì)算的挑戰(zhàn)通常稱為“科學(xué)計(jì)算”[1]。科學(xué)計(jì)算是計(jì)算機(jī)學(xué)科和應(yīng)用學(xué)科交叉融合的產(chǎn)物,科學(xué)計(jì)算支撐了更廣泛的研究領(lǐng)域[2]。隨著大數(shù)據(jù)時代的到來,各學(xué)科科學(xué)研究中的問題不再能單純依靠科學(xué)理論和科學(xué)實(shí)驗(yàn)方法予以解決[3],科學(xué)計(jì)算已成為繼科學(xué)理論和科學(xué)實(shí)驗(yàn)之后,世界科學(xué)技術(shù)創(chuàng)新的第三種方法[4]。
為了更好地滿足各學(xué)科的科學(xué)計(jì)算需求,為校內(nèi)外科研工作者提供高質(zhì)量的計(jì)算服務(wù),同時為了提高資源的使用效率,南京師范大學(xué)建立了校級科學(xué)計(jì)算中心。本文將闡述該科學(xué)計(jì)算中心共享服務(wù)平臺的建設(shè)情況,以及在人才培養(yǎng)和科學(xué)研究的支撐服務(wù)方面所做的工作和未來拓展設(shè)想。
1.1 中心定位
南京師范大學(xué)是一所百年老校,是國家“211工程”重點(diǎn)建設(shè)的江蘇省屬重點(diǎn)大學(xué),是一所綜合性教學(xué)研究型大學(xué),學(xué)科已涉及文、史、哲、教、理、工、經(jīng)、法、管、農(nóng)、醫(yī)、藝等門類。相關(guān)學(xué)科所承擔(dān)的國家級、省級科研項(xiàng)目,需要大規(guī)模、高質(zhì)量的計(jì)算來完成海量的計(jì)算工作,特別是計(jì)算數(shù)學(xué)、計(jì)算物理、計(jì)算化學(xué)、計(jì)算地理等越來越依靠科學(xué)計(jì)算。為了加強(qiáng)學(xué)科交叉融合,提升學(xué)校科學(xué)計(jì)算水平,學(xué)校依托江蘇省“大規(guī)模復(fù)雜系統(tǒng)數(shù)值模擬”重點(diǎn)實(shí)驗(yàn)室的高性能計(jì)算平臺,于2013年成立了南京師范大學(xué)科學(xué)計(jì)算中心(以下面簡稱“中心”)。該中心是校級科技服務(wù)公共平臺,掛靠數(shù)學(xué)科學(xué)學(xué)院。科學(xué)計(jì)算中心的設(shè)立,旨在進(jìn)一步發(fā)揮省重點(diǎn)實(shí)驗(yàn)室的作用,提升科學(xué)計(jì)算平臺的軟硬件性能,提高服務(wù)水平;進(jìn)一步合理利用和整合學(xué)校相關(guān)資源,避免重復(fù)建設(shè)和資源浪費(fèi);進(jìn)一步促進(jìn)相關(guān)學(xué)科的交叉融合,加強(qiáng)協(xié)同創(chuàng)新,提升學(xué)校的人才培養(yǎng)和科學(xué)研究水平。
1.2 軟硬件建設(shè)
目前中心主要的共享計(jì)算平臺為高性能計(jì)算(high performace computing,HPC)系統(tǒng),該平臺主要軟硬件配置如表1所示。整個平臺由108個刀片式計(jì)算節(jié)點(diǎn)、2個胖節(jié)點(diǎn)、1個GPU節(jié)點(diǎn)、4個登錄管理節(jié)點(diǎn)和3個I/O節(jié)點(diǎn)組成。每個節(jié)點(diǎn)采用64位高性能處理器,共含1406個CPU核心,計(jì)算節(jié)點(diǎn)核心共1 296個,計(jì)算節(jié)點(diǎn)Linkpack實(shí)測值≥12.5 Tflops;外部存儲采用容量約160 TB磁盤陣列;系統(tǒng)采用Linux操作系統(tǒng),使用高性能文件系統(tǒng)GPFS;節(jié)點(diǎn)間通過千兆以太網(wǎng)和Infiniband相互連接。系統(tǒng)中安裝了多個科學(xué)計(jì)算軟件。

表1 科學(xué)計(jì)算中心HPC平臺主要配置
1.3 共享服務(wù)平臺
科學(xué)計(jì)算中心以HPC平臺為主要資源,通過校園網(wǎng)提供共享服務(wù)。服務(wù)平臺結(jié)構(gòu)如圖1所示。校內(nèi)用戶可以通過SSH客戶端方式或IE瀏覽器方式訪問中心的HPC平臺;校外用戶可通過VPN和SSH客戶端方式或IE瀏覽器方式訪問。

圖1 HPC共享服務(wù)平臺結(jié)構(gòu)
中心是一個為科技服務(wù)的公共平臺,因此,服務(wù)用戶便是中心的主要任務(wù)。要為校內(nèi)外用戶提供一個穩(wěn)定、安全、高效的HPC共享平臺,運(yùn)維管理顯得尤為重要[5-6]。中心從制度管理、設(shè)備運(yùn)維和人員配備3個方面構(gòu)筑了一個強(qiáng)大的服務(wù)平臺。
(1) 完善的管理制度。中心制定了完備的運(yùn)維管理制度,責(zé)任到人、分級管理。當(dāng)發(fā)現(xiàn)故障時,首先由管理人員進(jìn)行排查和處理,若無法自行處理時,須收集運(yùn)行日志并及時報修。制度還規(guī)定管理人員應(yīng)定期檢查平臺硬件的完好狀態(tài)和軟件的運(yùn)行情況,定期檢查設(shè)備的用電安全及空調(diào)設(shè)備安全,從而確保該平臺能穩(wěn)定地運(yùn)行。此外,中心還制定了嚴(yán)格的保密制度,以保障用戶信息和數(shù)據(jù)的安全。
(2) 可靠的設(shè)備運(yùn)維。為了便于對HPC系統(tǒng)設(shè)備的管理、對計(jì)算資源進(jìn)行合理的分配,共享平臺配備了基于Web界面的EasyCluster管理和作業(yè)調(diào)度系統(tǒng)[7]。該軟件系統(tǒng)主要包括管理與作業(yè)調(diào)度兩大功能。管理功能模塊具有負(fù)載監(jiān)控、斷電及溫度保護(hù)、賬戶管理、計(jì)費(fèi)記賬等組合式功能,使管理員能方便、快捷地管理HPC系統(tǒng);作業(yè)調(diào)度功能模塊可以自動選擇當(dāng)前資源中利用率較低的節(jié)點(diǎn)分配作業(yè),對沒有被調(diào)度的節(jié)點(diǎn)進(jìn)行自動休眠,降低了系統(tǒng)功耗。一方面,軟件可以合理安排作業(yè)調(diào)度;另一方面,管理人員也可以通過軟件方便、快捷地對平臺進(jìn)行遠(yuǎn)程維護(hù)。
(3) 專業(yè)的管理人員。中心系統(tǒng)管理人員的素質(zhì)對設(shè)備能否高質(zhì)量穩(wěn)定運(yùn)行、中心能否持續(xù)發(fā)展起著至關(guān)重要的作用。本中心配備了高學(xué)歷、高素質(zhì)的專職設(shè)備管理人員,時時監(jiān)控共享平臺的運(yùn)行情況并填寫運(yùn)行日志;在服務(wù)過程中,管理人員加強(qiáng)與用戶的溝通,了解科學(xué)計(jì)算軟件的應(yīng)用背景,及時根據(jù)用戶的反饋意見改進(jìn)工作,不斷提高自身的服務(wù)能力。管理人員還承擔(dān)了部分實(shí)驗(yàn)課程的教學(xué)工作,將實(shí)踐經(jīng)驗(yàn)直接傳授給學(xué)生,幫助學(xué)生更快熟悉并使用HPC平臺。
科學(xué)計(jì)算中心的服務(wù)過程也是人才培養(yǎng)和科研創(chuàng)新的過程,中心共享平臺的服務(wù)質(zhì)量和服務(wù)水平也體現(xiàn)在有成效的人才培養(yǎng)和科研創(chuàng)新上[8-9]。為此,中心在面向拔尖人才的層次化培養(yǎng)以及面向協(xié)同創(chuàng)新的多元化服務(wù)通道等方面進(jìn)行了一些探索與實(shí)踐。
3.1 層次化培養(yǎng)拔尖人才
目前中心的用戶主要是研究生和一部分本科生。有的研究生參與了導(dǎo)師的科研課題,有的承擔(dān)了省級或校級的研究生科研創(chuàng)新項(xiàng)目,有的參加了數(shù)學(xué)建模
競賽。學(xué)校也有面向本科生的拔尖創(chuàng)新人才培養(yǎng)項(xiàng)目,例如一年一度的“英才計(jì)劃”和“大學(xué)生創(chuàng)新訓(xùn)練項(xiàng)目”。科學(xué)計(jì)算能力是培養(yǎng)拔尖創(chuàng)新人才的一項(xiàng)重要內(nèi)容。科學(xué)計(jì)算能力是利用現(xiàn)代計(jì)算工具解決教學(xué)和科研中復(fù)雜問題的模擬及求解的能力[10],是一種綜合能力,主要包括建立模型的能力、編寫高效并行程序的能力、科學(xué)計(jì)算軟件的應(yīng)用能力等。
由于中心服務(wù)的主要對象是全校學(xué)生,他們大都沒有系統(tǒng)學(xué)習(xí)過并行計(jì)算或高性能計(jì)算方面的課程,且平時大都使用Windows操作系統(tǒng),對Linux系統(tǒng)普遍缺乏了解,甚至沒有最基本的關(guān)于Linux命令行的知識。很多學(xué)生在開始利用HPC共享平臺時會遇到很多困難,容易出現(xiàn)畏難情緒,有些學(xué)生失去使用HPC平臺的興趣。
為此,筆者構(gòu)建了層次化科學(xué)計(jì)算能力培養(yǎng)模型(見圖2),培養(yǎng)學(xué)生對HPC平臺的興趣,挖掘?qū)W生的應(yīng)用與開發(fā)潛能,以期遞進(jìn)式提高學(xué)生的科學(xué)計(jì)算能力。

圖2 層次化科學(xué)計(jì)算能力培養(yǎng)模型
層次化科學(xué)計(jì)算能力培養(yǎng)模型采用分層、模塊化組織教學(xué)內(nèi)容,學(xué)生可以自由選擇、組合各課程子模塊。表2給出了關(guān)于課程模塊的描述。

表2 科學(xué)計(jì)算能力培訓(xùn)內(nèi)容
我校在研究生教育綜合改革中,非常重視對研究生的數(shù)學(xué)建模能力、科學(xué)計(jì)算能力和科學(xué)計(jì)算應(yīng)用能力的培養(yǎng),從制度上明確了科學(xué)計(jì)算能力培養(yǎng)目標(biāo),在基礎(chǔ)學(xué)位課程中增加工程數(shù)學(xué)、數(shù)值計(jì)算、應(yīng)用隨機(jī)過程等課程,供全校研究生選修。
層次化的科學(xué)計(jì)算能力培訓(xùn)方式在數(shù)學(xué)科學(xué)學(xué)院取得了很好的成效。在本科生教育階段,開設(shè)了數(shù)學(xué)建模、計(jì)算方法、Fortran語言、Matlab語言和計(jì)算等科學(xué)計(jì)算相關(guān)課程,使學(xué)生打下了建模、軟件應(yīng)用及編程的基礎(chǔ)。在研究生階段,開設(shè)了并行計(jì)算等相關(guān)課程,使學(xué)生有能力將科學(xué)計(jì)算知識應(yīng)用于科研課題,進(jìn)行并行編程及計(jì)算。此外,針對學(xué)生所承擔(dān)的科研課題,開設(shè)了專業(yè)性較強(qiáng)的科學(xué)計(jì)算軟件使用講座。
科學(xué)計(jì)算能力培養(yǎng)模型的實(shí)施,使學(xué)生的科學(xué)計(jì)算能力有了長足的進(jìn)步。學(xué)生借助科學(xué)計(jì)算平臺參加數(shù)學(xué)建模競賽,完成省級、校級的創(chuàng)新訓(xùn)練項(xiàng)目,均取得了很好的成績。
3.2 協(xié)同創(chuàng)新,提供多元化的服務(wù)通道
作為學(xué)校科技服務(wù)公共平臺,科學(xué)計(jì)算中心承擔(dān)著為學(xué)校科學(xué)研究和科技創(chuàng)新提供共享計(jì)算資源的任務(wù)。目前,平臺除了安裝有高性能計(jì)算必須的編譯器、數(shù)學(xué)庫、并行庫以外,還安裝了科學(xué)計(jì)算軟件,為計(jì)算數(shù)學(xué)、計(jì)算物理、計(jì)算化學(xué)、計(jì)算地理等理工學(xué)科提供高性能計(jì)算服務(wù)。例如:在環(huán)境因素對太湖影響建模分析研究中,中心運(yùn)用實(shí)測數(shù)據(jù)對模型進(jìn)行了參數(shù)估計(jì)和校正,進(jìn)行了定性和數(shù)值方面的分析,完成了水質(zhì)動態(tài)預(yù)測。
目前,越來越多的研究工作需要數(shù)值模擬和大數(shù)據(jù)分析。計(jì)算和大數(shù)據(jù)的融合,促進(jìn)了科學(xué)計(jì)算應(yīng)用的擴(kuò)展,使之成為理論研究和技術(shù)應(yīng)用的基石[11],并不斷應(yīng)用到更多學(xué)科中(見圖3)。科學(xué)計(jì)算以“計(jì)算思維”為基礎(chǔ),其中計(jì)算機(jī)和信息科學(xué)可以建立和優(yōu)化計(jì)算問題所需要的硬件、軟件、網(wǎng)絡(luò)和數(shù)據(jù)管理構(gòu)件[2]。這樣的交叉,使得科學(xué)計(jì)算和其他科學(xué)研究的內(nèi)涵均有了拓寬,科學(xué)計(jì)算的應(yīng)用也日趨廣泛。例如,利用計(jì)算技術(shù)進(jìn)行社會系統(tǒng)演化機(jī)制、社會系統(tǒng)與環(huán)境的交互作用及其系統(tǒng)中要素的動力學(xué)行為的模擬[12]。

圖3 科學(xué)計(jì)算與其他學(xué)科的交叉
南京師范大學(xué)科學(xué)計(jì)算中心提供了多元化的服務(wù)通道。中心正在積極拓展服務(wù)功能,探索社會科學(xué)(社會計(jì)算)、語言學(xué)(計(jì)算語言學(xué))、教育和心理學(xué)(計(jì)算教育學(xué))等學(xué)科計(jì)算實(shí)驗(yàn)的研究體系和研究模式,提供計(jì)
算實(shí)驗(yàn)的模型結(jié)構(gòu)、實(shí)現(xiàn)方法以及專用工具。目前,中心正積極搭建支持SciLab工具箱、服務(wù)于網(wǎng)絡(luò)教育的開源科學(xué)計(jì)算教育平臺,也正在探索為方言研究、詞典編纂、語料庫建設(shè)、自然語言理解等研究和應(yīng)用提供存儲、建模、處理等支撐服務(wù);與社會科學(xué)研究人員共同探索將傳統(tǒng)的Web信息計(jì)算逐步延伸到物理世界中,通過感知物理社會中人們的行為及關(guān)系來挖掘個人、群體及社會性行為,以為社會公共決策、社會公共安全等服務(wù)。
南京師范大學(xué)科學(xué)計(jì)算中心的建設(shè)已初具規(guī)模,中心以服務(wù)科研和教學(xué)為核心,通過先進(jìn)的硬件配置、豐富的軟件資源和專業(yè)的管理團(tuán)隊(duì),為校內(nèi)外用戶提供了穩(wěn)定、便捷和安全的HPC共享平臺。中心將根據(jù)大數(shù)據(jù)時代對科學(xué)計(jì)算的需求,進(jìn)一步整合學(xué)校各學(xué)科的計(jì)算資源、應(yīng)用資源和人才資源。在學(xué)校的支持下,中心將進(jìn)一步完善軟硬件設(shè)備,中心管理人員將不斷提高自身素質(zhì),努力建設(shè)一個有特色的科技協(xié)同創(chuàng)新和人才培養(yǎng)的高水平支撐平臺。
References)
[1] 美國科學(xué)院國家研究理事會.2025年的數(shù)學(xué)科學(xué)[M].劉小平,李澤霞,譯.北京:科學(xué)出版社,2014.
[2] 胡慶豐,廖湘科.系統(tǒng)與應(yīng)用相結(jié)合加強(qiáng)科學(xué)計(jì)算研究[J].國防科技,2010,31(2):24-27.
[3] 黃建忠,張滬寅,程媛.開放式高性能計(jì)算平臺的建設(shè)與研究[J].計(jì)算機(jī)教育,2012(22):55-59.
[4] 陳志明.科學(xué)計(jì)算:科技創(chuàng)新的第三種方法[J].中國科學(xué)院院刊,2012,27(2):161-166.
[5] 盛樂標(biāo),游偉倩,周慶林.南京大學(xué)高性能計(jì)算中心建設(shè)的探索與實(shí)踐[J].實(shí)驗(yàn)技術(shù)與管理,2013,30(11):144-146.
[6] 關(guān)偉豪,吳汝明,郭清順,等.中山大學(xué)高性能計(jì)算服務(wù)平臺的建設(shè)[J].實(shí)驗(yàn)技術(shù)與管理,2011,28(4):303-306.
[7] 南京君富科技有限公司.EasyCluster[EB/OL].[2014-06-25].http://www.jointforce.com.cn/page/easycluster.php.
[8] 林皎,張武生,徐偉平.高性能計(jì)算平臺開放服務(wù)的探索與實(shí)踐[J].實(shí)驗(yàn)技術(shù)與管理,2012,29(3):334-336.
[9] 程媛,黃建忠,游維濤,等.高性能計(jì)算實(shí)驗(yàn)室創(chuàng)新實(shí)踐型人才培養(yǎng)[J].計(jì)算機(jī)教育,2014(10):83-89.
[10] 陳懷琛,高淑萍,楊威.科學(xué)計(jì)算能力的培養(yǎng)與線性代數(shù)改革[J].高等數(shù)學(xué)研究,2009,12(3):23-25.
[11] 國家自然科學(xué)基金委員會,中國科學(xué)院.未來10年中國學(xué)科發(fā)展戰(zhàn)略:數(shù)學(xué)[M].北京:科學(xué)出版社,2012.
[12] 張軍.社會科學(xué)計(jì)算實(shí)驗(yàn)研究[J].實(shí)驗(yàn)技術(shù)與管理,2010,27(8):19-23.
Exploration and practice of construction and services of scientific computing center
Yu Ling1,2, Wang Yushun1,2, Zhu Ying1,2, Chen Wentong1,2
(1. Scientific Computing Center, Nanjing Normal University, Nanjing 210023, China; 2. Jiangsu Provincial Key Laboratory for Numberical Simulation of Large Scale Complex Systems, Nanjing 210023, China)
This paper introduces the construction of Scientific Computing Center in Nanjing Normal University. Support services in the center for personnel training and scientific research are also demonstrated. Some of the practices and experience, such as hierarchical competency training for top-notch talent cultivation and diversified service channel for collaborative innovation, have a strong reference value. The establishment of the university’s scientific computing sharing platform can meet the needs of the various disciplines of scientific computing. It may provide high-quality service to internal and external computing scientists, as well as improve the efficiency of resource use.
scientific computing center; sharing platform; personnel training; collaborative innovation
2014- 07- 17
江蘇省高校優(yōu)勢學(xué)科建設(shè)工程資助項(xiàng)目;江蘇省教育科學(xué)“十二五”規(guī)劃重點(diǎn)基金資助項(xiàng)目(B-a/2013/01/013);江蘇省教育科學(xué)“十二五”規(guī)劃項(xiàng)目(D/2013/01/002)
于泠(1971—),女,江蘇金壇,博士,副教授,從事高性能計(jì)算應(yīng)用研究及平臺運(yùn)維工作.
E-mail:njnuyuling@163.com
G482
B
1002-4956(2015)2- 0159- 04