
清華大學蛋白質研究技術中心(以下簡稱“清華蛋白質技術中心”)需要利用高性能并行計算手段解決生命科學領域的前沿性問題。通過構建生物計算平臺(以下簡稱“HPC平臺”),承載和支撐大規模生物學、醫學領域的研究計算任務,充分利用HPC平臺海量數據處理和并行計算能力,為生物大數據的高效處理和分析提供創新機制,滿足生命科學、生物學、醫學和其它交叉科學不斷提出的新要求和挑戰。
清華蛋白質技術中心引入了戴爾PowerEdge FX2 FC430融合架構方案,構建了一個擁有250個物理計算節點,5000個計算核心、存儲總容量為1.92PB、理論計算能力為208Tflops、融合了英特爾 Lustre技術的HPC平臺,戴爾為HPC平臺提供了端到端的配置安裝服務。
長期以來,解析剪接體三維結構被認為是生物學里的熱門研究,因為其應用場景很多。例如:許多疾病源于基因的錯誤剪接或針對剪接體的調控錯誤,如果能夠識別這些錯誤,人類眾多不治之癥的治愈將成為可能。而中國科學家在世界上首次捕獲真核細胞剪接體復合物的3.6埃米(1埃米等于100億分之一米,已經接近原子級尺度)高分辨率空間三維結構,其研究成果可為人類識別上述錯誤提供幫助,被尊稱為諾獎級成果。清華蛋白質技術中心構建的HPC平臺,則為上述世界頂級的生物學研究提供了計算層面的支持。
突破生物研究的計算瓶頸
研究生物蛋白質結構有三種主要方法:X射線晶體衍射、核磁共振以及單顆粒冷凍電子顯微鏡(以下簡稱“冷凍電鏡”)。清華大學研究團隊所采用的冷凍電鏡技術在過去兩年里取得了革命性的進展,具體來說就是照相機技術實現了飛躍,將采集數據的能力提升了10多倍,甚至上百倍,大幅提高了冷凍電鏡的解析能力,由此使得研究蛋白質結構的源數據呈幾何級數增加,這就要求清華蛋白質技術中心必須全面提升后期的數據處理與計算能力。這是清華蛋白質技術中心與戴爾合作,引入戴爾PowerEdge FX2 FC430構建HPC平臺的戰略性原因之一。
推進生物研究發展 并利用HPC平臺提供計算服務
在論文的撰寫過程中,清華大學的研究團隊利用HPC平臺完成了許多重要數據的處理。其中最為重要的就是對裂殖酵母進行了對象分析,通過冷凍電鏡收集上百TB的數據,通過HPC的計算,在近原子分辨率上看到了剪接體的細節。這些細節讓研究人員發現,剪接體的外形輪廓十分不對稱,各個蛋白相互纏繞,形成了分子量和體積巨大的復合物。這是自1993年RNA(核糖核酸)剪接發現以來,科學家率先對剪接體近原子分辨率結構進行解析,為人類進一步揭示與剪接體相關疾病的機理,提供了結構基礎和理論。
利用HPC平臺,清華蛋白質技術中心建立了一個面向生物研究的工程研究平臺,提升了蛋白質結構解析水平,幫助國際一流的生物研究團隊高精度地測定蛋白質分子結構、各類細胞的三維結構,并在此基礎上揭示蛋白質及其復合體的功能,為規模化制備蛋白或抗體,提供科學計算層面的支持。
引入戴爾極限規模基礎架構
談到引入戴爾PowerEdge FX2融合架構方案的原因時,清華蛋白質技術中心生物計算平臺負責人楊濤博士介紹說:“此次我們引入的戴爾融合架構具有戴爾最先進的ESI(ESI- Extreme Scale Infrastructure)特質,在ESI特質的基礎上PowerEdge FX2集合了刀片和多節點機架式服務器的技術優勢。
首先是計算密度大,在2U空間內可以支持8個配置雙插槽英特爾至強處理器的計算節點;其次是靈活性好,不僅可以選擇FC430而且還可選用其他多種服務器節點;再次是擴展性好,支持可拆分的DAS存儲節點、多種網絡直通/交換模塊;最后是管理性好,提供高效的CMC機箱集中式管理方案。”
此次引入的計算節點服務器是戴爾PowerEdge FC430,FC430采用了英特爾·至強TM處理器,單U空間的計算性能密度達到業界領先的4.1TFLOPS。楊濤介紹說:“我們引入戴爾PowerEdge FX融合基礎架構方案,可以說重新定義了清華蛋白質技術中心生物計算平臺的靈活性。戴爾PowerEdge FX將經過模塊化設計的不同規模的計算資源融合在一起,將服務器、存儲和10Gb網絡無縫地融合在2U機架式機箱內,同時提供共享的散熱、電源、網絡、管理和PCIe擴展插槽,幫助我們獲得了良好的成本效益。”
高速網絡確保HPC平臺的 I/O網絡性能
此次清華蛋白質技術中心HPC平臺采用了Lustre分布式文件系統,這種并行文件系統可以在單一命名空間內,快速增加節點數來擴展容量和性能,并支持在線擴展,支持多個客戶端并發讀寫,并可以幫助IT人員利用分布式鎖機制保障數據一致性。
在網絡方面,戴爾為HPC平臺核心計算網絡提供了具有高吞吐量低延遲特性的Force10 Z9500 40Gbps交換機,為管理和I/O網絡提供了包括S6000、N3048、PCT2848、Brocade 6505在內的全套網絡方案;在存儲方面,戴爾提供了HPC平臺所需要的全部存儲設備,包括MDS元數據服務器R630+R730+MD3860F雙控光纖陣列,OSS對象存儲服務器R820+MD3860F雙控光纖陣列+MD3060E高密磁盤擴展柜。
完整的企業管理功能,幫助IT人員簡化管理
可有效地簡化IT管理,是清華蛋白質技術中心選擇戴爾HPC平臺方案的另外一個重要原因。 戴爾PowerEdge FX2融合基礎架構體系,提供了傳統機架式服務器單獨管理方式和與刀片服務器類似的綜合管理方式,前者可以幫助IT人員解決局部性問題,后者可以幫助IT人員解決全局性問題。
楊濤介紹說:“借助帶生命周期控制器的集成戴爾遠程訪問控制器(iDRAC)和戴爾機箱管理控制器(CMC)的免代理程序,我們可以實現快速的系統部署、更新、監視和維護,大大簡化了IT人員的管理工作,提升了管理效率。”
具體來說,CMC可以幫助IT人員在單一界面內監視20個FX系統,以一對多的態勢完成BIOS和固件程序更新,并維護基于FX機箱插槽的服務器配置文件。
當安裝新的FC430服務器時,IT人員可以通過配置文件下發的方式,讓系統自動完成更新BIOS和固件程序的工作。所有這些管理,均具有自動化的特點,比傳統管理方法更節省時間更省成本,尤其是通過自動執行配置文件,避免了重復輸入配置參數的繁瑣,也減少了由于人工輸入錯誤而導致的系統故障。總之,戴爾方案完整的企業管理功能,幫助IT人員簡化管理,讓“面向未來就緒”的理念穩健落地。
完美呈現蛋白質的三維結構
10GB以上的計算量,科研人員一般交給HPC平臺處理,3-5GB的小計算任務和HPC平臺計算后的數據成像工作,則由戴爾的圖形工作站完成。清華蛋白質技術中心采用了戴爾Precision T7910工作站,配置了NVIDIA· Quadro· K620專業級圖形顯卡和SSD高速硬盤。
借助NVIDIA Quadro? K620所具備的 128位顯存帶寬、384個流處理單元、2GB DDR顯存的超強圖形處理能力,清華大學的科研人員可在2-3秒內呈現2K清晰度的蛋白質平面圖,在15-20秒內呈現出4K清晰度的三維結構圖。