謝興勇 譚飛 黃啟益
(攀鋼集團攀枝花研究院有限公司,四川攀枝花 617000)
數值仿真平臺作為企業重要技術研發平臺,是實現企業數字化設計的重要組成部分,能夠讓科研人員在理論分析的基礎上,直觀的認識和了解系統情況,快速模擬和分析系統變化,實現“仿真指導試驗,試驗確認仿真”,是促進科技創新模式變革與效率提升的重要手段。
隨著智能制造、工業4.0和工業互聯網等新一輪工業革命的興起,虛擬現實、大數據、云計算、人工智能等新技術逐漸進入仿真領域,仿真軟件對工業元素描述更精確、更細致,仿真模型得到持續動態優化,仿真軟件與工業實際應用結合更緊密,仿真軟件技術與計算性能不斷演進提升,仿真計算平臺作為承載仿真軟件應用的載體,也隨之迅速發展,主要體現在:
仿真軟件計算服務云化[1]。利用高性能計算或者超算平臺,使得仿真計算求解服務化,用戶通過交互界面,選擇相應的硬件資源就可以進行計算,進行前后處理和分析。仿真任務可以按照占用的計算資源和許可進行計費,實現硬件資源、軟件許可證等資源的共享利用,能夠使企業降低成本、提高資源利用率,提高操作的便捷性。
仿真軟件與企業管理信息系統一體化。通過建立仿真數據與項目管理系統的聯系,實現項目內部的協同仿真,實現企業研發設計數據共享,能夠加速企業內部連接協作,實現數據共享、數據同步和工作協同。
仿真數據利用進一步深化。通過云端仿真服務積累的大量數據,結合材料基因工程等數據庫,通過大數據手段,有助于實現仿真數據在工藝開發、產品設計中的深入應用[2]。
先進性和可擴展性要求。計算平臺應立足當前,滿足企業研發方向一定時間范圍內的仿真軟件計算需求,并且隨著用戶數量和仿真應用的不斷增加,平臺應具有動態、平滑的可擴展能力,在不影響現有計算任務的情況下,能夠實現資源的動態擴充,保障平臺有足夠的計算力。
高易用性、高可用性、高效率。仿真平臺應采用圖形界面、網絡訪問等用戶友好的交互方式[3],進行三維設計和作業提交,在任何時間、任何地點、任何終端都可以提交和管理作業,平臺穩定可靠,故障和延時低。在計算時間方面,能夠在正常的計算資源和許可投入情況下,在可接受范圍內完成計算任務。
節能環保要求。對于大型數據中心或者計算平臺,在碳排放、資源利用率、廢棄資源方面,應考慮綠色環保要求。應可通過不同軟件、不同用戶在不同時間段分時復用,共享計算資源、存儲資源、許可證等設備和信息,提高設備和應用軟件使用效率,有效降低仿真計算基礎設施投入,達到節能環保的目的。
易管理維護。由于仿真平臺一般規模較大,涉及設備種類多、配置繁瑣,應用軟件來自不同廠家,許可認證使用方式不一,整個平臺復雜度高,應具有統一的資源管理、監控、報警功能[4],便于管理員有效定位故障、快速部署應用軟件。
數據安全性要求。仿真數據作為企業核心設計數據,數據安全極其重要,主要包括設備故障或者不可抗力因素造成的數據丟失、網絡攻擊或者其他方式造成的數據被竊取或者破壞等,應采用相關硬件設備、安全認證、核心數據加密、數據異地備份等措施進行保護。
計算平臺主要由硬件和系統軟件組成,其中硬件主要指計算資源、設計資源、存儲資源和網絡資源以及實現調度、管理所需的設備;系統軟件主要指調度程序、應用門戶和平臺管理功能程序、用戶管理配置工具、并行計算工具等[5]。在進行平臺設計時,應根據運行的仿真應用軟件和計算時間要求、經濟性以及企業其他需求,確定平臺軟硬件配置規模,搭配合理的計算環境[6]。平臺系統結構示意圖如圖1所示,主要包括以下八個方面。

圖1 仿真計算平臺系統結構示意圖Fig.1 System structure diagram of simulation platform
根據仿真軟件對計算資源消耗種類劃分,主要分為CPU資源型、內存資源型、GPU資源型等。對于Ansys、Procast、Fluent等CPU資源消耗型,可以支持跨物理節點且支持并行計算的軟件,應該考慮以大量CPU資源的刀片機或者高密度服務器作為計算資源,這里稱為CPU節點,通過仿真軟件支持的并行計算軟件,來提高軟件計算效率;對于內存資源消耗型或者不支持跨物理節點的軟件,如Gaussian、Abaqus、Marc等軟件,可以通過胖節點的攜帶的較強CPU資源和大量內存來滿足這類軟件的計算需求;對于Barracuda等在GPU資源下能夠得到更快計算速度的情況,可以采用專用的GPU節點來進行計算。對于部分資源獨占性軟件,如Meltflow等,軟件啟動后會占用單臺服務器全部資源,無法進行資源共享,對于這種軟件,應單獨劃分一臺或者多臺服務器專門供其使用。
目前超算集群操作系統均以Linux為主,世界超算500強中,采用Windows的作為集群系統的幾乎沒有。但仿真應用軟件安裝環境卻大相徑庭,對操作系統的支持差異明顯,可以分為Linux支持、Windows支持、同時支持等。建議根據企業準備部署的仿真應用軟件情況,考慮服務器操作系統,建議以Linux集群為主,將部分節點操作系統轉化為Windows,建立基于Linux和Windows的混合集群,實現對企業不同仿真應用軟件計算需求。
在平臺建設前期,需要調研企業現有及計劃購置的仿真應用軟件類型和數量,結合平臺使用人數、作業計算時間要求、預留擴展等因素,分析平臺需要部署的計算節點類型、操作系統等,得出平臺服務器的資源規模,為管理、調度、前后處理、存儲、網絡等設備選擇提供依據。
通常從性能和可靠兩個原則出發,在設計基于高性能計算集群的仿真計算平臺網絡時,一般采用3套網絡的實現方式,包括高速計算網絡、內部管理網絡和外部訪問網絡。高速計算網絡方面,由于支持并行計算的仿真軟件,在多節點運行時有頻繁大量的網絡數據通信,計算網絡的性能對并行程序的計算效能、并行加速比以及可擴展性有決定性的影響[7]。如果并行計算程序的數據通信以小數據包為主,且數據交換非常頻繁,這一類并行程序對計算網絡的延遲性能非常敏感,計算網絡的延遲越低,程序的并行性能越好;如果并行計算程序數據通信大數據包較多,則對計算網絡的帶寬性能敏感,計算網絡的帶寬越高,程序的并行性能越好。實際情況中,大部分并行應用程序對計算網絡的帶寬和延遲性能都非常依賴,低延遲、高帶寬的計算網絡是大規模并行計算必不可少的要素。因此,計算網絡目前主要采用200Gb/s的Infiniband網絡,用來連接主要計算資源和存儲資源;管理網絡主要用于集群內部日常管理,所有服務器之間必須實現網絡互通,通過這套網絡實現集群互相登錄、信息采集收集等,雖然對網絡的性能要求不高,但對穩定性要求較高,一般采用千兆或者萬兆網絡,主要用于服務器管理控制信息的傳遞;對于外部訪問網絡,一般通過防火墻與集群內部網絡進行隔離,往往指的是辦公網絡接入,目前帶寬一般采用千兆網絡,用戶可以通過辦公計算機,訪問仿真計算平臺,傳輸相關的數據文件,提交作業,進行前后處理工作。
高性能計算集群在多個節點進行大規模并行計算時,需要進行大量文件及數據訪問,不止對計算網絡性能要求高,對于系統的存儲性能也非常高的要求,主要體現為全局唯一映像、高吞吐量、大容量、高可靠性、高數據一致性等方面,一般采用并行文件系統來實現[8]。存儲作為全局共享的數據載體,一旦出現故障,會導致平臺無法正常運行,因此,存儲需要采用冗余電源、磁盤冗余類型、熱備等多種方式。目前主要利用多個索引服務器、多個存儲服務器等方式來提高可靠性,采用多副本、糾刪碼等數據保護技術,支持單一存儲命名空間、支持容量海量擴展等,來滿足高性能計算中心海量文件并發讀寫需求。
管理服務主要包括集群監控管理、Infiniband子網管理服務、作業調度服務、時間同步服務等集群系統服務[9],還包括集群并行環境、編譯調試環境,集群賬號計費管理等輔助功能。這些關鍵系統服務均應配置為互備冗余模式,保障整個集群系統的高可用性。集群管理服務功能往往由在高性能計算平臺集成供應商提供,另外也有第三方平臺提供類似服務。一般來說,平臺集成供應商提供的調度軟件,往往側重于平臺服務器、硬件資源的管理、異常報警,在資源調度、Portal集成、作業統計等方面功能不夠豐富,而第三方平臺往往能夠彌補這些缺點,但同時,對于系統設備信息和數據這些信息又不能夠全面集成,導致集群管理服務往往需要兩個平臺的綜合才能完成。
登錄服務,主要包括用戶管理、統一身份認證和提供應用門戶。登錄服務器往往采用基于AD(Active Directory,活動目錄)的方式提供用戶登錄,后續在訪問高性能應用不用再輸入用戶名和口令。登錄服務還提供用戶信息管理服務,支持對平臺用戶數據庫用戶和各類操作系統用戶的統一管理,支持用戶的創建、修改、刪除、凍結和激活操作。仿真應用服務,主要提供仿真軟件應用門戶,包括作業提交Web門戶,整合文件管理、作業管理、集群管理、三維設計等用戶交互,實現仿真和設計在用戶使用和操作上一體化,只需通過瀏覽器,登錄門戶就能完成所有設計、仿真工作。此外,對于系統管理或者運維審計人員,還可以通過門戶的數據進行統計分析,分析集群資源使用情況、作業運行和等待時間、許可應用情況等。
仿真計算軟件常采用浮動授權、物理機設備信息綁定、加密狗加密等其中一種或者多種相結合方式進行授權。通過安裝在許可服務器上的許可管理程序來管理各種軟件的許可,一般采用浮動的許可管理機制,在用戶提出使用需求時,根據可用的許可數量,判斷作業是否可以正常提交還是加入等待隊列。許可服務還可以管理和查看許可使用實時信息,監控相關作業運行情況,及時回收許可,保證設計研發工具合理充分地使用許可。也有少數軟件不支持多用戶同時使用,或者不支持遠程方式訪問計算服務器,這類軟件在需求調研時應予以明確,在購置時應盡量避開,如果已經購置,應該避免部署到高性能計算平臺上。
研究人員在工作計算機上進行三維設計,對圖形顯示要求往往較高,設計模型文件龐大,常出現打開模型慢、操作響應慢和計算時間長等問題。同時,設計研發的過程數據分散保存在普通計算機中,容易發生丟失和混亂,不利于公司核心資產安全,也不利于內部協同。因此,在高性能仿真計算平臺中應提供遠程三維設計能力,統一管理圖形顯示資源,為研發工程師提供高性能圖形設計能力,既滿足研發需要,又實現資源靈活調配、充分利用,也容易滿足數據統一管理和安全的需求[10]。三維設計功能通常包括網格劃分、前后處理等功能。該功能通過應用門戶進行提供,調度系統根據用戶需求,訪問平臺圖形服務器資源,分析和調度用戶使用合適的圖形服務器資源進行遠程設計任務,用戶就可以在自己的桌面端通過遠程設計的方式進行CAD三維設計和CAE前處理操作。然后用戶通過可視化的作業提交界面,利用Portal將作業提交給仿真應用進行計算或者通過交互式模式直接打開應用進行計算。通過交互式模式,用戶可以根據自定義的計算步驟,動態的干預和管理計算過程,而普通的Portal方式,無法在計算過程中進行干預,只能得到計算結果。計算完成后,用戶在作業目錄可以看到計算結果文件,可以通過遠程方式在打開相關應用,對數據進行分析;也可以應用后處理方法,利用其他工具對計算結果進行二次處理。通過在平臺中增加三維設計服務,實現了設計建模、前處理、仿真求解、后處理全過程的有效流轉和數據傳遞,實現仿真設計一體化。
仿真數據是企業設計過程中的關鍵數據,主要包括用戶提交仿真軟件計算的輸入數據、計算輸出的結果、計算相關作業信息等。采集仿真數據的目的是進行數據共享和存檔,通過在仿真平臺上,用戶可以選擇將計算數據與項目其他參加人員進行共享,以便進行協同研發。在某些情況下,科研人員也可能對將歷史仿真數據進行分析和二次利用,也需要將這些重要的設計過程數據進行收集和存檔。
采集的主要方式是仿真平臺主動推送,用戶在進行計算時,需要選擇跟計算相關研發項目名稱,進行設計和計算,完成后,仿真平臺就可以根據項目信息,將計算作業的輸入輸出數據、作業信息等,通過數據接口,將相關數據推送到企業的項目管理系統,避免數據被刪除或者篡改。通過對仿真數據進行采集,有利于設計過程仿真數據在項目內部共享和后續利用,作為企業知識的重要來源。
鑒于仿真數據的重要性,通常在數據物理安全、網絡安全、訪問控制[11]等多方面都應給予考慮。在網絡安全方面,計算平臺內部網絡一般通過防火墻與用戶網絡連接,并設置相關規則,計算平臺系統采用三員分離原則進行管理;在數據物理安全方面,采用設備和軟件冗余方式,如雙電源、多路徑、多存儲等,提高設備可用性。在防災容災上面,多采用異地備份存放數據方式建立多副本,降低不可抗力因素產生的損失。在訪問控制方面,計算平臺用戶間的數據是互相獨立,根據用戶在項目中的權限,有限制的對仿真數據進行訪問,在沒有參加項目或者沒有權限的情況下,無法訪問其他用戶的數據。只有在項目協作情況下,由用戶主動共享相關會話或者數據,才能讓其他用戶訪問,并且這種共享應予以審批和記錄。
建立健全相關運維管理制度[12]。主要包括仿真軟件納入平臺管理機制、資源調度管理、設備巡檢和故障處理機制、平臺使用機制、平臺升級管理、網絡安全管理、用戶管理等。資源的限制與有效利用是一對矛盾,限制用戶資源會導致單個用戶資源受到影響,可能導致平臺資源利用率下降;如果不限制用戶資源,可能導致單個用戶占用大量資源,讓其他用戶無資源可用。如何有效利用平臺資源,又適當對用戶進行限制,需要根據企業自身情況進行調節,并在運維制度中進行體現。設備巡檢、故障處理等現場處理情況,應建立日志記錄,包括故障現象、處理過程和處理結果。加強平臺資產管理。常見的調度系統軟件附帶了對平臺資產的管理軟件,但功能可能不夠全面,應對平臺軟件、許可、軟件承載的相關硬件進行清理整頓,明細其相關性,這對提高平臺管理水平,縮短故障管理時間有重要作用。平臺資產管理主要包含平臺硬件信息、平臺系統軟件信息、平臺應用軟件信息等。應對平臺系統相關軟硬件用戶手冊、配置信息進行歸檔;對軟件安裝程序、軟件使用說明書、軟件運行維護手冊、軟件許可證、軟件配置文檔等進行歸檔。
定期對平臺進行檢測評估和審計。邀請第三方對平臺進行定期分析檢測,查找平臺存在的問題及存在的風險,提出對應的解決辦法,優化平臺軟硬件配置,提高平臺可用性、穩定性。
建立合理的仿真人才的管理制度[13]。設計合理的績效制度,為仿真人才加入項目團隊參與研發創造條件,通過內部培訓、外部培訓、項目實操、導師帶徒等多種方式,提高現有人員仿真軟件使用能力;在人才引進方面,優先考慮能夠熟練使用相關研發領域仿真軟件的人員。在仿真平臺管理方面,引入熟悉數值仿真平臺的專業人員,提高平臺運維和管理能力,提高相關人員薪資水平。
隨著數字化轉型走向深入,仿真計算平臺將得到越來越廣泛的應用,平臺規模將越加龐大,如何建設經濟、適用、綠色、高效的計算平臺,決定了仿真計算資源和軟件是否能夠得到充分利用。本文根據本企業建設和運維數值仿真平臺的實踐經驗,希望能為企事業單位構建類似平臺提供參考,發揮平臺應有的價值。