鄧莉 范德軍 孫胤航
[摘 要] 隨著協同研究云建設與應用,各類大型專業軟件實現了集中部署,傳統簡單的浮動許可管理模式已不能滿足全面管控的要求。本文通過對石油行業勘探開發大型專業軟件集中管控技術的研究與探索,部署協同研究云石油軟件管控工具,實現了對大港油田協同研究云大型專業軟件的監控管理與高效利用,提高了軟件利用率,推動了協同研究云管控水平的提升。
[關鍵詞] 研究云;專業軟件;集中管控;許可管理
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 22. 060
[中圖分類號] TP309.2 [文獻標識碼] A [文章編號] 1673 - 0194(2014)22- 0093- 02
1 問題的提出
2012年,大港油田協同研究云正式開始建設,同年12月28日,協同研究云正式上線運行。目前,已經建立了含64節點刀片服務器、130TB存儲的硬件環境,集中部署了地震解釋、測井評價、地質建模、數值模擬、各類制圖等軟件總計16種,涵蓋了大港油田勘探開發研究主要的大型專業軟件工具。
協同研究云的建立、大型專業軟件的集中部署,將科研人員從大型專業軟件管理、Linux系統硬件維護管理、工區數據準備等繁重工作解脫出來,全新投入科研生產工作。但是,傳統單一軟件的浮動許可管理模式,只能管理單一軟件的許可浮動調用,個別用戶多搶多占許可模塊、長時間占用等浪費專業軟件有限資源的情況無法杜絕。大型專業軟件全部實現集中部署,為協同研究云IT管理人員同樣帶來了新的管理壓力。如何全面管理所有軟件的許可,如何監控所有軟件、所有模塊的使用情況,如何對有限的許可進行有效的利用和管控,如何在研究云環境中對專業軟件資源實現全面管控,實現有限的軟件資源實時監控管理、分配回收、軟件資源在集群中使用情況及分析,這些現實問題擺在了我們面前。
2 集中管控技術架構設計
為了實現協同研究云專業軟件集中管控,及時掌握集群環境軟件許可使用情況,通過全面分析,整體架構分兩個部分:一是專業軟件許可資源管理;二是集群環境用戶信息監控管理。
2.1 大型專業軟件許可資源管理
大型專業軟件許可資源管理,主要是在Flexlm浮動許可管理的基礎上,著重對專業軟件許可數量等資源管理。研究云主要的大型專業軟件,如OpenWorks、Petrel等,軟件許可管理模式都是采用FlexLM管理工具進行浮動許可管理,已經具備了專業軟件資源的基本管理功能。在此基礎上通過功能開發,可以實現對專業軟件許可使用信息的管理。由于每個科室所有科研人員使用同一賬號,要能夠區分出當前軟件調用集群的具體終端信息,并且具備簡單的統計功能。如軟件許可使用的峰值、使用率、軟件數量需求預測、識別閑置許可及回收等功能。
2.2 集群環境用戶信息監控管理
該部分功能設計,主要從科研人員使用研究云環境軟件信息的角度,對所有賬號使用軟件情況進行全面監控管理,由于協同研究云整體采用集群架構,實現在集群架構軟件使用情況監控管理十分必要,重點是監控科研用戶使用軟件情況,尤其是監控各模塊在集群各節點使用的實時信息,賬號使用軟件情況分析等。
3 技術實現與主要功能
3.1 專業軟件許可證集中監控系統
在刀片集群環境開發的專業軟件許可證集中監控系統,可以實現對集群軟件使用情況的有效監控,包括軟件的不通模塊。
許可證集中報告,主要包括監控預警、實時信息、歷史分析統計、系統設置等功能。監控預警功能可以實時監控軟件許可服務器運行狀態、定時監控軟件功能模塊到期情況、狀態異常頁面提醒就電子郵件報警。實時信息功能可以查看當前功能模塊使用情況、實時用戶/節點在線使用記錄、查看用戶超時使用情況、監控許可獲取失敗情況。歷史分析統計功能支持按照服務器、軟件進行統計,多個軟件分布部署時可以合并分析統計,按照功能模塊分析當前使用情況,按照年度、季度、月度及用戶自定義時間統計分析功能模塊使用情況、峰值、使用效率,按照用戶組/機器組分析統計多個功能模塊使用情況,功能模塊需求預測。系統設置功能包括可視化添加許可服務器并掃描監控、自定義監控許可升級更新情況。
軟件模塊動態釋放功能,主要包括策略配置、限制識別。策略配置定義需要監控的軟件及閑置時間等參數,并支持對特定機器使用不同策略。閑置識別可以自動監控需要監控的軟件、識別終端閑置情況、動態釋放激活軟件許可、動態回收模塊等功能。
專業軟件許可調度管理,主要包括許可預留、手動釋放等功能,軟件模塊許可預留主要是為特定用戶、重要匯報按照預定時間、預定模塊提前預留許可,并可以自定義預留策略,設置預留時間段,時間過后自動取消等。手動釋放軟件模塊可以實時查看使用軟件功能模塊的用戶信息,支持釋放具體功能模塊等功能。
許可證授權控制,管理員可以授權特定用戶使用,只能打開只能數量、只能模塊,杜絕浪費、占用許可,非授權用戶無法獲得許可。
3.2 RTM集群監控系統
研究云大型專業軟件環境是高性能計算 (HPC) 環境,維護這么復雜的 結構挑戰巨大,由于整個集群采用platform云管理平臺軟件實現云模式管理的復雜環境,而許多現有的監控工具只監控基礎架構,而不提供完整的集群可視化監控,尤其是不能對用戶作業和軟件模塊事情情況進行有效的監控,而RTM是 IBM Platform LSF 環境的操作儀表板,可提供綜合的工作負載監控、報告和管理。Platform RTM 提供完整的集成監控工具,通過部署Platform RTM,能夠有效監控集群日常信息,并且提供改善集群效率所需的信息和工具,對研究云集群軟硬件環境進行監控管理,RTM集群監控系統實時監控服務、實時監控集群所有節點狀態,以及所有用戶、作業的信息,同時可以實時生成數據報表。
RTM集群監控系統主要由集群監控和控制、用戶作業概要分析、監控資源使用和分配的功能、自動警報和異常處理、靈活的報表展現。直觀的操作儀表板可以幫助用戶快速識別并糾正問題,并通過尋找空閑容量和消除性能瓶頸來提高效率。用戶作業概要分析是基于用戶、組或項目密切監控資源,以提高集群使用率、獲得更好的作業吞吐量并縮短用戶等待時間。并支持多個集群監控,通過在集群間切換工作負載來提高效率,可以快速執行軟件管理任務。
4 應用效果
通過部署專業軟件許可證集中監控系統和RTM集群監控系統,實現了對研究云環境的全面監控管理,尤其是實現了對大型專業軟件的全面管控。
(1)全面監控大型專業軟件的作業情況。對用戶使用軟件信息全面掌握,甚至每個用戶所有工作時間、什么時候調用什么軟件模塊等信息一目了然,便于公司領導掌握科研單位使用軟件情況和科研人員工作情況。
(2)全面管理了大型專業軟件資產信息。通過軟件許可監控管理,實時掌握了價值昂貴的大型專業軟件資產情況,研究云環境有多少軟件資源、有多少許可數量、有多少模塊功能可用,這些信息做到了全面掌握。
(3)大型軟件資源實現了優化配置、發揮了最大效益。通過兩套系統的部署,可以根據工作需要動態調整軟件功能模塊的分配與使用,可以為重點工作、重點項目,如井位討論會,及時提供許可模塊,保障其正常開展;同時,通過閑置識別與回收等功能,保障了大型專業軟件資源的動態配置、合理利用。
(4)實現了對集群環境作業信息的有效監控管理。監控每個科室、每個用戶使用軟件模塊情況,集群環境硬件資源與軟件作業之間的管理,硬件資源、軟件資源在調用軟件模塊的作業過程中的詳細信息,并能夠為領導提供詳細的報表分析,從而為購買軟件提供詳細的依據。
5 結 語
大港油田大型專業軟件集中管控技術,是在協同研究云建設與應用效果明顯、作用日趨重大的時刻產生的管理需求,通過對軟件管控技術的研究,并實現全面監控管理,有效提升了協同研究云整體管理水平,為公司領導決策提供了強大的決策依據,盤活了軟件資產、提高了軟件利用率,保障協同研究云軟件資源的有效管理,推動了協同研究云的應用,為油田公司勘探開發科研生產工作提供了有力的技術保障,是石油行業大型專業軟件管理與應用的有效手段,有很大的推廣和應用價值。
主要參考文獻
[1]陳哲,范德軍.大港油田基于瘦客戶端技術的項目研究環境建設[J].管理觀察,2009(31).