


摘要:大規模地震處理解釋數據中心,面對多集群、多存儲、多網絡、多系統的復雜工作環境,多年來形成相互獨立的工作模式,導致運算忙閑不均、資源孤島等問題,由此明確了資源共享技術是制約高性能運算發展的瓶頸問題。通過數據中心網絡云化、存儲池化、平臺一體化等技術研究,構建運算資源高效共享的一體化異構平臺,對于提高地震處理解釋業務在高性能運算應用技術上的發展進步,起到較好的推動和促進作用。
關鍵詞:私有云;網絡云化;存儲池化;平臺一體化
一、前言
隨著石油勘探寬方位、寬頻帶、高密度的“兩寬一高”等技術的飛速發展,推動著三維疊前深度偏移、波動方程偏移、逆時偏移及全波形反演等地震資料處理解釋的技術發展與進步,給高性能運算地震處理解釋運算資源的需求帶來新的挑戰[1]:它不僅需要大容量、高速讀寫的并行存儲,也需要高帶寬、低延時的互聯網絡,更需要大規模集群算力提供保障。但是,多年來傳統形成的網絡、存儲、計算等資源相互獨立、難以共享的運行模式,嚴重制約了地震處理解釋技術的發展[2],主要表現在以下幾個方面:
第一,網絡帶寬制約了地震處理解釋高速數據傳輸、實時同步運算和一體化技術的發展,亟待優化升級;
第二,相互分立、不同類型的新老存儲系統不能滿足處理解釋海量數據快速讀寫、高速共享和一體化運算的需求;
第三,地震處理解釋計算資源嚴重不足,傳統相互獨立的工作模式難以滿足階段性、密集進站生產項目的大規模運算和嚴格的工期要求。
面對石油石化行業普遍存在的技術瓶頸問題,開展和實施地震處理解釋運算資源的云化共享技術研究[3],為高性能運算處理解釋一體化技術不斷走向成熟起到積極的推動作用。
二、地震處理解釋網絡云化
在一個大規模地震處理解釋數據中心(以下簡稱數據中心),主要的集群、存儲和網絡等設備,分別通過Arista、Extreme、Foundry等15套網絡交換機實現私有云模式網絡連接。這些網絡交換機網絡端口帶寬分別為千兆、萬兆和4萬兆,數據傳輸性能差異較大。
通過網絡多端口聚合技術研究,對不同傳輸性能的網絡交換機進行統一規劃設計[4],構建了4萬兆核心框架、“一臺核心、5臺骨干和9臺分支”的高性能網絡私有云,如圖1所示。基于私有云模式處理解釋網絡鏈路互聯規劃設計方案如下:
第一,Arista7308核心網絡交換機和Extreme-2骨干交換機之間多鏈路聚合,實現處理、解釋中心全部設備高速互聯;
第二,Arista7308核心網絡交換機和Extreme-1骨干交換機之間聚合,實現集群和存儲高速互聯;
第三,Arista7308核心網絡交換機和H3C骨干交換機之間聚合,實現PC集群和GPU集群高速互聯;
第四,Arista7308核心網絡交換機和Foundry-1、Foundry-2骨干交換機之間聚合,實現多套PC集群高速互聯;
第五,Arista7308核心網絡交換機和Arista、Foundry分支交換機之間聚合連接,實現中心機房和5個處理終端室、4個解釋機房全部設備網絡互聯。
在網絡鏈路互聯互通基礎上,各個網絡交換機上進行程序腳本開發,通過多個端口標識聚合,交換機之間網絡互信,全部計算機設備網絡高速互聯,最終形成基于私有云模式的地震處理解釋全系統高速互聯互通的一體化網絡平臺。
三、地震處理解釋存儲池化
在數據中心,使用了各種不同品牌、不同架構、不同類型、不同時期投產使用的存儲系統,硬件性能、讀寫速度差異非常大。存儲管理軟件各異,獨立監控和維護復雜且耗時[5]。如何科學管理、規劃全部存儲系統,最大效率發揮存儲性能,是每個高性能運算中心迫切需要解決的問題。基于消除數據孤島、存儲資源共享的工作理念[6],按照“融合共享管理、集中統一管理、分級規劃管理”的設計思路和處理解釋生產地震數據實時、高速共享的根本目的,在實現網絡云化高速共享、處理解釋互聯互通的基礎上,保證地震處理解釋中心的全部集群、服務器、工作站等共享存儲資源。
(一)存儲系統融合共享技術研究
數據中心現有Oracle、云存、華為、曙光等26套不同架構和不同類型的存儲系統,總物理容量10PB,劃分了130個文件系統。為了滿足地震處理解釋一體化和異構計算平臺數據共享的根本需求,在實現網絡云化、互聯互通的基礎上,將現有存儲系統整合構建了10PB級共享存儲資源池,處理集群節點、解釋服務器和工作站分別以客戶端或者NFS模式,自由掛載各套文件系統,用戶通過各種應用軟件直接加載、調用和讀寫地震數據,為地震處理解釋和反演一體化等海量運算提供原始、中間與成果等數據存儲保障,滿足了文件系統掛載、大數據量的讀寫調用以及處理解釋一體化和實時同步運算等生產需求[7]。數據中心存儲融合共享如圖2所示。
(二)存儲系統集中統一管理技術研究
數據中心有3套Oracle和20套云存并行存儲系統,日常的管理和監控,需要使用瀏覽器分別登錄各套存儲系統的控制器IP地址,使用各自的管理軟件對存儲系統進行管理[8]。通過集成、安裝和配置Oracle和云存的存儲系統集中管理軟件,實現了多套存儲系統的集中統一管理,節省了大量的存儲系統管理與維護時間,有效減少了存儲系統的故障率。
1.Oracle存儲系統集中管理
數據中心的3套Oracle存儲系統,包括1套ZS5-2存儲系統和2套ZFS7420存儲系統。通過集成安裝Oracle存儲系統的統一管理軟件(OPS,Oracle Parallel Server),對這3套存儲系統在統一窗口進行集中管理[9]。
(1)OPS存儲統一管理軟件集成安裝
在一臺服務器上安裝solaris X86-64版本操作系統,配置IP地址,并與3套Oracle存儲系統網絡互聯,網絡連接拓撲如圖3所示。在服務器上集成安裝OPS存儲統一管理軟件,實現對3套Oracle存儲系統在同一平臺進行統一管理。
(2)OPS存儲統一管理軟件系統配置
打開瀏覽器,輸入服務器IP地址,進入主頁面后,選擇Add Assets,導入包含需要管理的存儲控制器信息的配置文件,輸入需要管理的存儲控制器ILOM地址及驗證信息,即可以顯示需要管理的服務器。
(3)OPS存儲統一管理軟件應用
進入OPS管理軟件主界面,點擊左側Server,顯示出2套ZFS7420的SP端口IP地址。點擊左側Storage,顯示出1套ZS5-2的IP地址。點擊對應的IP地址,即可監控到各個Oracle存儲系統(控制器)的健康狀態等信息。
2.云存存儲系統集中管理
為了更有效、快捷地管理數據中心的20套云存存儲系統,設置了云存存儲集中管理功能,可以用于多套云存存儲的統一監控、電源管理、用戶管理和綜合報警等各項功能。
(1)云存存儲集中管理配置
設定其中的一套或者多套云存,作為云存集中監控的服務器。通過瀏覽器,登錄云存存儲的管理界面,選擇主菜單:系統狀態→集群監控→集群設置,通過該頁面設定需要集中監控哪些存儲:輸入各云存存儲的IP地址,用逗號分割,若是一個連續的范圍IP,用橫杠分割。
(2)云存存儲集中狀態監控
通過瀏覽器,登錄云存存儲的管理界面,選擇主菜單:系統狀態→集群監控→集群狀態。通過該頁面,可以集中監控各個云存存儲狀態,包括節點狀態、RAID狀態、運行時間、目錄名稱、目錄空間大小、已用空間、使用比例,具體情況可以連接對應的存儲查看詳細狀況。
(3)云存存儲集中電源管理
通過瀏覽器,登錄云存存儲管理界面,選擇主菜單:系統狀態→集群監控→集群電源。可以選擇或者全選多套云存存儲統一進行重啟和關機操作。
3.存儲系統分級規劃管理技術
根據現有存儲資源池和處理解釋業務發展的需要,將數據中心存儲系統科學規劃、分級管理,劃分了三個級別:一級在線存儲、二級近線存儲和三級備份歸檔存儲。分級存儲規則如下:
(1)一級在線存儲,主要用于地震處理解釋高性能運算的直接存儲,數據時刻保持“在線”狀態,可隨時在線讀取,滿足運算平臺對數據訪問的高速、高帶寬需求。
(2)二級近線存儲,主要用于地震處理解釋高性能運算的中間階段數據,可在線讀取。
(3)三級備份歸檔存儲,主要用于地震處理解釋原始數據、成果數據和重要中間階段數據的備份歸檔。
目前,已完成部分地震處理、解釋等數據從一級、二級存儲系統到三級存儲的遷移備份和歸檔工作,實現了地震數據自動分級轉移部署、在線異構數據統一備份和恢復等功能。
四、地震處理解釋異構計算平臺一體化
時至今日,石油石化行業的大部分地震處理解釋數據中心的集群節點和解釋服務器平臺之間依然物理上相互獨立,分別擔負著地震處理和解釋工程項目及科研任務。在生產流程的不同階段,往往易出現計算資源忙閑不均、資源調劑難度大、資源利用率不高等問題。例如,處理節點資源緊張而解釋服務器閑置,或者處理節點空閑而解釋服務器資源不足等情況,使得有限的高性能計算資源沒有得到充分的利用。因此,地震處理解釋異構一體化平臺的設計理念和規劃應運而生,是解決當前計算資源緊張、運算能力嚴重不足的最現實有效途徑。
數據中心的曙光PC集群、曙光GPU集群和解釋服務器,基于處理解釋一體化的工作理念,在硬件平臺網絡互連、互通的基礎上,通過系統配置優化和程序腳本開發,設計和構建計算、存儲、網絡資源共享的異構運算平臺,系統配置方案包括:
1.統一網關路由管理
曙光PC集群、曙光GPU集群和解釋服務器,統一將核心交換機的IP地址設定為靜態路由,實現異構平臺之間網絡互通。
2.統一用戶管理
曙光PC集群、曙光GPU集群和解釋服務器,采用NIS方式對普通用戶賬號進行統一管理。
3.統一免密登錄管理
曙光PC集群、曙光GPU集群和解釋服務器,編輯系統配置文件,添加各個節點和服務器的IP地址、主機名,實現普通用戶在各個節點、服務器之間無障礙、免口令登錄。
在應用軟件層面,構建了基于Oracle數據庫的GeoEast、Jason等地震處理解釋和反演應用軟件一體化平臺,實現了統一平臺環境下大數據量的快速讀寫調用和高速網絡數據傳輸。應用軟件系統均可依據地震處理解釋工序及技術流程的需求同步或異步協同調用運行。
五、結語
數據中心基于網絡資源云化、存儲資源池化、異構平臺一體化的設計理念和工作思路,整合構建了統一共享的運算資源平臺,實現了地震處理解釋網絡、存儲、計算資源在私有云模式全部高效共享,主流處理解釋應用軟件智能化自由調用運算資源,按需調配、協同計算和同步并行運算,實現了地震處理解釋工序流程的一體化運行及技術流程的最優化運行,在提高生產設備利用率和工作效率、縮短生產周期等方面發揮重要作用。
參考文獻
[1]張明,孫夕平,崔興福,等.基于地質目標的巖性油氣藏地震資料處理解釋一體化方案[J].石油地球物理勘探,2021,56(02):323-331+213.
[2]趙邦六,雍學善,高建虎,等.中國石油智能地震處理解釋技術進展與發展方向思考[J].中國石油勘探,2021,26(05):12-23.
[3]張恪易.基于云服務技術的數據共享交換集成應用探究[J].網絡安全技術與應用,2023(09):67-69.
[4]董朔.高校校園網絡建設工程方案設計[J].黑龍江科學, 2018, 9 (05): 136-137.
[5]任詩.陣列式星載海量存儲器文件管理軟件技術研究[D].北京:中國科學院大學(中國科學院國家空間科學中心),2019.
[6]葉明,王巖.人工智能時代數據孤島破解法律制度研究[J].大連理工大學學報(社會科學版),2019,40(05):69-77.
[7]李君.云計算環境下分布式存儲關鍵技術研究[D].成都:電子科技大學,2018.
[8]張凱風. 通用高速數據存儲系統設計及其數據管理技術[D].西安:西安電子科技大學,2020.
[9]李斌.基于ZFS文件系統的資源存儲實現[J].哈爾濱職業技術學院學報,2014(01):126-127.
作者單位:東方地球物理勘探有限責任公司大慶物探研究院
責任編輯:張津平、尚丹