翟中霞/河南油田物探院
?
地震資料處理數(shù)據(jù)分級存儲集群的建設(shè)與應用
翟中霞/河南油田物探院
【摘 要】本文分析了河南油田地震資料處理對存儲系統(tǒng)的需求,根據(jù)地震資料處理的數(shù)據(jù)特點,通過對并行存儲技術(shù)、分級存儲技術(shù)的研究,設(shè)計并建設(shè)分級存儲系統(tǒng),滿足地震資料處理中不同應用對存儲性能的不同需求,在存儲容量、存儲速度和成本之間取得了平衡,建成了高效實用的分級存儲環(huán)境。
【關(guān)鍵詞】分級存儲;地震資料處理;并行存儲;數(shù)據(jù)備份
隨著勘探難度增加和技術(shù)的發(fā)展,野外三維高精度采集的數(shù)據(jù)量大規(guī)模的增長,加之地震資料處理新技術(shù)、新方法的應用,地震資料處理對存儲系統(tǒng)的存儲容量和存儲性能有了更高的需求,目前河南油田地震資料處理的存儲系統(tǒng)在性能和容量上還有待提高,但是存儲系統(tǒng)的設(shè)計要考慮容量、速度和成本三個問題。容量是存儲系統(tǒng)的基礎(chǔ),都希望配置盡可能大的存儲系統(tǒng);同時要求存儲系統(tǒng)的讀寫速度能與處理器的速度相匹配;成本也應該在一個合適的范圍之內(nèi)。但這三個目標不可能同時達到最優(yōu)。一般情況下,存儲設(shè)備讀寫速度越快,平均單位容量的價格越高,存儲容量越小;反之,存儲設(shè)備讀寫速度越慢,平均單位容量的價格越低,存儲容量越大。
分析地震資料處理的數(shù)據(jù)流特點,我們發(fā)現(xiàn):
1.在進行疊前時間偏移、深度偏移、逆時偏移等并行作業(yè)處理時,數(shù)據(jù)流表現(xiàn)為高并發(fā)IO和大聚合帶寬,需要高性能存儲系統(tǒng)的支撐。
2.在常規(guī)處理中的數(shù)據(jù)流相對平穩(wěn),IO吞吐量相對小,對帶寬和存儲的性能要求相對較低。
3.需要備份的原始數(shù)據(jù)及成果數(shù)據(jù),需要一定數(shù)量安全級別較高的存儲系統(tǒng)進行數(shù)據(jù)備份。
為了在容量、速度和成本這三者之間取得平衡,需要根據(jù)其地震資料處理數(shù)據(jù)的特點,采用分級存儲為不同的應用提供不同性能的服務,建成高效實用的并行存儲環(huán)境。
(一)體系架構(gòu)
地震資料處理數(shù)據(jù)分級存儲系統(tǒng)采用開放式的存儲體系架構(gòu),基于分布式的Glusterfs并行文件系統(tǒng),將多臺存儲設(shè)備的存儲容量虛擬成一個具有統(tǒng)一訪問接口的存儲空間。按照一定的負載均衡策略存儲用戶的數(shù)據(jù),將數(shù)據(jù)條帶化的存儲到多臺物理存儲設(shè)備上,從而獲得更高的并發(fā)數(shù)據(jù)訪問性能,同時可以制定存儲策略進行數(shù)據(jù)分級存儲,對所有的存儲設(shè)備可以實現(xiàn)統(tǒng)一的管理和監(jiān)控。

圖 分級存儲體系架構(gòu)
分級存儲系統(tǒng)包含管理控制器、索引控制器、數(shù)據(jù)控制器和應用服務客戶端四類組件:
管理控制器:安裝并行存儲管理軟件,提供統(tǒng)一的控制管理界面,實現(xiàn)存儲系統(tǒng)的集中化部署、管理、監(jiān)控和維護。
索引控制器:內(nèi)嵌高性能數(shù)據(jù)索引引擎,管理存儲系統(tǒng)的所有索引數(shù)據(jù)和命名空間,實現(xiàn)全局統(tǒng)一命名空間,實現(xiàn)數(shù)據(jù)索引的負載均衡和故障冗余。
數(shù)據(jù)控制器:提供數(shù)據(jù)存儲空間,并實現(xiàn)數(shù)據(jù)存取的動作。
應用服務客戶端:向上層應用提供數(shù)據(jù)訪問接口。
(二)配置方案
整個存儲系統(tǒng)包括2臺管理控制器、2臺索引控制器、22個數(shù)據(jù)控制器,總?cè)萘?197TB。分為三級存儲結(jié)構(gòu):
一部分為高速存儲,高速為主要特點,由容量較小、價格較貴而性能較高的SSD固態(tài)硬盤構(gòu)成,為實時提供高性能的數(shù)據(jù)IO能力;
一部分為在線存儲,采用容量較大、價格較便宜而讀寫速度較慢的SAS硬盤構(gòu)成,支持一般性數(shù)據(jù)讀寫;
一部分為備份存儲,采用容量大,價格低廉,讀寫速度慢的SATA硬盤,創(chuàng)建高安全備份卷,存儲我們的原始、階段性數(shù)據(jù)、成果數(shù)據(jù)和磁帶庫數(shù)據(jù)備份。

表 分級存儲系統(tǒng)軟硬件配置表
(一)虛擬化管理平臺Ovirt
oVirt是一個基于x86架構(gòu)上的KVM虛擬化技術(shù)的開源云服務平臺。它在架構(gòu)設(shè)計上由ovirt-engine和ovirt-node兩部分組成,這種Node/Engine分離的結(jié)構(gòu),方便功能的劃分與管理。
Engine是系統(tǒng)的管理者,并對外提供管理服務,它掛載了自己的數(shù)據(jù)庫,記錄系統(tǒng)中虛擬機的配置,各個存儲節(jié)點的狀態(tài)信息,網(wǎng)絡(luò)狀態(tài)等。通過在Engine中的設(shè)置實現(xiàn)系統(tǒng)的管理邏輯,狀態(tài)及策略控制。本存儲系統(tǒng)通過在管理控制器上安裝ovirt-engine來實現(xiàn)管理功能。
Node只負責功能上的實現(xiàn),不進行狀態(tài)的記錄和策略的實現(xiàn)。oVirt里的Node可以由一個普通的Linux上安裝VDSM(Virtual Desktop Server Manager)構(gòu)成,也可以由一個專為oVirt定制的Linux系統(tǒng)構(gòu)成。本存儲系統(tǒng)采用安裝VDSM的方法配置數(shù)據(jù)控制器作為node節(jié)點,實現(xiàn)網(wǎng)絡(luò)、存儲器、虛擬機的創(chuàng)建與修改。VDSM的功能包括組織數(shù)據(jù),實現(xiàn)存儲集群的數(shù)據(jù)共享與數(shù)據(jù)保護,故障恢復。
(二)GlusterFS集群文件系統(tǒng)
GlusterFS是一個開源的分布式文件系統(tǒng),具有強大的橫向擴展能力,通過擴展能夠支持數(shù)PB存儲容量和處理數(shù)千客戶端。GlusterFS通過TCP/IP或者InfiniBand網(wǎng)絡(luò)將多個物理存儲資源匯聚在一起,使用全局統(tǒng)一命名空間來管理數(shù)據(jù)。GlusterFS可為各種不同的數(shù)據(jù)負載提供優(yōu)異的性能。
GlusterFS文件系統(tǒng)支持標準的網(wǎng)絡(luò)訪問協(xié)議,用戶可以使用NFS/CIFS等標準協(xié)議訪問數(shù)據(jù)。GlusterFS使得用戶擺脫原有的獨立、高成本的封閉存儲系統(tǒng),利用普通廉價的存儲設(shè)備也可以部署可擁有集中管理、橫向擴展、虛擬化的存儲系統(tǒng)。
地震資料分級存儲系統(tǒng)采用的Glusterfs文件系統(tǒng),支持五種邏輯卷,即Distribute卷(分布式卷)、Stripe卷(條帶卷)、Replica卷(鏡像卷)、Distribute stripe卷(分布式條帶卷)和Distribute replica卷(分布式鏡像卷)。分級存儲系統(tǒng)搭建完成后,根據(jù)地震資料處理需要創(chuàng)建邏輯卷,創(chuàng)建分布式條帶卷來滿足并行處理作業(yè)時高并發(fā)IO和大聚合帶寬數(shù)據(jù)流對高性能存儲的需要。創(chuàng)建分布式鏡像卷作為備份存儲卷來存儲地震資料原始數(shù)據(jù)和成果數(shù)據(jù),滿足數(shù)據(jù)高安全性的需要。投入生產(chǎn)運行后,多個處理項目使用了該套存儲系統(tǒng)進行生產(chǎn),在項目結(jié)束后成果數(shù)據(jù)直接轉(zhuǎn)移至備份存儲卷,回收存儲空間。
根據(jù)河南油田地震資料處理的數(shù)據(jù)特點,采用分級存儲系統(tǒng)滿足地震資料處理中不同應用對存儲性能的不同需求,在存儲容量、存儲速度和成本之間取得了平衡,建成了高效實用的分級存儲環(huán)境。分級存儲系統(tǒng)在存儲性能、功能上滿足了生產(chǎn)項目的需要,取得了良好的應用效果。
參考文獻:
[1]楊傳輝 大規(guī)模分布式存儲系統(tǒng):原理解析與架構(gòu)實戰(zhàn) 機械工業(yè)出版社 2013
[2]G.Somasundaram Alok Shrivastava 信息存儲與管理 人民郵電出版社 2013
[3]潘紅芳,張瑜 智能分級存儲系統(tǒng)的研究 吉林大學出版社2014