王思成
(甘肅省地質(zhì)礦產(chǎn)勘查開發(fā)局第一地質(zhì)礦產(chǎn)勘查院,甘肅 天水 741020)
勘察工具的多元化發(fā)展在一定程度上促進了地質(zhì)勘察行業(yè)的進步,宏觀意義上可將地質(zhì)勘察技術近似的看作地質(zhì)監(jiān)測工作,依照國家經(jīng)濟建設安排及科學技術創(chuàng)新的需要,引入測繪、多種物探勘測技術,采用打孔、鉆探、采用檢測等方式,對指定區(qū)域內(nèi)的巖石、礦土結構、資源分布情況、地下水流向等地貌特征實施一系列的市場調(diào)研活動[1]。礦產(chǎn)數(shù)據(jù)是礦區(qū)工作重大決策的關鍵支撐,多年地質(zhì)勘察工作積累的大量數(shù)據(jù)為礦區(qū)經(jīng)濟發(fā)展及礦產(chǎn)資源開發(fā)提供了重要的支持依據(jù),由于礦產(chǎn)資源行業(yè)發(fā)展歷史較為久遠,堆積的相關地質(zhì)資料量較大,因此,如何使用現(xiàn)代化技術對礦產(chǎn)大數(shù)據(jù)有效存儲成為了有關部門的調(diào)研重點,盡管目前市場內(nèi)已經(jīng)有多種存儲方式為礦產(chǎn)大數(shù)據(jù)提供存儲方式,但在實施中由于資料占用存儲內(nèi)存較大,導致的資源檢索時間較長的問題屢見不鮮,為了改善礦產(chǎn)大數(shù)據(jù)存儲現(xiàn)狀,引入分布式數(shù)據(jù)存儲方式,通過連接互聯(lián)網(wǎng)將每臺數(shù)據(jù)存儲設備中的內(nèi)存資源整合成一個虛擬的存儲空間,并將大量數(shù)據(jù)集以分散的方式分別儲存在空間中的各個角落,降低由于數(shù)據(jù)占用較大內(nèi)存導致檢索數(shù)據(jù)時間長的問題。
(1)建立礦產(chǎn)大數(shù)據(jù)分布存儲數(shù)據(jù)庫。引入數(shù)據(jù)關系模型,基于地質(zhì)勘查理論依據(jù),以GIS技術作為數(shù)據(jù)存儲支撐,建立礦產(chǎn)大數(shù)據(jù)分布存儲數(shù)據(jù)庫,綜合Oracle大型空間數(shù)據(jù)分析方式,制定符合礦產(chǎn)數(shù)據(jù)分布的存儲標準,集合計算機技術在礦產(chǎn)大數(shù)據(jù)組織中的應用,采用三維建模的方式對數(shù)據(jù)實施一體化管理。提供大批量數(shù)據(jù)集自動排序、智能檢索等功能,引入離線并行數(shù)據(jù)計算方式,維持數(shù)據(jù)集中間數(shù)穩(wěn)定的基礎上,靠攏邊緣數(shù)據(jù)組。計算公式如下。

公式中:f表示為統(tǒng)一格式后的數(shù)據(jù)集合;i表示為礦產(chǎn)大數(shù)據(jù)量,取值范圍在0~+∞之間;e表示為分布式數(shù)據(jù)存儲方式;λ表示為數(shù)據(jù)融合模式;β表示為數(shù)據(jù)集中特征數(shù)據(jù);a表示為特征數(shù)據(jù)組;b表示為數(shù)據(jù)組中數(shù)據(jù)均值。根據(jù)上述公式,通過多元化礦產(chǎn)大數(shù)據(jù)中數(shù)據(jù)表達形式,對等處理存儲節(jié)點,設置對稱性框架結構,擴容過程中僅按照數(shù)據(jù)主從格式,即可實施數(shù)據(jù)存儲。上傳數(shù)據(jù)文件時,引入PUT數(shù)據(jù)請求負載語言,將轉(zhuǎn)存語言發(fā)送至數(shù)據(jù)庫中,查詢本地Ring文件,選擇多個與后端存儲方式不同的文件作為參照存儲對象,并將端口返回文件按照數(shù)據(jù)勘察類型分類,建立數(shù)據(jù)庫中礦產(chǎn)類型數(shù)據(jù)表格,合理選擇存儲節(jié)點,傳遞數(shù)據(jù)文件。
(2)基于地質(zhì)勘查的極值數(shù)據(jù)存儲。自定義大數(shù)據(jù)傳輸模式,調(diào)整數(shù)據(jù)需求,增設數(shù)據(jù)外界端口,延展地質(zhì)勘查數(shù)據(jù)服務范圍,提取數(shù)據(jù)集中特征點數(shù)據(jù),按照數(shù)據(jù)大規(guī)模排布要求,調(diào)整用戶需求,依照數(shù)據(jù)組中間數(shù)據(jù)值,將數(shù)據(jù)對象作為礦產(chǎn)數(shù)據(jù)訪問單元,依靠外接數(shù)據(jù)存儲設備,提出數(shù)據(jù)訪問要求。為避免忽略極值數(shù)據(jù)。其一,調(diào)用開放式函數(shù)組,發(fā)起遠程控制請求,向姓名節(jié)點傳遞RPC控制請求,獲取元數(shù)據(jù)表述信息,受到礦產(chǎn)大數(shù)據(jù)信息塊。其二,在終端設備上打開文件交流模式,選取數(shù)據(jù)只讀請求,連接距離數(shù)據(jù)節(jié)點最近的文件,并將獲取的有效數(shù)據(jù)值以電子版模式傳遞給起始端設備。其三,斷開數(shù)據(jù)節(jié)點鏈接,選擇下一個數(shù)據(jù)節(jié)點,直至所有數(shù)據(jù)組讀取完畢,調(diào)用語言函數(shù)關閉傳輸數(shù)據(jù)通道,選擇數(shù)據(jù)存儲通道,完成基于地質(zhì)勘查礦產(chǎn)大數(shù)據(jù)的分布式存儲。
提出仿真實驗,隨機選擇某礦區(qū)作為此次實驗的實驗對象,設定4節(jié)點礦產(chǎn)大數(shù)據(jù)集群,其中主要包含1和姓名節(jié)點和3個數(shù)據(jù)節(jié)點。集群資源配置詳情如下表1所示。

表1 集群配置詳情
根據(jù)上述表1所示信息,模擬實驗仿真環(huán)境,結合上述配置,隨機選取7組礦產(chǎn)大數(shù)據(jù),數(shù)據(jù)集中有效數(shù)據(jù)個數(shù)分別 為:5000;10000;15000;20000;25000;30000;35000,數(shù)據(jù)文件存儲占用普通計算機內(nèi)存在1~1*103KB之間。先使用傳統(tǒng)的分布式存儲方式實施礦產(chǎn)大數(shù)據(jù)存儲,不斷提升礦產(chǎn)大數(shù)據(jù)量,記錄數(shù)據(jù)儲存時間,獲取多組實驗數(shù)據(jù),去除數(shù)據(jù)組中極值數(shù)據(jù),計算剩余結果平均值,輸出統(tǒng)計結果,設定該組為此次實驗的對照組。再使用本文設計基于地質(zhì)勘察的大數(shù)據(jù)分布式存儲方式,實施相同步驟的操作,記錄實驗數(shù)據(jù),定義該組為實驗組,采用上述方式整理實驗結果,輸出結果數(shù)據(jù),整理實驗結果成曲線圖。如下圖1所示。
依照上述表1中表述信息,可知隨著礦產(chǎn)大數(shù)據(jù)量的提升,本文提出的分布式存儲方法數(shù)據(jù)存儲時間呈現(xiàn)穩(wěn)定上升狀態(tài),趨勢較為平緩,且存儲所需時間較短,傳統(tǒng)方法存儲所需時間較長,上升曲線較為陡峭。結合實驗過程中產(chǎn)生的實驗數(shù)據(jù),可得出如下實驗結論:相比傳統(tǒng)的分布式存儲方法,本文提出的方法在實際應用中可有效的縮短數(shù)據(jù)存儲多需時間,進而起到提升數(shù)據(jù)存儲效率的作用,更具備市場應用價值,因此應加大該方法在礦產(chǎn)大數(shù)據(jù)存儲中的應用,為礦產(chǎn)資源存儲提供技術支持。

圖1 實驗結果對比
本文基于地質(zhì)勘查,開展了礦產(chǎn)大數(shù)據(jù)分布式儲存方式的研究,并采用設計仿真實驗的方式證明了,相比傳統(tǒng)的分布式存儲方法,本文提出的方法在實際應用中更具備實際應用價值,盡管本文設計在已在多次實驗中加以證明,但仍缺乏大量實力證明其實用性,因此在后期的發(fā)展中,加大方法在實際中的應用,為技術的不斷革新提供真實的市場調(diào)研數(shù)據(jù)。