陳新房 劉義卿
(防災科技學院信息工程學院,河北廊坊 065201)
經過對地震發生后地質的研究,表明地震活動以及地質構造特征等與構造應力場密切相關,不斷對構造應力場的深入研究能更好地認識區域形變規律、構造活動特征和地震孕育環境。因此,地震學家對云南及相鄰地區的震源機制以及構造應力場進行研究,對來源多樣的資料和數據進行分析處理。隨著地震數據的急劇增加,原始的在一臺機器上對數據進行存儲、處理和分析已經不能滿足顯示需求,需要對原始數據格式進行整理,然后存儲到分布式系統中,并進行分析、并行處理,以提高存儲能力和運算速度,并根據需要對數據進行可視化呈現。
本文云南及其鄰區范圍為:北緯21°-31°,東經96°-106°。從國家測震臺網數據備份中心下載了2014 年1 月1 日至2019 年7 月5 日期間發生的583 個3.5 級以上地震波形資料,其中震級在3.0-3.9 共392 個,4.0-4.9 共156 個,5.0-5.9 共29 個,大于6 級的共6 個。對地震臺站波形記錄不完整、覆蓋面不廣的數據進行清洗,對相關系數達到65%及以上的反演結果進行選取,取得428 個震源機制解。為測試結果可靠性是否達到研究要求,利用三維最小空間旋轉角方法定量分析不同震源機制解結果之間的異同,將本研究結果與國、內外研究機構和學者研究結果進行對比,研究機構主要有GCMT(The Global Centroid-Moment-Tensor )、NEIC(National Earthquake Information Center)、IPGP (Institut De Physique Du Globe De Paris)、USGS(United States Geological Survey)、GFZ(German Geoscience Research Center)等,對14 次發生的地震相關數據進行了對比分析。如表1 所示。
對于表1 數據現有的格式無法上傳到分布式系統之中進行處理,對于地震數據急劇增大的現狀來說,給地震發數據的存儲和處理帶來了不便,因此需要將其進行整理,使之成為一行就是一條完整的記錄,能夠上傳到分布式系統中進行存儲與分析。整理過程如下:

表1 震源機制解與其它研究結果間三維空間旋轉角列表
2.1 全選數據記錄,將其粘貼到excel 表中。
2.2 在excel 中進行數據處理。
數據處理的方式:全選前四列->設置單元格格式->取消合并單元格->點擊F5(匹配空值)->設置函數使空格中的值與上一行的值相等->先Ctrl 再Enter,最后導出格式為earthquake.txt 文件,如圖1 所示。

圖1 震源機制解與其它研究結果間三維空間旋轉角列表txt 格式
有了格式規范的數據集earthquake.txt,就可以將其上傳到分布式系統中進行存儲、分析處理了。
3.1 將數據集earthquake.txt 上傳到分布式集群中。
3.2 數據庫建表。在mysql 數據庫中創建表table_earthquake。mysql> create table table_earthquake(xuhaoint,timevarchar(20),jingdudouble,weidudouble,shendudouble,zhenjidouble,zouxiangdouble,qingjiao double,huadongjiaodouble,sanweidouble,sourcevarchar (50)) default charset=utf8;
3.3 將數據集earthquake.txt 加載到數據表table_earthquake 之中。
load data local infile '/opt/earthquake.txt' into table table_earthquake fields terminated by ' ' ignore 1 lines;
至此,數據集中的數據導入到mysql 數據表中,就可以根據需要進行相關操作。
利用R 語言對數據進行可視化顯示,進行如下操作。

通過命令運行結果圖2 所示。由圖中可知,采用三維最小空間旋轉角定量描述不同震源機制解結果間的差異,共對比分析了14次地震,獲得30 組對比結果,與實際記錄中的結果一致。

圖2 震源機制解與其他研究結果間的三維空間旋轉角分布圖
總結,本文闡述了地震數據格式統一化的方法及其操作,將傳統的數據幾輪方式轉換為分布式系統能夠存儲的一行是以條完整記錄的形式,以利于將地震大數據上傳到分布式系統進行處理分析。采用分布式系統中對地震大數據進行存儲和并行計算能取得存儲能力和運算速度的快速提高。通過實驗,反映了將數據集上傳到分布式系統處理分析的正確性,利用R 語言進行可視化的可行性和準確性。對于海量地震數據的處理提供了一定的借鑒作用,具有廣泛的推廣和使用價值意義。