999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分布式數據庫的海洋動力環境數據云存儲

2017-05-10 09:20:09張玉娟史紹雨劉桂艷
海洋預報 2017年2期
關鍵詞:數據庫

張玉娟,史紹雨,孫 晶,劉桂艷,艾 波

基于分布式數據庫的海洋動力環境數據云存儲

張玉娟1,史紹雨2,孫 晶3,劉桂艷4,艾 波1

(1.山東科技大學海島(礁)測繪技術國家測繪局重點實驗室,山東青島266590;2.國家測繪地理信息局衛星測繪應用中心,北京100048;3.中國礦業大學環境與測繪學院,江蘇徐州221116;4.國家海洋局北海預報中心,山東青島266061)

針對海洋動力環境數據的時空特征,提出了基于分布式數據庫的云存儲技術,設計了分布式管理方案以及相應的時空分片方案和索引機制,實現了數據存儲的物理分布性、邏輯整體性和節點自治性,顯著提高了數據的查詢效率。以南海區域40 a海洋動力環境數據為例進行波高-周期散布圖統計,耗時由集中式文件存儲方式的2 min縮短至云存儲方式的10 s以內。

海洋動力環境數據;云存儲;分布式數據庫;分片方案;時空索引

1 引言

隨著海洋科學技術的進步,衛星遙感、航空攝影測量、臺站浮標觀測、超聲波無線通信等高新監測技術廣泛應用,數據監測種類、數據維度不斷豐富,更新速度不斷加快,造成海洋數據快速增長,呈現出大數據的4V特征——體量大、類型雜、時效強、潛在價值大等[1-2]。海洋大數據為海洋現象的分析研究提供了強有力的數據支持,也在數據的存儲管理、安全性維護、高效應用等方面面臨嚴峻挑戰。

海洋動力環境數據是對海面風場、流場、海浪等動力現象進行描述的數據,當前主要通過NetCDF等文件格式進行存儲和交換,該格式具有自描述性、高可用性和平臺無關性,適用于海洋動力環境數據的網格化、多維、多變量等特點。然而,這種集中式文件存儲管理方式也面臨諸多局限:安全性較低,損壞不易恢復;共享性差,冗余度高;管理效率低,數據查詢檢索困難;進而也導致了數據的利用效率低,響應效率不高的現狀[3]。

海洋動力環境大數據的有效管理是應用的基礎,傳統的集中式文件存儲方式已經無法滿足大數據的高效管理和分析需求。針對上述問題,本文提出了一種基于分布式數據庫的大數據云存儲技術,利用分布式數據庫的物理分布性、邏輯整體性等特點,實現了海洋動力環境數據的高效存儲和管理。結合海洋動力環境數據的時間、空間和屬性特征,論文研究設計了云存儲管理、時空分片和時空索引等方案,并借助開源的MySQL關系型數據庫、MyCat中間件等進行系統搭建。本文以南海區域40 a海洋動力環境數據為例對技術進行了驗證,與傳統集中式文件存儲方式相比,利用本文提出的云存儲方案進行波高-周期散布圖統計,數據查詢效率得到了顯著提升。

2 分布式云存儲方案設計

云存儲是通過集群應用、網格技術、分布式技術等將網絡中的存儲設備整合起來,其中分布式存儲管理是云存儲的基礎與核心管理部分[4-5]。本文采用分布式存儲機制,將分布式數據庫技術應用到云存儲中,作為底層基礎支撐云存儲實現數據存儲和業務訪問服務。

分布式數據庫的關鍵技術是在多個數據庫實例之間實現對SQL語句的解析、路由以及事務處理等任務。若通過應用層實現,將會加大應用的復雜程度和數據庫的維護難度。而通過中間件的方式可以實現對多個數據庫實例的整合,對內滿足分布式數據庫的數據切分、讀寫分離、負載均衡等要求,對外提供一個整合后的邏輯數據庫的接口,降低了應用層對分布式數據庫直接操作的復雜度和不安全性。

根據分布式云存儲的分布式特征,本文設計了云存儲總體方案(見圖1),由數據庫中間件和多個數據庫實例搭建,并為用戶提供統一的服務應用接口。在云端,論文選用開源的MySQL數據庫作為底層數據庫平臺、MyCat作為中間件進行搭建。方案的工作流程為:應用通過云端提供的接口發送數據庫請求,MyCat負責接收請求并將數據庫的執行結果通過接口反饋給應用。此外,為提高整個流程的效率,本文通過MyCat設計了混合分片方案,并為數據庫設計時空索引方案進行了優化。

圖1 云存儲總體方案

圖2 分布式云存儲架構

作為云存儲的基礎和核心,分布式數據庫的架構設計是云存儲總體方案的主體部分。結合云存儲概念,本文為分布式數據庫設計了3層架構,以實現海洋動力環境數據的高效存儲和讀取,提高存儲系統的可擴展性、安全性和可維護性。架構見圖2。

第一層為應用層,主要負責提供應用與數據庫中間件之間的訪問接口,是用戶連接、訪問分布式數據庫的主要途徑。

第二層為中間件層,主要擔負數據庫實例與應用之間數據交換,同時控制著分片數據在各數據庫實例之間的存儲位置。中間件通過應用連接池接收到應用層發送的SQL語句后,先對其進行解析,獲得表名、字段等信息,經優化后傳給路由組件;路由組件通過在規則池里查找相關的規則,進行相應的運算,并將運算后的語句發送給執行組件;執行組件從數據庫連接池中獲取數據庫實例的連接,將接收到的語句發送到相應的數據庫實例中,當執行語句收到的語句中涉及全局序列號,此時需要序列號生成組件提供全局唯一的序列號,當執行的事務跨多個數據庫實例時,需要通過事務管理組件協調事務[6];當數據庫實例執行語句結束后,執行組件將所有實例的執行結果提交給結果處理組件,處理組件將各實例的運算結果進行整合,反饋給應用層。

第三層為數據庫層,是分布式數據庫中的數據存儲位置,在接收到了中間件傳來的數據SQL執行命令后,各數據庫實例同時進行執行,并將執行的結果返回給中間件層。

3 分片方案設計

分片方案是提高云存儲方案性能的重要環節,是分布式數據庫的關鍵問題之一。分片必須保證數據的完備性、不相交性、可重構性,分片的質量直接決定分布式數據庫的查詢效率[7]。傳統的分片方案大多針對一維數據進行,利用Hash、Round-Robin等方法實現[8]。由于海洋動力環境數據具有時空性和多維性,傳統方法易造成部分節點負載超重,降低查詢性能[9]。因此,本文結合海洋動力環境數據的特性以及不同業務需求,設計了基于屬性的垂直分片、基于時間的水平分片和基于空間的水平分片相嵌套的混合分片方式,均衡分配各節點負載,彌補單一分片方式的不足。

3.1 基于屬性的垂直分片設計方案

垂直分片是按照屬性結合將關系分成不相交的子集,在垂直方向上對全局關系進行的投影操作,切分后的每個片段包含原表的部分屬性及其主碼[10],其目的是根據應用需求正確劃分屬性組。使用垂直分片方式可以將耦合度較小的字段進行切分,切分成適應于不同業務的邏輯片段,在垂直方向上減小單表體積。海洋動力環境數據包含多個屬性,表結構字段多、結構復雜,又因其時間序列長、空間范圍大等特性,導致單表體積龐大,影響查詢效率。因此,本文采用先垂直分片,在縱向上將數據表切分成幾個邏輯單表,再對每個邏輯單表進行水平切分,并存儲到物理設備中。

首先,根據屬性關聯度將海洋動力環境數據分成幾個子關系,每子關系滿足相應業務需求。考慮到數據的時空屬性,將表中表征空間位置的經緯度及時間屬性作為每個邏輯片段的主碼保存在每個子關系中。根據劃分的子關系進行垂直分片,切分得到的每個邏輯片段將保存與原表屬性相對應數據記錄,分片規則見圖3。

圖3 垂直分片方案

數據表經垂直分片得到的每個邏輯片段的字段減少、結構簡單化,在分布式數據庫執行特定任務時,如查詢有效波高值(hs字段),只需在ScatterGraph表中進行查詢,相比在龐大的原數據表中查詢速度明顯提高。垂直分片雖然縮短了每個邏輯表的寬度,但由于海洋數據在時間、空間的范圍較大,元組數量仍然很大。因此,本文通過水平切分的方法將數據表的長度進行了切分。

3.2 基于時間的水平分片方案

水平分片是將數據表的所有元組按照一定的約束條件劃分成眾多邏輯片段,每個邏輯片段互不相交。論文提出的水平分片是在垂直分片的基礎上進行的,解決單一業務表數據量過于龐大帶來的讀寫效率低、節點負載不均衡問題。業務的數據需求主要側重于兩方面,單個空間點長時間序列的數據查詢和空間范圍內大規模空間點的數據查詢。基于這兩方面,論文分別設計了基于時間和空間的水平分片方案。首先介紹基于時間的水平分片方案。

在垂直分片基礎上,通過對邏輯表的時間制定規則進行水平切分,即基于時間的水平分片。以垂直切分后得到的ScatterGraph表為例,該表主要是用作實現有效波高-跨零周期散布圖的繪制。繪制散布圖需要的數據是某一空間點在指定連續時間范圍內所有的有效波高和跨零周期屬性數據,應用系統再根據數據統計結果進行繪制。

根據以上情況,將ScatterGraph表中的datatime字段(表征時間的字段)作為分片謂詞制定分片條件進行水平切分。水平分片可視為關系的選擇,用選擇操作σ表示。將ScatterGraph表定義為關系R,datatime為選擇條件Q,也叫作分片謂詞。為了分片均勻以及計算方便,首先對分片謂詞Q做預處理,根據數據的時間順序序列為每條記錄創建一個整型的標識碼ID,并將其作為新的分片謂詞q代替之前的Q。分片條件表示為:

式中:N表示節點個數,C∈(0,1,2……)。R1,R2,……,RN為切分后的片段。該分片條件滿足Ri∩Rj=?(i≠j),R=R1∪R2∪……∪RN,遵循分片的必須原則:完備性、可重構性、不相交性。分片結果如圖4所示。

通過此規則將所有記錄按照時間序列均勻切分到不同節點上,經過切分后同一時刻的所有空間點的數據記錄保存在同一個節點上,保證數據在時間維度方面節點間的均勻分布,針對側重于單個空間點時間表達的業務來說,實現了分布式資源的充分利用,提高了運行效率。

圖4 基于時間的水平分片

3.3 基于空間的水平分片方案

基于時間的分片方案實現的是數據在時間上的均勻分配,相同時刻的所有空間點的數據保存在同一節點。當查詢任務涉及到較大空間范圍時,同時刻的數據過度集中于一個節點,該方案難以將任務均衡分配,在浪費分布式資源的同時也導致了服務器節點的負載傾斜。為此,本文為側重于空間表達的數據設計了基于空間的分片方案。下面以CurSpeedDir表為例進行說明。

CurSpeedDir表是海洋動力環境數據經垂直分片后的一個邏輯分片,主要用來實現流速流向數據的存儲,不僅要求數據的時間連續性,同時還要求空間連續性。論文針對大空間范圍的可視化表達業務需求,以空間位置為基準進行分片,實現所有空間位置點的相關記錄均衡分配到各個節點。

海洋動力環境數據的空間位置需要經度和緯度定義,則分片條件利用這兩個屬性作為分片屬性來制定。海洋動力環境數據呈格網式分布,網格的分辨率定義為Resolution,Lonmax和Lonmin分別表示空間范圍的最大、最小經度值;Lat表示待分配數據點的緯度值,Latmax和Latmin分別表示空間范圍的最大、最小緯度值;Num是根據格網的行列數確定的空間點編號。分片條件如下:

圖5 基于空間的水平分片

謂詞集Pr={P1:Num=C×N+1,P2:Num=C×N+ 2,…,PN:Num=C×N+N},C∈(0,1,2,……),N為節點總數,謂詞集具有完備性和最小性。

與基于時間分片一樣,關系R通過謂詞集Pr篩選得到水平切分片段R1,R2,……,RN,滿足分片的3大原則:完備性、可重構性、不相交性。切分結果見圖5。

通過上述分片條件計算,可實現根據空間位置將數據均勻分配到各個節點,一個位置點的所有時刻數據記錄存儲在同一節點上。在實現流速流向動態可視化表達時,需要查詢空間范圍內指定時間序列的數據。基于空間分片后的查詢目標結果集均勻分布于各個節點間,對于大范圍的查詢任務來說,各節點并行查詢,充分利用各節點性能。

經過水平分片后,在性能優化的同時,數據庫內部結構更加復雜,能夠更快的定位到所需數據記錄是進一步提高分布式云管理的關鍵問題。為此,本文設計了時空索引機制,來實現數據的快速定位,進一步提高數據的查詢速率。

4 時空索引方案設計

通過優化的分片方案進行分布式管理在一定程度上提高了數據的讀取速度,但是數據量基數大,篩選滿足條件的數據仍需要耗費較長時間。時間、空間字段是數據表的主鍵,時空數據需要主鍵信息在數據集中定位。為進一步提高數據讀取效率,本文提出了基于MySQL分布式云存儲的時空索引機制,即在分布式數據庫中對數據的時間、空間屬性字段建立復合索引,以達到縮小查詢范圍、快速定位的目的。

數據庫索引機制的目的是通過創建屬性字段的有序索引表,以最快的方式定位到滿足查詢條件的數據行。在執行查詢命令時,首先通過索引表篩選,排除不相關數據,進而利用索引表中保存的物理地址直接定位,節省查詢時間。在云存儲管理方案下,對各個節點的數據庫創建索引,在保證分布式并行處理的基礎上提高了查詢效率,查詢流程見圖6。

海洋動力環境數據在時空上連續,經分片存儲后,在分布數據庫中呈離散無序狀態。考慮到復合索引的“最左前綴”的特性和數據的時空性,論文為數據庫設計了順序為時間、緯度和經度的復合索引。查詢過程中,通過時間、空間索引逐步篩選,最終利用篩選結果提供的物理地址值定位到數據表,獲取相應的數據。索引表結構簡單、數據量小,遍歷速度快,對整體查詢速度的提升有重要意義。

5 效率對比分析

本文以海浪數據的波高-周期散布圖統計為例,對比分析NetCDF文件存儲方式和云存儲方式進行大數據量查詢統計的效率。波高-周期散布圖是一種長時間序列的海浪特征分析方法,需要獲取指定區域在連續時間范圍內所有的有效波高值和跨零周期值,并對這些數據進行分布區間統計,該圖可以反映作為隨機量的波高和周期出現的聯合概率分布(見圖7)。

實驗數據為南海北部海域的海面風場、流場和海浪數據,包括1 min平均風速、風向、表層流速、表層流向、有效波高和跨零周期等37個要素變量,空間分辨率為1/4°,時間跨度為40 a,時間分辨率為1 h。將“空間位置+時刻”定義為一個時空點,該時空范圍內約7.5億個時空點,每個時空點包含37個要素變量值。

文件存儲方式通過NetCDF格式對實驗數據進行存儲,按年份分為40個文件,總數據量約為120G。進行長時間序列散布圖統計時,數據需要從多個文件中獲取,文件頻繁的打開、讀取、關閉的過程耗時較長,增加系統響應時間,影響用戶體驗。此外,文件讀取速度易受到多種因素影響,包括計算機性能、計算機并行的程序數量、內存占有量等,讀取效率不穩定。

圖6 時空索引機制

圖7 波高-周期散布圖統計

圖8 不同時間范圍長度數據的統計效率對比

與文件管理方式不同,分布式云存儲方式的數據流傳輸過程為:應用將查詢指令發送給中間件,根據分片方案中間件將任務合理分配給各個節點執行,執行結果通過中間件返回給應用。分布式數據庫中多節點并行工作,查詢速度快。但是,所有任務都需要經過中間件進行任務分配和結果整合,會耗費一定的時間。對于查詢數據量小的任務來說,中間件的任務分配與結果整合工作所用時間的比重較大,與文件系統管理方式效率相當。

對以上兩種方式,按1~40 a不同時間范圍進行散布圖統計測試,得到的時間范圍長度(單位:a)與數據統計耗時(單位:s)的對比折線圖(見圖8)。兩種方式的軟硬件測試環境如下:

(1)集中式NetCDF文件存儲方式:Intel Core(TM)i5-5200 CPU@2.20 GHz,8 G內存,1 T硬盤,Windows 7專業版64位操作系統;

(2)分布式云存儲方式:5臺Vmware建立的虛擬機,每個虛擬機的配置如下:4 G內存,320 G硬盤,5臺虛擬機共用物理機的CPU為Intel Xeon(R)E7440 4核,Linux操作系統。

由測試結果對比分析可知,通過集中式文件系統管理方式進行小數據量的統計耗時較短,但耗時隨著統計數據量的增大而增加,并且增長速率不斷增大。分布式云存儲方式的效率變化較為平穩,在數據量小的情況下與文件管理方式的效率相差無幾,而對大數據量的統計效率明顯優于文件管理方式。對于海洋動力環境數據,數據量大是其突出特征,且數據更新速度快、數據量增長快,分布式云存儲方式將更加適用于大數據的分析和利用。

6 結論

當前海洋動力環境數據凸顯出海量、高維、時空動態性等特征,傳統的集中式文件管理方式已經不能滿足快速增長的數據分析和信息服務需求。為保證數據的安全性、可維護性和可擴展性,提升數據的管理和利用效率,本文研究并搭建了基于MySQL關系型數據庫的分布式云存儲系統,實現了海量海洋動力環境數據的云管理,并利用MyCat中間件實現與應用程序的關聯。通過云存儲方式和文件存儲方式在數據查詢統計中的性能對比分析,進一步驗證了云存儲方式在海洋動力環境大數據管理方面的效率優勢。

[1]王輝,劉娜,逄仁波,等.全球海洋預報與科學大數據[J].科學通報,2015,60(5-6):479-484.

[2]李德仁,李熙.論夜光遙感數據挖掘[J].測繪學報,2015,44(6): 591-601.

[3]黃冬梅,杜艷玲,賀琪.混合云存儲中海洋大數據遷移算法的研究[J].計算機研究與發展,2014,51(1):199-205.

[4]桂兵祥,何健.基于高性能云的分布式數據挖掘方法[J].計算機工程,2010,36(5):76-78.

[5]秦秀磊,張文博,魏峻,等.云計算環境下分布式緩存技術的現狀與挑戰[J].軟件學報,2013,24(1):50-66.

[6]裴歐亞,劉文潔,李戰懷,等.一種面向海量分布式數據庫的嵌套查詢策略[J].華東師范大學學報(自然科學版),2014,(5):271-280.

[7]朱欣焰,陳靜,向隆剛,等.分布式空間數據集成與查詢優化技術[M].北京:測繪出版社,2013.

[8]朱欣焰,周春輝,咼維.分布式空間數據分片與跨邊界拓撲連接優化方法[J].軟件學報,2011,22(2):269-284.

[9]蔣勇,譚懷亮,李光文.基于XML中間件的分布式異構數據庫的數據分片策略研究[J].計算機應用與軟件,2009,26(11):144-146.

[10]李川.應用半連接的分布式數據庫查詢優化算法[J].重慶理工大學學報(自然科學),2013,27(11):74-77.

Cloud storage of ocean dynamics environment data

ZHANG Yu-juan1,SHI Shao-yu2,SUN Jing3,LIU Gui-yan4,AI Bo1

(1.Key Laboratory of Surveying and Mapping Technology on Island and Reef,State Bureau of Surveying and Mapping,Shandong University of Science and Technology,Qingdao 266590 China;2.Satellite Surveying and Mapping Application Center,NASG,Beijing 100048 China; 3.School of Environment Science and Spatial Informatics,China University of Mining and Technology,Xuzhou 221116 China; 4.North China Sea Ocean Forecasting Center of State Oceanic Administration,Qingdao 266061 China)

Considering spatial-temporal characteristics of the ocean dynamics environment data,the paper presents a cloud data management based on the distributed database,including a distributed spatial-temporal data sharding schema and a spatial-temporal index.The cloud management realizes physical distributed storage and logical integral structure of data,which improves the efficiency of data retrieval.Taking an example of ocean dynamics environment data in the South China Sea,to compute wave height-period scatter graph of 40 years,the cloud storage system takes less than 10 seconds while the files system takes about 2 minutes.

ocean dynamics environment data;cloud storage;distributed database;data sharing;spatialtemporal index

TP39;P7

A

1003-0239(2017)02-0072-08

10.11737/j.issn.1003-0239.2017.02.010

2016-06-21;

2016-08-25。

國家自然科學基金(41401529,41271394);測繪公益性行業科研專項(201512034);山東省高等學校科技計劃項目(J15LH01)。

張玉娟(1991-),女,碩士在讀,從事海洋地理信息系統研究。E-mail:zhangyujuan199109@126.com

艾波(1979-),男,副教授,博士,從事海洋時空分析和動態可視化研究。E-mail:aibogis@163.com

猜你喜歡
數據庫
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
兩種新的非確定數據庫上的Top-K查詢
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
數據庫
財經(2015年3期)2015-06-09 17:41:31
數據庫
財經(2014年21期)2014-08-18 01:50:18
數據庫
財經(2014年6期)2014-03-12 08:28:19
數據庫
財經(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 72种姿势欧美久久久大黄蕉| 日韩人妻少妇一区二区| 国产成年女人特黄特色毛片免| 国产69精品久久久久孕妇大杂乱 | a级毛片免费在线观看| 亚洲欧美另类日本| 婷婷99视频精品全部在线观看| 国产手机在线小视频免费观看| 狠狠综合久久| 久久午夜夜伦鲁鲁片无码免费| 久久久久久久久18禁秘| 国产日韩精品欧美一区喷| 亚洲无码91视频| 又黄又湿又爽的视频| 日本一本在线视频| 日韩欧美中文字幕在线韩免费 | 亚洲色图综合在线| 亚洲婷婷丁香| 精品一区二区三区自慰喷水| 久久精品无码中文字幕| 中文字幕无码av专区久久 | 免费观看亚洲人成网站| 国产九九精品视频| 伊大人香蕉久久网欧美| 天天躁日日躁狠狠躁中文字幕| 播五月综合| 91在线国内在线播放老师| 午夜视频免费一区二区在线看| 日韩一区二区在线电影| 久草视频一区| 亚洲国产综合自在线另类| 波多野结衣AV无码久久一区| 亚洲色图欧美在线| 国产成人精品在线| 白浆免费视频国产精品视频| 国产乱人视频免费观看| 在线观看的黄网| P尤物久久99国产综合精品| 国产SUV精品一区二区6| 高清视频一区| 亚洲免费毛片| 2022国产91精品久久久久久| 久久婷婷五月综合色一区二区| 99久久精品视香蕉蕉| 国产成人久久综合777777麻豆| 欧美成人午夜视频| 超碰色了色| www.91在线播放| 欧美精品亚洲精品日韩专| 激情成人综合网| 国产成人精品日本亚洲77美色| Aⅴ无码专区在线观看| 国产欧美视频综合二区| 一级毛片a女人刺激视频免费| 四虎亚洲精品| 91无码人妻精品一区| 热久久综合这里只有精品电影| 亚洲无码电影| 欧美成人免费| 国产天天射| 天天综合色网| 久久性妇女精品免费| 天天色综网| 91福利一区二区三区| 日韩免费视频播播| 国产黄色爱视频| 国产91特黄特色A级毛片| 国产免费福利网站| 美女一区二区在线观看| 好吊妞欧美视频免费| 91蜜芽尤物福利在线观看| AV片亚洲国产男人的天堂| 99精品国产电影| 性色一区| 欧美三级自拍| 看看一级毛片| 免费无码又爽又黄又刺激网站| 国产永久在线视频| 日韩 欧美 小说 综合网 另类| 波多野结衣中文字幕一区| 久996视频精品免费观看| 一区二区三区四区在线|