999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HBase分布式數據庫海量數據序列存儲優化

2021-03-08 10:14:32鄧杰銘王榆心張柯匯王彥青賓茂梨
科學與財富 2021年4期

鄧杰銘 王榆心 張柯匯 王彥青 賓茂梨

摘 要:針對海量數據分布式序列數據量大、增長速度快、序列重復性高等特點,結合HBase分布式數據庫的相關理論和技術提出并實現了一套基于HBase的海量數據分布式序列存儲方案。該方案設計了基于分布式數據分類碼的預分區和行鍵優化策略,解決了服務器的均衡負載問題。通過構造文件索引替代二進制碼序列實現了數據的高效存取。利用HBase協處理器實現了分布式序列記錄單次提交多表插入的功能,提升了分布式多格式存儲的效率。實驗表明,通過上述方案設計的分布式序列存儲系統具有良好的存儲能力和擴展性。

關鍵詞:HBase;分布式序列;分類碼;文件索引;協處理器

0 引言

在海量數據存儲方案中,以hadoop[1]分布式文件系統hdfs為基礎的HBase數據庫經過不斷的發展完善得到了更加廣泛的應用,特別以Facebook Message 系統對HBase 的應用為世界知名。HBase 本身作為谷歌公司Bigtable的開源實現,除了具有分布式、版本化、可擴展性的特征外,它與分布式計算框架如mapreduce? 和spa-rk 等具有良好的結合性,這對于大數據量的科研工作非常便捷。本文以海量數據存儲方式作為研究對象,結合當前分布式序列文件存儲格式的特點,設計了基于HBase的分布式序列存儲系統,利用基于數據分類碼的預分區行鍵設計策略和協處理器機制對該系統進行優化,并通過實驗驗證該系統的可行性。

1 系統設計與實現

1.1 數據表設計

對HBase表進行設計時,列族數量不宜過多,因為HBase 表的列族對應于 HBase 物理存儲結構 Store,當Store中的memstore達到flushing閥值時會觸發所有列族的flushing操作,所以列族數量盡量控制在1到2個。根據 HBase 表設計相關原則,對GBFF格式和FASTA格式應分別建表,兩表都只設置一個列族Column Family,在設計相應列名Column Qua-lifier時,特別針對GBFF格式文件第二部分特性FEA-TURES中包含多個子屬性的結構,列名需將FEATURES作為前綴與子屬性結合,如“FEATURES_source”這種形式,這樣可以滿足表中只存在一個列族的設計要求。

1.2 針對序列數據的預分區和行健優化策略

行鍵Rowkey 是HBase 數據表的主鍵,Rowkey[2] 的唯一性標示行記錄的唯一性。由于HBase數據庫只維護了主鍵Rowkey的索引,所以對Rowkey的設計直接影響數據的查詢和整個集群的region分配,本系統設計方案中選取分布式序列記錄檢索號(ACCESSION)作為行鍵Rowkey的主要組成部分。在HBase中以檢索號AC-CESSION作為行鍵Rowkey,由于Rowkey的排序默認字典序升序,雖然對于scan操作效率很高,但是同樣易造成之前所述的局部熱點問題? ,因此對于每一條分布式序列記錄,提出一種結合預分區機制的行鍵生成策略。

(1) 設預分區Region數為N,當前分布式序列所屬分類碼Division[3]下的分布式序列數據量占比為A i ,由此可得該分類碼所需的region數D i =N·A i ;

(2) 當前分布式序列檢索號ACCESSION中的整數部分對D i 取模得到值S,將分類碼與整數值S拼接得到字符串prefix。

(3) 對字符串prefix 做MD5哈希生成16位字符串prefixMD5,將字符串 prefixMD5 前 7 位與檢索號 AC-CESSION拼接為16位Rowkey。

上述操作完成后即生成所需行鍵Rowkey,例如檢索號為AB000100的分布式序列,其所屬分類碼為BCT,取模值為1,對應的Rowkey為“74378dc_ AB000100”。

1.3 協處理器優化

本文利用HBase協處理器Coprocessor實現單次提交多表插入的功能來解決上述問題。HBase提供了一套完整的Coprocessor[4]開發接口,采用java語言封裝,主要有三種可供實現的協處理器:Co-processor、RegionObserver 和 Endpoint。RegionObse-rver給出了HBase表相關操作的鉤子函數。

2實驗結果與分析

查詢性能比較基于4臺服務器共200個并發線程的環境下進行,從表中可以看出在大數據量查詢時,優化方案性能優勢非常明顯.

3 結束語

本文針對海量數據分布式序列多年來快速增長導致的存儲維護問題,以海量數據分布式序列為研究對象,對分布式序列數據的組成結構和當前主流的 GBFF 和FASTA序列文件存儲格式進行研究分析,結合HBase數據庫的存儲模型和HBase分布式存儲的相關特性,對分布式序列在HBase數據庫中的存儲進行多維度的優化。實驗結果表明經過優化設計的分布式序列存儲方案具有更好的存儲和查詢掃描性能,同時該方案可以把分布式序列數據與基于hadoop的大數據分析工具良好地耦合,使分布式序列的研究分析更加便捷,滿足了當前云計算環境下對分布式序列數據高效存取的需求。未來的研究工作主要針對分布式序列數據的壓縮優化和索引優化以及對序列數據的版本控制。

參考文獻:

[1] 王銘,田茂,趙鑫,等.基于Hadoop平臺的數據遷移方法研究實現[J].計算機測量與控制,2018,26(4):225-230.

[2] 鄭通,郭衛斌,范貴生.HDFS中海量小文件合并與預取優化方法的研究[J].計算機科學,2017,44(S2):516-519,541.

[3] 樊路遙,張晶,陳小龍,等.開源大數據框架在海洋信息處理中的應用[J].科技導報,2017,35(20):126-133.

[4] 周華平,劉光宗,張貝貝.基于索引偏移的MapReduce聚類負載均衡策略[J].計算機科學,2018,45(5):303-309.

[5] 丁祥武,解書亮,李繼云.基于Spark的并行ETL[J].計算機工程與設計,2017,38(9):2580-2585.

主站蜘蛛池模板: 亚洲精品黄| 日韩欧美国产另类| 国产精品欧美激情| 午夜日韩久久影院| 国产粉嫩粉嫩的18在线播放91| 久久特级毛片| 亚洲二区视频| 国产一区免费在线观看| 亚亚洲乱码一二三四区| 欧美日韩亚洲综合在线观看| www.日韩三级| 亚洲va欧美ⅴa国产va影院| 久久免费观看视频| 97se亚洲综合在线天天| 亚洲熟女中文字幕男人总站| 国产高颜值露脸在线观看| 国产日韩欧美一区二区三区在线| 国产成a人片在线播放| 成人福利一区二区视频在线| 国产成人综合在线视频| 国产成人一区| 欧美中出一区二区| 国产精品午夜电影| 一级毛片高清| 国产网站免费看| 色综合天天娱乐综合网| 国产精女同一区二区三区久| 看国产一级毛片| A级毛片无码久久精品免费| 欧美a在线看| 色老头综合网| 久久综合九色综合97网| 久久精品日日躁夜夜躁欧美| 国产肉感大码AV无码| 成人一区在线| 东京热av无码电影一区二区| 99热这里只有免费国产精品| 国内a级毛片| 综1合AV在线播放| 免费啪啪网址| 久久婷婷六月| 欧美一级爱操视频| 国产亚洲精品无码专| 日韩在线1| 中文字幕免费视频| 欧美无专区| 国产精品对白刺激| 狠狠色丁香婷婷综合| 夜色爽爽影院18禁妓女影院| 无码精油按摩潮喷在线播放| 国产偷国产偷在线高清| 色偷偷一区| 国产一二三区视频| 亚洲国产看片基地久久1024| 白丝美女办公室高潮喷水视频| 国产精品无码AⅤ在线观看播放| 东京热一区二区三区无码视频| 欧美国产在线看| 国产欧美日韩另类精彩视频| 免费高清毛片| 91丝袜在线观看| 久久福利网| 91丝袜在线观看| 国产精品久久久久鬼色| 国产精品99r8在线观看| 波多野吉衣一区二区三区av| 久久婷婷国产综合尤物精品| 狠狠躁天天躁夜夜躁婷婷| 99一级毛片| 搞黄网站免费观看| 亚洲a级在线观看| 激情综合网址| 国产 日韩 欧美 第二页| 欧美亚洲一二三区| 精品久久人人爽人人玩人人妻| 中文字幕在线看| 成人午夜视频网站| 天堂在线www网亚洲| 国产偷国产偷在线高清| 国产成人精品三级| 国产极品嫩模在线观看91| 91久久偷偷做嫩草影院精品|