999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Elasticsearch的HBase大數據二級索引方案

2020-04-14 04:54:29李傳冰
電腦知識與技術 2020年4期
關鍵詞:數據庫機制

摘要:HBase一直是大數據領域常用的非關系型數據庫。隨著HBase數據庫中存入的數據量不斷增長,對數據庫里的數據進行查詢變得越來越困難,需要有一個合理的二級索引的方案提高查詢的效率。Elasticsearch是一個高性能的搜索服務器,利用Elasticsearch的技術,存儲并搜索二級索引可以極大地提高HBase查詢效率。

關鍵詞:大數據;HBase;二級索引;協處理器;Elasticsearch

中圖分類號:TP392

文獻標識碼:A

文章編號:1009-3044(2020)04-0001-02

收稿日期:2019-11-18

作者簡介:李傳冰(1993—),男,湖北武漢人,碩士研究生,主要研究方向為大數據。

A Secondary Index Scheme of Big Data in HBase Based on Elasticsearch

LI Chuan-bing

(The Third Research Institute of The Ministry of Public Security,Shanghai 200031,China)

Abstract:HBase has always been used as a NoSQL database in the field of big data.With the increasing amount of data stored in the HBase database,it becomes more and more difficult to query the data in the database.Therefore,a reasonable secondary index scheme is needed to improve the efficiency of the query.Elasticsearch is a high-performance search server,and the efficiency of the query in the HBase database can be improved greatly by storing and searching secondary indexes with Elasticsearch.

Key words:big data;HBase;secondary index;coprocessor;Elasticsearch

1?概述

隨著大數據時代的來臨,人們所存儲的數據量呈爆炸性增長。數據能被用起來做各種數據分析才能發揮數據的價值。而對數據的利用第一步就是查詢,查詢效率的高低直接影響大數據分析的快慢。因此,很多公司投入相當多的精力去尋找可以提升搜索速度的方案。HBase作為一個可以存儲海量數據的數據庫,存儲性能十分優異,但是查詢范圍十分有限,在缺少主鍵的情況下,條件查詢效率也比較低下[1],僅僅依靠數據庫的搜索功能無法滿足商業化的業務需求。于是,有很多新穎的搜索方案被提出,其中比較實用的方案是釆取存儲并查詢二級索引的方案,加上基于Lucene的分布式搜索引擎Elasticsearch的配合使用[2],整套方案更加可靠、高效。

2?基于Elasticsearch—級索引方案

為了方便測試,構建了一個完整的二級索引存儲系統。首先由Kafka的生產者生產批量實驗性數據,數據總量1000萬條;然后由Kafka的消費者將數據寫入HBase,在數據錄入的同時,啟動HBase的協處理器Coprocessor,通過觸發Coprocessor的鉤子函數,同步二級索引至Elasticsearch。

整個系統搭建在三臺服務器上,三臺服務器均是Think-Server RD650,操作系統centos6.7,處理器Intel(R)Xeon(R)E5-2630v3,內存32GB。為了便于區分,給三臺服務器分別命名為nodel10、nodel11、nodel12。因為HBase是部署在HDFS之上的,所以先在nodel10、node111、node112上部署了hadoop,node110為NameNode,node110、node111、node112為DataNodeo通過不斷的選擇嘗試,最后選擇了安裝hadoop-2.7.7,hadoop-2.7.7版本比較穩定、成熟。在安裝HBase的時候,在與hadoop-2.7.7匹配的版本中,選擇了比較新的HBase-2.0.5。

HBase的協處理器機制有兩種:一種是Observer,另一種是Endpoint[3]。Observer類似于一個觸發器,在實際使用中,Observer機制比Endpoint更加靈活,Observer機制可以給特定的表綁定,不需要該機制的表則可以不綁定。考慮到實際的應用場景,采取的是Observer機制。在Kafka的消費者向HBase傳入數據的過程中,釆取了以隊列的方式批量導入,每一萬條數據為一個批次,這樣比一條一*條數據put進HBase,速度要快上很多。在實際的數據導入過程中,數據量不可能恰好是一萬的倍數,多出來的余數如果不足一萬,會導致數據遺漏,為了彌補這一缺漏,還給HBase導入數據增加了一個時間機制,每隔5秒鐘,會將一個批次里剩下的數據均導入HBase數據庫。

Elasticsearch的連接client以前是Transportclient,根據Elasticsearch官方的建議,以后會一直使用RestHighLevelClient、RestLowLevelClient[4],并停止對Transportclient的更新。RestHighLevelClient封裝的更好,相比于RestLowLevelClient更易于配置參數,因此采用RestHighLevelClient。Elasticsearch也選取了比較新的版本7.2.0。

在給Elasticsearch傳輸數據的過程中,配置了bulkProces-sor,設置了批量傳輸的機制,這樣可以提高傳輸效率。bulkPro-cessor也是兩種傳輸機制并行,一個是以隊列的方式批量導入,另一個是時間機制。這兩種機制在bulkProcssor中都可以很方便的配置參數,經過各種調試,最后選擇隊列容量同樣為一萬條數據,時間機制為每隔5秒鐘回滾一次,將隊列中剩余的數據一起導入。

3?Elasticsearch二級索引性能測試

3.1?數據的寫入性能

Kafka的生產者生產了批量實驗性數據,每一批數據都有一千萬條。每一條數據包括了一個假想用戶的各項信息,一共有11個字段,字段名分別為用戶名、地址、創建時間、電子郵件、序號、主機IP、登錄時間、手機號碼、密碼、真實姓名、記錄。每一個字段下的參數都是12位隨機英文字符。數據寫入測試進行了5次,每次測試時每條數據包含的字段數不同,依此是1、4、6、8、11個,用于比較在不同字段數的情況下整個系統的數據寫入性能。對整個系統的數據寫入性能測試,是從數據寫入HBase開始,到二級索引全部存入Elasticsearch結束。

測試結果如表1所示:

如表1中展示的結果可以看出,隨著字段數的增加,每秒寫入條數開始降低,雖然每一次測試數據的條數都是一千萬,但是字段數的增加等于HBase存入的列數增加,相對于一個字段來說寫入的數據量更大,按每秒寫入多少條數據并不能完全顯示寫入性能,按每秒寫入的字節數可以更可靠的顯示寫入性能。這點可以從表1中最后一列得到驗證,寫入速率基本維持在2~3MB/秒之間。

基于Elasticsearch的二級索引存儲系統,寫入數據速率比較穩定,在存入數據的字段數為1個的情況下,按照測試的結果,一天的數據寫入量可以達到20億條左右。

3.2?數據的檢索性能

數據的檢索,先依靠Elasticsearch搜索關鍵詞查詢到id,Elasticsearch中存入的每條數據的id即是HBase中所對應數據的rowKey,然后根據這個rowKey在HBase中查詢原始數據。HBase搜索關鍵詞的能力比較差,但是在已知rowKey的情況下,查詢效率能夠得到顯著提高。

測試時,進行了兩種檢索性能測試,一種是精確查詢,另一種是模糊查詢。均進行了100次重復實驗,Elasticsearch查詢時間是Elasticsearch根據關鍵詞檢索id的時間,HBase檢索時間是HBase根據id(rowKey)查詢原始數據的時間,每次查詢的總時間是這兩個查詢時間之和,平均查詢時間如下表2所示。

Elasticsearch模糊查詢時間比精確查詢時間多花了一點,但基本上檢索時間都在毫秒量級,Elasticsearch查詢出rowKey后,HBase再根據rowKey查詢原始數據所消耗的時間也很短,同樣是毫秒量級,二者相加,總的查詢時間不到1秒,可見整個系統的數據查詢性能足夠滿足快速查詢的需求。

4?結論

基于Elasticsearch的二級索引系統,極大地提咼了HBase的檢索效率。數據寫入性能可以達到2~3MB/s,總的檢索性能可以達到毫秒量級。整套系統既可以滿足海量數據的寫入需求,也可以滿足快速檢索的需求。

參考文獻:

[1] 夏超俊.基于協處理器機制的HBase檢索速度改進研究[D].湖南大學,2015.

[2] 梁文楷.基于Elasticsearch全文檢索系統的實現[J].電腦編程技巧與維護,2019(6):116-119.

[3] 朱松杰,婁淵勝,葉楓,李凌,陳勇.基于協處理器的HBase內存索引機制的研究[J/OL].計算機工程與應用,1-11[2019-11-15].

[4] 李宣廷,姜楠,狄查美玲,王淖瑩,孟德文.基于ElasticSearch的網絡輿情搜索平臺設計[J].大連民族大學學報,2019,21(5):449-452.

[通聯編輯:王力]

猜你喜歡
數據庫機制
構建“不敢腐、不能腐、不想腐”機制的思考
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
定向培養 還需完善安置機制
中國衛生(2016年9期)2016-11-12 13:28:08
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 国产尤物jk自慰制服喷水| 中国精品久久| 99国产精品一区二区| 亚洲无码A视频在线| 亚洲视频a| 免费jizz在线播放| 亚洲男人的天堂在线| 久久精品人妻中文系列| 国产午夜福利在线小视频| 亚洲天堂色色人体| 欧洲欧美人成免费全部视频| 久久久噜噜噜久久中文字幕色伊伊| 国产尤物视频网址导航| 黄片在线永久| 尤物亚洲最大AV无码网站| 91午夜福利在线观看精品| 日本高清免费不卡视频| 午夜在线不卡| 亚洲AV无码精品无码久久蜜桃| 色丁丁毛片在线观看| 久久天天躁狠狠躁夜夜躁| 精品国产一二三区| 亚洲日本中文字幕乱码中文| 国产h视频免费观看| 六月婷婷精品视频在线观看 | 欧美激情第一欧美在线| 亚洲日韩第九十九页| 日韩欧美国产中文| 国产亚洲男人的天堂在线观看| 国产乱子伦视频在线播放| 久久国产精品嫖妓| 国产毛片高清一级国语| 欧美一级高清片欧美国产欧美| 亚洲国产在一区二区三区| 天天视频在线91频| 天天躁夜夜躁狠狠躁躁88| 精品国产成人高清在线| 久久伊人操| 欧美色伊人| 蜜臀AV在线播放| 国产免费精彩视频| 国产JIZzJIzz视频全部免费| 中国特黄美女一级视频| 日韩亚洲综合在线| 久久精品波多野结衣| 福利视频一区| 精品国产黑色丝袜高跟鞋 | 中文一区二区视频| 国产在线视频自拍| 全部免费特黄特色大片视频| 国产成人免费高清AⅤ| 亚洲欧美日韩色图| 久久精品丝袜| 毛片基地美国正在播放亚洲 | 国产乱人视频免费观看| 白浆免费视频国产精品视频| 欧美精品v| 亚洲va精品中文字幕| 伊人久久久久久久久久| 国产新AV天堂| 99热这里只有免费国产精品| 综合色88| 免费毛片全部不收费的| 午夜无码一区二区三区在线app| 国产成人1024精品下载| 99久久这里只精品麻豆| 国产情侣一区| 伊人无码视屏| 欧美第九页| 日韩人妻少妇一区二区| 天堂成人av| 日韩二区三区无| 精品免费在线视频| 91蜜芽尤物福利在线观看| 久久99国产综合精品女同| 欧美成人综合在线| 欧美日韩在线亚洲国产人| 少妇极品熟妇人妻专区视频| 亚洲欧美日韩久久精品| 亚洲人成网站观看在线观看| 亚洲日韩精品伊甸| 欧美亚洲国产精品第一页|