999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據文件存儲策略探索

2019-07-15 01:02:15屈美娟付良廷
科技創新與應用 2019年12期
關鍵詞:存儲大數據

屈美娟 付良廷

摘要:大數據給各行業帶來新的發展機遇,面對各種復雜數據處理需求,高效的數據存儲是影響大數據應用的重要因素,不僅決定了數據寫入效率,還會影響數據讀取。文章提出一種基于HDFS的寫預處理存儲系統,針對大數據應用中復雜數據寫請求,使用聚類策略和文件拆分算法,對文件進行預處理,同時提高數據讀取效率。通過仿真實驗表明,能有效提高文件存儲的寫吞吐。

關鍵詞:存儲;大數據;寫緩存

中圖分類號:TP311.13 文獻標志碼:A 文章編號:2095-2945(2019)12-0140-03

1概述

以互聯網發展為依托的人工智能和物聯網技術,在改變生活方式的同時,也帶來了數據規模的持續攀升,加速了數據集的增長態勢。據統計,Baidu搜索引擎需要每天處理數據集達100PB,Facebook每天新增600TB數據。如何對這種超大規模數據進行有效存儲和高效查詢,已經成為人工智能和物聯網應用的各行業普遍面臨的突出問題。如何構建一套應用于大數據存儲系統,能夠在存儲性能、功能、穩定性、易用性等方面均有良好表現,是大數據存儲與管理面臨的重要問題。

本文在借鑒現有研究的基礎上,提出一種基于HDFS的寫緩存存儲系統,該系統在HDFS存儲上層構建寫緩存層,在該層中對客戶端發出的寫請求文件進行預處理工作,以形成固定大小文件,來簡化存儲過程,提高存儲效率。在預處理階段,依據數據訪問關聯度和關鍵字分組策略構建預處理算法,按照存儲標準文件大小,對文件進行預處理,以形成固定文件大小,一方面提高存儲效率,另一方面,便于還原原始文件,減少后期文件查詢的時間和系統開銷。

2設計思想

在大數據存儲系統中,面對不同大小文件復雜存儲請求,系統應能夠靈活針對各自特點選擇合適的存儲策略,一方面提高存儲性能,另一方面優化文件存儲管理和訪問。在大數據應用中,文件類型和文件大小豐富多樣,但歸根結底都是以文件形式存儲的。本文將針對文件存儲系統設計基于HDFS寫緩存預處理的大數據存儲系統,在數據寫入HDFS前,先經過預處理層,以合理組織元數據,提高數據寫入效率和訪問性能。寫緩存層具體設計組成如圖1所示。

寫緩存層包括一個主節點(Master)、文件合并模塊(C-Chunkserver)、文件拆分模塊(S-Chunkserver)。主節點硬件設置為高性能讀寫服務器,負責監聽客戶寫文件請求、分配緩存節點、管理元數據,根據負載情況分配預處理節點,同時記錄元數據。分配緩存節點包括兩部分:主節點和備份節點,主節點對數據進行預處理,副節點完成數據異步備份??蛻舭l出數據寫入請求后,Master根據文件大小依據預處理策略,選擇文件拆分或合并模塊分配預處理節點,預處理完成后存入緩存模塊中,再采用多線程寫入HDFS中。

3實現算法

3.1小文件聚類策略

對于小文件寫入HDFS,要進行聚類合并。本文使用聚類策略為MFCR(Most Frequent Conbin Read)最常讀取組合策略,基本思想為,由Master維護一個n*n二維表MFCR表,其中n為最常讀取數據的客戶機個數,用這個二維表來記錄客戶機數據組合查詢情況。文件合并模塊中每個主機設置一個標志信息,標識目前該主機目前已緩存數據客戶機編號。二維表中各CR系數(Conbin Read)初始化為0,當查詢結果來自客戶機s和客戶機t時,執行CRst=CRst+1操作。當緩存層Master監聽到來自客戶主機a發出的寫文件請求時,判斷文件為小文件需要合并后,同時遍歷MCR系數表并詢問各chunkserver狀態,找到最大CRab,其中b為chunksever中目前待合并數據客戶主機編號,將該chunksever編號返回給主機a,建立a主機與該chunksever連接,開始傳輸合并數據。在系統初始階段,MFCR表值為空,此時有客戶機發出數據存儲請求后,根據負載情況分配主機。

3.2大文件拆分算法

對于結構化的大數據,需要將數據拆分為若干個子表,以方便后期管理維護和查詢等。當主節點接收到結構化數據的寫請求后,由主節點中數據拆分模塊完成數據分解,根據負載情況分配存儲副本節點,再由副本節點執行遞歸算法,對文件大小進行二次判斷,對超出閾值的文件進行二次分解,直至所有文件大小在寫入緩存閾值范圍內,最后由各副本節點異步寫入緩存。本設計中對于結構化大數據拆分,采用基于列存儲的關鍵字分組策略。設置數據集為D,用于分組的關鍵字組合為K={K1,K2……Kn},分組時,先依據K1對數據集劃分,然后依據K2取值不同在K1分組的基礎上繼續分組,以此類推,直至分組結束。分組過程如下:

(1)設置分組基數g和分組系數入i,兩者乘積得到每個關鍵字分組數量gi。根據查詢頻率,為總表中每個關鍵字制定分組系數,用來確定每個關鍵字分組個數,應用于查詢頻率越高,分組系數越高,基于改關鍵字的分區粒度越細。

(2)獲取分組邊界值。確定基于第ki關鍵字分組數目之后,需確定各組之間取值范圍,根據ki關鍵字的不同取值,將數據集劃分為gi組數據。

如何確定分組邊界值,是決定合理拆分數據的關鍵因素。為了提高分組效率并減少分組工作系統開銷,采用隨機采樣的方法,來確定分組區間邊界值。取樣過程類似滑動窗口,過程如下:

(1)根據數據集和寫入HDFS標準文件大小,確定抽樣記錄數量Stotal。

(2)確定抽樣點個數Sgroup,即滑動窗口滑動次數。

(3)確定每個抽樣點附近抽樣記錄數量Sno,即滑動窗口寬度,則三個數量之間關系為Sno=Stotal/Sgroup。

(4)在0和數據集記錄總數之間獲取Sgroup個隨機值。

(5)以每個隨機值為起點,讀取Sno條記錄,讀取每個記錄的各個關鍵字取值,取樣完成后形成的采樣二維表,將具有Stotal條記錄,每條記錄包含分組關鍵字{K1,K2……Kn}的n個值。

(6)對采樣二維表每列數據執行:排序并確定gi-1個分組邊界值。舉例,假如取樣總數Stotal=12,對于K3關鍵字取值g3=4,則分組邊界值選取過程如圖2所示。

使用分組邊界值,依據數據集中記錄ki取值,對數據進行分組。i取值從1至n,完成整個數據集初步分組。

(7)對于完成初步分組的數據子集組合{D1,D2……DT},其中T=∏in=1gi,使用遞歸算法使所有拆分后文件都滿足寫入緩存文件大小要求,遞歸算法執行過程為:若存在Dt文件大于標準文件,則按照標準文件大小截取數據子集前面部分為Dt,剩余部分標記為Dt+1,然后再對Dt+1進行判斷,直至所有文件大小符合寫要求。

4實驗分析

本次仿真實驗目的是比較直接寫入HDFS和使用寫緩存層的HDFS兩種方法下,以標準文件大小為準,設定多組不同大小文件大小,比較兩種存儲系統寫吞吐對比。仿真實驗環境搭建方式為20臺仿真主機作為客戶端發送數據,1臺仿真服務器作為Master,合并和拆分預處理模塊分別使用10仿真主機,20仿真主機作為HDFS存儲。

4.1小文件寫入測試

實驗數據分別由客戶端發送大小為10KB-500KB文件寫請求,每次發送文件總數目設置為100000個,來進行仿真實驗測試。在此情況下,對比本設計和直接寫入HDFS寫吞吐對比,實驗結果數據如圖3所示。

通過實驗結果可以看到,本系統在處理小文件方面性能較好,但隨著文件增大,當文件超過一定閾值(1MB)后,寫入速度會出現瓶頸,這是因為在處理非結構化數據的時候,本設計中的寫緩存層在花費系統開銷再存入HDFS并沒有減少寫入時間,沒有發揮出寫緩存的作用。

從圖中可以看出,直接使用HDFS存儲時,隨著文件增大,寫入文件耗時也增大,當文件增大到一定程度時,所耗費時間急速增長,對于較大文件寫入時間較長。在對文件進行拆分處理后再存儲,消耗時間也隨著文件增大而延長,但增長速度較緩慢。同時,當文件較小時,由于分組會帶來系統開銷,因此降低了效率。從圖中可看到,30GB文件存儲時間大于40GB文件,這是由于本次試驗分組參數設置導致。

5結束語

本文提出一種基于HDFS的存儲方法,針對大數據應用中不同數據特點,提出針對性存儲策略,對于小文件應用基于訪問關聯度的聚類策略,對大數據提出基于列存儲的關鍵字分組策略,同時采用多線程寫入數據,提高了數據整體寫入速度。

猜你喜歡
存儲大數據
檔案管理中電子文件的存儲探究
條形碼技術在涂裝生產中的應用
云計算與虛擬化
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
結構化電子病歷的設計及應用
淺敘國產存儲技術之發展
大型機電設備出口包裝防護
主站蜘蛛池模板: 日韩成人免费网站| 国产幂在线无码精品| 欧美日韩中文国产| 亚洲国产天堂久久综合| 久久中文无码精品| 亚洲中文字幕无码mv| 亚洲无码免费黄色网址| 毛片在线区| 91精品国产情侣高潮露脸| 在线看AV天堂| 97av视频在线观看| 青青国产在线| 国产日韩久久久久无码精品| 午夜视频免费试看| 毛片a级毛片免费观看免下载| 亚洲伦理一区二区| 无码精油按摩潮喷在线播放 | 国产精品视屏| 蜜桃臀无码内射一区二区三区| 在线观看视频99| 国产精品成人啪精品视频| 另类重口100页在线播放| 91国内在线视频| 91视频青青草| 免费国产不卡午夜福在线观看| 成人一区在线| 麻豆精品视频在线原创| 久久久久国产精品熟女影院| 国产在线高清一级毛片| 亚洲人成色在线观看| 国产精品亚洲一区二区三区在线观看| 国产成人精品18| 欧美久久网| 久久频这里精品99香蕉久网址| 精品色综合| 四虎免费视频网站| 亚洲乱码精品久久久久..| 久久国产精品影院| 国产欧美日韩另类| 好久久免费视频高清| 亚洲精品国产首次亮相| 国产成人免费手机在线观看视频| 国产高潮视频在线观看| 免费看a级毛片| 精品国产自在现线看久久| 另类欧美日韩| 国产成人免费高清AⅤ| 亚洲中文字幕在线精品一区| 91精品专区国产盗摄| 日本三级欧美三级| 亚洲资源在线视频| 欧美亚洲一区二区三区导航| 秋霞午夜国产精品成人片| 欧美日韩导航| 免费高清毛片| 久久www视频| 成人午夜福利视频| 四虎影视永久在线精品| 成年人视频一区二区| 爆乳熟妇一区二区三区| 另类综合视频| 色综合久久综合网| 日韩精品毛片| 99精品高清在线播放| 国产1区2区在线观看| 国产精品不卡永久免费| 女人18毛片久久| 国产小视频免费观看| 无码一区中文字幕| av在线人妻熟妇| 亚洲另类色| 这里只有精品在线播放| 精品国产一区91在线| 成人精品区| 国产福利一区在线| 色综合热无码热国产| 国产精品高清国产三级囯产AV| 成人亚洲视频| 丁香五月激情图片| 国模沟沟一区二区三区| 午夜视频在线观看免费网站| 毛片在线看网站|