999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的圖書館特色資源云服務關鍵技術研究

2018-06-21 11:46:28趙嘉凌
軟件導刊 2018年5期

趙嘉凌

摘 要:為了提升圖書館在大數據下的特色數字資源服務質量,探討了一種更科學有效的云服務模式。采用Hadoop平臺,通過對HDFS涉及的技術細節,包括體系結構、并行數據處理框架Map-reduce以及分布式數據庫、HBase展開具體分析,結合廣東省特色文獻資源的實際情況,探討了HDFS構建需求與可行性。提出HDFS關鍵技術應用于廣東省特色數字資源云服務的具體方案,但實踐效果還有待進一步驗證。

關鍵詞:HDFS;云存儲;數字資源;云服務

DOI:10.11907/rjdk.172718

中圖分類號:TP319

文獻標識碼:A 文章編號:1672-7800(2018)005-0173-03

Abstract:To improve the quality of library digital resource service in the trend of big data development, this paper discusses a more scientific and effective cloud service mode.The Hadoop platform is adopted to analyze the technical details of HDFS, including architecture, parallel data processing framework Map-reduce and distributed database H Base. Then based on the actual situation of the characteristic literature resources in Guangdong province, the requirement and feasibility of HDFS construction are discussed.The key technologies of HDFS are applied to the specific scheme of digital resource cloud services in Guangdong province. The practical effects need to be further verified.

Key Words:HDFS; cloud storage; digital resources; cloud service

0 引言

隨著大數據環境的日益成熟,圖書館特色文獻資源將向海量圖書館數字資源方向發展。如廣東省特色文獻資源包括所有反映廣東省特色文化的研究資料,與廣東省有關人士的著述、日記、信函、傳記、字畫、回憶錄、著作手稿、聲像資料等,以及廣東省地方出版物。其中,廣東省內區域的特色資源數據庫已經達到了近千個,涵蓋了高校、社會科學研究文獻機構、公共圖書館等重要文獻與服務單位近百家,未來將會有具有區域特色資源的單位涌現出來。在當前大數據社會環境日益成熟的背景下,這些海量的特色文獻資源對現有存儲與管理系統提出了嚴峻挑戰。如何解決文獻資源海量劇增與獨立文獻機構存儲能力不足的矛盾,成為業界探討的一個新方向[1]。

近年來,針對大數據的處理應用比較廣泛的是Hadoop平臺,該平臺的重要模塊HDFS,Hadoop的分布式文件存儲系統,通過把傳統的單一存儲服務器按比例增加到成百上千數量級,形成存儲服務器集群,而在集群里每一臺存儲服務器都能提供本地資源的上傳與存儲服務。Map-reduce作為Hadoop的一個重要構件,其可為HDFS分布式文件系統提供一個可擴展的平行數據處理框架。綜合而言,Hadoop的特性決定其能夠滿足用戶對海量數字資源的存儲需求[2]。

1 HDFS及其關鍵技術分析

1.1 HDFS的特點

HDFS整體架構的優越性能體現在功能設計上,具體包括:

(1)高度容錯性。HDFS集群擁有成千上萬的服務器,隨時都會產生系統故障,即使是常態化的系統故障也不會影響系統的可靠性,系統會在任一服務器出現故障時,以最快的速度自動恢復所有數據。HDFS架構的核心目標是周期性地自動檢查該文件系統的所有設備,并對因出現故障而失效的設備進行及時的數據恢復處理[3]。

(2)流式數據訪問。HDFS的設計本來就是建立在高吞吐量數據流式訪問的基礎上,并非交互式的數據訪問,因而可以大批量地訪問海量數據集。

(3)適合大規模數據。對于HDFS而言,其文件大小的數量級在GB字節到TB字節之間,并且運行這些文件的應用程序同時也擁有了海量數據集。HDFS支持海量規模的文件存儲,HDFS文件系統建構在成千上萬的計算機集群系統之上,而每臺計算機作為一個節點存在。

(4)簡單文件讀寫模型。文件從創建到寫入數據,到關閉,完成“寫”操作之后便不再對該文件進行修改。HDFS對文件的讀寫過程采用“一次寫入、多次讀取”的方式,實現了最大限度的“讀寫”簡化,也解決了數據不一致問題。

(5)移動計算比移動數據經濟得多。對于海量的特色資源數據集而言,其存儲位置距離數據處理程序越近,數據處理的效率就越高,該方法能有效避免海量數據集大規模已處理造成的網絡阻塞,最大限度地提升Hadoop系統數據吞吐量。HDFS將數據處理程序遷移到待處理數據最近的地方,提供相應的規范化API(接口)。

(6)異構軟硬件平臺兼容性。HDFS源程序采用的編程語言是Java,其決定了該系統本身就具有高可擴展性,在實際應用中,可部署在不同類型的同構或異構系統上,具有跨平臺特性,方便大規模HDFS文件數據集在不同平臺上遷移[4]。

1.2 HDFS體系架構

HDFS是一種分布式、具有可擴展性的文件存儲系統,可實現海量文件資源、跨實體數據庫存儲。存儲于HDFS的文件以“數據塊”形式存在,默認數據塊的大小為64MB。即存儲于HDFS的文件,會按照一塊64MB大小平均切割為若干塊,若最末一塊小于64MB,則其存儲空間未滿。HDFS體系架構如圖1所示,其是HDFS集群典型的體系結構,包含一個名稱節點、一個輔助名稱節點和多個數據節點。

HDFS將所存文件的元數據存儲于名稱節點上。該元數據包括所存文件的文件名、存儲目錄、用戶訪問權限等相關信息。HDFS分布式文件系統是基于“主/從”體系的,即單一的主節點(名稱節點)負責維護整個文件系統的所有文件。該名稱節點的具體職責包括負責管理HDFS的命名空間,以及系統性管理用戶對文件資源的訪問權限。名稱節點將數據塊分配給數據節點,并存儲“數據塊—數據節點”的映射信息。名稱節點會跟蹤監控哪些數據塊需要被復制,并在必要情況下啟動復制程序。同一文件多個復本將有效提升該文件系統對于數據保護以及數據處理的整體性能。

數據節點負責存儲應用程序的數據,以及在用戶提出對文件資源的讀寫請求時,作出響應并提供相應服務。與此同時,數據節點也在名稱節點的指令下執行數據塊的創建、刪除和復制操作[5]。

數據節點周期性地對名稱節點發送心跳信息以及數據塊的狀態報告。收到數據塊的心跳信息意味著數據塊所在數據節點運行情況正常。以最近一段時間周期為準,名稱節點把未接收到心跳信息的所在數據節點標記為“無效”,并且不會分配“輸入/輸出”任務給該數據節點。數據塊狀態報告是數據塊所在的數據節點中所有數據塊的列表,主要功能是提供給名稱節點。關于數據塊最新位置信息參考,即某一數據塊具體位于整個集群系統的哪個位置。名稱節點根據最新數據塊狀態報告,構建并維護最新元數據[6]。

1.3 并行數據處理框架——Map-reduce

Map-reduce是用于跨Hadoop集群平行處理大數據集的一種框架。與HDFS近似,該Map-reduce框架也基于“主—從”模式:①Map階段,主節點用于接收待處理的輸入數據,輸入數據被切割成更小的數據塊;②分配給大量的從節點對其進行平行處理;③進入Reduce階段,從節點把運算結果返回給主節點,由主節點進行結果匯總,并輸出最終結果。其最大的優點在于對用戶和編程人員而言,后臺所有復雜的數據并行處理都是透明的,用戶即使沒有任何關于分布式與并行系統的操作經驗,也可以從HDFS分布式系統獲取所需的特定資源。

1.4 分布式數據庫——HBase

HBase數據庫與以往的傳統數據庫基于表結構與行模式的存儲方式不同,HBase數據庫是基于列模式的非關系型數據庫。傳統數據庫表中的數據不會因為數據量的增大而被分為多個文件存儲,但是HBase數據庫列存儲模式使其每個列族隨著數據量的增大被分為幾個文件保存,不同列族的文件也被存儲到不同的文件中。HBase數據庫這種特殊的存儲模式,非常適合應用于分布式文件存儲系統,HDFS[7]的操作流程如圖2所示。

2 HDFS構建需求與可行性

2.1 HDFS構建需求

廣東省圖書館特色數字資源的HDFS系統構建目標是為廣東省內各高校圖書館、省市級圖書館提供海量數據存儲服務,通過將海量數據存儲于分布式文件系統,減輕對存儲硬件的依賴。

HDFS系統構建的范疇與基本技術如下:

(1)HDFS功能是為多個“租戶”提供資源存儲服務。通過遠程連接,任何個人都可以將特色文獻資源上傳到數據中心,即HDFS分布式文件系統。

(2)實現多實例訪問。將廣東省范圍內的海量特色文獻資源部署在多臺虛擬機上,實現集群存儲。

(3)可實現數據拆分。通過將HDFS集群中每臺虛擬機掛載一個數據庫實例,實現數據的有效拆分[8]。

2.2 HDFS存儲可行性分析

廣東省內特色文獻資源分別有高校圖書館、情報機構的特色館藏資源、各級圖書館自建的特色文獻資源、各級社科類的數據庫資源,還有以萬方、維普、知網、CALIS為主的專業外購文獻資源。針對資源種類多、資源數量龐大及資源增長速度快等特點,在廣東省范圍內,對特色文獻資源,每時每刻都有龐大的反復性讀取與數據分析需求。數據讀取頻率大于數據更新頻率,用戶隨時需要通過不同的終端設備,比如筆記本電腦、PDA、手機等,獲取所需的特色文獻,這種讀取頻次是傳統數據庫無法承受的,而HDFS在存儲海量數據方面的優越性十分明顯。

3 HDFS關鍵技術應用

3.1 HBase應用

應用在Hadoop平臺上的廣東省海量特色資源文件,其存儲采用多復本方式,即每個原始文件復制了若干復本,該復本分散于若干主機及網絡中,以防止單一機器失效或者網絡故障造成數據無法讀寫。

如2.1提到的HDFS的特征是采用流式數據訪問,以及“一次寫入、多次讀取”的讀寫方式,在保證系統高容錯性的同時,也最大限度保證了數據的一致性。面對HDFS分布式文件存儲系統的數據延時訪問問題,通過應用HBase數據庫可以有效解決,實踐證明HBase能夠有效提升數據存取訪問速度。

HBase通過DFSClient與負責實際數據存儲的HDFS分布式存儲系統進行“對話”,它充當著HDFS客戶端的角色。因此HBase更方便地集中管理非結構化與結構化數據及對該數據的訪問。如2.3所述,HDFS與并行數據處理框架——Map-reduce聯系緊密,進一步方便用戶通過Map-reduce技術,對HBase數據進行并行運算并對結果進行處理[9]。

3.2 MapReduce的應用

基于Hadoop的海量特色文獻資源云服務,充分利用海量數據的處理與分析優勢,可以通過采用Map-reduce技術,對用戶點擊資源歷史、瀏覽資源歷史、信息反饋等真實地展現出使用特色資源的用戶偏好、需求意愿等相關信息,通過分析,可以準確知道相關服務的用戶需求,以及未來發展趨勢,以便對特色文獻資源云服務能力與水平作出更科學合理的決策,包括目標用戶的服務細分、精準服務等。基于Hadoop的海量特色文獻資源云服務主要為有特色文獻研究需求的圖書館用戶以及相關研究機構提供文獻查詢、數據分析與決策服務,同時處理海量特色文獻資源結構化、半結構化與非結構化數據,使資源在用戶、資源持有者、資源開發者之間都發揮最好的效益[10]。

4 結語

基于Hadoop的圖書館特色資源云服務對象主要是廣東省高校用戶及對特色資源有研究需要的用戶。隨著大數據環境的日漸成熟,傳統服務系統的支撐技術已經不能滿足大數據環境需求,為了盡早適應云服務,本文在對云平臺關鍵技術進行研究的基礎上,提出了將HDFS關鍵技術應用于廣東省圖書館特色數字資源服務Hadoop平臺的具體方案,但實踐效果還有待進一步驗證。

參考文獻:

[1] 鄭瑋.托卡馬克裝置控制系統設計與技術研究[D].武漢:華中科技大學,2014.

[2] 翟永東.Hadoop分布式文件系統(HDFS)可靠性的研究與優化[D].武漢:華中科技大學,2011.

[3] 李彬.基于MapReduce編程模型的航空日志分析研究[D].成都:成都理工大學,2012.

[4] 劉曉.大數據環境下分布式鍵值系統的架構研究[J].中國金融電腦,2015(6):72-79.

[5] 高薊超.Hadoop平臺存儲策略的研究與優化[D].北京:北京交通大學,2012.

[6] 趙婧.一種適用于P2P-VoD業務的分布式存儲系統[D].北京:北京郵電大學,2012.

[7] 洪沙,楊深遠.云計算關鍵技術及基于Hadoop的云計算模型研究[J].軟件導刊,2010(9):9-11.

[8] 彭國慶,周冠宇.云計算分層體系結構研究[J].移動通信,2010(16):54-58.

[9] 許春玲,張廣泉.分布式文件系統Hadoop HDFS與傳統文件系統Linux FS的比較與分析[J].蘇州大學學報:工科版,2010(4):5-9+19.

[10] 林清瀅.基于Hadoop的云計算模型[J].現代計算機:專業版,2010(7):114-116+121.

(責任編輯:劉亭亭)

主站蜘蛛池模板: 亚洲日本www| 日韩精品无码免费一区二区三区 | 国产免费福利网站| 奇米影视狠狠精品7777| 国产精品真实对白精彩久久 | 先锋资源久久| 新SSS无码手机在线观看| 91av国产在线| 日本欧美一二三区色视频| 欧美精品影院| 欧美精品在线免费| 欧美第一页在线| 四虎影院国产| 色男人的天堂久久综合| 亚洲人成网站18禁动漫无码| 亚洲an第二区国产精品| 国产精品视屏| 亚洲天堂日本| 国产精品香蕉在线观看不卡| 日韩美毛片| 亚洲日韩Av中文字幕无码| 再看日本中文字幕在线观看| 亚洲美女一区二区三区| 亚洲人成色77777在线观看| 美女毛片在线| 国产欧美日本在线观看| 在线综合亚洲欧美网站| 国产在线观看一区二区三区| 成年免费在线观看| 亚洲人成高清| 日韩毛片免费| 欧美有码在线| 免费在线a视频| 国产精品福利社| 18禁影院亚洲专区| 久久久久中文字幕精品视频| 国产99免费视频| 97人人模人人爽人人喊小说| 精品国产乱码久久久久久一区二区| 亚洲永久色| 国产精鲁鲁网在线视频| 国产在线精品99一区不卡| 久久夜色撩人精品国产| 亚洲第一在线播放| 亚洲最猛黑人xxxx黑人猛交| 免费jizz在线播放| 91极品美女高潮叫床在线观看| 乱人伦99久久| 亚洲最新在线| 国产一级毛片yw| 久久久久亚洲AV成人人电影软件| 国产原创自拍不卡第一页| 国产人人射| 欧美一级在线| 亚洲欧美综合在线观看| 亚洲69视频| 久久一日本道色综合久久| 亚洲成人在线网| 国产AV毛片| 久久国产精品电影| 97精品久久久大香线焦| 亚洲中文字幕久久精品无码一区 | 国产亚洲高清在线精品99| 精品无码一区二区三区在线视频| 一级看片免费视频| 国产凹凸视频在线观看| 亚洲AV免费一区二区三区| 黄色国产在线| 国产凹凸视频在线观看| 日韩在线中文| 欧美不卡视频在线| 国产尤物视频在线| 在线观看欧美国产| 亚洲成A人V欧美综合天堂| 欧美一区国产| 无码一区中文字幕| 综合色婷婷| 91精品免费高清在线| 精品国产中文一级毛片在线看| 最近最新中文字幕在线第一页 | 日韩精品成人在线| 日韩精品毛片|