楊斌++馬小虎
摘要:針對(duì)大數(shù)據(jù)時(shí)代以及職業(yè)院校學(xué)習(xí)資源需求的特點(diǎn)和海量數(shù)字學(xué)習(xí)資源提供服務(wù)中的不足,結(jié)合云計(jì)算的特點(diǎn)提出了基于Hadoop框架構(gòu)建學(xué)校內(nèi)部云存儲(chǔ)的設(shè)計(jì)方案,為學(xué)生在大數(shù)據(jù)背景下能夠進(jìn)行高效的學(xué)習(xí)提供幫助。文中重點(diǎn)論述了云存儲(chǔ)的體系結(jié)構(gòu)和各個(gè)層的功能,通過(guò)實(shí)驗(yàn)進(jìn)行模擬測(cè)試進(jìn)行分析。
關(guān)鍵詞:學(xué)習(xí)資源 云存儲(chǔ) 模型構(gòu)建
中圖分類號(hào):TP333 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2014)08-0203-01
數(shù)字化學(xué)習(xí)資源的不斷增長(zhǎng),使傳統(tǒng)的單一課堂教學(xué)向網(wǎng)絡(luò)化的數(shù)字學(xué)習(xí)模式發(fā)展,人們的學(xué)習(xí)方式和理念也在發(fā)生變化:“人們期望能夠按照自己的意愿在任何時(shí)間、任何地點(diǎn)從事學(xué)習(xí)、工作和研究”, 泛在學(xué)習(xí)已經(jīng)成為學(xué)習(xí)發(fā)展的重要方向。大數(shù)據(jù)時(shí)代來(lái)臨,數(shù)字化學(xué)習(xí)資源的建設(shè)受到廣泛的關(guān)注。各高職院校也在積極的投入資金和人力進(jìn)行數(shù)字化學(xué)習(xí)資源的建設(shè)與采購(gòu)。
1 目前職業(yè)院校學(xué)習(xí)資源存儲(chǔ)模式不足
大數(shù)據(jù)時(shí)代學(xué)習(xí)資源呈爆炸式增長(zhǎng)趨勢(shì)。隨著教育信息化不斷提高,各種新形式的學(xué)習(xí)資源不斷出現(xiàn),職業(yè)院校學(xué)生仿真模擬實(shí)踐、數(shù)字化的各種教育積件資源存儲(chǔ)等需求,不斷對(duì)存儲(chǔ)結(jié)構(gòu)提出新的挑戰(zhàn)。學(xué)生獲取學(xué)習(xí)資源受制于地理位置和學(xué)習(xí)對(duì)象,無(wú)法實(shí)現(xiàn)泛在式學(xué)習(xí),學(xué)習(xí)效率不高。在資源存儲(chǔ)結(jié)構(gòu)上大多采用單機(jī)服務(wù)器的存儲(chǔ)結(jié)構(gòu),給資源服務(wù)制造了不穩(wěn)定因素。隨著學(xué)習(xí)資源的增長(zhǎng),需要不斷的進(jìn)行硬件設(shè)備和管理系統(tǒng)的升級(jí)和更新,會(huì)造成設(shè)備和資金的浪費(fèi)。學(xué)校資源存儲(chǔ)中主要存在三個(gè)問(wèn)題:一是資源來(lái)源復(fù)雜,資源類型多樣、內(nèi)容豐富,缺乏有效的組織和管理,安全性不高;二是數(shù)字學(xué)習(xí)資源需求高,資源共享程度不高,提供服務(wù)效率低;三是系統(tǒng)更新較慢,不能滿足泛在學(xué)習(xí)的高速檢索和下載,資金投入壓力大。
2 學(xué)習(xí)資源云存儲(chǔ)模型設(shè)計(jì)與實(shí)現(xiàn)
云計(jì)算是大數(shù)據(jù)的基礎(chǔ),大數(shù)據(jù)時(shí)代需要云存儲(chǔ)才能實(shí)現(xiàn)高效的資源服務(wù)。構(gòu)建一個(gè)安全、穩(wěn)定、高效的云存儲(chǔ)結(jié)構(gòu)對(duì)于解決海量學(xué)習(xí)資源的存儲(chǔ)和泛在式學(xué)習(xí)對(duì)數(shù)字資源高效需求存在的問(wèn)題是一個(gè)新的方案。
云存儲(chǔ)。云存儲(chǔ)是為了滿足海量數(shù)據(jù)的存儲(chǔ)和管理,通過(guò)網(wǎng)格技術(shù)和分布式文件系統(tǒng)等技術(shù),把大量各種類型的存儲(chǔ)設(shè)備組成集群,運(yùn)用虛擬化技術(shù)形成一個(gè)整體,提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問(wèn)功能的系統(tǒng)。用戶無(wú)需考慮存儲(chǔ)設(shè)備的型號(hào)、磁盤的容量和類型,也無(wú)需考慮具體采用何種接口和傳輸協(xié)議及存儲(chǔ)和服務(wù)器之間的連接電纜等,即可快速建立自己的數(shù)據(jù)中心并將本地?cái)?shù)據(jù)部署至網(wǎng)絡(luò)存儲(chǔ)。它具有:存儲(chǔ)容量大、高可靠性、通用性、高擴(kuò)展性、按需服務(wù)、成本低等特點(diǎn)。
Hadoop框架。Hadoop是Apache軟件基金會(huì)組織下的一個(gè)開(kāi)源云平臺(tái)項(xiàng)目,它可以使用普通的硬件組件大規(guī)模的集群系統(tǒng),是云計(jì)算、大數(shù)據(jù)存儲(chǔ)的方法之一,主要包括HDFS文件系統(tǒng)和MapReduce映射/簡(jiǎn)化引擎。采用Hadoop框架構(gòu)建學(xué)校學(xué)習(xí)資源云存儲(chǔ)系統(tǒng)具有一定的優(yōu)勢(shì)。
學(xué)習(xí)資源云存儲(chǔ)模型。由于網(wǎng)絡(luò)訪問(wèn)量較大,為了減少訪問(wèn)的壓力,在使用Hadoop構(gòu)建學(xué)習(xí)資源云存儲(chǔ)模型時(shí)對(duì)其結(jié)構(gòu)進(jìn)行改進(jìn)。在本模型中采用了三級(jí)模式,在第一層的分析節(jié)點(diǎn)中使用單節(jié)點(diǎn)來(lái)控制多個(gè)名字空間節(jié)點(diǎn),構(gòu)成一個(gè)主從結(jié)構(gòu);在名字節(jié)點(diǎn)下又設(shè)置有數(shù)據(jù)集群管理節(jié)點(diǎn),名字空間節(jié)點(diǎn)控制數(shù)據(jù)集群管理節(jié)點(diǎn)構(gòu)成第二層的主從結(jié)構(gòu);數(shù)據(jù)控制節(jié)點(diǎn)控制所有的低端數(shù)據(jù)集群,構(gòu)成了底層主從結(jié)構(gòu)。在Hadoop的主框架下,通過(guò)對(duì)中心任務(wù)的分解和下放的方式,來(lái)降低中心節(jié)點(diǎn)的任務(wù)量。把原來(lái)中心節(jié)點(diǎn)的任務(wù)分布到分析節(jié)點(diǎn)、名字空間節(jié)點(diǎn)和數(shù)據(jù)管理節(jié)點(diǎn)上執(zhí)行,可以極大的降低中心節(jié)點(diǎn)的壓力。實(shí)現(xiàn)學(xué)習(xí)資源在底端物理存儲(chǔ)設(shè)備上的分布存儲(chǔ)。
在設(shè)計(jì)存儲(chǔ)模型時(shí),充分考慮學(xué)習(xí)資源的特點(diǎn)和內(nèi)在的聯(lián)系,設(shè)計(jì)時(shí)把名字空間節(jié)點(diǎn),按照學(xué)科進(jìn)行劃分。當(dāng)有資源文件提交寫入申請(qǐng)后,在分析節(jié)點(diǎn)進(jìn)行解析、提取學(xué)習(xí)資源的信息,并根據(jù)學(xué)科分配到相應(yīng)的名字空間節(jié)點(diǎn)。在名字空間節(jié)點(diǎn)上,對(duì)學(xué)習(xí)文件進(jìn)行分塊,同時(shí)向下層和上層傳遞信息。在數(shù)據(jù)控制節(jié)點(diǎn)接收到塊文件以后對(duì)塊文件分配數(shù)據(jù)節(jié)點(diǎn)進(jìn)行存儲(chǔ)。在存儲(chǔ)時(shí)把一次提交的資源文件的塊文件,采用就近原則進(jìn)行存儲(chǔ)(分布存儲(chǔ)在多個(gè)數(shù)據(jù)節(jié)點(diǎn)上,方便以后的并行訪問(wèn))。然后根據(jù)副本存儲(chǔ)策略進(jìn)行副本的存儲(chǔ)。在訪問(wèn)的時(shí)候系統(tǒng)根據(jù)需要決定哪些數(shù)據(jù)節(jié)點(diǎn)提供服務(wù),在數(shù)據(jù)管理節(jié)點(diǎn)可以對(duì)資源的訪問(wèn)情況進(jìn)行記錄,當(dāng)某些資源被頻繁的訪問(wèn),可以通過(guò)改變塊文件的分布情況和增加塊文件的副本數(shù)量的方法,讓更多的數(shù)據(jù)節(jié)點(diǎn)參與提供服務(wù)。關(guān)系數(shù)據(jù)庫(kù)在處理海量數(shù)據(jù)的時(shí)候,服務(wù)效率(包括查詢、插入等)都會(huì)有一定程度的降低,而且容易產(chǎn)生系統(tǒng)瓶頸。為了能夠滿足海量學(xué)習(xí)資源存儲(chǔ)的要求,采用Hadoop中的HBase對(duì)資源的元數(shù)據(jù)進(jìn)行存儲(chǔ)。可以把不同的表分布存儲(chǔ)到不同的節(jié)點(diǎn)上,而且具有良好的擴(kuò)展性。
3 實(shí)驗(yàn)測(cè)試
采用清華同方個(gè)人計(jì)算機(jī)7臺(tái),在實(shí)驗(yàn)室內(nèi)對(duì)模型進(jìn)行測(cè)試。在模擬測(cè)試模型中設(shè)計(jì)將1臺(tái)計(jì)算機(jī)設(shè)置為控制節(jié)點(diǎn),2臺(tái)計(jì)算機(jī)模擬名字空間節(jié)點(diǎn),4臺(tái)計(jì)算機(jī)模擬數(shù)據(jù)管理節(jié)點(diǎn),在數(shù)據(jù)管理節(jié)點(diǎn)使用虛擬機(jī)下安裝4個(gè)Linux操作系統(tǒng),模擬數(shù)據(jù)集群。在名字空間節(jié)點(diǎn)上部署Hadoop的中心節(jié)點(diǎn)程序和數(shù)據(jù)庫(kù)程序,在數(shù)據(jù)控制節(jié)點(diǎn)上安裝集群節(jié)點(diǎn)程序,形成一個(gè)Hadoop平臺(tái)。在模擬存儲(chǔ)結(jié)構(gòu)上進(jìn)行5G學(xué)習(xí)資源的存儲(chǔ)和學(xué)習(xí)資源的檢索,實(shí)驗(yàn)表明:學(xué)習(xí)資源的云存儲(chǔ)模型可以有效的提高學(xué)習(xí)資源的存儲(chǔ)效率和資源的檢索效率。可見(jiàn),使用低性能的計(jì)算機(jī)作為節(jié)點(diǎn)服務(wù)器是可行的。使用Hadoop平臺(tái)替代傳統(tǒng)的學(xué)習(xí)資源存儲(chǔ)方式,提高學(xué)習(xí)資源存儲(chǔ)中的經(jīng)濟(jì)性,解決硬件瓶頸,提高了讀取效率。
4 結(jié)語(yǔ)
數(shù)字學(xué)習(xí)資源的高效存儲(chǔ)是大數(shù)據(jù)時(shí)代泛在學(xué)習(xí)過(guò)程中不容忽視的一個(gè)重要環(huán)節(jié),職業(yè)院校學(xué)習(xí)資源云存儲(chǔ)解決了學(xué)生獲取數(shù)字教育資源后的管理與學(xué)習(xí)問(wèn)題,實(shí)現(xiàn)了海量數(shù)字學(xué)習(xí)資源的集成共享,推進(jìn)了學(xué)校教育信息化、云計(jì)算的普遍應(yīng)用,使學(xué)生可以獲得大數(shù)據(jù)時(shí)代下更多優(yōu)質(zhì)的、豐富的數(shù)字學(xué)習(xí)資源。
參考文獻(xiàn)
[1]陳巧,施佺,等.大數(shù)據(jù)時(shí)代下個(gè)人運(yùn)資源柜的構(gòu)建研究[J].現(xiàn)代教育技術(shù),2013(10).
[2]劉琨,李愛(ài)菊,等.基于Hadoop的云存儲(chǔ)的研究及實(shí)現(xiàn)[J].微計(jì)算機(jī)信息,2011(2):220-223.
[3]陳公超,劉海濤.云存儲(chǔ)中多類型文件存儲(chǔ)及訪問(wèn)優(yōu)化機(jī)制的研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011(12):165-168.endprint