文/張珍
Hadoop 是云計(jì)算的核心技術(shù),其內(nèi)涵為一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),基于Hadoop 技術(shù)人員在單一或數(shù)千個(gè)節(jié)點(diǎn)上布置服務(wù)器集群,并實(shí)現(xiàn)這些服務(wù)器集群的大容量型存儲(chǔ)和計(jì)算。研發(fā)Hadoop 的原因在于:傳統(tǒng)計(jì)算機(jī)存儲(chǔ)技術(shù)讀寫數(shù)據(jù)的速率較低,盡管隨著集成技術(shù)的飛速發(fā)展,主流硬盤的容量增長(zhǎng)了數(shù)千倍,但由于數(shù)據(jù)存儲(chǔ)讀寫技術(shù)沒(méi)有實(shí)質(zhì)性提升,技術(shù)人員實(shí)際從硬盤上讀寫程序的速度只增長(zhǎng)了數(shù)十倍。而Hadoop 能夠通過(guò)構(gòu)建并行數(shù)據(jù)讀寫體系,采用冗余讀寫的方式解決計(jì)算機(jī)數(shù)據(jù)存儲(chǔ)讀寫速率提升問(wèn)題。此外,Hadoop 內(nèi)含MapReduce 編程模型,能夠?qū)崿F(xiàn)計(jì)算機(jī)磁盤數(shù)據(jù)抽象化讀寫,將待讀寫數(shù)據(jù)轉(zhuǎn)為數(shù)據(jù)集,提升數(shù)據(jù)讀寫的效率。
HDFS 是分布式文件系統(tǒng)的簡(jiǎn)稱,是云計(jì)算技術(shù)中負(fù)責(zé)存儲(chǔ)海量數(shù)據(jù)的關(guān)鍵技術(shù)。它采用塊單位方式對(duì)計(jì)算機(jī)數(shù)據(jù)進(jìn)行操作,HDFS 最少能夠操作64MB 大小的系統(tǒng)數(shù)據(jù),其優(yōu)勢(shì)為:能夠?qū)A繑?shù)據(jù)文件進(jìn)行操作,并可存儲(chǔ)PB 級(jí)別的數(shù)據(jù),因此它成為了海量計(jì)算機(jī)數(shù)據(jù)存儲(chǔ)操作的“代名詞”。實(shí)際操作時(shí),HDFS 采用兩種節(jié)點(diǎn)方式運(yùn)行,分別為NameNode 和DataNode。首先,NameNode,即名稱節(jié)點(diǎn),是HDFS 中心服務(wù)管理者,負(fù)責(zé)對(duì)整個(gè)文件系統(tǒng)命名空間、內(nèi)部存儲(chǔ)磁盤數(shù)據(jù)大小、訪問(wèn)權(quán)限和路徑等信息的管理;其次,DataNode,即數(shù)據(jù)節(jié)點(diǎn),是HDFS 文件系統(tǒng)操作者,負(fù)責(zé)系統(tǒng)數(shù)據(jù)的存儲(chǔ)、調(diào)用定位操作、保存文件塊及發(fā)送存儲(chǔ)塊列表。
本系統(tǒng)以云計(jì)算分層思維為原則,采用分布式存儲(chǔ)及服務(wù)器虛擬化理念將云計(jì)算技術(shù)與常規(guī)高校實(shí)驗(yàn)室管理軟硬件資源體系有機(jī)整合,構(gòu)建高速的實(shí)驗(yàn)室管理云平臺(tái)架構(gòu)。具體來(lái)說(shuō),本系統(tǒng)的核心架構(gòu)由三部分組成,分別為:基礎(chǔ)設(shè)施層、管理通訊層和應(yīng)用交互層,如圖1所示。
(1)基礎(chǔ)設(shè)施層。以云計(jì)算虛擬技術(shù)為核心構(gòu)建,應(yīng)用Linux 操作系統(tǒng)設(shè)計(jì)實(shí)驗(yàn)室虛擬化基礎(chǔ)設(shè)施服務(wù)器群,并基于Windows 搭建設(shè)施層訪問(wèn)界面,對(duì)系統(tǒng)中的各類軟硬件設(shè)施進(jìn)行管理。

圖1:實(shí)驗(yàn)室管理系統(tǒng)架構(gòu)圖
(2)管理通訊層。應(yīng)用Hadoop 搭建云環(huán)境,并運(yùn)用HDFS 設(shè)計(jì)文件、信息和數(shù)據(jù)訪問(wèn)分布式系統(tǒng),大大提升實(shí)驗(yàn)室管理信息的訪問(wèn)吞吐量和速率,此外本層中每個(gè)Hadoop 組件中均配置了獨(dú)立的JAVA 虛擬機(jī),用于進(jìn)行數(shù)字通信。
(3)應(yīng)用交互層。基于Hadoop 云環(huán)境下搭建應(yīng)用交互層實(shí)現(xiàn)了實(shí)驗(yàn)室管理信息的云端共享,為提升管理員和師生的應(yīng)用體驗(yàn),采用Web 瀏覽器設(shè)計(jì)訪問(wèn)界面,簡(jiǎn)便易操作。
本系統(tǒng)主要負(fù)責(zé)對(duì)實(shí)驗(yàn)室的日常運(yùn)行狀況進(jìn)行數(shù)字網(wǎng)絡(luò)化管理,由計(jì)算機(jī)硬件和配套的管理軟件構(gòu)成。傳統(tǒng)模式下高校實(shí)驗(yàn)室管理系統(tǒng)通常基于B/S 架構(gòu)設(shè)計(jì),大多僅能實(shí)現(xiàn)局域網(wǎng)范圍內(nèi)管理效果,且數(shù)據(jù)存儲(chǔ)讀取速度較慢,隨著國(guó)內(nèi)各高校實(shí)驗(yàn)室規(guī)模不斷擴(kuò)大,待管理實(shí)驗(yàn)室數(shù)據(jù)及項(xiàng)目也越來(lái)越多,傳統(tǒng)實(shí)驗(yàn)室管理系統(tǒng)難以適應(yīng)新形勢(shì)下多元化管理需求。基于此探究基于云計(jì)算技術(shù)的高校實(shí)驗(yàn)室管理系統(tǒng),可大大提升管理的效率及管理數(shù)據(jù)存儲(chǔ)調(diào)用的速率。本系統(tǒng)的設(shè)計(jì)正是基于上述功能需求,以國(guó)內(nèi)某高校計(jì)算機(jī)專業(yè)實(shí)驗(yàn)室管理系統(tǒng)為例,在實(shí)現(xiàn)系統(tǒng)用戶信息管理、實(shí)驗(yàn)室課程信息管理、學(xué)科建設(shè)管理和實(shí)驗(yàn)項(xiàng)目管理等功能基礎(chǔ)上,引入云計(jì)算中Hadoop 和HDFS 技術(shù),以提升系統(tǒng)管理信息管理的速率和文件存儲(chǔ)容量。

圖2:系統(tǒng)讀寫數(shù)據(jù)測(cè)試速度對(duì)比圖
本系統(tǒng)具備用戶信息管理、實(shí)驗(yàn)室課程信息管理、學(xué)科建設(shè)管理和實(shí)驗(yàn)項(xiàng)目管理四大功能。首先,用戶信息管理。為實(shí)驗(yàn)室管理員和使用師生提供登錄信息管理功能,包括:個(gè)人信息管理、個(gè)人密碼管理、用戶信息修改設(shè)置管理等。其次,實(shí)驗(yàn)室課程信息管理。實(shí)現(xiàn)實(shí)驗(yàn)室課程信息的遠(yuǎn)程云端管理,包含:遠(yuǎn)程云端選課、增加修改課程信息、請(qǐng)銷假等。再次,學(xué)科建設(shè)管理。實(shí)現(xiàn)了實(shí)驗(yàn)室實(shí)踐課程項(xiàng)目化建設(shè)管理,包含:學(xué)科建設(shè)發(fā)展管理、實(shí)驗(yàn)論文管理、實(shí)驗(yàn)學(xué)科會(huì)議管理等。最后,實(shí)驗(yàn)室項(xiàng)目管理。是實(shí)驗(yàn)室軟硬件和各類日常事務(wù)項(xiàng)目管理的主要模塊,包含:實(shí)驗(yàn)室儀器管理、服務(wù)器管理、數(shù)據(jù)庫(kù)管理及文件管理應(yīng)用Hadoop 和HDFS 技術(shù)構(gòu)建分布式文件管理系統(tǒng),具體管理功能設(shè)計(jì)方案包含實(shí)驗(yàn)室信息讀、寫及存儲(chǔ)兩個(gè)方面:
3.1.1 讀管理功能設(shè)計(jì)
在基于分布式文件管理系統(tǒng)的基礎(chǔ)上,通 過(guò)HDFS 中 系 統(tǒng) 文 件 的open()函數(shù)打開預(yù)讀取的管理信息,進(jìn)一步調(diào)用DistributedFileSystem 中 的NameNode 獲 取 管理信息中的數(shù)據(jù)塊及相應(yīng)的讀節(jié)點(diǎn)地址,之后通過(guò)調(diào)用FSDataInputStream 將數(shù)據(jù)塊反饋給客戶端,完成管理信息的讀操作。
3.1.2 寫管理功能設(shè)計(jì)
寫管理用于向?qū)嶒?yàn)室管理系統(tǒng)中寫入信息,例如:用戶的個(gè)人信息、實(shí)驗(yàn)室課程信息、實(shí)驗(yàn)室儀器存放信息等,具體操作時(shí)首先需調(diào)用HDFS 中的create()函數(shù)創(chuàng)建元數(shù)據(jù)節(jié)點(diǎn),之后繼續(xù)調(diào)用DistributedFileSystem 打開讀數(shù)據(jù)通道,并進(jìn)一步調(diào)用DFSOutputStream將待寫入的源數(shù)據(jù)分解為若干數(shù)據(jù)節(jié)點(diǎn),通過(guò)dataqueue 功能寫入數(shù)據(jù)。上述讀寫數(shù)據(jù)的操作均基于HDFS 分布式系統(tǒng)實(shí)現(xiàn),在Hadoop構(gòu)建的架構(gòu)下形成了針對(duì)實(shí)驗(yàn)室各項(xiàng)管理數(shù)據(jù)的快速高效讀寫操作,相較于傳統(tǒng)的實(shí)驗(yàn)室管理系統(tǒng)而言,讀寫的效率能夠提升數(shù)百倍。
基于云計(jì)算技術(shù)設(shè)計(jì)的高校實(shí)驗(yàn)室管理系統(tǒng)相較于傳統(tǒng)實(shí)驗(yàn)室管理系統(tǒng)的最大優(yōu)勢(shì)在于:對(duì)大容量數(shù)據(jù)的讀寫速率更快,且存儲(chǔ)吞吐量更大。為檢驗(yàn)所設(shè)計(jì)系統(tǒng)的性能,特進(jìn)行了針對(duì)性的實(shí)驗(yàn)室數(shù)據(jù)上傳下載測(cè)試,得出如圖2所示測(cè)試圖。
如圖2所示,應(yīng)用本系統(tǒng)讀寫實(shí)驗(yàn)室管理數(shù)據(jù)信息時(shí),當(dāng)數(shù)據(jù)容量<2GB 時(shí),單一和集群數(shù)據(jù)的讀寫速率并無(wú)太大區(qū)別,但隨著數(shù)據(jù)容量的遞增,本系統(tǒng)對(duì)集群大容量數(shù)據(jù)的讀寫速率更快,而單一數(shù)據(jù)的讀寫速率更慢,說(shuō)明基于云計(jì)算技術(shù)設(shè)計(jì)的實(shí)驗(yàn)室信息存儲(chǔ)管理系統(tǒng)針對(duì)海量數(shù)據(jù)的讀寫存儲(chǔ)更具速率優(yōu)勢(shì)。
應(yīng)用云計(jì)算設(shè)計(jì)高校實(shí)驗(yàn)室信息存儲(chǔ)管理系統(tǒng),在數(shù)據(jù)存儲(chǔ)和讀寫上相較于傳統(tǒng)系統(tǒng)更具優(yōu)勢(shì),本文詳細(xì)闡述了應(yīng)用云計(jì)算技術(shù)設(shè)計(jì)高校實(shí)驗(yàn)室信息存儲(chǔ)管理系統(tǒng)的方案,并對(duì)系統(tǒng)測(cè)試結(jié)果進(jìn)行了分析,希望能夠?yàn)閲?guó)內(nèi)各高校的實(shí)踐應(yīng)用提供一些思路。