胡 銳
(蘇州科技大學(xué) 網(wǎng)絡(luò)與教育技術(shù)中心,江蘇 蘇州 215009)
基于Hadoop的高校檔案管理存儲(chǔ)系統(tǒng)研究
胡銳
(蘇州科技大學(xué) 網(wǎng)絡(luò)與教育技術(shù)中心,江蘇 蘇州 215009)
隨著高校信息化的發(fā)展,高校檔案管理開(kāi)始向無(wú)紙化發(fā)展,檔案信息資源的數(shù)據(jù)成指數(shù)級(jí)增長(zhǎng),現(xiàn)有檔案管理系統(tǒng)難以滿足。因此,構(gòu)建一個(gè)檔案管理存儲(chǔ)系統(tǒng)變得尤其重要。文章介紹了以Hadoop技術(shù)為基礎(chǔ)建設(shè)的一個(gè)檔案管理存儲(chǔ)系統(tǒng),用來(lái)滿足日益增長(zhǎng)的檔案數(shù)據(jù)存儲(chǔ)需求。
Hadoop;Hive;檔案管理;存儲(chǔ)系統(tǒng)
近年來(lái),檔案資源作為高校重要的信息資源和知識(shí)資源,越來(lái)越受到高校管理者的重視[1]。隨著檔案資源的種類和數(shù)量的增加,產(chǎn)生了海量的檔案數(shù)據(jù)。如何將海量檔案數(shù)據(jù)可靠有效且廉價(jià)地進(jìn)行存儲(chǔ),是檔案管理系統(tǒng)建設(shè)者要思考的問(wèn)題。
以云計(jì)算為基礎(chǔ)的分布式存儲(chǔ)系統(tǒng)是實(shí)現(xiàn)廉價(jià)存儲(chǔ)趨勢(shì),通過(guò)云計(jì)算進(jìn)行硬件資源整合提供強(qiáng)大的存儲(chǔ)能力及計(jì)算能力,并實(shí)現(xiàn)了對(duì)數(shù)據(jù)的統(tǒng)一管理,提高服務(wù)質(zhì)量以及數(shù)據(jù)處理的可靠性和擴(kuò)展性[2]。
本文在借助于Hadoop的云架構(gòu)的基礎(chǔ)上,以Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)作為檔案管理系統(tǒng)存儲(chǔ),通過(guò)HBase作為檔案管理系統(tǒng)數(shù)據(jù)庫(kù),來(lái)實(shí)現(xiàn)檔案去管理系統(tǒng)。
2.1 Hadoop
Hadoop是Apache開(kāi)源組織的一個(gè)分布式計(jì)算框架,可以在大量廉價(jià)的硬件設(shè)備組成的集群上運(yùn)行應(yīng)用程序,構(gòu)建一個(gè)具有高可靠性和良好擴(kuò)展性的并行分布式系統(tǒng),Hadoop分布式文件系統(tǒng)、MapReduce編程模型和HBase分布式數(shù)據(jù)庫(kù)是其三大核心技術(shù)[3]。……