冶鑫晨 于炯 錢育蓉


摘 要:隨著相關技術的進步,在軌運行的遙感衛星的數量逐步增加,運行時間增長,衛星所攜帶設備的成像分辨率不斷提高,隨之而產生的遙感數據急劇增長,原有的單機運行的GIS(Geographical Information System,地理信息系統)已經無法滿足需求。當前的研究顯示分布式的存儲方案已經成為未來海量遙感數據存儲的必然選擇,而面對隨著數據量增加而不斷擴展的分布式節點,分布式存儲帶來的能耗問題變得日益突出。
【關鍵詞】Hadoop 遙感影像
1 引言
數據存儲帶來的能耗問題一直是各國的研究者關注的重點,目前針對云存儲平臺的節能研究也廣泛存在,文獻指出目前云平臺的節能研究多從硬件節能和軟件節能兩個方面來實現的。硬件層次上主要通過DVFS等技術通過根據運行在芯片上的程序對計算能力需求,動態的對芯片的運行頻率和電壓進行調節來達到節能的目的。軟件層次上的節能研究更加多層次,對于類似Hadoop這樣的通用的分布式架構,通常使用數據放置策略和節點調度策略相配合來實現節能。目前較少有研究針對數據內在特性優化數據放置策略的研究,在遙感影像數據這樣單一數據源產生的海量數據存儲中,針對數據內在特性進行優化數據放置策略是解決云存儲能耗問題的新思路和方法。
2 基于遙感影像特性的HDFS數據放置算法
本文的工作目標是在hadoop平臺上對HDFS分布式文件系統的數據放置策略進行更改,根據衛星遙感影像數據特性優化存儲策略,在系統負載較低時關閉部分節點達到節能的目的。
2.1 遙感影像數據的特性
遙感影像數據的讀取和查詢通常通過影像數據對應的地理位置進行,而單次查詢的數據對應的地理空間范圍上相近或者臨近的。對大量遙感影像查詢記錄分析發現,對于感影像數據在對應地理空間上的訪問存在高頻度中心向周圍遞減的特性。
2.2 遙感影像存儲建模
對同一波段的遙感影像數據進行空間建模,根據所在空間經緯度進行分割為m*n個分片,每個分片的影像數據對應HDFS中的一個數據塊,標識每個數據塊為dij,記錄每個數據塊的訪問次數為aij,建立數據塊訪問次數矩陣Fm×n:
對各個數據塊的訪問次數進行排序,數據塊訪問次數排位為cij,建立數據塊訪問次數排序矩陣Dm×n:
根據數據塊的訪問頻度對數據塊進行分組,首先選取數據塊訪問次數最高的數據塊作為分組E1中心數據塊dsisj:
asisj=max aij
選定數據塊dsisj記錄在分組E1中,對數據塊dsisj周圍的數據塊進行8向搜尋,當cij>β×m×n時將數據塊dij記錄在分組E1中,其中β為數據塊分組邊界因子(β<1),對記錄在分組內的數據塊繼續做8向搜尋,直至沒有新的數據塊滿足條件為止。在沒有被選中的數據塊中選取數據塊訪問次數最高的數據塊作為分組E2中心數據塊dsisj,重復上述過程,直至Ep+1的中心數據塊dsisj的數據塊訪問次數csisj<α×m×n,其中α為分組抑制因子(α<β),創建數據塊分布的數量為p。
2.3 副本放置策略
為了保證節能算法的效果,HDFS集群內需要擁有10個以上存儲空間和計算性能相同的Datanode節點。遙感影像數據存入順序為:
(1)分組E1中的數據塊選擇集群內剩余空間最大的節點存入,在剩余的節點中選取剩余空間最大的兩個存入分組E1的副本,在節點存儲中,數據塊的的存放順序按照分組數據塊的排序來進行;
(2)分組Ep中的數據塊在集群中選取存儲空間剩余最小的節點來儲存,同樣在另外的節點上儲存兩個副本。接下來按照分組E2、Ep-1、E3、Ep-2……的順序來存儲數據塊;
(3)當分組的數據塊都已經存入集群后,將在分組時沒有被選擇的數據塊按照節點剩余空間大小的比例隨機存入節點當中。
3 實驗與分析
節能效果實驗使用云環境仿真平臺CloudSim模擬一個擁有60個節點的集群,比較在模擬的24小時遙感影像數據查詢的不同負載情況下,默認HDFS策略、動態數據放置策略、本文所使用策略節點開啟情況對比,如圖1所示。
通過對比可以發現本文所使用的策略相較HDFS默認策略節點開啟率降低了53%,在中高訪問頻率時較動態數據放置策略優化效果明顯,但是由于數據塊分組細分不夠,在低負載時此策略節點開啟率過高需要后期優化。
4 總結與展望
本文對HDFS的數據放置策略根據遙感影像數據的特性進行優化,映射數據塊對應影像的空間位置建模,用訪問頻率設置存儲中心對數據進行聚類,在中等負載的實驗環境中表現出比通用的節能算法更好的節能效果。下一步的工作在于優化策略在較低功耗時的節能表現。
作者簡介
[1]錢育蓉,于炯,王衛源,孫華,廖彬,楊興耀.云計算環境下軟硬件節能和負載均衡策略[J].計算機應用,2013,33(12):3326-3330.
[2]廖彬,于炯,孫華,等.基于存儲結構重配置的分布式存儲系統節能算法[J]. 計算機研究與發展,2013,50(1):3-18.
[3]于炯,廖彬,張陶,等.云存儲系統節能研究綜述[J].計算機科學與探索,2014,8(9):1025-1040.
[4]康俊鋒.云計算環境下高分辨率遙感影像存儲與高效管理技術研究[D].浙江大學,2011.
作者單位
新疆大學軟件學院 新疆維吾爾自治區烏魯木齊市 830008