李燕梅
(滇西科技師范學(xué)院,云南臨滄,677000)
在信息化爆炸的社會,從個人到組織對于存儲空間的需求以及要求缺口得到進一步的擴大。對于維護大規(guī)模數(shù)據(jù)的成本也隨之水漲船高,信息增長的速度日益加快,而本地存儲卻沒有太大進步,因此,新的數(shù)據(jù)存儲備份方案應(yīng)運而生,其成本低廉,部署方便,不僅能夠保證數(shù)據(jù)的安全性還能保證數(shù)據(jù)的私密性。目前的存儲系統(tǒng)向著網(wǎng)絡(luò)化、分布式方向發(fā)展,并最終催生了云存儲服務(wù)。云存儲改變了人們對存儲的原有認(rèn)知,這使得人們不必再單獨組建和管理儲存系統(tǒng),而是存儲在專業(yè)的供應(yīng)商上面,通過支付一定的費用既可享受存儲管理服務(wù)。云存儲不需要進購存儲設(shè)備也無須專人對其進行管理,因而大大降低了存儲的成本,總而言之,云存儲以低廉的價格販?zhǔn)鄹咝У拇鎯Ψ?wù),從而得到用戶的肯定擴大了應(yīng)用范圍。
文件的存儲格式有許多種,這取決于不同企業(yè)的應(yīng)用。要管理這些種類繁多、數(shù)量規(guī)模大、消耗存儲空間大的混合數(shù)據(jù),要以熟練掌握數(shù)據(jù)的特征及分部狀況為前提,才能夠提高管理者對數(shù)據(jù)進行處理的流暢度。
混合云存儲能夠容納海量數(shù)據(jù),因此,存儲量大是云存儲的一大特征。傳統(tǒng)的文件大小通常來說不超過5000KB。而云存儲容量具有足夠的擴展能力,往往能夠達到PB級別。在大規(guī)模類型不同的文件占存中能夠體現(xiàn)出來。文檔一般從幾M到幾G不等,占存如此大的文件通常需要依據(jù)其文件特征來決定轉(zhuǎn)存對象。
混合云存儲可支持的文件存儲種類較為多樣。這是基于云存儲所服務(wù)的客戶具有多樣性所決定的。客戶基于其所處行業(yè)的差異性以及其個人特性,賦予了存儲文件類型的多樣性。盡管文件數(shù)據(jù)來自同一個公司,但是其所顯示的數(shù)據(jù)信息也有所差異,由此,可看出云存儲可支持類型眾多的文件存儲。目前為止使用較為頻繁的文件類型有文本、表格、圖片、動畫、音視頻、壓縮文件、網(wǎng)頁、地理位置信息等。
混合云存儲文件價值密度低。基于混合云儲存文件的用戶多樣性以及其高效的存儲服務(wù)所提供的海量數(shù)據(jù)存儲容量,進一步削弱了文件的價值。海量的數(shù)據(jù)決定了用戶對數(shù)據(jù)的訪問頻率是不會太高的,因此多數(shù)數(shù)據(jù)對于用戶來說其價值比較低。監(jiān)控的視頻文件就是一個典型的例子。監(jiān)控視頻連續(xù)不斷的運作,其所產(chǎn)生的視頻文件中較為有價值的信息只是幾個時刻,然而卻無法將無用的部分刪除,因此監(jiān)控視頻文件中無效的數(shù)據(jù)占比極大。根據(jù)GEO的統(tǒng)計分析所得結(jié)論,往往TB容量級別的海量數(shù)據(jù)中,有價值的數(shù)據(jù)通常不到一個GB。
傳統(tǒng)的分類緩存算法是基于用戶的時間及使用頻次進行計算的,其通過機器的學(xué)習(xí)的人工智能算法的重點是在文件屬性上,缺少了對用戶的整體關(guān)注。另一方面文件的訪問、轉(zhuǎn)儲行為都是基于用戶的喜好、目的、特點而產(chǎn)生的,與混合云存儲的用戶建立友好的關(guān)系通過網(wǎng)絡(luò)社交渠道共享文件是極為正常的,因此混合云存儲系統(tǒng)中活躍用戶所提供的共享文件通常是熱點數(shù)據(jù),有鑒于此,根據(jù)用戶的網(wǎng)絡(luò)關(guān)系對文件價值進行評估具有重要意義。
人是社會的主體,若將人抽象的看作是網(wǎng)絡(luò)社會的節(jié)點,這個網(wǎng)絡(luò)節(jié)點則可以互換消息,節(jié)點與節(jié)點之間可以描述為承擔(dān)著交流的通道。在這樣的模型中,節(jié)點不僅僅是信息發(fā)送也是信息接收的主動者。研究發(fā)現(xiàn),網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)與傳輸機構(gòu)是傳播信息數(shù)據(jù)的主力。 可以得知,網(wǎng)絡(luò)社會中的信息傳播簡易度則隨著各節(jié)點的連接程度的提高而提高。廣為流傳的信息主要基于初始化連接程度高且社會影響力大的節(jié)點。各種信息通過網(wǎng)絡(luò)節(jié)點得到散布。然而,信息數(shù)據(jù)該以緩存的權(quán)重來判定數(shù)據(jù)信息進行緩存或者轉(zhuǎn)存。其中緩存權(quán)重的大小是依據(jù)文件被訪問的頻次所決定的,因為文件的訪問頻次能夠體現(xiàn)出發(fā)布者在網(wǎng)絡(luò)社會中的重要位置。
云存儲的受眾廣,用戶之間存在網(wǎng)絡(luò)節(jié)點關(guān)系。通過使用SNA的方法,可以在特定的云存儲系統(tǒng)中劃分出活躍度高、影響輻射力廣的用戶。這樣的用戶所傳輸、共享的文件成為局部熱點文件的可能性極大,更應(yīng)該歸納到私有云存儲當(dāng)中,以提高他人訪問的便捷度。然而至今為止,現(xiàn)有的算法尚未體現(xiàn)出這個元素。
(1) 首先要了解用戶節(jié)點基于網(wǎng)絡(luò)的相對位置。因此需要進一步簡化云存儲用戶的網(wǎng)絡(luò)關(guān)系。假設(shè)用戶A與用戶B、C、D、E、F、G之間是朋友關(guān)系。那么就可以用圖1來表示。

圖1 用戶網(wǎng)絡(luò)關(guān)系簡化圖
節(jié)點A 的相對網(wǎng)絡(luò)中心度可以用Crd(x) 來表示:

n表示網(wǎng)絡(luò)大小的取值范圍,也可以說是網(wǎng)絡(luò)用戶的總數(shù)量。上圖所顯示的網(wǎng)絡(luò)存儲中總共有7個節(jié)點,那么n就取值為7,其中,節(jié)點A的度為6,因此可得出Crd(X)=6/(7-1)=1的結(jié)果。
(2)將用戶所能訪問的數(shù)據(jù)的集合以O(shè)示之,這里的O也可以看作是云存儲中的文件數(shù)據(jù)量,文件對象為d,那么文件對象的取值范圍是d∈O,文件的大小以Sd來表示,而C是緩存數(shù)據(jù)的大小,用戶所發(fā)送的請求隊列則可以通過集合R={R1.R2...R3}來表示,那么緩存文件則可以用S={S0,S1..Sm}的集合來表示,其中S0表示的是初始化緩存的大小,則對于每一個Sk(k=0,1,...m )可以得出如下式子:

Ek的取值意義是本地緩存中即將要被刪除的文件的大小,則其Ek∈Sk-1。需要通過用戶的讀取模型來制定轉(zhuǎn)儲替換的策略。
主要過程:
①初始化預(yù)測模型:基于用戶的網(wǎng)絡(luò)位置,得出用戶網(wǎng)絡(luò)中心Crd。
②建立預(yù)測模型:通過網(wǎng)絡(luò)中心度來評價用戶所發(fā)出的請求,并以Q來代表所構(gòu)建的預(yù)測集合。Q包含了活躍用戶發(fā)送與接收數(shù)據(jù)的hash。
③尋找合適的對象進行替換:利用傳統(tǒng)的算法尋找有替換價值的對象。
④如果Rk?Q,則表示沒有緩存可以被替換,那么就重復(fù)步驟三,直到在有充足的空間容納新請求的同時尋找到符合的替換對象。
⑤替換緩存。
(1)初始化預(yù)測模型
預(yù)測模型的建立就是構(gòu)建一個包含用戶節(jié)點相對中心的映射的過程。
輸入:SN網(wǎng)絡(luò)
輸出:用戶i相對中心度
用1,2....n標(biāo)記每一個用戶節(jié)點
計算每一個用戶節(jié)點的度和相對網(wǎng)絡(luò)中心度Crd(x),并建立一個映射表(? nodenumber, Crd(x ))
返回
(2)預(yù)測
預(yù)測對象集合涵蓋了所預(yù)測范圍內(nèi)的對象以及具有確定性的閥值。進行預(yù)測第一步要做的是跟進用戶節(jié)點所傳輸?shù)男畔⑴c所設(shè)定信息的最小關(guān)聯(lián)度的比較研究,其結(jié)果若顯示其在Q的取值未超出預(yù)定值的前提下超過了最小關(guān)聯(lián)度,那么就將Q寫入新的數(shù)據(jù)請求hash。若前提條件不成立則需要遵循所制定的策略來清空Q值,最后將Q寫入新的請求對象hash,并調(diào)整Cmin的取值為請求信息所屬用戶的關(guān)聯(lián)度。
輸入:用戶Crd映射表,用戶請求隊列,閥值,設(shè)置Cmin=0
輸出:預(yù)測對象集合Q
(3)PRE-SN初始化和得到預(yù)測集合Q之后,利用預(yù)測集合和請求序列構(gòu)造出一個新的緩存S。
輸出S可以作為本地私有云儲存,也可以結(jié)合其他算法使用,用作傳統(tǒng)緩存算法優(yōu)化的一個策略。

圖2 預(yù)測對象集合Q

圖3 預(yù)測緩存S
結(jié)果顯示基于網(wǎng)絡(luò)關(guān)系的對象預(yù)測算法比之現(xiàn)行的緩存算法轉(zhuǎn)存策略有較好的效果。從另一方面看,基于用戶的網(wǎng)絡(luò)關(guān)系,以所劃分出用戶網(wǎng)絡(luò)關(guān)系度高的用戶所發(fā)布的內(nèi)容作為預(yù)測對象,大大提高了轉(zhuǎn)存算法的效率。
本文鑒于現(xiàn)行算法中忽略了社會網(wǎng)絡(luò)關(guān)系因此設(shè)計了新型轉(zhuǎn)儲算法,并建立了具有社會化特征的緩存行為模型,并創(chuàng)建對象預(yù)測集,大大提升了緩存命中率。該算法體現(xiàn)出了適用性廣的優(yōu)勢—一般系統(tǒng)都可以使用,其兼容性較強。需要注意的是,PRE-SN的算法優(yōu)點有所局限,其局限性體現(xiàn)在其會隨著系統(tǒng)緩存能力的增大而逐漸減小。因為系統(tǒng)緩存增大就意味著允許各種請求,那么用戶網(wǎng)絡(luò)關(guān)系的預(yù)測效用就會減弱,這時候應(yīng)用PRE-SN算法并沒有很明顯的提升轉(zhuǎn)儲性能的作用。
* [1]申彤.云存儲網(wǎng)關(guān)的分布式緩存系統(tǒng)的研究與實現(xiàn)[D].國防科學(xué)技術(shù)大學(xué),2012.
* [2]程勇.云存儲中密文訪問控制機制性能優(yōu)化關(guān)鍵技術(shù)研究[D].國防科學(xué)技術(shù)大學(xué),2013.
* [3]李苗在.混合“云存儲”的前景展望[J].電腦知識與技術(shù).2011(29).
* [4]夏桂丹.云存儲網(wǎng)關(guān)協(xié)議適配器和緩存管理的研究[D].華中科技大學(xué),2013.
* [5]趙鐵柱,鄧見光.面向大規(guī)模數(shù)據(jù)備份的云存儲網(wǎng)關(guān)研究[J],計算機光盤.2013.12