徐 麗
(湖北工業大學計算機學院,湖北 武漢 430070)
互聯網大數據、云計算時代快速發展的今天,圖片、視頻等信息數據存儲量需求不斷增加,傳統單一的存儲方法已經無法滿足存儲需求,而分布式大數據云存儲技術具有快速讀取、海量處理數據等特點,能夠快速有效的存儲數據,被廣泛應用于云計算中,同時研究學者們發現,在云存儲數據的過程中,會產生部分冗余信息,影響大數據云存儲的效率[1]。
針對大數據云存儲問題,研究相關文獻較多,其中丁穗娟[2]首先對待處理數據進行并行特征劃分,并使用低負荷傳輸處理方式,降低存儲消耗能量,以此完成海量數據云存儲節能存儲方法,但是冗余數據問題還能沒有能到有效解決,并且該手段對設備要求較高,無法廣泛應用在現實生活中。高晨[3]設計一種混合云架構作為云媒資的分布式存儲平臺,同時為了提高可用性,利用個人私有云和第三方提供商為用戶提供能夠使的用云數據交換,加強存儲數據可挖掘功能使用資源交換戰略,完成多方面數據加密方式,有效提高存儲方法的安全性??蛇@樣卻提高了后續管理難度,并存在存儲效果較差等問題。
基于此,本文使用密度演化方式來數據數據存儲,密度演化是個體密度隨時間變化的過程,將密度演化方法應用在大數據云存儲中可有效減少分布式儲存中冗余數據,有效增強分布式大數據云存儲的準確率與存儲效率[4.5]。
研究分布式大數據云存儲方法,首先要分析隨機系統密度演化理論。通過獲取隨機系統狀態概率來確定函數的密度演化進展。常見性的隨機系統可以表示為
X=Gn(Xn,Θ,t)
(1)
式中:Xn表示為n維狀態向量;Gn表示為n維算子向量;Θ表示為聯合概率密度隨機向量;t表示為狀態響應時間。從而獲得此方程的解析或數值解答。如果存在唯一解,式(1)應轉換成式(2)
XI=HI(Θ,t),X=H(Θ,t)
(2)
式中:XI,HI分別表示為X,H的第I(I=1,2,…,n)個分量;H表示系統狀態為聯合概率密度隨機向量Θ的函數。
在{Θ=θ}時的條件概率密度函數表示為px|Θ(x,t|θ),θ表示為聯合概率密度閾值,x表示為隨機系統的數據節點。依據概率相容條件得出

(3)
由式(3)可知,在{Θ=θ}條件下,必有X=H(θ,t),換言之,在{Θ=θ}條件下,X=H(θ,t)以概率1成立,因而其互斥時間X≠H(θ,t)的概率(及其密度)必為0,可知
px|Θ(x,t|θ)=δ(px(x,t))
(4)
式中:δ表示為Dirac函數,px(x,t)表示為狀態概率密度函數。根據條件概率公式,(X(t),Θ)的聯合概率密度函數見式(5)
pXΘ(x,θ,t)
=px|Θ(x,t|θ)pΘ(θ)δ(px(x,t)-H)pΘ(θ)X(t)
(5)
式中,X(t)表示概率密度為pXΘ的邊緣概率度函數,pΘ(θ)表示為聯合概率密度函數,由此可以得出狀態概率密度函數為

(6)
式中:ΩΘ表示為Θ的分布區域。
若將式(2)表示為一個由Θ到X的隨機向量變化,就可以由Θ的概率密度函數獲得X的概率密度函數。應用復合函數的求導法對式(6)兩邊關于t求導。如式(7)所示
pXΘ(x,θ,t)=pΘ(θ)·[δ(x-H(θ,t))]
(7)
在復合函數微分法中,可用pXΘ(x,θ,t)表示在{Θ=θ}條件下復合函數的演化規律。據此,獲得廣義密度演化方程,即
pXΘ(x,θ,t)·δ+x-H(θ,t)=0
(8)
由式(5)得到演化初始條件為
pXΘ(x,θ,t)|t=0=δ(x-t)pΘ(θ)
(9)
演化邊界條件可定義為
pXΘ(x,θ,t)|x→±∞=0
(10)
將具有隨機參數的隨機系統為具有UI及初始條件的動力系統,隨機參數引入狀態向量,構造增廣隨機系統,獲得聯合概率密度的偏微方程。在通常情況下,此方程求解相對較難,為使得一般隨機系統可以求解,建立一維廣義密度演化方程。從而得出隨機系統的狀態概率[6]。
獲取隨機系統狀態概率后,分析分布式大數據云儲存方法[7]。分布式系統采用連通的無向圖G=(V,E)描述,其中V表示為頂點集,E表示為邊集,所有節點都有同樣的傳輸半徑r,WSN網絡的變化量φ∈E。分布式大數據的云存儲過程會根據分碼的結構形成一個包含m個向量組A={A1A2…Am},A∈V。且每個傳輸集Si滿足以下條件

(11)
為保證數據在任何一次傳輸過程中都不發生沖突干擾,需要對數據進行完整度檢測,其中,AJ描述包含J個已調節數據向量。構建云動態數據采集模型,運用聯合特征信息增益提取方法。引入了一個云存儲管理因子Ts?(0,0.5),假設被處理云采集數據是可分類的。那么在采集數據集合S。當Ts?S,AJ?A條件成立時,大數據信息系統狀態相應函數表達式見式(12)

(12)
式中:ai表示為大數據信息系統的個數。
根據通信理論中頻分復用理論,得到大數據頻率與行為關系,常用多普勒效用表示,多普勒頻移用公式描述為[8]

(13)
式中,yb表示通信接收端檢測到的發射頻率變化量;y0表示通信站發射端的載波頻率;z表示通信基站發射端的載波頻率;w表示傳輸功率[9]。
在此基礎上,構建分布式云存儲基礎模型表示為

(14)
通過上述設計,得到分布式云存儲基礎模型,確保大數據傳輸存儲過程中每條數據能夠獨立存在。為提高分布式大數據存儲效率對冗余數據進行分類。
冗余數據會嚴重影響正常數據的存儲,因此需要對冗余數據分類處理。數據在搜集時會出現網絡遲延,因此采用局部特性分析方法,依據冗余數據的特性以及相鄰領域的數據特征值進行對比,以體現冗余數據的特征。密度演化的分布式大數據云存儲冗余數據分配流程圖見圖1。

圖1 冗余數據分配流程圖
采用最優分類操作,把冗余數據分類問題轉變成最優平面求解的問題

(15)
式中:R(β)表示第二次判別函數,Z表示分類閾值,Zj以及Zk分別表示yj和yk兩個向量的分類閾值β描述為權重向量,p表示最大向量,yj·yk為兩個向量的標量積,βj描述的是yj向量的權重,βk描述的是yk向量的權重,最優分類平面求解須滿足以下要求

(16)
假設分布式大數據云存儲中的冗余數據內的特征產生為非線性轉換,那就要使用內積L(yj,yk)替換最優分類函數內的標量積。最優分類平面求解問題可以得出

(17)
式中,c′表示為分類別屬性;g(y)表示為最優分類函數。該函數可以獲取密度演化分布式大數據云存儲中冗余數據片段,分類出冗余數據并將其濾除[10]。
在上述得出分布式云存儲基礎框架、實現冗余數據分配的基礎上,完成密度演化下大數據云存儲方法的實現,傳統數據存儲算法采用能量譜密度函數,但是該方法造成存儲系統中存在較多干擾數據,存儲效率地下。對此本文構建以數據特征壓縮與密度演化相結合的云存儲方法[11]。利用匹配濾波器檢測方法對大數據進行預處理,以特征預處理結果作為為輸出向量,減少冗余信息,同時為降低存儲成本,利用數據特征壓縮對數據進行信息降維融合,進行壓縮頻率普的聯合特征識別,讓其檢驗統計量見式(18)

(18)
式中,M表示為云存儲節點的采樣點數。其中局部性交叉項信息鏈描述為

(19)
式中,Cb為傳輸調度中產生的異常數據個數;T為傳輸調度產生異常數據的時間。f(x)為大數據分布式頻譜感知的聚類中心,其公式可以表示為
f(x)=ωe-ωx
(20)
式中:ω表示為頻譜感知系數,e表示為功率譜密度,頻譜感知節點u的競爭集的定義見式(21)

(21)
通過式(21)產生出的云滴分區區域,構建模糊隸屬函數,多源節點中形成新的映射

(22)
把文件塊和文件塊的標簽信息關聯到S-Table上。設計密度演化特這壓縮能量檢測器,如圖2所示。此時,節點發送數據融合中心的概率為

圖2 大數據特征壓縮能量檢測器

(23)
式中,?表示為中心數據集。
基于上訴二元假設模型,構建的檢驗統計量且服從漸進的正態分布,通過能量檢測和判決,實現大數據的云存儲數據壓縮[12]。
與此同時通過構建分布式數據集數實現大數據聚集,減少云存儲冗余數據。通過特征壓縮,得到大數據的分布式云存儲壓縮特征識別的虛警概率和檢測概率分別表示

(24)

(25)
式中,N表示大數據虛警的統計總合;Pfi表示接受信號的時段數,Pdi表示大數據的配置參數。
將云存儲中的大數據特征核函數描述為

(26)
式中,z表示為云存儲中的數據集;τ表示為云存儲所需的時間。以動態頻譜接入的認知技術為基礎,得到大數據的變化特征識別數學模型表示為

(27)
對于兩個標量時間序列y1和y2,其聯合概率函數為f(y1,y2),計算大數據簇內的灰度相關特征,中心節點點增加功率來發送信標信息,將大數據庫的灰度相關特征切分為若干數據塊Chunk,由此實現了大數據分布式云存儲。
為驗證提出的大數據分布式云存儲方法的有效性,設計仿真。實驗采用MATLAB2011a版本作為仿真平臺,在該軟件中接入Hadoop云平臺,并在Hadoop云平臺上搭建分布式數據庫系統。在oracle數據庫內選取100組數據作為實驗對象,每組數據包含25個數據節點,每個數據節點占據4個字節,平均分布在200*200MB的分布式網絡中。
采用文獻[2]、文獻[3]方法作為實驗對照方法,使用相同實驗環境進行仿真。分別采用三種方法對冗余數據分類,得到冗余數據分類準確率對比結果如圖3所示。

圖3 冗余數據分配準確率對比圖
根據圖3可以看出中,采用文獻[2]方法對分布式大數據中的冗余數據分類,得到分類準確率平均值為78%,采用文獻[3]方法得到的分類準確率平均值為83%,準確率均較低。而采用本文方法得到的分類準確率平均值達到了98%,通過上述分析可知,本文方法能夠有效分類分布式大數據中存在的冗余數據,節省存儲空間。
在此基礎上,驗證三種方法的耗能及耗時情況,對比結果如圖4、圖5所示:

圖4 分布式大數據云存儲耗時對比圖

圖5 分布式大數據云存儲耗能對比圖
通過圖4可知,在相同數量的分布式大數據中,采用文獻[2]方法存儲大數據的時間最長,其次為文獻[3]方法,本文方法耗時最小,在15s內就能夠完成100組數據的存儲過程。
通過圖5可以看出,在同樣的實驗環境下,文獻[2]方法耗能為80Byte,文獻[3]方法耗能為85Byte,本文方法則耗能最低,為30Byte。綜合圖4、圖5能夠得出,采用本文方法存儲分布式大數據的耗時短、耗能低,有著較高的存儲效率。
日益增長的云存儲需求是現階段較難解決的問題,同時這也給社會提供了突破創新的路徑,通過密度演化能夠確定數據在存儲過程中存在的冗余信息,通過合理的分配手段,減低冗余部分對云存儲的印象,提升整體存儲效率。分布式存儲結果又可以幫助大數據完成冗余數據分配,最大程度的提升云存儲整體效率和精準度。在仿真中得出,本文所提方法能夠優秀完成大數據存儲任務,并且減低的冗余數據和提升數據分配精準度,為社會日益增長的大數據提供的長遠的存儲方法,適用于各個領域中,可廣泛運用在現實生活中。
同時,實驗證明本文方法雖然能夠減少冗余信息,提升了方法效率,但是卻不能夠完全的杜絕冗余數據的產生,那么接下來的研究方法就是如何通過使冗余降低至最小,甚至是可以忽略不計的程度,使得可以不計算冗余分配,由此減少方法步驟,在最大程度上提升方法的運行效率,以便更好的運行在現實環境中。