王娜娜
(山西警察學院 網絡安全保衛系,山西 太原 030401)
在物聯網、云計算技術飛速發展的背景下,網絡中的稀疏大數據數量呈線性增長,社會進入大數據時代[1]。云存儲環境是由網絡虛擬形成的存儲平臺,是海量存儲設備通過集群技術構成的。數據遷移的本質是將存儲設備中存在的數據遷移到其它存儲設備中,提高資源的利用率和存儲系統的性能。數據遷移分為兩種類型,分別是在線遷移和離線遷移。存儲系統的性能受數據遷移效率的影響,所以數據遷移在數據管理中是極其重要的。在混合云存儲中快速、準確地獲取稀疏大數據,對稀疏大數據進行分析,是目前研究的熱點[2,3],相關研究人員提出了一些方法。
文獻[4]提出傳統RDBMS向非關系型MongoDB數據模型轉換與數據遷移方法,構建了代表關系參照完整性的有向圖表示模型對數據進行預處理,根據預處理結果提出基于關系型數據模型,運用該模型將數據進行自動轉換,從而實現數據遷移。分析實驗結果可知,該方法能夠按照一定的結構將數據遷移到相應的空間中,但是該方法沒有考慮到對特殊樣本數據進行檢查,導致數據遷移完整度不高。文獻[5]通過數據選擇階段和遷移學習階段完成網絡稀疏大數據的遷移。根據級聯結構在數據選擇階段中刪除網絡稀疏大數據中存在的冗余樣本和噪聲樣本,在遷移學習階段中將權重恢復因子引入Tr Ada Boost算法中,實現網絡稀疏大數據的遷移。實驗結果表明,該方法具有較高的數據遷移完整度,但是方法實施步驟過于復雜,導致遷移用時過長。文獻[6]根據網絡稀疏大數據塊的級別構建價值評價模型,在價值評價模型的基礎上對歷史價值系數、數據大小、數據塊間關聯和讀寫頻詞進行量化處理,得到網絡稀疏數據塊的價值,結合被動遷移閾值和主動遷移閾值實現網絡稀疏大數據的遷移。實驗結果表明,該方法能夠實現對大數據的有效遷移,但是效果不佳,數據不夠全面。文獻[7]提出基于動態調整閾值的虛擬機遷移算法,對混合云存儲中的歷史負載數據進行分析,計算網絡稀疏大數據在動態調整過程中的閾值門限,通過閾值門限確定預測物理機對應的負載趨勢和延時觸發,計算數據遷移的時機,完成網絡稀疏大數據的遷移。但是該算法完成任務所用的時間與數據遷移前相差較小,存在有效性差的問題。
為解決上述方法中存在的問題,提出混合云存儲中網絡稀疏大數據滲透遷移算法。針對傳統方法沒有考慮到特殊冗余樣本數據的干擾問題,提出了基于紋理基元直方圖的冗余數據篩查方法,采用該方法對冗余樣本數據集進行篩查,根據篩查結果將其進行剔除,從而提升網絡稀疏大數據滲透遷移效果。實驗結果表明,該算法能夠有效提高網絡稀疏大數據滲透遷移的完整度,并且在數據篩查的基礎上提升了數據遷移的效率,使該算法的總體性能得到了提升。
數據管理在當今大數據時代中的地位越來越重要。數據管理通常情況下是采用存儲系統規整并分析數據,將網絡中的稀疏數據轉變為信息的過程。提取數據中的關鍵信息輔助人們工作是數據管理的主要目的。網絡數據通常儲存在存儲設備中,需要對網絡稀疏大數據進行遷移。
網絡稀疏大數據中包含具有極大相似性數據(即存在冗余數據),因此判斷海量網絡稀疏大數據中是否存在相似程度較高的數據是最終進行數據遷移的關鍵。采用基于紋理基元直方圖原理[8],對相似性數據進行篩查,從而實現冗余數據的剔除。
在數據篩查過程中,采集離散有限的時序數據,可表示為
(1)

一般地,冗余數據均值是動態變化的,因此需要設定固定時間對數據進行采集,以此來防止數據間的突變現象。根據紋理基元直方圖,得出數據在一定閾值范圍內變化的特征,可以表示為
(2)
式中:j表示取值系數,p表示數據總體長度。
設定一個閾值W,當W小于Yi時,則可以認定x(t) 中存在異常冗余數據,應當將其進行剔除。W的計算公式為
(3)
根據式(3)構建冗余大數據重組模型為
(4)
(5)
其中,P是去掉極值后的冗余數據均值,Q是對應的標準差。數據分析的效率由網絡稀疏大數據遷移過程中的穩定性和高效性決定。通過紋理基元直方圖原理完成對冗余數據的準確篩查,實現了對冗余數據的剔除。
根據冗余數據篩查結果,將信息熵引入主成分分析算法中,對混合云存儲中的網絡稀疏大數據進行降維處理[9]。采用主成分分析算法對網絡稀疏大數據做降維處理之前,通過信息熵過濾掉網絡稀疏大數據中存在的無用信息[10],具體過程如下:
設Un×m是數據矩陣,其中m表示網絡稀疏大數據的總數;n是特征或屬性的數量。

設H是信息熵,其計算公式如下
(6)
設δ是信息熵閾值,對比信息熵閾值δ和屬性信息熵H(ai) 之間的大小,如果信息熵閾值δ和屬性信息熵H(ai) 符合下式,將屬性ai存儲到集合中,則有H(ai)>δ。 對集合進行矩陣中心化處理,獲得矩陣,其表達式如下
B=A-repmat(mean(A,2),1,m)
(7)
通過計算屬性不同的維度之間存在的協方差[12],得到協方差矩陣Cov,其計算公式如下
(8)
正交分解協方差矩陣Cov,使得協方差矩陣Cov中存在的向量描述向量在特征向量中對應的投影長度,上述投影長度即為向量的特征值[13,14]。計算特征值在投影前為k的分量,消除協方差矩陣Cov中剩余的分量,得到協方差矩陣Cov的特征向量EVR和特征值λi。
k通過特征值對應的貢獻率計算得到,貢獻率f通過所有特征值和選取的特征值計算得到,貢獻率f的計算公式如下
(9)
選取k個較大的特征值構成特征向量Vn×k,得到網絡稀疏大數據的降維結果Y
(10)
網絡稀疏大數據在混合云存儲中通常依賴分布式環境,由于混合云存儲中存在大量的噪聲[15,16],所以對網絡稀疏大數據進行去噪是亟需解決的任務。根據網絡稀疏大數據降維結果,對數據進行去噪處理。混合云存儲中網絡稀疏大數據滲透遷移算法通過閾值自學習小波算法對降維處理后的網絡稀疏大數據進行去噪處理,具體過程如下:
(1)在低通濾波器的基礎上通過平滑法對數據進行預濾波處理,去除網絡稀疏大數據中存在的白噪聲和高頻噪聲[17]。

(3)確定分解層數和小波函數對數據進行分解,保持低頻信號cj在分解過程中不發生變化,通過軟閾值處理各層存在的細節信號dj,通過下式對網絡稀疏大數據進行重構,獲得首次濾波結果y′1(ti)

(11)
式中:H[j]是低通濾波器的第j次插零;G[j]是高通濾波器的第j次插零。
(4)設Ek是目標函數對應的均方誤差,其計算公式如下
(12)
式中:θ是濾波閾值。設θ(k+1) 是第k+1次濾波對應濾波閾值,其計算公式如下
θ(k+1)=θ(k)+Δθ
(13)
式中:參數Δθ的計算公式如下
(14)
通過濾波閾值對目標Ek進行調整,使其最小。如果Ek (5)分解測量時間內存在的信號,處理過程與步驟(3)相同,得到去噪后的數據 (15) 對去噪處理后的網絡稀疏大數據進行遷移,設D=[R,S,σ] 是網絡稀疏大數據集,其中R是網絡稀疏大數據模式;S是網絡稀疏大數據集的大小;σ是網絡稀疏大數據的敏感度,其計算公式如下 (16) 式中:H是敏感范圍閾值;yj、yi是屬性集。 在存儲系統中數據的訪問頻率和存儲時間會對數據的價值產生影響,在不同階段中數據的意義都不相同。存儲系統中的新數據具有較高被調用的頻率,過一段時間后,與新存入系統中的數據相比,這批數據就變為歷史數據或是舊數據,被調用的頻率變小[20,21]。 設 {t1,t2,…,tn} 是網絡稀疏大數據在系統中被訪問的時間集;t是當前時間;t-t1,t-t2,…,t-tn是每次訪問數據時間和時間t之間存在的長度,將其記為T1,T2,…,Tn。 設T是網絡稀疏大數據對應的時間長度,其計算公式如下 (17) 設F是網絡稀疏大數據對應的訪問頻率,fk是數據在Tk時間段內對應的訪問頻率;fk-fk-1是數據在Tk-Tk-1時間段內對應的存取熱度,網絡稀疏大數據對應的訪問頻率的計算公式如下 (18) 數據被創建時,根據網絡稀疏大數據特點可知,數據有很大概率被訪問,在一定時間內網絡稀疏大數據訪問頻率的增長速度較快,表明網絡稀疏大數據在這段時間內的重要性較高[22,23]。網絡稀疏大數據被訪問后,通常情況下被訪問的頻率逐漸降低,表明網絡稀疏大數據的重要性在該段時間內也降低,將該網絡稀疏大數據遷移到其它云存儲設備中,提高網絡稀疏大數據訪問頻率。 通過上述分析可知,網絡稀疏大數據存儲對應的時間長度T與遷移函數之間為正比關系;網絡稀疏大數據的訪問頻率F與遷移函數之間為正比關系;遷移函數與網絡稀疏大數據集S之間為反比關系。根據網絡稀疏大數據的存儲時間長度、訪問頻率和敏感度[24,25]3個遷移因子構建遷移函數 (19) 通過遷移函數實現混合云存儲中網絡稀疏大數據的滲透遷移。 為驗證混合云存儲中網絡稀疏大數據滲透遷移算法的整體有效性,需要對混合云存儲中網絡稀疏大數據滲透遷移算法進行測試。 本次測試在CloudSim云計算環境中進行,網絡帶寬為80MI.S-1、內存為8 GB、服務器數量為100臺。測試過程中所用的網絡稀疏大數據由某信息技術有限公司提供,包括ImageNet、MirFlickr1M、CoPhIR以及MSRA-MM數據集,從上述數據集中抽取2000個數據,并通過SPSS19.0軟件處理得到模擬數據,選取的數據集,見表1。 表1 實驗數據集的描述 在進行實驗之前,首先對數據進行預處理,將數據集劃分為10個相等的部分,每一部分都相等,然后從每一部分數據集中隨機選取部分數據,用本文算法對網絡稀疏大數據的敏感度進行計算,是網絡稀疏大數據的敏感度,可通過式(16)計算得到,進行數據遷移之前需要計算網絡稀疏大數據的敏感度,根據計算結果判斷網絡稀疏大數據是否需要遷移。通過上述分析可知,網絡稀疏大數據敏感度的計算結果決定數據遷移算法性能。采用混合云存儲中網絡稀疏大數據滲透遷移算法對某個數據集中的網絡稀疏大數據的敏感度進行計算,并將計算結果與實際結果進行對比,見表2。 分析表2中的數據可知,在5次迭代中采用混合云存儲中網絡稀疏大數據滲透遷移算法計算得到的網絡稀疏大數據敏感度與實際敏感度接近,誤差均低于0.2,在可接受范圍內,不影響網絡稀疏大數據在混合云存儲環境中的遷移,驗證混合云存儲中網絡稀疏大數據滲透遷移算法的性能較好。 表2 網絡稀疏大數據敏感度計算結果 根據網絡稀疏大數據敏感度計算結果,對混合云存儲中網絡稀疏大數據滲透遷移算法的性能進行驗證。為了驗證混合云存儲中網絡稀疏大數據滲透遷移算法的整體有效性,對比混合云存儲中網絡稀疏大數據滲透遷移算法、文獻[4]方法、文獻[5]算法以及文獻[7]算法數據遷移中系統執行任務所用的時間,測試結果如圖1所示。 圖1 不同方法的數據遷移用時對比 分析圖1可知,采用混合云存儲中網絡稀疏大數據滲透遷移算法對2000個數據進行遷移,平均耗時約為5 s,遷移過程未出現擁塞問題,耗時較短;采用文獻[7]算法對2000個數據進行遷移,平均耗時約為52 s,在遷移過程中出現了大面積的擁塞現象,導致該算法比本文方法多耗時47 s,說明本文方法在數據遷移過程中更順暢,耗時更短,效率更高。而采用文獻[4]方法和文獻[5]算法對2000個大數據進行遷移時,平均耗時約為25 s和48 s;這兩種方法在數據遷移過程中都出現了多次不同程度的擁塞現象,導致遷移速度比本文方法速度慢、效率差。對比混合云存儲中網絡稀疏大數據滲透遷移算法,文獻[4]方法和文獻[5]算法以及文獻[7]算法的測試結果可知,采用混合云存儲中網絡稀疏大數據滲透遷移算法對網絡稀疏大數據進行遷移時耗時更短,效率更高,驗證了該方法的有效性。 數據遷移完整度是衡量數據遷移性能的重要指標,因此對本文算法與傳統方法進行對比,運用ROC曲線來檢驗不同方法的數據遷移性能,在ROC曲線圖中,存在一條對角線,該線代表辨別力等于0的一條線,也叫純機遇線,圖中曲線距離純機遇線越遠,表明被試方法的性能越強。圖2為文獻[4]方法、文獻[5]算法、文獻[7]算法以及本文算法在網絡稀疏大數據遷移完整度方面的對比結果。如圖2所示。 圖2 不同方法的數據遷移完整度對比 分析圖2可知,采用混合云存儲中網絡稀疏大數據滲透遷移算法對網絡稀疏大數據進行遷移后,曲線明顯距純機遇線較遠,說明該算法的數據遷移完整性較強。采用文獻[7]算法對網絡稀疏大數據進行遷移后,曲線距純機遇線最近,說明該算法的數據遷移完整性較差。而采用文獻[4]方法和文獻[5]算法對網絡稀疏大數據進行數據遷移后,曲線離純機遇線的距離小于本文算法,說明該算法的數據遷移完整性較強,表明文獻[4]方法和文獻[5]算法的數據遷移完整性效果較差,不能對網絡稀疏大數據進行全面性的遷移。對比混合云存儲中網絡稀疏大數據滲透遷移算法,文獻[4]方法和文獻[5]算法以及文獻[7]算法的測試結果可知,采用混合云存儲中網絡稀疏大數據滲透遷移算法對網絡稀疏大數據進行遷移后,能夠得到較為完整的數據集,驗證了混合云存儲中網絡稀疏大數據滲透遷移算法的有效性。 為進一步驗證所提算法的有效性,以數據遷移完整度為實驗指標對傳統方法和本文算法進行對比分析。數據遷移完整度通過式(20)對完整度進行計算 (20) 式中:Xu表示有效數據量,Xv表示冗余數據量,X表示總數據量。運用該公式計算得到文獻[4]方法、文獻[5]算法、文獻[6]方法、文獻[7]算法以及本文算法的數據遷移完整度,結果如圖3所示。 圖3 不同方法的數據遷移完整度對比 分析圖3可知,當數據量不同時,數據遷移完整度隨之發生變化,總體上來看,文獻[4]方法、文獻[5]算法、文獻[6]方法、文獻[7]算法的數據遷移完整度低于本文算法,本文算法的最高數據遷移完整度為90%,明顯高于傳統方法,這是由于采用本文方法對混合云存儲環境中的網絡稀疏大數據進行遷移之前,對數據進行去噪處理,降低了混合云存儲中的噪聲數據,因此達到了提升數據遷移完整度的效果。 網絡稀疏大數據在混合云存儲環境中具有隨機性和自組織特性,需要通過大數據遷移算法實現數據庫之間存在的數據調度和數據訪問。當前網絡稀疏大數據遷移算法的有效性較差,經數據遷移后得出的數據完整性較低,并且不能及時得到遷移結果,提出混合云存儲中網絡稀疏大數據滲透遷移算法,通過對網絡稀疏大數據中的冗余數據進行篩查,去除數據集中的冗余數據,提升了數據遷移的效率,對數據進行降維處理、去噪處理、構建數據遷移模型有效地完成網絡稀疏大數據的滲透遷移,為數據庫之間的數據調度和訪問奠定了基礎。根據實驗結果可知,本文算法在數據遷移完整度、數據敏感度測試以及數據遷移用時方面明顯優于傳統方法,說明本文算法具有實際應用優勢。但是由于網絡中存在著大量的稀疏數據,對其進行遷移必須考慮全面性,因此接下來會在數據遷移研究的過程中,對各種稀疏數據進行研究,以此來提升算法的應用領域。

1.4 基于遷移函數的網絡稀疏大數據滲透遷移的實現
2 實驗結果與分析
2.1 實驗參數與環境


2.2 數據遷移效率對比

2.3 數據遷移完整度對比

2.4 數據遷移完整度對比

3 結束語