基于私有云的混合型大數據匿名化加密仿真

2021-11-18 04:08:58羅麗

計算機仿真 2021年1期

羅麗

(江西科技師范大學理工學院，江西南昌 330013)

1 引言

隨著企業私有云平臺的應用，數據存儲方式都在向云計算平臺遷移，在大數據時代，大量數據的管理和分析，能夠為用戶提供更加安全化和個性化的服務，但也無法避免用戶隱私數據信息泄露風險。如何有效地保護個人隱私以及商業加密是現階段研究人員主要面臨的一個重要挑戰。

劉波濤等人[1]提出基于數字型的輕量級保形加密算法。利用輕量級分組密碼算法構造數字型置換表，數字型明文與輕量級分組密碼的加密密鑰實施準確對應相加、取模操作，利用數字型置換表進行置換加密操作，獲得數字型密文數據。從而達到對任何長度數字型數據加密前后格式不發生變化。李小倩等人[2]提出基于物理層安全加密算法。利用相位隨機化的信號進行信道探測并提取出等效信道相位信息，對三維星座進行物理層調制加密，對于接收端進行解密解調。充分利用無線信道相位響應的隨機性、互易性和位置敏感性，保證物理層信號的安全性。

但是上述兩種傳統方法只能對單一類型數據進行加密，無法對混合數據信息進行有效管理和加密。所提方法在云平臺建立混合數據框架，優化其可擴展性，運用使用者查詢項模型進行散度運算，最后運用匿名化策略對數據加密處理。該方法所得結果隱私性更高，并且能有效地保護混合數據信息，具有較高實用性。

2 基于私有云的混合型大數據泛化處理

2.1 私有云技術背景

計算機網絡技術的高速發展及應用，使得各個企業的信息化程度也隨之加深，計算機軟件的更新速度急劇升高，眾多企業面臨著中心數據大量膨脹的問題，運用私有云能夠有效解決該問題[3]。整合混合數據資源，通過軟件自動管理，為用戶提供有效運算和安全存儲的平臺，達到對混合數據的高效利用。基于此對原計算機所執行的任務進行轉移，根據私有云中的計算核心進行合理運算，從而實現資源共享。

在對私有云運算時，用戶無需提供數據運算和儲存資源，均由私有云數據中心提供，能夠減少復雜的維護程序環節，解決數據服務器框架結構擴展性差問題，通過網絡的連接將所運算的數據信息發布到計算機中，能夠使數據呈現動態流動并具有靈活調配性。

私有云是企業針對現有設備構建的滿足用戶安全使用要求的云平臺，當用戶在使用私有云平臺時，云數據的安全及服務質量都可以擁有有效的保障[4]。私有云平臺的資源是用戶專有的，具有高彈性。

2.2 混合數據平臺框架

私有云主要是為用戶在平臺上進行單方面操作而建立的，因此需要對數據信息的安全性以及服務質量設定一個標準。在提供安全平臺的基礎上，能夠合理控制其中的應用程序。

在眾多數據源中，數據會逐漸自行分組，特征與形式均不相同。數據的形成速度較快并且規模龐大，很難運用傳統的系統進行高質量儲存，更難以保證信息的準確性[5]。本文采用分布式文件系統的實時存儲，在很大程度上為后續運算做基礎。

混合型大數據平臺分為2個部分，一部分是根據數據平臺設計出的物理服務器，可以用于數據存儲與運算。另一部分物理服務器依據云計算要求設計出相應場景。2類服務器分別通過眾多冗余的接入交換機接到數據網絡中心。通過合理配置獲得數據所在網絡位置，為數據與云平臺兩者間提供交換通道。具體內容如圖1所示。

圖1 混合數據平臺框架

2.3 私有云混合數據泛化處理

為增強匿名化操作的準確性，需要對數據進行混合數據泛化處理[6]，運用信息損失指標進一步實施運算，完成泛化具體操作。

設定泛化模型：gen：Child(q)→q，其中q代表域值，Child(q)表示被包含的各個子節點，ILPG的運算表達式為

ILPG(gen)=IL(gen)/PG(gen)+1

(1)

其中，IL(gen)作為經過泛化之后的信息損失，PG(gen)作為隱私增益，其數值可以根據數據值運算獲得。Rx作為數據集的初始信息，其中包含能夠被泛化成x的屬性值。|Rx|作為Rx內的數據值，I(Rx)作為Rx的熵。可以得出IL(gen)的表達式即

(2)

在式(2)中，c為數據集內的初始數據屬性值，可看做一個節點。q為眾多節點經過泛化處理之后的域值。Rc為原數據集的初始信息，Rq為通過子節點泛化之后的數據集信息。

Ap(gen)為經過泛化處理過后的匿名度，Ac(gen)為經過泛化處理之前的匿名度，故得出泛化處理后的隱私增益表達式為

PG(gen)=Ap(gen)-Ac(gen)

(3)

綜上，完成對私有云混合數據的泛化處理。

3 混合型大數據匿名化加密

3.1 隱私大數據實用性增強

眾多匿名化算法都較為重視對信息失真的保護，但是若用戶混合數據與信息失真間的強關聯規則，將會加重隱私性威脅程度[7]。本研究運用混合數據與信息失真度兩者間的聯系進一步衡量隱私性與實用性。其表達式如下

(4)

(5)

式中，Pa(D′)為匿名化概率，m為屬性數量，Ji為在Qi內的類數值的類別數量，entropy(Qi)為屬性Qi的熵，各個信息失真度屬性可能被匿名化的機率是1/m，pj為Qi內遠足的機率分布情況。

對匿名化的數據集其中一組信息記錄，用戶可以判斷出初始數據內相對應信息失真度發的機率是1/Pa(D′)。當InPa(D′)的數值越大，則說明數據的隱私性越好[8]。

(6)

在式(6)中，utility表示數據實用性程度，其中對初始數據的改動逐漸減少，所保留的混合數據重要信息越多，所得數據的實用性在很大程度上增強。

3.2 匿名化算法

在私有云環境下，搜索詞的相似度不僅是語言相似程度，還是查詢項的相關程度，運用Jaccard系數進一步運算關鍵詞相似度[10]。

設置U(ti)作為查詢項目內ti所覆蓋的用戶集，可將關鍵詞ti與tj間的相似度運用Jaccard系數實施合理運算，利用F(ti，tj)表示相似度，其表達式即

(7)

用戶查詢項模型的相似度運算具有2種情況，分別是：含有權值較大的關鍵詞狀況，此處可作為最大興趣點[11]。最大興趣點與其它查詢項模型的集合作為最大相似度，能夠表示2個用戶查詢項模型的相似程度；在權值相同的情況下，各個詞語最大興趣集合與其它全部查詢項模型點集合分別實施合理運算，最大相似度作為2個用戶查詢項模型的相似程度。

將用戶查詢項模型集合理分割成均等的多個簇，在各個簇內至少包括k個用戶查詢模型相似。Ui表示第i個用戶的查找項模型，SU表示查找項模型集合，CI/ci表示在第I個簇內的i個因素，C(CI)表示CI的中心點，L(C)表示一個完整的簇集合，E(CI)表示在CI內的第一個因素，k表示用戶需求系數。

選取合適候選點，根據指數機制進一步確保差分隱私，運算用戶查找項模型Ui之間的相似程度，根據概率來選擇候選點，需滿足概率PUi，其表達式為

(8)

(9)

運用Jaccard相似度進行運算。通過運行程序形成發布數據并運算出數據的損失度量，其中，ε=0.1，1，2≤k≤10。

根據同義詞詞林運算詞語的相似程度，并與Jaccard相似度進行對比分析，具體數據如表1所示。

表1 不同大數據項目相似度對比

從表1中可知，Jaccard系數運算獲得的查詢項相似度更加的符合實際。在私有云網絡環境基礎下，各種詞語層出不窮，同義詞詞林無法概括全部詞語，而Jaccard系數根據網絡用戶潛在的網絡共識實施相似度合理運算，不僅僅依靠于詞典，相比之下在網絡環境內更為適用。

(10)

式中，Uj∈CI并且Uj≠C(CI)。

當數據集的原始適應度相同，需要綜合考慮其密度，合理運算出其表達式為

d(Mi)=1/(σi+1)

(11)

式中，σi作為數據集Mi至其它數據集間的最近間隔，d(Mi)<1。圖2作為運算數據集密度的例子。

圖2 適應值的比較

圖2中可得出，數據集的實用性越差那么隱私性越高，M3相比其它數據集適應值更為穩定，它最近點的距離最短，擁有更高的密度值。根據以上步驟完成基于私有云的混合型大數據的匿名化加密。

4 實驗結果分析

為驗證所提方法的合理性和有效性，在Intel平臺中進行100次迭代實驗，為提高實驗結果可靠性，在ARM設備中測試30次。將實驗所得平均值作為實驗結果。主要從用戶的角度出發，分析所提方法的操作時間與數據存儲空間的安全程度。

將所提方法與文獻[1]和文獻[2]方法進行比較，測試不同方法處理后加密密文大小和轉換密文大小，具體結果如圖3所示。

圖3 不同方法下密文大小對比

由圖3實驗結果可知，對100個屬性的匿名化策略用戶端進行加密時，通過私有云的密文合理轉換后的密文不超過5kB。相比之下，另外兩種傳統方法下密文大小高達20kB～25kB，由此可得出傳統方法下密文會占用更大存儲空間。相比之下所提方法能夠處理大量的運算量外包給私有云，一定程度上減輕了用戶端的運算量與成本以及內存占用。

為進一步驗證所提方法的有效性，利用文獻[1]方法、文獻[2]方法作為對照實驗組，進行方法運行時長測試。為提升實驗結果的可靠性，本次測試分為非外包加密和外包加密兩類，在不同平臺中測試獲得的加密時間與匿名化策略中的屬性個數N有關聯，三種方法的運行處理時間對比如圖4所示。

圖4 用戶加密時間

圖4(a)實驗結果顯示，匿名化策略中的屬性個數為100時，所提匿名化加密方法的非外包裝所需時間3s，而兩種文獻方法均大于20s，從圖4(b)可知，所提匿名化加密方法的外包裝所需時間0.35s，而兩種傳統文獻方法均大于2s。可見，相比其它方法，所提方法更加節省運算時所花費的時間，能夠較快的完成對數據的加密處理，具有顯著的優越性。

5 結論

數據匿名化處理能夠使用戶在私有云平臺上的信息得到保障。本次研究建立私有云框架，為安全運算中心提供穩定的平臺，并且有效提高了運行時效。基于此構建出混合數據平臺，以較低的成本來實現更優可擴展性，而且不被任何一種私有技術限定。運用混合數據與信息失真度之間的聯系衡量出蘊含的隱私性，再通過散度進一步衡量匿名數據集與原始數據集的相似程度，進而證明匿名數據可用性程度。仿真結果表明，所提方法能夠更大程度上減少運行時間，具有較高安全性和實用性性。