胡 榮,張洪星,王 強*
(1. 吉利學院智能科技學院,四川 成都 641423;2. 四川師范大學計算機科學學院,四川 成都 610066
網絡技術被廣泛應用的同時也暴露出安全方面的問題[1,2],大數據平臺中存在海量信息,其中的敏感信息如果被不法分子竊取,會對用戶的隱私與財產等方面造成損害。在提高網絡通信傳輸能力的同時[3],也應該確保信息的安全性,因此,大數據平臺中敏感信息防竊取問題應該得到足夠的重視。
古麗米熱·爾肯[4]等人利用二次加密事項對敏感信息進行防御,在原始加密方案的基礎上,添加訪問控制限制策略,并引入密碼系統等進行改進,實現網絡敏感信息防竊取。趙毅強[5]等人首先利用節點分析得出“密鑰門”的精確位置,利用密鑰邏輯模塊得出密鑰門的輸入,破解敏感數據,從而加強加密的魯棒性,實現網絡敏感信息防竊取。上述方法在對敏感數據實施防竊取的過程中,沒有對大數據進行數據清洗處理,導致其中的冗余數據過多,增加了數據計算量,降低了敏感數據防竊取效率,存在防竊取執行效率低、數據吞吐量低的問題。為了解決上述方法中存在的問題,本文提出大數據平臺中網絡敏感信息防竊取算法。
大數據平臺中含有大量信息,其中不乏存在一些重復信息以及殘缺信息,為了保證敏感信息的安全性[6],需要對其進行防竊取處理[7],在此之前,可通過對數據進行清洗加強防竊取強度。利用前饋型神經網絡構建網絡數據清洗模型[8],其模型的示意圖如圖1所示。

圖1 前饋型神經網絡數據清洗模型
圖1的組成結構共分為三層,分別為神經網絡的輸入層、隱藏層以及輸出層,神經網絡各層中均存在多個神經元節點,且每個神經元之間均是運用權值Wij進行相連,神經網絡中無論有多少個神經元節點,最終也僅有1個神經元輸出,由此得出清洗模型的數學表達式為

(1)
其中,Oj代表神經網絡中第j個神經元節點的輸出值,Xi代表神經元節點i對神經元節點j的輸入,αj代表神經網絡中第j個神經元節點的閾值,f(netj)代表神經網絡中神經元的激勵函數。
其中,神經元激勵函數的計算公式為

(2)
式中,e代表Sigmoid函數的因子。
假設大數據平臺內信息樣本為p,從神經網絡的輸入層開始計算,此時神經網絡模型中某個樣本的訓練誤差Ep計算公式為

(3)
式中,dpj代表神經網絡輸出層中第j個神經元節點的期望輸出值,Opj代表神經網絡輸出層中第j個神經元節點的實際輸出值。
若目前有p′個實驗樣本,在式(3)的基礎上即可生成神經網絡模型訓練的誤差E,其表達式為

(4)
若目前神經網絡中的輸入和輸出分別為p和q個,此時可得出p維歐氏空間非線性映射到q維歐氏空間的結果,該結果可以無限接近于連續函數。大數據平臺在清洗的過程中,神經網絡的輸出就是需要填補的殘缺數據,其中神經網絡輸入層和殘缺數據的屬性基本一致,隱含層的實際作用是確定殘缺的數量,神經網絡中的權值可通過矩陣W表示,矩陣可以直接反映出數據清洗[9,10]所需的知識存儲。神經網絡經過不斷的訓練實驗樣本得以更新權值,同時保證輸出結果無限接近于期望值,當輸出值符合整體要求后,神經網絡開始收斂,此時的權值可以表示需要清洗數據所需的知識存儲,最后在神經網絡中輸入殘缺數據的屬性值,得出結果即為殘缺數據需要的填補結果,從而完成數據清洗。
建立大數據平臺網絡敏感信息的加密密鑰協議[11],以達到實現敏感信息的防竊取目的,在構建密鑰協議的同時[12],引入算術編碼以及密鑰設計,生成敏感信息的鏈路層傳輸協議,同時對密鑰進行重組以及分組轉發,在此過程中,編碼序列使用的是Turbo碼,敏感信息傳輸通道示意圖如圖2所示。

圖2 敏感信息傳輸通道示意圖
該模型是通過混沌調制方法獲取敏感信息的加密傳輸編碼序列,并在模糊混沌密鑰的控制[13]下,計算出t+1時大數據平臺敏感信息防竊取的延時D′t+1、編碼序列L′t+1,計算公式分別為

(5)
其中,λ代表大數據平臺敏感信息防竊取系數,Ωt+1代表敏感信息傳輸通道的編碼序列,d代表傳輸通道長度,f代表傳輸時間函數計算公式。
在得出密鑰的過程中,不斷地計算大數據平臺中敏感信息的對稱密鑰,利用密鑰的封裝形式生成輸入的安全參數A(c*),其表達式為

(6)
假設準備加密的大數據平臺敏感信息的長度是n,通過對稱Hash函數建立敏感信息的特征量[14],分別通過0和1對敏感信息加密進行糾錯,依據安全參數A(c*)生成敏感信息密鑰的傳輸協議,其表達式為

(7)
基于碼元頻次特征分解,生成大數據平臺網絡敏感信息的安全編碼模型,其表達式為

(8)
其中,μSRm代表大數據平臺存儲空間中的特征分量,λSRm代表協方差矩陣,ρ代表大數據平臺中網絡敏感信息的碼元頻次。
根據以上生成的安全編碼模型并結合公鑰替換以此設計出敏感信息的密鑰。
基于替換身份線性標記通信密鑰H2和H3,生成網絡敏感信息的參數信息熵H2(x),并利用角色分發收斂密鑰的方式,獲取私鑰解密收斂密鑰密文Kv(z),其表達式為

(9)
其中,βv(z)代表網絡敏感信息的加密對稱函數,χv(z)代表高斯分布函數。
在收斂密鑰的幫助下,更新敏感信息的傳輸序列X,并整理出序列的二項式Sn,其表達式分別為

(10)
根據以上信息,即可得出敏感信息正態分布特征量的要求Fy,其表達式為

(11)

利用差分融合分析生成敏感數據的標識位置Xi

(12)

根據敏感信息的標識位置Xi,引入模糊差分信息融合方法,生成基于對稱加密協議的敏感數據完整密鑰,其表達式為:

(13)
根據防御強度需求,實現密鑰設計,加強信息的加密傳輸和隱私保護能力。
通過對密鑰的設計,可以初步完成敏感信息的防竊取,根據密鑰得出敏感信息的加密方式[15],得到最高強度的敏感信息防御能力。
選取同態加密方法對敏感信息進行加密[16],同態加密算法的優點是可以對加密數據進行一些基礎運算,這種方式得到的運算結果與明文運算得到的結果是相同的,因此該方法的特性是不受加密影響完成部分基礎運算。基于該特性,在實際應用中可以直接對密文進行相關處理,加密函數的同態性質泛指明文a和b需要符合以下兩點要求,其表達式分別為:

(14)
其中,Dec代表解密運算,En代價加密運算,?代表乘法運算,⊕代表加法運算。
同態加密算法中的全同態加密算法更為嚴格[17],這種算法在滿足加法和乘法的特性同時。還可以對解密的銘文進行同態計算,其表達式為
Dec(f(En(m1),En(m2),…,En(mk)))=f(m1,m2,…,mk)
(15)
根據式(15)得出同態加密算法的示意圖,如圖3所示。

圖3 同態加密算法的加密與解密過程
通過信息加密和密鑰就可以達到敏感數據加密,即實現網絡敏感信息的防竊取目的。
為了驗證大數據平臺中網絡敏感信息防竊取算法的整體有效性,現針對本文方法、敏感數據訪問防御方法和增強型邏輯下信息防竊取方法,進行防竊取執行效率、數據吞吐量以及安全性測試,測試結果如下所示。
使用Hadoop大數據平臺作為實驗背景,CPU Inter(R)Xeon E3-1255 v3為3.2GHz/8Mcache,系統為Linux CentOS-7.16,開發環境為Eclipse3.8。將其視為Master/Slave架構,假設其組成節點共有4個,其中,Master節點有1個,Slave節點有3個。
大數據平臺是人們工作中必不可少的工具,在使用過程中會產生大量敏感數據,為了保證敏感數據的安全,網絡均會對敏感數據進行防竊取處理,因為不法分子盜取信息的速度較快,因此防竊取行為必須在產生敏感數據的同時進行加密,且加密必須是及時的,所以加密運行時間是判定防竊取算法優劣的有效指標。
分別計算三種方法的敏感數據加密所需時間,實驗結果如圖4所示。

圖4 防竊取執行效率對比
根據實驗結果可知,三種防竊取方法均受數據量影響,隨著數據量的增大,敏感數據防御時間也有所增加,但經過對比三種方法的實驗結果發現,本文方法的防御執行效率是三種方法中最高的,這就說明本文方法雖不能完全抵抗常規影響因素,但可將影響降到最低,從而提高數據防御執行效率。
眾所周知,經過加密后數據庫的吞吐量遠遠不如加密之前,因加密的限制會縮小數據傳輸信道,從而導致信道吞吐量降低。為了進一步比較三種方法的防御能力,隨機選取5組實驗樣本,并將其標記為樣本編號1~樣本編號5,分別計算出每種防竊取方法下的吞吐量,實驗結果如圖5所示。

圖5 三種方法加密后數據的吞吐量
根據實驗結果可知,本文方法的吞吐量始終最高,充分說明本文方法的性能更好。這是因為本文方法對大數據平臺中的所有數據進行了數據清洗處理,將其中的冗余數據以及重復數據進行清除處理,同時將其中的殘缺數據進行填補處理,降低數據量的同時也保證數據的完整性,從而提升了吞吐量。
分別測試三種方法在不同攻擊類型下的敏感信息防竊取效果,具體通過信息安全系數進行展示,安全系數越接近1,說明安全系數越高。實驗結果如表1所示。

表1 敏感信息安全性測試結果
根據實驗結果可知,與敏感數據訪問防御法和增強型邏輯防竊取法相比,本文方法的敏感信息安全系數更高,其最高值為0.95,從實驗結果可再一次證明本文方法可以提升敏感數據保護效果。
隨著計算機的普及,大數據平臺中的數據量呈指數增長,其中含有大量敏感信息,為了保證數據的安全,本文提出大數據平臺中網絡敏感信息防竊取算法,該方法首先對數據進行清洗,其次設計密鑰以及敏感信息編碼,最后在同態算法下完成數據加密,實現網絡敏感信息防竊取,解決了防竊取執行效率低、數據吞吐量低以及安全系數低的問題,加強了網絡通信安全以及數據安全。