高麗杰,薛麗香,馬照瑞,李振峰
(1. 鄭州科技學院信息工程學院,河南 鄭州 450064;2. 鄭州輕工業大學,河南 鄭州 450001;3. 鄭州科技學院,河南 鄭州 450064)
互聯網技術和網絡技術的發展,導致網絡安全隱患問題層出不窮。如何確保大數據的安全性成為當前研究的熱點話題[1,2]。國內相關專家針對上述內容展開大量研究,例如劉文芬等人[3]將高維數據劃分到多個不同的低維子空間內,對密集網格劃分處理,經過處理得到各個網格尺度下的局部異常因子,同時輸出全部異常數值,將其按照從大到小的順序排列,獲取異常數據,得到最終的檢測結果。亢飛等人[4]在正常數據集的基礎上,通過梯度上升策略對全部正常樣本實行自我投毒處理,分析投毒數據對正常數據產生的負面影響,將分析結果作為判定依據最終實現數據檢測。周伯陽等人[5]優先構建多尺度低秩模型,對安全特征歸一化和維度縮減處理,同時將改進的遞歸特征選擇算法和聚焦分類算法兩者有效結合,最終達到檢測的目的。以上已有方法雖已取得較高的應用效果,但是不適用于動態大數據的雙向安全性檢測,導致其應用受到限制。
在對大數據進行采集和挖掘時,大數據中心的數據泄露風險問題時有發生,考慮在分布式存儲方式下確保大數據傳輸和交換不被非法泄露和使用是當前大數據安全檢測的主要問題。以及以上幾種典型大數據安全性檢測方法,本研究提出一種基于RSA公鑰加密的大數據安全性雙向檢測方法。經實驗測試證明,所提方法能夠獲取更加滿意的大數據安全性雙向檢測結果。
RSA公鑰密碼機制的安全性是以單向函數為基礎實現的。分析密鑰的特點,將密碼系統劃分為對稱密碼機制和非對稱密鑰機制。通常情況下,需要借助公鑰完成大數據安全通信處理,詳細的操作步驟如下所示:
1)通過1查找2的公鑰,公開RSA公鑰并不會影響數據的安全傳輸,可以確保數據的隱私性,同時密鑰的公開還可以有效促進信息共享以及其他人的使用。
2)將2的RSA公鑰加密處理,作為1的密鑰,完成初始大數據的加密處理工作。
3)1需要采用非安全信道將密文傳輸至2。
4)當2在接收到密文之后,需要結合自身特性完成解密處理,同時將明文還原處理。
其中,公開RSA密鑰算法[6,7]的詳細操作步驟如圖1所示。

圖1 公開密鑰算法的操作流程圖
橢圓曲線并非橢圓,通常情況下,密碼學主要使用有限域上的橢圓曲線,設定D(GF(p))代表GF(p)的橢圓曲線,D(GF(p))上的兩個點均坐落在域GF(p)范圍內。
橢圓曲線中已經存在的公鑰密鑰機制是得到對應橢圓曲線離散對數的核心,通過分析先驗知識可知,需要將滿足條件的橢圓曲線應用于公鑰機制中。為了有效確保大數據的安全性,通過式(1)求解所需要的時間復雜度

(1)
式中,T(i,j)代表時間復雜度;O代表亞指數。
安全復雜度是由四個不同參數的加權值構建,具體的計算式如下

(2)
式中,B(t)代表安全復雜度;α代表環境權值;a(i)代表網絡終端速度權值;β代表信息安全需求度;χ代表系統設定的安全度;φ代表安全度的權值系數。
當確保系統安全度不變的情況下,分別分析各個系統的具體請求,以此為依據選擇對應的安全滿足度。安全滿足度是主要描述用戶對系統安全性能的需求,由于不同用戶需要傳輸的數據不同,所以保密等級也存在十分明顯的差異,所以采取的傳輸方式也存在十分明顯的差異。如果傳輸等級比較低的數據,則采用系統自帶的傳輸機制即可;如果是保密等級比較高的數據,則需要引入安全需求度,以此為依據制定對應的數據傳輸方案。
在密碼學中,需要多處使用數學理論,以下主要通過RSA公鑰加密算法對大數據加密處理。RSA屬于分組密碼,其中明文和密文都是有明確數量的整數。針對隨機一組明文而言,加密和解密可以表示為式(3)的形式

(3)
式中,C代表加密形式;M代表解密形式;d代表密文分組數量;e代表常數;modn代表明文分組數量。
在加密的過程中[8,9],若沒有將需要加密的數據設定為一個整數,則需要設定對應的假設條件,假設滿足假設條件,則可以采用上述方式完成加密解密處理。
RSA需要使用大量的質數建立密鑰對,同時需要設定質數的數量。在網絡數據傳輸過程中,由于不同類型數據的保密級別不同,所以對應的信息安全需求也存在十分明顯的差異。分別計算不同類型數據的保密級別,選擇與之對應的安全需求度,確保數據的安全傳輸。同時還可以將其數據劃分為普通保密級別和高級保密級別兩種形式,假設數據為普通保密級別,利用系統自帶的安全度即可完成數據安全傳輸;反之,如果數據為高級保密級別,需要選擇符合需求的安全傳輸參數,確保數據可以準確傳輸,同時完成大數據的RSA公鑰加密[10,11]。
在大數據時代,數據的表現形式是多種多樣的,大數據安全問題受到了廣泛的關注。在2.1小節加密的基礎上,需要檢測經過加密處理后大數據的安全性。
利用圖2給出大數據安全性雙向檢測流程圖。

圖2 大數據安全性檢測流程圖
首先,需要對加密處理后的數據預處理,清除不可以使用的數據項和重復項。由于數據集中包含數值特征和字符特征,為了讓大數據得到十分廣泛的應用,需要對全部數據展開格式化以及標準化處理,詳細的操作步驟為:
1)數據清洗是展開數據預處理的首要步驟[12],同時需要將全部重復樣本數據刪除,最終達到重復數據刪除的目的。
2)對數據中字符特征數值化處理,將字符特征映射為數值數據。
3)為了避免不同特征之間量綱產生的負面影響,需要對采集到的全部大數據實行標準化處理,具體的計算式為

(4)
上式中,n代表大數據標準化處理結果;θ代表標簽編碼。
當數據完成預處理之后,各個數據集中仍然包含大量不確定的特征屬性,同時它們全部是分散且不固定的[13,14]。所以,需要借助主成分分析方法對大數據降維處理,詳細的操作步驟如下所示:
1)通過列將原始數據劃分為不同規格的矩陣;
2)計算矩陣的平均取值,通過采用行數減去計算所得平均值。
3)計算協方差矩陣特征值以及相關向量,以此為依據構建矩陣。
4)將各個矩陣相乘,即可需要所需要的需求數據。
然后,在動態選擇部分則采用基礎分類算法實行分類處理,進而計算得到不同的測試指標,以此為依據衡量分類算法的優劣。所以,根據混淆矩陣中各個評價指標的計算結果完成精確度動態選擇[15]。
將聚類算法設定為無監督學習的代表算法,可以更好完成無標簽大數據分類處理。所以,在大數據安全性檢測過程中,需要引入層次聚類算法,通過聚類結果中各個簇內的基礎集成算法中的不同評價指標完成聚類處理,在層次聚類中簇間相似度是通過舉例指標來衡量的,詳細的計算式為

(5)
式中,dist(x,y)代表距離函數;xi和yi分別代表x和y的第i個坐標。
利用動態選擇算法,從本質上選擇不同類型的數據集,為了描述大數據本身的特性,需要在檢測過程中加入組合權值部分。將主觀因子權值和客觀因子權值有效結合處理,進而獲取有效的組合權值。
將組合權值中取值最小值設定為基礎評價等級,剩下部分則需要結束計算比值展開詳細的分析和計算。
組合權值可以劃分為兩個部分,分別為:
1)客觀權值:
主要代表基礎分類算法自身的性能,將F1-Measure作為各項指標評價的標準,詳細的計算式為

(6)
式中,TP代表數據自身標簽為陽性,得到的結果也為陽性;FP代表數據自身標簽為陰性,得到的結果為陽性;FN代表數據自身標簽為陽性,得到的結果為陰性。
2)主觀權值:
通過主觀權值評價分類算法和數據集的適應性程度,針對不同的分類算法,由于自身結構不同,所以不同數據對應的數據集也存在十分明顯的差異。
引入距離函數,將主觀權值和客觀權值有效結合,形成組合權值。其中,不同權值之間的對應的分配系數可以表示為式(7)的形式

(7)
式中,h(ci,mi)代表分配系數;ci代表主觀權值對應的分配系數;mi代表客觀權值對應的分配系數。
將組合權值代入到加權投票算法中展開集成處理,其中加權投票算法的詳細操作步驟為:
1)計算不同分類算法的準確性;
2)通過數據特征計算多個分類算法對應的組合權值,進而獲取權值等級;
3)將分類算法準確度和權值等級兩者相乘,得到對應的加權準確度;
4)對分配算法采用加權投票的方式集成處理。
基于上述步驟完成大數據安全性雙向檢測結果。
為了驗證所提基于RSA公鑰加密的大數據安全性雙向檢測方法的有效性,需要展開仿真測試。實驗調整訓練數據和測試數據占總數的比例,利用多種類大數據為實驗提供多變數據環境,全面綜合測試大數據安全性雙向檢測效果,實驗設置的各個種類的數據集如表1所示:

表1 多種數據集類型
從實驗設定的12種數據集中,隨機抽取4個數據集完成實驗,并將這4個數據集編號為1#、2#、3#、4#。利用圖3給出文獻[3]提出的基于多分辨率網格的數據異常檢測方法、文獻[4]提出的基于數據復雜度的投毒數據檢測方法以及研究方法的大數據安全性雙向檢測率對比結果如圖3所示。

圖3 不同方法的檢測率對比
分析圖3所得實驗結果數據可知,由于測試類別不同,導致各個方法獲取的大數據安全性雙向檢測率存在較為明顯的差異。相比另外兩種文獻方法,研究方法可以的大數據安全檢測率更高,對不同類別數據集的檢測率均可達98%。
為了進一步檢驗所提方法的優越性,實驗將誤報率、約登指數作為測試指標。誤報率是大數據安全檢測的錯誤幾率。誤報率越低,說明該方法的應用準確率越高。約登指數(Youden index):也稱正確指數,是評價篩查實驗真實性的方法,指數越大說明篩查實驗的效果越好,真實性越大。對比文獻[3]提出的基于多分辨率網格的數據異常檢測方法、文獻[4]提出的基于數據復雜度的投毒數據檢測方法以及研究方法的測試結果,所得數據如圖4和圖5所示。

圖4 不同方法的誤報率對比

圖5 不同方法的約登指數對比
分析圖4和圖5的實驗結果可知,由于測試類別的不同各個測試指標之間存在明顯的差異。其中,基于多分辨率網格的數據異常檢測方法和基于數據復雜度的投毒數據檢測方法的誤報率更高,在檢測3#大數據集時最高誤報率已經達到1.4%,且約登指數也更低,大數據的安全性檢測性能明顯不如所提方法。研究方法誤報率低于0.4%,約登指數接近0.9。本次實驗有效驗證了所研究方法的優越性。
為解決當前大數據安全檢測方法方法存在的應用性能的不足,設計并提出一種基于RSA公鑰加密的大數據安全性雙向檢測方法。實驗測試結果表明,所提方法可以有效大數據安全性檢測的誤判率,大幅度提升大數據安全管理效率,該研究方法的實用價值較高,應用前景良好。