薛醫貴
(陜西工業職業技術學院,陜西 咸陽 712000)
隨著通信網絡技術的不斷發展,各種云技術也層出不窮,黑客入侵以及基于云技術的攻擊也日益嚴重。由于云系統中大量數據是以網絡通信中的云緩存技術的方式存放在云空間中的,惡意代碼可以通過入侵云節點中的數據緩存區域來達到數據攻擊與信息竊取的目的。這種攻擊往往是采取代碼注入的方式來實現對云節點中信息代碼溢出,然后通過加載特別涉及的執行序列來實現黑客目的。一般而言,基于云緩存的入侵者往往需要采取如下的兩步:針對通信系統涉及特定的代碼;采取適當的執行序列構造來觸發特定的信息執行來達到信息竊取目的[1]。
由于現有計算機技術的局限性,不可能針對任意的云訪問請求進行一一檢測和鑒定,因此無法做到對單位時間內訪問平臺的每一個代碼進行緩存越界鑒定。因此一旦發生信息代碼溢出,那么攻擊者就有可能實現加載惡意代碼的目的。
為保障云系統的正常高效運行,因此必須采用一定的檢測手段來對重點的云訪問請求進行檢測。本文提出的基于病毒繁衍機制的云平臺大數據安全檢測算法就是一種經過改善的分析檢測方法,通過對抽樣的訪問序列進行基于病毒繁衍式的取樣檢測,同時匹配當前系統內緩存的特定特征序列,來達到過濾未知攻擊源的目的[2-3]。
(1)簡單特征匹配檢測。這種檢測首先需要對過往云訪問記錄的特征進行提取,建立一個特征訪問數據庫,在進行入侵檢測時,將一個訪問周期內的信息訪問序列進行抽樣提取并進行切片。一旦切片信息與特征訪問數據庫中記錄不同時,系統自動進行預警提示。當預警提示超過系統設定的閾值,則判斷該次訪問為非法訪問,將其進行過濾。
(2)漢明距離檢測。該方法是簡單特征匹配檢
測的一種改進,與簡單特征匹配檢測相同的是,漢明距離檢測也會建立一個特征訪問數據庫。但是漢明距離檢測方法進行信息訪問序列切片時,會進行隨機切片,然后再和特征訪問數據庫進行比對。一旦錯誤切片數量超過了系統設定的閾值,則判定該次訪問為非法訪問,并進行過濾。和簡單特征匹配相比,漢明距離檢測的隨機性更強,更不容易被攻擊者非法構造的訪問所欺騙。
(3)數據挖掘檢測方法。數據挖掘檢測方法會通過抽樣的方式對本次訪問進行隨機取樣,然后和過往訪問樣本進行混合挖掘訓練,同時對訓練過程進行標注,一旦發現訓練過程出現異常,則進行示緊提示。當示緊提示在一個訪問周期內達到一定數目時,就判定這種訪問為非法訪問。
不過,這些在大數據下的云平臺常用入侵檢測方法也存在很明顯的局限性:
必須提前設置大量的樣本進行鑒定判斷,當數據量擴大到一定程度的時候,系統將很難在一個訪問周期內對全部的樣本進行比對,從而降低了訪問質量。由于云訪問中實時性要求很高,因此為了降低特征檢測的時間及資源開銷,將不得不對樣本庫進行一定比例的縮減,這無形中擴大了系統的脆弱性。當云系統的訪問信息處于多變的大數據環境中時,一旦訪問特征是過往訪問所沒有的特征,那么必定會產生訪問拒絕的現象。
當云系統受到攻擊時可能出現以下的幾種情況[8-11]:系統異常,攻擊者成功進行了信息注入,攻擊成功;系統異常,攻擊者沒有達到信息注入的目的,攻擊失敗;系統正常,攻擊者沒有達到信息注入的目的,攻擊失敗;系統正常,攻擊者成功進行了信息注入,攻擊成功;顯然,任何一種成功的檢測算法,只能是在第三種情況下才能被認為是進行了成功的信息檢測工作,因此本文的檢測算法僅對第三種情況進行解決。首先引入系統緩存與物理隔離機制,將樣本與外界進行隔絕,然后進行病毒式復制及樣本鑒定。一旦在檢測過程中發現異常,將進行一定程度的時延后再提交處理,最后更新特征庫和訪問規則。本文算法流程見圖1。

圖1 檢測流程
具體步驟如下:
步驟1:數據取樣:對訪問數據進行取樣,將取樣數據置于系統預留緩存里,緩存與系統保持物理隔離,轉下一步;
步驟2:數據初始化:物理隔離的數據,在一定時期內進行病毒式復制并與特征數據庫進行對比。隨后將序列復制為長度為m總數為n的序列集合,完成初始化過程,轉步驟3;
步驟3:檢測過程初始:采取檢測準則檢測訪問序列集合。將房屋序列集合和特征庫中的特征序列進行比對,當比對數超過一定數值k之后,則確認該序列為疑似序列,轉步驟6.否則,轉步驟4;
步驟4:訪問序列異常檢測:一旦在步驟3中檢測出疑似序列,則檢測訪問序列是否出現一定的異常,然后在一定的延時周期T內檢測是否出現訪問序列繼續異常,出現異常則轉步驟6,否則轉步驟5;
步驟5:系統異常檢測:查看系統是否出現異常,然后在一定的延時周期T內檢測是否出現系統繼續異常,出現異常則轉步驟6,否則轉步驟2;
步驟6:添加特征庫。一旦流程轉到本步,則認為訪問序列為非常訪問,將采用數據挖掘方式添加到特征庫中,一旦下次遇到相同特征的訪問序列,直接進行過濾處理;
步驟7:完成添加特征庫后,更新訪問規則,然后在下一個檢測流程中繼續本過程。
為驗證本文提出的算法,采用linux為實驗平臺,操作系統為ubuntu系統,預裝nginx系統服務,測試參數如表1所示。圖2顯示了在不同攻擊數量下本文算法和簡單特征匹配檢測、漢明距離檢測、數據挖掘檢測對入侵的檢出對比情況。從圖中我們可以看到:在不同的攻擊次數下,本文算法具有明顯的優勢,這是因為本文算法采取病毒繁衍模式對序列樣本進行檢測,和簡單特征匹配檢測以及漢明距離檢測相比,提高了序列樣本檢測的效率;同數據挖掘檢測相比,因此本文算法采取了時延機制,使得單次漏檢的序列在下一個周期內被檢測出來,因此檢出數量也得到提高。在不同攻擊數量的情況下,本文算法通過病毒繁衍機制,將不同類型的攻擊源分離進行隔離復制;采取延時機制,保障了在上一時刻中未被檢測出的攻擊序列能夠被有效的檢測出,因此在檢測上的效率也得以提高。

表1 仿真參數

圖2 不同攻擊數量下的入侵檢測實驗結果對比

圖3 攻擊持續時間增加下的實驗結果對比
圖3顯示了隨著攻擊持續時間的不斷增加的情況下在過往時間段內對入侵的平均檢測數量的比較。由于本文采取病毒繁衍模式,隨著時間的不斷增加,對過往序列的特征訓練程度也不斷提高,因此提高了檢出效率。同時將疑似處理和異常檢測結合起來,大大提高了檢測的準確度。
由于云技術的普及,當前大量的信息訪問集中在云平臺上,因此對這些訪問信息和數據進行足夠的檢測就是一件非常重要的事情。本文首先通過對系統運行中的總體數據樣本進行病毒繁衍訓練,并通過病毒繁衍機制進行推演,從而達到對未知攻擊源的預先防范及入侵檢測功能。算法中使用識別符進行特征識別,從而大大降低了檢測機制的激發。與傳統入侵檢測機制相比較,本文提出的算法在安全性、系統占用性方面有明顯的優勢,對于當今云平臺下大數據系統的安全運行有一定的參考意義。
[1]吳志祥.一種基于大數據的入侵檢測算法研究[J].武漢科技大學學報,2012,3(4):401-409.
[2]Bal M.Rough Sets Theory as Symbolic Data Mining Method:An Application on Complete Decision Table[J].information Sciences Letters,2013,2(1):111-116.
[3]Yang K,Shahabi C.An efficient k nearest neighbor search for multivariate time series[M].Information and Computation,2013:65-98.
[4]Gounder V,Prakash R,Abu-Amara H.Micheline data miming:date and techniques[J].Wireless Communications and Systems,2014,22(2):1-6.
[5]陳明,劉曉涵.基于云技術的簡單序列檢測的研究[J].重慶理工大學學報,2014,20(4):124-127.
[6]蔣明華,王志軍.一種基于數據挖掘檢測的大數據攻擊源檢測與預防[J].吉林大學學報,2012(7):54-59.
[7]Ngai EWT,Hu Y.The application of data mining techniques in financial fraud detection:A classification framework and an academic review of literature[J].Decision Support System,2011,50(3):559-569.
[8]Ester P,Sander S.A key efficient way of data mining techniques[J].Machine and Systems,2014,36(12):74-79.
[9]舒敏,李軍.一種基于歸納演繹準則的數據挖掘檢測技術的研究[J].安徽大學學報,2009,14(1):98-103.
[10]楊理,賈斯丁.基于云平臺下的入侵檢測技術的研究與實現[J].北京郵電大學學報,2009,12(1):5-8.
[11]李婧.一種基于概率的快速聚類算法[J].重慶工商大學學報:自然科學版,2014,31(2):61-65.