◆石磊
(濟南市科技信息研究所 山東 250014)
近幾年,隨著大數據庫的不斷完善,數據挖掘技術也在漸漸地發展。大數據技術實際上牽扯到的學科專業比交叉比較多,在現實使用背景中,經常會和AI技術、人工智能、大數據庫、機器學習等技術相結合使用。從經濟學角度來講,數據挖掘技術已經表露出明顯的商業價值,在未來極有可能應用到更多的領域中。但是就當下而言,數據挖掘技術仍未達到成熟使用的狀態,在數據采取和使用研究中存在很多的安全隱患,尤其是網絡安全和數據隱私保護。
數據挖掘[1],如字面理解,從數據中挖掘出相應的有用信息,從廣義上來講,可以理解為“數據庫中的知識發現”,即從大型數據中挖掘出數據隱含的、未知的有用信息。數據挖掘技術使用時,首先要對數據庫、“源數據”進行分析,從中篩選出可以使用的數據集合,然后
從中抽取部分集合進行數據轉變加工,最終將選中的數據集合加工成適合數據深度挖掘的模式。之后,將處理好的數據進行數據算法提取,將提取出的相關知識進行評估,最終將獲取到的信息用通俗易懂的方式呈現給客戶。通俗來講可以概括為數據提取、數據預處理、數據深度挖掘學習、數據提取信息模式評估四個階段。
數據關聯技術主要使用與發現數據對象之間潛在的關聯,通過對數據關聯程度進行判斷,一般用于數據提取和數據預處理階段。數據關聯技術中一般會對“最小支持度”、“最小可信度”兩個參數進行定義。“最小支持度”主要是界定數據對象之間的聯系程度,若低于“最小支持度”,則認為數據對象與所需研究對象無關聯。“最小可信度”界定的是關聯規則的可靠程度,若低于“最小可信度”,則認為此組數據集合的關聯規則不可信。
通過設定“最小支持度”和“最小可信度”,實現從數據庫、“源數據”中找到既滿足“最小支持度”又滿足“最小可信度”的數據,可以較為精準地提取出適合研究的數據集合。
數據分類技術一般用于對數據的挖掘預測,即通過對數據梳理之后形成相應的數據集合,通過算法或者函數形成相應的分類模型,進而對未來數據的趨勢進行預測。數據分類技術使用過程中,首先要進行建模,然后用使用模型對未知數據進行分類,從而達到預測的目的,一般會結合非參數方法、機器學習方法、神經網絡算法等使用。
數據分類技術主要針對的是數據的差異性,通過建模將不同性質的數據區別劃分。而數據聚類技術落腳點在數據的相似性上,將數據對象分為不同的數據類別,使同一數據類別里的數據盡可能地小。數據聚類一般是通過設定相應的算法實現的[3],常用的有K-平均算法、AGNES算法、STING算法、SOM算法、DBSCAN算法等。
在網絡安全中,入侵檢測技術可謂是網絡安全的“中樞神經系統”,是網絡安全技術中最重要的組成模塊之一。入侵檢測技術的好壞將直接影響到網絡安全的保障水平,如何在入侵開始但是未給網絡安全帶來危害時及時的組織入侵,入侵檢測技術最主要的研究重點。
在傳統的網絡安全維護中,由于網絡安全的技術擴展性比較差,一般只能發現規定模式版塊內的非法入侵行為,就一些版塊外的漏洞,不能及時地發現和處理。所以,在傳統的網絡安全維護中,由于無法感知到未知入侵行為,安全隱患較高,系統檢測相應速度慢,并且系統檢測的適用性也不高。并且,在傳統的網絡安全中,對于入侵行為的記錄一般采用人工記錄的方式,就入侵行為的用戶區分一般也是靠人工來實現的,工作量可想而知,工作效率嚴重跟不上網絡入侵的頻率[2]。
現階段的入侵檢測主要分為兩種,一種是基于異常的入侵檢測,一種是基于正常的入侵檢測,兩者經常配合使用。將數據挖掘技術與檢測技術相融合,可以極大地改善入侵檢測技術的技術水準,在網絡安全的維護中有建設性的意義。
(1)基于異常的入侵檢測技術
基于異常的入侵檢測技術,首先要建立好異常數據模型,將已發現入侵行為特征進行匯總導入到異常數據模型中。異常數據模型中會儲存歷史入侵攻擊的一些標志性特征,當非法入侵再次發生時,當入侵檢測是被到入侵與之前入侵有相同標志性特征時,入侵檢測系統會直接識別到入侵的發生。基于異常的入侵檢測技術的優缺點十分明顯,優點是數據來源簡單,建模相對比較容易,但是此項技術階段只能檢測已知異常特征的入侵行為,無法識別前期未知攻擊,漏洞較多。
隨著數據挖掘技術的深入研究,數據挖掘技術漸漸地和入侵檢測的異常模型想融合,漸漸賦予異常入侵檢測技術新的功能板塊——對未來入侵行為進行預測。數據挖掘技術中的數據關聯技術,通過對產生入侵行為的歷史情況進行數據提取和數據預處理階段,然后采用數據分類技術,已非法入侵行為的特征為依據設置好“最小支持度”、“最小可信度”,從而深度挖掘出入侵行為的特定攻擊手段,然后通過相關建模和算法設定對后期的入侵數據進行預測。
由此可見,基于異常的入侵檢測技術與數據挖掘技術結合之后,將數據挖掘技術中的數據預測功能嫁接到了基于異常的入侵檢測技術中,從而實現基于異常的入侵檢測技術對未知入侵行為的檢測功能,極大減小了入侵檢測的漏報率。
(2)基于正常的入侵檢測
基于正常的入侵檢測技術的應用原理與基于異常的入侵檢測技術類似,但是著重點不同[4]。基于正常的入侵檢測技術實際上對將所有正常網絡行為進行分析建模,形成網絡安全中的正常模型。當用戶行為符合正常模型中的行為特征時,入侵檢測技術默認為此行為正常。當用戶的行為特征出現正常模型以外的行為特征時,基于正常的入侵檢測將會認為發生了入侵行為。在傳統的基于正常的入侵檢測技術中[5],正常模型中的特征精準度不高,誤報率極高。
數據挖掘中的數據聚類技術,可以將數據對象分為不同的數據類別,并且使同一數據類別里的數據盡可能小,數據精準度上優勢明顯。故,將正常的入侵檢測技術與數據挖掘找那個的聚類技術相柔和,可以極大地提高正常的入侵檢測技術正常特征的準確性,從而提高正常的入侵檢測的準確性,降低誤報率。
本文主要對數據挖掘技術在網絡安全中的應用進行分析,首先闡述了數據挖掘的操作原理,并從關聯性、分類、聚類三種數據挖掘技術進行詳細地介紹。然后,從入侵檢測技術為支撐點,從基于正常的入侵檢測、基于異常的入侵檢測兩方面詳細闡述了數據挖掘技術在入侵檢測技術的應用。數據挖掘技術和入侵檢測技術相輔相成,共同促進網絡安全的快速發展。