邱 宏
(中國人民警察大學 智慧警務學院,河北 廊坊 065000)
隨著互聯網技術在各行各業的廣泛應用和移動網絡技術的普及,電視商務等網絡活動越來越多,網絡空間處理并存儲的敏感信息不斷增加。因此,網絡安全管理成為一個亟待解決的問題。在分布式系統出現后,以防火墻、網絡安全監控以及入侵檢測等為代表的傳統網絡安全技術手段逐漸不能滿足安全管理的需求。首先,目前的認證機制是基于用戶身份認證的,但在大規模分布式系統中,系統不一定熟知所有用戶。其次,傳統的安全管理機制對新的訪問條件無效,也沒有委托機制。最后,傳統的安全機制多是服務器實現所有的訪問控制,如果服務器層面安全失效,那么整個訪問控制策略會受到影響[1]。目前,人工智能技術在很多領域獲得了深入應用。網絡安全管理技術和人工智能技術的結合,對網絡安具有重要作用,如基于聚類的入侵檢測和基于模糊聚類的信任模型等。
林果園等使用一種借助合法數據集對網絡進行重復訓練的方法,降低了網絡安全攻擊的效果,提高了網絡抗攻擊的能力[2]。汪洋等利用公開的API重建網絡安全信任模型,證明重建的模型對各種人工智能算法都有效,可以有效防止網絡攻擊[3]。郭惠聽等在網絡結構中引入一個附加層,并且增加了一個擾動噪聲,既能夠保持用戶網絡行為的準確性,又可以檢測網絡中的異常行為[4]。Wonhyung Park提出以數據融合模型為基礎的網絡安全架構,增加一個措施層,在面臨網絡攻擊時能夠提供可選擇的防護措施,從而幫助決策[5]。趙鵬飛提出一個層次化的網絡安全評估模型,在面臨網絡安全問題時采取先局部后整體的評估方法,有效結合了網絡性能、網絡架構以及海量報警信息,但其信息來源只有入侵檢測報警信息一種,缺乏防火墻和系統日志等信息[6]。符江鵬構建一種多層次多角度的網絡安全量化模型,采集入侵檢測和防火墻等多種信息源的數據,保障了數據源的全面性和準確性[7]。
人工智能的一個重要應用分支是模式識別。在具有已知模式類別和樣本數據屬性的情況下,分類訓練所有非樣本數據,以達到正確的分類效果。模式識別要求對分類的問題有足夠的先驗知識,預先設定的類別要足夠準確,否則在沒有先驗知識的前提下對數據進行分類需要借助無監督的分類技術,也就是聚類分析。
聚類分析根據最大化同類的相似性和最小化不同類的相似性原則,把所有的數據分成多個類別。同類別的數據具有較高的相似度。傳統的聚類分析方式是硬劃分,即數據樣本要么屬于A類,要么屬于B類或其他類,不存在哪個類別也不屬于的情況。這種非此即彼的劃分存在一定的缺點,因為多數對象并沒有嚴格的類別屬性,在類屬方面可能存在中介性。傳統的聚類分析方式割裂了樣本間的聯系,導致樣本數據分類時的偏差較大,容易出現局部最優解的情況。
模糊聚類方法克服了傳統聚類分析在類別硬劃分上的缺陷,把數據樣本隸屬于不同類別的隸屬度擴展到一個區間。當數據樣本的隸屬度在此區間時,認為屬于某一類別,而不是根據絕對的屬于或不屬于來判斷。模糊聚類方法在對不同類別間的數據集進行分類時更加有效,分類效果遠遠優于傳統的硬分類。
在聚類比較密集且不同類別間有明顯區別時,K-均值聚類算法有較好的效果。K-均值聚類算法在分類初始時選擇一個參數K,將所有的數據分成K個簇,每個簇內有較高的相似度,而簇間的相似度較低。首先,隨機選擇K個對象,將其作為K個簇的初始平均值或中心。其次,計算剩余的每個對象與K個簇中心的距離,并將對象的類別設置為距離它最近的簇。再次,重新計算每個簇的平均值,并再次劃分剩余對象的類別。最后,不斷重復這一過程,直到收斂函數達到設定的閾值[8]。
將人工智能技術應用于網絡安全時,常見的主要有數據搜索、行為建模和構建畫像3層架構。網絡安全中的人工智能技術架構如圖1所示。

圖1 網絡安全中的人工智能技術架構
數據搜集階段需要搜集的數據包括網絡行為數據、用戶偏好數據以及交易數據等。這些數據經過如聚類算法、自然語言處理以及機器學習等人工智能技術的處理后,可以得到網絡用戶的行為模型。
行為模型的建模過程中,常用的人工智能技術包括聚類算法和機器學習等,對網絡安全管理具有重要作用。
用戶畫像是根據網絡用戶的行為習慣等信息,抽象得到一個標簽化的用戶模型。構建用戶畫像的過程實際上是給用戶打標簽的過程。這些用戶標簽代表了用戶使用網絡過程中的各種信息特征。
均值聚類算法的優點是計算簡單,收斂速度較快,因此在網絡安全領域得到了廣泛應用,尤其是網絡入侵檢測方面。然而,K-均值聚類算法對初始值要求較高,如果參數K設置不恰當,容易出現局部極值點。
為了解決K-均值聚類算法初始化參數要求高的問題,可以借助克隆選擇算法優化目標函數。使用基于克隆選擇的聚類方法進行網絡異常行為檢測時,需要滿足兩個條件:一是正常的網絡行為數目需要遠遠大于入侵網絡行為;二是入侵網絡行為的特征與正常網絡行為特征間需要存在較大差別。利用基于克隆選擇的聚類算法進行入侵檢測時,需要先使用克隆選擇算法進行聚類,將所有的網絡行為分成兩大類別,然后基于入侵網絡行為和正常網絡行為存在較大差別且數目相對少的原則,從所有網絡行為中檢測出異常。
基于克隆選擇的聚類算法在進行聚類時,主要操作步驟如下。
步驟1:需要先隨機生成初始群體,將初始群體每個個體解碼為對應的二進制編碼特征組合;
步驟2:在新樣本集合中計算各個個體的親和度;
步驟3:檢查是否滿足迭代終止條件,如果達到迭代次數或者收斂函數滿足收斂條件,則將當前個體確定為最優解,否則繼續;
步驟4:執行克隆操作,并將克隆出來的二進制特征編碼進行變異,然后再次計算親和度;
步驟5:重復步驟2~步驟4,直到收斂函數收斂[9]。
使用基于克隆選擇的聚類算法聚類后,再統計所有類別包含的數據量,并根據數據量從多到少進行排序。由于正常數據形成的聚類包含的數據量要遠遠大于異常數據聚類包含的數據量,根據預先設定的閾值,可以將包含的數據量多于此閾值的分類設定為正常類,而數據量小于此閾值的分類設定為異常類。
克隆選擇算法是群體搜索策略,具有并行性和搜索變化的隨機性,不會導致局部最優解的問題,且收斂速度較快。因此,基于克隆選擇的聚類算法在入侵檢測中應用廣泛,完全適用于大數據集的聚類分析。
網絡范疇中的信任指的是能夠根據證據或經驗,判斷參與通信協議的實體是否遵守預先設置的規則集。顧名思義,信任模型是用于計算或判斷網絡節點可信任度的模型,主要作用是建立并管理網絡間的信任關系。常見的信任模型包括Beth信任模型和Josang信任模型。
Beth信任模型將經驗定義為實體完成任務的情況記錄。如果實體完成任務成功,則增加其肯定經驗,否則增加其否定經驗。Josang信任模型引入證據空間和邏輯空間對信任關系進行描述,是一種基于主觀邏輯的信任管理模型。每個實體產生的事件被分成肯定事件和否定事件。證據空間表示為多個實體產生的可觀測事件,并根據二項分布得到觀測的肯定事件數目和否定事件數目決定的概率密度函數,計算實體產生某個事件的可信度。
可以將推薦機制引入信任模型管理,如果請求節點i發起對節點j的信任度查詢,則網絡中和節點j曾經存在直接交互的節點(稱為推薦節點)收到信息后,會將其保留的節點j的交互性信息發送給節點i。節點i收到所有推薦節點的交互性信息后,匯總推薦節點的認知信息,從而得到節點j的信任度集合。
節點i隨后計算節點j的信任度。首先,計算局部信任度,即兩個節點交互完成后,請求節點i根據節點j為其提供的服務進行評價。其次,計算聚合局部信任度。節點i根據得到的信任度集合計算信任度均值。最后,信任度評價。根據局部信任度和聚合的局部信任度,計算每個推薦節點與聚合局部信任度的方差。信任度方差高的節點標記為正常節點,而信任度方差低的節點標記為惡意節點。
為驗證信任管理模型,可以使用Query Cycle Simulator仿真包,在模擬P2P共享網絡的同時,實現信任管理模型的改進。仿真過程由多個查詢周期組成,每個查詢周期內網絡節點的狀態是不一定的,可能處于在線狀態或離線狀態。網絡仿真設置如表1所示。

表1 網絡仿真設置
在分析仿真結果前,可以先進一步劃分惡意節點。簡單惡意節點在網絡系統中并不主動發起危害網絡安全的行為,但是在有網絡安全行為時可能會提供錯誤的信息。詆毀節點在評價其他節點的信任度時,會提供不真實的負面評價[10]。
對信任模型進行抗攻擊性仿真實驗后,對比不同信任機制下的成功率,并將成功率作為仿真的評價標準,可以得到如下結論。一方面,在系統沒有惡意節點時,網絡系統的成功率幾乎在95%以上。隨著網絡中惡意節點數目的增加,各種信任模型的成功率都會呈現下降趨勢。相比之下,Beth信任模型下降更快。另一方面,隨著詆毀節點的增加,Josang信任模型比Beth信任模型的成功率下降得更快,尤其是在網絡系統中詆毀節點的比例超過30%時。正如前文所言,Josang信任模型是一種基于主觀邏輯的信任管理模型,更易受到主觀因素的影響。
本文研究了基于人工智能的網絡安全管理技術,介紹了聚類分析技術和常見的聚類方法,并將其應用于網絡安全常見的異常行為檢測,同時闡述了信任管理模型并進行了仿真。結果表明,基于人工智能的網絡安全管理技術對網絡安全管理具有重要作用。