鐘姍姍, 周健勇
(上海理工大學 管理學院,上海 200093)
隨著網絡信息技術的發展,網絡應用中潛在的信息安全問題也在不斷增多.各類針對系統的入侵行為的破壞程度不容忽視,其中程度嚴重的破壞可造成相當于戰爭行為的危害.在1980年Anderson[1]將入侵行為定義為是具有潛在可能性,在未經授權情況之下,企圖進行如下操作:
a.訪問信息;
b.操作信息;
c.導致系統不可靠或無法使用.
為防范此類諸多的入侵行為,不同的防范措施應運而生.根據有關統計資料表明,30%的入侵行為發生在有防火墻的情況之下,因而作為防火墻的合理補充的入侵檢測系統應運而生.受到生物系統啟發的人工免疫原理被證明對防范入侵行為具有高效性、自組織性、高適應性和魯棒性,符合入侵檢測的需求.本文從樹突狀細胞功能原理中受到啟發,通過應用人工免疫原理中的危險理論和樹突狀細胞算法對入侵檢測方法進行研究.
免疫系統是一個由免疫活性分子、免疫細胞、免疫組織和器官組成,分布于人體各個部分的復雜、自適應系統.自1891年Ehrlich建立免疫學概念以來,對于免疫原理的研究主要集中于自我非自我(self-non-self,SNS)免疫學古典學說,即通過細胞選擇來區分“自體”與“非自體”蛋白分子.但這一學說對有些問題仍然無法解釋,比如,在免疫系統只對非自體作出應答情況下,為何會出現自身免疫性疾病,以及為何在腸道環境中數以百萬計的細菌并沒有觸發免疫應答.對于這些SNS學說無法解釋的問題,免疫學家 Matzinge[2]給出了解答,在1994年他提出免疫系統的本質并非在于區分“自體”與“非自體”,而是根據細胞是否受到損傷的信號來作出反應.這一理論即被稱為危險理論,該理論表明免疫系統是依據細胞異常死亡而產生的危險信號來作出應答.
危險理論(danger theory,DT)[2]包含對免疫應答的激活和抑制,即在機體組織內出現的危險信號足以激活免疫系統,而另一類非危險信號可以防止免疫反應.這種抑制機制是由細胞凋亡引起的結果,是細胞從人體中遷移出去的正常行為.在一個細胞發生這種細胞凋亡的過程中,它會向周圍環境釋放出各種信號.樹突狀細胞(DC)也對這類信號的濃度變化異常敏感,并能夠對危險和安全信號進行信息融合,以確定機體組織環境內遇險還是工作正常.危險理論認為,免疫系統只在危險出現時進行響應或者處于積極抑制狀態.
在危險理論中相關信號是由樹突狀細胞進行提呈.樹突狀細胞作為最強專職抗原提呈細胞(APC),負責對機體組織內的病原體相關分子模式(PAMP)進行收集、識別、分析與處理,最后提呈給免疫細胞.顯見,樹突狀細胞對整個誘導特異性免疫應答過程起到了至關重要的作用.
樹突狀細胞算法(dendritic cells algorithm,DCA)[3-4]主要是針對 DC細胞運作過程的仿生原理而設計,其單個DC決策作用如圖1所示.該算法通過信號與抗原入侵的雙重刺激,確認入侵行為.在細胞受損或細菌入侵產生病原相關分子模式之后,未成熟DC(iDC)開始采集抗原群和信號集,即安全信號(SS)、危險信號(DS)、病原相關分子模式.Th為閥值,k為成熟信號.

圖1 DCA流程Fig.1 DCA flow chart

式中,Oj為輸出信號CSM、SemiDC、finDC的輸出值;W1j為對應于輸出信號j的輸入信號PAMPs的權值;W2j為對應于輸出信號j的輸入信號DS的權值;W3j為對應于輸出信號j的輸入信號SS的權值;S1為輸入信號PAMPs的值;S2為輸入信號DS的值;S3為輸入信號SS的值.

表1 DCA權值表Tab.1 Weights used for signal processing
表1是經多次生物實驗后所得出的輸入信號與輸出信號之間的具體權值.根據式(1)計算得出O1,即協同刺激信號(CSM)值,當O1大于閾值Th時,則發生狀態轉移;反之,則重新開始采集抗原群與信號集.如圖1所示,對遷移后的抗原根據式(1)計算成熟信號k.若DC釋放的成熟狀態信號k>0,則提呈抗原為半成熟DC(semiDC)轉成熟狀態;反之,則提呈為成熟DC(finDC)轉半成熟狀態.
同種抗體濃度[8]是受到控制的,濃度高的抗體系統要對其進行抑制,同樣,濃度低的抗體則要繁殖以保持多樣性.記憶抗體集與抗原的分布關系有兩種極端情況:

式中,Φ為空集;Abi,Abj代表抗體子集;Ag為抗原全集,即抗體子集的并為抗原全集,交為空集;或者抗體子集的并為該抗體子集j,且交為該抗體子集j.前者高度獨立,當任一抗體子集失效,其它子集將不能有效檢測到失效抗體子集所覆蓋區域,這將給系統帶來極大危險性.而后者抗體重疊,存在大量冗余和不必要的資源浪費.所以,抗體子集間存在適度的交叉,能夠很好地提高系統多樣性,并防止魯棒性退化.對抗體濃度進行度量,旨在保持抗體多樣性的同時,不至于收斂到某一區域.
在非空系統集合S上,通過計算抗體Abi的Euclid距離,判斷抗體間是否相似,其基于距離的濃度函數為

式中,C(Abi)為抗原在抗原集中的濃度.
抗體親和度[8]表征抗原和抗體親和力的擬合度,高親和度代表抗體和抗原發生親和作用的可能性高.抗原和抗體的親和度函數為

式中,D(Abi)為抗體與抗原間的親和度;f(Abi)為抗體i的適應度值;fmax,fmin為適應度最大值和最小值.
理想的抗體集應同時具有高親和度、低濃度,即

式中,E(Abi)max為抗體與抗原間親和度同抗原在抗原集中濃度的最大比值.
采用不同的數據集分割方式進行檢測,會給檢測結果帶來很大差異.動態DCA算法(DDCA)有別于現在普遍使用的基于時間分割數據集的檢測算法,而采用基于抗原分割數據集的方式.基于抗原分割來進行檢測能確保對數據集的分析具有更好的解釋性,所以,DDCA采用基于抗原分割,該算法流程如圖2所示.
為了創建DDCA算法,有必要對初始抗原進行定義,計算其親和度與濃度比值以選定抗體集.首先,算法仍然需要輸入信號,以及抗原的提呈過程.兩類輸入信號分別為抑制信號和激活信號,即SS信號和DS信號.抗原提呈以動態設定的閾值和計算所得的輸出信號值O1為提呈標準.樹突狀細胞群內的每個樹突狀細胞具有相同抗原的輸入信號,用同一方式處理這些信號.在整個樹突狀細胞群中的輸出信號僅計算一次.通過計算抗原親和度與濃度比值動態選定抗體集,確定閾值,所以,對信號處理結果有穩定、優化作用.

圖2 DDCA流程Fig.2 DDCA flow chart
DDCA的主要框架思想是以E(Abi)max為衡量標準來動態確定抗體集合,E(Abi)max可以有效避免抗體集的收斂,同時保證抗體集合的多樣性.對于原DCA中的閾值參數,則動態地采用抗體集合中最小的N個CSM的均值和親和度值作為閾值參數.動態設定閾值參數使抗體能更好地適應抗原的多樣性,具有強魯棒性.
仿真實驗選用標準的美國威斯康星大學醫學院的乳腺癌數據集(UCI)[9]作為實驗數據,UCI數據集包含699條數據,包含Class類在內的10個屬性,其中,458條屬于良性數據集,241條屬于惡性數據集.如圖3所示(見下頁),采用DDCA的檢測結果比樸素貝葉斯算法(Nbayes)和K平均算法(KMeans)的結果的準確率高,錯警率低,說明該算法具有有效性.
將所有數據分割為上、中、下3個部分,每個部分各含有233條數據.分別以3個不同部分作為訓練集,進行模擬實驗.每1條數據視為1個乳腺癌細胞,根據9個屬性分布情況,選取[cell size]、[cell shape]、[bare nuclei]、[bland chromatin]、[bland chromatin]、[normal nucleoli]各個屬性所對應的良性數據集均值與抗原屬性值之間的絕對偏差作為危險信號,[clump thickness]偏離良性數據集均值作為安全信號、病原體相關分子模式,結果如表2所示.

圖3 Nbayes、K-Means、DCA、DDCA準確率、錯警率Fig.3 Detection rates and FP rates of Nbayes,K-Means,DCA and DDCA

表2 DDCA檢測結果Tab.2 DetectionresultsofDDCA
由表2可知,DDCA在采用不同數據段作為訓練集時,數據準確率保持在96.5%以上,而錯警率也較低,在1.5%左右,顯見檢測結果穩定,算法具有魯棒性.
討論了樹突狀細胞性能和現有免疫學危險理論在入侵檢測中的應用,并提出了一種動態DCA算法,且通過實驗進行了驗證.在算法中,通過對樹突狀細胞運作進行模擬,動態地確定危險抗原進行警報.實驗結果表明,算法實現了預期的效果,具有高效性、魯棒性.但模型中仍然存在許多問題,在以后的研究中將繼續進行探索.
[1]Anderson J P.Computer security threat monitoring and surveillance[R].Fort Washington:James P Anderson Company,1980.
[2]郭晨,梁家榮,夏潔武.基于危險理論的人工免疫原理與應用[J].計算機應用研究,2007,24(6):18-21.
[3]Aickelin U,Greensmith J.Sensing danger:innate immunology for intrusion detection[J].Information Security Technical Report,2007,12(4):218-227.
[4]Greensmith J,Aickelin U,Tedesco G.Information fusion for anomaly detection with the dendritic cell algorithm[J].Information Fusion,2010,11(1):21-34.
[5]羅超,郭晨,梁家榮.確定性樹突狀細胞算法的異常檢測系統[J].江西師 范大學學報,2011,35(2):170-172.
[6]楚赟,戴英俠,萬國龍.一個基于免疫的分布式入侵檢測系 統 模 型 [J].計 算 機 應 用,2005,25(5):1153-1157.
[7]楊向榮,沈鈞毅,羅浩.人工免疫原理在網絡入侵檢測中的應用[J].計算機工程,2003,29(6):27-29.
[8]劉韜.人工免疫系統及其數據挖掘應用研究[M].徐州:中國礦業大學出版社,2010.
[9]李光,張鳳斌.基于樹突狀細胞算法的分類方法研究[J].電腦知識與技術,2010,6(31):8798-8800.