楊文生,王雁宇,李海清,宦曉超
(內(nèi)蒙古電力(集團(tuán))有限責(zé)任公司內(nèi)蒙古電力經(jīng)濟(jì)技術(shù)研究院分公司,內(nèi)蒙古呼和浩特 010020)
電力工程是國(guó)計(jì)民生的重要保障,如何高效、準(zhǔn)確地預(yù)算工程造價(jià)等重要數(shù)據(jù)是實(shí)施工程的必要基礎(chǔ)。文中基于對(duì)電力工程數(shù)據(jù)的分析,使用了分層電網(wǎng)工程數(shù)據(jù)檢測(cè)系統(tǒng)[1]。其具有分層體系結(jié)構(gòu),使用統(tǒng)計(jì)模型與神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行數(shù)據(jù)檢測(cè)[2],并測(cè)試了5 種不同類型的神經(jīng)網(wǎng)絡(luò)的性能[3],以及在分層數(shù)據(jù)檢測(cè)系統(tǒng)上進(jìn)行的異常數(shù)據(jù)的壓力測(cè)試結(jié)果。
該異常數(shù)據(jù)識(shí)別系統(tǒng)是一個(gè)分布式的分層應(yīng)用程序[4],每層包含多個(gè)異常檢測(cè)代理(IDA),IDA 是監(jiān)視主機(jī)或網(wǎng)絡(luò)活動(dòng)的IDS 組件。圖1 是該系統(tǒng)的示例網(wǎng)絡(luò),異常檢測(cè)系統(tǒng)可分為3 層。第一層代理監(jiān)視系統(tǒng)內(nèi)服務(wù)器與網(wǎng)橋的系統(tǒng)活動(dòng)[5],并定期為第二層代理生成報(bào)告;第二層代理檢測(cè)到的數(shù)據(jù)流量與第一層代理的監(jiān)控?cái)?shù)據(jù)用來(lái)檢測(cè)系統(tǒng)LAN 的網(wǎng)絡(luò)狀態(tài)[6];第三層代理收集來(lái)自防火墻與路由器處的第一層代理和第二層代理的數(shù)據(jù)[7],系統(tǒng)層次如圖2 所示。

圖1 異常數(shù)據(jù)識(shí)別示例網(wǎng)絡(luò)

圖2 系統(tǒng)分層結(jié)構(gòu)圖
由于該系統(tǒng)分布式分層的特點(diǎn),所有層的IDA 具有相同結(jié)構(gòu)。IDA 的示意圖,如圖3 所示。其由以下組件組成:探測(cè)器、事件預(yù)處理器、統(tǒng)計(jì)處理器、神經(jīng)網(wǎng)絡(luò)分類器與后處理器,這些組件的功能描述如下。

圖3 IDA示意圖
1)探測(cè)器:收集主機(jī)或網(wǎng)絡(luò)的流量,將流量抽象為一組統(tǒng)計(jì)變量以反映網(wǎng)絡(luò)狀態(tài),并定期生成報(bào)告發(fā)送至事件預(yù)處理器;
2)事件預(yù)處理器:從探測(cè)器與底層的IDA 接收?qǐng)?bào)告,并將信息轉(zhuǎn)換為統(tǒng)計(jì)模型輸入數(shù)據(jù)的格式;
3)統(tǒng)計(jì)處理器:根據(jù)典型網(wǎng)絡(luò)活動(dòng)的參考模型,將事件預(yù)處理器的報(bào)告與參考模型進(jìn)行比較,并形成輸入向量以饋入神經(jīng)網(wǎng)絡(luò)分類器;
4)神經(jīng)網(wǎng)絡(luò)分類器:根據(jù)統(tǒng)計(jì)模型分析輸入向量,以確定數(shù)據(jù)流量是否正常;
5)后處理器:為高級(jí)別的代理(如遠(yuǎn)程交互代理)生成報(bào)告[8],同時(shí)通過(guò)用戶交互界面顯示監(jiān)測(cè)結(jié)果。
統(tǒng)計(jì)方法是異常數(shù)據(jù)檢測(cè)的常用方法。但大多數(shù)統(tǒng)計(jì)學(xué)方法僅測(cè)量某些變量的均值與方差,并檢測(cè)其是否超出預(yù)先設(shè)定的閾值,這類方法難以識(shí)別復(fù)雜的工程數(shù)據(jù)。文中建立了基于NIDES 統(tǒng)計(jì)算法的軟件框架[9]。
在NIDES 中,工程配置文件由概率密度函數(shù)表示。設(shè)S為隨機(jī)變量的樣本空間,而事件E1,E2,…,Ek為S的互斥分區(qū)。假設(shè)Pi是事件Ei的發(fā)生頻率[10],令N表示事件的總數(shù)。NIDES 統(tǒng)計(jì)算法使用類χ2檢驗(yàn)確定預(yù)期分布與實(shí)際分布之間的相似性如式(1)所示。
當(dāng)N足夠大且事件E1,E2,…,Ek獨(dú)立時(shí),Q近似遵循具有(k-1)自由度的χ2分布。但實(shí)時(shí)工程系統(tǒng)中,通常難以滿足上述條件。因此,通過(guò)建立Q的經(jīng)驗(yàn)概率分布來(lái)解決此問(wèn)題,該分布通過(guò)實(shí)時(shí)操作進(jìn)行更新[11]。
在異常數(shù)據(jù)識(shí)別系統(tǒng)中,由于神經(jīng)網(wǎng)絡(luò)分類器可以實(shí)現(xiàn)對(duì)異常數(shù)據(jù)的檢測(cè),因此,可忽略Q的實(shí)際分布[12]。但由于數(shù)據(jù)流量不穩(wěn)定且具有不同的持續(xù)時(shí)間,因此,需要一種能夠有效監(jiān)視具有不同時(shí)間窗口的數(shù)據(jù)流量算法。基于對(duì)實(shí)際系統(tǒng)的觀察,設(shè)計(jì)了圖4 給出的層窗口統(tǒng)計(jì)模型。
新到達(dá)的事件將首先被存儲(chǔ)在第一層的事件緩沖區(qū)中。將存儲(chǔ)的事件與該層的參考模型進(jìn)行比較,然后,將結(jié)果輸入到神經(jīng)網(wǎng)絡(luò)分類器中,以確定該時(shí)間段內(nèi)的數(shù)據(jù)狀態(tài)。一旦事件緩沖區(qū)已滿,事件緩沖區(qū)將被清空,且存儲(chǔ)的事件將被平均并轉(zhuǎn)發(fā)到第二層的事件緩沖區(qū)。此過(guò)程將遞歸重復(fù)進(jìn)行,直至達(dá)到最高級(jí)別[13]。


圖4 統(tǒng)計(jì)模型設(shè)計(jì)
文中使用的相似度測(cè)量算法[14]如式(2)所示。

式中,f(N)是一個(gè)函數(shù),其考慮了在時(shí)間窗口內(nèi)發(fā)生的時(shí)間總數(shù)。
除了相似度測(cè)量外,還設(shè)計(jì)了一種用于實(shí)時(shí)更新參考模型的算法[15]。設(shè)Pold為更新前的參考模型,Pnew為更新后的參考模型,Pobs是觀測(cè)得到用戶時(shí)間窗口內(nèi)的活動(dòng)。更新參考模型的公式如式(3)所示。

其中,α是定義的自適應(yīng)率,S是由神經(jīng)網(wǎng)絡(luò)輸出生成的值。假設(shè)神經(jīng)網(wǎng)絡(luò)分類器的輸出是介于-1與1 之間的連續(xù)變量t,其中,-1 表示具有絕對(duì)確定性的異常狀態(tài),而1 表示確定性的正常數(shù)據(jù)[16]。S的計(jì)算公式如式(4)所示。

通過(guò)式(4)可知,系統(tǒng)將確保針對(duì)典型數(shù)據(jù)主動(dòng)更新參考模型,異常事件將被轉(zhuǎn)移并存儲(chǔ)至訓(xùn)練數(shù)據(jù)庫(kù),以供所設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。
神經(jīng)網(wǎng)絡(luò)是針對(duì)模式分類的有效方法,但神經(jīng)網(wǎng)絡(luò)存在計(jì)算要求高和訓(xùn)練周期長(zhǎng)的特點(diǎn)。文中設(shè)計(jì)了一種混合神經(jīng)網(wǎng)絡(luò)范例,通過(guò)感知器與小型反向傳播網(wǎng)絡(luò)的疊加構(gòu)建神經(jīng)網(wǎng)絡(luò)架構(gòu)。為了得到最恰當(dāng)?shù)纳窠?jīng)網(wǎng)絡(luò),文中選取了5 種不同類型的神經(jīng)網(wǎng)絡(luò):Perceptron、BP、PBH、模糊ARTMAP 和RBF 進(jìn)行異常數(shù)據(jù)對(duì)比實(shí)驗(yàn)。
神經(jīng)網(wǎng)絡(luò)用于線性可分離模式分類,由具有可調(diào)節(jié)突觸與閾值的單個(gè)神經(jīng)元組成。數(shù)據(jù)集通常不能線性分離,文中采用感知器作為基準(zhǔn)來(lái)測(cè)量其他神經(jīng)網(wǎng)絡(luò)的性能。
BP反向傳播網(wǎng)絡(luò)包含一個(gè)輸入層、一個(gè)或多個(gè)隱藏層以及一個(gè)輸出層。BP具有強(qiáng)大的泛化能力,并已成功應(yīng)用于解決各種困難與多樣化的問(wèn)題。文中測(cè)試的BP 網(wǎng)絡(luò),其中隱藏神經(jīng)元的數(shù)量在2~8 之間。
PBH 感知器反向傳播混合網(wǎng)絡(luò),是感知器與小型反向傳播網(wǎng)絡(luò)的疊加。PBH網(wǎng)絡(luò)能夠準(zhǔn)確得出輸入向量與輸出向量之間的線性及非線性相關(guān)性關(guān)系。文中測(cè)試的PBH網(wǎng)絡(luò),其中隱藏神經(jīng)元的數(shù)量在1~8之間。
模糊ARTMAP 系統(tǒng)一般由兩個(gè)模糊ART 網(wǎng)絡(luò)ARTa與ARTb組成,其F2層由匹配跟蹤子系統(tǒng)連接。文中使用簡(jiǎn)化模糊ARTMAP的類別神經(jīng)元數(shù)量為2~8。
RBF徑向基函數(shù)網(wǎng)絡(luò),包含了3個(gè)完全不同的層。輸入層由源節(jié)點(diǎn)組成,第二層是具有足夠高尺寸的隱藏層,輸出層將網(wǎng)絡(luò)的響應(yīng)提供給應(yīng)用于輸入層的激活函數(shù)。文中使用了2~8個(gè)隱藏神經(jīng)元測(cè)試RBF網(wǎng)絡(luò)。
文中使用功能強(qiáng)大的網(wǎng)絡(luò)仿真工具OPNET 構(gòu)建實(shí)驗(yàn)性測(cè)試平臺(tái),對(duì)基于神經(jīng)網(wǎng)絡(luò)的電力工程異常數(shù)據(jù)檢測(cè)系統(tǒng)進(jìn)行驗(yàn)證。驗(yàn)證平臺(tái)如圖5所示。該測(cè)試平臺(tái)由10-BaseX LAN、11個(gè)工作站與1個(gè)服務(wù)器組成。

圖5 驗(yàn)證平臺(tái)
表1 列出了Perceptron、BP、PBH、模糊ARTMAP和RBF 的均方根誤差與Perceptron 的誤分類率等信息。可以看到,Perceptron 神經(jīng)網(wǎng)絡(luò)表現(xiàn)不佳,均方根誤差在0.6~0.7 之間;誤分類率在0.1~0.2 之間。Perceptron 神經(jīng)網(wǎng)絡(luò)對(duì)異常數(shù)據(jù)的檢測(cè)錯(cuò)誤與誤分類率較高。隨著隱藏神經(jīng)元數(shù)量的增加,ARTMAP與RBF 網(wǎng)絡(luò)的性能均會(huì)提高。在大多數(shù)情況下,均優(yōu)于Perceptron。BP 與PBH 網(wǎng)絡(luò)具有相似性能,且兩個(gè)神經(jīng)網(wǎng)絡(luò)始終比其他3 種類型的神經(jīng)網(wǎng)絡(luò)表現(xiàn)更優(yōu)。隨著隱藏神經(jīng)元數(shù)量的增加,兩種神經(jīng)網(wǎng)絡(luò)錯(cuò)誤與誤分類率不會(huì)降低。
文中重點(diǎn)測(cè)試系統(tǒng)對(duì)異常數(shù)據(jù)的敏感性與有效性。表2所示為文中測(cè)試運(yùn)行的模擬數(shù)據(jù)流量負(fù)載。

表1 5種神經(jīng)網(wǎng)絡(luò)識(shí)別實(shí)驗(yàn)

表2 模擬數(shù)據(jù)流量負(fù)載
從文中敘述可知,BP與PBH表現(xiàn)最佳。因此,該系統(tǒng)的測(cè)試架構(gòu)選取BP與BPH 網(wǎng)絡(luò)。由于隱藏神經(jīng)元數(shù)量的增加對(duì)提升其性能并無(wú)較強(qiáng)的相關(guān)性,因此,選擇具有兩個(gè)隱藏神經(jīng)元的BP網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)。
文中選取均方根誤差與系統(tǒng)的誤分類率作為背景流量和攻擊流量的函數(shù),MSR 錯(cuò)誤與誤分類率均隨著數(shù)據(jù)差異化的提高而降低。因?yàn)榕c低差異的異常數(shù)據(jù)相比,高容量攻擊的流量模式與參考模型產(chǎn)生的差異較大。此外,對(duì)于特定的異常數(shù)據(jù),600 kbps數(shù)據(jù)流量的性能始終優(yōu)于2 Mbps后臺(tái)的性能。

圖6 接收機(jī)工作曲線
圖6 為接收機(jī)工作特性曲線,從圖中可知,隨著攻擊強(qiáng)度的增加,檢測(cè)性能也會(huì)提高。此外,當(dāng)針對(duì)600 kbps后臺(tái)流量的攻擊級(jí)別為70 kbps,對(duì)于2 Mbps后臺(tái)流量的攻擊級(jí)別為100 kbps 時(shí),系統(tǒng)性能接近最佳狀態(tài)。
為實(shí)現(xiàn)電網(wǎng)工程建設(shè)中對(duì)異常數(shù)據(jù)的檢測(cè),建立了分布分層的數(shù)據(jù)檢測(cè)系統(tǒng)。引入NIDES 框架,其是一種使用統(tǒng)計(jì)預(yù)處理與神經(jīng)網(wǎng)絡(luò)分類的異常數(shù)據(jù)檢測(cè)算法。通過(guò)對(duì)5 個(gè)不同的神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn),可得出結(jié)論:BP 與PBH 網(wǎng)絡(luò)的性能優(yōu)于Perceptron、模糊ARTMAP 和RBF 3 種神經(jīng)網(wǎng)絡(luò)。考慮到構(gòu)建成本最終選取BP 神經(jīng)網(wǎng)絡(luò)作為系統(tǒng)的神經(jīng)網(wǎng)絡(luò)分類器,在此基礎(chǔ)上還進(jìn)行了系統(tǒng)測(cè)試。結(jié)果表明,系統(tǒng)能夠可靠地檢測(cè)到異常數(shù)據(jù),其流量強(qiáng)度僅為背景強(qiáng)度的5%~10%,證明了該系統(tǒng)的有效性。