999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)HTM模型的時(shí)間序列異常檢測(cè)

2020-09-02 01:35:40王宇鵬朱詩(shī)兵李長(zhǎng)青
關(guān)鍵詞:檢測(cè)模型

王宇鵬 朱詩(shī)兵 李長(zhǎng)青

(航天工程大學(xué) 北京 101416)

0 引 言

異常檢測(cè)是大數(shù)據(jù)挖掘研究中的重要組成部分,其在工業(yè)領(lǐng)域的應(yīng)用非常廣泛。時(shí)間序列的異常檢測(cè)是異常檢測(cè)的一個(gè)重要分支,可以應(yīng)用在金融領(lǐng)域、工業(yè)檢測(cè)、醫(yī)療診斷、網(wǎng)絡(luò)入侵檢測(cè)等方面[1]。對(duì)時(shí)序數(shù)據(jù)進(jìn)行分析檢測(cè)的工業(yè)級(jí)應(yīng)用有Netflix的RPCA、Yahoo的EGADS和Twitter的Skyline。此外,相關(guān)技術(shù)有Lin等[2]提出的SAX、基于模型的檢測(cè)方法ARIMA[3]、卡爾曼濾波[4]、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的LSTM[5-6]和GRU[7]等?;谟?jì)算神經(jīng)科學(xué),Hawkins等[8]提出一種模擬腦皮質(zhì)功能的層級(jí)時(shí)間記憶(Hierarchical Temporal Memory,HTM)模型,并將其應(yīng)用于對(duì)時(shí)序數(shù)據(jù)進(jìn)行異常檢測(cè)。

基于HTM的時(shí)序數(shù)據(jù)異常檢測(cè)模型可以實(shí)時(shí)在線檢測(cè),對(duì)噪聲數(shù)據(jù)包容性很強(qiáng),可以不斷適應(yīng)時(shí)序數(shù)據(jù)的變化,從而更加準(zhǔn)確地識(shí)別異常數(shù)據(jù)。基于這些特點(diǎn),HTM檢測(cè)模型可以應(yīng)用在航天器的故障預(yù)測(cè)與健康管理(Prognostic and Health Management,PHM)領(lǐng)域,并且比常用的閾值檢測(cè)能更有效地發(fā)現(xiàn)航天器遙測(cè)數(shù)據(jù)中隱含的設(shè)備問(wèn)題。

在HTM異常檢測(cè)模型的研究中,發(fā)現(xiàn)該檢測(cè)模型在處理時(shí)序數(shù)據(jù)時(shí),對(duì)數(shù)值的異常上升較為敏感,識(shí)別度較高,但對(duì)數(shù)值的異常下降卻檢測(cè)欠佳。此外,該模型還存在較高的誤警,輸出的異常數(shù)值較多,當(dāng)實(shí)時(shí)處理多維的時(shí)序數(shù)據(jù)時(shí),輸出異常告警信息不夠清楚直觀,無(wú)法實(shí)現(xiàn)有效的告警。本文針對(duì)HTM模型異常檢測(cè)存在的問(wèn)題,通過(guò)引入滑動(dòng)窗口和分布,對(duì)HTM輸出的異常數(shù)據(jù)進(jìn)行處理,較好地解決了該模型對(duì)時(shí)序數(shù)值下降異常不敏感的問(wèn)題,并且優(yōu)化了對(duì)時(shí)間序列異常進(jìn)行檢測(cè)告警的性能。

1 相關(guān)技術(shù)

1.1 HTM模型

分層時(shí)間記憶(HTM)是一種基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)技術(shù),通過(guò)模仿新大腦皮層的結(jié)構(gòu)和算法特性來(lái)實(shí)現(xiàn)信息處理。哺乳動(dòng)物的視覺(jué)、聽覺(jué)、觸覺(jué)、運(yùn)動(dòng)、語(yǔ)言和計(jì)劃都是由新大腦皮質(zhì)完成的,并且這些不同的智能功能全是由新大腦皮層通過(guò)一套高度統(tǒng)一的神經(jīng)回路實(shí)現(xiàn)的,而HTM是模仿新大腦皮層及其機(jī)能而發(fā)展出來(lái)的一套理論框架,該框架模型包括層級(jí)結(jié)構(gòu)、稀疏離散表征、腦皮質(zhì)學(xué)習(xí)算法、空間數(shù)據(jù)池以及時(shí)間數(shù)據(jù)池等[9]。HTM模型主要是通過(guò)輸入的數(shù)據(jù)流進(jìn)行訓(xùn)練的,它可以被理解為一個(gè)神經(jīng)網(wǎng)絡(luò)。HTM模型模擬的是一層皮層,該皮層由一組小型柱組成,每個(gè)小型柱包含多個(gè)神經(jīng)元。每個(gè)神經(jīng)元主要由細(xì)胞體、近體端樹突、末端樹突、突觸和神經(jīng)元輸出組成,如圖1所示。

1.2 基于HTM的異常檢測(cè)模型

基于HTM網(wǎng)絡(luò)模型不斷學(xué)習(xí)和模擬輸入的時(shí)空特性,Ahmad等[10]通過(guò)對(duì)HTM輸出進(jìn)行了擴(kuò)展計(jì)算,將HTM模型應(yīng)用于異常檢測(cè)?;贖TM的異常檢測(cè)模型如圖2所示。

Step1HTM輸入輸出。輸入的數(shù)據(jù)被饋送到HTM神經(jīng)模型中,通過(guò)編碼器用以0和1為基本單位的稀疏分布式進(jìn)行表達(dá)。然后在稀疏空間池進(jìn)行匯集,得到表示當(dāng)前輸入的稀疏二進(jìn)制矢量a(x),t-1時(shí)刻的a(xt-1)經(jīng)過(guò)序列存儲(chǔ)器的學(xué)習(xí)預(yù)測(cè),以另一稀疏矢量π(xt-1)形式輸出預(yù)測(cè),同時(shí)直接輸出t時(shí)刻的a(xt)。即xt之前的序列,以稀疏分布式表示并進(jìn)行編碼,HTM模型通過(guò)學(xué)習(xí)這些表示,以稀疏向量的形式對(duì)未來(lái)進(jìn)行預(yù)測(cè)。

Step2計(jì)算預(yù)測(cè)偏差。a(xt)是當(dāng)前輸入xt的稀疏編碼,π(xt-1)表示HTM網(wǎng)絡(luò)模型對(duì)a(xt)的預(yù)測(cè)。a(xt)、π(xt-1)的維數(shù)等于HTM網(wǎng)絡(luò)中的列數(shù)(通常使用2 048作為標(biāo)準(zhǔn)值)。設(shè)定St為預(yù)測(cè)誤差,St值等于與a(xt)和π(xt-1)之間的共同比特?cái)?shù)成反比的標(biāo)量值,其中|a(xt)|是標(biāo)量范數(shù),即a(xt)中1位的總數(shù)。

(1)

式中:如果當(dāng)前a(xt)與預(yù)測(cè)完全匹配,則誤差St為0;如果a(xt)和π(xt-1)兩個(gè)向量正交,則誤差St為1。

(2)

(3)

然后,計(jì)算最近預(yù)測(cè)誤差的短期平均值,并將閾值應(yīng)用于高斯尾部概率(Q函數(shù)),再確定是否異常。將似然異常定義為Q函數(shù)[11]的補(bǔ)充:

(4)

(5)

式中:W′是短期移動(dòng)平均線的窗口,遠(yuǎn)小于計(jì)算預(yù)測(cè)誤差分布的持續(xù)時(shí)間W。基于自定義的參數(shù)(通常設(shè)為10-5),將Lt用于報(bào)告t時(shí)刻的異常,預(yù)報(bào)條件如下:

Lt≥1-

(6)

2 模型設(shè)計(jì)

本文針對(duì)HTM異常檢測(cè)模型的似然異常進(jìn)行改進(jìn),經(jīng)過(guò)研究發(fā)現(xiàn),該處理方法過(guò)濾噪聲能力較弱,當(dāng)時(shí)序數(shù)據(jù)發(fā)生異常下降時(shí),對(duì)原始數(shù)據(jù)處理的效果不夠理想,檢測(cè)不出異常,且對(duì)HTM異常檢測(cè)模型初期學(xué)習(xí)過(guò)程中的誤報(bào)沒(méi)有進(jìn)行有效處理。針對(duì)以上問(wèn)題,通過(guò)引入滑動(dòng)窗口和分布進(jìn)行濾值處理,優(yōu)化異常告警值。

2.1 滑動(dòng)窗口

滑動(dòng)窗口算法主要是對(duì)輸入的數(shù)據(jù)進(jìn)行實(shí)時(shí)更新處理的算法,將一定時(shí)間段的數(shù)據(jù)依次放于一個(gè)長(zhǎng)度固定的時(shí)間窗口內(nèi),然后對(duì)該段數(shù)據(jù)進(jìn)行處理。隨著新的數(shù)據(jù)輸入,依次剔除時(shí)間靠前的數(shù)據(jù),隨著時(shí)間的變化,窗口中包含的永遠(yuǎn)是最新的數(shù)據(jù),提高了模型的時(shí)效性和自適應(yīng)性[12-13]。

由于LSTM、GRU等方法都需要對(duì)完整的時(shí)序數(shù)據(jù)進(jìn)行處理分析,才能標(biāo)注出異常,不具有實(shí)時(shí)檢測(cè)的能力,所以HTM模型和深度學(xué)習(xí)模型相比,其最大的優(yōu)點(diǎn)是不用進(jìn)行監(jiān)督學(xué)習(xí)就可以實(shí)時(shí)在線進(jìn)行檢測(cè),引入滑動(dòng)窗口可以保留該模型的實(shí)時(shí)特點(diǎn)。

本文在HTM異常檢測(cè)模型的基礎(chǔ)上,引入滑動(dòng)窗口算法,結(jié)合不同時(shí)間序列的特點(diǎn),設(shè)置相應(yīng)的時(shí)間窗口,對(duì)模型產(chǎn)生的數(shù)據(jù)進(jìn)行處理,降低模型對(duì)時(shí)間序列中異常告警的重復(fù)值,消除了前期的各類誤報(bào),提高了該算法的準(zhǔn)確性和有效性。

具體步驟如下:

Step1根據(jù)時(shí)間序列的周期性特點(diǎn),選取長(zhǎng)度為m的時(shí)間窗口。

Step2將進(jìn)入滑動(dòng)窗口的新值xm與該窗口內(nèi)其余所有值xi進(jìn)行比較。

Step3如果該新值異常權(quán)重越高,即xm>xi,i∈(1,m-1),說(shuō)明該值更能反映當(dāng)前數(shù)據(jù)的異常,返回該值xm。

Step4如果該時(shí)間點(diǎn)的異常值低于前值,即xm≤xi,i∈(1,m-1),說(shuō)明該時(shí)間點(diǎn)的異常特征不夠明顯,返回0值。

Step5移動(dòng)滑動(dòng)窗口,繼續(xù)處理新進(jìn)入窗口的時(shí)間,直到處理完最后一組數(shù)據(jù)。

之所以選用滑動(dòng)窗口篩選異常權(quán)重大的值,是因?yàn)镠TM模型在比較時(shí)間序列的相似性時(shí),會(huì)給出一系列的差異數(shù)據(jù),當(dāng)這些數(shù)據(jù)過(guò)多時(shí),會(huì)對(duì)檢測(cè)結(jié)果造成干擾,通過(guò)保留有效的異常值,有助于簡(jiǎn)化模型結(jié)果的可視化顯示。因?yàn)楫?dāng)處理數(shù)據(jù)量龐大的多維時(shí)間序列時(shí),結(jié)果顯示得越簡(jiǎn)單越好。

2.2 β分布

β分布為伯努利分布和二項(xiàng)式分布的共軛先驗(yàn)分布的密度函數(shù),是定義在[0,1]區(qū)間上的連續(xù)概率分布族,它有兩個(gè)形狀參數(shù)α和β,其概率密度函數(shù)如下:

(7)

β分布可以理解為表示概率的概率分布,可以根據(jù)參數(shù)α和β的不同,構(gòu)造不同的概率分布[14]。

通過(guò)對(duì)HTM模型在時(shí)間窗口得到的預(yù)測(cè)偏差進(jìn)行分析,然后通過(guò)設(shè)定合適參數(shù)α和β,β分布就可以有效地表示該預(yù)測(cè)偏差的統(tǒng)計(jì)分布。

異常檢測(cè)模型的意義在于能夠盡可能多發(fā)現(xiàn)時(shí)序數(shù)據(jù)中異常數(shù)據(jù),進(jìn)行告警,所以選取合適的閾值尤為重要。閾值過(guò)大,不能有效地濾除較多的無(wú)用信息,產(chǎn)生的誤警過(guò)多;閾值過(guò)小,則可能會(huì)濾掉一些有用的異常序列數(shù)據(jù)。結(jié)合異常檢測(cè)模型在同類時(shí)序異常數(shù)據(jù)獲得的誤差值,進(jìn)行數(shù)理統(tǒng)計(jì)分析,發(fā)現(xiàn)有效的異常值稀少,因此,本文將閾值定為5×10-4,滿足式(8)獲得的異常值Bt,即為所得到的異常。

B(x|α,β)≥1-

(8)

改進(jìn)模型如圖3所示,改進(jìn)方法的步驟如下:

圖3 HTM異常檢測(cè)改進(jìn)模型

Step1將實(shí)時(shí)數(shù)據(jù)流輸入HTM異常檢測(cè)模型,經(jīng)過(guò)處理后,得到兩個(gè)實(shí)際參數(shù)和預(yù)測(cè)參數(shù)a(xt)和π(xt-1),并計(jì)算得出預(yù)測(cè)偏差St。

Step2將得到的St依次放入滑動(dòng)窗口,將最新的值與窗口內(nèi)的前值進(jìn)行比較,如果新值異常值權(quán)重更大,則輸出該值,否則,返回0值。

Step3根據(jù)先驗(yàn)知識(shí),確定合適α和β,然后構(gòu)建適用于該時(shí)間序列檢測(cè)模型的β分布,通過(guò)閾值篩選保留權(quán)重大的異常值。

3 實(shí)驗(yàn)及結(jié)果

為驗(yàn)證本文提出的算法,采用UCI提供的北京PM2.5數(shù)據(jù)集,通過(guò)對(duì)該數(shù)據(jù)集進(jìn)行清洗處理,僅使用2014年的全年溫度變化作為測(cè)試數(shù)據(jù),溫度刻度具體到小時(shí),共計(jì)8 760個(gè)數(shù)據(jù)點(diǎn)。該數(shù)據(jù)類似地模擬人造衛(wèi)星繞地球一圈的電池溫度傳感器每秒得到的數(shù)據(jù)(中軌2 000公里的衛(wèi)星約9 000個(gè)單位)。在64位CENTOS7操作系統(tǒng)下,利用Python 2.7編程環(huán)境,搭建HTM異常檢測(cè)模型,對(duì)該數(shù)據(jù)進(jìn)行處理。

根據(jù)氣溫真實(shí)變化的特點(diǎn),基于常識(shí)定義出兩類異常:上升異常和下降異常,各類異常分別為3個(gè),共計(jì)6個(gè)異常點(diǎn)。

上升異常:溫度變化突然,上升幅度較大,超過(guò)了前面一定范圍的最高溫度。

下降異常:溫度變化突然,下降幅度較大,超過(guò)了前面一定范圍的最低溫度。

在時(shí)序數(shù)據(jù)異常檢測(cè)中,假陽(yáng)性率FPR(False Positive Ratio)和假陰性率FNR(False Negative Ratio)常常用來(lái)檢測(cè)算法的有效性[15]。

FPR是異常數(shù)據(jù)被錯(cuò)誤檢測(cè)為正常數(shù)據(jù)的比率:

(9)

式中:FN是被誤認(rèn)為是異常的正常數(shù)據(jù)的數(shù)量;TP+FN是正常數(shù)據(jù)的總數(shù)。

FNR是正確數(shù)據(jù)被錯(cuò)誤檢測(cè)為異常數(shù)據(jù)的比率:

(10)

式中:FP是被誤認(rèn)為是正常的異常數(shù)據(jù)的數(shù)量;FP+TN是異常數(shù)據(jù)的總數(shù)。

FPR和FNR越小,說(shuō)明該模型性能越好。

通過(guò)實(shí)驗(yàn)得到圖4的異常檢測(cè)結(jié)果。第一行是全年的溫度數(shù)據(jù),第二行是HTM模型直接輸出的預(yù)測(cè)偏差St,第三行是原檢測(cè)模型的輸出似然異常Lt,第四行是本文模型輸出的異常值Bt。

圖4 異常檢測(cè)結(jié)果

原模型中,將異常閾值設(shè)定為0.5,除去檢測(cè)模型前期的異常告警,給出了11個(gè)異常標(biāo)注,其中3個(gè)判定正確,3個(gè)異常未識(shí)別出來(lái),誤判8個(gè)。本文模型將異常閾值設(shè)定為0,給出了9個(gè)異常標(biāo)注(其中2個(gè)相鄰很近),其中5個(gè)判定正確,1個(gè)異常未識(shí)別出來(lái)(用三角形標(biāo)注的),誤判4個(gè)。根據(jù)以上實(shí)驗(yàn)數(shù)據(jù),本文模型的FPR和FNR優(yōu)于原模型。

HTM異常檢測(cè)模型在檢測(cè)各類時(shí)序數(shù)據(jù)過(guò)程中存在的一個(gè)通病是對(duì)異常下降的情況無(wú)法給出有效的告警異常Lt,這些異常值往往是有效檢測(cè)值的一半。盡管異常持續(xù)時(shí)間較長(zhǎng),但一直位于告警閾值之下,從而導(dǎo)致該異常下降發(fā)生漏報(bào)。本文通過(guò)對(duì)HTM模型輸出的預(yù)測(cè)偏差進(jìn)行優(yōu)化后,可以濾掉過(guò)量的上升異常告警,保留了異常下降,使其可以有效地反映出時(shí)間序列的異常狀態(tài)。此外,通過(guò)滑動(dòng)窗口處理,將前期異常告警全部濾除,大大地減少了誤警次數(shù)。

4 結(jié) 語(yǔ)

本文通過(guò)引入滑動(dòng)窗口和分布,對(duì)HTM異常檢測(cè)模型進(jìn)行優(yōu)化,實(shí)現(xiàn)了對(duì)異常下降情況的有效識(shí)別判斷,也消除了該模型在前期學(xué)習(xí)過(guò)程中出現(xiàn)的誤警,使改進(jìn)后的實(shí)時(shí)檢測(cè)模型在性能上有一定的提高,但仍然存在對(duì)部分異常判斷不準(zhǔn)的情況。為了實(shí)現(xiàn)性能比較,實(shí)驗(yàn)選取氣溫的高低幅度變化作為異常標(biāo)準(zhǔn),這與航天器上電池組溫度變化相近似。但是,對(duì)不同時(shí)序數(shù)據(jù)的異常定義,還沒(méi)有一個(gè)公認(rèn)的判定標(biāo)準(zhǔn),比如在相同時(shí)間內(nèi),溫度持續(xù)波動(dòng)過(guò)大或過(guò)小是否也應(yīng)該判定為異常,這也是在對(duì)時(shí)間序列進(jìn)行數(shù)據(jù)挖掘中,仍需解決的問(wèn)題。下一步將針對(duì)上述的問(wèn)題,結(jié)合實(shí)際數(shù)值和預(yù)測(cè)偏側(cè),繼續(xù)優(yōu)化該模型,使該模型能夠更準(zhǔn)確、更全面地處理時(shí)序數(shù)據(jù)中的異常情況。

猜你喜歡
檢測(cè)模型
一半模型
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
“幾何圖形”檢測(cè)題
“角”檢測(cè)題
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
主站蜘蛛池模板: 国产精品女主播| 91久久国产综合精品女同我| 91区国产福利在线观看午夜| 日本黄色不卡视频| 国产真实乱人视频| 国产精品太粉嫩高中在线观看| 国产国产人成免费视频77777| 国产精品任我爽爆在线播放6080| 亚洲综合二区| 亚洲综合精品第一页| 欧美在线观看不卡| 国产成人久视频免费| 2021国产在线视频| V一区无码内射国产| 99尹人香蕉国产免费天天拍| 国产激爽大片高清在线观看| 综合人妻久久一区二区精品| 国产精品人人做人人爽人人添| 九九热在线视频| 伊人久久精品无码麻豆精品| 亚洲无线观看| 国产网站一区二区三区| 色综合日本| 国产交换配偶在线视频| 91探花在线观看国产最新| 欧美一区福利| 国产成人精品日本亚洲77美色| 免费人成在线观看视频色| 一级毛片中文字幕| 国产精品免费p区| 波多野结衣在线se| 亚洲日韩国产精品综合在线观看| 国产精品久久自在自2021| 亚洲天堂网在线播放| 99这里只有精品免费视频| 国产噜噜在线视频观看| 777午夜精品电影免费看| 亚洲swag精品自拍一区| 久久无码av三级| 18禁黄无遮挡免费动漫网站| 国产99久久亚洲综合精品西瓜tv| 免费视频在线2021入口| 欧美国产日韩在线| 亚洲国产精品VA在线看黑人| 久久黄色影院| 国产新AV天堂| 二级特黄绝大片免费视频大片| 国产成人一区免费观看| 国产AV无码专区亚洲A∨毛片| 国产视频大全| 91美女视频在线| 国产成人综合在线视频| 免费在线色| 免费看的一级毛片| 国产在线麻豆波多野结衣| 亚洲婷婷丁香| 国产91高跟丝袜| 亚洲精品va| 亚洲中文久久精品无玛| 67194亚洲无码| 亚洲国产日韩视频观看| 久久精品人人做人人综合试看| 国产白浆一区二区三区视频在线| 中文字幕 91| 国产成人免费手机在线观看视频| 亚洲国产中文精品va在线播放| 欧美日韩一区二区三区在线视频| 色网站在线免费观看| 国产福利在线免费| 国产日本视频91| 精品国产www| 亚洲第一精品福利| 毛片网站免费在线观看| 国产成人综合日韩精品无码首页| 国产一级无码不卡视频| 国产精品免费福利久久播放| 91国内在线视频| 无套av在线| 久久久久久久久18禁秘| 91国内在线视频| 日韩无码视频专区| 国产在线高清一级毛片|