王沐賢,丁小歐,王宏志,李建中
哈爾濱工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,哈爾濱150000
近年來我國制造業(yè)持續(xù)快速發(fā)展。工業(yè)互聯(lián)網(wǎng)的智能工廠已經(jīng)積累并正在產(chǎn)生大量的工業(yè)時序數(shù)據(jù)。通過對基于采集時間點的多維時間序列數(shù)據(jù)的分析和挖掘,能夠?qū)ο到y(tǒng)的運行狀態(tài)進行控制、分析、決策和規(guī)劃[1],形成了有效的工業(yè)知識產(chǎn)生、提取、應(yīng)用的積極循環(huán),進而實現(xiàn)了對工業(yè)大數(shù)據(jù)的智能分析[2]。
通過分析傳感器組傳回數(shù)據(jù)可以檢測出工業(yè)系統(tǒng)及設(shè)備中存在的顯性或隱性異常,例如產(chǎn)品質(zhì)量缺陷、精度缺失、設(shè)備故障、加工失效、性能下降、環(huán)境突變等[1]。這些故障給企業(yè)帶來了大量消耗損失。為了降低危害,工業(yè)系統(tǒng)和設(shè)備會加入一套故障處理方案,由系統(tǒng)運維人員或自動運維程序?qū)?shù)據(jù)中顯示的異常狀態(tài)進行判斷并介入故障排查[3]。但通過調(diào)研發(fā)現(xiàn),在很長一段時間中,工業(yè)生產(chǎn)的故障診斷存在著以下一些問題:
(1)工業(yè)時序數(shù)據(jù)具有數(shù)據(jù)量大、時效性強、模式多樣的特點。傳統(tǒng)的單維靜態(tài)數(shù)據(jù)處理方法存在一定局限性。
(2)利用工業(yè)時序數(shù)據(jù)判別異常類型為系統(tǒng)故障抑或是錯誤數(shù)據(jù)存在困難。
(3)工業(yè)時序數(shù)據(jù)可能存在模式相關(guān),這是工業(yè)系統(tǒng)的物理屬性決定的。但數(shù)據(jù)可能僅是數(shù)學(xué)上表現(xiàn)出相關(guān)性,可能在整體上并不能表現(xiàn)出相關(guān)關(guān)系。
為了能夠減少工業(yè)生產(chǎn)中將數(shù)據(jù)異常錯誤歸類造成損失,本研究提出了一種基于時序相關(guān)環(huán)模型的異常來源檢測算法。本文的創(chuàng)新點包括:
(1)給出區(qū)別于傳統(tǒng)單維數(shù)據(jù)的基于圖論的多維時序相關(guān)性模型,將相關(guān)性分析放在圖中進行解釋,在不失去嚴謹性的同時更加直觀。
(2)設(shè)計了一種在時序相關(guān)圖中提取最大時序相關(guān)環(huán)的方法,對異常成因進行溯源。利用序列間的相關(guān)關(guān)系得到相關(guān)序列集合,通過在相關(guān)序列中定量分析序列相關(guān)性對異常來源進行分類。
(3)在實際的多維工業(yè)數(shù)據(jù)中,通過與基準算法進行比較,本文方法在準確率、召回率以及穩(wěn)定性上高于基準算法。
靜態(tài)數(shù)據(jù)的異常檢測(anomaly detection)研究相對起步較早。現(xiàn)在靜態(tài)異常檢測已經(jīng)被應(yīng)用到網(wǎng)絡(luò)入侵檢測、工業(yè)探傷、星云探測等多學(xué)科多領(lǐng)域,文獻[4]識別網(wǎng)絡(luò)中流量的特定異常分布模式,以確認監(jiān)控的計算機是否將敏感數(shù)據(jù)發(fā)送給未經(jīng)授權(quán)的其他計算機。文獻[5]利用心電圖中的正常模式進行匹配,若失配則認為對應(yīng)患者的心臟存在病變。這是利用已知數(shù)據(jù)中的特征或固有統(tǒng)計模型挖掘數(shù)據(jù)中不符合該特征或模型的點或片段檢測異常。
利用機器學(xué)習(xí)的模型進行異常檢測已有很多研究,其中基于分類和基于聚類的方法得到了廣泛應(yīng)用。基于多類別分類的異常檢測技術(shù)假定訓(xùn)練數(shù)據(jù)包含屬于多個正常類別的標記實例[6]。這種異常檢測技術(shù)可以學(xué)習(xí)得到一個多維分類器,以區(qū)分每個正常分類與其余分類。如果一個測試實例沒有被任何分類器歸類為正常,則該測試實例被認為是異常的。基于二分類的異常檢測技術(shù)假定所有訓(xùn)練實例都只有一個類標簽。這類方法有使用二分類SVM(support vector machine)判別一個正常模式的邊界[7],也有利用Fisher 核做判別式指導(dǎo)分類器劃分的方法[8]。基于聚類的異常檢測技術(shù)有:正常數(shù)據(jù)實例屬于數(shù)據(jù)中的一個聚類,而異常實例不屬于任何聚類。基于上述假設(shè)的技術(shù)將已知的基于聚類的算法應(yīng)用于數(shù)據(jù)集,并將不屬于任何聚類的任何數(shù)據(jù)實例聲明為異常[9]。正常數(shù)據(jù)實例位于其最接近的聚簇質(zhì)心附近,而異常則離其最接近的聚簇質(zhì)心很遠。基于上述假設(shè)的技術(shù)包括兩個步驟。在第一步中,使用聚類算法對數(shù)據(jù)進行聚類。在第二步中,對于每個數(shù)據(jù)實例,將其到其最接近的群集質(zhì)心的距離計算為其異常分數(shù)[10]。注意,如果數(shù)據(jù)形式中的異常本身是聚簇的,則上述技術(shù)將無法檢測到此類異常。
近些年數(shù)據(jù)的時序?qū)傩圆粩嗍艿街匾暎跁r序數(shù)據(jù)的異常檢測方法也得到了很大發(fā)展。在時序異常檢測研究中,對于異常的檢測對象而言,時序數(shù)據(jù)異常主要有毛刺異常(glitch)、點異常(abnormality)和區(qū)間異常(interval abnormality)三種[11];在時序異常檢測方法上以機器學(xué)習(xí)方法為主,包括基于聚類和基于分類器的算法。基于聚類的方法將正常或異常數(shù)據(jù)點聚集并盡可能將二者的距離增加[12]。基于分類器的方法利用確定特征方程的系數(shù)得到正常和異常數(shù)據(jù)的分界。文獻[13]利用EM(expectation-maximum)算法做正常數(shù)據(jù)與異常預(yù)測數(shù)據(jù)的多分類器。文獻[14]利用隱馬爾科夫方法發(fā)現(xiàn)偏序序列中各個正常點或正常子序列所具有的特征,從而將異常點或異常子序列檢測并標記處理。文獻[15]利用速度約束的概念,配合最大似然估計得到正常情形下的數(shù)據(jù)值,以此檢測異常數(shù)據(jù)并進行修復(fù)。在已有的異常檢測方法中,基于機器學(xué)習(xí)的方法往往開銷較大;基于統(tǒng)計模型的方法要求待測數(shù)據(jù)的分布模式已知,應(yīng)用存在局限;而約束方法在挖掘較長區(qū)間的異常模式時受到計算方法的限制不能很好地使用。
在一個工業(yè)系統(tǒng)中,異常(anomaly)一般被定義為數(shù)據(jù)中不滿足常態(tài)、約束、規(guī)則、給定模型的不尋常數(shù)據(jù)值或模式[16]。工業(yè)時序數(shù)據(jù)異常的溯源可能有兩種:一種是指工業(yè)系統(tǒng)喪失其規(guī)定性能的狀態(tài),稱之為故障;一種是指傳感器失靈造成正確數(shù)據(jù)出現(xiàn)偏差,稱之為錯誤數(shù)據(jù)。二者都可以引發(fā)數(shù)據(jù)異常,但造成的后果完全不同。
本文的問題定義基于已有研究文獻[17]。下面給出一些便于理解本文算法的關(guān)鍵基本定義:
定義1(時間序列)時間序列是由傳感器采樣的一系列連續(xù)的數(shù)據(jù)點。一條長度為N的時間序列表示為,其中每個序列點表示為一個二元組,xi是一個實數(shù)值,ti是時間記錄點。對于任意的整數(shù)i、j,若i 定義2(多維時間序列)S是一個包含K條具有相同時間點集合T的時間序列集合,記為S={S1,S2,…,SK}。S稱為K維時間序列。 定義3(相關(guān)系數(shù)矩陣)在K維時間序列S的(默認長度為n,下同)時間序列組中,第k個時間序列表示為Sk={sk(1),sk(2),…,sk(n)}。在這個時間序列時間段中,在式(1)中定義相關(guān)系數(shù)矩陣,用于測量傳感器組S上第l時間段內(nèi)K條序列的相關(guān)性,表示為SCM。 定義4(時序相關(guān)圖)設(shè)有圖G=(V,E),V={v|v∈SK},E={e|e∈(Rij=1)},則圖G被稱為時序相關(guān)圖。 由研究背景所述,現(xiàn)有時序異常檢測算法僅能輸出發(fā)生了異常和異常的表征,無法對異常的來源是故障還是錯誤數(shù)據(jù)進行判斷。由此,首先對待檢測時間序列組的線性相關(guān)關(guān)系進行挖掘,進而在圖論的思想下設(shè)計異常檢測算法,達到對異常數(shù)據(jù)的來源進行識別的目的。 本文的時間序列異常來源檢測的步驟如圖1 所示,主要包含異常相關(guān)模型訓(xùn)練階段(簡稱為訓(xùn)練階段)和異常來源判別檢測階段(簡稱為檢測階段)。 Fig.1 Step of time series anomaly source detection圖1 時間序列異常來源檢測步驟 訓(xùn)練階段:該階段包含兩部分,數(shù)據(jù)預(yù)處理和相關(guān)性計算。在數(shù)據(jù)預(yù)處理階段需要對各序列數(shù)據(jù)的單位和量綱進行標準化。這里規(guī)定,訓(xùn)練階段程序接收并分析的多維時序數(shù)據(jù)的標簽標注都為正確,經(jīng)調(diào)研表明工業(yè)生產(chǎn)的絕大多數(shù)時間產(chǎn)生的序列數(shù)據(jù)都是正常運轉(zhuǎn)狀態(tài)的,正確的工業(yè)多維時序數(shù)據(jù)獲取難度不大。 在得到預(yù)處理的數(shù)據(jù)后,將在序列組內(nèi)計算序列間的相關(guān)性關(guān)系,得到相關(guān)系數(shù)矩陣。之后將時序相關(guān)關(guān)系矩陣表達為一個時序相關(guān)圖,在圖中發(fā)掘出所有時序相關(guān)環(huán)并輸出對應(yīng)的相關(guān)序列集,完成對該多維時序數(shù)據(jù)的訓(xùn)練。 檢測階段:該階段將對輸入的帶有異常標簽的相同類型序列組通過之前得到的相關(guān)序列集分析每個存在異常的序列的異常來源,輸出異常的來源類型,以指導(dǎo)工廠對異常情況進行進一步處理。 在工業(yè)場景下的多維時間序列數(shù)據(jù)中,處于同一個系統(tǒng)或具有物理關(guān)系的序列間往往呈現(xiàn)出較強的相似性,這里定義序列相關(guān)性來定量計算序列之間的相似程度。基于多維序列相關(guān)性的異常來源檢測方法的整個過程如圖1 所示。 得到時序相關(guān)關(guān)系矩陣后,如果將傳感器組的K維序列數(shù)據(jù)(也就是矩陣中的維度)作為節(jié)點,將序列間滿足相關(guān)關(guān)系閾值的關(guān)系作為邊,可以得到一個時序相關(guān)圖G。進而利用時序相關(guān)圖做進一步的分析,把相關(guān)關(guān)系利用圖模型聯(lián)系起來。 在以每條序列為頂點,每兩條相關(guān)序列間形成一條邊的圖G中,構(gòu)成的連通圖可能有一個或多個,這些連通圖被稱為圖G中的連通分量。即在一個工業(yè)系統(tǒng)中,時間序列的相關(guān)關(guān)系可能存在著很多個。由時序相關(guān)圖的概念,本文提出在時序相關(guān)圖G的各連通分量中尋找最大時序相關(guān)環(huán)C。某個時序相關(guān)圖的其中一個連通分量的樣例如圖2 所示(圖中點標號為對應(yīng)序列號)。最大時序相關(guān)環(huán)的定義如下: 定義5(最大時序相關(guān)環(huán))在時序相關(guān)圖G的連通分量(connected component)CC=(V,E),其中在|V|>2 中,若存在一條路徑C=(V′,E′),使|V′|≤|V|(|V′|>2),E′={e′|e′∈E且e′首尾相接},且V-V′的點中找不到首尾相接的路徑或使已有路徑的邊增加,則路徑C被稱為最大時序相關(guān)環(huán)(maximum time series correlation cycle)。 Fig.2 Connected component of time series correlation graph圖2 時序相關(guān)圖某連通分量 定理1每個時序相關(guān)圖G的連通分量CC中至多存在一個最大時序相關(guān)環(huán)。 證明假設(shè)CC中存在兩個最大時序相關(guān)環(huán)C1、C2。如果C1、C2 存在重復(fù)路徑,則C1、C2 可以合并為一個更大的環(huán)C,C的頂點集合V=V1 ?V2-(V1 ?V2),C的邊集合E=E1 ?E2-(E1 ?E2) ;如果C1、C2 沒有相交路徑,由題設(shè),則C1、C2 分屬兩個不同的連通分量,與前提在同一連通分量CC中不符合。即CC中不可能存在兩個以上的最大時序相關(guān)環(huán),得證。 可以看出在一個時序相關(guān)圖G中可以找到若干個連通分量,在每個連通分量CC中至多存在一個最大時序相關(guān)環(huán)C,它們包含的頂點總數(shù)的大小關(guān)系是|V(G)|≥|V({CC})|≥|V({C})|。每個最大時序相關(guān)環(huán)C表示一組時間序列相關(guān)關(guān)系。 下面介紹最大時序相關(guān)環(huán)的搜索算法。由定理1 可知,目標為找到一條在任意連通分量中經(jīng)過每個點的路徑[18]。據(jù)此本文提出在每個連通分量CC中搜索一條支撐樹T的算法,將連通分量中的邊集合CCEdge劃分為:所有已知樹邊加入支撐樹邊集合TreeEdge以及所有已知非樹邊加入成環(huán)邊集合FcEdge,有CCEdge=TreeEdge?FcEdge。在生成支撐樹的過程中借鑒了最小生成樹中的prim 算法,最后得到的T表示成一個支撐樹邊的集合。圖3 即為圖2 中時序相關(guān)圖的連通分量生成的一棵支撐樹,這棵支撐樹只是其中的一種解,但同一連通分量生成的不同支撐樹最后計算出的最大相關(guān)環(huán)是唯一的。這時引出定理2,描述如何從一個支撐樹找到一個環(huán)結(jié)構(gòu)。 Fig.3 Support tree of connected component in Fig.2圖3 由圖2 連通分量生成的支撐樹 定理2一條屬于FcEdge的邊必與對應(yīng)無向圖連通分量的支撐樹形成一個環(huán)。 證明設(shè)fcedge∈FcEdge,則fcedge的兩個頂點都在連通分量中,由連通圖支撐樹的定義可知,fcedge的這兩個頂點一定在支撐樹的頂點集合中出現(xiàn)。又因為支撐樹任意兩點間必然存在一條路徑,則一定存在一個環(huán),以fcedge的一個頂點為起始點,沿支撐樹中的一條路徑到達fcedge的另一個頂點,再沿fcedge回到起始點形成一個環(huán)。得證。 下一步需要在支撐樹中找到一條路徑,該路徑通過支撐樹的任意兩個葉節(jié)點和根節(jié)點。尋找該路徑的步驟見算法1。 算法1尋找支撐樹中的最長路徑 在找到支撐樹中可以成環(huán)的最長路徑后,對于還不屬于這個環(huán)的其他頂點unfindnode,需要對每個unfindnode進行遍歷以確定是否可以將該點加入環(huán)以形成一個更大的環(huán),稱為環(huán)的擴張。定理3 作為最大時序相關(guān)環(huán)的生成算法中的環(huán)擴張算法的一個理論依據(jù)。 定理3在支撐樹中,若一個頂點不屬于現(xiàn)有的環(huán)的頂點集合,且該頂點與環(huán)的頂點集合中至少兩個頂點各自存在一條非樹邊,則該頂點加入環(huán)后可以將環(huán)的長度增加。 證明設(shè)存在一棵支撐樹T以及一個環(huán)頂點集合CycleNode,一個不屬于CycleNode的頂點v。如果在CycleNode中存在著兩個頂點c1、c2,且(v,c1)∈FcEdge,(v,c2)∈FcEdge。又因為存在(c1,c2)∈CycleNode,則v、c1、c2形成了一個三角形。由三角形兩邊之和大于第三邊可知,v加入環(huán)后環(huán)的長度增加,且環(huán)沒有斷裂,即環(huán)的結(jié)構(gòu)是完整的。因此v的加入可以增加環(huán)的長度。 接下來用偽代碼給出環(huán)擴張算法的實現(xiàn)步驟: 算法2環(huán)擴張算法 示例說明:由上文中敘述的支撐樹可以得到支撐樹中由根節(jié)點的鄰節(jié)點作為起始點,對應(yīng)葉節(jié)點生成的路徑,如例子可知其中的最長路徑為28-34-29-31-24,經(jīng)過擴張算法后,CycleNode={23,24,25,26,27,28,29,30,31,32,33,34,35,36},為所求的時間序列相關(guān)集合CS。 在工業(yè)多維時間序列的數(shù)據(jù)分析中,由于單列異常檢測無法很好區(qū)分故障和錯誤數(shù)據(jù),本文提出了利用多維時間序列間相關(guān)性進行異常檢測溯源,算法3 即為基于相關(guān)性的異常檢測溯源算法。 算法3 多維時序數(shù)據(jù)異常來源檢測 本節(jié)對上述算法進行效率分析,上述算法主要的時間和空間開銷產(chǎn)生于創(chuàng)建時序相關(guān)圖和尋找最大時序相關(guān)環(huán)兩個步驟。 3.4.1 創(chuàng)建時序相關(guān)圖 創(chuàng)建時序相關(guān)圖時,設(shè)計算的時間序列長度為n,序列數(shù)量為K。則時序相關(guān)圖的計算需要計算K維序列中每兩列的相關(guān)性,在計算的過程中對序列中的每個點有一次遍歷,總的時間復(fù)雜度為O(n×K2)。 3.4.2 尋找最大時序相關(guān)環(huán) 設(shè)一個K個頂點的時序相關(guān)圖G中可以劃分出N個連通分量CC,在每個連通分量中利用支撐樹搜索算法后再使用最大時序相關(guān)環(huán)搜索算法。算法的快慢與連通分量劃分相關(guān),如果每個連通分量的頂點數(shù)都接近K/N,則支撐樹搜索算法的復(fù)雜度約為O(K2/N);如果只有一個連通分量即G的K個頂點構(gòu)成一個連通分量,則支撐樹搜索算法的復(fù)雜度約為O(K2)。在每棵支撐樹中搜索一個最大相關(guān)環(huán)的步驟中,在極限條件下即G的K個頂點構(gòu)成一個連通分量,時間復(fù)雜度約為O(K3)。實際工業(yè)系統(tǒng)中,一個系統(tǒng)往往K的值較小;而K值較大的系統(tǒng)又往往可以劃分成多個內(nèi)部相關(guān)性較強的子系統(tǒng),因此時間復(fù)雜度的規(guī)模一般可以接受。 本文的目的是追溯并區(qū)分異常序列的異常來源,即該異常屬于系統(tǒng)故障還是錯誤數(shù)據(jù)。將系統(tǒng)故障作為正例,錯誤數(shù)據(jù)作為反例。設(shè)每個時間序列組為一個實例單位,實驗結(jié)果可以分為4 類,分別是: (1)預(yù)測正,實際正(true positives,TP); (2)預(yù)測正,實際負(false positives,F(xiàn)P); (3)預(yù)測負,實際正(false negatives,F(xiàn)N); (4)預(yù)測負,實際負(true negatives,TN)。 利用以上4 個分類給出計算公式: 準確率公式: 召回率公式: 實際上計算時還會出現(xiàn)算法判斷不存在錯誤數(shù)據(jù)的情況,該情況是利用單維時序異常檢測算法造成的,在計算準確率和召回率時不加入計算。 本文應(yīng)用國內(nèi)某大型火力發(fā)電廠的某發(fā)電機組數(shù)據(jù)進行實驗。本文在研究了電廠發(fā)電機組的某型號引風(fēng)機連續(xù)6 個月的數(shù)據(jù)后,將其中連續(xù)某三個月的歷史采樣數(shù)據(jù)作為訓(xùn)練集。該設(shè)備共有84 個傳感器,分別檢測引風(fēng)機的軸應(yīng)力、軸溫、腔內(nèi)氣體溫度、繞組線圈電流及溫度等。傳感器每8 s 記錄一次數(shù)據(jù),一共記錄了84 列數(shù)據(jù)。每列時間序列數(shù)據(jù)經(jīng)預(yù)處理方法去除無效或低質(zhì)量數(shù)據(jù)后,最終采用37 列總計74 萬個時間點上數(shù)據(jù)進行實驗。 在實驗中實現(xiàn)了本文算法。為突出該算法相比其他算法在異常來源檢測上的突出表現(xiàn),本文采用兩種算法與該算法做對照: (1)基于約束的異常檢測方法。通過檢測異常值的波動,檢測異常并對故障或錯誤數(shù)據(jù)進行分類。 (2)基于聚類的異常檢測算法。通過提取時間序列中的特征,區(qū)分故障或錯誤數(shù)據(jù)。即對潛在相關(guān)序列進行聚類,找到聚類中心和搜索半徑并確定每條序列所在的分類。 本文分別從測試序列組的序列維數(shù)總數(shù)、測試集規(guī)模和訓(xùn)練集規(guī)模方面對上述三種算法檢測性能進行了測試,測試結(jié)果如下。 4.4.1 序列維數(shù)的影響 實驗測試了序列維數(shù)從6 列提高到37 列的過程中,本文提出的最大相關(guān)環(huán)算法(cycle)和兩種對比算法(單列檢測算法fundamental 和k聚類算法kmeans)的準確率和召回率。由圖4(a)、圖4(b)可以看出,雖然相較之下k-means 算法的準確率在特定條件下表現(xiàn)較好,但本文算法的準確率、召回率以及不同維度下的穩(wěn)定性都略高于k-means 算法,其中準確率保持在87%左右,較k-means 算法提升約0.09;召回率保持在86%左右,平均較k-means 算法提升0.11 左右。k-means算法的召回率能夠隨著維度上升有所提高是因為序列維度升高使數(shù)據(jù)量增加,減少了kmeans 算法陷入局部最優(yōu)解的可能性。但是因為本文算法較k-means 算法多利用了序列間相關(guān)性這一特征,使該算法較k-means 的準確率和召回率都略高,也更加穩(wěn)定。這里要說明一下,單列檢測算法幾乎無法判斷出異常的來源,因此后續(xù)的測試將不再單獨介紹該算法的效率。 4.4.2 測試集規(guī)模的影響 本小節(jié)實驗了不同測試集規(guī)模對上述算法性能的影響。測試結(jié)果如圖4(c)、圖4(d)所示。從圖中可以看出,隨著測試集規(guī)模的增加,最大相關(guān)環(huán)算法和k-means 算法的準確率都有所提升,在某些測試集條件下k-means 的準確率可以達到甚至超過本文算法,但穩(wěn)定性仍存在不足。而最大相關(guān)環(huán)算法的召回率則穩(wěn)定優(yōu)于k-means 算法。測試集規(guī)模增大后,本文算法的基于半監(jiān)督的特性使該方法的準確率仍較優(yōu)于k-means算法。 Fig.4 Effectiveness analysis in experiment圖4 實驗有效性分析圖 Fig.5 Efficiency analysis in experiment圖5 實驗效率分析圖 4.4.3 訓(xùn)練集規(guī)模的影響 不同訓(xùn)練集規(guī)模對算法準確率和召回率的影響如圖4(e)、圖4(f)所示。可見隨著訓(xùn)練集規(guī)模的提升,本文算法和k-means 算法的準確率都有所上升,且本文算法的準確率一直較k-means 算法高出0.03至0.05。而隨著訓(xùn)練集規(guī)模的上升,二者的召回率都有所下降。但從兩圖仍可以看出,在訓(xùn)練集的規(guī)模增加或減少時,本文算法的穩(wěn)定性都優(yōu)于k-means算法。 4.4.4 算法速率比較 圖5(a)~(c)是在上述變量的場景下運行時間的比較。從中可以看出本文算法的運行時間遠小于kmeans 算法。雖然本文算法在訓(xùn)練階段需要一些時間,但利用訓(xùn)練步驟得到的環(huán)頂點集合可以使異常來源檢測算法在0.1 s 內(nèi)輸出結(jié)果。該算法因為不需要在每次檢測時對原數(shù)據(jù)進行額外計算而在流數(shù)據(jù)處理上較k-means算法有更大優(yōu)勢。 本文研究了基于統(tǒng)計相關(guān)性方法的異常檢測問題,提出了解決異常來源檢測問題的框架結(jié)構(gòu),利用實際遇到的問題進行示例分析,分別介紹了多維時間序列相關(guān)性計算算法和多維時序相關(guān)性的最大時序相關(guān)環(huán)算法以及基于前兩種算法的多維時序異常來源檢測算法。本文在實驗部分說明了該方法的穩(wěn)定性、運行速度和性能都較傳統(tǒng)的樸素基于機器學(xué)習(xí)的異常檢測算法有所提高。
2.2 方法概述

3 多維時序相關(guān)性計算方法
3.1 建立時序相關(guān)圖
3.2 構(gòu)建時序相關(guān)環(huán)




3.3 多維時間序列異常來源檢測


3.4 算法效率分析
4 實驗與結(jié)果
4.1 度量標準


4.2 數(shù)據(jù)集
4.3 對照算法
4.4 方法有效性分析


5 總結(jié)