魏 暢,李光輝
(1.江南大學物聯網工程學院,江蘇 無錫 214122;2.江蘇省無線傳感網高技術研究重點實驗室,南京 210003;3.物聯網技術應用教育部工程技術研究中心,江蘇 無錫 214122)
基于約簡策略與自適應SVDD的無線傳感網絡離群檢測方法*
魏 暢1,3,李光輝1,2,3*
(1.江南大學物聯網工程學院,江蘇 無錫 214122;2.江蘇省無線傳感網高技術研究重點實驗室,南京 210003;3.物聯網技術應用教育部工程技術研究中心,江蘇 無錫 214122)
無線傳感網絡經常被部署于條件惡劣、無人值守的環境中,受到惡劣天氣、軟硬件故障、能量不足或者惡意攻擊等因素的影響,傳感器節點感知數據的缺失或錯誤難以避免。因此,傳感器數據流的離群檢測對于提高系統可用性至關重要。提出一種基于約簡策略與自適應SVDD(Support Vector Data Description)的離群檢測方法(RASVDD),該方法首先使用基于馬氏距離標準的方法約簡數據集,有效地減少了訓練樣本;然后利用基于數據分布密度準則和數據流時間相關性自適應更新決策模型。針對Intel Berkeley數據集及SensorScope System數據集的仿真實驗表明,RASVDD的離群檢測正確率TPR(True Positive Rate)平均達98%,誤報率FPR(False Positive Rate)平均僅為1%,并且與傳統的SVDD算法相比,RASVDD 決策模型訓練時間減少了20%以上。
無線傳感網絡;數據約簡;SVDD;離群檢測;仿真
21世紀電子信息和無線通信技術取得了巨大發展,使得由高靈敏且低能耗的傳感器節點組成的無線傳感網絡逐漸應用于實際生活的各個領域。與傳統網絡相比,傳感器節點具有很強的資源限制,在能量、內存、計算能力和通信帶寬方面都存在很大的局限性。傳感器網絡經常被部署在惡劣環境下,傳感器數據流的質量不可避免地受到惡劣天氣、軟硬件故障、能量不足或者惡意攻擊等因素的影響[1]。針對傳感器數據流進行離群檢測,不僅有助于對傳感器網絡健康狀況進行檢測與故障修復[2],而且能夠及時有效地為用戶提供其感興趣的事件,這對于保證傳感器網絡的數據質量和科學決策具有重要意義。
在無線傳感器網絡中,某些傳感器節點觀測值顯著偏離于正常模型或者預期結果,通常被稱為離群(outlier)數據[3]。近年來,國內外學者對無線傳感網絡離群檢測方法進行了深入研究[4-5],這些方法大致可分為基于統計的方法、基于最近鄰的方法、基于聚類的方法、基于分類的方法、基于譜分解的方法等類型[6-7]。由于SVDD算法在二分類方面的性能優勢,已被一些學者引入到傳感器網絡離群檢測領域。SVDD由Tax[8-9]等人首次提出,是對SVM(Support Vector Machine)進行推廣的算法,其基本思想是尋找到一個最小圓使所有目標類均可以落入該圓內,該圓的邊界即為決策邊界,用于區分離群點和正常點。SVDD和SVM相似,需要求解二次優化QP(Quadratic Programming)問題,因此其時間復雜度為O(n3),空間復雜度為O(n2),這樣高的計算復雜度難以適用于資源受限的無線傳感器網絡。因此,許多學者研究了如何優化SVDD算法的性能,例如,孫文柱等[10]采用K-mean聚類方法確定樣本聚類中心,并對所有樣本依其聚類中心距離排序,而后由外向內等間隔依次選取樣本構成約減核矩陣,對數據集進行約簡。Hu[11]利用鄰居節點間角度和密度的關系,實現尋找樣本模型的決策邊緣,以此來約簡訓練集樣本。梁錦錦[12]和謝迎新[13]考慮到決策邊界僅由少量分布在樣本集邊緣的數據決定,采用衡量中心點和其余點的歐氏距離,約減距離較大的樣本點。Platt[14]和Fan[15]提出SMO_SVDD思想,用來優化訓練規則,其利用違背KKT(Karush-Kuhn-Tucker condition)條件的Lagrange乘子兩兩進行優化,直到所有乘子都滿足KKT條件,此時所得乘子為QP問題的最優解。Liu[16]和周勝明[17]集中于尋找一個與決策模型相似的超球或超橢球替代決策函數,有效地將決策復雜度降低為O(1),但該決策優化方法對不規則模型的性能較差。對于無線傳感器網絡,除需考慮上述問題外,還需注意其隨時間不斷變化的數據流[1],若使用一次訓練的方法,隨著數據流的變化,決策模型的準確性會逐漸降低。針對以上問題,本文提出了一種基于約簡策略與自適應SVDD的無線傳感器網絡離群檢測方法(RASVDD),該方法不僅可以節省決策模型的訓練時間,而且能夠有效提高離群檢測的準確率。
1.1 SVDD算法原理
給定一個包含n個數據點的數據集X={x1,x2,…,xn},SVDD的核心思想[8-9]是找到一個以a為圓心,R為半徑的最小圓,該圓能夠全部或盡可能多地包含X中的數據點。故該優化問題可以描述為:

(1)
式中:a為圓心;R為半徑;ξi≥0為松弛變量;C>0為懲罰因子,用于實現圓的大小和包含樣本數間的折中。SVDD的幾何模型如圖1所示,圖中黑色點為集合X中的數據樣本。

圖1 SVDD幾何模型
上述優化問題可通過Lagrange乘子法求解,構建Lagrange方程:

(2)
式中:αi≥0,γi≥0,分別令L關于R,a,ξi的偏導數為零,可得:

(3)
將式(3)代入式(2)中得:
(4)
然而,該方法只對輸入空間為類圓形的數據集具有較好的性能。當輸入空間為非圓形分布時,該方法不能達到理想的性能,故引入核函數來改善算法的適用性。找到一個合適的映射φ將輸入樣本xi映射到一個高維的特征空間φ(xi),在高維空間找到一個超球體盡可能多地包圍輸入空間的點。故式(4)中的內積(xi·xj)可以使用核函數K(xi,xj)替換。本文選用高斯核函數:
(5)
此時,式(4)可以轉化為Lagrange對偶問題:

(6)
式(6)為典型的二次優化問題,其目標集合α=(α1,α2,…,αn)可以被分為三類:αi=0,落在圓內的正常數據點;0<αi f(xi)=sgn(‖φ(xi)-a‖2-R2) (7) 由式(7)可得:當f(xi)≤0時,xi被分類為正常數據點;當f(xi)>0時,xi被分類為離群數據點。 1.2 基于SMO的SVDD算法原理 SVDD算法需要求解二次優化問題,因此其時間復雜度為O(n3),空間復雜度為O(n2),難以適用于資源受限的無線傳感網絡。文獻[14-15]研究了SMO(Sequential Minimal Optimization)算法在SVM中的應用,其基本思想是:如果所有Lagrange乘子都滿足此優化問題的KKT條件,則此時的乘子為問題的最優解,因為KKT條件是Lagrange對偶問題(6)的充分必要條件。否則,從樣本集中選擇兩個乘子,固定其余乘子,針對這兩個乘子構建二次規劃問題,該問題可通過解析方法求解。SMO算法將原問題不斷分解為子問題并對子問題求解,進而達到求解原問題的目的,如此能大大提高算法的計算速度。下面介紹SMO_SVDD算法工作集乘子選擇策略及Lagrange乘子優化策略。 1.2.1 工作集乘子的選擇策略 根據KKT條件得:當αi=0時,‖a-φ(x)‖2 xs=argmax(‖c-φ(xi)‖2|αi (8) 若KKT條件成立,則有g(xt)≥g(xs),故在算法迭代過程中都有g(xs)>g(xt)+δ。 1.2.2Lagrange乘子的優化策略 (9) 令αt=ζ-αs,得: (10) 對式(10)中的αs求二階導數,得: (11) (12) 傳統的SVDD是一種優秀的二分類算法,但應用于資源受限的無線傳感網絡時,其計算復雜度偏高。為降低計算復雜度,提高離群檢測的準確率,本文提出了一種基于約簡策略和自適應SVDD的傳感網絡離群檢測方法(RASVDD),該方法包括基于馬氏距離標準的訓練集約簡策略和基于數據分布密度的自適應離群檢測機制,適用于低密度非均勻部署的無線傳感器網絡。 2.1 訓練集的約簡策略 原Lagrange對偶問題的解具有極大的稀疏性,因此有效并完整地選擇與邊界相關的子數據集,即求解α>0的點,對于整體訓練性能的提高非常關鍵。受文獻[12-13]的啟發,本文采用基于馬氏距離標準的策略約簡數據集,用以縮短決策模型訓練時間。 馬氏距離由印度統計學家Mahalanobis P C提出,是一種有效地計算兩個未知樣本集相似度的方法,由于其考慮了各屬性間的聯系,故相對歐式距離有明顯優勢。另外,由于高斯核函數的映射過程很好地保留了鄰居間的相互關系,故約簡數據集可在樣本空間進行,不必映射到高維空間。 對于給定的訓練集Train={X1,X2,…,Xn},任一數據樣本Xi={Xi1,Xi2,…,Xid},其中d為樣本包含的屬性個數。μ={μ1,μ2,…,μd}為每個屬性的數學期望所構成的向量,Σ為協方差矩陣。計算公式如下: μj=E(Xij)i=1,…,n;j=1,…,d. (13) 定義1樣本點與訓練數據集數學期望間的馬氏距離MD(Xi): (14) 本文使用定義1作為衡量標準,約簡訓練集中與決策邊界無關的樣本點,約簡策略算法如表1所示。 表1 基于馬氏距離標準的約簡策略算法 2.2 自適應檢測機制 考慮到真實部署的無線傳感網絡受自然環境影響較大,其數據流的演變過程具有一定的隨機性,若采用一次訓練的方法進行離群檢測,決策模型的魯棒性和泛化能力將會隨著時間的推移逐漸退化。為了解決該問題,本文提出了一種基于數據分布密度的自適應離群檢測機制(ASVDD),使其能夠隨著傳感器數據流的演變過程自動更新決策模型,從而提高傳感網絡離群檢測的準確率。 2.2.1 數據流的滑動窗口模型 ASVDD使用滑動窗口模型處理傳感器數據流[18],其特點在于處理數據窗口的大小固定,滑動窗口的終點始終為當前時刻,即加入新數據的同時移除舊數據。滑動窗口可以保證模型訓練一直使用最新的傳感數據,使得決策模型與當前數據分布情況保持高度一致,能夠有效提高檢測效率。 如圖2所示的滑動窗口模型,其中窗口大小為n,即滑動窗口buffer中存儲有n個數據。若在t-1時刻buffer中存儲數據{Xt-n,Xt-n+1,…,Xt-1},則在當前時刻t時,buffer中將移除Xt-n,并加入當前時刻數據Xt,此時buffer中存儲數據{Xt-n+1,…,Xt-1,Xt}。在本算法中,對于離群值采用直接移除不加入滑動窗口的方式。 圖2 滑動窗口模型 2.2.2 基于數據分布密度的決策模型更新準則 決策模型更新準則是有效提高檢測效率的關鍵,Zhang[7]論文中采用基于離群點的更新準則,即當出現離群點則更新決策模型,但該算法僅考慮離群點的出現不能充分說明決策模型更新的需要。故本文提出基于數據分布密度的更新準則,依據數據分布密度判斷決策模型是否需要更新,保證算法更新及時有效。 如圖3所示,為SensorScopeSystem數據集2號節點2007年9月15日歸一化后的溫度和濕度數據,采樣周期為2min,其中紅色點為6點到9點的數據分布情況,藍色點為18點到21點的數據分布情況。圖3(b)為圖3(a)投影到Y(溫度)軸和Z(濕度)軸后的圖像,由圖3(b)可以清楚的看到在該時間區間樣本點的空間分布情況。 定義2空間域Ω的數據分布密度ρ是指Ω中包含的數據樣本個數Num與Ω的面積S之比: ρ=Num/S (15) 圖3 不同時間段數據分布情況 將上述數據空間劃分為4個子空間域section1~section4,各個子空間域在時間段6點到9點和18點到21點的數據分布密度如表2所示。 表2 不同時間段數據分布密度 ASVDD更新準則為:當Δρ超過閾值τ時應更新決策模型使其與當前時刻正常數據流分布情況保持一致。故構建一個隨數據分布密度特征變化的SVDD分類面,即能夠有效地完成決策模型的自適應更新,ASVDD算法步驟如下: Step 1 將數據空間劃分為m個子空間域,即section(1),section(2),…,section(m); Step 2 計算訓練集樣本在各個子空間域中的數據分布密度,記為ρ_old; Step 3 計算當前時刻數據所屬子空間域section(i),i=1,2,…,m,更新數據分布密度,記為ρ_new; Step 4 計算Δρ=|ρ_new-ρ_old|; Step 5 若Δρ≥τ,則使用當前滑動窗口buffer中的數據更新決策模型,并把此時的ρ_old更新為ρ_new,繼續執行step3;若Δρ<τ,繼續執行step 3。 綜上所述,本文提出的RASVDD離群檢測算法如表3所示。 為了驗證本文提出的RASVDD算法性能,使用國際通用的無線傳感網絡數據集Intel Berkeley及SensorScope System完成了仿真實驗。實驗是在Intel(R)corei3雙核CPU,主頻3.6 GHz,內存4G,操作系統Window 7環境下進行的,編程語言采用MATLAB 2014a。在相同的實驗環境下,分別實現了RASVDD算法、基于SMO的SVDD算法(以下簡稱為SVDD),以及Zhang[7]的AOD算法,并進行了實驗結果的比較。 3.1 數據集 Intel Berkeley數據集來自于部署在Intel Berkeley實驗室中的無線傳感器網絡,該網絡包含54個MICA2傳感器節點,采樣周期為30 s,運行周期為2004年2月28日到2004年4月5日,每個節點采集的數據包括溫度(Temperature)、濕度(Humidity)、光照(light)及電壓(voltage)4個屬性。本文選取1號傳感器節點2004年2月28日到2004年3月2日全天的溫度、濕度采樣數據作為本實驗數據集。SensorScope System數據集來自于部署在瑞士和意大利之間Grand-St-Bernard山峰的2 400 m處的無線傳感器網絡,數據從2007年9月開始采集。每個節點采集的數據包括環境溫度(Ambient Temperature)、地表溫度(Surface Temperature)、日光照射(Solar Radiation)、相對濕度(Relative Humidity)等屬性。本文選取2號傳感器節點2007年9月15日到2007年9月18日的環境溫度和地表溫度采樣數據作為實驗數據集。表4列出了本文實驗所用的4個數據集。 表4 實驗所用數據集 3.2 性能評價指標 對于二分類問題,可將樣本根據其真實類別和決策模型檢測類別的組合劃分成真正例(true positive,TP)、假正例(false positive,FP)、真反例(true negative,TN)、假反例(false negative,FN)4種情形,其可用“混淆矩陣”來說明[19],如表5所示。 表5 分類結果混淆矩陣 本文利用TPR(True Positive Rate)、TNR(True Negative Rate)、FPR(False Positive Rate)、FNR(False Negative Rate)作為衡量著指標,其計算公式如下: (16) (17) (18) (19) 3.3 約簡策略的對比試驗 為驗證本文提出的基于馬氏距離標準的約簡策略在決策模型訓練時間上的性能,分別使用SVDD算法和RASVDD算法在不同規模數據集上做訓練,并用訓練時間即決策模型形成所用時間作為衡量指標,結果如圖4所示。由圖4可得,RASVDD算法在訓練時間方面有明顯優勢,相對SVDD算法訓練時間總體減少20%以上,在訓練數據樣本增多時,優勢更為明顯。這是由于RASVDD算法利用馬氏距離的標準有效地刪減了訓練集中與決策無關的冗余數據,故RASVDD算法在訓練決策模型時,省去了訓練冗余數據的時間,提高了決策模型的訓練速度。 圖4 SVDD算法和RASVDD算法在不同規模訓練集上的訓練時間 3.4 離群檢測算法性能的對比試驗 為驗證RASVDD算法性能,分別在上述4個數據集上對算法進行對比,由表6~表9可得,RASVDD算法考慮了自然環境的多變性,采用基于數據分布密度的自適應檢測機制,在數據流發生變化時通過更新準則及時有效地更新了決策模型,其TPR平均達98.52%,FPR平均僅為0.61%,而SVDD算法的TPR平均僅為59.68%,而FPR平均高達35.8%,由此可得RASVDD有效改善了SVDD不能自適應更新的問題,表現出了優于SVDD的良好檢測性能。由表6~表8可得AOD算法在數據集Ⅰ,Ⅱ,Ⅲ上均表現出良好的檢測性能,TPR達97%以上,但由表9可得其在數據集Ⅳ上TPR大幅下降,僅為18%,這是由于數據集Ⅳ在數據流未出現離群點前數據分布便發生了變化,AOD算法更新準則沒有檢測到數據流變化未及時更新決策模型,而RASVDD算法更新準則是基于數據分布密度,故在數據集Ⅳ上也保持了良好的檢測性能。綜上,對比AOD算法和SVDD算法,RASVDD具有更好的離群檢測性能。 表6 IBRL_1數據集性能測試結果 表7 SensorScope_1數據集下性能測試結果 表8 SensorScope_2數據集下性能測試結果 表9 IBRL_2數據集下性能測試結果 圖5 SVDD算法和RASVDD算法的ROC曲線 圖5為ROC(Receiver Operating Characteristic)曲線,其縱軸為TPR,該值越高越好,橫軸為FPR,該值越低越好。這兩個指標相互制約,若算法對離群數據敏感,則TPR會較高,但FPR也會相應地升高。在理想情況下,當所有的離群樣本均被檢測為離群,正常樣本均被檢測為正常,此時TPR為1,FPR為0;在TPR達到1時,算法對離群數據靈敏性的提升只能導致正常樣本被檢測為離群,此時TPR為1,FPR不斷增大;在最極端情況下,全部樣本均被檢測為離群,此時TPR為1,FPR也為1。在對不同算法性能進行比較時較為合理的判斷依據是比較ROC曲線下的面積[19],即AUC(Area Under ROC Curve)。圖5為SVDD和RASVDD的ROC曲線,由圖可以明顯看出SVDD的ROC曲線被RASVDD的曲線完全包住,因此RASVDD擁有更大的AUC,故RASVDD的性能優于SVDD。 圖6給出了訓練集樣本取值為[100,300,500,700,900,1100]時,RASVDD、SVDD訓練集樣本數和TPR、FPR的關系。 圖6 訓練集樣本數對檢測算法性能的影響 從圖6(a)可以看出,SVDD的TPR存在很大的波動性,隨著樣本數的增加,其TPR會逐漸降低。這是由于在訓練樣本較多時,SVDD算法將訓練集內的數據全部判斷為正常。例如:訓練集樣本包含全天所有時刻的數據,進行在線檢測時,若在凌晨時刻出現正午時刻的數據,其應該被判斷為離群。但由于SVDD決策模型中含有全天候的數據,而且檢測算法沒有使用自適應更新機制,SVDD算法通常會將該離群數據判斷為正常數據,即造成誤判,故在樣本數增加時,其TPR會降低,而RASVDD根據數據分布密度自適應更新了決策模型,故其TPR對訓練樣本數變化不敏感。從圖6(b)可得SVDD在訓練集樣本小于300時FPR高達45%以上,而RASVDD的FPR始終低于20%。這是由于在訓練集樣本較少時,SVDD算法將訓練集以外的數據全部判斷為離群點。例如:訓練集中只含有凌晨時間段的數據,SVDD決策模型會將正午時刻的正常數據全部判斷為離群點,而RASVDD更新準則會根據數據分布密度的變化情況,及時更新決策模型,所以訓練集樣本數的變化對RASVDD的FPR影響較小。 本文針對無線傳感網絡離群檢測提出了RASVDD算法,其主要特點有:利用基于馬氏距離標準的方法對訓練數據集進行約簡,刪減了與決策無關的數據樣本,使訓練時間減少的前提下,避免了準確率的損失;針對無線傳感網絡數據流會隨時間發生不定變化,本文使用了基于數據分布密度的自適應決策模型更新機制,使決策模型隨數據流變化自適應更新,提高了離群檢測算法的準確率。在真實數據集下的仿真實驗證明了RASVDD與以往同類算法相比,對無線傳感網絡離群檢測有更好的分類效果。本文算法是針對非均勻部署的低密度無線傳感網絡而設計的,著重利用節點數據流自身的時間相關性進行離群檢測。在今后的算法研究中將考慮同時利用節點間的時空相關性,以便進一步提高檢測精度,并降低算法復雜度。 [1] Zhang Y,Meratnia N,Havinga P. Outlier Detection Techniques for Wireless Sensor Networks:A Survey[J]. IEEE Communications Surveys and Tutorials,2010,12(2):159-170. [2] 單亞峰,湯月,任仁,等. 基于鄰域粗糙集與支持向量極端學習機的瓦斯傳感器故障診斷[J]. 傳感技術學報,2016,29(9):1400-1404. [3] Chandola V,Banerjee A,Kumar V. Anomaly Detection:A Survey[J]. ACM Computing Surveys,2009,41(3):1-58. [4] Zhang Y,Hamm N A S,Meratnia N,et al. Statistics-Based Outlier Detection for Wireless Sensor Networks[J]. International Journal of Geographical Information Science,2012,26(8):1373-1392. [5] 任倩倩,李建中,程思瑤. 無線傳感器網絡中可容錯的事件監測算法[J]. 計算機學報,2012,35(3):581-590. [6] Zhang Y,Meratnia N,Havinga P J M. Distributed Online Outlier Detection in Wireless Sensor Networks Using Ellipsoidal Support Vector Machine[J]. Ad Hoc Networks,2013,11(3):1062-1074. [7] Zhang Y,Meratnia N,Havinga P J M. Ensuring High Sensor Data Quality Through Use of Online Outlier Detection Techniques[J]. International Journal of Sensor Networks,2010,7(3):141-151. [8] Tax D M J,Duin R P W. Support Vector Domain Description[J]. Pattern Recognition Letters,1999,20(11-13):1191-1199. [9] Tax D M J,Duin R P W. Support Vector Data Description[J]. Machine Learning,2004,54(1):45-66. [10] 孫文柱,曲建嶺,袁濤,等. 基于改進SVDD的飛參數據新異檢測方法[J]. 儀器儀表學報,2014,35(4):932-939. [11] Hu C,Zhou B,Hu J. Fast Support Vector Data Description Training Using Edge Detection on Large Datasets[C]//International Joint Conference on Neural Networks. IEEE,2014:2176-2182. [12] 梁錦錦,劉三陽,吳德. 一種約減支持向量域描述算法RSVDD[J]. 西安電子科技大學學報(自然科學版),2008,35(5):927-931. [13] 謝迎新,陳祥光,余向明,等. 基于快速SVDD的無線傳感器網絡Outlier檢測[J]. 儀器儀表學報,2011,32(1):46-51. [14] Platt J C. Fast Training of Support Vector Machines Using Sequential Minimal Optimization[M]. MIT Press,1999:185-208. [15] Fan R E,Chen P H,Lin C J. Working Set Selection Using Second Order Information for Training Support Vector Machines[J]. Journal of Machine Learning Research,2005,6(4):1889-1918. [16] Liu Y H,Liu Y C,Chen Y J. Fast Support Vector Data Descriptions for Novelty Detection.[J]. IEEE Transactions on Neural Networks,2010,21(8):1296-313. [17] 周勝明,曲建嶺,高峰,等. 基于HE-SVDD的航空發動機工作狀態識別[J]. 儀器儀表學報,2016,37(2):308-315. [18] 金澈清,錢衛寧,周傲英. 流數據分析與管理綜述[J]. 軟件學報,2004,15(8):1172-1181. [19] 周志華. 機器學習[M]. 北京:清華大學出版社,2016:33-35. 魏暢(1993-),女,江南大學物聯網工程學院碩士研究生,主要研究方向為無線傳感網絡離群檢測,weichang92@126.com; 李光輝(1970-),男,通信作者,教授,博士,博士生導師,主要研究方向為無線傳感器網絡、無損檢測技術等,ghli@jiangnan.edu.cn。 OutlierDetectioninWirelessSensorNetworksBasedonReductionStrategyandAdaptiveSVDD* WEIChang1,3,LIGuanghui1,2,3* (1.School of IoT Engineering,Jiangnan University,Wuxi Jiangsu 214122,China; 2.Jiangsu High Technology Research Key Laboratory for Wireless Sensor Networks,Nanjing 210003,China; 3.Research Center of IoT Technology Application Engineering(MOE),Wuxi Jiangsu 214122 China) Wireless sensor networks are often deployed in the harsh and unattended environment,and the sensor data loss or error usually happens for the sake of bad weather,hardware or software fault,energy dissipation or the adverse attack. Outlier detection of the sensor data streams is critical for improving the system’s availability. In this paper,an outlier detection method(RASVDD)based on the data reduction and adaptive SVDD is proposed. RASVDD uses the Mahalanobis distance criterion to reduce the data set and the training samples,and then the data distribution density criterion and the temporal correlation of data stream are applied to update the training model adaptively. The simulation results for the Intel Berkeley dataset and the SensorScope System dataset showed that,RASVDD had an average true positive rate of 98% and an average false positive rate of 1%,and reduced the model training time more than 20% compared to traditional SVDD. wireless sensor network;data reduction;SVDD;outlier detection;simulation 項目來源:國家自然科學基金項目(61472368,61174023);江蘇省重點研發計劃項目(BE2016627) 2017-03-19修改日期:2017-05-15 TP274.2 :A :1004-1699(2017)09-1388-08 10.3969/j.issn.1004-1699.2017.09.015







2 基于約簡策略與自適應SVDD的無線傳感網絡離群檢測方法
Σij=cov(Xi,Xj)=E[(Xi-μi)(Xj-μj)]




3 仿真結果及其分析













4 結論

