馮喬



摘要:構建了一種通過DBN實現的1/4超球面支持向量機(QuarterSpheresupportvectormachines,QSSVM)測試模型,設計了一種可以實現在線測試功能的異常檢測算法。當窗口擴大后,QSSVM發生了準確度不斷提高的變化趨勢,能夠提高半徑的測試精度。當窗口增大后算法持續時間增加,QSSVM相對于OCSVM(OneClasssupportvectormachines,OCSVM)可以降低近一半的計算時間。隨著窗口擴大至臨界值后,將會引起準確度的減小,設置QSSVM算法滑動窗口為100。當樣本包含更高的維度異常比例時,所有算法都出現了檢測率增大的變化現象。當樣本維度升高后,QSSVM依然具備優異檢測性能,而Kmeans發生了檢測性能的下降。通過測試發現,采用新算法能夠滿足大規模高維傳感器的數據處理需求,從而減小時間復雜度并能夠更加準確測定異常數據。
關鍵詞:傳感器網絡;異常檢測;深度信念網絡;超球面支持向量機
中圖分類號:TP393
文獻標志碼:A
AnomalyDetectionandAnalysisofSensorNetworkData
BasedonHypersphereSupportVectorMachine
FENGQiao
(SchoolofMechanicalandElectricalandInformationEngineering,WuxiVocationalInstituteofArts&Technology,Wuxi214200,China)
Abstract:AQSSVMtestmodelof1/4hyperspheresupportvectormachineimplementedbyDBNisconstructed,andananomalydetectionalgorithmthatcanrealizeonlinetestisdesigned.Whenthewindowisenlarged,theaccuracyofQSSVMchangescontinuously,whichcanimprovethetestingaccuracyofradius.Thealgorithmcancontinuetoincreasethetimeafterthewindowisenlarged,QSSVMcanreducethecomputingtimebynearlyhalfcomparedwithOCSVM.Asthewindowexpandstothecriticalvalue,theaccuracywilldecrease.WesettheslidingwindowofQSSVMalgorithmto100.Whenthesamplecontainsahigherproportionofdimensionalanomalies,allalgorithmsshowthephenomenonofincreasingdetectionrate.Whenthesampledimensionisincreased,QSSVMstillhasexcellentdetectionperformance,whilekmeanshasdecreaseddetectionperformance.Throughtesting,itisfoundthatthenewalgorithmcanmeetthedataprocessingrequirementsoflargescalehighdimensionalsensors,itreducesthetimecomplexity,andmeasurestheabnormaldatamoreaccurately.
Keywords:sensornetwork;abnormaldetection;deepbeliefnetwork;hyperspheresupportvectormachine
0引言
隨著時代的發展,物聯網已成為當前人們開展生活與工作的重要工具,這也因此促進了無線傳感器網絡的大量應用[13]。但考慮到這些傳感器通常都被安裝于多種復雜的環境中,并且不同類型的傳感器的數據結構、傳輸模式也存在較大差異,一旦出現運行故障時便會引起數據異常的情況,這些異常數據將會對實際處理過程造成較大干擾,無法從中提取出準確的參考信息,從而對最后的決策過程造成不利影響[46]。為克服上述問題,需要對無線傳感器網絡內的各類異常數據實施快速高效監測。通過快速測定異常數據可以使傳感器能夠更加穩定并準確地采集數據。
利用近鄰分析方法計算出本節點和相鄰節點的數據距離再判斷本節點的數據是否存在異常的情況,當實際測定的數據和鄰居節點數據具有明顯差異時說明該數據發生了異常,由于需要很長時間才能計算得到各數據距離,因此不能滿足大規模傳感器網絡的應用條件;可以采用聚類分析的方式,根據數據分簇類型來達到對異常數據的孤立目的,但采用這一方法需獲得所有數據后再對其實施分簇,無法滿足在線測試異常數據的要求[78]。采用上述方法可以同時滿足測試精度與在線檢測的要求,同時還可以對高維數據集合出現異常情況時進行測試,已經成為現階段獲得普遍應用的異常測試方法[911]。利用單類支持向量機OCSVM來完成異常測試已經成為現階段的一種重要檢測方法,該方法可以采用無監督的狀態快速找出各項異常數據。為克服上述缺陷,本研究根據上述研究內容,進一步優化了OCSVM,構建得到了一種通過DBN實現的1/4超球面支持向量機QSSVM測試模型,同時根據該模型設計了一種可以實現在線測試功能的異常檢測算法。
1算法
1.11/4超球面支持向量機(QSSVM)
QSSVM把樣本數據映射至高維空間內,再把該空間內由樣本組成的圓心移動到坐標原點,按照正坐標軸的方向構建1/4超球面,其中被球面包含的數據屬于正常數據,處于球面以外的數據屬于異常數據。
對于樣本
X={xi,1≤i≤n}處于特征空間內的1/4球面需要求解下述問題如式(1)。
minR∈R,ξ∈Rn
R2+1vn∑ni=1ξi
s.t.Φ(xi)2≤R2+ξi
ξi≥0,i=1,2…,n
(1)
把式(1)對偶問題通過式(2)進行表示,如式(2)。
minα∈Rn
-∑ni=1αik(xi,xi)
s.t.∑ni=1αi=10≤αi≤1vn;i=1,2,…,n
(2)
與球面QSSVM進行非線性規劃的過程相比可以發現,采用式(2)實施線性規劃可以顯著降低計算過程的復雜度。但因為通過距離指標構建的核函數k(xi,xi)對所有樣本節點都相同,所以不能根據式(2)獲得有意義的解。需要利用核函數中心化的處理方式求解上述問題,把完成中心化的核函數表示如式(3)。
kc=k-1nk-k1n+1nk1n
(3)
再把式(2)轉變成如式(4)。
minα∈Rn
-∑ni=1αikc(xi,xi)
s.t.∑ni=1αi=10≤αi≤1vn;i=1,2,…,n
(4)
利用式(4)求解拉格朗日系數αi,并判斷樣本xi的節點和超球體之間的相互關系:如果αi=0,可以認為此時的樣本節點屬于正常數據;如果αi=1vn,表明樣本節點屬于異常數據;如果0<αi<1vn,同時xi表示邊界支持向量,利用此向量和原點之間的距離計算出1/4球面半徑R。
1.2深度信念網絡(DeepBeliefNetwork,DBN)模型
深度信念網絡具備深度學習功能,包含了多個玻爾茲曼機(Restrictedboltzmannmachine,RBM),如圖1所示。
這一網絡可以對RBM實施分層訓練,其作用是接收進行RBM訓練時產生的特征數據。因為各層RBM在訓練過程中只能實現自身最優的狀態,這使得采用分層訓練方法也不能達到全局最優的效果。
1.3基于深度信念網絡的傳感器數據異常檢測算法
DBN和QSSVM構成的混合模型如圖2所示。
模型功能是對DBN降維模型實施訓練并去除訓練時產生的異常數據,采用測試模型對各類數據進行實時測試發現異常情況。
把訓練數據輸入到訓練模型的DBN底層節點中,再對DBN內各層權值W進行訓練,包括顯層與隱層節點偏執兩種情況,再把經過降維處理的訓練數據傳輸至QSSVM再將異常數據進行輸出,去除數據集內的所有異常數據。
把采集獲得的待檢測數據傳輸至經過訓練的DBN模型內,再輸出經過降維處理的測試數據,同時將其加入滑動窗口內,把上述窗口數據傳輸至QSSVM,判斷新數據有無異常的問題。
2實驗
2.1數據集與實驗設置
本次測試的數據來自UCI機器學習庫[12],總共包含了四組通過實際傳感器檢測得到的數據,具體包括:48維Forest監測參數、110維GAS氣體測試數據、320維DSA活動記錄數據以及540維HAR智能設備測試數據。之后從各數據集內選出由連續時間組成的1000個樣本,再選擇其中的800個樣本數據用于訓練,通過隨機的方式加入比例為5%的異常數據,再對剩余的20%數據進行測試,同時以隨機方式設置了10%異常數據。
為了盡量提升算法的性能,本實驗實施了多次測試,使用兩層DBN對輸入數據實施降溫至6維。各算法都通過MATLABR2017a進行模擬分析,總共進行10次測試并計算平均值。
2.2算法效率及窗口大小影響
表1顯示了對上述算法進行訓練的模型以及在異常數據檢測階段花費的時間,同時給出了各窗口下的QSSVM準確性。考慮到時間受到數據集合和異常維度比率的影響程度很小,所有記錄時間都是處于異常維度比率條件下算法所需的平均運行時間。測試結果如表1所示。
當窗口擴大后,QSSVM發生了準確度不斷提高的變化趨勢,產生這一情況的原因是當窗口增大后,將包含更多的樣本數據,每次進行球面半徑計算時可以獲得更多的正常樣
本,同時也能夠提高半徑的測試精度。
2.3檢測率(DR)
各算法處于不同比率維度下的異常數據測試精度如圖3所示。
通過四組測試結果可知,當樣本包含更高的維度異常比例時,所有算法都出現了檢測率增大的變化現象。采用QSSVM算法處理Forest數據與GAS數據時相對于Kmeans的性能略差,而當樣本維度升高后,QSSVM依然具備優異檢測性能,而Kmeans發生了檢測性能的下降,對于560維的HAR數據只能達到43.81%的檢測率,采用QSSVM算法則能夠獲得高達94.16%的檢測率,當樣本維度升高后,一些低維度異常數據不能被檢測到,說明此時沒有檢測出所有異常數據。
3總結
(1)當窗口擴大后,QSSVM發生了準確度不斷提高的變化趨勢,能夠提高半徑的測試精度。當窗口增大后算法持續時間增加,QSSVM相對于OCSVM可以降低近一半的計算時間。隨著窗口擴大至臨界值后,將會引起準確度的減小,設置QSSVM算法滑動窗口為100。
(2)當樣本包含更高的維度異常比例時,所有算法都出現了檢測率增大的變化現象。當樣本維度升高后,QSSVM依然具備優異檢測性能,而Kmeans發生了檢測性能的下降。
參考文獻
[1]
許春杰,吳蒙,楊立君.一種基于分層聚合的分布式異常數據檢測方案[J/OL].計算機工程,[20190709].https://doi.org/10.19678/j.issn.10003428.0054066.
[2]劉禹彤,李銳,包俊杰,劉亞希.中國區域電離層異常數據野值檢測[J/OL].北京航空航天大學學報,[20190709].https://doi.org/10.13700/j.bh.10015965.2019.0152.
[3]武海龍,武海艷.云計算光纖網絡中大數據異常負載檢測模型[J].激光雜志,2019(6):207211.
[4]劉志方.大數據網絡下船舶軌跡異常故障檢測技術優化[J].艦船科學技術,2019,41(10):3436.
[5]陳永聰.云組合服務網絡的異常植入數據檢測算法[J].信息技術,2019,43(6):111114.
[6]趙寶慶,王赫男.基于熵權聚類網絡異常行為的檢測方法研究[J].信息技術,2019,43(6):121124.
[7]農婷.大數據環境下的網絡流量異常檢測研究[J].科技風,2019(17):84.
[8]ChristodoulouVyron,BiYaxin,WilkieGeorge.AtoolforSwarmsatellitedataanalysisandanomalydetection.[J].PloSone,2019,14(4):12841291.
[9]MunirMohsin,SiddiquiShoaibAhmed,ChatthaMuhammadAli,etal.FuseAD:UnsupervisedAnomalyDetectioninStreamingSensorsDatabyFusingStatisticalandDeepLearningModels[J].Sensors(Basel,Switzerland),2019,19(11):24512459.
[10]吳海波,施式亮,念其鋒.瓦斯濃度流數據實時異常檢測方法[J].計算機與數字工程,2019,47(5):10861090.
[11]王振昊,王布宏.基于SVDD的ADSB異常數據檢測[J].河北大學學報(自然科學版),2019,39(3):323329.
[12]李昊奇,應娜,郭春生,等.基于深度信念網絡和線性單分類SVM的高維異常檢測[J].電信科學,2018(1):3442.
(收稿日期:2020.02.25)