999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機(jī)投影與集成學(xué)習(xí)的離群點(diǎn)檢測算法

2022-12-31 00:00:00郭一陽于炯杜旭升曹銘
計算機(jī)應(yīng)用研究 2022年9期

收稿日期:2022-02-10;修回日期:2022-04-07" 基金項目:國家自然科學(xué)基金資助項目(61862060,61462079,61562086,61562078)

作者簡介:郭一陽(1996-),男,山東滕州人,碩士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘;于炯(1964-),男(通信作者),北京人,教授,博導(dǎo),博士,主要研究方向?yàn)榉植际接嬎恪C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘(yujiong@xju.edu.cn);杜旭升(1995-),男,甘肅慶陽人,博士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘;曹銘(1996-),女,山東菏澤人,碩士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘.

摘 要:

針對傳統(tǒng)基于相似度的離群點(diǎn)檢測算法在高維不均衡數(shù)據(jù)集上效果不夠理想的問題,提出一種新穎的基于隨機(jī)投影與集成學(xué)習(xí)的離群點(diǎn)檢測(ensemble learning and random projection-based outlier detection,EROD)框架。算法首先集成多個隨機(jī)投影方法對高維數(shù)據(jù)進(jìn)行降維,提升數(shù)據(jù)多樣性;然后集成多個不同的傳統(tǒng)離群點(diǎn)檢測器構(gòu)建異質(zhì)集成模型,增加算法魯棒性;最后使用異質(zhì)模型對降維后的數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練后的模型經(jīng)過兩次優(yōu)化組合以降低泛化誤差,輸出最終的對象離群值,離群值高的對象被算法判定為離群點(diǎn)。分別在四個不同領(lǐng)域的高維不均衡真實(shí)數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn),結(jié)果表明該算法與傳統(tǒng)離群點(diǎn)檢測算法和基于集成學(xué)習(xí)的離群點(diǎn)檢測算法相比,在AUC和precision@n值上平均提高了3.6%和14.45%,證明EROD算法具有處理高維不均衡數(shù)據(jù)異常的優(yōu)勢。

關(guān)鍵詞:數(shù)據(jù)挖掘; 離群點(diǎn)檢測; 隨機(jī)投影; 集成學(xué)習(xí)

中圖分類號:TP311.1"" 文獻(xiàn)標(biāo)志碼:A"" 文章編號:1001-3695(2022)09-007-2608-07

doi: 10.19734/j.issn.1001-3695.2022.02.0053

Outlier detection algorithm based on random projection and ensemble learning

Guo Yiyang1a, Yu Jiong1a,1b, Du Xusheng1a, Cao Ming2

(1. a.College of Information Science amp; Engineering, b.School of Software, Xinjiang University, Urumqi 830091, China; 2.Ocean University of China, College of Information Science amp; Engineering, Qingdao Shandong 266100, China)

Abstract:To address the problem that traditional similarity-based outlier detection algorithms were not effective enough on high-dimensional unbalanced datasets,this paper proposed a novel ensemble learning and random projection-based outlier detection (EROD) framework. Firstly,the EROD algorithm integrated several random projection methods to reduce the dimensionality of high-dimensional data,which improved the data diversity. Secondly,it integrated several different traditional outlier detectors to build a heterogeneous ensemble model,which increased the robustness of the algorithm. Finally,the EROD acquired the final outlier value of the object by using the heterogeneous ensemble model to train the reduced-dimensional data and by using two optimal combinations of the trained model to reduce the total error,and the algorithm determined the object with high outlier value as outlier point. The results show that the algorithm has an average improvement of 3.6% and 14.45% in AUC and precision@n value compared with the traditional outlier detection algorithm and the outlier detection algorithm based on ensemble learning. Therefore,the EROD algorithm has the advantage of handling the anomalies of high-dimensional unbalanced data.

Key words:data mining; outlier detection; random projection; ensemble learning

0 引言

與正常數(shù)據(jù)相比,離群點(diǎn)是具有不同特征的數(shù)據(jù)點(diǎn),其被定義為:假設(shè)某一個數(shù)據(jù)在數(shù)據(jù)集中遠(yuǎn)遠(yuǎn)地偏離其他絕大多數(shù)數(shù)據(jù),那么該數(shù)據(jù)被認(rèn)知為與其他數(shù)據(jù)所產(chǎn)生的機(jī)制不相同,則它被判定為離群點(diǎn)[1]。之所以刪除離群點(diǎn)是數(shù)據(jù)挖掘中不可或缺的預(yù)處理步驟,是因?yàn)殡x群點(diǎn)的存在對數(shù)據(jù)統(tǒng)計分析的結(jié)果有嚴(yán)重的負(fù)面影響[2]。因此,為了刪除離群點(diǎn),首先需要對其進(jìn)行識別,這是離群點(diǎn)檢測算法的首要目標(biāo)。

離群點(diǎn)檢測是一項重要的機(jī)器學(xué)習(xí)任務(wù),它可以在許多具有高風(fēng)險應(yīng)用的常規(guī)數(shù)據(jù)對象中檢測出異常對象,例如流量反作弊檢測。

據(jù)《2020年中國異常流量報告》,異常流量約占整體的8.6個百分點(diǎn)。作為全球最大的廣告流量平臺,阿里媽媽(隸屬于阿里巴巴集團(tuán))擁有超過1 000億美元的商業(yè)流量,這代表著其為黑灰產(chǎn)業(yè)瞄準(zhǔn)的首要對象。從阿里媽媽團(tuán)隊的業(yè)務(wù)角度分析,流量反作弊檢測的核心思想之一是識別欺詐和低質(zhì)量的異常流量內(nèi)容,以保護(hù)客戶和平臺的權(quán)益。在當(dāng)前的機(jī)器學(xué)習(xí)領(lǐng)域,流量反作弊檢測可能是對算法魯棒性和解釋性要求最高、精確度要求最高、系統(tǒng)規(guī)模和時效性要求最高、行業(yè)規(guī)模最大的業(yè)務(wù)。因此,流量反作弊檢測技術(shù)團(tuán)隊必須要有“鐵打”的營盤,才能夠?qū)㈦x群點(diǎn)檢測技術(shù)與流量反作弊應(yīng)用結(jié)合得更加緊密。在流量反作弊檢測任務(wù)中,高維不均衡數(shù)據(jù)的離群點(diǎn)檢測成為國內(nèi)外相關(guān)團(tuán)隊關(guān)注的首要焦點(diǎn)。

基于相似度的離群點(diǎn)檢測算法是常見的傳統(tǒng)無監(jiān)督機(jī)器學(xué)習(xí)算法,但該種類離群點(diǎn)檢測算法在檢測高維數(shù)據(jù)時由于在距離計算方面面臨維度災(zāi)難的挑戰(zhàn),使其難以衡量對象在高維空間分布模式上的相似度,進(jìn)而導(dǎo)致其在檢測高維不均衡數(shù)據(jù)集時,存在檢測率低、參數(shù)敏感性高等問題。在現(xiàn)實(shí)工業(yè)界實(shí)際環(huán)境中,在沒有真實(shí)的數(shù)據(jù)標(biāo)簽的情況下,工程師們通常要構(gòu)建大量、無監(jiān)督的異質(zhì)集成模型,即具有不同超參數(shù)的不同算法的集成模型,以便進(jìn)一步地組合進(jìn)行研究分析,而不是依靠單個算法。因此,本文提出了一種基于隨機(jī)投影和集成學(xué)習(xí)(EROD)的離群點(diǎn)檢測算法。

為了提升傳統(tǒng)的離群點(diǎn)檢測算法在高維不均衡數(shù)據(jù)集上的檢測正確率,EROD算法應(yīng)用隨機(jī)投影對待檢測的數(shù)據(jù)集進(jìn)行降維,集成傳統(tǒng)的離群點(diǎn)檢測算法對降維后的數(shù)據(jù)計算出所有數(shù)據(jù)對象的離群值,通過對傳統(tǒng)的離群點(diǎn)檢測算法進(jìn)行動態(tài)分組與優(yōu)化組合,組合后的離群值作為算法最終判定的離群值。在UCI(University of California,Irvine)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,EROD算法與其他離群點(diǎn)檢測算法對比,檢測率得到了明顯提升。

本文的主要貢獻(xiàn)總結(jié)如下:

a)提出了一種新的無監(jiān)督離群點(diǎn)檢測框架,在數(shù)據(jù)和模型上進(jìn)行了異質(zhì)集成。對隨機(jī)投影法進(jìn)行集成以提升數(shù)據(jù)多樣性,集成傳統(tǒng)的離群點(diǎn)檢測算法以提升模型多樣性,通過兩個階段的組合,提升整體框架的檢測率。

b)針對傳統(tǒng)的離群點(diǎn)檢測算法在不同的高維不均衡數(shù)據(jù)集上存在不穩(wěn)定性,利用集成的特性對傳統(tǒng)算法進(jìn)行均衡處理,使得整體趨于穩(wěn)定,提升了檢測率。

c)對傳統(tǒng)的離群點(diǎn)檢測算法進(jìn)行了全面的參數(shù)敏感性分析,預(yù)測了整體框架的參數(shù)與性能,并對特別的數(shù)據(jù)集進(jìn)行了可視化分析論述。

1 相關(guān)工作

從19世紀(jì),研究學(xué)者們就已經(jīng)展開了對離群點(diǎn)檢測的科學(xué)研究[3]。基于統(tǒng)計與概率的離群點(diǎn)檢測方法是一種較早提出的研究方法,這種方法根據(jù)統(tǒng)計與概率學(xué)原理檢測離群現(xiàn)象,具有時間復(fù)雜度低的優(yōu)點(diǎn)。其核心思想是:首先,估計出數(shù)據(jù)集的分布模型;然后,假設(shè)其中的數(shù)據(jù)對象滿足該分布模型的分布規(guī)律;最后,通過評判數(shù)據(jù)對象與該分布模型是否一致來檢測出數(shù)據(jù)集中存在的離群點(diǎn)。文獻(xiàn)[4]受到統(tǒng)計函數(shù)Copula函數(shù)的啟發(fā),通過利用Copula函數(shù)預(yù)測每個給定樣本的尾部分布概率,以確定其離群程度。但是這種方法需要預(yù)先準(zhǔn)確地計算出分布模型的參數(shù),如果不能預(yù)先準(zhǔn)確地估計出該參數(shù),那么將導(dǎo)致該方法得到的參數(shù)估計值與真實(shí)值之間存在顯著差異,使得離群點(diǎn)檢測的準(zhǔn)確率大幅度降低。

由于基于統(tǒng)計與概率的離群點(diǎn)檢測方法的局限性,基于相似度的離群點(diǎn)檢測研究方法在21世紀(jì)初被提出。基于相似度的離群點(diǎn)檢測方法針對正常點(diǎn)和離群點(diǎn)在數(shù)據(jù)集中分布不同的特點(diǎn),通過度量數(shù)據(jù)對象之間的相似度(如距離、密度、角度等)進(jìn)行檢測離群點(diǎn)。在文獻(xiàn)[5]中,K最近鄰(K nearest neighbors,KNN)、K最近鄰平均數(shù)(average K nearest neighbors,Avg-KNN)和K最近鄰中位數(shù)(median K nearest neighbors,K-Median)通過計算樣本之間的歐氏距離來檢測離群點(diǎn),但它們對參數(shù)設(shè)置非常敏感,且檢測高維數(shù)據(jù)時檢測率低。文獻(xiàn)[6]提出了首個基于密度的聚類局部離群因子(local outlier factor,LOF)檢測方法,該技術(shù)為每個數(shù)據(jù)對象分配一個離群因子,解決了把離群值看做二元屬性的問題,但無法處理多粒度和超參敏感性問題。Tang等人[7]對LOF進(jìn)行改進(jìn),提出了基于連接的離群因子(connective-based outlier factor,COF),該方法通過計算連接距離作為最短路徑以估計鄰居的局部密度,其關(guān)鍵思想是基于低密度和孤立性之間的區(qū)分,但是該方法與LOF相比耗費(fèi)更多的計算成本。文獻(xiàn)[8]提出了基于角度的離群點(diǎn)檢測(angle-based outlier detection,ABOD)方法,通過將加權(quán)余弦分值與所有近鄰點(diǎn)的方差作為離群分值,該方法的決策邊界比較復(fù)雜,容易導(dǎo)致過擬合。

從閱讀相關(guān)文獻(xiàn)獲知,集成學(xué)習(xí)的不同基檢測器各自產(chǎn)生獨(dú)立誤差,對多個基檢測器進(jìn)行組合,可以在一定程度上緩解單一基檢測器的超參數(shù)敏感、訓(xùn)練難度大和擬合效果差等問題[9]。文獻(xiàn)[10]提出了特征裝袋(feature bagging,F(xiàn)B)離群點(diǎn)檢測算法,該方法通過分離原始特征并創(chuàng)建隨機(jī)的特征子集,合并多個算法應(yīng)用于該子集產(chǎn)生相應(yīng)的離群分?jǐn)?shù),該算法提高了檢測性能,但由于其檢測器為同質(zhì)檢測器這導(dǎo)致了其方法不夠多樣性;文獻(xiàn)[11]提出了一種輕量級異常在線檢測(lightweight on-line detector of anomalies,LODA)方法,其通過識別偏離大多數(shù)特征的數(shù)據(jù)進(jìn)而檢測出離群點(diǎn),該算法有著較低的時間復(fù)雜度,但由于單個檢測器輸出結(jié)果不穩(wěn)定導(dǎo)致其檢測率比較低;文獻(xiàn)[12]提出孤立森林(isolation forest,IForest)算法,其集成多棵孤立樹并記錄這些孤立樹的路徑長度,以此作為計算離群分值的依據(jù),但若是離群點(diǎn)樣本占比較高,與該算法所假設(shè)的離群點(diǎn)易被孤立的理論基礎(chǔ)互相沖突,致使產(chǎn)生不理想的結(jié)果。

可以看出,基于集成學(xué)習(xí)的離群點(diǎn)檢測算法可以通過側(cè)重于結(jié)合模型的輸出結(jié)果以生成穩(wěn)定的集成模型,進(jìn)而有效檢測離群點(diǎn)。這為本文解決上述基于相似度的離群點(diǎn)檢測算法局限性提供了思路,即EROD算法。EROD算法利用集成學(xué)習(xí)的特性對傳統(tǒng)算法進(jìn)行均衡處理,且與組件檢測器選擇上的理論基礎(chǔ)互相補(bǔ)充,并提高了算法的魯棒性。同時,EROD算法在數(shù)據(jù)和模型上進(jìn)行了異質(zhì)集成,提升了整體結(jié)構(gòu)的多樣性,并通過兩個階段的組合提升了算法的檢測率。

與上述離群點(diǎn)檢測算法相比,EROD具有魯棒性更強(qiáng)、檢測率更高以及不依賴先前假設(shè)的優(yōu)勢。

2 本文方法與理論性質(zhì)

表1詳細(xì)列出了本文后面內(nèi)容所需的部分符號定義。

2.1 EROD算法整體框架與流程

EROD算法分為三個步驟實(shí)現(xiàn):

a)降維。主要利用隨機(jī)投影法將高維數(shù)據(jù)隨機(jī)投影成低維數(shù)據(jù)。

b)構(gòu)建組件檢測器集成模型。為了增強(qiáng)EROD算法的魯棒性,將不同類別的離群點(diǎn)檢測模型進(jìn)行異質(zhì)集成。

c)二階段聚合。將異質(zhì)集成中多個組件檢測器隨機(jī)劃分成多個不同的集群,在不同的集群中選取每個集群中的最大值,對多個最大值求均值,該均值作為EROD判定的離群值。EROD算法整體框架與流程如圖1所示。

2.2 隨機(jī)投影集成

在離群點(diǎn)檢測過程中,絕大多數(shù)離群點(diǎn)檢測算法在高維數(shù)據(jù)上易受到維度災(zāi)難的嚴(yán)重影響[13]。為了解決該問題,JL隨機(jī)投影法被廣泛使用進(jìn)行消除維度災(zāi)難所帶來的負(fù)面效果。JL隨機(jī)投影是一種降維算法,它之所以被廣泛使用在離群點(diǎn)檢測上面,是因?yàn)槠浣稻S機(jī)制可保持兩兩數(shù)據(jù)之間的相對距離,對高維數(shù)據(jù)在歐氏空間上進(jìn)行低失真的壓縮,離群點(diǎn)的信息在壓縮過程中得以保留下來。更為重要的是,JL隨機(jī)投影法的隨機(jī)機(jī)制可增強(qiáng)集成學(xué)習(xí)的多樣性。

JL隨機(jī)投影的目的是近似保距,其理論基礎(chǔ)是Johnson-Lindenstrauss輔助定理[14]。如式(1)所示,JL隨機(jī)投影表示一種線性映射關(guān)系f:Rd→Rk,即將d維數(shù)據(jù)隨機(jī)投影為k維數(shù)據(jù);如式(2)所示,由Johnson-Lindenstrauss輔助定理可知,1≤i≠j≤n,ε∈(0,3),要以較高的概率P滿足兩兩數(shù)據(jù)對象之間的相對距離保持在(1-ε,1+ε)內(nèi),需將數(shù)據(jù)對象降維到k=O(log(n)/ε2)維。

f(xi)=xiA" A∈Euclid ExtraaBpd×k(1)

P[(1-ε)‖xi-xj‖2≤‖f(xi)-f(xj)‖2≤(1+ε)‖xi-xj‖2]≤2e-ε2k6(2)

如表2所示,根據(jù)文獻(xiàn)[15]中的四種廣泛使用的隨機(jī)矩陣A,可將JL隨機(jī)投影劃分為四種方法。

在四種JL隨機(jī)投影法中,稀疏隨機(jī)投影法在時間效率上略優(yōu)于另外三種隨機(jī)投影法[16],故EROD算法采用稀疏隨機(jī)投影法。

如式(3)(4)所示,原始數(shù)據(jù)集X的特征空間是由n個具有d維特征的數(shù)據(jù)構(gòu)成;稀疏隨機(jī)矩陣A是m個不同的稀疏隨機(jī)投影矩陣,每個稀疏隨機(jī)投影矩陣A∈Euclid ExtraaBpd×k,Yi是由稀疏隨機(jī)矩陣A作用在原始數(shù)據(jù)集X上得到的具有n個k維特征的數(shù)據(jù),其中0lt;klt;d,i=1,2,…,m。

X={x1,x2,x3,…,xn}∈Euclid ExtraaBpn×d(3)

Yi=〈X,A〉∈Euclid ExtraaBpn×k(4)

EROD算法使用JL隨機(jī)投影法進(jìn)行集成,其基本過程如下:首先,EROD算法使用稀疏隨機(jī)投影法生成m個不同的稀疏隨機(jī)投影矩陣A∈Euclid ExtraaBpd×k;然后,利用這m個稀疏矩陣A對高維數(shù)據(jù)集X∈Euclid ExtraaBpn×d進(jìn)行投影,得到m個投影后的數(shù)據(jù)集Yi∈Euclid ExtraaBpn×k;最后,把Yi存入集合Y中,輸出集合Y。

算法1 隨機(jī)投影集成算法

輸入:數(shù)據(jù)集X∈Euclid ExtraaBpn×d,數(shù)據(jù)集X降維后的維度k。

輸出:集合Y。

a) initialize m sparse random projection matrix A={A1,A2,A3,… ,Am}∈Euclid ExtraaBpd×k // 初始化m個JL稀疏隨機(jī)投影矩陣A

b) for Ai in A do // 遍歷m個JL稀疏隨機(jī)投影矩陣A

c)"" Yi=〈X,Ai〉∈Euclid ExtraaBpn×k

// 對X進(jìn)行隨機(jī)投影,得到投影后的數(shù)Yi

d)"" add(Yi,Y) // 把數(shù)據(jù)Yi存入集合Y

e) end for

f) output(Y) // 輸出集合Y

表2 隨機(jī)投影法說明

Tab. 2 Description of the random projection

JL隨機(jī)投影法A或Aij

高斯隨機(jī)投影Aij滿足獨(dú)立標(biāo)準(zhǔn)正態(tài)分布

離散隨機(jī)投影Aij=1kp=12

-1kp=12

循環(huán)隨機(jī)投影A=1kb0b1b2…bd-1bd-1b0b1…bd-2bd-2bd-1b0…bd-3bd-k+1bd-k+2bd-k+3…bd-k Λ

其中:b0,b1,…,bd-1滿足高斯分布;Λ為d×d對角矩陣,其對角線元素滿足獨(dú)立伯努利分布

稀疏隨機(jī)投影Aij=k" p=12k

0p=1-1k

-kp=12k

2.3 異質(zhì)集成學(xué)習(xí)

EROD離群點(diǎn)檢測算法選擇KNN、Avg-KNN、K-Median、LOF、COF和ABOD檢測器作為異質(zhì)集成學(xué)習(xí)模型的組件檢測器,即m=6。

之所以選擇這六種不同的離群點(diǎn)檢測算法作為異質(zhì)集成學(xué)習(xí)模型中的組件檢測器,是因?yàn)橄嗤碾x群點(diǎn)檢測算法產(chǎn)生的相同輸出對集成學(xué)習(xí)的積極影響效果不明顯[17],換句話說,一般情況下,不同的離群點(diǎn)檢測算法所構(gòu)建成的異質(zhì)集成學(xué)習(xí)模型會產(chǎn)生明顯的積極效果。這是因?yàn)椴煌慕M件檢測器會促使集成學(xué)習(xí)在學(xué)習(xí)過程中產(chǎn)生多樣性,可以學(xué)習(xí)數(shù)據(jù)的不同特征,進(jìn)一步提升模型的泛化能力。另外,相似度高的離群點(diǎn)檢測算法會產(chǎn)生相似的誤差,這會對預(yù)測結(jié)果帶來一定的消極影響[18]。

由于使用不同的、檢出率低的離群點(diǎn)檢測算法,雖然保證了一定的多樣性,但是模型的預(yù)測率將會降低,所以應(yīng)平衡多樣性和檢測率之間的關(guān)系。

因此,本文使用KNN、Avg-KNN、K-Median、LOF、COF和ABOD檢測器這六種具有不同特色且檢測率在所有主流的離群點(diǎn)檢測算法中較高的離群點(diǎn)檢測算法作為異質(zhì)集成學(xué)習(xí)模型的組件檢測器。

如式(5)所示,異質(zhì)集成學(xué)習(xí)模型中每個組件檢測器對數(shù)據(jù)Y計算所獲得的分值,在此被稱為離群因子Outlier_Factor,每個組件檢測器的輸出為D(X)∈Euclid ExtraaBpn×1。

Outlier_Factor=[D1(Y),D2(Y),…,D6(Y)]∈Euclid ExtraaBpn×6(5)

異質(zhì)集成基本過程如下:a)初始化異質(zhì)集成模型中的六個組件檢測器;b)利用初始化后的組件檢測器檢測由算法1輸出的數(shù)據(jù)Y;c)判定組件檢測器的輸出值作為數(shù)據(jù)Y的離群值。

算法2 異質(zhì)集成學(xué)習(xí)算法

輸入:集合Y={Y1,Y2,Y3,…,Ym},集合D={D1,D2,D3,…,Dm}。

輸出:離群值矩陣OF。

a) for i=1∶Size(D) do

b)" initialize component detector Di // 對每個組件檢測器進(jìn)行初始化

c) end for

d) for Yi in Y do // 遍歷集合Y

e)" for yj in Yi do // 遍歷數(shù)據(jù)集Yi

f)"" OF=Di(yj) /* 利用第i個組件檢測器檢測yj,得到y(tǒng)j的離群值Di(yj),將其作為離群值矩陣OF中的元素 /*

g)" end for

h) end for

i) output(OF) // 輸出離群值矩陣OF

算法2中全部組件檢測器在數(shù)據(jù)集Yi上輸出的離群值矩陣OF如式(6)所示。

OF=D1(y1)D2(y1)…D6(y1)

D1(y2)D2(y2)…D6(y2)

D1(yn)D2(yn)…D6(yn)

(6)

離群值矩陣OF的物理意義:該矩陣由數(shù)據(jù)集Yi中全部樣本的離群因子所構(gòu)成,即矩陣中的某個元素代表某個檢測器對于某個樣本所評估的離群程度[19,20]。

2.4 二階段聚合方法

如圖2所示,偏差與方差之間存在反比關(guān)系,即隨著集成學(xué)習(xí)模型復(fù)雜程度的增加,偏差下降,方差上升。這是因?yàn)閺?fù)雜程度低的模型在擬合能力上是欠缺的,即組件檢測器學(xué)習(xí)能力不夠強(qiáng),此時偏差主導(dǎo)了泛化誤差;反之,則方差主導(dǎo)了泛化誤差。

圖2 偏差—方差—泛化誤差三者之間的關(guān)系

Fig. 2 Relationship among bias-variance-total error

通常情況下,對組件檢測器求均值可以達(dá)到降低方差,提高偏差的效果;對組件檢測器求最大值則可以達(dá)到降低偏差,提高方差的效果。由于單一地使用任何一種組合方式可能會導(dǎo)致所獲得的離群分值與真實(shí)分值產(chǎn)生較大的誤差[21],所以,合理地結(jié)合均值和最大值兩種組件檢測器組合方式可以起到平衡偏差與方差的作用,使得泛化誤差降到一個合理范圍,提高檢測率。

由于泛化誤差可近似看成偏差的平方與方差之間的求和,所以,在第一階段,對組件檢測器求最大值,最大程度地降低泛化誤差;在第二階段,對余下的組件檢測器求均值,可使得偏差增加的幅度降到最低,進(jìn)而最大程度地降低泛化誤差的上升幅度。

二階段聚合基本過程:a)對算法2的輸出進(jìn)行歸一化處理,使不同離群點(diǎn)檢測模型的輸出值規(guī)范化到同一級量綱;b)將六個組件檢測器隨機(jī)劃分成兩個集群,且每個集群中所包含的三個離群點(diǎn)檢測模型存在互斥關(guān)系;c)從每個集群中選擇最大值作為該集群代表值,對每個集群代表值進(jìn)行求平均,該均值作為EROD算法最終判定的數(shù)據(jù)對象離群值。

算法3 二階段聚合算法

輸入:離群值矩陣OF。

輸出:EROD算法最終判定的對象離群值。

a) ZOF=Z-normalization(OF) /*對OF進(jìn)行歸一化處理(為避免數(shù)據(jù)表示雜亂,歸一化后的數(shù)據(jù)形式仍采用表1中的數(shù)學(xué)符號表示)*/

b) row=countRow(ZOF) // 計算矩陣ZOF行數(shù)

c) for j=1∶row do // 遍歷Y1~Y6中第j個數(shù)據(jù)

d)" for i=1∶6 do // 遍歷組件檢測器

e)"" detectors=Di(yj)

// 將矩陣ZOF每行中的離群值存入集合detectors

f)" end for

g) group1,group2=randomDivide(detectors) // 劃分集群

h) max1=Max(group1)

i) max2=Max(group2)

j) outlierScore=Average(max1,max2)

k) end for

l) output(outlierScore)

2.5 時間復(fù)雜度分析

設(shè)數(shù)據(jù)的數(shù)量和維度分別為n和d。算法1中,對數(shù)據(jù)進(jìn)行預(yù)處理,遍歷數(shù)據(jù)進(jìn)行隨機(jī)投影,該階段的時間復(fù)雜度為O(n);算法2中,使用組件檢測器對數(shù)據(jù)進(jìn)行計算,故該階段的復(fù)雜度取決于組件檢測器,且COF和ABOD檢測器都是Fast版本,故KNN、Avg-KNN、K-Median、LOF、COF和ABOD檢測器的時間復(fù)雜度分別為O(nd)、O(nd)、O(nd)、O(n)、O(n2)和O(n2),故該階段的時間復(fù)雜度為O(n2);算法3中,該階段任務(wù)是對算法2中的計算結(jié)果進(jìn)行優(yōu)化組合,該階段的時間復(fù)雜度為O(n)。

綜上可得EROD算法的時間復(fù)雜度規(guī)模為O(n2)。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)的硬件環(huán)境是:處理器為Intel Xeon Gold 5117 CPU @ 2.00 GHz 2.00 GHz(2處理器),顯卡為NVIDIA Tesla V100 PCIE 16 GB(共3塊),內(nèi)存(RAM)為256 GB。

實(shí)驗(yàn)的軟件環(huán)境是:操作系統(tǒng)環(huán)境為Microsoft Windows Server 2016 Standard,算法的實(shí)現(xiàn)環(huán)境為PyCharm Professional、Python 3.6.2、TensorFlow 1.14。

3.2 數(shù)據(jù)集

如表3所示,為了評估本文方法的檢測性能,選擇了四組均來自UCI數(shù)據(jù)存儲庫的具有不同實(shí)際應(yīng)用場景的真實(shí)數(shù)據(jù)集。下面分別對該四組數(shù)據(jù)集的具體信息進(jìn)行詳細(xì)論述:

a)Arrhythmia數(shù)據(jù)集。該原始數(shù)據(jù)集承載的是心律失常的信息,屬于多類分類數(shù)據(jù)集,共16個類別和279個維度,其作用是區(qū)分是否存在心律失常現(xiàn)象。現(xiàn)對該原始數(shù)據(jù)集進(jìn)行預(yù)處理,刪除5個維度,第3、4、5、7、8、9、14、15等一系列小類別被定義為離群,其余類為正常。處理后的數(shù)據(jù)集總共包含452個樣本對象,每個樣本包含274個維度,其中有66個樣本對象作為離群樣本。

b)Mnist數(shù)據(jù)集。該原始數(shù)據(jù)集承載的是手寫數(shù)字的圖像信息,包含數(shù)字0~9等10個圖像類別。現(xiàn)對該原始數(shù)據(jù)集進(jìn)行預(yù)處理,數(shù)字0被定義為正常,其余數(shù)字被定義為離群,從原始數(shù)據(jù)集784個維度中隨機(jī)選擇100個維度作為處理后的樣本維度。處理后的數(shù)據(jù)集總共包含7 603個樣本對象,每個樣本包含100個維度,其中有700個樣本對象作為離群樣本。

c)Musk數(shù)據(jù)集。該原始數(shù)據(jù)集承載的是麝香分子的信息,其作用是根據(jù)分子區(qū)分是否為麝香。現(xiàn)對該原始數(shù)據(jù)集進(jìn)行預(yù)處理,編號j146、j147和252等非麝香類被定義為正常,編號213和211等麝香類被定義為離群,刪除其他類別。處理后的數(shù)據(jù)集總共包含3 062個樣本對象,每個樣本包含166個維度,其中有97個樣本對象作為離群樣本。

d)Speech數(shù)據(jù)集。該數(shù)據(jù)集承載的是現(xiàn)實(shí)世界中語音的信息,其中美國口音占比最大,其作為正常類,其余口音被定位為離群。該數(shù)據(jù)集總共包含3 686個樣本對象,每個樣本包含400個維度,其中有61個樣本對象作為離群樣本。

3.3 評價指標(biāo)

在評估檢測性能和指導(dǎo)檢測器建模時,評價指標(biāo)起著不可或缺的作用。由于本文所使用的數(shù)據(jù)均為不平衡數(shù)據(jù)集,accuracy評價指標(biāo)在數(shù)據(jù)不平衡時,其衡量結(jié)果往往不具備參考性。在機(jī)器學(xué)習(xí)領(lǐng)域,對該類數(shù)據(jù)集所使用的評價指標(biāo)為AUC(area under curve)和precision@n。故本文使用這兩類評價指標(biāo)。

AUC是ROC(receiver operating characteristic)曲線下的面積,其分值越大,則代表算法檢測性能越強(qiáng)。計算公式為

AUC=∑n+i=1 ∑n-j=1Ι[d(x+i)gt;d(x-j)]+12Ι[d(x+i)=d(x-j)]n+n-(7)

其中:n+和n-分別表示正樣本和負(fù)樣本的數(shù)量;xi和xj分別表示第i個和第j個樣本;d表示檢測器;I[]表示指示函數(shù),該函數(shù)參數(shù)為真時,值等于1,否則等于0。

precision@n是precision指標(biāo)的特殊情況,該種評價指標(biāo)是在把離群點(diǎn)閾值設(shè)置成指定的n個正例時,檢測器輸出的precision分值。計算公式為

precision=TPTP+FP(8)

其中:TP表示離群樣本被正確標(biāo)記為離群樣本的數(shù)量;FP表示正常樣本被錯誤標(biāo)記為異常樣本的數(shù)量。

3.4 實(shí)驗(yàn)設(shè)計

為驗(yàn)證EROD算法將多個組件檢測器集成的有效性,將本文方法與KNN、Avg-KNN、K-Median、LOF、COF和ABOD六個組件檢測器以及FB、LODA和IForest三個集成學(xué)習(xí)算法分別進(jìn)行了對比實(shí)驗(yàn);同時,為保證EROD算法的時效性,EROD算法與較新的同類方法EAOD(ensemble and autoencoder-based outlier detection,EAOD)[22]和GAN-VAE(generative adversarial network and variational auto-encoder based outlier detection,GAN-VAE)[23]在高維不均衡數(shù)據(jù)集Mnist上,以AUC值為評估指標(biāo)進(jìn)行了對比實(shí)驗(yàn)。

在實(shí)驗(yàn)中,EROD算法為了平衡維度災(zāi)難和數(shù)據(jù)多樣性帶來的影響,JL隨機(jī)投影將數(shù)據(jù)維度壓縮為原來的三分之二。同時,為了探究EROD算法對其起到?jīng)Q定性參數(shù)的敏感程度,對集成學(xué)習(xí)中每個組件檢測器的近鄰參數(shù)k進(jìn)行了敏感性實(shí)驗(yàn)分析,進(jìn)一步地從其中選擇出對EROD算法檢測性能影響較為積極的取值參數(shù)k,并以此建立EROD離群點(diǎn)檢測模型。

在實(shí)驗(yàn)中,在分析并選擇出對EROD算法檢測性能影響較為積極的取值參數(shù)k后,對比算法KNN、Avg-KNN、K-Median、LOF、COF和ABOD的參數(shù)k與EROD中相對應(yīng)的組件檢測器的參數(shù)k保持一致;在對比集成學(xué)習(xí)算法中,F(xiàn)B算法的基檢測器設(shè)置為LOF檢測器,且與EROD中組件檢測器LOF的參數(shù)保持一致;LODA算法中參數(shù)為自動優(yōu)化;IForest算法的采樣大小參數(shù)Ψ設(shè)置為256和樹的數(shù)目參數(shù)tn設(shè)置為100;同時,為保證實(shí)驗(yàn)的公平性和合理性,設(shè)置EAOD中檢測器個數(shù)與EROD中檢測器個數(shù)等同。

為了確保本實(shí)驗(yàn)的結(jié)果具有穩(wěn)定性,現(xiàn)對EROD算法和其對比算法分別執(zhí)行10次,對該10次產(chǎn)生的結(jié)果計算均值作為最終的結(jié)果。

3.5 參數(shù)敏感性分析與選擇

為了使用EROD算法進(jìn)行離群點(diǎn)檢測,本文對集成模型中各個組件檢測器中的近鄰參數(shù)k做不同的取值進(jìn)行對比實(shí)驗(yàn),進(jìn)一步地從中選擇出對EROD算法檢測性能影響較為積極的取值參數(shù)k,并建立EROD離群點(diǎn)檢測模型。

近鄰參數(shù)k具體選擇策略為:首先,近鄰參數(shù)k取值為[10,100],取值間隔為10;然后,在不同k值上,分析組件檢測器在Arrhythmia、Mnist、Musk、Speech這四個數(shù)據(jù)集上的四個AUC分值,對這四個AUC分值取均值;最后,對計算得到的10個AUC均值取最大值,該最值對應(yīng)的k值作為組件檢測器的近鄰參數(shù)理想選取值的參考依據(jù)。具體過程如算法4所示。

算法4 組件檢測器近鄰參數(shù)k選擇策略

輸入:k值初始值,組件檢測器D,數(shù)據(jù)集Arrhythmia、Mnist、Musk、Speech。

輸出:k值參考值。

a) k=[10,20,30,40,50,60,70,80,90,100]

b) AUC=[]

c) avgAUC=[]

d) max=0

e) j=1

f) for i=k[j],ilt;101, j=j+1 do

g)"" AUC.append(D(i,Arrhythmia))

h)"" AUC.append(D(i,Mnist))

i)"" AUC.append(D(i,Musk))

j)"" AUC.append(D(i,Speech))

k)"" avgAUC.append(Average(AUC))

l) end for

m) k_reference=Max(avgAUC)

n) output(k_reference)

如圖3所示,KNN組件檢測器在Arrhythmia、Mnist、Musk、Speech數(shù)據(jù)集上:

從k=10逐次遞增到k=40的過程中,AUC均值處于顯著上升趨勢;從k=40逐次遞增到k=80的過程中,AUC均值漲幅較為微小;從k=80逐次遞增到k=90的過程中,AUC均值處于不明顯下降狀態(tài);AUC均值在k=90和k=100兩處相等;當(dāng)k=80時,AUC均值達(dá)到最大值0.783 8。但是,從k=40開始,AUC均值變化不大。因此,KNN組件檢測器在k=40時處于最優(yōu)狀態(tài)。

如圖4所示,Avg-KNN組件檢測器在Arrhythmia、Mnist、Musk、Speech數(shù)據(jù)集上:

從k=10逐次遞增到k=100的過程中,AUC均值變化趨勢為上升狀態(tài)。其中,從k=10遞增到k=50的過程中,AUC均值上升幅度較為明顯;從k=50以后,AUC均值上升幅度較小;當(dāng)k=100時,AUC均值達(dá)到最大值0.784 0。因此,Avg-KNN組件檢測器在k=50時處于最優(yōu)狀態(tài)。

如圖5所示,K-Median組件檢測器在Arrhythmia、Mnist、Musk、Speech數(shù)據(jù)集上:

從k=10逐次遞增到k=100的過程中,AUC均值不斷上升。當(dāng)k從10增加至60時,AUC上升較為顯著;當(dāng)k從60增加至100時,AUC上升較為細(xì)微;當(dāng)k=100時,AUC均值達(dá)到最大值0.782 1。因此,K-Median組件檢測器在k=60時處于最優(yōu)狀態(tài)。

如圖6所示,LOF組件檢測器在Arrhythmia、Mnist、Musk、Speech數(shù)據(jù)集上:

從k=10逐次遞增到k=100的過程中,AUC均值先上升,后下降,再上升。其中,當(dāng)k從10增加到20時,AUC均值顯著上升;當(dāng)k從20增加到80時,AUC均值近似于線性下降;當(dāng)k從80增加到100時,AUC均值激增;當(dāng)k=100時,AUC均值達(dá)到最大值0.761 2。從宏觀角度觀察,k=100對應(yīng)的AUC均值明顯高于其他k值對應(yīng)的AUC均值。因此,LOF組件檢測器在k=100時處于最優(yōu)狀態(tài)。

如圖7所示,COF組件檢測器在Arrhythmia、Mnist、Musk、Speech數(shù)據(jù)集上:

從k=10逐次遞增到k=100的過程中,AUC均值先上升,后下降,其中,當(dāng)k由10增加到50的過程中,AUC均值處于上升狀態(tài);當(dāng)k由50增加到100的過程中,AUC均值處于下降狀態(tài);當(dāng)k=50時,AUC均值達(dá)到峰值0.639 7。因此,COF組件檢測器在k=50時處于最優(yōu)狀態(tài)。

如圖8所示,ABOD組件檢測器在Arrhythmia、Mnist、Musk、Speech數(shù)據(jù)集上:

從k=10逐次遞增到k=100的過程中,AUC均值先下降,再上升,但是其變化幅度十分細(xì)微。其中,k由10增加到70時,AUC均值以近似于水平的細(xì)微程度緩慢下降;k由70增加到100時,AUC均值又以近似于水平的細(xì)微程度緩慢上升;當(dāng)k=10時,AUC均值達(dá)到峰值0.580 7。因此,ABOD組件檢測器在k=10時處于最優(yōu)狀態(tài)。

綜上所述,KNN、Avg-KNN、K-Median、LOF、COF、ABOD這六個組件檢測器的近鄰參數(shù)k分別取值為40,50,60,100,50,10時,它們的性能處于最優(yōu)。因此,選取這些近鄰參數(shù)取值作為EROD算法中各個組件檢測器的近鄰參數(shù)取值。

3.6 實(shí)驗(yàn)結(jié)果與分析

表4給出了在四個不同的高維數(shù)據(jù)集上EROD與KNN、Avg-KNN、K-Median、LOF、COF和ABOD的比較結(jié)果,表中加粗的數(shù)字代表檢測性能最強(qiáng)的兩個算法。而且,圖9和10分別給出了在不同數(shù)據(jù)集上各算法的AUC和precision分值的比較。

表5給出了在四個不同的高維數(shù)據(jù)集上EROD與FB、LODA和IForest等三個集成學(xué)習(xí)算法的比較結(jié)果,表中加粗的數(shù)字代表檢測性能最強(qiáng)的兩個算法。而且,圖11和12分別給出了在不同數(shù)據(jù)集上各算法的AUC和precision分值的比較。

圖13給出了EROD與較新的兩個同類方法EAOD和GAN-VAE在高維不均衡數(shù)據(jù)集Mnist上,以AUC值為評估指標(biāo)進(jìn)行了對比實(shí)驗(yàn)。

對于EROD算法相比較于各組件檢測器可以看出,在Arrhythmia、Mnist、Musk上,EROD算法的兩個評價指標(biāo)均優(yōu)于其他算法:在Arrhythmia上,AUC和precision分值相較于檢測性能次高的算法分別提升了1.2個百分點(diǎn)和1.7和百分點(diǎn);在Mnist上,AUC和precision分值相較于檢測性能次高的算法分別提升了1.3個百分點(diǎn)和2.7個百分點(diǎn);在Musk上,AUC和precision分值相較于檢測性能次高的算法分別提升了0.9個百分點(diǎn)和1.6個百分點(diǎn)。但是,在Speech上,EROD算法的兩個評價指標(biāo)均處于次高狀態(tài),這是因?yàn)榧煽蚣苤写蟛糠纸M件檢測器在該數(shù)據(jù)集上表現(xiàn)較差,導(dǎo)致EROD算法平衡泛化誤差的能力有所降低,但EROD的表現(xiàn)優(yōu)于大部分組件檢測器。

對于EROD算法相比較于其他集成學(xué)習(xí)算法可以看出,在Arrhythmia、Mnist、Speech上,EROD算法的兩個評價指標(biāo)均優(yōu)于其他算法:在Arrhythmia上,AUC和precision分值相較于檢測性能次高的算法分別提升了1.2個百分點(diǎn)和3.4個百分點(diǎn);在Mnist上,AUC和precision分值相較于檢測性能次高的算法分別提升了8.2個百分點(diǎn)和44個百分點(diǎn);在Speech上,AUC和precision分值相較于檢測性能次高的算法分別提升了11.2個百分點(diǎn)和33.3個百分點(diǎn)。但是,在Musk上,EROD算法在precision分值上稍遜于IForest算法,但在AUC分值上均優(yōu)于其他算法,相較于檢測性能次高的算法提升了1.2個百分點(diǎn),這是因?yàn)楹饬恐笜?biāo)在統(tǒng)計學(xué)上側(cè)重點(diǎn)不同,導(dǎo)致EROD算法在AUC和precision分值上一高一低。

對于EROD算法相比較于較新的同類方法EAOD和GAN-VAE,在高維不均衡數(shù)據(jù)集Mnist上,AUC分值分別提升了1.02%和0.46%,這證明了EROD在解決同種問題上的先進(jìn)性。

在表4和5中,在Speech數(shù)據(jù)集上,無論是何種算法,在該數(shù)據(jù)集上分值普遍較低。如圖14所示,Speech在2D可視化圖像中,紅色菱形表示離群點(diǎn)(見電子版),其余表示正常點(diǎn),可以看出這是因?yàn)樵谠摂?shù)據(jù)集中,離群點(diǎn)與正常點(diǎn)高度地混合在一起,隱藏在正常點(diǎn)內(nèi)部,且在維度分布上未處于尾部位置,導(dǎo)致其在維度分布上與正常點(diǎn)高度相似,使得離群點(diǎn)檢測算法無法達(dá)到最佳檢測性能。只有離群點(diǎn)位于暴露明顯的尾部時,離群點(diǎn)檢測算法才可精準(zhǔn)地捕獲與識別。

綜上所述,通過與各種離群點(diǎn)檢測算法在多個高維數(shù)據(jù)集上的對比實(shí)驗(yàn),驗(yàn)證了EROD算法的有效可行性。

4 結(jié)束語

本文提出一種新的離群點(diǎn)檢測框架——EROD,算法集成隨機(jī)投影對高維數(shù)據(jù)進(jìn)行降維,同時提升了數(shù)據(jù)多樣性,通過對多個異質(zhì)離群點(diǎn)檢測器進(jìn)行集成,提升了算法魯棒性,之后異質(zhì)集成模型對多個降維后的數(shù)據(jù)進(jìn)行訓(xùn)練,并分兩次對訓(xùn)練后的模型進(jìn)行組合,有效降低了泛化誤差,提升了算法檢測性能。同時,從理論上分析了算法的參數(shù)敏感性,并討論了集成組件檢測器時超參的選擇依據(jù)。在UCI數(shù)據(jù)集上實(shí)驗(yàn),以AUC和precision為評價指標(biāo)對算法進(jìn)行評估,與傳統(tǒng)的離群點(diǎn)檢測算法和基于集成學(xué)習(xí)的離群點(diǎn)檢測算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明EROD算法具有處理高維不均衡數(shù)據(jù)異常的優(yōu)勢。同時,考慮到隨機(jī)投影和異質(zhì)檢測器的集成機(jī)制對EROD算法效率的作用,是值得深入探討的課題。進(jìn)一步研究將從實(shí)驗(yàn)上研究不同的降維方式和檢測器對EROD算法的影響以及從理論上分析EROD算法泛化誤差臨界點(diǎn)和其組件檢測器泛化誤差臨界點(diǎn)的關(guān)系。

參考文獻(xiàn):

[1]Boukerche A,Zheng L,Alfandi O. Outlier detection: methods,models,and classification [J]. ACM Computing Surveys,2020,53(3): 1-37.

[2]Najafi M,He Lifang,Philip S Y. Outlier-robust multi-aspect streaming tensor completion and factorization [C]// Proc of the 28th International Joint Conference on Artificial Intelligence. San Mateo,CA: Morgan Kaufmann Publishers,2019: 3187-3194.

[3]Walfish S. A review of statistical outlier methods [J]. Pharmaceutical Technology,2006,30(11): 82.

[4]Li Zheng,Zhao Yue,Botta N,et al. COPOD: copula-based outlier detection [C]// Proc of the 20th International Conference on Data Mi-ning. Piscataway,NJ: IEEE Press,2020: 1118-1123.

[5]Aggarwal C C. Outlier analysis [M]. 2nd ed. Berlin: Springer,2017: 1-34.

[6]Breunig M M,Kriegel H P,Ng R T,et al. LOF: identifying density-based local outliers [C]// Proc of SIGMOD. New York: ACM Press,2000: 93-104.

[7]Tang Jian,Chen Zhixiang,F(xiàn)u A W C,et al. Enhancing effectiveness of outlier detections for low density patterns [C]// Proc of PAKDD. Berlin: Springer,2002: 535-548.

[8]Kriegel H P,Schubert M,Zimek A. Angle-based outlier detection in high-dimensional data [C]// Proc of the 14th ACM Knowledge Discovery and Data Mining. New York: ACM Press,2008: 444-452.

[9]Chen Wenqi,Wang Zhiliang,Zhong Ying,et al. ADSIM: network anomaly detection via similarity-aware heterogeneous ensemble lear-ning [C]// Proc of the 17th IFIP/IEEE International Symposium on Integrated Network Management. Piscataway,NJ: IEEE Press,2021: 608-612.

[10]Lazarevic A,Kumar V. Feature bagging for outlier detection [C]// Proc of the 11th ACM Knowledge Discovery and Data Mining. New York: ACM Press,2005: 157-166.

[11]Pevny T. Loda: lightweight on-line detector of anomalies [J]. Machine Learning,2016,102(2): 275-304.

[12]Liu F T,Ting Kaiming,Zhou Zhihua. Isolation forest [C]// Proc of the 8th International Conference on Data Mining. Piscataway,NJ: IEEE Press,2008: 413-422.

[13]Pang Guansong,Cao Longbing,Chen Ling,et al. Learning representations of ultrahigh-dimensional data for random distance-based outlier detection [C]// Proc of the 24th ACM Knowledge Discovery and Data Mining. New York: ACM Press,2018:2041-2050.

[14]Cohen M B,Jayram T S,Nelson J. Simple analyses of the sparse Johnson-Lindenstrauss transform [C]// Proc of the 1st Symposium on Simplicity in Algorithms. Philadelphia,PA: SIAM Press,2018: 1-9.

[15]Jin Ruhui,Kolda T G,Ward R. Faster Johnson-Lindenstrauss transforms via Kronecker products [J]. Information and Inference: Journal of the IMA,2021,10(4): 1533-1562.

[16]Venkatasubramanian S,Wang Qiushi. The Johnson-Lindenstrauss transform: an empirical study [C]// Proc of the 13th Workshop on Algorithm Engineering and Experiments. Philadelphia,PA: SIAM Press,2011: 164-173.

[17]Pasillas-Diaz J R,Ratte S. An unsupervised approach for combining scores of outlier detection techniques,based on similarity measures [J]. Electronic Notes in Theoretical Computer Science,2016,329: 61-77.

[18]Aggarwal C C,Sathe S. Outlier ensembles: an introduction [M]. Berlin: Springer,2017: 35-73.

[19]杜旭升,于炯,陳嘉穎,等. 一種基于鄰域系統(tǒng)密度差異度量的離群點(diǎn)檢測算法 [J]. 計算機(jī)應(yīng)用研究,2020,37(7): 1969-1973. (Du Xusheng,Yu Jiong,Chen Jiaying,et al. Outlier detection algorithm based on neighborhood system density difference measurement [J]. Application Research of Computers,2020,37(7): 1969-1973.)

[20]杜旭升,于炯,葉樂樂,等. 基于圖上隨機(jī)游走的離群點(diǎn)檢測算法 [J]. 計算機(jī)應(yīng)用,2020,40(5): 1322-1328. (Du Xusheng,Yu Jiong,Ye Lele,et al. Outlier detection algorithm based on graph random walk [J]. Journal of Computer Applications,2020,40(5): 1322-1328.)

[21]Aggarwal C C,Sathe S. Theoretical foundations and algorithms for outlier ensembles [J]. ACM SIGKDD Explorations Newsletter,2015,17(1): 24-47.

[22]郭一陽,于炯,杜旭升,等. 基于自編碼器與集成學(xué)習(xí)的離群點(diǎn)檢測算法 [J]. 計算機(jī)應(yīng)用,2022,42(7):2078-2087. (Guo Yiyang,Yu Jiong,Du Xusheng,et al. Outlier detection algorithm based on autoencoder and ensemble learning [J]. Journal of Computer Applications,2022,42(7):2078-2087.

[23]金利娜,于炯,杜旭升,等. 基于生成對抗網(wǎng)絡(luò)和變分自編碼器的離群點(diǎn)檢測算法 [J]. 計算機(jī)應(yīng)用研究,2022,39(3): 774-779. (Jin Lina,Yu Jiong,Du Xusheng,et al. Generative adversarial network and variational auto-encoder based outlier detection[J]. Application Research of Computers,2022,39(3): 774-779.)

主站蜘蛛池模板: 一级毛片不卡片免费观看| 欧美一级在线看| 丰满的熟女一区二区三区l| 国产九九精品视频| 精品自窥自偷在线看| 日韩a级片视频| h视频在线播放| 国产粉嫩粉嫩的18在线播放91| 免费可以看的无遮挡av无码 | 亚洲精品日产AⅤ| 久久久精品无码一二三区| 国产一区二区三区在线观看视频| 蜜桃视频一区二区三区| 日韩在线欧美在线| 亚洲综合色婷婷| 国内精品91| 婷婷在线网站| 国产精品999在线| 国产精品午夜福利麻豆| 日本伊人色综合网| 久久 午夜福利 张柏芝| 91精品久久久久久无码人妻| 国产嫩草在线观看| 国产午夜不卡| 中文字幕永久在线看| 一级高清毛片免费a级高清毛片| 亚洲男女在线| 亚洲精品动漫在线观看| 午夜限制老子影院888| 日韩小视频网站hq| 伊人网址在线| 欧美色伊人| 国产对白刺激真实精品91| 青青草国产在线视频| 制服无码网站| 超清无码熟妇人妻AV在线绿巨人| 91亚洲免费视频| 国产一区二区免费播放| 欧美无专区| 91视频精品| 一级爱做片免费观看久久| 青青青伊人色综合久久| 国产成人91精品| www欧美在线观看| 亚洲色中色| 97影院午夜在线观看视频| 91在线免费公开视频| 国产色图在线观看| 亚洲成人精品久久| 国产成人高清精品免费5388| 国产精品视频系列专区| 在线观看无码a∨| 色有码无码视频| 911亚洲精品| 国产精品久久久久久久伊一| 内射人妻无套中出无码| 免费a级毛片18以上观看精品| 亚洲av成人无码网站在线观看| 亚洲日韩Av中文字幕无码| 国产成人亚洲毛片| 热伊人99re久久精品最新地| 又黄又湿又爽的视频| 国产大片喷水在线在线视频| 亚洲第一中文字幕| 久久黄色影院| 国产原创第一页在线观看| 99视频全部免费| 久久婷婷六月| 日韩欧美91| 色噜噜在线观看| 激情综合五月网| 国产精品深爱在线| 午夜国产精品视频| 最新亚洲人成无码网站欣赏网 | 精品国产Av电影无码久久久 | 在线观看精品自拍视频| 国产在线第二页| 国产精品19p| 亚洲六月丁香六月婷婷蜜芽| 亚洲Va中文字幕久久一区| 亚洲欧美激情另类| 欧美日韩国产在线观看一区二区三区|