999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自編碼器和密度的融合離群點(diǎn)檢測(cè)算法

2021-03-27 01:18:44林昕玥杜旭升理姍姍楊少智
關(guān)鍵詞:特征檢測(cè)

林昕玥,于 炯,,杜旭升,理姍姍,楊少智,高 杰

(1.新疆大學(xué)軟件學(xué)院,新疆 烏魯木齊 830091;2.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)

0 引言

隨著數(shù)據(jù)量的大規(guī)模增長(zhǎng),探求數(shù)據(jù)內(nèi)潛在的有益知識(shí)或信息的需求日益增長(zhǎng),由此產(chǎn)生了數(shù)據(jù)挖掘[1]技術(shù).離群點(diǎn)檢測(cè)[2-3]是一種重要的數(shù)據(jù)挖掘技術(shù).離群點(diǎn)又叫異常點(diǎn)、孤立點(diǎn),是指與其他樣本點(diǎn)具有明顯不同特征的樣本點(diǎn).這些樣本點(diǎn)與其他樣本點(diǎn)差距巨大,可能是由完全不同的、還未引起注意的機(jī)制或因素產(chǎn)生的[4].

離群點(diǎn)檢測(cè)的應(yīng)用在多個(gè)領(lǐng)域都有所涉獵.例如:在金融領(lǐng)域,分析異常的金融交易數(shù)據(jù),可以識(shí)別出金融欺詐,保護(hù)人們財(cái)產(chǎn)安全;在醫(yī)療領(lǐng)域,分析異常的影像數(shù)據(jù),可以判斷病癥,給出醫(yī)療診斷,輔助醫(yī)生進(jìn)行診療[5];在娛樂(lè)、購(gòu)物領(lǐng)域,用戶的異常點(diǎn)擊可能代表該用戶新的興趣點(diǎn),分析異常點(diǎn)擊,有助于產(chǎn)品的營(yíng)銷和廣告的精準(zhǔn)投放.

在離群點(diǎn)檢測(cè)研究的早期階段,人們認(rèn)為離群點(diǎn)數(shù)據(jù)本身沒(méi)有價(jià)值,研究離群點(diǎn)的檢測(cè)只是為了找出異常事件,減少異常事件對(duì)正常數(shù)據(jù)分析的影響.但近些年人們逐漸意識(shí)到,異常事件本身也有研究?jī)r(jià)值,它往往蘊(yùn)含著人們還沒(méi)有發(fā)現(xiàn)或者容易被忽略掉的有用信息[6].研究異常事件背后的有用信息,可以通過(guò)研究數(shù)據(jù)規(guī)律給生活帶來(lái)便利提供另一種可能.

隨著離群點(diǎn)檢測(cè)技術(shù)的不斷成熟和深入,多種檢測(cè)算法相繼被國(guó)內(nèi)外研究人員提出.傳統(tǒng)的檢測(cè)算法基本是依靠數(shù)學(xué)公式對(duì)離群點(diǎn)進(jìn)行計(jì)算和預(yù)測(cè),主要包括基于分布的、基于深度的、基于聚類的、基于距離的和基于密度的算法[7-11].它們的可解釋性都很強(qiáng),但是各有缺點(diǎn).例如,基于密度的離群點(diǎn)檢測(cè)算法對(duì)密度的參數(shù)選擇很困難[12],在實(shí)際檢測(cè)中很容易出現(xiàn)精度不高的現(xiàn)象.近年來(lái),伴隨著神經(jīng)網(wǎng)絡(luò)的普及,基于深度學(xué)習(xí)的離群點(diǎn)檢測(cè)算法越來(lái)越多,最著名的有基于棧式自編碼器的算法[13-14]和基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的算法[15].這些算法擬合效果相較于傳統(tǒng)方法具有優(yōu)秀的表現(xiàn),適用于大規(guī)模的數(shù)據(jù)集.

針對(duì)很多離群點(diǎn)檢測(cè)算法精度不夠高的問(wèn)題,本文提出了將近些年的基于棧式自編碼器的離群點(diǎn)(SAE)檢測(cè)算法與傳統(tǒng)的基于密度的離群點(diǎn)(LOF)檢測(cè)算法相結(jié)合的SAE-LOF算法.SAE-LOF算法將SAE的重構(gòu)誤差和LOF的局部離群因子作為新的特征輸入到神經(jīng)網(wǎng)絡(luò),對(duì)神經(jīng)網(wǎng)絡(luò)做有監(jiān)督的訓(xùn)練,進(jìn)而對(duì)離群點(diǎn)做出預(yù)測(cè),以此提高離群點(diǎn)檢測(cè)的精度.實(shí)驗(yàn)表明,該算法相比SAE算法、LOF算法、KNN算法、孤立森林算法,其檢測(cè)精度有明顯提升,算法性能有顯著提高.

1 SAE檢測(cè)算法

自編碼器(Autoencoder,AE)是一種特殊的神經(jīng)網(wǎng)絡(luò),其包含輸入層、隱藏層和輸出層.自編碼神經(jīng)網(wǎng)絡(luò)的訓(xùn)練包括編碼階段與解碼階段[16].編碼階段將輸入數(shù)據(jù)映射到隱藏層,解碼階段通過(guò)隱藏層數(shù)據(jù)重構(gòu)輸出.與普通神經(jīng)網(wǎng)絡(luò)不同的是自編碼器的主要目標(biāo)是構(gòu)建輸出與輸入盡可能相近的神經(jīng)網(wǎng)絡(luò).自編碼器檢測(cè)離群點(diǎn)的主要流程如下:

(1) 將正常數(shù)據(jù)輸入自編碼器進(jìn)行訓(xùn)練,使其輸出與輸入的重構(gòu)誤差達(dá)到最小.編碼、解碼階段描述如下:

h=f(Wx+b);

(1)

y=g(W′h+b′);

(2)

(3)

公式(1)(2)分別為編碼、解碼階段;公式(3)為代價(jià)函數(shù),其第1項(xiàng)為均方誤差重構(gòu)項(xiàng),第2項(xiàng)為L(zhǎng)2正則項(xiàng).公式(1)—(3)中:W,b為編碼階段權(quán)重參數(shù);W′,b′為解碼階段權(quán)重參數(shù);f,g分別為編碼階段和解碼階段的激活函數(shù).

(2) 將測(cè)試數(shù)據(jù)輸入訓(xùn)練完成后的自編碼器進(jìn)行重構(gòu).

(3)計(jì)算測(cè)試數(shù)據(jù)集中各對(duì)象的重構(gòu)誤差,重構(gòu)誤差越大,其越有可能是離群點(diǎn).重構(gòu)誤差越小,其越不可能是離群點(diǎn).

圖1 SAE結(jié)構(gòu)

SAE是由多個(gè)自編碼器堆疊而成的,后一個(gè)自編碼器的輸入來(lái)自于其前一個(gè)自編碼器的隱藏層數(shù)據(jù),依此堆疊.SAE采用逐層貪婪的方式訓(xùn)練,通過(guò)最小化重構(gòu)誤差,得到每一層的最優(yōu)參數(shù).

SAE是一種深度模型,將普通自編碼器堆疊起來(lái),使得模型具有更強(qiáng)的擬合能力和特征學(xué)習(xí)能力,提升了普通自編碼器分辨異常樣本的能力.

2 LOF檢測(cè)算法

基于密度的離群點(diǎn)檢測(cè)算法,以LOF[17-18]為代表.LOF算法相關(guān)定義如下:

設(shè)數(shù)據(jù)集為P={p1,p2,…,pi,…,pj,…,pN},N為數(shù)據(jù)集P的大小,pi,pj∈P是數(shù)據(jù)集P的任意2個(gè)數(shù)據(jù)對(duì)象,dist(pi,pj)為數(shù)據(jù)對(duì)象pi與pj之間的歐氏距離.

定義1對(duì)象pi的r鄰域N(pi,r).

對(duì)于正整數(shù)r,對(duì)象pi(pi∈P)的r鄰域N(pi,r)定義為

N(pi,r)={pj∈P|dist(pi,pj)≤r,pj≠pi}.

(4)

定義2對(duì)象pi的第k距離k-dist(pi).

對(duì)于正整數(shù)k(k≤N),對(duì)象pi(pi∈P)的第k距離k-dist(pi)=r′,滿足:

對(duì)于任意r≤r′,都有|N(pi,r)|≥k;

對(duì)于任意r

|N(pi,r)|表示對(duì)象pi的r鄰域內(nèi)點(diǎn)的個(gè)數(shù)(不包括pi).

定義3對(duì)象pi的第k距離鄰域Nk(pi).

對(duì)于正整數(shù)k(k≤N),對(duì)象pi(pi∈P)的第k距離鄰域Nk(pi)=N(pi,r),其中r=k-dist(pi).

定義4對(duì)象pj到pi的第k可達(dá)距離reach-distk(pi,pj).

對(duì)于正整數(shù)k(k≤N),對(duì)象pj(pj∈P)到pi(pi∈P)的第k可達(dá)距離定義為

reach-distk(pi,pj)=max{k-dist(pj),dist(pi,pj)}.

(5)

定義5對(duì)象pi的局部可達(dá)密度lrdk(pi).

對(duì)象pi(pi∈P)的局部可達(dá)密度定義為

(6)

定義6對(duì)象pi的局部離群因子LOFk(pi).

對(duì)于正整數(shù)k(k≤N),對(duì)象pi(pi∈P)的局部離群因子定義為

(7)

通過(guò)以上步驟最終得到每個(gè)點(diǎn)的局部離群因子.比較每個(gè)點(diǎn)的LOFk值,將LOFk值較大的樣本點(diǎn)標(biāo)記為離群點(diǎn).

3 SAE-LOF檢測(cè)算法

基于SAE的離群點(diǎn)檢測(cè)算法構(gòu)建輸出盡可能接近輸入的神經(jīng)網(wǎng)絡(luò),認(rèn)為輸出與輸入的差異越大,越有可能是離群點(diǎn).基于LOF的離群點(diǎn)檢測(cè)算法針對(duì)樣本點(diǎn)的個(gè)數(shù)和樣本之間的距離綜合判定離群點(diǎn).這2種方法是從2種不同的角度表示離群特性,其劃分正常點(diǎn)和離群點(diǎn)的依據(jù)也有所不同,所以實(shí)際檢測(cè)出來(lái)的離群點(diǎn)也不同.為了更全面地表示離群特性、衡量離群程度,本文提出將SAE與LOF結(jié)合的算法即SAE-LOF算法.

當(dāng)同一樣本點(diǎn)用多種檢測(cè)方法進(jìn)行離群判定時(shí),使用傳統(tǒng)的“投票”制度,異常票數(shù)較高的樣本點(diǎn)被認(rèn)定為離群點(diǎn),正常票數(shù)較高的樣本點(diǎn)被認(rèn)定為正常點(diǎn).這種結(jié)合方式與單一檢測(cè)方法相比,能降低檢測(cè)錯(cuò)誤率,提高檢測(cè)精度.但是“投票”制度將不同檢測(cè)方法看作同等重要,與實(shí)際不符,因而影響了檢測(cè)精度.

神經(jīng)網(wǎng)絡(luò)的實(shí)質(zhì)是對(duì)多個(gè)特征進(jìn)行“加權(quán)”,讓不同特征以不同的重要性對(duì)輸出結(jié)果產(chǎn)生影響.使用神經(jīng)網(wǎng)絡(luò)將多種檢測(cè)方法進(jìn)行結(jié)合,既能讓不同檢測(cè)方法“加權(quán)投票”,又能通過(guò)自我學(xué)習(xí)更新權(quán)重,使得最終檢測(cè)結(jié)果更接近實(shí)際情況.另外,用動(dòng)量梯度下降法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,可以減少震蕩,提高迭代收斂速度.

綜合以上幾點(diǎn),本文采用神經(jīng)網(wǎng)絡(luò)將SAE與LOF結(jié)合,把SAE的重構(gòu)誤差和LOF的局部離群因子作為新的特征輸入到神經(jīng)網(wǎng)絡(luò)中,通過(guò)神經(jīng)網(wǎng)絡(luò)的擬合,將輸出結(jié)果逼近實(shí)際的正常和異常的標(biāo)簽.算法步驟為:

輸入:預(yù)處理后的數(shù)據(jù)集.

輸出:離群點(diǎn)預(yù)測(cè)結(jié)果.

(1) SAE訓(xùn)練及測(cè)試

(a) 訓(xùn)練SAE,采用逐層貪心的策略,反復(fù)進(jìn)行正向傳播和反向傳播,最小化重構(gòu)誤差,得到每層最優(yōu)參數(shù).

(b) 測(cè)試SAE,用得到的參數(shù)編碼、解碼,計(jì)算測(cè)試集的重構(gòu)誤差.

(2) LOF

用LOF算法計(jì)算每個(gè)樣本的LOFk值.

(3) 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練及測(cè)試

(a) 將(1)得到的重構(gòu)誤差和(2)得到的LOFk值組成新的二維特征數(shù)據(jù)集,由于特征維度過(guò)少,神經(jīng)網(wǎng)絡(luò)難以擬合,故需生成多項(xiàng)式特征.設(shè)重構(gòu)誤差特征為a,LOFk特征為b,則神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集為{a,b,a2,ab,b2,…}.

(b) 將神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集標(biāo)準(zhǔn)化,公式為

(8)

其中:mean(xj)表示第j維特征所有樣本的均值,std(xj)表示第j維所有樣本的標(biāo)準(zhǔn)差.

(c) 采用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練,通過(guò)動(dòng)態(tài)梯度下降法最小化代價(jià)函數(shù),確定網(wǎng)絡(luò)參數(shù).

圖2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

(d) 測(cè)試神經(jīng)網(wǎng)絡(luò).

先分別測(cè)試SAE和LOF,將得到的SAE的重構(gòu)誤差和LOF的LOFk構(gòu)成神經(jīng)網(wǎng)絡(luò)的測(cè)試集,并通過(guò)生成多項(xiàng)式特征增加特征維度,將其標(biāo)準(zhǔn)化后輸入到神經(jīng)網(wǎng)絡(luò)中.經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)計(jì)算,每個(gè)樣本得到一個(gè)預(yù)測(cè)值.神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.

(4) 離群點(diǎn)預(yù)測(cè)

將全部樣本的預(yù)測(cè)值降序排列,取預(yù)測(cè)值最高的n個(gè)樣本預(yù)測(cè)為離群點(diǎn),其中n=0.03|C|,|C|表示神經(jīng)網(wǎng)絡(luò)測(cè)試集的樣本數(shù).

算法流程如圖3所示.神經(jīng)網(wǎng)絡(luò)訓(xùn)練和測(cè)試部分細(xì)化,如圖4所示.

圖3 SAE-LOF算法流程

4 實(shí)驗(yàn)部分

4.1 數(shù)據(jù)集

本文使用了2個(gè)公開(kāi)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn):KDD-CUP99數(shù)據(jù)集和Shuttle數(shù)據(jù)集.KDD-CUP99是一個(gè)比較權(quán)威的用于檢測(cè)網(wǎng)絡(luò)入侵的數(shù)據(jù)集.本文選取10%的KDD-CUP99數(shù)據(jù)集,包含normal一種正常類型和back、buffer_overflow、ftp_write、guess_passwd等22種異常攻擊類型.該數(shù)據(jù)集包含41個(gè)特征,其中9個(gè)特征為符號(hào)型,其余為數(shù)值型;Shuttle是一個(gè)有關(guān)航天飛機(jī)的數(shù)據(jù)集,由澳大利亞悉尼大學(xué)計(jì)算機(jī)科學(xué)系Jason Catlett采集并捐贈(zèng),包含9個(gè)數(shù)值型特征.

4.2 數(shù)據(jù)集預(yù)處理

(1) 數(shù)據(jù)集拆分:將數(shù)據(jù)集拆分為符號(hào)型特征、數(shù)值型特征標(biāo)簽.

(2) 符號(hào)型特征數(shù)值化:采用one-hot編碼將符號(hào)型特征數(shù)值化.如:協(xié)議類型中icmp編碼為[1,0,0],tcp編碼為[0,1,0],udp編碼為[0,0,1].one-hot編碼讓特征之間的距離計(jì)算更加合理.

(3) 特征降維:使用MDS算法對(duì)數(shù)值化的符號(hào)型特征降維.由于one-hot編碼擴(kuò)充了特征維度,特征空間顯著增大,因此選用MDS(多維縮放)算法做降維處理.

(4) 特征合并:將降維后的特征與原本的數(shù)值型特征合并.

(5) 歸一化處理:為了將數(shù)據(jù)縮放到一定范圍內(nèi),使得不同量級(jí)的數(shù)據(jù)能進(jìn)行比較和加權(quán),還需對(duì)特征進(jìn)行歸一化.

(9)

其中:max(xj)表示第j維特征所有樣本的最大值,min(xj)表示第j維特征所有樣本的最小值.

Shuttle數(shù)據(jù)集由于沒(méi)有符號(hào)型特征,故只需執(zhí)行步驟(5)即可.

4.3 數(shù)據(jù)集劃分

預(yù)處理后的數(shù)據(jù)集全部歸一化到0至1的范圍內(nèi).由于后續(xù)步驟需要對(duì)SAE和LOF分別處理,并用神經(jīng)網(wǎng)絡(luò)將其結(jié)合,故需對(duì)數(shù)據(jù)集進(jìn)行劃分(見(jiàn)表1).數(shù)據(jù)集劃分情況如下:

數(shù)據(jù)集A:隨機(jī)抽取50%的正常樣本數(shù)據(jù);

數(shù)據(jù)集B:33.3%的正常樣本數(shù)據(jù)和少量異常樣本數(shù)據(jù);

數(shù)據(jù)集C:剩余正常樣本數(shù)據(jù)和少量異常樣本數(shù)據(jù).

數(shù)據(jù)集B和C中異常樣本占比3%.數(shù)據(jù)集A用于訓(xùn)練SAE;數(shù)據(jù)集B用于測(cè)試SAE、LOF,進(jìn)而訓(xùn)練神經(jīng)網(wǎng)絡(luò);數(shù)據(jù)集C用于測(cè)試神經(jīng)網(wǎng)絡(luò),并根據(jù)測(cè)試結(jié)果預(yù)測(cè)離群點(diǎn).

表1 數(shù)據(jù)集劃分

4.4 實(shí)驗(yàn)性能評(píng)估指標(biāo)

常見(jiàn)的性能評(píng)估指標(biāo)有精度(Accuracy,acc)、錯(cuò)誤率(Error rate,er)、受試者工作特征(Receiver Operating Characteristic,ROC)、AUC(Area Under ROC Curve)[19-20].

精度是預(yù)測(cè)正確的樣本數(shù)占總體樣本數(shù)的比例,錯(cuò)誤率是預(yù)測(cè)錯(cuò)誤的樣本數(shù)占總體的比例.公式為:

(10)

(11)

其中:m為樣本容量,f(xi)為第i個(gè)樣本的輸出,yi為第i個(gè)樣本的標(biāo)簽,∏(x)為指示函數(shù),當(dāng)x取真、假時(shí)分別為1和0.

另外,根據(jù)真實(shí)標(biāo)簽與預(yù)測(cè)結(jié)果,可計(jì)算出真正例(TP)、假反例(FN)、假正例(FP)、真反例(TN).分類結(jié)果的混淆矩陣如表2所示.

表2 分類結(jié)果的混淆矩陣

根據(jù)表2可以計(jì)算出真正例率(TPR),假正例率(FPR):

(12)

(13)

為了尋找TPR與FPR的關(guān)系,進(jìn)而衡量模型性能,本文先根據(jù)預(yù)測(cè)結(jié)果對(duì)樣本倒序排列,把分類閾值設(shè)到最大,將所有樣本預(yù)測(cè)為反例,然后依次將每個(gè)樣本預(yù)測(cè)為正例.第一輪描點(diǎn)(FPR,TPR).此后每一輪按公式計(jì)算:假設(shè)上一輪描點(diǎn)(x,y),如果當(dāng)前點(diǎn)為真正例,則描點(diǎn)(x,y+1/m+),否則描點(diǎn)(x+1/m-,y).其中m+為真實(shí)正例個(gè)數(shù),m-為真實(shí)負(fù)例個(gè)數(shù).公式為:

(14)

(15)

以x_fpr和y_tpr分別為橫、縱坐標(biāo),即可描繪出ROC曲線圖.ROC曲線與x軸之間的面積為AUC,可以估計(jì)為

(16)

一般認(rèn)為,AUC越接近1,模型的性能越好.

4.5 實(shí)驗(yàn)結(jié)果及分析

為了驗(yàn)證SAE-LOF算法的有效性,本文將其與SAE算法、LOF算法、KNN算法、孤立森林(iForest)算法進(jìn)行對(duì)比,比較各自的acc、er、AUC指標(biāo),并繪出ROC曲線圖.

表3展示的是不同模型在KDD-CUP99和Shuttle 2個(gè)數(shù)據(jù)集下的精度acc、錯(cuò)誤率er以及運(yùn)行時(shí)間.由表3可知,對(duì)于KDD-CUP99數(shù)據(jù)集,SAE與LOF的結(jié)合與SAE、LOF、KNN、iForest相比,樣本分類的精度分別提升了3.66%,0.91%,3.05%,4.88%;對(duì)于Shuttle數(shù)據(jù)集,樣本分類的精度分別提升了2.57%,0.27%,2.41%,1.03%.分類錯(cuò)誤的概率降低了同等的百分比.

相比于SAE算法、LOF算法和iForest算法,SAE-LOF算法的運(yùn)行時(shí)間有所增加,但比KNN算法的時(shí)間大幅度降低.這是因?yàn)镾AE-LOF算法對(duì)SAE算法和LOF算法進(jìn)行了融合,訓(xùn)練時(shí)間有所延長(zhǎng).雖然運(yùn)行時(shí)間較長(zhǎng),但是檢測(cè)精度有明顯提升,所以仍有一定的研究?jī)r(jià)值.

表3 不同模型acc、er對(duì)比

圖5和6是不同模型的ROC曲線圖.其中圖5是KDD-CUP99數(shù)據(jù)集,計(jì)算ROC曲線與x軸圍成的面積可得SAE、LOF、KNN、iForest、SAE_LOF模型的AUC值,分別為0.963 7,0.948 4,0.956 5,0.878 2,0.996 5.圖6是Shuttle數(shù)據(jù)集,SAE、LOF、KNN、iForest、SAE_LOF模型的AUC值分別為0.907 3,0.980 0,0.762 2,0.932 1,0.987 2.由此可見(jiàn),SAE-LOF算法的AUC值高于其余4種算法,該算法在性能上超越了其余4種算法,從而驗(yàn)證了該算法的有效性.

圖5 KDD-CUP99 ROC曲線

5 結(jié)束語(yǔ)

本文首先介紹了基于自編碼器的離群點(diǎn)檢測(cè)算法SAE和基于密度的離群點(diǎn)檢測(cè)算法LOF.其次,針對(duì)SAE和LOF檢測(cè)精度不高的問(wèn)題,提出了將SAE和LOF相結(jié)合的SAE-LOF算法.SAE-LOF算法將SAE的重構(gòu)誤差與LOF的局部離群因子作為新的特征輸入到神經(jīng)網(wǎng)絡(luò),進(jìn)行有監(jiān)督的訓(xùn)練,進(jìn)而預(yù)測(cè)離群點(diǎn).該算法在2個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果與SAE算法、LOF算法、KNN算法、孤立森林算法進(jìn)行比較.結(jié)果表明,SAE-LOF算法的預(yù)測(cè)結(jié)果具有更高的精度、更低的錯(cuò)誤率以及更高的AUC值.這表明該算法顯著提高了分類器的性能.

但該算法還有很多提升空間.在數(shù)據(jù)量爆炸式增長(zhǎng)的今天,如何分析海量數(shù)據(jù)內(nèi)部規(guī)律,進(jìn)而檢測(cè)出離群點(diǎn),成了一個(gè)亟待解決的難題.而對(duì)于大規(guī)模數(shù)據(jù)集,該算法只能隨機(jī)抽取部分樣本做成新的數(shù)據(jù)集,再進(jìn)行訓(xùn)練和預(yù)測(cè),因此需要進(jìn)行研究和改進(jìn).另外,本文使用了算法融合的方法,雖然提高檢測(cè)精度,但也延長(zhǎng)了訓(xùn)練時(shí)間.所以怎樣在保證精度的情況下縮短訓(xùn)練時(shí)間,也是今后要改進(jìn)的問(wèn)題,

猜你喜歡
特征檢測(cè)
抓住特征巧觀察
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
“幾何圖形”檢測(cè)題
“角”檢測(cè)題
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
主站蜘蛛池模板: 欧美区一区| 丁香五月婷婷激情基地| 米奇精品一区二区三区| 日本高清免费不卡视频| 欧美成人免费| 激情五月婷婷综合网| 久久精品中文字幕免费| 美女潮喷出白浆在线观看视频| 亚洲激情99| 精品在线免费播放| 国产一级α片| 欧美在线精品一区二区三区| 午夜福利亚洲精品| 日韩小视频网站hq| 日本五区在线不卡精品| 久久青草热| 亚洲三级色| 色一情一乱一伦一区二区三区小说| 欧美特级AAAAAA视频免费观看| 9966国产精品视频| 日韩av电影一区二区三区四区| 日韩精品无码一级毛片免费| 亚洲 欧美 中文 AⅤ在线视频| 国产成人凹凸视频在线| 国产91麻豆免费观看| 欧美国产日韩另类| 狼友视频国产精品首页| 成人在线观看不卡| 在线观看亚洲成人| 中文字幕天无码久久精品视频免费 | 国产精品短篇二区| 亚洲国产理论片在线播放| 日韩 欧美 小说 综合网 另类| 国产成人无码Av在线播放无广告| 国产欧美日韩视频怡春院| 亚洲日韩Av中文字幕无码| 乱系列中文字幕在线视频 | www.日韩三级| 国产精品久久久久久久伊一| 国产亚洲精品在天天在线麻豆 | 亚洲第一成年网| 麻豆国产在线不卡一区二区| 香蕉eeww99国产精选播放| 亚洲无码高清免费视频亚洲| 免费看的一级毛片| 亚洲国产精品久久久久秋霞影院| 在线观看亚洲国产| 国产99热| 亚洲无码免费黄色网址| 亚洲资源站av无码网址| 国产婬乱a一级毛片多女| 99ri国产在线| 91亚洲影院| 国产丝袜无码一区二区视频| 亚洲国产系列| 露脸国产精品自产在线播| 欧美啪啪一区| 日韩在线网址| 亚洲一本大道在线| 国产另类视频| 欧美成人区| 久久中文字幕2021精品| 欲色天天综合网| 内射人妻无码色AV天堂| 尤物视频一区| 一级全黄毛片| 五月婷婷综合色| 91九色国产在线| 久草网视频在线| 国内99精品激情视频精品| 1769国产精品视频免费观看| 真实国产精品vr专区| 99爱在线| P尤物久久99国产综合精品| 国产成人高清精品免费软件| 成年人视频一区二区| 日本在线视频免费| 日本精品αv中文字幕| 欧美成人一级| 国产成人精品日本亚洲| 免费毛片视频| 国产精品免费入口视频|