基于自編碼器和密度的融合離群點(diǎn)檢測(cè)算法

2021-03-27 01:18:44林昕玥杜旭升理姍姍楊少智

東北師大學(xué)報(bào)(自然科學(xué)版) 2021年1期

林昕玥，于炯，，杜旭升，理姍姍，楊少智，高杰

(1.新疆大學(xué)軟件學(xué)院，新疆烏魯木齊 830091；2.新疆大學(xué)信息科學(xué)與工程學(xué)院，新疆烏魯木齊 830046)

0 引言

隨著數(shù)據(jù)量的大規(guī)模增長(zhǎng)，探求數(shù)據(jù)內(nèi)潛在的有益知識(shí)或信息的需求日益增長(zhǎng)，由此產(chǎn)生了數(shù)據(jù)挖掘[1]技術(shù).離群點(diǎn)檢測(cè)[2-3]是一種重要的數(shù)據(jù)挖掘技術(shù).離群點(diǎn)又叫異常點(diǎn)、孤立點(diǎn)，是指與其他樣本點(diǎn)具有明顯不同特征的樣本點(diǎn).這些樣本點(diǎn)與其他樣本點(diǎn)差距巨大，可能是由完全不同的、還未引起注意的機(jī)制或因素產(chǎn)生的[4].

離群點(diǎn)檢測(cè)的應(yīng)用在多個(gè)領(lǐng)域都有所涉獵.例如：在金融領(lǐng)域，分析異常的金融交易數(shù)據(jù)，可以識(shí)別出金融欺詐，保護(hù)人們財(cái)產(chǎn)安全；在醫(yī)療領(lǐng)域，分析異常的影像數(shù)據(jù)，可以判斷病癥，給出醫(yī)療診斷，輔助醫(yī)生進(jìn)行診療[5]；在娛樂(lè)、購(gòu)物領(lǐng)域，用戶的異常點(diǎn)擊可能代表該用戶新的興趣點(diǎn)，分析異常點(diǎn)擊，有助于產(chǎn)品的營(yíng)銷和廣告的精準(zhǔn)投放.

在離群點(diǎn)檢測(cè)研究的早期階段，人們認(rèn)為離群點(diǎn)數(shù)據(jù)本身沒(méi)有價(jià)值，研究離群點(diǎn)的檢測(cè)只是為了找出異常事件，減少異常事件對(duì)正常數(shù)據(jù)分析的影響.但近些年人們逐漸意識(shí)到，異常事件本身也有研究?jī)r(jià)值，它往往蘊(yùn)含著人們還沒(méi)有發(fā)現(xiàn)或者容易被忽略掉的有用信息[6].研究異常事件背后的有用信息，可以通過(guò)研究數(shù)據(jù)規(guī)律給生活帶來(lái)便利提供另一種可能.

隨著離群點(diǎn)檢測(cè)技術(shù)的不斷成熟和深入，多種檢測(cè)算法相繼被國(guó)內(nèi)外研究人員提出.傳統(tǒng)的檢測(cè)算法基本是依靠數(shù)學(xué)公式對(duì)離群點(diǎn)進(jìn)行計(jì)算和預(yù)測(cè)，主要包括基于分布的、基于深度的、基于聚類的、基于距離的和基于密度的算法[7-11].它們的可解釋性都很強(qiáng)，但是各有缺點(diǎn).例如，基于密度的離群點(diǎn)檢測(cè)算法對(duì)密度的參數(shù)選擇很困難[12]，在實(shí)際檢測(cè)中很容易出現(xiàn)精度不高的現(xiàn)象.近年來(lái)，伴隨著神經(jīng)網(wǎng)絡(luò)的普及，基于深度學(xué)習(xí)的離群點(diǎn)檢測(cè)算法越來(lái)越多，最著名的有基于棧式自編碼器的算法[13-14]和基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的算法[15].這些算法擬合效果相較于傳統(tǒng)方法具有優(yōu)秀的表現(xiàn)，適用于大規(guī)模的數(shù)據(jù)集.

針對(duì)很多離群點(diǎn)檢測(cè)算法精度不夠高的問(wèn)題，本文提出了將近些年的基于棧式自編碼器的離群點(diǎn)(SAE)檢測(cè)算法與傳統(tǒng)的基于密度的離群點(diǎn)(LOF)檢測(cè)算法相結(jié)合的SAE-LOF算法.SAE-LOF算法將SAE的重構(gòu)誤差和LOF的局部離群因子作為新的特征輸入到神經(jīng)網(wǎng)絡(luò)，對(duì)神經(jīng)網(wǎng)絡(luò)做有監(jiān)督的訓(xùn)練，進(jìn)而對(duì)離群點(diǎn)做出預(yù)測(cè)，以此提高離群點(diǎn)檢測(cè)的精度.實(shí)驗(yàn)表明，該算法相比SAE算法、LOF算法、KNN算法、孤立森林算法，其檢測(cè)精度有明顯提升，算法性能有顯著提高.

1 SAE檢測(cè)算法

自編碼器(Autoencoder，AE)是一種特殊的神經(jīng)網(wǎng)絡(luò)，其包含輸入層、隱藏層和輸出層.自編碼神經(jīng)網(wǎng)絡(luò)的訓(xùn)練包括編碼階段與解碼階段[16].編碼階段將輸入數(shù)據(jù)映射到隱藏層，解碼階段通過(guò)隱藏層數(shù)據(jù)重構(gòu)輸出.與普通神經(jīng)網(wǎng)絡(luò)不同的是自編碼器的主要目標(biāo)是構(gòu)建輸出與輸入盡可能相近的神經(jīng)網(wǎng)絡(luò).自編碼器檢測(cè)離群點(diǎn)的主要流程如下：

(1) 將正常數(shù)據(jù)輸入自編碼器進(jìn)行訓(xùn)練，使其輸出與輸入的重構(gòu)誤差達(dá)到最小.編碼、解碼階段描述如下：

h=f(Wx+b)；

(1)

y=g(W′h+b′)；

(2)

(3)

公式(1)(2)分別為編碼、解碼階段；公式(3)為代價(jià)函數(shù)，其第1項(xiàng)為均方誤差重構(gòu)項(xiàng)，第2項(xiàng)為L(zhǎng)2正則項(xiàng).公式(1)—(3)中：W，b為編碼階段權(quán)重參數(shù)；W′，b′為解碼階段權(quán)重參數(shù)；f，g分別為編碼階段和解碼階段的激活函數(shù).

(2) 將測(cè)試數(shù)據(jù)輸入訓(xùn)練完成后的自編碼器進(jìn)行重構(gòu).

(3)計(jì)算測(cè)試數(shù)據(jù)集中各對(duì)象的重構(gòu)誤差，重構(gòu)誤差越大，其越有可能是離群點(diǎn).重構(gòu)誤差越小，其越不可能是離群點(diǎn).

圖1 SAE結(jié)構(gòu)

SAE是由多個(gè)自編碼器堆疊而成的，后一個(gè)自編碼器的輸入來(lái)自于其前一個(gè)自編碼器的隱藏層數(shù)據(jù)，依此堆疊.SAE采用逐層貪婪的方式訓(xùn)練，通過(guò)最小化重構(gòu)誤差，得到每一層的最優(yōu)參數(shù).

SAE是一種深度模型，將普通自編碼器堆疊起來(lái)，使得模型具有更強(qiáng)的擬合能力和特征學(xué)習(xí)能力，提升了普通自編碼器分辨異常樣本的能力.

2 LOF檢測(cè)算法

基于密度的離群點(diǎn)檢測(cè)算法，以LOF[17-18]為代表.LOF算法相關(guān)定義如下：

設(shè)數(shù)據(jù)集為P={p1，p2，…，pi，…，pj，…，pN}，N為數(shù)據(jù)集P的大小，pi，pj∈P是數(shù)據(jù)集P的任意2個(gè)數(shù)據(jù)對(duì)象，dist(pi，pj)為數(shù)據(jù)對(duì)象pi與pj之間的歐氏距離.

定義1對(duì)象pi的r鄰域N(pi，r).

對(duì)于正整數(shù)r，對(duì)象pi(pi∈P)的r鄰域N(pi，r)定義為

N(pi，r)={pj∈P|dist(pi，pj)≤r，pj≠pi}.

(4)

定義2對(duì)象pi的第k距離k-dist(pi).

對(duì)于正整數(shù)k(k≤N)，對(duì)象pi(pi∈P)的第k距離k-dist(pi)=r′，滿足：

對(duì)于任意r≤r′，都有|N(pi，r)|≥k；

對(duì)于任意r

|N(pi，r)|表示對(duì)象pi的r鄰域內(nèi)點(diǎn)的個(gè)數(shù)(不包括pi).

定義3對(duì)象pi的第k距離鄰域Nk(pi).

對(duì)于正整數(shù)k(k≤N)，對(duì)象pi(pi∈P)的第k距離鄰域Nk(pi)=N(pi，r)，其中r=k-dist(pi).

定義4對(duì)象pj到pi的第k可達(dá)距離reach-distk(pi，pj).

對(duì)于正整數(shù)k(k≤N)，對(duì)象pj(pj∈P)到pi(pi∈P)的第k可達(dá)距離定義為

reach-distk(pi，pj)=max{k-dist(pj)，dist(pi，pj)}.

(5)

定義5對(duì)象pi的局部可達(dá)密度lrdk(pi).

對(duì)象pi(pi∈P)的局部可達(dá)密度定義為

(6)

定義6對(duì)象pi的局部離群因子LOFk(pi).

對(duì)于正整數(shù)k(k≤N)，對(duì)象pi(pi∈P)的局部離群因子定義為

(7)

通過(guò)以上步驟最終得到每個(gè)點(diǎn)的局部離群因子.比較每個(gè)點(diǎn)的LOFk值，將LOFk值較大的樣本點(diǎn)標(biāo)記為離群點(diǎn).

3 SAE-LOF檢測(cè)算法

基于SAE的離群點(diǎn)檢測(cè)算法構(gòu)建輸出盡可能接近輸入的神經(jīng)網(wǎng)絡(luò)，認(rèn)為輸出與輸入的差異越大，越有可能是離群點(diǎn).基于LOF的離群點(diǎn)檢測(cè)算法針對(duì)樣本點(diǎn)的個(gè)數(shù)和樣本之間的距離綜合判定離群點(diǎn).這2種方法是從2種不同的角度表示離群特性，其劃分正常點(diǎn)和離群點(diǎn)的依據(jù)也有所不同，所以實(shí)際檢測(cè)出來(lái)的離群點(diǎn)也不同.為了更全面地表示離群特性、衡量離群程度，本文提出將SAE與LOF結(jié)合的算法即SAE-LOF算法.

當(dāng)同一樣本點(diǎn)用多種檢測(cè)方法進(jìn)行離群判定時(shí)，使用傳統(tǒng)的“投票”制度，異常票數(shù)較高的樣本點(diǎn)被認(rèn)定為離群點(diǎn)，正常票數(shù)較高的樣本點(diǎn)被認(rèn)定為正常點(diǎn).這種結(jié)合方式與單一檢測(cè)方法相比，能降低檢測(cè)錯(cuò)誤率，提高檢測(cè)精度.但是“投票”制度將不同檢測(cè)方法看作同等重要，與實(shí)際不符，因而影響了檢測(cè)精度.

神經(jīng)網(wǎng)絡(luò)的實(shí)質(zhì)是對(duì)多個(gè)特征進(jìn)行“加權(quán)”，讓不同特征以不同的重要性對(duì)輸出結(jié)果產(chǎn)生影響.使用神經(jīng)網(wǎng)絡(luò)將多種檢測(cè)方法進(jìn)行結(jié)合，既能讓不同檢測(cè)方法“加權(quán)投票”，又能通過(guò)自我學(xué)習(xí)更新權(quán)重，使得最終檢測(cè)結(jié)果更接近實(shí)際情況.另外，用動(dòng)量梯度下降法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化，可以減少震蕩，提高迭代收斂速度.

綜合以上幾點(diǎn)，本文采用神經(jīng)網(wǎng)絡(luò)將SAE與LOF結(jié)合，把SAE的重構(gòu)誤差和LOF的局部離群因子作為新的特征輸入到神經(jīng)網(wǎng)絡(luò)中，通過(guò)神經(jīng)網(wǎng)絡(luò)的擬合，將輸出結(jié)果逼近實(shí)際的正常和異常的標(biāo)簽.算法步驟為：

輸入：預(yù)處理后的數(shù)據(jù)集.

輸出：離群點(diǎn)預(yù)測(cè)結(jié)果.

(1) SAE訓(xùn)練及測(cè)試

(a) 訓(xùn)練SAE，采用逐層貪心的策略，反復(fù)進(jìn)行正向傳播和反向傳播，最小化重構(gòu)誤差，得到每層最優(yōu)參數(shù).

(b) 測(cè)試SAE，用得到的參數(shù)編碼、解碼，計(jì)算測(cè)試集的重構(gòu)誤差.

(2) LOF

用LOF算法計(jì)算每個(gè)樣本的LOFk值.

(3) 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練及測(cè)試

(a) 將(1)得到的重構(gòu)誤差和(2)得到的LOFk值組成新的二維特征數(shù)據(jù)集，由于特征維度過(guò)少，神經(jīng)網(wǎng)絡(luò)難以擬合，故需生成多項(xiàng)式特征.設(shè)重構(gòu)誤差特征為a，LOFk特征為b，則神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集為{a，b，a2，ab，b2，…}.

(b) 將神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集標(biāo)準(zhǔn)化，公式為

(8)

其中：mean(xj)表示第j維特征所有樣本的均值，std(xj)表示第j維所有樣本的標(biāo)準(zhǔn)差.

圖2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

(d) 測(cè)試神經(jīng)網(wǎng)絡(luò).

先分別測(cè)試SAE和LOF，將得到的SAE的重構(gòu)誤差和LOF的LOFk構(gòu)成神經(jīng)網(wǎng)絡(luò)的測(cè)試集，并通過(guò)生成多項(xiàng)式特征增加特征維度，將其標(biāo)準(zhǔn)化后輸入到神經(jīng)網(wǎng)絡(luò)中.經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)計(jì)算，每個(gè)樣本得到一個(gè)預(yù)測(cè)值.神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.

(4) 離群點(diǎn)預(yù)測(cè)

將全部樣本的預(yù)測(cè)值降序排列，取預(yù)測(cè)值最高的n個(gè)樣本預(yù)測(cè)為離群點(diǎn)，其中n=0.03|C|，|C|表示神經(jīng)網(wǎng)絡(luò)測(cè)試集的樣本數(shù).

算法流程如圖3所示.神經(jīng)網(wǎng)絡(luò)訓(xùn)練和測(cè)試部分細(xì)化，如圖4所示.

圖3 SAE-LOF算法流程

4 實(shí)驗(yàn)部分

4.1 數(shù)據(jù)集

本文使用了2個(gè)公開(kāi)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)：KDD-CUP99數(shù)據(jù)集和Shuttle數(shù)據(jù)集.KDD-CUP99是一個(gè)比較權(quán)威的用于檢測(cè)網(wǎng)絡(luò)入侵的數(shù)據(jù)集.本文選取10%的KDD-CUP99數(shù)據(jù)集，包含normal一種正常類型和back、buffer_overflow、ftp_write、guess_passwd等22種異常攻擊類型.該數(shù)據(jù)集包含41個(gè)特征，其中9個(gè)特征為符號(hào)型，其余為數(shù)值型；Shuttle是一個(gè)有關(guān)航天飛機(jī)的數(shù)據(jù)集，由澳大利亞悉尼大學(xué)計(jì)算機(jī)科學(xué)系Jason Catlett采集并捐贈(zèng)，包含9個(gè)數(shù)值型特征.

4.2 數(shù)據(jù)集預(yù)處理

(1) 數(shù)據(jù)集拆分：將數(shù)據(jù)集拆分為符號(hào)型特征、數(shù)值型特征標(biāo)簽.

(2) 符號(hào)型特征數(shù)值化：采用one-hot編碼將符號(hào)型特征數(shù)值化.如：協(xié)議類型中icmp編碼為[1，0，0]，tcp編碼為[0，1，0]，udp編碼為[0，0，1].one-hot編碼讓特征之間的距離計(jì)算更加合理.

(3) 特征降維：使用MDS算法對(duì)數(shù)值化的符號(hào)型特征降維.由于one-hot編碼擴(kuò)充了特征維度，特征空間顯著增大，因此選用MDS(多維縮放)算法做降維處理.

(4) 特征合并：將降維后的特征與原本的數(shù)值型特征合并.

(5) 歸一化處理：為了將數(shù)據(jù)縮放到一定范圍內(nèi)，使得不同量級(jí)的數(shù)據(jù)能進(jìn)行比較和加權(quán)，還需對(duì)特征進(jìn)行歸一化.

(9)

其中：max(xj)表示第j維特征所有樣本的最大值，min(xj)表示第j維特征所有樣本的最小值.

Shuttle數(shù)據(jù)集由于沒(méi)有符號(hào)型特征，故只需執(zhí)行步驟(5)即可.

4.3 數(shù)據(jù)集劃分

預(yù)處理后的數(shù)據(jù)集全部歸一化到0至1的范圍內(nèi).由于后續(xù)步驟需要對(duì)SAE和LOF分別處理，并用神經(jīng)網(wǎng)絡(luò)將其結(jié)合，故需對(duì)數(shù)據(jù)集進(jìn)行劃分(見(jiàn)表1).數(shù)據(jù)集劃分情況如下：

數(shù)據(jù)集A：隨機(jī)抽取50%的正常樣本數(shù)據(jù)；

數(shù)據(jù)集B：33.3%的正常樣本數(shù)據(jù)和少量異常樣本數(shù)據(jù)；

數(shù)據(jù)集C：剩余正常樣本數(shù)據(jù)和少量異常樣本數(shù)據(jù).

數(shù)據(jù)集B和C中異常樣本占比3%.數(shù)據(jù)集A用于訓(xùn)練SAE；數(shù)據(jù)集B用于測(cè)試SAE、LOF，進(jìn)而訓(xùn)練神經(jīng)網(wǎng)絡(luò)；數(shù)據(jù)集C用于測(cè)試神經(jīng)網(wǎng)絡(luò)，并根據(jù)測(cè)試結(jié)果預(yù)測(cè)離群點(diǎn).

表1 數(shù)據(jù)集劃分

4.4 實(shí)驗(yàn)性能評(píng)估指標(biāo)

常見(jiàn)的性能評(píng)估指標(biāo)有精度(Accuracy，acc)、錯(cuò)誤率(Error rate，er)、受試者工作特征(Receiver Operating Characteristic，ROC)、AUC(Area Under ROC Curve)[19-20].

精度是預(yù)測(cè)正確的樣本數(shù)占總體樣本數(shù)的比例，錯(cuò)誤率是預(yù)測(cè)錯(cuò)誤的樣本數(shù)占總體的比例.公式為：

(10)

(11)

其中：m為樣本容量，f(xi)為第i個(gè)樣本的輸出，yi為第i個(gè)樣本的標(biāo)簽，∏(x)為指示函數(shù)，當(dāng)x取真、假時(shí)分別為1和0.

另外，根據(jù)真實(shí)標(biāo)簽與預(yù)測(cè)結(jié)果，可計(jì)算出真正例(TP)、假反例(FN)、假正例(FP)、真反例(TN).分類結(jié)果的混淆矩陣如表2所示.

表2 分類結(jié)果的混淆矩陣

根據(jù)表2可以計(jì)算出真正例率(TPR)，假正例率(FPR)：

(12)

(13)

為了尋找TPR與FPR的關(guān)系，進(jìn)而衡量模型性能，本文先根據(jù)預(yù)測(cè)結(jié)果對(duì)樣本倒序排列，把分類閾值設(shè)到最大，將所有樣本預(yù)測(cè)為反例，然后依次將每個(gè)樣本預(yù)測(cè)為正例.第一輪描點(diǎn)(FPR，TPR).此后每一輪按公式計(jì)算：假設(shè)上一輪描點(diǎn)(x，y)，如果當(dāng)前點(diǎn)為真正例，則描點(diǎn)(x，y+1/m+)，否則描點(diǎn)(x+1/m-，y).其中m+為真實(shí)正例個(gè)數(shù)，m-為真實(shí)負(fù)例個(gè)數(shù).公式為：

(14)

(15)

以x_fpr和y_tpr分別為橫、縱坐標(biāo)，即可描繪出ROC曲線圖.ROC曲線與x軸之間的面積為AUC，可以估計(jì)為

(16)

一般認(rèn)為，AUC越接近1，模型的性能越好.

4.5 實(shí)驗(yàn)結(jié)果及分析

為了驗(yàn)證SAE-LOF算法的有效性，本文將其與SAE算法、LOF算法、KNN算法、孤立森林(iForest)算法進(jìn)行對(duì)比，比較各自的acc、er、AUC指標(biāo)，并繪出ROC曲線圖.

表3展示的是不同模型在KDD-CUP99和Shuttle 2個(gè)數(shù)據(jù)集下的精度acc、錯(cuò)誤率er以及運(yùn)行時(shí)間.由表3可知，對(duì)于KDD-CUP99數(shù)據(jù)集，SAE與LOF的結(jié)合與SAE、LOF、KNN、iForest相比，樣本分類的精度分別提升了3.66%，0.91%，3.05%，4.88%；對(duì)于Shuttle數(shù)據(jù)集，樣本分類的精度分別提升了2.57%，0.27%，2.41%，1.03%.分類錯(cuò)誤的概率降低了同等的百分比.

相比于SAE算法、LOF算法和iForest算法，SAE-LOF算法的運(yùn)行時(shí)間有所增加，但比KNN算法的時(shí)間大幅度降低.這是因?yàn)镾AE-LOF算法對(duì)SAE算法和LOF算法進(jìn)行了融合，訓(xùn)練時(shí)間有所延長(zhǎng).雖然運(yùn)行時(shí)間較長(zhǎng)，但是檢測(cè)精度有明顯提升，所以仍有一定的研究?jī)r(jià)值.

表3 不同模型acc、er對(duì)比

圖5和6是不同模型的ROC曲線圖.其中圖5是KDD-CUP99數(shù)據(jù)集，計(jì)算ROC曲線與x軸圍成的面積可得SAE、LOF、KNN、iForest、SAE_LOF模型的AUC值，分別為0.963 7，0.948 4，0.956 5，0.878 2，0.996 5.圖6是Shuttle數(shù)據(jù)集，SAE、LOF、KNN、iForest、SAE_LOF模型的AUC值分別為0.907 3，0.980 0，0.762 2，0.932 1，0.987 2.由此可見(jiàn)，SAE-LOF算法的AUC值高于其余4種算法，該算法在性能上超越了其余4種算法，從而驗(yàn)證了該算法的有效性.

圖5 KDD-CUP99 ROC曲線

5 結(jié)束語(yǔ)

本文首先介紹了基于自編碼器的離群點(diǎn)檢測(cè)算法SAE和基于密度的離群點(diǎn)檢測(cè)算法LOF.其次，針對(duì)SAE和LOF檢測(cè)精度不高的問(wèn)題，提出了將SAE和LOF相結(jié)合的SAE-LOF算法.SAE-LOF算法將SAE的重構(gòu)誤差與LOF的局部離群因子作為新的特征輸入到神經(jīng)網(wǎng)絡(luò)，進(jìn)行有監(jiān)督的訓(xùn)練，進(jìn)而預(yù)測(cè)離群點(diǎn).該算法在2個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果與SAE算法、LOF算法、KNN算法、孤立森林算法進(jìn)行比較.結(jié)果表明，SAE-LOF算法的預(yù)測(cè)結(jié)果具有更高的精度、更低的錯(cuò)誤率以及更高的AUC值.這表明該算法顯著提高了分類器的性能.

但該算法還有很多提升空間.在數(shù)據(jù)量爆炸式增長(zhǎng)的今天，如何分析海量數(shù)據(jù)內(nèi)部規(guī)律，進(jìn)而檢測(cè)出離群點(diǎn)，成了一個(gè)亟待解決的難題.而對(duì)于大規(guī)模數(shù)據(jù)集，該算法只能隨機(jī)抽取部分樣本做成新的數(shù)據(jù)集，再進(jìn)行訓(xùn)練和預(yù)測(cè)，因此需要進(jìn)行研究和改進(jìn).另外，本文使用了算法融合的方法，雖然提高檢測(cè)精度，但也延長(zhǎng)了訓(xùn)練時(shí)間.所以怎樣在保證精度的情況下縮短訓(xùn)練時(shí)間，也是今后要改進(jìn)的問(wèn)題，