999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于袋外預(yù)測和擴(kuò)展空間的隨機(jī)森林改進(jìn)算法

2022-03-12 05:55:36張彥春
計(jì)算機(jī)工程 2022年3期
關(guān)鍵詞:特征

常 碩,張彥春

(1.復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 200082;2.廣州大學(xué) 網(wǎng)絡(luò)空間先進(jìn)技術(shù)研究院,廣州 510006)

0 概述

隨機(jī)森林具有良好的準(zhǔn)確性和高效性,被認(rèn)為是性能最優(yōu)的分類算法之一。文獻(xiàn)[1]在121 個(gè)數(shù)據(jù)集上對179 個(gè)分類器進(jìn)行評估,在所得實(shí)驗(yàn)結(jié)果中隨機(jī)森林表現(xiàn)最好。然而,這121 個(gè)數(shù)據(jù)集中大多數(shù)據(jù)規(guī)模較小,在數(shù)據(jù)規(guī)模較大的數(shù)據(jù)集上,隨機(jī)森林的表現(xiàn)一般不如AdaBoost(Adaptive Boosting)等boost 算法[2]。雖然存在上述問題,但是隨機(jī)森林算法十分簡單,可并行化,訓(xùn)練時(shí)間遠(yuǎn)低于boost 算法且不容易過擬合[3],因此,其仍是當(dāng)今最流行的分類算法之一。

文獻(xiàn)[4]通過使用多個(gè)特征評估度量來降低決策樹間的相關(guān)性而非決策樹的準(zhǔn)確性,同時(shí)使用加權(quán)平均進(jìn)行預(yù)測,在分類數(shù)據(jù)集上其預(yù)測結(jié)果較好。文獻(xiàn)[5]通過復(fù)雜的動態(tài)集成方法進(jìn)行預(yù)測,設(shè)計(jì)一種提高隨機(jī)森林在某些數(shù)據(jù)集上預(yù)測性能的方法,實(shí)驗(yàn)結(jié)果表明,在27 個(gè)分類數(shù)據(jù)集中,該方法能改善12 個(gè)數(shù)據(jù)集中隨機(jī)森林的預(yù)測表現(xiàn)。文獻(xiàn)[6]在隨機(jī)選擇K個(gè)劃分特征的基礎(chǔ)上,通過隨機(jī)選擇劃分結(jié)點(diǎn)來進(jìn)一步降低決策樹間的相關(guān)性并提高隨機(jī)森林的預(yù)測表現(xiàn),實(shí)驗(yàn)結(jié)果表明,在12 個(gè)分類數(shù)據(jù)集中,該方法能夠顯著改善5 個(gè)數(shù)據(jù)集中隨機(jī)森林的預(yù)測表現(xiàn)。文獻(xiàn)[7]通過袋外(out-of-bag)預(yù)測誤差對決策樹的預(yù)測進(jìn)行加權(quán),在10 個(gè)噪聲數(shù)據(jù)集上該方法取得了較好的性能表現(xiàn)。文獻(xiàn)[8]提出一種不放回的抽樣方法,其提高了算法效率,并在7 個(gè)數(shù)據(jù)集上提高了預(yù)測準(zhǔn)確性。文獻(xiàn)[9]提出一種對特征子集加權(quán)抽樣的方法,該方法提高了與分類相關(guān)的屬性的抽樣概率,在高維數(shù)據(jù)上取得了較好的性能表現(xiàn)。文獻(xiàn)[10]通過PCA(Principle Component Analysis)對每個(gè)決策樹的輸入特征隨機(jī)分組進(jìn)行旋轉(zhuǎn)預(yù)處理,以降低決策樹間的相關(guān)性并提高隨機(jī)森林的性能,實(shí)驗(yàn)結(jié)果表明,在33 個(gè)分類數(shù)據(jù)集中,該方法能夠顯著改善10 個(gè)數(shù)據(jù)集中隨機(jī)森林的預(yù)測表現(xiàn)。文獻(xiàn)[11]通 過LDA(Linear Discriminative Analysis)為每個(gè)分裂結(jié)點(diǎn)選擇傾斜的分裂方向,使決策樹的決策邊界傾向坐標(biāo)軸,該方法同樣降低了決策樹間的相關(guān)性,在一些數(shù)據(jù)集上取得了更好的表現(xiàn)。文獻(xiàn)[12]通過Householder QR 分解對每個(gè)決策樹的輸入特征進(jìn)行隨機(jī)旋轉(zhuǎn),類似于文獻(xiàn)[10],其提高了隨機(jī)森林的性能表現(xiàn)。文獻(xiàn)[13]通過在每個(gè)分裂結(jié)點(diǎn)隨機(jī)抽樣一個(gè)稀疏矩陣,利用該矩陣對結(jié)點(diǎn)的輸入特征進(jìn)行旋轉(zhuǎn),在旋轉(zhuǎn)后的稀疏特征空間中搜索最佳劃分結(jié)點(diǎn),該方法提高了隨機(jī)森林的準(zhǔn)確性。文獻(xiàn)[14]通過拓展特征空間的方式,為每個(gè)決策樹的輸入特征隨機(jī)生成部分新特征,其能降低決策樹間的相關(guān)性,且未顯著降低決策樹的準(zhǔn)確性,實(shí)驗(yàn)結(jié)果表明,在36 個(gè)分類數(shù)據(jù)集中,該方法能夠明顯改善8 個(gè)數(shù)據(jù)集中隨機(jī)森林的預(yù)測表現(xiàn)。

上述方法大多在構(gòu)建決策樹時(shí)通過某些方式注入隨機(jī)性,這會降低決策樹間的相關(guān)性,從而提高隨機(jī)森林的預(yù)測表現(xiàn)。在數(shù)據(jù)規(guī)模較大時(shí),注入隨機(jī)性的方式并不能顯著降低決策樹間的相關(guān)性,同時(shí)又因?yàn)闋奚藳Q策樹的準(zhǔn)確性,使得隨機(jī)森林及其改進(jìn)算法的性能改善效果有限,其預(yù)測表現(xiàn)一般不如AdaBoost 等boost 算法。因此,本文提出一種基于out-of-bag 預(yù)測的改進(jìn)算法,將隨機(jī)森林的out-of-bag預(yù)測概率視為特征,將其與原始特征相結(jié)合,重新訓(xùn)練隨機(jī)森林。out-of-bag 預(yù)測概率能夠改善決策樹的劃分,有效提高決策樹的準(zhǔn)確性,從而提升隨機(jī)森林的預(yù)測準(zhǔn)確性。由于out-of-bag 預(yù)測概率會增大決策樹間的相關(guān)性,因此本文利用文獻(xiàn)[14]所提方法來降低由out-of-bag 預(yù)測帶來的決策樹相關(guān)性,且不顯著降低決策樹的準(zhǔn)確性,從而保證隨機(jī)森林的預(yù)測性能。

1 相關(guān)工作

1.1 隨機(jī)森林

隨機(jī)森林是當(dāng)今最流行的分類器之一[1],其在bootstrap 的基礎(chǔ)上,通過隨機(jī)選擇特征子集來分裂決策樹的結(jié)點(diǎn),進(jìn)一步為決策樹注入隨機(jī)性,從而降低決策樹間的相關(guān)性,提高預(yù)測的準(zhǔn)確性[15]。

對于數(shù)據(jù)集D={(xi,yi),i=1,2,…,m},其中,xi和yi分別表示第i個(gè)樣本的特征向量和類別,隨機(jī)森林的訓(xùn)練過程如下(其中,T和k均為預(yù)先設(shè)定好的超參數(shù)):

t從1 到T:

1)從數(shù)據(jù)集D中有放回地抽樣得到m個(gè)樣本的數(shù)據(jù)集Dt,未被抽樣到的樣本組成數(shù)據(jù)集Dt-oob。

2)在數(shù)據(jù)集Dt上,訓(xùn)練一棵無剪枝的決策樹ft。在訓(xùn)練過程中,對于決策樹中的每個(gè)結(jié)點(diǎn),通過隨機(jī)選擇k個(gè)特征來對結(jié)點(diǎn)進(jìn)行劃分,直到結(jié)點(diǎn)內(nèi)的樣本類別都相同或只有一個(gè)樣本為止。

最終,隨機(jī)森林通過平均所有決策樹的輸出來獲得最終輸出,即:

在抽樣得到的數(shù)據(jù)集Dt中,不重復(fù)的樣本大約占63.2%,剩下大約占36.8%的Dt-oob被稱為out-of-bag樣本。顯然以ft預(yù)測Dt-oob是無偏的,因此可以用ft對Dt-oob預(yù)測的平均結(jié)果作為對Dt的預(yù)測。對于Dt中的樣本x,其預(yù)測為:

其中:I為指示函數(shù)。

1.2 空間擴(kuò)展

文獻(xiàn)[14]為了降低決策樹間的相關(guān)性,提出一種隨機(jī)組合的特征空間擴(kuò)展方法。對于每個(gè)決策樹,其輸入特征由特征本身加上特征的隨機(jī)組合,每個(gè)決策樹的輸入特征都不相同,從而降低了決策樹間的相關(guān)性。同時(shí),由于特征的量綱不同且一些特征間存在相關(guān)性,生成的特征中會有部分特征對決策樹的貢獻(xiàn)和原特征相同,甚至表現(xiàn)更好,因此擴(kuò)展空間方法不會顯著降低決策樹的準(zhǔn)確性。

1.3 AdaBoost

AdaBoost 以其優(yōu)秀的泛化性能而受到學(xué)術(shù)界的關(guān)注[16-17]。AdaBoost 通過確定性的方式更新樣本的權(quán)重,使新的決策樹更加關(guān)注之前分類錯(cuò)誤的樣本,從而提高了最終的泛化能力。AdaBoost 的輸出由T個(gè)決策樹的輸出加權(quán)組成,即:

其中:αt為每輪迭代產(chǎn)生的權(quán)重。

假設(shè)經(jīng)過t-1 輪迭代,F(xiàn)t-1(x)是經(jīng)過t-1 輪迭代得到的結(jié)果模型:

則在第t輪迭代中,需要得到αt、ft(x)和Ft(x):

為了能夠進(jìn)一步提高泛化性能,需要使Ft(x)在損失函數(shù)L上最小,即聯(lián)合優(yōu)化αt和ft(x)使損失函數(shù)L最小:

其中:L為度量類別y和模型Ft(x)之間差異的損失函數(shù)。

2 隨機(jī)森林改進(jìn)算法

2.1 改進(jìn)理論

理論1隨機(jī)森林的泛化誤差上界為:

其中:PPE*為泛化誤差為決策樹間相關(guān)系數(shù)的平均;s為單個(gè)決策樹泛化性能的期望[15]。

為了提高隨機(jī)森林的預(yù)測表現(xiàn),大多數(shù)改進(jìn)方法通過犧牲單個(gè)決策樹的準(zhǔn)確性來降低決策樹間的相關(guān)性,即以降低s為代價(jià)來降低,從而減小隨機(jī)森林的泛化誤差上界,提高其預(yù)測表現(xiàn)。這在數(shù)據(jù)規(guī)模較小時(shí)有效,但在數(shù)據(jù)規(guī)模較大時(shí),決策樹間的相關(guān)性還是較高,泛化誤差不能得到顯著降低,因此,隨機(jī)森林及其改進(jìn)算法性能改善有限。針對該問題,本文通過提高s而非降低s來提高隨機(jī)森林的預(yù)測表現(xiàn)。

理論2令T為一個(gè)在有l(wèi)個(gè)實(shí)數(shù)值特征的數(shù)據(jù)的基礎(chǔ)上構(gòu)建的二元決策樹,共有N個(gè)內(nèi)部結(jié)點(diǎn),則有VC-dimension(T)∈O(Nlb(Nl))[18]。

理論3令H是一組函數(shù),其取值在{-1,1}范圍,其VC-dimension 為d,則對于任意δ,至少有1-δ的概率,式(8)對所有h∈H成立。

其中:S為m個(gè)樣本的訓(xùn)練集;R(h)表示泛化風(fēng)險(xiǎn);(h)表示經(jīng)驗(yàn)風(fēng)險(xiǎn)[19]。

在決策樹的構(gòu)建過程中,同目標(biāo)類別y較相關(guān)的特征會產(chǎn)生較少的葉子結(jié)點(diǎn),不太相關(guān)的特征會產(chǎn)生較多的葉子結(jié)點(diǎn),而且較相關(guān)的特征產(chǎn)生的葉子結(jié)點(diǎn)能夠得到更小的經(jīng)驗(yàn)風(fēng)險(xiǎn)。如圖1 所示,決策樹在特征x2上只會產(chǎn)生2 個(gè)葉子結(jié)點(diǎn),而在特征x1上會產(chǎn)生8 個(gè)葉子結(jié)點(diǎn),且特征x2上的經(jīng)驗(yàn)風(fēng)險(xiǎn)明顯小于x1。由于決策樹中只有度為0 和度為2 的結(jié)點(diǎn),因此決策樹內(nèi)部結(jié)點(diǎn)的數(shù)量N2與葉子結(jié)點(diǎn)的數(shù)量N0的關(guān)系為N2=N0-1。受此啟發(fā),如果能夠構(gòu)造一些較相關(guān)的特征來幫助構(gòu)建決策樹,那么不僅能夠降低決策樹的經(jīng)驗(yàn)風(fēng)險(xiǎn),還能降低決策樹的VC-dimension,從而提高決策樹的準(zhǔn)確性。

圖1 特征與目標(biāo)間相關(guān)性的直觀表示Fig.1 Visual representation of the correlation between features and targets

以隨機(jī)森林的out-of-bag 預(yù)測概率作為特征有以下2 個(gè)優(yōu)點(diǎn):

1)隨機(jī)森林的準(zhǔn)確率高于單個(gè)決策樹,對于二分類問題,僅使用預(yù)測概率就能使決策樹的經(jīng)驗(yàn)風(fēng)險(xiǎn)接近隨機(jī)森林的經(jīng)驗(yàn)風(fēng)險(xiǎn),對于多分類問題,預(yù)測概率也能有效降低決策樹的經(jīng)驗(yàn)風(fēng)險(xiǎn),同時(shí)有效減少決策樹的內(nèi)部結(jié)點(diǎn)。

2)通過out-of-bag 估計(jì)得到預(yù)測概率僅需非常小的代價(jià),在隨機(jī)森林的訓(xùn)練階段即可得到預(yù)測概率且其是無偏的,而通過交叉預(yù)測得到預(yù)測概率不僅十分耗時(shí),得到的結(jié)果也是有偏的。

以隨機(jī)森林的out-of-bag 預(yù)測概率作為構(gòu)造的特征,與原始特征相結(jié)合并重新訓(xùn)練隨機(jī)森林,能夠顯著提高單個(gè)決策樹的準(zhǔn)確性s,從而提高隨機(jī)森林的準(zhǔn)確性。但是不可避免的,準(zhǔn)確性的提升會提高決策樹間的相關(guān)性,即提高了的值,甚至可能大幅提高的值,從而僅能略微提高甚至降低隨機(jī)森林的準(zhǔn)確性。

為了解決上述問題,本文通過文獻(xiàn)[14]提出的擴(kuò)展空間算法,使隨機(jī)森林中的每個(gè)決策樹構(gòu)建在不同的訓(xùn)練數(shù)據(jù)上,從而在不顯著降低決策樹準(zhǔn)確性s的情況下,降低決策樹間的相關(guān)性。

2.2 改進(jìn)算法描述

本文利用out-of-bag 預(yù)測概率作為新的特征來構(gòu)建決策樹,從而降低決策樹的VC-dimension 以及經(jīng)驗(yàn)風(fēng)險(xiǎn)和泛化風(fēng)險(xiǎn),最終提高決策樹的準(zhǔn)確性s和隨機(jī)森林的預(yù)測性能。基于out-of-bag 預(yù)測的改進(jìn)算法描述如下所示:

為了深入了解2018年高考中數(shù)學(xué)學(xué)科核心素養(yǎng)的考查情況,下面以全國I卷試題為例,基于《普通高中數(shù)學(xué)課程標(biāo)準(zhǔn)(2017年版)》中對數(shù)學(xué)學(xué)科核心素養(yǎng)的界定和水平劃分,參考喻平的“核心素養(yǎng)評價(jià)框架”[17],對高考數(shù)學(xué)試題素養(yǎng)考查情況作出分析.

算法1基于out-of-bag 預(yù)測的改進(jìn)算法

由于決策樹準(zhǔn)確性s的提高,會使決策樹間的預(yù)測更加相同,從而提高決策樹間的相關(guān)性,影響了算法1 對隨機(jī)森林的改善效果。為此,本文通過文獻(xiàn)[14]提出的擴(kuò)展空間算法,對算法1 進(jìn)行改進(jìn),改進(jìn)算法描述如下:

算法2基于out-of-bag 預(yù)測和擴(kuò)展空間的改進(jìn)算法1

算法3擴(kuò)展特征空間算法E

算法3 即為文獻(xiàn)[14]提出的擴(kuò)展特征空間算法,本文使用文獻(xiàn)[14]中表現(xiàn)最好的相減操作。擴(kuò)展空間算法等價(jià)于通過以2 個(gè)特征為1 組的方式,將n個(gè)特征隨機(jī)劃分為組,從而生成個(gè)特征,該過程可以產(chǎn)生許多不同的劃分,其總量為:

其中:K=。例如,當(dāng)n=10 時(shí),K=5,M=945。算法3 為使生成的特征數(shù)量為n,對其做了2 次上述操作,在n為奇數(shù)時(shí),將2 次操作各自多出的1 個(gè)特征劃分為1 組,從而生成n個(gè)特征。

在算法1 和算法2 的訓(xùn)練過程中,out-of-bag 預(yù)測概率的準(zhǔn)確性越高,對隨機(jī)森林的提升效果就越好。out-of-bag 預(yù)測雖然是無偏的,但對于其中的每個(gè)樣本,大約只有37.8%的決策樹會對其作出預(yù)測。相比于測試集的全部決策樹預(yù)測,兩者之間的準(zhǔn)確性會有所差異。為了降低這部分差異,本文將算法1和算法2 產(chǎn)生的out-of-bag 預(yù)測概率相結(jié)合,通過加法融合來提高out-of-bag 預(yù)測概率的準(zhǔn)確性,減少其與測試集預(yù)測之間的差異。上述過程的算法描述如下:

算法4基于out-of-bag 預(yù)測和擴(kuò)展空間的改進(jìn)算法2

算法4 相比算法2 又需要額外訓(xùn)練一個(gè)隨機(jī)森林,其時(shí)間復(fù)雜度為,該隨機(jī)森林就是文獻(xiàn)[14]中的擴(kuò)展空間隨機(jī)森林。通過再額外訓(xùn)練一個(gè)隨機(jī)森林,將得到的預(yù)測概率分別同原隨機(jī)森林的預(yù)測概率做平均,能夠提高out-of-bag 預(yù)測的準(zhǔn)確性,減少其與測試集預(yù)測之間的差異,從而進(jìn)一步提高隨機(jī)森林的預(yù)測表現(xiàn)。

3 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

3.1 數(shù)據(jù)集

本文收集32 個(gè)分類數(shù)據(jù)集,這些數(shù)據(jù)集全都來自UCI 機(jī)器學(xué)習(xí)數(shù)據(jù)庫[20],數(shù)據(jù)集的統(tǒng)計(jì)特性如表1所示。其中:Nint 表示樣本的數(shù)量;Nnum 表示數(shù)值特征數(shù)量;Ncat 表示類別特征數(shù)量;Ncls 表示類別數(shù)量。這些數(shù)據(jù)集的樣本數(shù)量在329~67 557 之間,特征數(shù)量在4~90 之間,類別數(shù)量在2~26 之間。每個(gè)數(shù)據(jù)集都只含數(shù)值特征或類別特征,表中的“—”表示沒有該類型的特征。有些數(shù)據(jù)集存在缺失值,需要對其進(jìn)行填充:對于類別特征的缺失,本文使用最常見的特征值對其進(jìn)行填充;對于數(shù)值特征的缺失,本文使用文獻(xiàn)[21]提出的序列回歸填充方法對其進(jìn)行填充。

表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)信息Table 1 Experimental datasets statistics

3.2 模型選擇和超參數(shù)搜索

本文以RF 表示原始隨機(jī)森林,以oRF 表示算法1 改進(jìn)的隨機(jī)森林,以eRF 表示文獻(xiàn)[14]提出的擴(kuò)展隨機(jī)森林,以oeRF 表示算法2 改進(jìn)的隨機(jī)森林,以oe2RF 表示算法4 改進(jìn)的隨機(jī)森林。同時(shí)還將本文算法與AdaBoost 類算法,具體為文獻(xiàn)[22]提出的Multi-AdaBoost 算法(以BT 表示)進(jìn)行對比。

對于超參數(shù),由于隨機(jī)森林和AdaBoost 都是樹模型,本文將兩者的決策樹數(shù)量都設(shè)為100,只調(diào)整決策樹的深度,以5 折交叉驗(yàn)證網(wǎng)格搜索的方式選擇最佳的樹深。上述模型均使用文獻(xiàn)[23]中的scikit-learn 機(jī)器學(xué)習(xí)庫。

4 實(shí)驗(yàn)結(jié)果及分析

4.1 實(shí)驗(yàn)度量

本文使用準(zhǔn)確率(acc)作為模型性能的評估度量。除此之外,由于隨機(jī)森林的性能與s、有關(guān),即與單個(gè)決策樹的準(zhǔn)確性和決策樹之間的相關(guān)性有關(guān),而單個(gè)決策樹的準(zhǔn)確性又與決策樹的經(jīng)驗(yàn)風(fēng)險(xiǎn)、VC-dimension 有關(guān),因此,本文還使用如下度量:

1)決策樹準(zhǔn)確率的平均值(atc)。以單個(gè)決策樹對測試集預(yù)測準(zhǔn)確率的平均來表示單個(gè)決策樹的準(zhǔn)確性。

2)決策樹kappa 的平均值(kapp)。文獻(xiàn)[24]以kappa 值來度量2 個(gè)分類器預(yù)測之間的一致性,顯然其還可以用來度量決策樹間的相關(guān)性。對于c個(gè)類,kappa 定義在2 個(gè)分類器預(yù)測的c×c混淆矩陣M上[10]。以N表示樣本的總數(shù)量,則2 個(gè)分類器之間的kappa 值為:

其中:Mks表示其中一個(gè)分類器預(yù)測樣本為k而另一個(gè)分類器預(yù)測樣本為s的數(shù)量。在隨機(jī)森林中共有T個(gè)決策樹,因此,需要度量T(T-1)/2 次kappa 的值并對其做平均。

3)決策樹out-of-bag 準(zhǔn)確率的平均值(abc)。以單個(gè)決策樹對out-of-bag 樣本預(yù)測準(zhǔn)確率的平均來近似表示決策樹的經(jīng)驗(yàn)風(fēng)險(xiǎn)。

4)決策樹中葉子結(jié)點(diǎn)數(shù)量的平均值(node)。由理論2 可知,決策樹的VC-dimension 與實(shí)值特征數(shù)量、內(nèi)部結(jié)點(diǎn)數(shù)量有關(guān),但實(shí)值特征數(shù)量要經(jīng)過log處理,因此,決策樹的VC-dimension 主要受內(nèi)部結(jié)點(diǎn)數(shù)量影響,而決策樹內(nèi)部結(jié)點(diǎn)數(shù)量又與葉子結(jié)點(diǎn)數(shù)量有關(guān),因此,本文以決策樹葉子結(jié)點(diǎn)數(shù)量來近似表示決策樹的VC-dimension。

4.2 實(shí)驗(yàn)結(jié)果

本文隨機(jī)地將80%的樣本劃分為訓(xùn)練集,將剩下的20%樣本劃分為測試集。由于數(shù)據(jù)集規(guī)模的不同,該劃分過程重復(fù)的次數(shù)也不同。對于樣本數(shù)量小于1 500 的數(shù)據(jù)集,該劃分重復(fù)30 次;對于樣本數(shù)量大于等于1 500 而小于8 000 的數(shù)據(jù)集,該劃分重復(fù)20 次;對于樣本數(shù)量大于等于8 000 的數(shù)據(jù)集,該劃分重復(fù)10 次。本文使用校正的paired t-test 對實(shí)驗(yàn)結(jié)果做顯著性檢驗(yàn)[25]。對于2 個(gè)不同的數(shù)據(jù)集劃分,2 個(gè)訓(xùn)練集之間至少有75%的部分相同,容易出現(xiàn)Type I 類錯(cuò)誤[26]。因此,本文使用校正的paired ttest,將顯著性水平設(shè)為95%。

實(shí)驗(yàn)結(jié)果如表2 所示,其中,加粗表示該模型的預(yù)測acc 最高,下劃線表示該模型的預(yù)測結(jié)果顯著優(yōu)于RF,“×”表示該模型的預(yù)測結(jié)果顯著劣于RF,表格倒數(shù)第3 行表示模型的平均acc,倒數(shù)第2 行表示模型的平均rank,倒數(shù)第1 行表示模型相較于RF 的顯著性win-tie-loss 記錄。從表2 可以看出,本文方法和文獻(xiàn)[14]方法都能提高RF 的預(yù)測性能,其中表現(xiàn)最好的是本文提出的oe2RF 模型,在32 個(gè)數(shù)據(jù)集中,oe2RF 能夠獲得最高的平均acc 以及最低的平均rank,能夠在19 個(gè)數(shù)據(jù)集上顯著優(yōu)于RF。

表2 模型預(yù)測性能比較Table 2 Comparison of prediction performance of models

本文還對比了oe2RF 與RF、BT 的性能差異,對比結(jié)果如圖2 所示。從圖2 可以看出,BT 性能優(yōu)于RF,而oe2RF 能獲得比BT 更優(yōu)的性能表現(xiàn)。

圖2 oe2RF 與RF、BT 的性能對比Fig.2 Performance comparison of oe2RF with RF and BT

各模型的平均訓(xùn)練時(shí)間如表3 所示,其中訓(xùn)練時(shí)間指各模型最終額外訓(xùn)練的隨機(jī)森林的訓(xùn)練時(shí)間,總訓(xùn)練時(shí)間可由表中數(shù)據(jù)相加得到。例如,oRF總訓(xùn)練時(shí)間=RF 訓(xùn)練時(shí)間+oRF 訓(xùn)練時(shí)間,eRF 總訓(xùn)練時(shí)間=eRF 訓(xùn)練時(shí)間。顯然,各個(gè)模型最終額外的訓(xùn)練時(shí)間開銷大致符合2.2 節(jié)中額外訓(xùn)練的隨機(jī)森林的算法時(shí)間復(fù)雜度分析,其中部分波動是由于:1)out-of-bag 預(yù)測有效減少了決策樹中葉子結(jié)點(diǎn)的數(shù)量,這會降低訓(xùn)練時(shí)間,例如,在ID 為10 和21 的數(shù)據(jù)集上,oRF 的訓(xùn)練時(shí)間小于RF;2)在擴(kuò)展特征空間時(shí),每次生成n個(gè)特征需要時(shí)間復(fù)雜度為O(mn)的時(shí)間開銷,這會提高訓(xùn)練時(shí)間,例如,在ID 為26 和32 的數(shù)據(jù)集上,由于2 個(gè)數(shù)據(jù)集的特征均為類別特征,訓(xùn)練時(shí)需要對其進(jìn)行one-hot 編碼,編碼后的特征數(shù)量較多,對其進(jìn)行空間擴(kuò)展會帶來較多的額外時(shí)間開銷。

表3 模型平均訓(xùn)練時(shí)間Table 3 Models average training time s

4.3 結(jié)果分析

本文方法對RF 的性能提升在于提高了單個(gè)決策樹的準(zhǔn)確性,同時(shí)由于提高決策樹的準(zhǔn)確性會使決策樹間的相關(guān)性提高,因此本文借助文獻(xiàn)[14]方法降低決策樹間的相關(guān)性,且不顯著降低決策樹的準(zhǔn)確性,從而較好地改善了RF 的預(yù)測性能。

如圖3 所示,圖中的每個(gè)點(diǎn)代表一個(gè)數(shù)據(jù)集,橫坐標(biāo)表示各模型與RF 在kapp 上的差異,縱坐標(biāo)表示各模型與RF 在atc 上的差異。從圖3 可以看出:oRF 能夠大幅提高決策樹的atc,但也會大幅提高決策樹間的kapp;eRF 能夠在不顯著降低決策樹atc的情況下降低決策樹間的kapp,圖中部分atc 和kapp 提高的原因在于劃分結(jié)點(diǎn)時(shí)特征子集的選擇正比于特征數(shù)量,如果將特征子集數(shù)量設(shè)為固定值,將不會出現(xiàn)該情況;oeRF 相比于oRF 降低了kapp,也降低了atc,但相比于RF 的kapp 和atc 提高了很多;oe2RF 相比于oeRF 提高了atc,略微提高了kapp,因此,其能夠獲得最好的性能表現(xiàn)。由圖3可知,本文方法能大幅提高單個(gè)決策樹的準(zhǔn)確性,符合理論2 和理論3,其實(shí)驗(yàn)驗(yàn)證如圖4 所示,橫坐標(biāo)表示各模型與RF 在node 上的差異,縱坐標(biāo)表示各模型與RF在abc 上的差異。從圖4 可以看出:oRF、oeRF 和oe2RF均能大幅提高決策樹的abc,且同時(shí)降低決策樹的node,從而提高了決策樹的atc;eRF略微提高了決策樹的abc,同時(shí)降低了決策樹的node,其原因在于特征子集正比于特征數(shù)量,而且特征量綱的不同和特征間存在相關(guān)性,擴(kuò)展特征空間時(shí)可能會產(chǎn)生部分較好的特征,有利于決策樹劃分,在固定特征子集大小時(shí),這種情況很少發(fā)生。

圖3 各模型與RF 在atc 和kapp 上的性能差異Fig.3 Performance difference between each model and RF on atc and kapp

圖4 各模型與RF 在決策樹abc 和node 上的性能差異Fig.4 Performance difference between each model and RF on decision tree abc and node

5 結(jié)束語

多數(shù)已有預(yù)測方法犧牲單個(gè)決策樹的準(zhǔn)確性來提高隨機(jī)森林的性能,本文通過out-of-bag 預(yù)測概率提高單個(gè)決策樹的準(zhǔn)確性,同時(shí)利用文獻(xiàn)[14]所提擴(kuò)展空間方法降低決策樹間的相關(guān)性,以有效改善隨機(jī)森林的預(yù)測性能。在32 個(gè)UCI 分類數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。后續(xù)將進(jìn)一步提升決策樹的準(zhǔn)確性,同時(shí)利用數(shù)據(jù)旋轉(zhuǎn)技術(shù)來降低決策樹間的相關(guān)性,從而提高隨機(jī)森林的準(zhǔn)確性。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個(gè)P’維非線性不可約特征標(biāo)的非可解群
月震特征及與地震的對比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠的四個(gè)特征
詈語的文化蘊(yùn)含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 成人在线亚洲| 欧美区一区| 久久亚洲综合伊人| 久一在线视频| 婷婷伊人五月| 精品国产aⅴ一区二区三区| 日韩亚洲综合在线| 欧美日韩成人在线观看| 91久久偷偷做嫩草影院免费看| 免费国产一级 片内射老| 91麻豆国产视频| 亚洲成人免费看| 亚洲AⅤ永久无码精品毛片| 欧美天堂久久| 大陆国产精品视频| 国产v欧美v日韩v综合精品| 91av成人日本不卡三区| 国产在线啪| 亚洲青涩在线| 国产精品国产主播在线观看| 精品视频91| 在线综合亚洲欧美网站| 国产精品午夜福利麻豆| 老司机午夜精品网站在线观看| 免费人成视频在线观看网站| 人妖无码第一页| 激情综合婷婷丁香五月尤物| 国产系列在线| 999国产精品永久免费视频精品久久 | 免费一看一级毛片| 91久久性奴调教国产免费| 99视频在线看| 午夜啪啪网| 嫩草在线视频| 亚洲中文字幕在线观看| 日本AⅤ精品一区二区三区日| 欧美区一区二区三| 爱色欧美亚洲综合图区| 一本久道久久综合多人| 国产在线视频导航| 国产人成在线视频| 手机精品视频在线观看免费| 色有码无码视频| 亚洲第一视频网| 亚洲色偷偷偷鲁综合| 无码专区第一页| 一级毛片免费观看不卡视频| 国产成人综合亚洲网址| 亚洲乱亚洲乱妇24p| 综合五月天网| 99久久精品美女高潮喷水| 亚洲欧美成人综合| 日韩在线观看网站| 亚洲av色吊丝无码| 国产熟女一级毛片| 亚洲va在线∨a天堂va欧美va| 亚洲精品无码AⅤ片青青在线观看| 婷婷六月天激情| 亚洲精品无码av中文字幕| 一级毛片无毒不卡直接观看| 国产成人精品无码一区二| 亚洲视频免费播放| 91精品伊人久久大香线蕉| a级毛片免费看| 国产精品观看视频免费完整版| 蜜臀AV在线播放| а∨天堂一区中文字幕| 欧美国产精品拍自| 日韩欧美高清视频| 欧美一级在线看| 欧美成人精品一区二区| 午夜精品久久久久久久2023| 伊人久久大香线蕉影院| 91国内视频在线观看| 国产人免费人成免费视频| 99无码熟妇丰满人妻啪啪| 欧美一级大片在线观看| 97视频免费在线观看| 国产伦精品一区二区三区视频优播 | 成人亚洲视频| 国产成人精品一区二区| 黄片在线永久|