999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多模型融合的不完整數據分數插補算法

2023-09-18 04:35:34邵良杉趙松澤
計算機工程 2023年9期
關鍵詞:融合模型

邵良杉,趙松澤

(1.遼寧工程技術大學 軟件學院,遼寧 葫蘆島 125105;2.遼寧工程技術大學 系統工程研究所,遼寧 葫蘆島 125105)

0 概述

在大數據時代,帶有空缺值的不完整數據需要處理。因為大部分數據挖掘算法無法處理不完整數據[1-3],所以從不完整數據中進行學習是主要處理方式。刪除和插補是目前常用的2 種方法。刪除會導致數據的可用數量減少,并且增加模型的過擬合風險,無法保證模型的可靠性[4],通常只在大數據情況下采用該方式處理不完整數據[5]。插補廣泛應用在多個領域中,如醫學[6-9]、統計學[10]等。研究人員可以快速使用多種開源的插補算法[11-12]處理不完整數據。現有插補算法分為單值插補和多值插補。單值插補為1 個空缺樣本生成1 個插補值;多值插補為1 個空缺樣本生成多個插補值。近年來,國內外對數據插補算法進行研究,取得一定的研究成果。

單值插補根據插補次數可以分為單次插補和多次迭代插補。單次插補有K 近鄰插補算法[13]、EM 算法[14]以及基于聚類的插補算法[15]。多項研究結果表明,K 近鄰插補算法不對數據進行假設[16],且優于其他單次插補算法[16-17]。因此,研究人員改進K 近鄰算法,通過為每個樣本確定合適的K值來提升插補效果[18-20],該方法可以解決多視圖聚類問題中樣本缺失的問題[21]。文獻[22]提出一種可以更快速確定樣本K值的K*樹。多次迭代插補算法的代表是基于隨機森林的插補算法[23]。研究指出,合理確定插補順序可以有效提高多次迭代插補算法的效果[4]。多次迭代插補算法只適用于分類任務,并且需要將所有連續屬性離散化,但是離散化操作可能造成信息丟失,增加模型過擬合風險[24-26]。此外,文獻[17,27]提出K 近鄰算法與隨機森林算法在多個數據集上的插補效果較優。文獻[28]將插補視為優化問題,利用遺傳算法進行插補。文獻[29]基于領域知識將藥物治療的最差結果作為插補值。文獻[30]提出非定量字符串數據的插補。文獻[31-33]提出面向特定任務,根據數據特點制定專用插補算法。文獻[34]提出適用于圖像數據缺失的插補算法。文獻[35]使用神經網絡對缺失數據進行插補。

多值插補算法主要有多重插補(Multiple Imputation,MI)和分數插補(Fractional Imputation,FI)算法[12,36],MI 需要保證缺失隨機發生且數據服從正態分布[36-38],而且只能尋找MI倍數的最優解[39],導致MI的計算成本增大。對于數據挖掘任務,MI 10~50 倍[39-40]的數據倍增導致后續建立機器學習模型的時間也同樣倍增。分數插補算法假設缺失數據與完整數據是同分布的,進而根據完整數據的概率分布為不完整數據生成多個插補結果,并將每個結果所對應的概率轉化為樣本分數。以統計均值或方差等為目的的FI 使得每個空缺值樣本的多個結果分數和為1[41],以保證插補后仍可獲取可靠的統計量。

現有插補算法存在一定局限性,目前插補算法等效看待所有樣本,導致在建立模型時可靠的完整樣本和插補后樣本對于偏差的不可靠樣本具有相同權重,降低模型性能。現有插補算法無法有效處理高缺失率樣本(缺失率大于50%),高缺失率樣本的插補結果會注入大量噪聲數據,而刪除又會降低可用數據量,造成過擬合風險。除此之外,所有多值插補算法都有1 個隱藏假設,即缺失數據與完整數據同分布,但是在現實中通常無法保證該假設成立,從而限制了多值插補算法的使用范圍。

噪聲標簽學習通過生成新標簽替換噪聲標簽,提高學習效率[42]。現有的噪聲標簽學習技術集中于損失修正,而損失修正的1 個重要步驟是識別噪聲[43-44]。研究指出通過β混合分布擬合樣本交叉熵的分布,估算樣本為噪聲的概率[43]可以有效提高噪聲標簽學習的效果。在計算樣本的噪聲概率后,通過更新損失函數或樣本重加權的方式降低噪聲對模型的影響[44]。

本文提出一種基于多模型融合的不完整數據分數插補算法FIB。通過樣本分數區分不同的樣本,使可靠的插補結果分數更高,不可靠的插補結果分數更低,進而增強后續建立機器學習模型的性能。通過引入修正模型,使用高缺失率樣本生成偽標簽數據[45],以充分利用高缺失率樣本。在此基礎上,基于多模型融合生成多值插補的結果,不對缺失數據進行任何假設,增加插補算法的適用范圍。

1 基于多模型融合的分數插補算法

1.1 FIB 整體流程

FIB 使用多個插補算法作為插補子單元,首先在每個插補子單元中計算樣本分數,然后使用高缺失率樣本生成偽標簽數據,將偽標簽數據擴充至初始插補結果中,最后融合多個插補子單元的插補結果。FIB 算法流程如圖1 所示。

圖1 FIB 算法流程Fig.1 Procedure of FIB algorithm

在現有不完整數據學習算法對空缺值的處理過程中,可靠的原始完整樣本及不可靠的插補樣本享有相同的權重,增大了不可靠樣本對模型性能的影響。因此,通過評分計算初始插補結果中每個樣本的分數,以降低不可靠樣本的負面影響。當評分模型完成時高缺失率樣本的得分趨近于0,對于模型的影響較小,在數據集中含有大量高缺失率樣本的情況下,模型會過度擬合少部分的完整數據。為了充分利用高缺失率樣本,通過生成偽標簽數據,并重新計算偽標簽數據的得分,轉化后的分數不再趨近于0,從而更大程度地利用高缺失率數據,降低模型過度擬合完整數據的風險。將偽標簽數據擴充至插補結果中,形成1 個待合并的單元插補結果。使用多個插補算法獲得多個插補結果,并將這些結果相融合,得到最終插補結果。

FIB 不限制插補單元數量,也不基于任何一種具體算法,當采用多個插補單元時,通過并行計算可以加快插補速度。圖1 中所涉及到的算法和模型可替換為任意一種機器學習模型。

1.2 評分原理及有效性證明

本文定義樣本分數Sn,如式(1)所示:

其中:xn為該樣本的特征;yn為標簽;函數M(?)為從未發生缺失的原始數據集中學習的規律;Sn為第n個插補樣本與原始數據集完整數據相同的概率。當Sn=1時,An插補成功,此時An為正確插補樣本;當Sn=0時,An插補失敗,此時An為錯誤插補樣本。

1.2.1 區分正誤插補樣本的指標

為了估計Sn的值,本文找到可以有效區分正誤插補樣本的指標。在噪聲標簽學習中利用神經網絡計算樣本的交叉熵,交叉熵服從β混合分布[雙峰分布(正確樣本集中分布在左,而噪聲樣本集中分布在右)],根據樣本的交叉熵損失值計算樣本為噪聲的概率[37]。

噪聲標簽本質上是空值插補的一種特殊情況,即原始數據僅有標簽發生缺失。Dn與交叉熵區分正誤插補樣本的效果對比如圖2 所示。為驗證噪聲標簽學習技術是否可應用于空值插補任務,本文使用交叉熵區分正確插補樣本與錯誤插補樣本的核密度估計(Kernel Density Estimation,KDE)圖,結果如圖2(a)所示。從圖2(a)可以看出,正誤插補樣本的交叉熵分布區域高度重合,說明根據交叉熵損失無法判斷插補是否成功。

圖2 Dn與交叉熵區分正誤插補樣本的效果對比Fig.2 Comparison of the effect of Dn and cross entropy in distinguishing correct and false imputation samples

在噪聲標簽學習中有效的交叉熵損失在空值插補中失效,其原因為噪聲標簽學習具有2 個空值插補不具有的特點:1)噪聲標簽的特征值都是正確的;2)標簽與正確值的差異顯著。這2 個特點是造成噪聲標簽損失值普遍高于正確插補樣本的主要原因。插補算法根據其他屬性預測標簽值,或根據標簽預測缺失屬性的值,該過程會降低不完整樣本的交叉熵,最終導致插補正確和插補錯誤的樣本在交叉熵上的分布一致。

因此,FIB 重新定義一種新的指標Dn:

其中:Mi為缺失特征;BBREi為特征的置換重要性,設BRE 標簽為1。

Dn結合了缺失率及缺失屬性的重要度。從式(2)可以看出,隨著樣本缺失率的增加,插補成功的概率降低。在相同樣本缺失率下,缺失的特征重要性越高,則插補成功率越低。

從圖2(b)可以看出,Dn可以有效區分正誤插補樣本,正確插補樣本集中分布于左側,而錯誤插補樣本集中分布于右側。

1.2.2 評分函數

已知D可以有效區分正誤插補樣本,本文構造評分函數F(Dn)=Sn。由于Sn代表樣本插補正確的概率,因此0 ≤F(?) ≤1。此外,因為Dn=0 對應完整樣本,所以F(0)=1。Sn與Dn的關系如下:

FIB 構造3 種滿足上述條件的函數,如式(4)~式(6)所示:

其中:k0=sum(B);k1由S3(1/k0)=θ解出,θ為超參數,表示當采用隨機插補算法的成功概率為0 時,采用基于評分函數的插補算法插補成功的概率默認為θ。

為驗證不同函數的差異性,首先構造F1(x),F1(x)在不使用任何插補算法的前提下對空值隨機插補時對應的評分函數。當使用插補算法時,插補成功的概率不低于F1(x)。本文進一步構造函數F2(x)和F3(x),F2(x)可以保證Sn與Dn的分布特點相同,而基于Sigmoid 函數構造的F3(x)使S向0 與1 聚集,改變原有D的分布形式,將樣本分為正確插補樣本和錯誤插補樣本。

基于S1、S2、S3函數計算得到的評分分數如圖3所示,其中,S1、S2隨著Dn的增加呈線性變化。

圖3 基于Dn的函數曲線圖Fig.3 Function graph based on Dn

1.3 偽標簽數據的生成

在數據缺失較多的數據集中,單獨使用樣本分數使得不完整樣本的分數趨近于0,而少數完整樣本分數為1。因此,將分數作為樣本權重訓練機器學習模型,導致模型過擬合少量完整樣本,而利用修正模型生成的偽標簽數據能夠有效降低模型過擬合的風險。

生成偽標簽數據的具體步驟如下:1)根據任務類型(分類任務或回歸任務)選擇合適的算法;2)將計算得到的樣本分數作為樣本權重,使用初始插補結果訓練修正模型;3)使用訓練好的模型預測得分小于α(超參數)的插補樣本,將非標簽特征與預測結果合并得到偽標簽數據;4)更新偽標簽數據的樣本分數;5)將偽標簽數據擴充至初始插補結果,形成單元插補結果。

偽標簽樣本分數的計算方法如下:

其中:對于分類任務,K為修正模型預測An所有類別概率中的最大值;對于回歸任務,K取值為1。

修正模型的性能直接影響偽標簽數據的質量,在算力充足的情況下使用模型選擇方法確保修正模型的有效性。普通模型的選擇方法首先將數據集分為訓練集與測試集,然后通過訓練集訓練模型,最后選擇在測試集中表現最佳的模型,如利用交叉熵衡量分類模型性能,利用均方誤差衡量回歸模型性能。修正模型的選擇方法在于樣本分數,首先在訓練模型時,與訓練集對應的樣本分數將作為樣本權重參與訓練過程,然后在測試集上評估模型時,利用測試集對應的樣本分數改變樣本的損失函數。在分類任務中,傳統的模型選擇方法計算測試集中所有樣本交叉熵的平均值,并利用該值判斷模型性能,然而在選擇修正模型時,測試集中每個樣本的交叉熵將乘以該樣本對應的樣本分數,以減弱低分數的不可靠樣本對模型評估造成的影響。

1.4 多模型插補結果的融合

1.4.1 多模型的融合

常見的多模型融合方式有Voting、Averaging、Bagging、Boosting、Stacking、Blending 以及模型混合,其中,Stacking 與Blending 針對有監督學習任務,不適用于空值插補任務。

多個插補模型通過Voting 或Averaging 進行融合后,插補效果介于最優和最差之間,Bagging 會降低可用數據量,導致在小規模數據集中降低插補性能。

Boosting 使用多個基礎模型進行預測,并將其結果作為輸入來訓練最終模型。然而,在空值插補任務中,不同模型的表現可能會受到限制。如果基礎模型無法準確地插補缺失值,那么多模型融合也不能有效地提高插補效果。

由于多模型融合等價于修改最后1 個模型空缺值的初始值,因此也不適用于空缺值插補任務。FIB使用全部數據訓練插補模型,當空缺概率較低時,改變少量空缺值的初始值不會影響最終插補效果,當空缺率較高時,插補的成功率較低,產生較多的錯誤數據。多次插補使得這種錯誤更嚴重,反而會降低插補效果。

傳統的多模型融合方法不適用于空值插補任務,FIB 將多個插補模型的插補結果進行合并,以顯著提高插補性能。

1.4.2 多模型融合的優缺點

本節將以balance-scale 數據集為例,說明多模型融合具有的優勢。表1 所示為該數據集中的部分數據,灰色區域代表缺失的數據。其中,Class、L-Weight、L-Distance、R-Weight 和R-Distance 為數據 集中的特征。

表1 balance-scale 數據集的部分數據 Table 1 Partial data of balance-scale dataset

本文直接使用均值插補算法,根據R-Distance的平均值將空缺值插補為3,使用sklearn 庫中實現的CART 決策樹插補算法時(不限制決策樹的復雜度),根據第2、4、5 行數據將空缺值插補為2。使用基于決策樹的多重插補算法生成3 個插補數據,分別將空缺值插補為2、4、5。雖然在大多數情況下使用更復雜的決策樹插補算法優于均值插補算法,但是在這個特定的缺失下,均值插補算法能夠獲得正確的結果,說明不同插補算法分別擅長處理不同的空缺值,多模型融合可以獲得更多的正確插補樣本。

現有多值插補算法的不足之處是假設缺失數據與完整數據同分布。在空缺值插補問題中,這種假設不成立,導致多值插補算法花費更高的計算成本,卻沒有取得更優的插補效果,說明多模型融合不對缺失數據的分布進行任何假設。

多模型融合在增加更多正確插補樣本的同時,也會增加錯誤插補樣本。假設在2 個模型的插補結果中,正確插補樣本的比例分別為rate1與rate2,將其融合后,正確插補樣本的比例為兩者均值。因此,2 個模型融合后的插補效果應該介于2 種模型插補效果之間。

1.4.3 樣本評分技術與多模型的結合

當樣本評分技術與多模型融合同時使用時,通過賦予正確插補樣本高評分、錯誤插補樣本低評分的方式,強化多模型融合后產生更多正確插補樣本的優點,弱化產生更多錯誤插補樣本的缺點。當樣本評分完全準確,即所有正確插補樣本的評分都為1,錯誤插補樣本的評分都為0 時,多模型融合后的插補效果優于其中任何1 個插補模型。

插補完全正確的樣本評分難以獲得,除第1.2.2節中所提的評分方式以外,將完整樣本的分數設置為1,將不完整樣本的分數設置為1/N,其中N為模型個數,可以有效地與多模型融合進行結合。

1.4.4 備選的插補模型

為了使多模型融合后增加更多的正確插補樣本,插補算法應該保證選用的模型具有充分的差異性,為保證模型之間的差異性,應選擇不同種類的插補模型進行融合,此外還應考慮所選模型的插補效果、計算成本以及模型本身的獲取難度。

基于這些因素,FIB 選取的候選插補模型主要有決策樹、K 近鄰、貝葉斯嶺回歸、隨機森林以及均值插補。

1.5 FIB 的偽代碼及時間復雜度

本節首先給出FIB 的偽代碼,然后在簡要說明的同時計算FIB 的時間復雜度。

算法1FIB 算法

設DATA 的數據規模為n×d,算法1 第1~3 行獲取初始插補結果。如果使用單值單次插補算法,只需要建立1 個模型,以K 近鄰算法插補為例,時間復雜度T1=O(k×n×d);如果使用單值多次迭代插補,則需要構建d個插補模型,以CART 決策樹為例,時間復雜度T2=O(n×d2×lbn)。

第4~14 行計算樣本分數,時間復雜度取決于插補模型,當使用K 近鄰插補時,T3=O(n×d2),使用CART 決策樹插補決策樹模型時,T3=O(n×d×lbn)。

第15~18 行生成偽標簽數據,以使用CART 決策樹作為修正模型,T4=O(n×d×lbn)。第19~20 行合并插補結果并返回,T5=O(n×d)。

因此,采用CART 決策樹與K 近鄰插補融合的FIB 插補數據的時間成本T=T1+T2+T3+T4+T5=T2,說明FIB 的時間復雜度與單獨使用CART 決策樹插補的時間復雜度相同。

2 實驗與結果分析

2.1 實驗設置

2.1.1 實驗概述

本文將進行5 組實驗,第1 組實驗驗證FIB 及各個部分的有效性,第2 組實驗驗證不同評分函數的差異,第3 組實驗驗證插補模型個數對插補效果的影響,第4 組實驗驗證超參數對插補效果的影響,第5 組實驗將FIB 與數據驅動增量插補模型(DIM)進行對比,并討論FIB 的時間成本。

本文實驗基于sklearn,由于sklearn 中的插補器只針對數值型數據且部分只適用于連續類型的數據集,因此將原始數據中的非數值型特征進行編碼,對于離散屬性,在插補后將生成的連續值還原為最接近的離散值。

2.1.2 對比算法

對比算法包括決策樹插補、K 近鄰插補、FIB 以及FIB 的5 個變式。所有樣本通過函數F2進行計算,超參數α設置為1。

對比算法主要有:1)KI 直接使用K 近鄰插補;2)KS 是帶有樣本分數的K 近鄰插補;3)KE 在使用K 近鄰插補后,以K 近鄰算法作為修正模型生成偽標簽數據的插補;4)DI 直接使用決策樹插補;5)DS是帶有樣本分數的決策樹插補;6)DE 在使用決策樹插補后,以決策樹算法作為修正模型來生成偽標簽數據;7)Blend 是合并KI 與DI 的結果,完整樣本權重為1,不完整樣本權重為0.5。

2.1.3 評估指標

本文使用插補結果訓練模型,通過獲得的模型預測原始數據,所得得分用于評估插補性能。對于分類任務,將平均準確率(A)作為評價指標,對于回歸任務,采取R2 得分作為評價指標。A的計算如下:

其中:RRCi、PPCi分別代表第i個樣本標簽的真實值與預測值;當RRCi=PPCi時指示函數l(RRCi,PPCi)取1,反之取0。R2 得分(R2)計算如下:

2.2 結果分析

2.2.1 FIB 及各個部分的有效性分析

本文選擇6 個UCI 分類任務數據集和UCI 回歸任務數據集,為確保實驗數據的全面性,數據集包括離散、連續及混合型,同時包括低維數據及高維數據。

原始數據集無缺失樣本或僅含有少量缺失樣本,首先將源數據中的少量缺失樣本刪除,然后分別以數據缺失率10%、30%、50%生成測試數據。數據缺失概率10%表示數據缺失率而非樣本缺失率,在1 個N×M大小的數據集中有0.1×N×M個數據缺失。

表2 和表3 分別為不同算法在UCI 分類任務和UCI 回歸任務數據集上的插補性能對比,加粗表示最優數據。從表2 和表3 可以看出,FIB 具有最優的評價指 標,相 比KI 和DI算法,FIB 在UCI 分類任 務和回歸任務數據集上的評價指標平均相對提升7.40%和18.73%。在UCI 分類任務數據集中的數據缺失率下,DI 的平均分類準確率優于KI,但是在UCI回歸任務數據集中數據缺失率50%下,除Auto MPG和Seoul Bike 之外,KI 的R2 得分優于DI,說 明KI 的插補效果低于DI。基于樣本評分方法的KS 與DS插補算法可以同時提升K 近鄰和決策樹算法的插補性能。隨著數據缺失率的增加,基于評分分數能有效提高插補效果,在高數據缺失率下評分更準確,這是因為在高數據缺失率下,樣本得分的差距增加,可以更有效地通過樣本分數改變模型的結構。

表2 不同算法在UCI 分類任務數據集上的分類準確率 Table 2 Classification accuracy among different algorithms on UCI classification task datasets %

表3 不同算法在UCI 回歸任務數據集上的R2 得分Table 3 R2 scores among different algorithms on UCI regression task datasets

此外,使用修正模型生成的偽標簽數據對于空缺值插補任務也是有效的,相比DI,DE 在UCI 分類任務數據集中平均提升3.31%,在UCI 回歸任務數據集中平均相對提升8.46%,而使用K 近鄰作為修正模型的KE 與DI 相比沒有顯著提升,說明標簽數據質量直接影響修正模型的性能。將多模型結果直接合并對空缺值插補任務具有有效性,在分類任務數據集中Blend 相較于DI、KI 的最優效果相比,平均相對提升4.2%,在回歸任務數據集中平均相對提升11.37%。此外,在數據缺失率10%時,Blend 與DI、KI的差距最大。這是因為sklearn 插補數據時會先使用均值插補作為初始插補器,在數據缺失率50%的情況下,大部分的缺失數據會被插補為均值,產生大量的重復樣本,改變了樣本的分布規律,導致插補算法更傾向于將缺失值插補為均值。

2.2.2 不同評分函數差異的驗證

為驗證F3(x)是否優 于F2(x),本節使 用與第2.2.1 節相同的數據缺失率,將FIB 的評分函數由F2(x)更換為F3(x)重新進行實驗,評估更換評分函數后插補性能,結果如表4 所示。從表4 可以看出,F3(x)的插補效果總體低于F2(x),而且F3(x)的公式更復雜,計算成本更高。

表4 將評分函數F2(x)修改為F3(x)的評價指標增幅Table 4 Increase of evaluation index of modifying scoring function F2(x)to F3(x)%

F2(x)通過線性變化在保持D分布規律的前提下將D的區間轉化為[0,1],其原因在于大多現有機器學習模型只支持該區間內的樣本權重。雖然F3(x)有效將樣本分成正確插補樣本和錯誤插補樣本2 類,但是計算出的準確率低于F2(x)。

2.2.3 插補模型個數對插補效果的影響

在第2.2.1 節中使用的FIB 只采取了K 近鄰和決策樹相融合的模型,現擴大備選插補模型個數,額外增加均值插補、貝葉斯嶺回歸及隨機森林插補模型,共5 種備選插補模型。

從第2.2.1 節中選取的12 個UCI 數據集中隨機選取6 個數據集,以相同的方式生成缺失數據。對于每個缺失數據,采用5 個模型的所有組合方式進行插補,并進行31 次實驗。經過多模型融合后,完整樣本的分數為1,不完整樣本生成的插補樣本分數為模型個數的倒數。

以插補模型的個數分組,求解該分組插補性能的平均值,探究模型個數與插補性能之間的關系。模型個數與插補得分的關系如圖4 所示。

圖4 模型個數與插補得分的關系Fig.4 Relationship between the number of models and imputation scores

從圖4 可以看出,無論是分類任務還是回歸任務,合并模型個數越多,插補效果越好。2 條曲線在N=2 處都存在明顯的拐點,說明融合2 個模型能有效提高空缺值插補算法的效果。此外,2 條曲線均表現出相同趨勢:隨著模型個數增加,新增1 個模型所產生插補性能的提升幅度越來越小,在分類任務曲線中表現尤為明顯。

因為多模型具有更高的計算成本,所以只有在算力充足、數據集屬于中小規模或者在一些對插補性能要求極為嚴格的情況下,盡可能多地選擇模型進行融合,在其他情況下只取2 個模型融合是最優的選擇。

2.2.4 超參數α的驗證

超參數α是數據需要重新賦予偽標簽的閾值。當α取1 時,所有樣本都被修正模型重新賦予偽標簽;當α取0 時,修正模型不生成偽標簽數據。在第2.2.1 節的實驗中,α設置為1。本實驗將驗證不同α值對插補性能的影響。

在數據缺失率低的情況下,超參數α的改變對插補效果的影響較小。以10%數據缺失率的隨機缺失為例,此時僅有少部分的分數低于0.5,將α從0.1提升至0.5 時,偽標簽數據的規模變化幅度較低,因此對插補性能的影響較小。

為進一步研究α對插補性能的影響,本文對50%數據缺失率的分類數據進行實驗,結果如圖5所示。

圖5 超參數α 對數據集插補性能的影響Fig.5 Influence of hyperparametric α on imputation performance of datasets

從圖5 可以看出,超參數α對于不同數據集的影響效果不同,在Class 數據集中,當α=0.8 時插補性能最佳且與其他模型有顯著差異;在Abalone 數據集中,插補效果受α影響不明顯,當α=0.2 時的插補效果優于α=0,當α≥0.2 時改變α值插補性能的變化不大。從具體每個數據集的角度分析,當α取0.2 時,所有數據集都可以獲得次優的插補效果,且均比α取0 的效果更佳。

因此,α的改變不會使數據集插補性能發生顯著變化,此外,基于實驗結果將α設為0.2 更合理。因此,利用修正模型為不可靠樣本生成偽標簽數據可以有效提高插補性能。

2.2.5 FIB 與DIM 的對比實驗

DIM[1]利用數據集中所有可用信息,經濟、有效、有序、迭代地對缺失值進行插補。

本節將與DIM 的實驗結果進行對比,為保證對比實驗的合理性,在相同的實驗條件下進行對比。

DIM 只適用于離散屬性的分類數據集,因此對數據集進行離散化操作。DIM 采用C4.5 算法作為插補模型及衡量性能的模型。DIM 的缺失率指樣本缺失率,即缺失率為10%時期望有10%的樣本發生缺失。

在采用相同的實驗條件后,本文基于C4.5 及K近鄰插補算法、α=0.2 的FIB 插補器,FIB 與DIM 的對比效果如表5 所示。

表5 FIB、DIM 的準確率對比 Table 5 Accuracy comparison of FIB and DIM %

從表5 可以看出,FIB 的插補性能比DIM 平均相對提升8.39%。在Wine 數據集中,FIB 準確率的相對提升最高,達到16.52%,遠超出DIM 的插補效果;在balance-scale 數據集中,FIB 準確率的相對提升最低,為-0.21%,代表FIB 的插補性能略低于DIM。

從時間成本角度考慮,DIM 的時間復雜度與C4.5 決策樹相同,在1.5 節得知FIB 的時間復雜度也與C4.5 決策樹相同,因此,DIM 與FIB 的時間復雜度相同,但在具體的執行時間上,FIB 由于額外采用了K 近鄰插補算法,因此與DIM 相比插補速度較慢。

3 結束語

本文提出基于多模型融合的不完整數據分數插補算法FIB。將噪聲標簽學習引入到空缺值插補任務中,設計新的樣本分數評估方法,以降低不可靠樣本對模型的影響。利用偽標簽技術彌補現有算法無法處理高缺失率樣本的局限。實驗結果表明,該算法與DIM 算法相比平均準確率相對提升8.39%,FIB通過多模型融合的方式生成插補結果,不需要對缺失數據做出任何假設,適用范圍更廣。后續將尋找更高效的多模型集成方式,利用諸多最新機器學習及深度學習模型生成FIB 插補算法,如CatBoost、LightGBM 及XGBoost。此外,通過合理融合這些更先進的算法提高插補性能也是本文研究的重點方向。

猜你喜歡
融合模型
一半模型
一次函數“四融合”
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
重要模型『一線三等角』
寬窄融合便攜箱IPFS500
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 3344在线观看无码| a天堂视频在线| 成人小视频网| 四虎影视永久在线精品| 香蕉综合在线视频91| 国产日韩精品欧美一区灰| 欧美另类图片视频无弹跳第一页| 99视频免费观看| 91免费国产在线观看尤物| 五月天丁香婷婷综合久久| 国产人人干| 亚洲无码在线午夜电影| 亚洲欧美h| 国产福利拍拍拍| 亚洲黄色片免费看| 久久综合婷婷| 黄色三级网站免费| 中文字幕色在线| 中文字幕欧美成人免费| 婷婷色一区二区三区| 高清精品美女在线播放| 成人在线欧美| 性欧美久久| 综合网久久| 国产亚洲欧美日韩在线观看一区二区| 青草精品视频| 亚洲日韩Av中文字幕无码| 国产一区二区三区在线观看视频 | 亚洲精品成人片在线观看| 午夜日本永久乱码免费播放片| 国产高清色视频免费看的网址| 午夜老司机永久免费看片| 中文精品久久久久国产网址| 国产成人精品视频一区视频二区| 超碰免费91| 精品国产亚洲人成在线| 污污网站在线观看| www.精品视频| 色哟哟色院91精品网站| 国产69囗曝护士吞精在线视频| 波多野结衣在线se| 这里只有精品在线| 福利在线不卡一区| 日韩在线欧美在线| 国产人前露出系列视频| 91精品aⅴ无码中文字字幕蜜桃| 国产制服丝袜91在线| 91精品国产91久无码网站| 日日拍夜夜嗷嗷叫国产| 日日噜噜夜夜狠狠视频| 久久免费观看视频| 波多野结衣的av一区二区三区| 久久这里只有精品66| 国产成人啪视频一区二区三区| 国产产在线精品亚洲aavv| 欧美高清国产| 午夜视频在线观看区二区| 亚洲综合一区国产精品| 久久永久精品免费视频| 久操线在视频在线观看| 六月婷婷综合| 免费无码又爽又刺激高| 自慰高潮喷白浆在线观看| 国产欧美在线观看精品一区污| 亚洲综合精品香蕉久久网| 狠狠做深爱婷婷综合一区| 最新国产成人剧情在线播放| 国产黄色免费看| 国产免费人成视频网| 亚洲免费福利视频| 国产人成在线视频| 成人一级黄色毛片| 日韩一级毛一欧美一国产| 日韩欧美在线观看| 欧美三級片黃色三級片黃色1| 蜜桃视频一区二区三区| 国产av一码二码三码无码| 天堂亚洲网| 欧美中文一区| 一本大道视频精品人妻| 92精品国产自产在线观看| 欧美福利在线观看|