基于最小最大模塊化集成特征選擇的改進(jìn)

2016-03-01 09:00:06王未央

計(jì)算機(jī)技術(shù)與發(fā)展 2016年9期

關(guān)鍵詞：分類(lèi)策略方法

周豐，王未央

(上海海事大學(xué)信息工程學(xué)院，上海 201306)

基于最小最大模塊化集成特征選擇的改進(jìn)

周豐，王未央

(上海海事大學(xué)信息工程學(xué)院，上海 201306)

隨著數(shù)據(jù)規(guī)模的擴(kuò)大，單個(gè)弱分類(lèi)器的準(zhǔn)確率已經(jīng)無(wú)法很好地對(duì)未知樣本進(jìn)行預(yù)測(cè)，為此提出了集成學(xué)習(xí)。在集成學(xué)習(xí)與分類(lèi)器結(jié)合的同時(shí)，集成的思想同樣被用到了特征選擇中。從提高對(duì)樣本預(yù)測(cè)的準(zhǔn)確率的角度出發(fā)，提出一種基于最小最大模塊化(Min-Max-Module，M3)的策略。它同時(shí)將集成學(xué)習(xí)應(yīng)用到了特征選擇算法和分類(lèi)器中，并對(duì)比了四種集成策略以及三種不同的分類(lèi)方法。結(jié)果表明，提出的方法在大多情況下能取得不錯(cuò)的效果，并且能很好地處理不平衡的數(shù)據(jù)集。

特征選擇;集成學(xué)習(xí);最小最大模塊化策略;不平衡數(shù)據(jù)

1 概述

隨著各個(gè)領(lǐng)域涌現(xiàn)出的大量數(shù)據(jù)，機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘已經(jīng)被應(yīng)用到各行各業(yè)。但是現(xiàn)實(shí)生活中的數(shù)據(jù)非常復(fù)雜，平滑干凈的數(shù)據(jù)非常難得，大部分的數(shù)據(jù)中都有缺失值、異常值等噪聲。此時(shí)，數(shù)據(jù)預(yù)處理顯得格外重要。為了提高機(jī)器對(duì)這些數(shù)據(jù)的處理能力，可以通過(guò)一定的數(shù)學(xué)方法(如牛頓插值法、拉格朗日插值法等)進(jìn)行處理，而特征選擇作為降低數(shù)據(jù)維度、平滑噪聲的一種有效方法，成為了研究熱點(diǎn)［1］。

在數(shù)據(jù)挖掘中，海量的原始數(shù)據(jù)中存在著大量不完整、不一致、有異常的數(shù)據(jù)，它們會(huì)嚴(yán)重影響到數(shù)據(jù)挖掘建模的執(zhí)行效率，所以數(shù)據(jù)清洗尤為重要。數(shù)據(jù)清洗主要是刪除原始數(shù)據(jù)集中的無(wú)關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù)、平滑噪聲數(shù)據(jù)，篩選掉與挖掘主題無(wú)關(guān)的數(shù)據(jù)，處理缺失值、異常值等［2］。處理缺失值和異常值，通常有刪除記錄、數(shù)據(jù)插補(bǔ)和不處理等方法，而異常值一旦被檢測(cè)到，往往可以當(dāng)作缺失值處理。常用的方法有均值/眾數(shù)/中位數(shù)插補(bǔ)法、固定值法、最近鄰插補(bǔ)、回歸方法以及插值法。插值法一般有拉格朗日插值法和牛頓插值法，文中使用牛頓插值法。箱型圖分析提供了識(shí)別異常值的標(biāo)準(zhǔn):異常值通常被定義為小于QL-1.5IRQ或大于QU+1.5IRQ的值。其中，QL為下四分位數(shù); QU為上四分位數(shù);IRQ為四分位數(shù)間距，IRQ=QU-QL。

特征選擇是從特征集合中挑選出滿(mǎn)足一定評(píng)價(jià)準(zhǔn)則的特征子集的過(guò)程，特征選擇過(guò)程可以除去不相關(guān)的冗余特征［1-2］，從而達(dá)到降維的目的。特征選擇算法一般分為四類(lèi):過(guò)濾器、封裝器、嵌入式和組合。過(guò)濾器最大的特點(diǎn)是直接從特征固有的性質(zhì)出發(fā)來(lái)評(píng)判特征的重要性，并不考慮分類(lèi)器，該類(lèi)方法具有較高的效率，如Fisher［3］、Relief［4］等。封裝器則是依賴(lài)于分類(lèi)器，它采用分類(lèi)器來(lái)評(píng)價(jià)性能，這種方法采用搜索策略來(lái)尋找最優(yōu)特征子集，其搜索策略有前向搜索、后向搜索、隨機(jī)搜索等，準(zhǔn)確率較高但是效率較低。嵌入式則是在構(gòu)建分類(lèi)器的過(guò)程中進(jìn)行特征選擇。而組合式先采用過(guò)濾器去除一些特征，再對(duì)剩下的特征子集采用封裝器進(jìn)行搜索，結(jié)合了過(guò)濾器和封裝器的優(yōu)點(diǎn)。

目前，數(shù)據(jù)量在不斷增長(zhǎng)，傳統(tǒng)的特征選擇方法的效率顯然已經(jīng)無(wú)法跟上數(shù)據(jù)增長(zhǎng)的腳步［1］。為了更好地處理大規(guī)模數(shù)據(jù)，Hoi［5］等結(jié)合在線(xiàn)特征選擇和一種嵌入式算法，將原始數(shù)據(jù)轉(zhuǎn)換為序列型的數(shù)據(jù);Wu［6］等使用在線(xiàn)流式特征選擇的方法。以上兩種方法都能明顯地提升對(duì)大規(guī)模數(shù)據(jù)的處理能力。

文中使用的是集成的方法，主要步驟包括:結(jié)合箱型圖分析和牛頓插值法對(duì)數(shù)據(jù)進(jìn)行缺失值和異常值分析;再通過(guò)某種策略將數(shù)據(jù)劃分，從而將原始特征選擇和分類(lèi)任務(wù)劃分為多個(gè)較小的相互獨(dú)立的可并行計(jì)算的子任務(wù)，每一個(gè)子任務(wù)同時(shí)進(jìn)行特征選擇以及分類(lèi)算法;最后利用最小最大策略將分類(lèi)結(jié)果進(jìn)行集成。

2 集成學(xué)習(xí)

2.1 集成學(xué)習(xí)的概念與框架

與傳統(tǒng)的單個(gè)學(xué)習(xí)模型相比，集成學(xué)習(xí)則是通過(guò)同時(shí)構(gòu)建多個(gè)不同的基學(xué)習(xí)模型，并使用某種策略把多個(gè)模型的學(xué)習(xí)結(jié)果進(jìn)行組合，從而獲得最終的學(xué)習(xí)結(jié)果。

此外，集成思想與特征選擇相結(jié)合，用以提高特征選擇的穩(wěn)定性［2，7-9］。大量的理論研究和實(shí)際應(yīng)用表明，集成學(xué)習(xí)有利于構(gòu)建性能更好的學(xué)習(xí)模型。集成學(xué)習(xí)在分類(lèi)問(wèn)題中大致分為兩個(gè)步驟。首先，根據(jù)數(shù)據(jù)集訓(xùn)練出多個(gè)不同的分類(lèi)器;然后，將未知數(shù)據(jù)在不同分類(lèi)器上的預(yù)測(cè)結(jié)果通過(guò)某種策略進(jìn)行匯總，整合成最終的預(yù)測(cè)結(jié)果。匯總的策略有投票法、權(quán)重法、聚類(lèi)法等。

常見(jiàn)的集成策略有以下幾種，如 Bagging、Ada-Boost、M3、RandomSpace等。該實(shí)驗(yàn)使用基于M3的集成策略對(duì)結(jié)果進(jìn)行集成，特征選擇算法使用了Fisher 與ReliefF;分類(lèi)算法使用經(jīng)典的、準(zhǔn)確率較高的支持向量機(jī)，并與單個(gè)支持向量機(jī)分類(lèi)器和樸素貝葉斯三者之間進(jìn)行比較。

2.2 集成的策略

在每個(gè)子任務(wù)結(jié)束后，需要將每個(gè)任務(wù)的結(jié)果以某種方法集成起來(lái)，文中將介紹與對(duì)比四個(gè)集成的策略:均值法、投票法、K-中心聚類(lèi)法以及最小最大集成策略。此處主要介紹前三種:

投票法對(duì)于特征選擇而言是先將結(jié)果轉(zhuǎn)換為特征子集，然后統(tǒng)計(jì)每個(gè)特征被選中的情況，將出現(xiàn)次數(shù)最多的M個(gè)特征作為最終輸出特征;同理對(duì)于分類(lèi)而言則是統(tǒng)計(jì)每一個(gè)子分類(lèi)器對(duì)同一個(gè)樣本預(yù)測(cè)的結(jié)果，取票數(shù)最高的作為輸出;

均值法將子任務(wù)返回的結(jié)果進(jìn)行線(xiàn)性相加取均值得到最后的輸出;

K-中心聚類(lèi)集成是應(yīng)用了聚類(lèi)的思想，從多個(gè)子任務(wù)中選擇具有代表性的結(jié)果作為輸出。相比前兩種方法，該方法可以保護(hù)特征之間的關(guān)聯(lián)性。文中采用了1-中心聚類(lèi)集成。

3 最小最大集成策略

基于最小最大模塊化(Min-Max-Module，M3)的分類(lèi)集成策略最早由Lu［10］等提出。該策略主要包含兩個(gè)步驟:任務(wù)分解和分類(lèi)結(jié)果的合成。

3.1 任務(wù)分解

在任務(wù)分解階段，對(duì)于一個(gè)K類(lèi)的分解問(wèn)題，首先采用“一對(duì)一”的策略將其分解為K(K-1)/2個(gè)二分類(lèi)問(wèn)題。假設(shè)K類(lèi)的訓(xùn)練數(shù)據(jù)集表示為:其中，Li表示第i類(lèi)樣本的個(gè)數(shù);xil表示第i類(lèi)樣本中的第l個(gè)樣本;yi表示第i類(lèi)樣本對(duì)應(yīng)的標(biāo)簽。

那么通過(guò)“一對(duì)一”的策略，第i類(lèi)樣本和第j類(lèi)樣本組成的二分類(lèi)問(wèn)題的訓(xùn)練數(shù)據(jù)集可以表示為:

如果二分類(lèi)問(wèn)題的規(guī)模較大或者具有不平衡性，可以進(jìn)一步將它們劃分成規(guī)模更小的較為平衡的子問(wèn)題。

任務(wù)分解方法包括基于隨機(jī)的分解方法和基于超平面的分解方法。該實(shí)驗(yàn)中使用基于超平面的方法，其具體過(guò)程如算法1所示。假設(shè)把Ci類(lèi)的訓(xùn)練樣本分解成Ni個(gè)子集，把Cj類(lèi)的訓(xùn)練樣本分解成Nj個(gè)子集。這樣就可以把Ci類(lèi)和Cj類(lèi)的二分類(lèi)問(wèn)題分解成Ni×Nj個(gè)子二分類(lèi)問(wèn)題進(jìn)行解決［11］。

算法1:基于超平面的數(shù)據(jù)集分塊方法。

輸入:某k類(lèi)問(wèn)題第i類(lèi)的訓(xùn)練樣本Xi，i=1，2，…，k。

(1)計(jì)算Ci類(lèi)的每個(gè)訓(xùn)練樣本x與超平面Z1+Z2+…+Zn=0的距離。

其中，xj，j=1，2，…，n是樣本x的分量。

(2)根據(jù)已經(jīng)計(jì)算的dist(x，H)的值，對(duì)Ci類(lèi)的訓(xùn)練樣本進(jìn)行排序，即把Ci類(lèi)的訓(xùn)練樣本按空間分布進(jìn)行排序。

(3)把已經(jīng)排序的訓(xùn)練樣本按前后順序劃分成Ni份，每一份的訓(xùn)練樣本個(gè)數(shù)近似相等(相差不超過(guò)一個(gè))，即把該類(lèi)訓(xùn)練樣本的分布空間分割成Ni個(gè)部分，但不是分割后的空間相等，而是保證各個(gè)部分空間中包含的樣本個(gè)數(shù)相等。

3.2 分類(lèi)結(jié)果集成

通過(guò)對(duì)第i類(lèi)樣本和第j類(lèi)樣本組成的二分類(lèi)問(wèn)題進(jìn)行進(jìn)一步的劃分，從而得到Ni×Nj個(gè)二分類(lèi)子問(wèn)題，然后在每個(gè)子問(wèn)題對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)集上訓(xùn)練相應(yīng)的分類(lèi)器，得到Ni×Nj個(gè)基分類(lèi)器，表示為:

對(duì)于測(cè)試樣本，使用這些基分類(lèi)器分別對(duì)其進(jìn)行預(yù)測(cè)，得到預(yù)測(cè)標(biāo)簽:

對(duì)于預(yù)測(cè)結(jié)果，分別采用最小規(guī)則和最大規(guī)則進(jìn)行合成:

MIN規(guī)則:是對(duì)擁有相同正類(lèi)訓(xùn)練樣本集和不同負(fù)類(lèi)訓(xùn)練樣本集的分類(lèi)結(jié)果取最小值;

MAX規(guī)則:是對(duì)擁有相同負(fù)類(lèi)訓(xùn)練樣本集和不同正類(lèi)訓(xùn)練樣本集的分類(lèi)結(jié)果取最大值。

該分類(lèi)集成策略的整體流程如下:

算法2:基于最小最大規(guī)則的集成算法。

輸入:訓(xùn)練集X，測(cè)試樣本e，第i類(lèi)樣本的劃分塊數(shù)Ni，數(shù)據(jù)劃分方法P;

輸出:測(cè)試樣本的預(yù)測(cè)標(biāo)簽O。

訓(xùn)練與測(cè)試階段:

將K類(lèi)樣本X劃分為X1，X2，…，Xk

3.3 最小最大策略的集成特征選擇以及分類(lèi)

傳統(tǒng)的基于最小最大策略的分類(lèi)是先將數(shù)據(jù)集進(jìn)行特征選擇等預(yù)處理，再利用上文提到的數(shù)據(jù)劃分方法將數(shù)據(jù)劃分為M×N個(gè)樣本子集，再將數(shù)據(jù)塊進(jìn)行合并分類(lèi)，對(duì)每一個(gè)樣本都有M×N個(gè)預(yù)測(cè)標(biāo)簽，再利用最大最小策略可以得到每一個(gè)樣本最終的預(yù)測(cè)標(biāo)簽作為輸出［12］。

傳統(tǒng)的基于最小最大策略的集成特征選擇則是先使用上文提到的數(shù)據(jù)劃分方法進(jìn)行數(shù)據(jù)劃分，得到M ×N個(gè)樣本子集，然后在每個(gè)樣本子集上進(jìn)行特征選擇，得到M×N個(gè)特征選擇結(jié)果。最后利用最小化集成單元和最大化集成單元對(duì)這多個(gè)特征選擇結(jié)果進(jìn)行組合［12-15］。

文中提出的方法是結(jié)合以上兩種傳統(tǒng)的集成方法，將特征選擇和分類(lèi)同時(shí)使用最小最大模塊化進(jìn)行集成，先進(jìn)行數(shù)據(jù)分塊，對(duì)每一個(gè)數(shù)據(jù)子集進(jìn)行特征選擇，并優(yōu)先對(duì)特征選擇集成。同時(shí)，保存劃分的數(shù)據(jù)子集，在得到最優(yōu)特征子集之后，更新數(shù)據(jù)子集并對(duì)新的數(shù)據(jù)子集進(jìn)行分類(lèi)集成，從而得到最后的結(jié)果。其過(guò)程如圖1所示。

圖1 基于最小最大規(guī)則集成分類(lèi)特征選擇的框架

4 實(shí)驗(yàn)及仿真

4.1 實(shí)驗(yàn)步驟

文中所做的相關(guān)工作及實(shí)驗(yàn)步驟為:

(1)對(duì)原始數(shù)據(jù)做箱型圖處理，尋找異常值并刪除，再將排除完異常值的數(shù)據(jù)集運(yùn)用牛頓插值法(完成異常值和缺失值的處理過(guò)程具體見(jiàn)算法1)。

(2)接下來(lái)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化、歸一化處理，區(qū)間為［0，1］。

(3)對(duì)處理好的數(shù)據(jù)進(jìn)行十字交叉驗(yàn)證或者直接進(jìn)行訓(xùn)練集和測(cè)試集的按比例劃分。

(4)對(duì)訓(xùn)練樣本和測(cè)試樣本分別使用基于超平面的方法得到若干較小數(shù)據(jù)子集，對(duì)每個(gè)數(shù)據(jù)子集使用相同的特征選擇算法，得到降維之后的數(shù)據(jù)。

(5)用降維之后的數(shù)據(jù)更新之前的數(shù)據(jù)子集，并對(duì)每個(gè)數(shù)據(jù)子集使用支持向量機(jī)算法進(jìn)行分類(lèi)。

(6)根據(jù)最小最大規(guī)則對(duì)分類(lèi)結(jié)果進(jìn)行集成得到最終輸出。

本節(jié)通過(guò)實(shí)驗(yàn)結(jié)合了基于最小最大策略的分類(lèi)算法和特征選擇算法，分別對(duì)比ReliefF和Fisher特征選擇算法、投票法、均值法、K-中心聚類(lèi)法以及最小最大策略對(duì)分類(lèi)準(zhǔn)確率的影響。在集成方面，將文中提出的方法與傳統(tǒng)的M3-SVM和M3-Na?ve Bayes方法進(jìn)行對(duì)比。實(shí)驗(yàn)數(shù)據(jù)集為PCMAC和Adult。

4.2 實(shí)驗(yàn)準(zhǔn)備

(1)實(shí)驗(yàn)數(shù)據(jù)集。

PCMAC數(shù)據(jù)集包含1 943條樣本，每條樣本有3 290維屬性，包含了若干異常值和缺失值，標(biāo)簽一共有兩類(lèi)，是一個(gè)低數(shù)據(jù)量高維的樣本。文中對(duì)其進(jìn)行十字交叉驗(yàn)證，得到訓(xùn)練樣本和測(cè)試樣本。該數(shù)據(jù)集具體的分布情況如表1所示。

Adult數(shù)據(jù)集包含32 561條樣本，124維屬性，同時(shí)包含了異常值和缺失值，一共有兩類(lèi)標(biāo)簽。文中訓(xùn)練集包含22 696條樣本，測(cè)試集9 865條樣本，具體分布如表2和表3所示。

需要說(shuō)明的是，由于M3希望盡可能地保持每個(gè)子數(shù)據(jù)塊的樣本數(shù)相似，故對(duì)M3的分塊個(gè)數(shù)需要針對(duì)樣本個(gè)數(shù)區(qū)分，這樣也能很好地處理不平衡數(shù)據(jù)集。

(2)分類(lèi)器的選擇及評(píng)價(jià)準(zhǔn)則。

文中采用的分類(lèi)器算法是支持向量機(jī)。支持向量機(jī)有良好的學(xué)習(xí)能力和泛化能力，主要思想是:對(duì)于樣本的輸入空間，構(gòu)造一個(gè)最優(yōu)的超平面，使得超平面到兩類(lèi)樣本之間的距離最大化。它遵循結(jié)構(gòu)風(fēng)險(xiǎn)最小化的原則，使得錯(cuò)誤概率上界最小化，因此還可以有效減小過(guò)擬合。在支持向量機(jī)中，文中采用高斯核函數(shù)，其Sigmod值設(shè)置為2，損失函數(shù)C設(shè)置為32，采用SMO算法計(jì)算其參數(shù)。

對(duì)于分類(lèi)結(jié)果的評(píng)價(jià)采用錯(cuò)誤率度量標(biāo)準(zhǔn)，但是錯(cuò)誤率不考慮類(lèi)別之間的不平衡。對(duì)于平衡數(shù)據(jù)，常采用準(zhǔn)確率或錯(cuò)誤率來(lái)衡量;對(duì)于不平衡數(shù)據(jù)，常采用的評(píng)價(jià)標(biāo)準(zhǔn)包括ROC曲線(xiàn)、AUC、F-Measure和GMean等。文中采用G-Mean。

其中，TP表示正類(lèi)樣本被正確分類(lèi)的個(gè)數(shù);FN表示正類(lèi)樣本被錯(cuò)誤分類(lèi)的個(gè)數(shù);TN表示負(fù)類(lèi)樣本被正確分類(lèi)的個(gè)數(shù);FP表示負(fù)類(lèi)樣本被錯(cuò)誤分類(lèi)的個(gè)數(shù)。

4.3 實(shí)驗(yàn)結(jié)果

4.3.1 在PCMAC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

該數(shù)據(jù)集樣本數(shù)較少，維數(shù)較高，且為平衡數(shù)據(jù)集，在該樣本上使用了Fisher特征選擇算法。

(1)使用ReliefF特征選擇算法。

基于超平面劃分?jǐn)?shù)據(jù)后，對(duì)每一個(gè)數(shù)據(jù)子集使用Fisher特征選擇算法后使用SVM作為分類(lèi)器，分別采用四種不同的集成策略以G-Mean為標(biāo)準(zhǔn)進(jìn)行對(duì)比，如圖2所示。

圖2 不同集成策略對(duì)比圖(1)

對(duì)文中提出的集成特征選擇(FSE)結(jié)合集成分類(lèi)(CFE)與傳統(tǒng)的FSE進(jìn)行對(duì)比，并通過(guò)傳統(tǒng)的FSE對(duì)比了SVM和NB兩個(gè)分類(lèi)器的效果，如圖3所示。

圖3 集成算法與單個(gè)算法對(duì)比圖(1)

4.3.2 在Adult數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

該數(shù)據(jù)集樣本數(shù)較多，且不平衡，屬性個(gè)數(shù)較少，此處僅采用了ReliefF特征選擇算法，同樣對(duì)比了文中提出的FSE+CFE與傳統(tǒng)的集成特征選擇，實(shí)驗(yàn)結(jié)果如圖4和圖5所示。

圖4 不同集成策略對(duì)比圖(2)

4.3.3 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)主要對(duì)比了四種集成策略:均值法、投票法、K-中心聚類(lèi)法以及基于最小最大策略(分別記為Mean.Weight、Voting、K.Medoid、MIN.MAX)。并對(duì)比了三種不同的分類(lèi)方法:基于最小最大策略的集成特征選擇與集成分類(lèi)結(jié)合方法、傳統(tǒng)的集成特征選擇結(jié)合SVM、傳統(tǒng)的集成特征選擇結(jié)合樸素貝葉斯(分別記為M3.SVM、SVM、NB)。數(shù)據(jù)劃分部分使用了超平面劃分，特征選擇算法使用了ReliefF和Fisher，使用GMean作為評(píng)價(jià)準(zhǔn)則。實(shí)驗(yàn)數(shù)據(jù)集使用PCMAC和A-dult，前者樣本較少、特征較多，故采用10次交叉驗(yàn)證。

根據(jù)實(shí)驗(yàn)結(jié)果，在樣本較少特征較多的PCMAC中，文中提出的M3-FS結(jié)合M3-SVM的效果明顯優(yōu)于其他集成策略和分類(lèi)方法，特別是選取60至80維特征。對(duì)于大量低維的樣本Adult，由圖4、圖5可見(jiàn)，四種集成策略具有相似的結(jié)果及趨勢(shì);在分類(lèi)器選擇方面，文中提出的M3-FS結(jié)合M3-SVM的效果優(yōu)于M3-FS結(jié)合SVM以及M3-FS結(jié)合NB。同時(shí)可以看出，使用M3的正負(fù)類(lèi)樣本分別分塊策略也能很好地處理Adult這個(gè)不平衡的數(shù)據(jù)集。

綜上所述，從分類(lèi)準(zhǔn)確率的角度，文中提出的方法在大部分情況下均優(yōu)于其他方法。

5 結(jié)束語(yǔ)

文中提出了一種對(duì)傳統(tǒng)的集成特征選擇方法加以改進(jìn)的方法，即將分類(lèi)集成與特征選擇的集成結(jié)合起來(lái)，以有效地提高對(duì)大規(guī)模數(shù)據(jù)的處理能力。該方法通過(guò)基于超平面的方法將數(shù)據(jù)劃分成多個(gè)數(shù)據(jù)子集，將原來(lái)的任務(wù)轉(zhuǎn)換為可同時(shí)進(jìn)行的多個(gè)獨(dú)立的子任務(wù)，然后使用最小最大集成單元對(duì)分類(lèi)結(jié)果進(jìn)行集成，得到最終的預(yù)測(cè)標(biāo)簽。通過(guò)比較，實(shí)驗(yàn)結(jié)果表明在四種集成策略中，最小最大集成策略是占有一定的優(yōu)勢(shì)的。在面對(duì)傳統(tǒng)的特征選擇集成方法中，在準(zhǔn)確率方面，結(jié)合分類(lèi)集成的方法的效果更為理想。

［1］ Tang J L，Alelyani S，Liu H.Feature selection for classification:a review［M］.Florida:The Chemical Rubber Company Press，2013.

［2］ Li Y，Gao S，Chen S.Ensemble feature weighting based on local learning and diversity［C］//Proc of AAAI conference on artificial intelligence.［s.l.］:［s.n.］，2012.

［3］ Gu Q，Li Z，Han J.Generalized fisher score for feature selection［C］//Proceedings of the twenty-seventh conference on uncertainty in artificial intelligence.Barcelona，Spain:［s.n.］，2011.

［4］ Robnik-?ikonja M，Kononenko I.Theoretical and empirical analysis of ReliefF and RReliefF［J］.Machine Learning，2003，53(1-2):23-69.

［5］ Hoi S C H，Wang J，Zhao P，et al.Online feature selection for mining big data［C］//Proc of international workshop on big data，streams and heterogeneous source mining:algorithms，systems，programming models and applications.［s.l.］:ACM，2012:93-100.

［6］ Wu X，Yu K，Wang H，et al.Online streaming feature selection ［C］//Proc of international conference on machine learning. ［s.l.］:［s.n.］，2010:1159-1166.

［7］ Woznica A，Nguyen P，Kalousis A.Model mining for robustfeature selection［C］//Proc of ACM SIGKDD conference on knowledge discovery and data mining.［s.l.］:ACM，2012:913 -921.

［8］ Awada W，Khoshgoftaar T M，Dittman D，et al.A review of the stability of feature selection techniques for bioinformatics data ［C］//Proc of international conference on information reuse and integration.［s.l.］:［s.n.］，2012:356-363.

［9］季薇，李云.基于局部能量的集成特征選擇［J］.南京大學(xué)學(xué)報(bào):自然科學(xué)版，2012，48(4):499-503.

［10］ Lu B L，Ito M.Task decomposition and module combination

based on class relations:a modular neural network for pattern classification［J］.IEEE Transactions on Neural Networks，1999，10(5):1244-1256.

［11］周?chē)?guó)靜，李云.基于最小最大策略的集成特征選擇［J］.南京大學(xué)學(xué)報(bào):自然科學(xué)版，2014，50(4):457-465.

［12］陳曉明.海量高維數(shù)據(jù)下分布式特征選擇算法的研究與應(yīng)用［J］.科技通報(bào)，2013，29(8):79-81.

［13］連惠城.最小最大模塊化網(wǎng)絡(luò)及人臉屬性分類(lèi)研究［D］.上海:上海交通大學(xué)，2008.

［14］解男男.機(jī)器學(xué)習(xí)方法在入侵檢測(cè)中的應(yīng)用研究［D］.長(zhǎng)春:吉林大學(xué)，2015.

［15］閆國(guó)虹.支持向量機(jī)不平衡問(wèn)題和增量問(wèn)題算法研究［D］.西安:西安電子科技大學(xué)，2012.

Improvement of Multi-classification Integrated Selection Based on Min-Max-Module

ZHOU Feng，WANG Wei-yang
(School of Information＆Engineering，Shanghai Maritime University，Shanghai 201306，China)

With the expansion of the data size，a single weak classifier has been unable to predict unknown samples accurately.To solve this problem，an integrated learning is proposed.Combined the integrated learning and classification，the idea of integration is also used in the feature selection at the same time.For the increase of sample prediction accuracy，a strategy based on Min-Max-Module(M3)is put forward.It makes integrated learning applied to feature selection algorithms and classifier，and compares four kinds of integration strategies as well as three different classification methods.The results show that the proposed method can be able to achieve good results in most cases，and can well handle imbalanced data sets.

feature selection;integrated learning;Min-Max-Module(M3);Imbalance Data Sets(IDS)

TP391

1673-629X(2016)09-0149-05

10.3969/j.issn.1673-629X.2016.09.033

2015-09-17

2016-01-06< class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間:2

時(shí)間:2016-08-23

國(guó)家自然科學(xué)基金青年項(xiàng)目(61303100)

周豐(1991-)，女，碩士研究生，研究方向?yàn)橥诰蛩惴ㄖ械奶卣魈幚?王未央，碩士生導(dǎo)師，研究方向?yàn)閿?shù)據(jù)庫(kù)系統(tǒng)、系統(tǒng)與數(shù)據(jù)整合、數(shù)據(jù)挖掘及其在港航、海洋、物流信息系統(tǒng)中的應(yīng)用。

http://www.cnki.net/kcms/detail/61.1450.TP.20160823.1343.032.html