結(jié)合近鄰傳播聚類的選擇性集成分類方法

2018-05-28 03:44:09姜丁菱何馨宇李麗雙

計算機(jī)研究與發(fā)展 2018年5期

關(guān)鍵詞：分類

孟軍張晶姜丁菱何馨宇李麗雙

(大連理工大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院遼寧大連 116023) (mengjun@dlut.edu.cn)

高通量測序技術(shù)的發(fā)展，為研究者提供了海量的基因表達(dá)數(shù)據(jù)，從中提取出有價值的信息已經(jīng)成為生物信息學(xué)的研究熱點[1-2].

植物在生長過程中經(jīng)常會受到病蟲害和環(huán)境因素的影響，如何預(yù)測并做好防治工作，對林業(yè)、農(nóng)牧業(yè)、環(huán)境保護(hù)等多方面的發(fā)展將起到非常重要的作用.由于基因表達(dá)數(shù)據(jù)具有“高維度”、“小樣本”和“高冗余”的特點，采用傳統(tǒng)的單分類算法會出現(xiàn)分類穩(wěn)定性差和準(zhǔn)確率偏低等問題，因而對此類數(shù)據(jù)的分析需要處理能力較強(qiáng)的分類模型.

利用基分類器之間的信息互補(bǔ)性構(gòu)建的集成分類模型，能夠充分發(fā)揮各基分類器的優(yōu)勢，因此，具有更穩(wěn)定、更精確的分類性能[3-4].

以往的集成模型通常只是以基因表達(dá)數(shù)據(jù)這一單一數(shù)據(jù)源為基礎(chǔ)而設(shè)計的，由于基因之間具有生物學(xué)上的相互作用，融合已有的生物知識到分類模型中能夠提高其分類性能.基因本體(GO)知識首先被應(yīng)用到癌癥的預(yù)測中，相關(guān)的實驗表明結(jié)合生物知識能夠提高預(yù)測結(jié)果的準(zhǔn)確性并且增強(qiáng)其生物學(xué)角度上的可解釋性與可信性[5].之后，結(jié)合通路(pathway)知識的預(yù)測模型同樣被應(yīng)用到了癌癥的預(yù)測中[6].近年來，在疾病分類領(lǐng)域出現(xiàn)了結(jié)合超盒原理的pathway水平下的分類模型[7].

本文利用pathway知識對基因進(jìn)行初步選擇，使得篩選出的每個基因子集中只包含一個pathway知識單元中的基因.因為基因微陣列數(shù)據(jù)的高冗余性，只有極少數(shù)的基因與分類相關(guān)[8]，所以在每個基因子集上采用了基于相交鄰域粗糙集的基因選擇模型為之后的分類工作選擇出重要的、無冗余的基因.

在基分類器數(shù)量較多的情況下，會存在一些冗余的分類器，導(dǎo)致整體的差異性較差.為了提高集成分類的性能，對基分類器進(jìn)行選擇是十分必要的.選擇性集成方法可以大致分為4類：迭代優(yōu)化法、排名法、聚類法和模式挖掘法.在基于聚類技術(shù)的選擇性集成中，Lin等人[9]提出了基于K-means聚類和循環(huán)序列的動態(tài)基分類器選擇策略.Zhang等人[10]提出了基于譜聚類的集成剪枝方法.Krawczyk[11]在加權(quán)的Bagging集成分類中使用了基于聚類的剪枝方法.

本文采用基于近鄰傳播(affinity propagation, AP)聚類的選擇性集成方法，在聚類的過程中最大化簇內(nèi)的相似性和簇間的差異性[12].然后從每個聚簇內(nèi)挑選出有代表性的基分類器進(jìn)行集成，由于產(chǎn)生的基分類器聚簇之間具有較大的差異性，使得所選擇的基分類器之間同樣具有較大差異性.

本文的主要貢獻(xiàn)有2個方面:

1) 在分類模型中引入先驗知識，將pathway知識應(yīng)用到對基因的選擇中，利于基于相交鄰域粗糙集的基因選擇模型在不改變分類性能的前提下篩選出重要的基因.

2) 將聚類方法應(yīng)用到集成分類模型中，采用基于AP聚類的選擇性集成分類方法.

1 基于相交鄰域粗糙集的基因選擇

1.1 結(jié)合pathway的基因初選

KEGG的pathway數(shù)據(jù)庫整合了分子互動網(wǎng)絡(luò)的知識，包括圖解的細(xì)胞生化過程，如代謝、細(xì)胞周期、信號傳遞、膜轉(zhuǎn)運等，還包括同系保守的子通路等信息[13].該數(shù)據(jù)庫包含7個方面的分子間相互作用和反應(yīng)網(wǎng)絡(luò)：

1) 新陳代謝；

2) 遺傳信息加工；

3) 環(huán)境信息加工；

4) 細(xì)胞過程；

5) 生物體系統(tǒng)；

6) 人類疾病；

7) 藥物開發(fā)[13].

每個pathway單元列出一個通路中所包含的所有基因.采用將每個知識單元中所包含的基因與基因微陣列數(shù)據(jù)中的基因相對應(yīng)的方式來進(jìn)行2種數(shù)據(jù)的結(jié)合.每個pathway單元對應(yīng)一個基因子集，同時形成一個只包含該基因子集中基因的訓(xùn)練集.由于各基因子集中包含不同的基因，數(shù)據(jù)分布差異顯著，因此基于這些基因子集訓(xùn)練得到的基分類器之間將具有顯著的差異性.并且這種知識融合方法還能夠降低數(shù)據(jù)的維數(shù)，因此適合于對基因微陣列數(shù)據(jù)進(jìn)行處理.目前還有一些基因在相關(guān)的pathway數(shù)據(jù)庫中沒有完善的注釋信息.隨著生物知識的完善，結(jié)合pathway的分類方法將會有更好的效果.

對于GEDT=(U,C∪D,V,f)，將其與pathway知識結(jié)合，可以得到一種如表1所示的結(jié)合pathway知識的信息表，其中si(i=1,2,…,n)表示基因表達(dá)數(shù)據(jù)中的第i個樣本，fkji表示樣本si在pathway知識單元Pk(k=0,1,…,m)中基因pkj(j=1,2,…,|Pk|)上的表達(dá)量.

Table 1 Information Table Formed by Combing Microarray Data with Pathway Knowledge

1.2 基因選擇算法

Yao和Lin[15]對Pawlak提出的經(jīng)典粗糙集模型進(jìn)行了一定的擴(kuò)展，將原有的等價關(guān)系用任意的二元關(guān)系替代，提出了廣義的粗糙集理論，該理論適用于數(shù)值型數(shù)據(jù)的處理.廣義的粗糙集將原理論中的基本集合由等價類變成了現(xiàn)有理論中的鄰域，因此新提出的模型也可以看作是基于鄰域的粗糙集模型.本文使用基于相交鄰域的粗糙集模型對基因進(jìn)行選擇.相交鄰域較之于鄰域，能夠更大程度上減少屬性之間的相互影響[16].對于基因選擇問題，在構(gòu)建鄰域時僅從表達(dá)數(shù)據(jù)本身來說，無法準(zhǔn)確獲知基因之間的關(guān)聯(lián)性.因此，相交鄰域的定義形式更具合理性.

定義2[15].R是U上的一個二元關(guān)系，給定對象x∈U，x的鄰域表示為

NR(x)={y|xRy,y∈U}.

(1)

定義3[16]. 對于屬性集合B?C，給定對象x∈U，x的相交鄰域定義為

INB(x)={y|?b∈B,|fb(x)-fb(y)|≤δb,y∈U}.

(2)

定義4[15]. 對于對象集合X?U，給定屬性集合B?C，則基于相交鄰域，集合X的上、下近似集分別定義為

(3)

(4)

粗糙集理論的基本思想是利用上近似集和下近似集所確切表示的對象集合來近似表示U上的一個模糊的對象集X.

定義5[15]. 對于對象集合X?U，基于屬性子集B?C，X的正域、負(fù)域和邊界的定義形式分別為

(5)

(6)

(7)

其中，正域是確定屬于集合X的所有對象組成的集合，其對象范圍與下近似集相同;負(fù)域是確定不屬于集合X的所有對象的集合，即屬于論域U卻不屬于上近似集的對象所組成的集合;邊界集合是屬于上近似集而不屬于下近似集的對象所組成的集合，即無法確定是否能歸類于集合X的對象集合.

決策表上的屬性約簡是指對條件屬性進(jìn)行的約簡，條件屬性的約簡與決策屬性是相對的.

定義6[17]. 決策表GEDT=(U,C∪D,V,f)，對于屬性集合B?C，相對于決策屬性集D的正域定義為

(8)

其中，UIND(D)是由等價關(guān)系IND(D)導(dǎo)出的所有不同等價類的集合，每個等價類中的樣本具有相同的類別標(biāo)簽.

定義7[17]. 對于條件屬性c∈B?C，如果POSB-{c}(D)=POSB(D)成立，則稱屬性c在條件B中相對于決策屬性D是非必要的，則屬性c是可以約簡的；如果條件不成立，稱屬性c在條件屬性B中相對于決策屬性D是必要的，則是不可約簡的.

定義8[17]. 對于條件屬性集合B?C，如果B中的每一個屬性相對于決策屬性D都是必要的，則稱條件屬性子集B相對于決策屬性D是獨立的.

定義9[17]. 對于條件屬性集合B?C，集合E?B，當(dāng)且僅當(dāng)E相對于決策屬性D是獨立的，且滿足公式POSE(D)=POSB(D)，則E被稱為B的一個相對于決策屬性D的約簡.

約簡中的每一個條件屬性相對于決策屬性都是必要的，并且約簡出的條件屬性子集與原始條件屬性集合具有同等的分類性能.將以上的屬性約簡流程列于算法1中.

算法1. 基于相交鄰域的屬性約簡算法.

輸入：決策表GEDT={U,C∪D,V,f}、待約簡的屬性子集B、相交鄰域閾值δ;

輸出：B的相對于決策屬性D的約簡RED.

① 對于每個對象x∈U,計算其基于屬性子集B的相交鄰域INB(x).

② 將所有對象依據(jù)類別屬性D=g0gggggg進(jìn)行劃分，得到基于決策屬性的等價類集合UIND(D).

③ 計算在屬性集合B條件下相對于決策屬性D的正域POSB(D).

④ 令RED=B.

⑤ 對于每個對象x∈U，計算其基于屬性子集RED-{b}的相交鄰域INRED-{b}(x)，并且計算在屬性子集RED-{b}條件下的相對于決策屬性D的正域POSRED-{b}(D).

如果POSRED-{b}(D)=POSB(D)，則RED=RED-{b}.

⑥ 采用秩和檢測對基因進(jìn)行排序，從后向前依次進(jìn)行驗證.重復(fù)步驟⑤直到所有的基因b∈B都進(jìn)行了驗證.

2 結(jié)合近鄰傳播聚類的選擇性集成

在構(gòu)建集成分類模型的過程中，會產(chǎn)生多個基分類器，對基分類器進(jìn)行剪枝能夠減少所需的存儲空間和計算資源[18-19].另外，Zhou等人[20-21]通過實驗表明選擇部分合適的基分類器進(jìn)行集成，其分類效果優(yōu)于對全部基分類器進(jìn)行集成，這也是選擇性集成的另外一個優(yōu)勢.

本文使用基于AP聚類的選擇性集成分類方法，首先將基分類器劃分成多個聚簇，然后從每個聚簇中選擇作為聚簇中心的基分類器進(jìn)行集成.

2.1 近鄰傳播聚類算法

由Frey和Dueck[22]提出的AP聚類算法，由于其較好的性能已被成功應(yīng)用于數(shù)據(jù)挖掘的許多領(lǐng)域[23].在AP聚類算法中，每一個數(shù)據(jù)點都被視為潛在的聚簇中心，數(shù)據(jù)點之間不斷地進(jìn)行信息傳遞直到算法收斂或迭代結(jié)束.與傳統(tǒng)的聚類方法如K-means和自組織映射相比，AP聚類算法有3個優(yōu)勢：

1) 不需要事先指定聚簇個數(shù)，也不需要初始化聚簇中心點；

2) 聚類結(jié)果更加穩(wěn)定與準(zhǔn)確；

3) 在達(dá)到同樣聚類精確度的條件下所需時間更短.

AP聚類算法以相似性矩陣S作為輸入，矩陣中元素s(i,j)表示數(shù)據(jù)點i和j之間的相似性，數(shù)值越大則表明2個數(shù)據(jù)點之間的相似性越大.矩陣對角線上的值s(k,k)稱作數(shù)據(jù)點k的參考度(pre-ference)，該值越大說明該數(shù)據(jù)點更加適合作為聚簇中心，因此生成的聚簇個數(shù)也就越多.一般而言，將所有數(shù)據(jù)點的preference值設(shè)置為相同的數(shù)值，以保證所有的數(shù)據(jù)點具有同等的機(jī)會成為聚簇中心.

AP聚類算法在迭代的過程中傳遞2種信息，Responsibility和Availability.r(i,k)代表前者，表示數(shù)據(jù)點k作為數(shù)據(jù)點i的聚簇中心的適應(yīng)程度；a(i,k)代表后者，表示數(shù)據(jù)點i選擇數(shù)據(jù)點k作為其聚簇中心的傾向程度.

r(i,k)=s(i,k)-max(a(i,j)+s(i,j)),

(9)

(10)

其中，j∈{1,2,…,N},j≠k.

AP聚類可以自動確定聚簇個數(shù)，在迭代的過程中如果r(k,k)+a(k,k)>0，就選擇數(shù)據(jù)點k作為聚簇中心.迭代結(jié)束之后將剩余的數(shù)據(jù)點分配給距其最近的聚簇中心.

為了提高AP聚類算法的穩(wěn)定性，引入阻尼系數(shù)λ，這樣一來，r(i,k)和a(i,k)就受到上一次迭代計算值的約束.改進(jìn)后的計算為

ri=(1-λ)ri+λri-1,

(11)

ai=(1-λ)ai+λai-1,

(12)

其中，ri和ai代表第i次迭代的結(jié)果，ri-1和ai-1代表第i-1次的迭代結(jié)果.

本文使用AP聚類算法對基分類器依據(jù)其在剪枝集上的分類結(jié)果進(jìn)行聚類，并且選擇作為聚簇中心的基分類器進(jìn)行集成，以保證被選擇的基分類器之間具有較大的差異性.

2.2 相似性矩陣計算

在對基分類器進(jìn)行聚類時，依據(jù)各基分類器在剪枝集上的分類結(jié)果計算相似性，并采用基于kappa系數(shù)和準(zhǔn)確率的相似性計算公式.

Cohen[24]提出的kappa系數(shù)是對一致性的一種度量，這種評價系數(shù)能夠消除因隨機(jī)性帶來的誤差，本文采用kappa系數(shù)來測量基分類器之間的相似性[25].

定義10[24]. 依據(jù)基分類器的分類結(jié)果，kappa系數(shù)的計算為

(13)

(14)

(15)

kappa系數(shù)的數(shù)值范圍是-1～1.當(dāng)kappa<0時，表明一致性比由隨機(jī)性引起的還差；當(dāng)kappa>0時，數(shù)值越大表明一致性越好.

定義11. 基分類器之間基于kappa系數(shù)的相似性定義為

(16)

在對基分類器進(jìn)行聚類時，除了選擇出具有差異性的基分類器集合之外，各個基分類器的分類準(zhǔn)確率也是影響集成結(jié)果的十分重要的因素.kappa系數(shù)只是對基分類器之間分類結(jié)果的相似性進(jìn)行了度量，而在2個基分類器同時分類錯誤的情況下，其結(jié)果同樣是相似的，所以沒有考慮到其分類性能.因此本文定義了基于kappa系數(shù)和分類準(zhǔn)確率的相似性計算公式.

在剪枝集中有N個樣本的情況下，當(dāng)且僅當(dāng)Hi和Hj對第k個樣本同時分類正確時，ck=1，其他情況下ck=0.

定義12. 基分類器之間基于準(zhǔn)確率的相似性定義為

(17)

定義13. 基分類器之間基于kappa系數(shù)和分類準(zhǔn)確率的相似性計算為

s(i,j)=αDd(i,j)+(1-α)Da(i,j),

(18)

其中,α∈[0,1]，是基于kappa系數(shù)的相似性的權(quán)重.

2.3 選擇性集成分類流程

在結(jié)合近鄰傳播聚類的選擇性集成分類模型(selective ensemble classification integrated with affinity propagation clustering，SECIAPC)中，將pathway作為先驗知識引入到基因微陣列數(shù)據(jù)的分類中，之后使用基于相交鄰域粗糙集的基因選擇模型對每個基因子集進(jìn)行屬性約簡.在基分類器選擇階段，采用基于AP聚類的選擇性集成方法，集成分類模型流程如圖1所示.

Fig. 1 Flow chart of classification model圖1 分類模型流程

步驟1. 基因微陣列數(shù)據(jù)與pathway知識相結(jié)合生成多個基因子集.

步驟2. 采用基于相交鄰域粗糙集的基因選擇模型在每個基因子集中篩選出重要的基因.

步驟3. 在每個約簡之后的基因子集上訓(xùn)練SVM基分類器.

步驟4. 全體基分類器對剪枝集進(jìn)行分類，依據(jù)分類結(jié)果采用AP聚類算法對分類器進(jìn)行聚類，并選擇作為聚簇中心的基分類器進(jìn)行集成.

步驟5. 步驟4選擇出的基分類器對測試集進(jìn)行分類，使用簡單多數(shù)投票法對分類結(jié)果進(jìn)行融合.

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集

由于擬南芥的生物學(xué)實驗數(shù)據(jù)和基因注釋信息相對比較豐富，所以常被用在不同類型的植物脅迫響應(yīng)的研究中[26].本文采用擬南芥脅迫響應(yīng)數(shù)據(jù)集和相關(guān)的pathway知識來對分類模型進(jìn)行評估，從公開的生物信息網(wǎng)站GEO*http://www.ncbi.nlm.nih.gov/geo/下載了Arabidopsis-Drought,Arabidopsis-Oxygen和Arabidopsis-TEV三個數(shù)據(jù)集，它們分別對應(yīng)于擬南芥干旱脅迫、氧氣脅迫和煙草蝕紋病毒脅迫.具體信息如表2所示，每個數(shù)據(jù)集都包含實驗組和對照組，分別記為Class1和Class2.本文從數(shù)據(jù)庫*https://www.arabidopsis.org下載了擬南芥相關(guān)的pathway數(shù)據(jù)，其中包含121個pathway知識單元，對應(yīng)形成121個基因子集，并且每個基因子集對應(yīng)生成1個基分類器.

Table 2 Detail Information of Datasets表2 數(shù)據(jù)集的具體信息

3.2 數(shù)據(jù)預(yù)處理及參數(shù)設(shè)置

為避免因基因表達(dá)數(shù)據(jù)數(shù)值范圍不一致帶來的分類誤差，同時也便于鄰域閾值的確定，所有數(shù)據(jù)被標(biāo)準(zhǔn)化到[-1,1].實驗中設(shè)定相交鄰域閾值δ的變化范圍為0.05～0.95，步長為0.1，并且在每次實驗中假設(shè)各個基因?qū)?yīng)的閾值相同.AP聚類中的阻尼系數(shù)λ=0.1，基分類器的距離計算公式中權(quán)值α設(shè)置為從0.1到0.9，步長為0.1.隨機(jī)選擇60%的樣本作為訓(xùn)練樣本，20%的樣本作為剪枝樣本，余下的作為測試樣本.實驗中采用支持向量機(jī)(support vector machine, SVM)作為分類算法生成基分類器，設(shè)定SVM分類器的核函數(shù)為具有較好分類性能和良好適應(yīng)能力的RBF核函數(shù)K(x,y)=exp(-γ‖x-y‖2).

二分類問題的評價標(biāo)準(zhǔn)基于4種基礎(chǔ)的指標(biāo)：真陽性(true positives,TP)、假陽性(false positives,FP)、真陰性(true negatives,TN)和假陰性(false negatives,FN).

對分類模型選用準(zhǔn)確率(accuracy,ACC)、敏感性(sensitivity,SN)、特異性(specificity,SP)和幾何平均數(shù)(geometric mean,G-mean)四種標(biāo)準(zhǔn)評價其性能.準(zhǔn)確率反映了對所有樣本的分類準(zhǔn)確率；敏感性和特異性分別反映對正、負(fù)類樣本的分類準(zhǔn)確率；幾何平均數(shù)從全局衡量了對正、負(fù)類樣本的分類性能.4種評價標(biāo)準(zhǔn)的定義為

ACC=(TP+TN)(TP+TN+FP+FN),

(19)

SN=TP(TP+FN),

(20)

SP=TN(TN+FP),

(21)

(22)

3.3 結(jié)果分析

在本文使用的3個數(shù)據(jù)集上，通過實驗表明當(dāng)δ分別取值為0.45，0.55，0.65時、α分別取值為0.1，0.2，0.8，0.9時得到較好的分類結(jié)果，但是不同數(shù)據(jù)集上δ和α對分類結(jié)果的影響不同，所以在不同數(shù)據(jù)集上選取分類性能最好的δ和α值.為了更好地驗證本文提出方法的優(yōu)勢，將該方法與單個的SVM分類器和Random Subspace，Bagging，AdaboostM1和Stacking這4種常用的集成分類方法進(jìn)行比較.利用Weka軟件對這4種方法的實現(xiàn)進(jìn)行對比實驗[27].Random Subspace的基本原理是抽取不同的屬性子集，對應(yīng)每個屬性子集形成一個訓(xùn)練集；Bagging的原理是不斷的有放回的抽取樣本子集；AdaboostM1方法在對樣本進(jìn)行抽樣的過程中，對被錯誤分類的樣本賦予更大的權(quán)重，來提升對這些樣本的分類能力；Stacking方法一般采用2層結(jié)構(gòu)，將第1層的分類結(jié)果作為下一層的輸入.本文提出的SECIAPC方法采用結(jié)合pathway知識的方式生成不同的基因子集，與以上4種集成方法不同的是使用AP聚類對基分類器進(jìn)行選擇，并對選擇出的部分基分類器進(jìn)行集成.所有的集成分類方法都采用SVM分類器進(jìn)行集成，3個數(shù)據(jù)集上分類性能的比較如表3～5所示.

Table 3 Classification Results on Arabidopsis-Drought Dataset

Table 4 Classification Results on Arabidopsis-Oxygen Dataset

Table 5 Classification Results on Arabidopsis-TEV Dataset表5 Arabidopsis-TEV數(shù)據(jù)集上的分類結(jié)果

在Arabidopsis-Drought數(shù)據(jù)集上，SECIAPC方法的準(zhǔn)確率和幾何平均數(shù)與其他方法中性能最好的AdaboostM1相當(dāng)，對負(fù)類樣本的分類準(zhǔn)確率有所提高.與其他3種集成方法相比，SECIAPC方法的性能大幅度提高，特別是在對負(fù)類的分類性能上提高了至少10%.在Arabidopsis-Oxygen數(shù)據(jù)集上，在準(zhǔn)確率和幾何平均數(shù)方面，SECIAPC與AdaboostM1和Bagging這2種性能最好的方法相比提高了近2%.在Arabidopsis-TEV數(shù)據(jù)集上，其他方法對于正負(fù)類樣本的分類能力極其不均衡.SECIAPC方法在準(zhǔn)確率上與其他方法比較至少提高了12%，并且極大地提高了對負(fù)類樣本的分類性能.

為了驗證所選基因的生物學(xué)意義，使用GO術(shù)語*http://www.geneontology.org/檢查部分被選擇基因的功能注釋，GO數(shù)據(jù)庫中運用Term的概念來顯示基因特性，這些GO Term被劃分為3類：細(xì)胞成分(cellular component, CC)、分子功能(molecular function, MF)和生物過程(biological process, BP)，分別對應(yīng)表中的3種類別.部分被選擇的基因的詳細(xì)注釋如表6所示.可以看出，這些基因都與脅迫響應(yīng)相關(guān).

Table 6 Gene Annotations in GO for Some Selected Genes表6 部分所選基因的GO基因注釋信息

4 結(jié)束語

本文采用基于相交鄰域粗糙集的基因約簡模型作用在由pathway產(chǎn)生的信息表上，在引入先驗知識的同時進(jìn)行重要基因的選擇.使用基于AP聚類的選擇性集成方法，在基分類器選擇的過程中將分類和聚類2種機(jī)器學(xué)習(xí)技術(shù)進(jìn)行結(jié)合，進(jìn)一步提高了集成分類的性能.

在3個擬南芥脅迫響應(yīng)相關(guān)數(shù)據(jù)集上的實驗結(jié)果表明，提出的SECIAPC方法能夠得出較好的分類結(jié)果.同時與單分類器、傳統(tǒng)集成方法的分類結(jié)果進(jìn)行對比，其分類性能有很大的提升.由于基因微陣列數(shù)據(jù)的高維屬性，整個集成分類模型的分類效率有待進(jìn)一步提高.

[1]Maji P, Garai P. On fuzzy-rough attribute selection: Criteria of max-dependency, max-relevance, min-redundancy, and max-significance[J]. Applied Soft Computing, 2013, 13(9): 3968-3980

[2]Maji P, Paul S. Rough-fuzzy clustering for grouping functionally similar genes from microarray data[J]. IEEE/ACM Trans on Computational Biology and Bioinformatics, 2013, 10(2): 286-299

[3]Landesfeind M, Kaever A, Feussner K, et al. Integrative study of arabidopsis thaliana metabolomic and transcriptomic data with the interactive marvis-graph software[J]. PeerJ, 2014, 2: Article No.e239

[4]Rokach L. Ensemble-based classifiers[J]. Artificial Intelligence Review, 2010, 33(1/2): 1-39

[5]Chen Xi, Wang Lily. Integrating biological knowledge with gene expression profiles for survival prediction of cancer[J]. Journal of Computational Biology, 2009, 16(2): 265-278

[6]Bandyopadhyay N, Kahveci T, Goodison S, et al. Pathway-Based Feature Selection Algorithm for Cancer Microarray Data[J]. Advances in Bioinformatics, 2010, 2009(5235): 103-118.

[7]Gatza M L, Lucas J E, Barry W T, et al. A pathway-based classification of human breast cancer[J]. Proc of the National Academy of Sciences, 2010, 107(15): 6994-6999

[8]Zhang Lijuan, Li Zhoujun. Gene selection for cancer classification in microarray data[J]. Journal of Computer Research and Development, 2009, 46(5): 794-802 (in Chinese)

(張麗娟, 李舟軍. 微陣列數(shù)據(jù)癌癥分類問題中的基因選擇[J]. 計算機(jī)研究與發(fā)展, 2009, 46(5): 794-802)

[9]Lin Chen, Chen Wenqiang, Qiu Cheng, et al. LibD3C: Ensemble classifiers with a clustering and dynamic selection strategy[J]. Neurocomputing, 2014, 123: 424-435

[10]Zhang Huaxiang, Cao Linlin. A spectral clustering based ensemble pruning approach[J]. Neurocomputing, 2014, 139: 289-297

[11]Krawczyk B. Forming ensembles of soft one-class classifiers with weighted bagging[J]. New Generation Computing, 2015, 33(4): 449-466

[12]Ding Xiangwu, Guo Tao, Wang Mei, et al. A clustering algorithm for large-scale categorical data and its parallel implementation[J]. Journal of Computer Research and Development, 2016, 53(5): 1063-1071 (in Chinese)

(丁祥武, 郭濤, 王梅, 等. 一種大規(guī)模分類數(shù)據(jù)聚類算法及其并行實現(xiàn)[J]. 計算機(jī)研究與發(fā)展, 2016, 53(5): 1063-1071)

[13]Kanehisa M, Goto S, Hattori M, et al. From genomics to chemical genomics: New developments in KEGG[J]. Nucleic Acids Research, 2006, 34(Suppl 1): D354-D357

[14]Pawlak Z. Rough sets[J]. International Journal of Computer & Information Sciences, 1982, 11(5): 341-356

[15]Yao Yiyu, Lin Tsauyoung. Generalization of rough sets using modal logic[J]. Intelligent Automation and Soft Computing, 1996, 2(2): 103-120

[16]Meng Jun, Zhang Jing, Li Rui, et al. Gene selection using rough set based on neighborhood for the analysis of plant stress response[J]. Applied Soft Computing, 2014, 25: 51-63

[17]Pawlak Z. Imprecise categories, approximations and rough sets[G] //Rough Sets. Beijing: Springer, 1991: 9-32

[18]Ni Zhiwei, Zhang Chen, Ni Liping. Haze forecast method of selective ensemble based on glowworm swarm optimization algorithm[J]. Pattern Recognition and Artificial Intelligence, 2016, 29(2): 143-153 (in Chinese)

(倪志偉, 張琛, 倪麗萍. 基于螢火蟲群優(yōu)化算法的選擇性集成霧霾天氣預(yù)測方法[J]. 模式識別與人工智能, 2016, 29(2): 143-153 )

[19]Tang Chao, Wang Wenjian, Li Wei, et al. Human action recognition algorithm based on selective ensemble rotation forest[J]. Pattern Recognition and Artificial Intelligence, 2016, 29(4): 313-321 (in Chinese)

(唐超, 王文劍, 李偉, 等. 基于選擇性集成旋轉(zhuǎn)森林的人體行為識別算法[J]. 模式識別與人工智能, 2016, 29(4): 313-321)

[20]Zhou Zhihua, Wu Jianxin, Tang Wei. Ensembling neural networks: Many could be better than all[J]. Artificial Intelligence, 2002, 137(1): 239-263

[21]Zhou Zhihua, Tang Wei. Selective ensemble of decision trees [C] //Proc of the 9th Int Workshop on Rough Sets, Fuzzy Sets, Data Mining, and Granular-Soft Computing. Berlin: Springer, 2003: 476-483

[22]Frey B J, Dueck D. Clustering by passing messages between data points[J]. Science, 2007, 315(5814): 972-976

[23]Leone M, Weigt M. Clustering by soft-constraint affinity propagation: Applications to gene-expression data[J]. Bioinformatics, 2007, 23(20): 2708-2715

[24]Cohen J. A coefficient of agreement for nominal scales[J]. Educational and Psychological Measurement, 1960, 20(1): 37-46

[25]Ben-David A. Comparison of classification accuracy using Cohen’s weighted kappa[J]. Expert Systems with Applications, 2008, 34(2): 825-832

[26]Karim S. Exploring Plant Tolerance to Biotic and Abiotic Stresses[D]. Uppsala, Sweden: Swedish University of Agricultural Sciences, 2007

[27]Hall M, Frank E, Holmes G, et al. The WEKA data mining software: An update[J]. ACM SIGKDD Explorations Newsletter, 2009, 11(1): 10-18