999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙模糊信息的特征選擇算法*

2017-12-13 05:44:47李素姝王士同
計算機與生活 2017年12期
關鍵詞:分類特征方法

李素姝,王士同,李 滔

江南大學 數字媒體學院,江蘇 無錫 214122

基于雙模糊信息的特征選擇算法*

李素姝+,王士同,李 滔

江南大學 數字媒體學院,江蘇 無錫 214122

在對傳統特征選擇算法進行研究的基礎上,提出了一種基于雙模糊信息的特征選擇算法(feature selection algorithm based on doubly fuzziness information,FSA-DFI)。第一種模糊體現在對最小學習機(least learning machine,LLM)進行模糊化后得到模糊最小學習機(fuzzy least learning machine,FUZZYLLM)中;另一種模糊則是在基于貢獻率模糊補充這一方法中體現的,其中貢獻率高的特征才可能被選入最終的特征子集。算法FSA-DFI是將FUZZY-LLM和基于貢獻率的模糊補充方法結合得到的。實驗表明,和其他算法相比,所提特征選擇算法FSA-DFI能得到更好的分類準確率、更好的降維效果以及更快的學習速度。

特征選擇;雙模糊;最小學習機;模糊隸屬度;模糊補充

1 引言

大數據的興起需要更多性能優良的機器學習算法和特征選擇新方法。特征選擇的目標是為了找到具有代表性的特征子集,能表示出整個數據域的特性。在一個典型的特征選擇方法中,包括產生候選子集、評估子集、終止選擇以及驗證子集是否有效這幾步。

對特征選擇算法的研究最早可以追溯到20世紀60年代,當時的研究領域主要是在統計學和信號處理方向,涉及到的特征也很少。90年代以來,對大規模數據的預處理問題不斷涌現,原有的特征選擇算法已不能滿足需求,許多學者開始研究新算法?;诨バ畔⒌奶卣鬟x擇(mutual information-based feature selection,MIFS)算法[1]是由Battiti給出的一種考慮特征之間相關性的方法,此種方法需要預先指定與特征冗余程度有關的參數?;谧钚∪哂嘧畲笙嚓P(minimum redundancy maximum relevance,mRMR)算法[2],使用互信息衡量特征的相關性和冗余度,并使用信息差和信息熵兩個代價函數來尋找特征子集,但是計算速度比較慢,冗余度和相關性評價方法單一,也不能根據用戶需求設置特征維度?;跅l件互信息(conditional mutual information,CMI)算法[3],融入聚類思想,其在特征選擇過程中一直保持特征互信息不變。Fleuret提出基于條件互信息最大化選擇(conditional mutual information maximization,CMIM)算法[4],采取一種變通的方式,使用單個已選特征代替整個已選子集以估算條件互信息。另外還有雙方聯合信息(joint mutual information,JMI)方法[5]、雙輸入對稱相關(double input symmetrical relevance,DISR)方法[6]、條件最大熵特征提?。╟onditional infomax feature extraction,CIFE)[7]以 及 ICAP(interaction capping)[7]方法等可以用來進行特征選擇。然而,上述算法都是在全局范圍內對數據進行操控,并且難以兼顧泛化性能、學習效率和降維性能。

近年來,有關人工神經網絡的研究發展迅速,而在其實際應用中,大部分的神經網絡模型是基于BP神經網絡及其變化形式。BP算法雖然有神經網絡的普遍優點,但存在如收斂速度慢、易陷入局部最優等問題[8]。針對這些問題,Wang等人通過揭示單層前向神經網絡(single-layer feedforward neural network,SLFN)的極限學習機(extreme learning machine,ELM)[9]以及中心化的嶺回歸之間的關系,提出了SLFN的最小學習機(least learning machine,LLM)理論[10]。與BP算法相比,LLM算法具有較高的學習效率和較強的泛化性能,也適用于求解大規模樣本問題。然而,在實際應用中發現一些輸入樣本并不能被準確地分配到相應的類別[11],因此LLM算法仍然存在一些局限性。對LLM引入模糊隸屬度,從而得到模糊最小學習機FUZZY-LLM的概念,使得不同的輸入樣本會對輸出結果的學習產生不同的影響。

為了彌補傳統特征選擇算法難以兼顧泛化性能、學習效率和高辨識能力特征子集獲取的不足,同時改進LLM算法存在的一些局限性,本文提出了一種新算法——基于雙模糊信息的特征選擇算法(feature selection algorithm based on doubly fuzziness information,FSA-DFI),其雙模糊具體體現在FUZZY-LLM算法以及基于貢獻率的模糊補充方法中。具體來說,首先將FUZZY-LLM作為一種訓練樣本方法運用于每個特征對其進行分類,此時即可得到第一種模糊信息;然后使用一種新的模糊隸屬度函數將其映射到模糊子空間,即可得到每個特征對應的模糊隸屬度集;接著利用模糊隸屬度集和基于貢獻率的模糊補充方法可得到第二種模糊信息,用這種模糊信息指導特征選擇過程的進行,將貢獻率高的特征加入最終的特征子集。

2 LLM與FUZZY-LLM

2.1 LLM

假定已有構造好的L個無限可微的核函數g(xi,θ1),g(xi,θ2),…,g(xi,θL),L表示隱含層節點個數,其中θ1,θ2,…,θL表示核的L個不同的參數向量,例如ELM中的wi,bi。關于樣本集D={xi,yi,i=1,2,…,N}中輸入、輸出樣本的逼近問題,可用下述的嶺回歸實現:

式中,C為正則化參數,令H=[h1,h2,…,hN]T。其中,hi=[g(xi,θ1),g(xi,θ2),…,g(xi,θL)],T=[t1,t2,…,tN]T。

根據文獻[12]的數據中心化思想,式(1)對應的嶺回歸還可等價于下述中心化嶺回歸問題的解。即令,其中IN×N是對角元素值為1,其余元素為0的N×N單位矩陣,1∈RN為一個所有元素為實數1的列向量,可以看出LT=L。因此,式(1)的解為:

當C非常大時,β退化為:

其中,(LH)?為LH的偽逆(Moore-Penrose generalized inverse)。

LLM算法實現簡單且學習效率非常高,能以較強的泛化能力實現函數逼近,也適用于求解大規模樣本問題。LLM算法還可應用于回歸問題及深度學習領域[13-14]。

2.2 FUZZY-LLM

在分類問題中,有些訓練樣本比其他樣本更重要,重要的訓練樣本應該被正確地分類,而那些被噪聲破壞的樣本意義不大,可以被丟棄。換句話說,存在一個模糊隸屬度si(0<si≤1)和每個訓練樣本xi有關。在分類問題中,模糊隸屬度si可以看成是相應的訓練樣本對某一類的重要程度。選擇合適的模糊隸屬度也是比較容易的。首先,選擇σ>0作為模糊隸屬度較低的邊界;其次,定義時間為主要屬性,使得模糊隸屬度si成為時間ti的函數:

其中,t1≤t2≤…≤tN是樣本到達系統的時間。這里假設最后一個樣本xN最重要,令sN=f(tN)=1,第一個樣本x1最不重要,使得s1=f(t1)=σ。若要使得模糊隸屬度與時間成線性關系,可以令

再應用邊界條件得到:

若要使得模糊隸屬度為時間的二次函數,可以令

再應用邊界條件可得:

因此,對LLM進行模糊化后得到FUZZY-LLM。

考慮一個帶有類標及模糊隸屬度的訓練樣本集合D={xi,yi,si,i=1,2,…,N},yi∈{+1,-1},yi表示類標,其中每個樣本,模糊隸屬度σ≤si≤1,σ表示一個大于0的較小值。前面提到,模糊隸屬度si是相應的訓練樣本對某一類的重要程度,而參數是對錯誤的一個衡量,那么式子就是對不同權重錯誤的衡量。關于樣本集D中輸入、輸出樣本的逼近問題,可用下述的嶺回歸實現:

基于KKT理論,訓練模糊LLM等價于解決下述對偶最優化問題:

使用KKT相應的最佳性條件如下:

將式(11)和式(12)放入式(13)中替換,等式可以寫成:

其中,T=[t1,t2,…,tN]T;模糊矩陣為:

因此,不同模糊矩陣的輸入樣本點會對輸出權重β的學習產生不同的影響。根據文獻[15],當訓練樣本個數較小時,FUZZY-LLM分類器的決策函數表達如下:

當訓練樣本個數較大時,對應的決策函數為:

對于二分類問題,FUZZY-LLM只有一個輸出節點且最終的決策值是。針對多分類問題,可以使用一對余方法(one versus rest,OVR)[16],訓練樣本的預測類標就是有最高決策值的輸出節點的序列數:

2.3 FUZZY-LLM實驗研究

用UCI(http://archive.ics.uci.edu/ml/)中的7個數據集Wine、Cleveland、Ionosphere、Dermatology、Wdbc、Glass、Sonar進行實驗,觀察LLM和FUZZY-LLM算法性能的表現差異。在LLM、FUZZY-LLM中使用的激勵函數形式是sigmoid型,隱含節點數為20,C為220,FUZZY-LLM中σ設為0.1。表1是兩種算法測試準確率和訓練時間的比較??梢钥闯?,LLM和FUZZY-LLM的訓練速度都很快,FUZZY-LLM的學習性能并不比LLM差。

在本文算法的雙模糊信息中,將模糊隸屬度的概念引入到LLM中即可得到FUZZY-LLM算法,那么使用該算法對輸入樣本進行訓練即可得到第一種模糊信息。由于FUZZY-LLM學習性能很好,本文用這種新算法作為一種訓練方法,即將這種方法用于每個特征的訓練樣本對其分類,得到所有分類器的決策值,用于后文將要介紹的模糊隸屬度函數的求解。

Table 1 Performance comparison of LLM and FUZZY-LLM表1LLM和FUZZY-LLM性能比較

3 特征選擇

本章主要介紹本文所提出的第二種模糊,即使用基于貢獻率的模糊補充方法來進行特征選擇。首先介紹一種求樣本模糊隸屬度的新方法,通過該方法進而可以得到每個特征的模糊隸屬度集;接著利用模糊隸屬度集和基于貢獻率的模糊補充方法可得到第二種模糊信息,用其可以指導特征選擇過程的進行,以得到最佳特征子集。

3.1 模糊隸屬度集

D中的訓練樣本根據類標排列如下:

對于有M類的樣本集,用FUZZY-LLM方法對每個特征單獨訓練以獲得每個樣本對所屬類的模糊隸屬度。但是模糊隸屬度不僅僅是由所屬類的決策函數值決定,還和其他分類器的輸出值有關。用xi,j表示樣本xi的第j個特征,i=1,2,…,N。Ak(xi,j)∈[0,1]表示樣本xi,j對所屬第k類的模糊隸屬度,fk(xi,j)表示由xi,j訓練的第k個分類器的決策值,MXi,j,k表示由剩下的(K-1)個分類器獲得的最大決策值:

則模糊隸屬度函數中的自變量Fk(xi,j)表示如下:

模糊隸屬度函數Ak(xi,j)的表達式可以計算如下:

(1)當fk(xi,j)>MXi,j,k時,表明樣本對所在類的模糊隸屬度比較高,Ak(xi,j)∈[0.5,1]。

(2)當fk(xi,j)<MXi,j,k時,表明樣本對所在類的模糊隸屬度比較低,Ak(xi,j)∈[0,0.5]。

(3)當fk(xi,j)=MXi,j,k或MXi,j,k=1時,模糊隸屬度為0.5,表明樣本的分類情況不確定。另外,λ為可調參數,其對樣本所屬類別的模糊隸屬度有較大影響。

現在將第k類中樣本的模糊隸屬度用一個集合表示,如式(23)所示:

其中,ci表示樣本xi,j所屬類的類標。S(j)還可用下式定義:

其中,As(xi,j)表示xi,j對模糊集S的隸屬程度。

為了客觀地描述上述概念,圖1描繪了第j個特征的模糊隸屬度集S(j)與訓練樣本分布之間的關系。從圖中可以看出,大部分樣本都有較高的模糊隸屬度(超過0.5),表明只考慮單個特征j時,能夠很好地將這些樣本區分開。而小部分樣本有比較低的模糊隸屬度(小于0.5),表明特征j并不能將它們正確區分開。S(j)關注的是與每個樣本有關的局部特性。

模糊隸屬度集S(j)的基數就是模糊隸屬度集中元素累加之和,表示如下:

Fig.1 Relationship betweenS(j)and distribution of training patterns圖1 S(j)與訓練樣本分布之間的關系

基數值|S(j)|主要是用來直觀地評判一個特征的分類能力。若S(j)中絕大部分樣本As(xi,j)的值都接近于1,則|S(j)|的值也比較大,就可以得出這一特征中訓練樣本的分類是比較正確的,由此可推出此特征的分類性能相對較高。而若|S(j)|的值比較低,也可說明其中很多樣本都被分錯,則此特征的分類性能較差?;鶖祙S(j)|注重于對特征分類能力的整體評判。

3.2 基于貢獻率的模糊補充方法

3.2.1 模糊域中相關定義

定義1兩個模糊隸屬度集合S(j)和S(q)的并集可以用S-norm[17]來定義,這里采用S3(A,B)=max(A,B)形式如下(http://www.nicodubois.com/bois5.2.htm):

定義2(S(j)|-|S(q))兩個特征模糊隸屬度集合的差值定義如下[18]:

定義3(G(t))讓表示被選上的t個特征的集合,G(t)表示包含在F(t)中所有特征的模糊隸屬度集合的并集,其提供了一種近似方法去評估在第t次迭代中已選特征所獲得的數據覆蓋的質量:

定義4(ES(zlt))若是在第t次迭代中的一個候選特征。表示特征和G(t-1)有關的額外貢獻,是由提供的隸屬度的剩余部分,G(t-1)表示在迭代中累積的并集。候選特征的額外貢獻可用下式表達:

3.2.2 基于貢獻率的模糊補充方法描述

在已選擇第一個特征后,進行如下算法1過程:

(2)選擇特征判定條件:

基于貢獻率的模糊補充特征方法能夠促進特征之間的合作,確保新加入進來的特征具有補充意義。換句話說,新加入進來的特征能夠為已選特征子集帶來更高的模糊隸屬度,而不是被之前已經選擇出來的特征所完全覆蓋。

3.3 FSA-DFI算法過程描述

本文提出了一種基于雙模糊信息的特征選擇新算法FSA-DFI。首先將FUZZY-LLM作為一種訓練樣本方法運用于每個特征對其進行分類得到第一種模糊信息;然后使用一種新的模糊隸屬度函數得到每個特征對應的模糊隸屬度集,最后使用模糊隸屬度集和基于貢獻率的模糊補充方法得到第二種模糊信息,用這種模糊信息指導特征選擇過程的進行以得到最佳特征子集。若初始特征集合,n表示特征總數。本文算法步驟描述如下:

(1)初始化,定義初始模糊隸屬度并集G(0)=?,初始已選特征子集F(0)=?,設定閾值E,設定可調參數λ。

(2)計算特征的模糊隸屬度集,根據前述3.1節的式(20)~(24),計算特征集fs中每個特征的模糊隸屬度集合S(zj),j=1,2,…,n。

(3)選擇第一個特征,計算所有特征的模糊隸屬度集基數,選擇使得基數最大的特征:

(4)進行3.2.2小節中算法1的過程。

(5)輸出最后被選擇出來的特征集合。

3.4 FSA-DFI算法結束條件

將FSA-DFI算法應用在Wine數據集上,觀察隨著特征數目變化,分類精度和貢獻率的變化情況。這里數據集劃分為訓練和測試部分(70%,30%),產生的特征子集通過KNN1分類器進行評估,閾值E設為0.1%。圖2展示了被選擇特征數目相對應的分類精度變化和貢獻率的變化。貢獻率一開始呈指數下降,而分類精度呈上升趨勢后趨于穩定。閾值E作為算法結束條件,獲得了9個特征,分類精度達到穩定值98.11%。

Fig.2 Evolution of contribution rateand classification rate versus number of selected features圖2 被選擇特征數目相對應的分類精度變化和貢獻率的變化

4 實驗研究與結果分析

4.1 實驗數據集及實驗平臺簡介

本文采用9個來自UCI的真實數據集進行實驗,如表2所示。為避免結果的偶然性,對數據集隨機抽取其中的70%作為訓練樣本,剩下的30%作為測試樣本并進行10重交叉驗證。特征選擇結束后得到的特征子集使用KNN1分類器對其進行測試,得到最終的實驗結果。

Table 2 List of datasets表2 數據集列表

實驗平臺:所有數據集在Intel Core i3-3240×2 CPU,主頻為3.4 GHz,內存為4 GB,編程環境為Matlab2013a上進行仿真實驗。

4.2 參數設置

(1)經過實驗發現,式(22)中的參數λ在{1.0,1.5,2.0,2.5,3.0,3.5}中取值。這里選取3個數據集(Iris、Vehicle、Cleveland)觀察λ對本文算法FSA-DFI泛化性能的影響,如圖3所示,可發現在這3個數據集中,該參數是比較敏感的。

(2)算法中的閾值E從{0.1,0.2,…,1.0}中選擇。E的值越小,表明選擇的特征數目越多,降維程度越低,但能獲得更高的測試準確率,反之亦然。

(3)FUZZY-LLM算法中正則參數C取值為220,隱含層節點數L取為20,算法最常用的激勵函數形式為sigmoid型。

Fig.3 Effect of parameterλon accuracy of FSA-DFI algorithm圖3 參數λ對FSA-DFI算法準確率的影響

4.3 評價指標

實驗主要以測試準確率、降維程度(DR)和特征選擇時間作為主要評價指標。其中,測試準確率是由10次隨機劃分所得準確率求均值得到,降維程度計算如下:

4.4 算法性能比較分析

本文的對比實驗分為兩部分:第一部分9組實驗是對不同特征選擇方法的泛化性能進行比較分析,與FSA-DFI算法進行比較的有CMIM[4]、JMI[5]、DISR[6]、CIFE[7]、ICAP[7]、MIFS[1]、CMI[3]、mRMR[2]算法,實驗結果如表3所示。為方便比較,使得CMIM、JMI、DISR、CIFE、ICAP、MIFS、CMI和mRMR這幾種算法最終選擇的特征數目和本文算法FSA-DFI相同,即降維程度相同。表3中第二列是數據集在不同特征選擇算法中所選擇的特征數目。這些算法運行效率都很高,運行時間幾乎為0,不進行比較。

第二部分9組實驗是在本文的特征選擇算法中采用不同訓練方法進行比較的結果,與FUZZY-LLM方法進行比較的是 SVM[19]、LS-SVM[20]、FSVM[21]和LLM。其中,SVM、LS-SVM和FSVM的核函數是高斯RBF形式,如式(34)所示:

Table 3 Evaluation of test accuracy表3 測試準確率對比

SVM、LS-SVM、FSVM實驗中正則參數C設為220,σ為1,參數λ值同FUZZY-LLM;FSVM中模糊隸屬度si的計算同FUZZY-LLM,FSVM中SMO(sequential minimal optimization)算法的參數TolKKT為0.001,MaxIter為 15 000,KKTViolationLevel為 0,KernelCacheLimit為5 000。LLM方法中所有參數同FUZZY-LLM。實驗結果如表4~表6所示,最優結果都用粗體標出。

從表3中可以看出,本文所提出的FSA-DFI算法泛化性能很高,其中在 Wdbc、Wine、Vehicle、Cleveland、Glass這5個數據集上具有最高的測試準確率,在其他幾個數據集上也具有不錯的性能。

從表4~表6中可以看出,本文提出的訓練方法FUZZY-LLM 在 Heart、Wine、Cleveland、Ionosphere、Wdbc和Glass這6個數據集中都具有很高的準確率,而且在Cleveland和Glass這兩個數據集中,本文算法的準確率要遠高于SVM及其延伸算法。另外,在Heart、Wine、Iris、Cleveland、Ionosphere、Wdbc、Vehicle和Glass這8個數據集中,本文算法時間花費很少,可見其學習效率非常高,同時在這些數據集中也能保持不錯的降維效果。同FUZZY-LLM相比,SVM算法通過犧牲學習效率以換取較高的測試準確率;LS-SVM算法也是通過犧牲準確率以換取較高的降維性能;而FSVM和LLM的總體性能也不如FUZZYLLM。在大規模數據集Wdbc、Vehicle和Segment中,相比于其他算法,采用FUZZY-LLM這種訓練方法的效率依然很高,可見該算法可以很好地解決大規模數據集的分類問題。總之,本文算法既能得到很好的泛化能力,又能獲得不錯的降維效果,同時還具有非常高的學習效率,三者兼顧,還可以用于解決大規模數據集的分類問題。

Table 4 Comparison results of different training methods in Iris、Wine and Glass datasets表4 在Iris、Wine和Glass數據集中采用不同訓練樣本方法的比較結果

Table 6 Comparison results of different training methods in Wdbc、Vehicle and Segment datasets表6 在Wdbc、Vehicle和Segment數據集中采用不同訓練樣本方法的比較結果

5 實際問題實驗探究

本文算法FSA-DFI將在4個真實存在的高維生物醫學數據集上進行測試,如表7所示。其中,Leukemia和Colon數據集取自于http://datam.i2r.a-star.edu.sg/datasets/krbd/index.html,SRBCT和DLBCL數據集取自于http://www.gems-system.org/,這些數據集都是基因表達數據。

Table 7 List of high dimensional datasets表7 高維數據集列表

Colon數據集的樣品是患者體內取出后20 min內在液氮中快速冷凍的結腸腺癌樣品,其包括22個正常(標為“positive”)和40個腫瘤樣品(標為“negative”),每個樣品有 2 000 個基因;Small,round blue cell tumors(SRBCT)of childhood,小圓形藍色腫瘤數據集有83個樣品,每個樣品有2 308個基因,分為EWS、RMS、BL、NB這4類;Diffuse large b-cell lymphomas(DLBCL)and follicular lymphomas,彌漫性大b細胞淋巴瘤和濾泡性淋巴瘤有72個樣品,每個樣品有5 469個基因,分為DLBCL和FL這兩類;Leukemia數據集取自于Golub報道的白血病患者樣品的集合,數據集由72個樣品組成,包含對應于來自骨髓和外周血的急性淋巴母細胞性白血?。ˋLL)的25個樣品和急性髓細胞性白血病(AML)的47個樣品,每個樣品測量超過7 129個基因。

Colon、SRBCT、DLBCL和Leukemia數據集經過算法FSA-DFI測試后選擇出來的特征數目依次是8、12、7、3。從表8可知,與傳統特征選擇方法相比,本文算法FSA-DFI在高維數據集中的分類精度依然很高。從圖4和圖5可得,與現存的其他分類方法相比,本文所提出的基于分類方法FUZZY-LLM所進行的特征選擇算法在應用到實際的生物醫學數據集問題中依然能夠獲得很高的泛化性能和學習效率。另外,基于這幾種分類方法進行特征選擇后得到的降維程度都接近100%,這里不予表示。FSA-DFI算法應用在Colon、SRBCT、DLBCL和Leukemia數據集中的降維度分別為99.59%、99.47%、99.87%、99.96%。因而可得,本文所提出的基于分類方法FUZZY-LLM所進行的特征選擇算法FSA-DFI在應用到實際的高維生物醫學數據集問題中依然能夠兼顧泛化性能、降維程度以及學習效率。

6 結束語

本文提出了一種基于雙模糊信息的特征選擇新算法FSA-DFI,該算法能夠在獲取高辨識能力特征子集的同時獲得很好的泛化性能,最突出的特點就是學習效率高,甚至在許多高維數據集中能獲得比較優良的性能,因此可以很好地解決高維數據集、大規模數據集的分類問題。該算法的雙模糊具體體現在FUZZY-LLM算法以及基于貢獻率的模糊補充方法中。具體來說,首先將FUZZY-LLM作為一種訓練樣本方法運用于每個特征對其進行分類,此時即可得到第一種模糊信息;然后使用一種新的模糊隸屬度函數得到每個特征對應的模糊隸屬度集,第二種模糊信息是從模糊隸屬度集和基于貢獻率的模糊補充方法中得到的,用其可以指導特征選擇過程的進行,以得到最佳特征子集,這種方式加強了特征間的協作關系,從而得到具有最小冗余最大相關性的特征子集。

Table 8 Comparison results of different feature selection methods in Colon,SRBCT,DLBCLand Leukemia datasets表8 在Colon、SRBCT、DLBCL和Leukemia數據集中應用不同特征選擇方法的比較結果

Fig.4 Comparison of test accuracy results using different classification methods in Colon,SRBCT,DLBCL and Leukemia datasets圖4 在Colon、SRBCT、DLBCL和Leukemia數據集中采用不同分類方法測試準確率的比較

Fig.5 Comparison of feature selection time using different classification methods in Colon,SRBCT,DLBCL and Leukemia datasets圖5 在Colon、SRBCT、DLBCL和Leukemia數據集中采用不同分類方法特征選擇時間的比較

[1]Battiti R.Using mutual information for selecting features in supervised neural net learning[J].IEEE Transactions on Neural Networks,1994,5(4):537-550.

[2]Zhang Ning,Zhou You,Huang Tao,et al.Discriminating between lysine sumoylation and lysine acetylation using mRMR feature selection and analysis[J].PLOS One,2014,9(9):e107464.

[3]Sotoca J M,Pla F.Supervised feature selection by clustering using conditional mutual information-based distances[J].Pattern Recognition,2010,43(6):2068-2081.

[4]Fleuret F.Fast binary feature selection with conditional mutual information[J].Journal of Machine Learning Research,2004,5(3):1531-1555.

[5]Kerroum M A,Hammouch A,Aboutajdine D.Textural feature selection by joint mutual information based on Gaussian mixture model for multispectral image classification[J].Pattern Recognition Letters,2010,31(10):1168-1174.

[6]Bennasar M,Hicks Y,Setchi R.Feature selection using joint mutual information maximisation[J].Expert Systems with Applications,2015,42(22):8520-8532.

[7]Brown G,Pocock A,Zhao Mingjie,et al.Conditional likelihood maximisation:a unifying framework for information theoretic feature selection[J].Journal of Machine Learning Research,2012,13(1):27-66.

[8]Jing Guolin,Du Wenting,Guo Yingying.Studies on prediction of separation percent in electrodialysis process via BP neural networks and improved BP algorithms[J].Desalination,2012,291(14):78-93.

[9]Huang Guangbin,Zhou Hongming,Ding Xiaojian,et al.Extreme learning machine for regression and multiclass classification[J].IEEE Transactions on Systems,Man&Cybernetics:Part B Cybernetics,2012,42(2):513-529.

[10]Wang Shitong,Chung F L.On least learning machine[J].Journal of Jiangnan University:Natural Science Edition,2010,9(5):505-510.

[11]Zhang W B,Ji H B.Fuzzy extreme learning machine for classification[J].Electronics Letters,2013,49(7):448-450.

[12]Zhang Changshui,Nie Feiping,Xiang Shiming.A general kernelization framework for learning algorithms based on kernel PCA[J].Neurocomputing,2010,73(4/6):959-967.

[13]Wang Shitong,Chung F L,Wu Jun,et al.Least learning machine and its experimental studies on regression capability[J].Applied Soft Computing,2014,21(8):677-684.

[14]Wang Shitong,Jiang Yizhang,Chung F L,et al.Feedforward kernel neural networks,generalized least learning machine,and its deep learning with application to image classification[J].Applied Soft Computing,2015,37(C):125-141.

[15]Huang Guangbin,Zhu Qinyu,Siew C K.Extreme learning machine:theory and applications[J].Neurocomputing,2006,70(1/3):489-501.

[16]Student S,Fujarewicz K.Stable feature selection and classification algorithms for multiclass microarray data[J].Biology Direct,2012,7(1):33.

[17]Azadeh A,Aryaee M,Zarrin M,et al.A novel performance measurement approach based on trust context using fuzzy T-norm and S-norm operators:the case study of energy consumption[J].Energy Exploration&Exploitation,2016,34(4):561-585.

[18]Dereli T,Baykasoglu A,Altun K,et al.Industrial applications of type-2 fuzzy sets and systems:a concise review[J].Computers in Industry,2011,62(2):125-137.

[19]Chang C C,Lin C J.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):389-396.

[20]Suykens J A K,Gestel T V,Brabanter J D,et al.Least squares support vector machines[J].Euphytica,2002,2(2):1599-1604.

[21]Lin Chunfu,Wang Shengde.Fuzzy support vector machines[J].IEEE Transactions on Neural Networks,2002,13(2):464-471.

附中文參考文獻:

[10]王士同,鐘富禮.最小學習機[J].江南大學學報:自然科學版,2010,9(5):505-510.

Feature SelectionAlgorithm Based on Doubly Fuzziness Information*

LI Sushu+,WANG Shitong,LI Tao

School of Digital Media,Jiangnan University,Wuxi,Jiangsu 214122,China

2016-10,Accepted 2016-12.

Based on the traditional feature selection algorithms,this paper proposes a new feature selection algorithm based on doubly fuzziness information(FSA-DFI).One fuzziness is involved in the fuzzified version of least learning machine(LLM),i.e.,FUZZY-LLM,and the other fuzziness is involved in the contribution-rate based fuzzy complementary method in which the features with high contribution rates may be finally selected.The proposed feature selection algorithm is built on the combination of FUZZY-LLM and the contribution-rate based fuzzy complementary method.Experiments indicate that the proposed feature selection algorithm has better classification accuracy,better dimension reduction and faster learning speed,in contrast to other comparative algorithms.

feature selection;doubly fuzziness;least learning machine;fuzzy membership degree;fuzzy complementary

+Corresponding author:E-mail:lss85318977@163.com

10.3778/j.issn.1673-9418.1610058

*The National Natural Science Foundation of China under Grant No.61170122(國家自然科學基金).

CNKI網絡優先出版:2017-01-03,http://www.cnki.net/kcms/detail/11.5602.TP.20170103.1028.002.html

LI Sushu,WANG Shitong,LI Tao.Feature selection algorithm based on doubly fuzziness information.Journal of Frontiers of Computer Science and Technology,2017,11(12):1993-2003.

A

TP181

LI Sushu was born in 1993.She is an M.S.candidate at School of Digital Media,Jiangnan University.Her research interests include artificial intelligence and pattern recognition,etc.

李素姝(1993—),女,江蘇南通人,江南大學數字媒體技術學院碩士研究生,主要研究領域為人工智能,模式識別。

WANG Shitong was born in 1964.He is a professor and Ph.D.supervisor at School of Digital Media,Jiangnan University,and the member of CCF.His research interests include artificial intelligence and pattern recognition,etc.

王士同(1964—),男,江蘇揚州人,江南大學數字媒體技術學院教授、博士生導師,CCF會員,主要研究領域為人工智能,模式識別等。

LI Tao was born in 1990.He is an M.S.candidate at School of Digital Media,Jiangnan University.His research interests include artificial intelligence and pattern recognition,etc.

李滔(1990—),男,四川綿陽人,江南大學數字媒體技術學院碩士研究生,主要研究領域為人工智能,模式識別等。

猜你喜歡
分類特征方法
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产午夜福利片在线观看| 欧美在线综合视频| 久久精品亚洲专区| 日本不卡在线视频| 天天综合网亚洲网站| 欧美精品啪啪一区二区三区| 欧美色亚洲| 国产成人成人一区二区| 丝袜亚洲综合| 亚欧乱色视频网站大全| 青青热久麻豆精品视频在线观看| 久久综合国产乱子免费| 国产精品色婷婷在线观看| 日本福利视频网站| 少妇被粗大的猛烈进出免费视频| 亚洲无线一二三四区男男| 久久久成年黄色视频| 国产新AV天堂| 永久毛片在线播| 五月激激激综合网色播免费| 精品视频免费在线| 久久久久夜色精品波多野结衣| AV网站中文| 欧美天天干| 久久婷婷六月| 91成人在线观看| a欧美在线| 农村乱人伦一区二区| 91人妻在线视频| 亚洲国产系列| 五月婷婷精品| 一级成人a毛片免费播放| 国产综合无码一区二区色蜜蜜| 亚洲国产精品国自产拍A| 99在线视频免费| 久久久久青草大香线综合精品| 全部毛片免费看| 亚洲视频影院| 亚洲人成人无码www| 嫩草在线视频| 久久不卡精品| 黄色a一级视频| 欲色天天综合网| 首页亚洲国产丝袜长腿综合| 黄色网站在线观看无码| 国产精品成人免费视频99| 国产精品免费福利久久播放| 五月婷婷综合色| 国产成人精品免费av| 日本人又色又爽的视频| 亚洲无线一二三四区男男| 欧美一区二区精品久久久| 亚洲国产亚洲综合在线尤物| 大学生久久香蕉国产线观看| 国产va视频| 亚洲,国产,日韩,综合一区 | 日本91视频| 老司机久久99久久精品播放| 高清欧美性猛交XXXX黑人猛交| 五月激激激综合网色播免费| 91九色视频网| 久草热视频在线| 人妻精品久久久无码区色视| 日本在线视频免费| a级毛片网| 日韩精品毛片| 亚洲Av综合日韩精品久久久| 国产人免费人成免费视频| 欧美区国产区| 午夜精品久久久久久久2023| 一级毛片中文字幕| 一区二区三区毛片无码| 99热这里只有精品2| 久久精品中文无码资源站| 久久久久免费精品国产| 国产激情第一页| 国产成在线观看免费视频| www.狠狠| 精品无码一区二区在线观看| 99这里只有精品6| 五月婷婷导航| 国产区精品高清在线观看|