基于特征變權的動態模糊特征選擇算法

2018-05-28 03:43:22孟建瑤

計算機研究與發展 2018年5期

關鍵詞：特征

王玲孟建瑤

(北京科技大學自動化學院北京 100083) (工業過程知識自動化教育部重點實驗室(北京科技大學) 北京 100083) (lingwang@ustb.edu.cn)

特征選擇是數據挖掘和機器學習中的一個重要課題，它不僅有助于理解數據、節約計算成本、減少特征之間的相互影響，而且可以提高預測的準確率[1-2].特征選擇也稱特征子集選擇，是指從原始特征中選擇出一些最有效特征以降低數據集維度的過程[3].目前，特征選擇已經應用于多個領域，例如工業傳感器數據分析[4]、空氣質量分析[5]、健康數據分析[6]等等.

在一些現實的系統中，人們往往利用一些模糊語義將原始特征集轉化為模糊特征集,提高系統的可解釋性.然而，模糊化后的特征空間比原始的特征空間維度更高，為了減少系統模糊化后的復雜性，從模糊特征中選擇有價值的特征顯得更為重要.此外，實際應用往往是具有多特征的動態復雜系統，隨著時間的變化，特征的重要程度也在逐漸發生變化，例如一些重要的特征隨著時間的推移變得冗余，或者起初不重要的特征隨著時間的推移變得越來越重要.雖然國內外已經涌現了一系列特征選擇算法，例如過濾式特征選擇算法[7]、封裝式特征選擇算法[8]、嵌入式特征選擇算法[9]等用于提高學習算法的性能.但上述方法不能體現特征選擇的實時性，導致算法延遲和不連續，影響了可解釋性.因此，動態特征選擇算法應運而生.文獻[10]提出基于在線分類器的動態特征選擇算法，該算法選擇所有可以代表整體數據集信息的特征，但利用分類器評估所選特征的好壞，增加了計算負擔；文獻[11]提出基于貝葉斯分類器的封裝式動態特征選擇算法，該算法利用貪婪算法尋找最優的特征子集，增加了算法的時間復雜度和空間復雜度；文獻[12]介紹了4種新的特征質量檢測指標，然后用檢測指標和聚類算法動態地選擇有用的特征，但是聚類算法需要人為設置聚類個數，降低了算法的自適應性；文獻[13]提出基于K均值算法和遺傳算法的動態特征選擇算法，該算法分別利用遺傳算法和K均值算法確定目標函數和尋優范圍，但該算法得到的特征子集不是全局最優的.盡管如此，針對動態系統，如何自適應地進行模糊特征選擇仍然是一個挑戰性的課題.

本文主要有4個方面的貢獻:

1) 提出一種基于特征變權的動態模糊特征選擇算法，包括離線模糊特征選擇和在線模糊特征選擇2部分;

2) 通過計算每個模糊特征的權重，動態優化所選模糊特征子集，保證了特征選擇過程的平滑性和時效性;

3) 在特征變權的基礎上，離線模糊特征選擇利用后向選擇算法和模糊特征篩選指標獲得優化模糊特征子集，在線模糊特征選擇根據重要度不斷更新優化模糊特征子集;

4) 應用不同數據集的實驗結果表明：我們提出的動態模糊特征選擇算法在無需設置任何參數的情況下，提高了算法的自適應性和預測準確性.

1 相關工作

動態特征選擇算法的目的是在動態數據集中選擇出能夠實時刻畫主要特性的特征.關于動態特征選擇的研究有很多[14-18]，其中，一些動態特征選擇算法只能處理類別數據，例如文獻[14]提出基于粗糙集的動態特征選擇算法，以粗糙集為基礎，動態地計算特征的獨立性，從而進行特征選擇;文獻[15]提出基于鄰域粗糙集的動態特征選擇算法，鄰域粗糙集擺脫了粗糙集只能處理離散型數據的約束;文獻[16]提出基于信息粒度的動態特征選擇算法，利用非矩陣的信息粒度結構減少了算法時間和空間的消耗，提高了算法效率.然而，上述算法都是針對類別數據集，適用范圍較小.除此之外，研究者提出一些針對其他類型數據集的動態特征選擇算法;文獻[17]提出動態無監督特征選擇算法，該算法將特征選擇直接嵌入聚類算法中，利用聚類算法保存局部信息結構，幫助選擇具有辨識能力的特征，然而，該算法需要設置參數控制聚類算法目標函數的構建，導致算法自適應能力不佳;文獻[18]提出新的無監督動態特征選擇算法，該算法近似地保存數據，根據在近似數據上的回歸結果確定特征的重要程度，從而進行特征選擇.然而，該算法依賴回歸模型進行特征選擇，沒有獨立的特征評價指標，限制了算法的使用范圍.

針對模糊數據的特征選擇算法較少，文獻[19]提出基于最小-最大學習規則和擴展矩陣的模糊特征選擇算法，利用模糊化后的數據構建擴展矩陣，根據最小-最大學習規則衡量每個模糊特征包含重要信息的多少，從而獲得模糊特征選擇結果，但是此算法只適用于靜態數據集，不適用于動態系統中的模糊特征選擇;文獻[20]提出基于在線特征權重的動態模糊特征選擇算法，該算法計算每個模糊特征的權重，根據可分離判據，選擇有助于分類的模糊特征，然而該算法中需要設置分離閾值，降低了算法的自適應能力.

鑒于此，本文提出了基于特征變權的動態模糊特征選擇算法(dynamic fuzzy features selection based on variable weight, DFFS-VW).主要包括2個階段：

1) 離線模糊特征選擇.首先，利用滑動窗口分割模糊數據，在第1個滑動窗口中進行離線模糊特征選擇，計算每一個模糊輸入特征與輸出特征的互信息量；然后根據互信息量計算每一個模糊輸入特征的權重，并從大到小排序，計算相鄰模糊輸入特征的權重梯度和截斷點閾值進而獲得候選模糊特征子集，縮小了尋找最優模糊輸入特征子集的空間，提高了算法效率；在此基礎上，根據模糊特征篩選指標既考慮模糊特征子集的輸入特征與輸出特征之間的互信息量又兼顧模糊輸入特征之間的互信息量來篩選特征，并通過后向特征選擇算法得到離線的優化模糊特征子集，保證了所選模糊特征子集為全局最優.

2) 在線模糊特征選擇.在依次到來的滑動窗口中進行在線模糊特征選擇，綜合利用當前時刻滑動窗口中的候選模糊特征子集和前一個滑動窗口中的優化模糊特征子集，自適應地跟蹤輸入模糊特征權重的變化，得到當前滑動窗口中的優化模糊特征子集，提高了模型的解釋性并保證學習的平滑性和實效性；根據模糊輸入特征與初始化優化模糊特征子集之間的重要度獲取最終的優化模糊特征子集，同時考慮歷史特征選擇結果和當前數據分布，確保最終的優化模糊特征子集的優越性.在DFFS-VW算法中，輸出特征可以是類別標簽，也可以是連續數據，無論是離線模糊特征選擇，還是在線模糊特征選擇，都無需依賴分類器或者回歸模型，無需人為設置任何參數，提高了算法的自適應性.

2 相關定義

本文以滑動窗口分割模糊化數據為基礎，從模糊特征互信息量入手，建立起模糊輸入特征與輸出特征之間的聯系，進而實現動態模糊特征選擇.為了確定滑動窗口的大小，這里采用Hoeffding邊界檢測數據的分布.

定義1. Hoeffding邊界[21].對于取值范圍為R的特征，假設每個滑動窗口包含n條數據樣本，在置信程度是1-δ(δ一般取0.05)的條件下，Hoeffding邊界ε為

(1)

其中，R為特征的取值范圍：

R=(x1.max-x1.min,x2.max-x2,min,…,
xj,max-xj,min,…,xL,max-xL,max),

其中，xj,max是第j個變量的最大值，xj,min是第j個變量的最小值，L是數據集變量的個數.

隨著n的增加，Hoeffding邊界ε在變小，這表明當n足夠大，Hoeffding邊界ε將趨近于0.

根據Hoeffding邊界，樣本集的最小容量NH可以確定：

(2)

根據式(2)可知，Hoeffding邊界ε是獲得樣本集的最小容量NH的關鍵.假設相鄰滑動窗口Wp-1和Wp所包含的樣本集均值分別是μp-1和μp，在置信程度是1-δ的條件下，|μp-1-μp|≤2ε，則樣本集的最小容量NH的計算公式可以調整為

(3)

由于對數值數據進行模糊化處理不僅有助于提取高層次的含義，而且不需要對數據進行簡單地“硬”劃分，它被廣泛應用于智能系統中[19].通常的模糊化方法是根據經驗或者知識建立隸屬度函數.但是，在多數情況下，很難獲取所需要的信息或者專家知識.本文利用以前的研究基礎[22]對數據特征進行聚類實現特征模糊化.設第p(p≥0)個滑動窗口包含n條數據，L維輸入特征和一維輸出特征，可以表示為

(4)

(5)

(6)

(7)

為了度量模糊特征之間的相關性，有必要引入新的度量.

(8)

(9)

(10)

(11)

3 基于特征變權的動態模糊特征選擇算法(DFFS-VW)

3.1 DFFS-VW算法框架

為了提高模糊動態特征選擇的實效性和快速性，降低算法復雜性，發現各個模糊輸入特征權重的演化規律.本文提出了DFFS-VW算法，該算法的基本框架如圖1所示，首先利用滑動窗口W0,W1,…,Wp分割模糊數據，以第1個滑動窗口中的數據作為初始數據進行離線模糊特征選擇，在隨后依次到來的滑動窗口中進行在線模糊特征選擇.在離線模糊特征選擇中，計算每個模糊輸入特征的權重，根據權重得到候選模糊特征子集；結合后向特征選擇算法和模糊輸入特征篩選指標迭代地篩選候選模糊特征子集，每一步都忽略其中權重值最小的模糊特征，得到優化模糊特征子集.在在線模糊特性選擇中，根據當前滑動窗口中的數據獲取候選模糊特征子集，利用上一個滑動窗口的模糊優化特征子集與當前窗口的候選模糊特征子集的交集作為當前快照的初始優化模糊特征子集，計算其余的模糊輸入特征與初始優化模糊特征子集的重要度，若重要度大于0，將模糊輸入特征加入優化模糊特征子集.最后，根據各個模糊輸入特征的權重對模糊輸入特征進行演化分析.

3.2 滑動窗口的確定

在動態環境中，滑動窗口是一種被廣泛應用的技術.每個滑動窗口中包含著最新產生的樣本，并丟棄過去的樣本.目前主要有2種確定滑動窗口的方法：1)使用固定的窗口大小;2)根據衰減因子確定滑動窗口中丟棄的數據和保留下來的數據，利用新數據代替已丟棄的數據.這2種方法都需要人為設置參數，然而，這些參數都很敏感，不易確定.根據數據分布直接確定窗口大小，可以解決上述問題.Hoeffding邊界考慮了特征的變化范圍，不斷地調整滑動窗口包含的樣本個數n，使得通過滑動窗口中的數據求得的最小容量NH不大于實際滑動窗口樣本個數n，將n作為固定的滑動窗口大小.在動態特征選擇過程中，隨著信息不斷的采集輸入，滑動窗口的任務是以有效的方式管理輸入數據，存儲信息.相鄰滑動窗口記錄將被用來進行演化過程中特征之間的對等比較，獲取各個輸入模糊特征對輸出特征的權重演化規律.

Fig. 1 Framework of the DFFS-VW圖1 DFFS-VW框架

3.3 模糊特征權重

模糊特征權重是衡量模糊特征重要性的一種指標，在區間[0,1]中連續變化.模糊特征權重越接近1，代表該模糊特征越重要；越接近0，表示模糊特征重要性越低.模糊特征權重具有柔軟性和平滑性：柔軟性是指權重可以變小，但是不能完全丟棄，具有低模糊特征權重的特征仍然含有較少的信息；平滑性是指模糊特征權重在連續不斷地變化，因此，具有低模糊特征權重的特征在之后的學習中仍有可能變成重要的特征.利用模糊特征權重的這2個特性，對模糊特征進行動態特征選擇.本文根據互信息量計算每個模糊特征的權重:

(12)

(13)

當Yp是類標簽時，Yp的熵H(Yp)：

(14)

(15)

(16)

(17)

(18)

(19)

為此，我們將模糊輸入特征篩選指標FCI作為衡量動態模糊特征選擇的衡量標準.它不僅考慮模糊特征子集的輸入特征與輸出特征之間的互信息量，還考慮模糊輸入特征與模糊輸入特征之間的互信息量:

(20)

(21)

(22)

3.4 離線模糊特征選擇

第1個滑動窗口中的數據作為初始數據進行離線模糊特征選擇，主要分為2部分：1)根據輸入模糊特征和輸出特征的互信息量計算各個輸入模糊特征的權重，將模糊輸入特征根據權重由大到小排序，獲取候選模糊特征集；2)在候選模糊特征集中，根據模糊特征篩選指標同時考慮輸入模糊特征和輸出特征的互信息量與輸入模糊特征之間的互信息量，利用后向特征選擇和模糊輸入特征篩選指標得到與輸出特征相關性最大、冗余度最小的優化模糊特征子集.

算法1. 離線模糊特征選擇算法.

輸入：所有模糊特征；

輸出：最優模糊特征子集.

Step2.1. 分別計算各個模糊特征與輸出類別的互信息量.

3.5 在線模糊特征選擇

算法2. 在線模糊特征選擇算法.

輸入：前一個滑動窗口的聚類結果和當前滑動窗口的所有數據；

輸出：優化模糊特征子集.

(23)

Step5. 選擇具有最大重要度的模糊特征.選擇滿足下面條件的屬性：

(24)

3.6 DFFS-VW算法計算復雜度分析

在線模糊特征選擇獲取當前窗口的候選模糊特征集的過程與離線模糊特征選擇的相似，最壞情況下所需要的時間復雜度是O(m+m+m+m)；最好情況下所需要的時間復雜度是O(m+m+m+3)，在此基礎上，依次計算其余的模糊特征相對于候選模糊特征集的重要度，直到其重要度不大于0，獲得最終的優化模糊特征子集，最壞情況下，所需要的計算復雜度數O(m-3).綜上所述，該算法的復雜度是O(4m)，經化簡算法的最終復雜度是O(m).

4 實驗結果

4.1 實驗環境

本文將DFFS-VW算法與基于鄰域粗糙集的動態特征選擇算法(incremental feature selection based on fuzzy neighborhood rough set, IFSFNRS)[13]、基于貝葉斯分類器的封裝式動態特征選擇算法(wrapper feature selection algorithm with incremental Bayesian classifier, WFSIBC)[11]、動態無監督特征選擇算法(online unsupervised multi-view feature selection, OMVFS)[20]、改進的動態無監督特征選擇(feature selection on data streams, FSDS)[20]對比，選取1個人工合成數據集、UCI數據庫中的10個數據集[23]、2個分類數據流[24]和2個回歸數據流作為實驗數據進行分析，以測試DFFS-VW算法在無需設置任何參數的情況下，算法執行效率、自適應和預測準確性方面均得到提高.對于所有數據，各個維度均進行輸入特征模糊化處理，使得數據集中所有數據值均在[0,1]區間.所有實驗都在Inter?CPU 2.30 GHz工作臺上運行，利用matlab 2014.a軟件進行仿真.數據集的詳細信息如表1所示:

Table 1 Description of Datasets表1 數據集描述

4.2 評價指標

本文采用2種評價指標對算法的動態特征選擇效果進行評價:分類準確率(Acc)和平均絕對百分比誤差(MAPE).

(25)

其中，ak代表第k個類別中算法的分類結果和實際數據集分類情況相一致的數據個數，|C|是類別個數，n是數據集中包含的數據個數.

(26)

4.3 滑動窗口對特征選擇結果的影響測試

為了分析滑動窗口大小對DFFS-VW算法模糊特征選擇結果的影響，本文利用不同數據集形成大小各異的滑動窗口，以數據集70%作為訓練集，30%作為測試集，分析比較模糊特征選擇的性能.表2分別對比了CMAR(classification based on multiple association rules)分類器[25]、C4.5分類器[26]和DFFS-VW算法對不同大小滑動窗口的模糊特征選擇結果的分類性能，其中CMAR中的最小支持度設置為10%，最小置信度為70%，C4.5選取信息增益最大的作為劃分節點.從表2可以看出，本文所提方法自動確定窗口大小的分類性能優于人為定義窗口大小的分類性能.表3分別對比了BP神經網絡[27]、支持向量回歸(support vector regression, SVR)[28]和DFFS-VW算法對不同大小滑動窗口的模糊特征選擇結果的預測性能，其中BP神經網絡有1層隱含層，隱含層中包含10個節點.SVR的核函數為徑向基函數，不敏感系數為0.05，懲罰因子為10.從表3可以看出，本文所提出方法的預測結果優于人為定義窗口大小的預測結果.這是由于本文所提出的窗口大小確定方法根據Hoeffding邊界考慮了數據的分布情況，提高了分割后的模糊數據的分類性能和預測性能.

Tabel 2 The Comparison of the Classification Accuracy(Acc) for CMARC4.5 on Different Window Sizes表2 不同窗口大小的CMARC4.5分類性能(Acc)對比

DatasetTheSizeofWindow5%10%CMARC4．5CMARC4．5TheProposedMethodCMARC4．5SD0．8750．8810．8640．8750．9060．912BCH0．8830．8960．8740．8960．9470．958Glass0．9040．9120．8910．9010．9620．967Liver0．8920．8810．8740．8690．9520．948Wine0．9030．9210．8860．8970．9570．969Yeast0．9110．9160．8950．9030．9630．974SEA0．9210．9340．9040．9120．9830．989Weather0．8780．8960．8580．8690．9480．957Mean0．8960．9050．8810．8900．9520．959

Tabel 3 The Comparison of the Prediction Accuracy(MEAP) for BPSVR on Different Window Size表3 不同窗口大小的BPSVR預測性能(MEAP)對比

DatasetTheSizeofWindow5%10%CMARC4．5CMARC4．5TheProposedMethodCMARC4．5AirfoilSelf?Noise0．1940．1850．1850．1760．1410．042Concrete＿Data0．1490．1330．1370．1310．1160．053EnergyEfficiency0．2240．2160．2160．2440．1810．057RedWineQuality0．1740．1610．1680．1590．1240．053WhiteWineQuality0．1530．1420．1440．1360．1040．031BeijingPM2．5Data0．2540．2430．2410．2460．1730．026PPPTS0．2540．2490．2360．2190．1940．057Mean0．1970．1900．1900．1840．1480．043

4.4 特征選擇效果測試

為了充分驗證DFFS-VW算法的有效性，對比WFSIBC算法、IFSFNRS算法、OMVFS算法和FSDS算法在多個數據集下的特征選擇效果.圖2給出5種特征選擇算法的模糊特征選擇結果與原始模糊特征個數的對比結果.從圖2可以看出，除數據集SD，經過5種動態特征選擇算法后，所選模糊特征個數都比原始模糊特征個數少，算法DFFS-VW最為明顯.DFFS-VW算法所選的模糊特征個數均比其余4種算法的少，這是因為DFFS-VW算法根據模糊權重獲取候選模糊特征子集，同時考慮輸入模糊特征與輸出特征的互信息量與輸入模糊特征之間的互信息量得到最優模糊特征子集，使得DFFS-VW算法的特征選擇效果更加明顯.

Fig. 2 Fuzzy features comparison of different agorithms on different datasets圖2 模糊特征個數對比

表4給出了CMAR分類器和C4.5分類器對原始模糊特征集和3種動態特征選擇算法的所選模糊特征集的分類準確性的對比.從表4可以看出，除了SD數據集，DFFS-VW算法所選的模糊特征子集對于CMAR分類器的分類效果最好；經特征選擇后，C4.5分類器對于各個數據集的分類準確率均得到了提高，其中DFFS-VW算法所選的模糊特征子集提高得最明顯.

表5給出了BP神經網絡和支持向量回歸對原始模糊特征集和3種動態特征選擇算法的所選模糊特征集的預測精確性的對比.從表5可以看出，除SD數據集外，BP神經網絡對DFFS-VW算法所選的模糊特征子集的預測精確性最好；經模糊特征選擇后，支持向量回歸對于各個數據集的預測精確性均得到了提高，其中DFFS-VW算法所選的模糊特征子集提高得最明顯.

Tabel 4 The Comparison of the Classification Accuracy(Acc) 表4 CMARC4.5分類性能(Acc)對比

DatasetOriginalWFSIBCIFSFNRSDFFS?VWCMARC4．5CMARC4．5CMARC4．5CMARC4．5SD0．9060．9120．9060．9120．9060．9120．9060．912BCH0．9210．9250．9400．9450．9360．9380．9470．958Glass0．9320．9060．9510．9580．9450．9490．9620．967Liver0．9160．8960．9320．9330．9280．9310．9520．948Wine0．9250．9130．9390．9360．9380．9320．9570．969Yeast0．9150．9240．9430．9460．9280．9350．9630．974SEA0．9230．9090．9560．9610．9440．9250．9830．989Weather0．9190．9180．9450．9430．9360．9280．9480．957Mean0．9200．9130．9390．9420．9330．9310．9520．959

Tabel 5 The Comparison of the Prediction Accuracy (MEAP) 表5 BPSVR預測性能(MEAP)對比

DatasetOriginalOMVFSFSDSDFFS?VWCMARC4．5CMARC4．5CMARC4．5CMARC4．5AirfoilSelf?Noise0．2480．0750．1830．0550．2090．0620．1410．042Concrete＿Data0．2240．0940．1940．0420．2170．0510．1160．033EnergyEfficiency0．2350．0960．2040．0650．2180．0720．1810．057RedWineQuality0．2320．1040．1810．0670．2050．0690．1240．052WhiteWineQuality0．2060．0870．1920．0640．1860．0680．1040．031BeijingPM2．5Data0．3110．0760．2540．0540．2640．0650．1730．026PPPTS0．3410．1060．2720．0740．2950．0860．1940．057Mean0．2570．0920．2110．0610．2280．0680．1480．043

如圖3所示，本文采用不同的數據集對5種不同算法的運行時間進行了對比，可以看出，針對同一個數據集，DFFS-VW算法的運行時間最短.由于FSDS算法利用回歸模型提高所選模糊子集的預測正確率，在回歸模型尋參期間需要不斷迭代，時間復雜度大約為O(n3)；WFSIBC算法使用貪婪算法發現最優特征子集，而貪婪算法的時間復雜度是O(nlogn)，當數據量較大時，算法復雜度也會大幅度地增加；IFSFNRS算法以粗糙鄰域為基礎，在最壞情況下，需要對整個數據集進行重新特征選擇，時間復雜度不低于O(logn2)；OMVFS算法將特征選擇嵌入到聚類算法中，使得時間復雜度近似為O(knlnL|C|)，其中k是迭代至收斂的平均迭代次數，nl是屬于第l個聚類的樣本個數，L是輸入特征個數，|C|是聚類個數，由此可見OMVFS算法的時間復雜度也很大.DFFS-VW算法利用權重梯度選取候選模糊特征子集，減少了最優模糊特征子集的尋找范圍，從而減少了算法的運行時間，時間復雜度為O(m)，其中m是模糊特征個數.其中,DFFS-VW算法對SD數據集的運行時間最長，對Wine數據集的運行時間最短.從圖3可以得出，原始模糊特征個數越多，算法的運行時間越長.

Fig. 3 Comparision of the running time for feature selection with different algorithms on different datasets圖3 不同數據集上不同算法特征選擇運行時間的比較

4.5 模糊特征變權分析

Fig. 4 The variable weight of some fuzzy features on the dataset SEA圖4 數據集SEA部分模糊特征變權

Fig. 5 The effect on classification accuracy of ignoring some fuzzy features on dataset SEA圖5 數據集SEA忽略部分模糊特征前后分類準確率

Fig. 6 The effect on predicition accuracy of ignoring some fuzzy features on dataset PPPTS圖6 數據集PPPTS部分模糊特征權重的演化

Fig. 7 The effect on predicition accuracy of ignoring some fuzzy features on dataset PPPTS圖7 數據集PPPTS忽略部分模糊特征前后預測精確率對比

綜上所述，DFFS-VW算法無需人為設置參數，能夠自動得到最優模糊特征子集，具有良好的自適應性；利用互信息量計算特征之間的相關性，不僅考慮了特征之間的線性關系，還考慮了非線性關系，提高了特征選擇結果的分類準確看和預測精確率；考慮各個模糊特征的權重，得到候選模糊特征子集，并采取后向搜索的方式得到離線模糊特征選擇的優化模糊特征子集，減少了算法運行時間，提高了算法的效率；將當前窗口的候選模糊特征子集和歷史模糊特征選擇結果的交集作為當前窗口的初始優化模糊特征子集，根據模糊輸入特征相對于初始優化模糊特征子集的重要度，獲得最終的優化模糊特征子集.通過不同滑動窗口模糊特征權重的演化趨勢，發現模糊輸入特征對分類準確性或者預測精確性的影響.

5 總結

本文研究動態模糊特征選擇問題，無論是連續數據集，還是類別數據集，以輸入特征相對與輸出特征的權重作為衡量輸入特征相對于輸出特征之間的重要性，提出基于特征變權的動態模糊特征選擇算法.在離線模糊特征選擇中，首先根據特征權重，獲取候選模糊特征子集.然后，結合后向特征選擇方式和模糊特征篩選指標，篩選候選模糊特征子集得到優化模糊特征子集；在線模糊特征選擇中，以上一個滑動窗口的優化模糊特征子集與當前滑動窗口中的候選模糊特征集的交集為基礎，根據模糊輸入特征在模糊特征子集中的重要度，獲得當前窗口中的優化模糊特征子集.更進一步，我們分析了窗口之間模糊特征權重的變化，發現輸入模糊特征的演化關系和模糊輸入特征對分類準確性或者預測誤差的影響.實驗結果表明了本文所提動態模糊特征選擇算法的有效性.但目前的滑動窗口實質上仍然是在離線采集數據的基礎上反復學習獲得的，本文未來將研究隨著在線數據變化，自適應地確定滑動窗口大小，進一步提升動態模糊特征選擇算法的性能.

[1]Xiao Jin, Xiao Yi, Huang Anqiang, et al. Feature-selection-based dynamic transfer ensemble model for customer churn prediction[J]. Knowledge and Information Systems, 2015, 43(1): 29-51

[2]Zhang Xiangrong, He Yudi, Jiao Licheng, et al. Scaling cut criterion-based discriminant analysis for supervised dimension reduction[J]. Knowledge and Information Systems, 2015, 43(3): 633-655

[3]Guyon I, Elisseeff A. An introduction to variable and feature selection[J]. Journal of Machine Learning Research, 2003, 3(3): 1157-1182

[4]Li Dan, Zhou Yuxun, Hu Guoqiang, et al. Optimal sensor configuration and feature selection for AHU fault detection and diagnosis[J]. IEEE Trans on Industrial Informatics, 2016, 13(3): 1369-1380

[5]Siwek K, Osowski S. Data mining methods for prediction of air pollution[J]. International Journal of Applied Mathematics and Computer Science, 2016, 26(2): 467-478

[6]Soguero-Ruiz C, Hindberg K, Rojo-Alvarez J, et al. Support vector feature selection for early detection of anastomosis leakage from bag-of-words in electronic health records[J]. IEEE Journal Biomedical Health Informatics, 2014, 20(5): 1404-1415

[7]Zhao Peilin, Steven C, Jin Rong. Double updating online learning[J]. Journal of Machine Learning Research, 2011, 12(may): 1587-1615

[8]Kohavi R, John G H. Wrappers for feature subset selection[J]. Artificial Intelligence, 1997, 97(1/2): 273-324

[9]Zhou Yang, Jin Rong, Steven C. Exclusive lasso for multi-task feature selection[J]. Journal of Machine Learning Research, 2010, 9: 988-995

[10]Wang Jialei, Zhao Peilin, Steven C, et al. Online Feature selection and its applications[J]. IEEE Trans on Knowledge & Data Engineering, 2006, 26(3): 698-710

[11]Li Yang, Gu Xueping. Feature selection for transient stability assessment based on improved maximal relevance and minimal redundancy criterion[J]. Proceedings of the Chinese Society of Electrical Engineering, 2013, 33(34): 179-186 (in Chinese)

(李揚, 顧雪平. 基于改進最大相關最小冗余判據的暫態穩定評估特征選擇[J]. 中國電機工程學報, 2013, 33(34): 179-186)

[12]Naqvi S S, Browne W N, Hollitt C. Feature quality-based dynamic feature selection for improving salient object detection[J]. IEEE Trans on Image Processing, 2016, 25(9): 4298-4313

[13]Zhao Wei, Wang Yafei, Li Dan. A dynamic feature selection method based on combination of GA with K-means[C] //Proc of the Int Conf on Industrial Mechatronics and Automation. Piscataway, NJ: IEEE, 2010: 271-274

[14]Raza M S, Qamar U. An incremental dependency calculation technique for feature selection using rough sets[J]. Information Sciences, 2016, 343(12): 41-65

[15]Bilal I S, Keshav P D, Alamgir M H, et al. Diversification of fuzzy association rules to improve prediction accuracy[C] //Proc of the Int Conf on Fuzzy System. Piscataway, NJ: IEEE, 2010: 1-8

[16]Jing Yuege, Li Tianrui, Luo Chuan, et al. An incremental approach for attribute reduction based on knowledge granularity[J]. Knowledge-Based Systems, 2016, 104(7): 24-38

[17]Shao Weixiang, He Lifang, Lu Chunta, et al. Online unsupervised multi-view feature selection[C] //Proc of the 16th Int Conf on Data Mining. Piscataway, NJ: IEEE, 2016: 1203-1208

[18]Huang H, Yoo S, Kasiviswanathan S P. Unsupervised feature selection on data streams[C] //Proc of the 24th ACM Int Conf on Information and Knowledge Management.newyork. New York, ACM, 2015: 1031-104

[19]Li Yun, Wu Zhongfu. Fuzzy feature selection based on min-max learning rule and extension matrix[J]. Pattern Recognition, 2008, 41(1): 217-226

[20]Lughofer E. On-line incremental feature weighting in evolving fuzzy classifiers[J]. Fuzzy Sets & Systems, 2011, 163(1): 1-23

[21]Du Lei, Song Qinbao, Jia Xiaolin. Detecting concept drift: An information entropy based method using an adaptive sliding window[J]. Intelligent Data Analysis, 2014, 18(3): 337-364

[22]Wang Ling, Meng Jianyao. The dynamic clustering algorithm of Bayesian adaptive resonance theory based on local distribution[J]. Control and Decision, 2018, 33(3): 471-478 (in Chinese)

(王玲, 孟建瑤. 基于局部分布的貝葉斯自適應共振理論增量聚類算法[J]. 控制與決策, 2018, 33(3): 471-478)

[23]Comas D S, Meschino G J, Nowe A, et al. Discovering knowledge from data clustering using automatically-defined interval type-2 fuzzy predicates[J]. Expert Systems with Applications, 2016, 68(2): 136-150

[24]Ghazikhani A, Monsefi R, Yazdi H S. Online neural network model for non-stationary and imbalanced data stream classification[J]. International Journal of Machine Learning and Cybernetics, 2014, 5(1): 51-62

[25]Li Wermin, Han Jiawei, Pei Jian. CMAR: Accurate and efficient classification based on multiple class-association Rules[C] //Proc of 2001 IEEE Int Conf on Data Mining (ICDM). Piscataway, NJ: IEEE, 2001: 369-376

[26]Mu Yashuang, Liu Xiaodong, Yang Zhihao, et al. A parallel C4.5 decision tree algorithm based on MapReduce[J]. Concurrency and Computation, 2017, 29(6): 1-12

[27]Cui Yongfeng, Ma Xiangqian Li, Liu Zhijie. Application of improved BP neural network with correlation rules in network intrusion detection[J]. International Journal of Security and Its Applications, 2016, 10(4): 423-430

[28]Wang Lihuan, Guo Yonglong, Xin G. An asymmetric weighted SVR for construction final accounting prediction[J]. Journal of Information and Computional Science, 2014, 11(5): 1387-1394