王吉川 劉藝
(國防科技創新研究院,北京 100071)
特征選擇是重要且常用的降維方法,然而長期以來,特征選擇的研究聚焦于提升學習算法的預測性能,忽視了穩定性的重要性。
特征選擇穩定性是指特征選擇方法對樣本的微小擾動具有一定的魯棒性。通過提升特征選擇方法的穩定性,能夠提高特征子集的相似性,進而增強領域專家的可信度,提升發現相關特征和領域知識的概率,有效降低數據采集和存儲的復雜度,同時一定程度上提升學習算法的預測能力[1]。
特征選擇穩定性的研究在國際上已經展開了十幾年,形成了較為系統的研究體系,并在諸多領域得到了深入的應用,然而國內鮮有這方面的成果。根據采用的策略不同,特征選擇穩定性提升方法可以分為擾動法、特征法,其中擾動法包括數據擾動法、函數擾動法和混合法;特征法包括組特征法和特征信息法。本文對近年來的特征選擇穩定性提升方法做深入的總結,闡述每種方法的特點和典型代表,給出未來的研究方向。
擾動法是基于集成學習的思想,融合多個特征子集構成穩定特征集合的方法,包括數據擾動法、函數擾動法和混合法。
數據擾動法是對訓練數據進行劃分或采樣,生成多個數據子集,在數據子集上選擇特征,融合多個特征子集得到結果。文獻[2]為了提升特征選擇的穩定性,每次抽樣訓練數據的一半,并通過不同超參數的結構化稀疏性的貝葉斯多類非負矩陣分解模型進行選擇。文獻[3]提出基于重復交叉驗證的集成特征選擇方法,并采用支持向量機和遞歸特征消除方法評估對其進行評價。實驗結果表明,數據集規模與交叉折數的比值越高,重復交叉驗證的特征選擇穩定性與分類性能相比于傳統的Bootstrap擾動越好,但是如果數據集的規模較小,則效果并不明顯。文獻[4]為了進一步發現微陣列數據中基因型和表型的因果關系,采用Bootstrap選擇規模為B的訓練樣本子集,提取穩定的候選基因,增強結果的穩定性和置信度。傳統的數據擾動法為了模擬數據擾動,只單純地對數據集劃分采樣,忽視了對數據集各條記錄自身的研究。事實上,數據集中各條記錄的概率分布越統一,數據方差越小,越容易篩選出穩定的特征子集。近年來,在以往抽樣數據集形成多個數據子集的基礎上,對數據記錄的分布與特征選擇穩定性關系的研究也越來越深入。文獻[5]引入差異系數和最近相似樣本和異類樣本平均距離,評估樣本之間的差異性;然后采用杰卡德系數更新特征權重;最后基于鄰域互信息評估候選特征,在此基礎上通過改進的多標簽ReliefF算法進行特征選擇。本方法很好地平衡了特征選擇穩定性和分類性能,但是計算效率較低,為了提升計算效率,需要進一步研究基于多標簽鄰域粗糙集的更有效的搜索策略和不確定性測度。文獻[6]首先根據樣本和特征的相關性的對樣本進行權重評估,并將加權后的樣本作為特征選擇方法的輸入。文獻[7]認為特征選擇不穩定性本質上與數據方差有關,提出了一種基于Bagging技術的集成方法,通過減少數據方差來提高醫學數據集特征選擇的穩定性,在每個數據集上,應用了五種著名的特征選擇算法來選擇不同數量的特征。該方法在保持分類精度的同時,顯著提高了選擇的穩定性,但是該方法對選擇子特征的數量要求較高,一旦子特征數量較多或較少,都會影響穩定性。文獻[8]提出了基于能量的正則化學習(Feature weighting as Regularized Energy-based Learning,FREL)。利用L1或L2正則化方法研究了FREL的穩定性,此外,作為增強穩定性的一種常用實現策略,還提出了一種集成FREL。與傳統的數據擾動發相比,近年來的改進增加了各個數據樣本對特征選擇穩定性影響的研究,更好地利用了數據集本身的性質。然而,難點在于很多數據集的分布較為模糊,以及選擇什么樣的指標來衡量樣本對特征選擇穩定性的影響,不同的數據集對應著不同的指標。因此針對不同數據集選擇不同的指標需要進一步深入的研究。
函數擾動法是在同一數據集上采用多種方法選擇特征子集,然后得出穩定的特征集合。文獻[9]為了提升基于傳感器的人類行為活動識別的準確率,提出了基于集成的過濾特征選擇方法,通過信息增益、增益率、卡方檢驗和ReliefF在訓練樣本上選擇特征,并通過權重聚合四種方法的特征排序。文獻[10]在訓練數據上隨機選擇90%的數據樣本,然后采用神經網絡、ReliefF、SVM-RFE、F-test以及互信息對特征進行排序,提升算法的穩定性。函數擾動法彌補了數據擾動法的缺點,適用于小樣本數據集,然而函數擾動法的效果取決于集成時使用的特征選擇方法。對于不同的數據集而言,由于數據分布和特征結構不同,合適的特征選擇方法是不同的,因此難以針對具體數據集選擇最合適的集成方法[11]。函數擾動法通常同時采用集成單變量和多變量方法,這樣能夠在保證分類性能的情況下提升穩定性。然而,這導致了方法的時間開銷增加,在一定程度上影響了方法的廣泛使用。
混合法是同時使用數據擾動和函數擾動的方法。文獻[12]提出了結合穩定性的集成特征選擇框架,該框架同時結合了數據擾動法和函數擾動法,在Bootstrap生成多個數據子集的基礎上,采用多種方法選擇特征,結論表明該框架能夠在保持分類性能的同時提升穩定性,此外,還驗證了僅用函數擾動法提升能力較弱。使用Bootstrap抽樣生成多個訓練樣本,然后采用10 種不同的方法在訓練樣本上進行特征選擇,并將特征排序結果進行集成。由于混合法融合了數據擾動和函數擾動兩種方法,因此它具備了兩種方法的優點和缺點,這對研究者提出了更高的要求。研究人員需要同時設計數據擾動的策略和特征選擇方法。良好設計的混合法對穩定性的提升要強于僅采用數據擾動和函數擾動的方法,而且泛化性能較好。
特征法是通過特征本身或特征之間的關聯性構建穩定特征子集的方法。特征法包括組特征法和特征信息法。
組特征法是通過識別或轉換原始特征,構成高度相關的多組特征(新特征),在特征組中選擇穩定的特征構建特征子集。提出了一種基于粒子群優化和粗糙集的特征選擇和分類方法,該方法首先提出快速規約算法,根據特征的依賴度得到盡可能小的規約特征子集,然后采用不一致處理算法,移除可能導致不一致決策的特征,最后將分類質量、特征數量和近似精度作為粒子群算法的優化目標求解特征子集。提出一種集成特征組的方法,首先在訓練樣本上進行隨機抽樣,生成多組數據子樣本,然后通過基于核密度、相關性和信息增益的方法在數據子樣本上生成特征組。到目前為止,組特征法的成果較多,特別是基于核密度和正則化技術的方法,但是組特征法缺乏可解釋性,仍然是通過實驗結果觀察而來,對組特征法提升特征選擇穩定性的理論研究較少。此外,同數據擾動法一樣,組特征法也并不適用于數據集規模較小的情況。
特征信息法是采用某種度量方式評估特征的信息量,然后結合信息量及特定的方法選擇特征集合。提出了基于疊加評分的特征選擇方法,首先給出通過熵定義的對稱不確定指標,然后基于該指標提出疊加評分的計算方式,并采用疊加評分選擇具有判別能力的特征,顯著提升相關特征的選擇概率。提出了一種魯棒的特征選擇方法,基于皮爾遜相關系數從36 0個放射學特征中選擇穩定特征;然后引入無監督K均值算法,從第一步中選擇的特征中刪除冗余特征,并獲得K組候選特征的集合;最后,通過K組特征集訓練四個預測模型,選擇具有最佳預測性能的最終特征集和最終預測模型。提出了一種基于相關性、冗余度和互補性的特征選擇方法,該方法使用對稱不確定度量特征和類別之間的相關性,然后通過近似馬爾可夫毯度量特征的冗余度,移除冗余特征,最后采用互信息評估特征的互補性,保留與當前選擇特征子集具有最大互補性分值的特征。與函數擾動法類似,特征信息法適用于數據集規模較小的情況。但是正如函數擾動法的難點在于選擇合適的特征選擇方法一樣,特征信息法對度量準則的要求較高,難以針對具體的數據集選用最合適的度量準則。
當前,國際上已經形成了較為完整的特征選擇穩定性提升方法研究體系,但是國內在該方向的發展較為緩慢,同時,特征選擇穩定性研究的空白領域仍然較多,可以從以下幾個方面展開探索和深入分析。
目前的特征選擇穩定性一般注重于傳統的二分類、多分類問題,多標簽數據的穩定特征選擇研究則鮮見報道,因此亟待開展相關研究。在當前的大數據中,分布不平衡的情況較為常見,針對不平衡數據的特征選擇穩定性研究亦是值得探討的課題。由于采集和存儲可能面臨的各種異常,系統常面臨嚴重的數據缺失情況,缺失數據的特征選擇穩定性研究仍然是空白研究領域,亟待開展該方向的研究。