999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

特征選擇穩定性方法研究*

2021-11-21 18:19:02王吉川劉藝
數字技術與應用 2021年9期
關鍵詞:特征方法研究

王吉川 劉藝

(國防科技創新研究院,北京 100071)

0 引言

特征選擇是重要且常用的降維方法,然而長期以來,特征選擇的研究聚焦于提升學習算法的預測性能,忽視了穩定性的重要性。

特征選擇穩定性是指特征選擇方法對樣本的微小擾動具有一定的魯棒性。通過提升特征選擇方法的穩定性,能夠提高特征子集的相似性,進而增強領域專家的可信度,提升發現相關特征和領域知識的概率,有效降低數據采集和存儲的復雜度,同時一定程度上提升學習算法的預測能力[1]。

特征選擇穩定性的研究在國際上已經展開了十幾年,形成了較為系統的研究體系,并在諸多領域得到了深入的應用,然而國內鮮有這方面的成果。根據采用的策略不同,特征選擇穩定性提升方法可以分為擾動法、特征法,其中擾動法包括數據擾動法、函數擾動法和混合法;特征法包括組特征法和特征信息法。本文對近年來的特征選擇穩定性提升方法做深入的總結,闡述每種方法的特點和典型代表,給出未來的研究方向。

1 擾動法研究進展

擾動法是基于集成學習的思想,融合多個特征子集構成穩定特征集合的方法,包括數據擾動法、函數擾動法和混合法。

數據擾動法是對訓練數據進行劃分或采樣,生成多個數據子集,在數據子集上選擇特征,融合多個特征子集得到結果。文獻[2]為了提升特征選擇的穩定性,每次抽樣訓練數據的一半,并通過不同超參數的結構化稀疏性的貝葉斯多類非負矩陣分解模型進行選擇。文獻[3]提出基于重復交叉驗證的集成特征選擇方法,并采用支持向量機和遞歸特征消除方法評估對其進行評價。實驗結果表明,數據集規模與交叉折數的比值越高,重復交叉驗證的特征選擇穩定性與分類性能相比于傳統的Bootstrap擾動越好,但是如果數據集的規模較小,則效果并不明顯。文獻[4]為了進一步發現微陣列數據中基因型和表型的因果關系,采用Bootstrap選擇規模為B的訓練樣本子集,提取穩定的候選基因,增強結果的穩定性和置信度。傳統的數據擾動法為了模擬數據擾動,只單純地對數據集劃分采樣,忽視了對數據集各條記錄自身的研究。事實上,數據集中各條記錄的概率分布越統一,數據方差越小,越容易篩選出穩定的特征子集。近年來,在以往抽樣數據集形成多個數據子集的基礎上,對數據記錄的分布與特征選擇穩定性關系的研究也越來越深入。文獻[5]引入差異系數和最近相似樣本和異類樣本平均距離,評估樣本之間的差異性;然后采用杰卡德系數更新特征權重;最后基于鄰域互信息評估候選特征,在此基礎上通過改進的多標簽ReliefF算法進行特征選擇。本方法很好地平衡了特征選擇穩定性和分類性能,但是計算效率較低,為了提升計算效率,需要進一步研究基于多標簽鄰域粗糙集的更有效的搜索策略和不確定性測度。文獻[6]首先根據樣本和特征的相關性的對樣本進行權重評估,并將加權后的樣本作為特征選擇方法的輸入。文獻[7]認為特征選擇不穩定性本質上與數據方差有關,提出了一種基于Bagging技術的集成方法,通過減少數據方差來提高醫學數據集特征選擇的穩定性,在每個數據集上,應用了五種著名的特征選擇算法來選擇不同數量的特征。該方法在保持分類精度的同時,顯著提高了選擇的穩定性,但是該方法對選擇子特征的數量要求較高,一旦子特征數量較多或較少,都會影響穩定性。文獻[8]提出了基于能量的正則化學習(Feature weighting as Regularized Energy-based Learning,FREL)。利用L1或L2正則化方法研究了FREL的穩定性,此外,作為增強穩定性的一種常用實現策略,還提出了一種集成FREL。與傳統的數據擾動發相比,近年來的改進增加了各個數據樣本對特征選擇穩定性影響的研究,更好地利用了數據集本身的性質。然而,難點在于很多數據集的分布較為模糊,以及選擇什么樣的指標來衡量樣本對特征選擇穩定性的影響,不同的數據集對應著不同的指標。因此針對不同數據集選擇不同的指標需要進一步深入的研究。

函數擾動法是在同一數據集上采用多種方法選擇特征子集,然后得出穩定的特征集合。文獻[9]為了提升基于傳感器的人類行為活動識別的準確率,提出了基于集成的過濾特征選擇方法,通過信息增益、增益率、卡方檢驗和ReliefF在訓練樣本上選擇特征,并通過權重聚合四種方法的特征排序。文獻[10]在訓練數據上隨機選擇90%的數據樣本,然后采用神經網絡、ReliefF、SVM-RFE、F-test以及互信息對特征進行排序,提升算法的穩定性。函數擾動法彌補了數據擾動法的缺點,適用于小樣本數據集,然而函數擾動法的效果取決于集成時使用的特征選擇方法。對于不同的數據集而言,由于數據分布和特征結構不同,合適的特征選擇方法是不同的,因此難以針對具體數據集選擇最合適的集成方法[11]。函數擾動法通常同時采用集成單變量和多變量方法,這樣能夠在保證分類性能的情況下提升穩定性。然而,這導致了方法的時間開銷增加,在一定程度上影響了方法的廣泛使用。

混合法是同時使用數據擾動和函數擾動的方法。文獻[12]提出了結合穩定性的集成特征選擇框架,該框架同時結合了數據擾動法和函數擾動法,在Bootstrap生成多個數據子集的基礎上,采用多種方法選擇特征,結論表明該框架能夠在保持分類性能的同時提升穩定性,此外,還驗證了僅用函數擾動法提升能力較弱。使用Bootstrap抽樣生成多個訓練樣本,然后采用10 種不同的方法在訓練樣本上進行特征選擇,并將特征排序結果進行集成。由于混合法融合了數據擾動和函數擾動兩種方法,因此它具備了兩種方法的優點和缺點,這對研究者提出了更高的要求。研究人員需要同時設計數據擾動的策略和特征選擇方法。良好設計的混合法對穩定性的提升要強于僅采用數據擾動和函數擾動的方法,而且泛化性能較好。

2 特征法研究進展

特征法是通過特征本身或特征之間的關聯性構建穩定特征子集的方法。特征法包括組特征法和特征信息法。

組特征法是通過識別或轉換原始特征,構成高度相關的多組特征(新特征),在特征組中選擇穩定的特征構建特征子集。提出了一種基于粒子群優化和粗糙集的特征選擇和分類方法,該方法首先提出快速規約算法,根據特征的依賴度得到盡可能小的規約特征子集,然后采用不一致處理算法,移除可能導致不一致決策的特征,最后將分類質量、特征數量和近似精度作為粒子群算法的優化目標求解特征子集。提出一種集成特征組的方法,首先在訓練樣本上進行隨機抽樣,生成多組數據子樣本,然后通過基于核密度、相關性和信息增益的方法在數據子樣本上生成特征組。到目前為止,組特征法的成果較多,特別是基于核密度和正則化技術的方法,但是組特征法缺乏可解釋性,仍然是通過實驗結果觀察而來,對組特征法提升特征選擇穩定性的理論研究較少。此外,同數據擾動法一樣,組特征法也并不適用于數據集規模較小的情況。

特征信息法是采用某種度量方式評估特征的信息量,然后結合信息量及特定的方法選擇特征集合。提出了基于疊加評分的特征選擇方法,首先給出通過熵定義的對稱不確定指標,然后基于該指標提出疊加評分的計算方式,并采用疊加評分選擇具有判別能力的特征,顯著提升相關特征的選擇概率。提出了一種魯棒的特征選擇方法,基于皮爾遜相關系數從36 0個放射學特征中選擇穩定特征;然后引入無監督K均值算法,從第一步中選擇的特征中刪除冗余特征,并獲得K組候選特征的集合;最后,通過K組特征集訓練四個預測模型,選擇具有最佳預測性能的最終特征集和最終預測模型。提出了一種基于相關性、冗余度和互補性的特征選擇方法,該方法使用對稱不確定度量特征和類別之間的相關性,然后通過近似馬爾可夫毯度量特征的冗余度,移除冗余特征,最后采用互信息評估特征的互補性,保留與當前選擇特征子集具有最大互補性分值的特征。與函數擾動法類似,特征信息法適用于數據集規模較小的情況。但是正如函數擾動法的難點在于選擇合適的特征選擇方法一樣,特征信息法對度量準則的要求較高,難以針對具體的數據集選用最合適的度量準則。

3 結論

當前,國際上已經形成了較為完整的特征選擇穩定性提升方法研究體系,但是國內在該方向的發展較為緩慢,同時,特征選擇穩定性研究的空白領域仍然較多,可以從以下幾個方面展開探索和深入分析。

目前的特征選擇穩定性一般注重于傳統的二分類、多分類問題,多標簽數據的穩定特征選擇研究則鮮見報道,因此亟待開展相關研究。在當前的大數據中,分布不平衡的情況較為常見,針對不平衡數據的特征選擇穩定性研究亦是值得探討的課題。由于采集和存儲可能面臨的各種異常,系統常面臨嚴重的數據缺失情況,缺失數據的特征選擇穩定性研究仍然是空白研究領域,亟待開展該方向的研究。

猜你喜歡
特征方法研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
EMA伺服控制系統研究
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 欧美亚洲欧美| jizz亚洲高清在线观看| 亚洲一区国色天香| 免费观看精品视频999| 婷婷综合色| 国产精品毛片一区| 91在线中文| 国产高清不卡| 九九热精品在线视频| 97在线免费视频| 特级做a爰片毛片免费69| 黄色在线不卡| 国产成人免费| 欧美国产综合色视频| 亚洲国产中文在线二区三区免| 欧美日韩午夜| 欧美午夜在线播放| 国产成人综合在线视频| 免费在线色| AV不卡国产在线观看| 婷婷激情亚洲| 毛片在线区| AV不卡无码免费一区二区三区| 亚洲精品少妇熟女| 1024国产在线| 青青青国产视频| 国产福利免费视频| 欧美专区日韩专区| 国产精品网拍在线| 欧美啪啪网| 国产亚洲视频免费播放| 成人看片欧美一区二区| 全部免费特黄特色大片视频| 扒开粉嫩的小缝隙喷白浆视频| 精品国产三级在线观看| 日本午夜视频在线观看| 无码aaa视频| 黄色免费在线网址| 55夜色66夜色国产精品视频| 91在线中文| 欧美a在线看| 国产va在线观看免费| 国产精品夜夜嗨视频免费视频 | 免费三A级毛片视频| 无码又爽又刺激的高潮视频| 欧美不卡视频在线观看| 重口调教一区二区视频| 一区二区无码在线视频| 国产欧美精品专区一区二区| 亚洲欧美日韩另类在线一| 日本亚洲欧美在线| 国产午夜精品一区二区三| 亚洲动漫h| 日本成人在线不卡视频| 特级aaaaaaaaa毛片免费视频| 啦啦啦网站在线观看a毛片| 99人妻碰碰碰久久久久禁片| 高清无码一本到东京热| 永久免费无码成人网站| 国产91九色在线播放| 欧美一级99在线观看国产| 精品国产Ⅴ无码大片在线观看81| 成人免费午间影院在线观看| 狠狠ⅴ日韩v欧美v天堂| 久久a级片| 先锋资源久久| 一级毛片在线播放免费观看| 久久精品亚洲热综合一区二区| 精品天海翼一区二区| 国产在线欧美| 国产精选自拍| 午夜激情婷婷| 99久久精品国产综合婷婷| 四虎国产在线观看| 成人国产精品网站在线看| 亚洲国产中文综合专区在| 国产精品永久在线| 另类重口100页在线播放| 国产av一码二码三码无码| 国产视频入口| 色婷婷国产精品视频| 国产国产人成免费视频77777|