999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于冗余性分析的改進ReliefF特征選擇算法

2023-11-13 07:53:34李麗君張海清李代偉向筱銘
軟件工程 2023年11期
關鍵詞:分類特征實驗

李麗君, 張海清, 李代偉, 向筱銘, 于 曦

(1.成都信息工程大學軟件工程學院, 四川 成都 610225;2.四川省氣象探測數據中心, 四川 成都 610072;3.成都大學斯特靈學院, 四川 成都 610106;4.四川省信息化應用支撐軟件工程技術研究中心, 四川 成都 610255)

0 引言(Introduction)

特征選擇是機器學習以及數據挖掘領域實現特征約簡的重要方法,通過在眾多特征中篩選出對分類最有效的特征實現對特征維數的約簡。ReliefF算法[1]是在Relief特征選擇算法[2]的基礎上對處理多分類問題提出的改進,但仍存在一些有待解決的問題,例如ReliefF隨機抽樣時會抽取到不具代表性的樣本,沒有考慮特征間的相關性,缺乏對冗余特征進行衡量。針對以上問題,陳平華等[3]以互信息度量特征冗余。項頌陽等[4]將ReliefF與RFE(Recursive Feature Elimination,特征遞歸消除)結合對冗余特征進行遞歸篩選。薛瑞等[5]引入量子粒子群算法對特征集二次篩選剔除冗余特征。張小內等[6]結合ReliefF和Pearson系數的相關性原理進行特征篩選。此外,已有的對特征間相關性度量的算法評價方式過于單一。

本文提出一種兩階段特征選擇算法:①針對樣本冗余問題,對ReliefF算法抽樣策略進行改進,第一階段保留距各類別中心較近的樣本為隨機抽樣候選集,保證抽取樣本的有效性;②針對特征間冗余問題,第二階段將改進抽樣策略后的ReliefF算法所得特征權重序列劃分為多個區段,在區段內進一步衡量特征間相關性,剔除冗余特征;③引入最大信息系數(Maximal Information Coefficient, MIC)[7]及Pearson相關系數共同實現冗余特征的度量;④根據特征權重序列,從高到低給各區段設置采樣比例,同時在縮減特征維數的基礎上,防止剔除有效特征。

1 ReliefF算法及其改進(ReliefF algorithm and its improvement)

1.1 Relief算法

其中:w(j)表示第j個特征的權重,m為隨機抽取樣本次數,函數diff(·)用于計算在第j個特征下兩樣本點的差值。

1.2 ReliefF算法

1994年Knonenko提出Relief擴展算法ReliefF[1],改進后的算法可用于處理多分類問題。ReliefF公式中針對隨機選取的樣本是從其同類和異類樣本中查找k個近鄰樣本,通過求均值更新特征權重,其公式如下:

(2)

其中:Ri為隨機抽取的樣本;p(c)為類c的先驗概率,即類c在樣本中所占的比例。

1.3 改進的ReliefF算法

1.3.1 冗余樣本分析

計算特征權重時,ReliefF算法需要在整個樣本集中進行隨機樣本的抽取,根據所抽樣本與其近鄰樣本的距離,按照一定規則更新特征權重,隨機抽取的樣本中存在一些冗余的、不具代表性的樣本會一定程度地影響分類結果。

針對上述問題,本文對ReliefF隨機抽樣策略進行改進,在保持抽樣隨機性不變的前提下,計算各類樣本與其類別中心的距離,保留距離所屬類別中心較近的部分樣本作為隨機抽樣的候選集,實現對樣本抽樣范圍的縮減,從而避免抽取到一些冗余的、不具代表性的樣本,可有效改進ReliefF算法衡量特征權重的準確度和最終分類性能。

1.3.2 冗余特征分析

ReliefF通過特征與標簽相關性度量權重,但強相關特征間可能存在冗余[8-9]。故本文引入MIC及Pearson相關系數分別從信息論[10]和相關性度量[11]兩個方面出發共同度量冗余特征。同時,使用兩種度量方式避免算法衡量特征相關性時受限于某一度量標準的局限性和盲目性。

MIC由RESHEF等[7]提出,假定存在變量X、Y,其最大信息系數計算公式如下:

(3)

Pearson相關性系數主要用于衡量兩變量間的相關程度,其中X、Y表示兩個待測變量,P為兩個變量的相關系數,r值在-1~1,其絕對值越大,表示兩個變量間相關性越大,Pearson系數計算公式如下:

(4)

本文對冗余特征的判斷使用MIC和Pearson相關系數共同作為評價指標,將冗余性計算公式定義如下:

PM(X,Y)=α·|P(X,Y)|+β·MIC(X;Y)

(5)

假定給定一組特征集F={f1,f2,…,fm},其中?fi∈F,i=1,2,…,m,特征fi的冗余性大小即為特征與子集中其他特征相關性之和,將其定義如下:

(6)

1.3.3 RFSR算法

基于上文對樣本冗余及特征冗余性的分析,本文在改進樣本抽樣策略的基礎上衡量兩兩特征之間的相關性,通過將原始特征劃分為若干個區段,對不同區段分別剔除冗余特征,提出基于冗余性分析的ReliefF算法(ReliefF Feature Selection Algorithm Based on Analysis of Redundancy,RFSR)。

RFSR算法的主要思想如下。

(1)計算樣本與所屬類中心的距離,僅保留距每類中心較近樣本作為ReliefF隨機抽樣的候選樣本集,縮小隨機抽樣范圍,避免抽取到冗余樣本;(2)使用ReliefF算法衡量權重,得到特征權重序列;(3)根據所得權重序列將特征進行分段,并從高到低地設置采樣比例;(4)在各區段中,使用Pearson相關系數及MIC組合計算特征間的相關性并升序排序,根據所設采樣比率剔除冗余特征,從不同區段獲取特征集,保證各子集的多樣性。該算法在確保得到更多與標簽強相關特征的前提下,剔除出冗余性較高的特征,避免使用單一度量方式時的局限性和盲目性,兼顧特征重要性及冗余性的關系。改進算法偽代碼如下。

算法1:RFSR算法

輸入:訓練集D,取樣次數a,各類樣本選取比例b%,特征個數m,最近鄰數k,劃分區段個數h,每個區段內特征個數m′,第i個分段的采樣比例Pi,i=1,2,…,h,特征權重向量W。

輸出:特征子集DT。

(1)初始化w(i)=0。

(2)計算各個類別的類中心。

(3)計算每個樣本與各自類中心的距離。

(4)按距離由小到大對類別樣本進行排序,取各序列中前b%的樣本組成D′。

(5)FORi=1:m。

(6)FORj=1:a。

(7)在D′中隨機抽取樣本Ri。

(8)找到與Ri同類的k個最近鄰樣本NHi。

(9)對c≠class(Ri),分別找到與Ri不同類的k個最近鄰樣本NMi。

(10)根據公式(1)更新特征權重w(i)。

(11)END FOR。

(12)END FOR。

(13)根據特征權重排序,得到特征權重序列S。

(14)將特征序列S平均劃分為h個區段,其中Si表示第i個區段。

(15)FOR EACHfiINSi。

(17)END FOR EACH。

(18)將各區段中所得特征子集合并形成一組新的特征集DT。

2 實驗結果與分析(Experiment and result analysis)

本文選取8個UCI公開數據集進行實驗對比(表1)。其中:WDBC為Breast Cancer Wisconsin (Diagnostic)數據集,QSAR為QSAR biodegradation,Wine為Winequality-red,Genus為Frogs calls-genus(genus),Family為Frogs calls-family(family),Heart為Statlog(Heart)[12]。

表1 實驗數據集

為驗證改進算法的有效性,本文進行兩組實驗,均采用10次10折交叉驗證,將10次實驗的分類準確率均值作為評價指標,并保留距各類中心較近的前20%的樣本,將冗余性度量公式(5)中的α、β值均設為0.5。實驗一中,將不同劃分區段、采樣比例在不同數據集下進行實驗對比,對10次實驗所得分類準確率求均值,實驗一所得結果如表2所示。其中:RFSR-6211和RFSR-532分別指劃分為4個子集和3個子集,并將采樣比例分別設置為{0.6,0.2,0.1,0.1}和{0.5,0.3,0.2};加粗數據為最好結果,帶下劃線數據為第二好結果。

表2 實驗一:不同采樣比例下平均準確率對比

由表2可看出:從區段劃分來看,將特征劃分為3個子集的分類效果整體上要優于4個子集;從采樣比例來看,采樣比例設置為{0.6,0.3,0.1}時,分類效果提升更明顯;第一個子集采樣占比較高時,所得分類準確率相對較高,還要兼顧后續區段減少特征冗余對分類效果的影響。根據實驗一所得結論,實驗二將特征序列劃分為3個子集,采樣比例設置為{0.6,0.3,0.1}。將需預設特征個數的對比算法特征數設置為在該比例下所獲得的特征數,把RFSR與ReliefF、MIM、mRMR、RF、CFS以及改進算法ReliefF-REF[4]和ReliefF-Pearson[6]分別在SVM以及LightGBM的平均分類準確率進行對比。實驗二的實驗結果如表3、表4所示。

表3 實驗二:不同特征選擇算法在SVM的分類準確率對比

表4 實驗二:不同特征選擇算法在LightGBM的分類準確率對比

綜上可以看出,RFSR算法在大多情況下的分類準確率優于其他幾種特征選擇算法,除在Sonar、QSAR數據集上RFSR算法的分類準確率稍低于RF等外,在其他數據集上的分類效果明顯更具優勢;與經典ReliefF、mRMR、RF、MIM、CFS算法相比,RFSR算法所選特征分類性能更好,并且均高于改進算法ReliefF-RFE、ReliefF-Pearson;從分類器選擇來看,LightGBM模型分類準確率整體高于SVM支持向量機,RFSR算法使用LightGBM在減少特征維度的同時,有效地提高了分類準確率;RFSR相較于傳統ReliefF算法,在不同數據集上的分類準確率均有提升,在SVM的不同數據集上的分類準確率分別提升0.92%~9.06%,在LightGBM的分類準確率分別提升0.63%~12.10%,在一定程度上改進了ReliefF算法的分類性能。

3 結論(Conclusion)

本文首先對ReliefF算法抽樣策略進行改進,通過計算類中心縮減隨機抽取樣本的范圍。針對特征間冗余問題,將特征序列劃分多個子集,通過兩種相關系數共同衡量特征相關性,使ReliefF同時兼顧特征與標簽及特征間的關系,消除冗余特征的不良影響。在8個UCI數據集上展開實驗對比,通過實驗確定參數設置,同時分別在SVM及LightGBM上將改進算法與其他幾種算法進行對比。結果表明:改進算法在降低特征維度的同時,能有效提高分類準確率,但算法沒考慮不平衡數據及算法穩定性問題,若不同類別樣本數量差異較大,則可能會影響算法性能。未來,會從不平衡數據性質出發,進一步對算法性能提升展開研究。

猜你喜歡
分類特征實驗
記一次有趣的實驗
分類算一算
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 一本视频精品中文字幕| 精品91在线| 亚洲男人在线| 伊人久久大香线蕉综合影视| 国产精品视频a| 国产高清不卡视频| 亚洲永久视频| 在线观看欧美国产| 国产色婷婷| 99国产精品免费观看视频| 国产成人精品亚洲77美色| 国产激爽大片高清在线观看| 综合人妻久久一区二区精品| 色香蕉影院| 欧美色伊人| 欧美五月婷婷| 日a本亚洲中文在线观看| 亚洲美女一级毛片| 国产精品手机在线观看你懂的| 亚洲欧洲自拍拍偷午夜色| 亚洲综合色区在线播放2019| 91小视频在线播放| 久久久亚洲色| 无码网站免费观看| 亚洲国产精品美女| 国产成人成人一区二区| 久草视频精品| 国产玖玖玖精品视频| 国产呦视频免费视频在线观看 | 亚洲欧洲AV一区二区三区| 免费中文字幕在在线不卡| 99热国产这里只有精品9九| 97se亚洲综合在线天天| 欧美一级在线播放| 亚洲精品无码高潮喷水A| 国产黄网站在线观看| 理论片一区| 国产熟睡乱子伦视频网站| 福利一区在线| 精品一区二区三区自慰喷水| 又爽又大又光又色的午夜视频| 欧美成人亚洲综合精品欧美激情| 久久伊人操| 一区二区三区国产精品视频| 国产对白刺激真实精品91| 久久精品电影| 人妻丝袜无码视频| 成人福利在线免费观看| 国产日韩欧美精品区性色| 国产视频自拍一区| 欧美日韩精品一区二区视频| 欧美高清视频一区二区三区| 国产97视频在线观看| 国产正在播放| 中文字幕2区| 国产成人高清精品免费| 手机永久AV在线播放| 四虎亚洲国产成人久久精品| a免费毛片在线播放| 亚洲欧美另类日本| 久久99国产综合精品1| 欧美一级在线| 青青草原偷拍视频| 波多野结衣第一页| 欧洲成人在线观看| 欧美视频免费一区二区三区| 1769国产精品视频免费观看| 丁香五月激情图片| 国产永久免费视频m3u8| 青草精品视频| 美女被操黄色视频网站| 日韩欧美成人高清在线观看| 免费看一级毛片波多结衣| 人妻无码中文字幕一区二区三区| 在线国产毛片手机小视频| 综1合AV在线播放| 亚洲手机在线| 亚洲妓女综合网995久久| 国模私拍一区二区三区| 欧美日韩另类在线| 亚洲无码高清视频在线观看| 999国内精品久久免费视频|