999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于鄰域分類AUC的屬性選擇方法*

2017-12-13 11:50:46張艷芹竇慧莉
科技與創新 2017年24期
關鍵詞:分類

張艷芹,竇慧莉

(1.徐州工程學院 經濟學院,江蘇 徐州 221008;2.江蘇科技大學 計算機科學與工程學院,江蘇 鎮江 212003)

基于鄰域分類AUC的屬性選擇方法*

張艷芹1,竇慧莉2

(1.徐州工程學院 經濟學院,江蘇 徐州 221008;2.江蘇科技大學 計算機科學與工程學院,江蘇 鎮江 212003)

為了提升鄰域分類器的分類性能,提出了一種利用鄰域AUC作為分類性能度量指標的啟發式屬性選擇算法。首先,利用鄰域分類器得到鄰域AUC,然后在此基礎上,借助貪心搜索策略,逐步加入使得鄰域AUC盡可能大的屬性,當鄰域AUC不再增大時,算法終止。7個UCI數據集上的實驗結果表明,使用鄰域AUC屬性選擇算法,可以在使用較少屬性個數的基礎上有效提升鄰域分類器的分類性能。

屬性選擇;啟發式算法;鄰域分類器;AUC指標

1 背景闡述

不同于經典粗糙集[1]方法,鄰域粗糙集[2]借助機器學習中的距離概念,構建樣本的鄰域,進而達到刻畫數據中不確定性的目的。近年來,鄰域粗糙集方法因其對數據的適應性強、粒度變化較為靈活等優勢受到了眾多學者的關注[3-6]。

在鄰域粗糙集理論中,除了可以使用鄰域粗糙集刻畫不確定性以外,借鑒K近鄰[7]的思想,Hu等人提出了鄰域分類器[8]。與K近鄰分類器不同,鄰域分類器不再指定待分類樣本的鄰居個數,而是通過指定半徑,自然地得到待分類樣本的鄰居,即不同的樣本可能包含不同個數的鄰居,這是鄰域分類器與K近鄰分類器最重要的差別。除此之外,鄰域分類器利用半徑這一工具,能夠自然地形成一個基于多粒度思想的分類結果,也就是說,隨著鄰域半徑的不同,鄰域分類器的分類結果自然也不相同。眾所周知,影響分類器分類性能的因素除了分類器自身的分類能力以外,數據中的屬性也是一個重要的因素。在現代數據中,往往存在著大量的冗余屬性,如何從原始數據中刪除影響分類器分類性能的冗余屬性,以達到提升分類器性能這一目標已然成為了機器學習中一個重要的研究問題。鑒于此,筆者利用鄰域分類器的AUC指標,提出了一種能夠提升鄰域分類AUC的屬性選擇算法。該算法與粗糙集理論中的屬性約簡算法有所不同,因為該算法的目標是提升鄰域分類器的分類性能,而非保持粗糙集理論中的不確定性刻畫能力不變。

本文的主要內容是:第二節簡要介紹鄰域粗糙集、鄰域分類器和鄰域分類AUC;第三節設計了一種能夠提升鄰域分類AUC的啟發式算法,進行屬性選擇;第四節進行實驗分析;第五節總結全文。

2 鄰域分類器

對于分類任務來說,一個數據集或者決策系統可以用一個二元組進行描述,記為在S中,U表示論域,是所有樣本構成的非空有限集合;AT是所有屬性構成的非空有限集合;d是標記屬性。

Pawlak粗糙集利用條件屬性集合AT上的不可分辨關系生成等價類,對目標概念進行近似逼近。不同于Pawlak的經典粗糙集,鄰域粗糙集借助距離的概念,構建樣本之間的相似度矩陣,進行分類分析。在S中,對于任意的x,y∈U,表示對象x與y之間的距離。給定鄰域半徑為σ,不難構建的0-1函數:“△(x,y)=1當且僅當?(x,y)≤σ,否則△(x,y)=0.”

利用0-1函數△(x,y),對于任意的樣本x∈U,x的鄰域記為表示所有與x之間的距離小于半徑σ的樣本所構成的集合。

定義1[4]給定,對于任意的X的鄰域下近似與上近似分別定義為:

在鄰域粗糙集理論中,鄰域分類器是一個重要的研究方向。一個鄰域分類器的分類過程為:對于待分類樣本x,首先記錄x的鄰域σA(x)中所有樣本的標記,其次利用多數決原則,預測對象x的類別,記為Pre(x),即將鄰域σA(x)中所有樣本的標記出現次數最多的那一標記作為待分類樣本x的預測標記。以二分類問題為例,ROC曲線是基于樣本的真實類別和預測概率畫出的。ROC曲線的縱坐標是真正例率,即TPR=被正確分類的正類樣本個數/所有正類樣本個數,ROC曲線的橫坐標是假正類率,即FPR=被錯誤分類的負類樣本個數/所有負類樣本個數。而AUC則是ROC曲線下的面積,常常可以用來評價一個分類器的優劣。

傳統的AUC度量是針對二分類問題設計的,對于多類問題來說,文獻[9]中給出了一種基于類別概率的AUC計算方式,形如:式(1)中:m為類別的個數;AUCi為第i類樣本的AUC值;Pi為第i類樣本在數據中出現的比例。

這種計算方式借鑒了一對多的基本思想,即將多類問題轉換為多個二類問題。

3 屬性選擇

屬性約簡或屬性選擇是粗糙集理論的核心研究內容。在分類學習任務中,通過屬性選擇可以有效地刪除對于分類任務重要度不高的屬性,提升學習器的泛化能力。因此,借助AUC這一度量指標,可以定義以下屬性選擇。

從定義2中可以看出,鄰域分類AUC屬性選擇實際上是期望找出一個屬性子集,它是一個使得鄰域分類AUC能夠被提升的最小屬性子集。下面給出求解這個屬性子集的啟發式算法。給定定義重要度Sig(a,A)用以表示將屬性a加入到條件屬性集A中后鄰域分類AUC的變化情況:Sig(a,A)=的值越大,表明將屬性a加入到屬性集合A中后,鄰域分類AUC的提升越明顯。如果Sig(a,A)為負值,則表示將屬性a加入到屬性集合A中后,鄰域分類AUC反而有所降低。利用屬性重要度Sig(a,A)不難設計出下面所示的啟發式算法,用以求解定義2所示的屬性選擇問題。

算法:啟發式算法求解鄰域分類AUC屬性選擇。

輸入:決策系統S。

輸出:一個選擇出的屬性子集A。

步驟1:在S中計算AUCAT.

步驟3:如果AUCA≥AUCAT,則轉步驟4,否則執行以下循環:①對于任意的a∈AT-red,計算屬性a的重要度Sig(a,A);②找出屬性b,使得b滿足Sig(b,red)=max{Sig(a,red):?a∈AT-red},令 A=A∪{b};③計算AUCA.

步驟4:輸出A。

表1 數據集信息

4 實驗分析

為了驗證第3節所示屬性選擇算法的有效性,特選取了7組UCI數據集進行實驗分析,這些數據信息的基本描述如表1所示。實驗環境為PC機,雙核2.60 GHz CPU,16 GB內存,Windows10操作系統,MATLAB R2010a實驗平臺。

在這組實驗中,使用了4個不同的鄰域半徑σ進行屬性選擇計算,分別為0.1,0.2,0.3和0.4.表2中列出了在這4個不同的半徑下,屬性選擇前后鄰域分類AUC的變化情況。

從表2中可以發現,在實驗所用的4個半徑下,利用筆者提出的屬性選擇算法,AUC值明顯提升。這表明,經過屬性選擇這一過程,鄰域分類器的分類性能有了明顯提升。這一實驗結果從分類性能的角度驗證了屬性選擇算法的有效性。此外,進一步觀察表2所示的均值可以發現,無論是否使用屬性選擇,隨著半徑的增大,AUC值都有所降低。這一現象表明,鄰域分類器的分類性能隨著半徑的增大逐漸減弱。表3給出了經過屬性選擇算法后所得的屬性個數。

觀察表3不難發現,利用屬性選擇算法,鄰域分類器所使用的屬性個數明顯減少。這表明,利用筆者提出的屬性選擇算法,可以有效地刪除原始數據中的冗余屬性,以達到提升鄰域分類器性能的目的。

表2 屬性選擇前后的AUC值

表3 選擇出的屬性個數

5 結束語

傳統鄰域粗糙集理論中的屬性約簡問題大多是基于不確定性的角度進行分析和研究的。本文為了從AUC的角度提升鄰域分類器的分類性能,提出了基于鄰域分類AUC提升的屬性選擇算法。這一算法借助基于貪心搜索策略的啟發式過程,能夠有效地在刪除冗余屬性的基礎上,提升鄰域分類的AUC值。在本文工作的基礎上,筆者下一步將就如何提高屬性選擇算法的效率問題進行深入討論。

[1]Pawlak Z.Rough Sets-Theoretical Aspects of Reasoning about Data[M].Boston:Kluwer Academic Publishers,1991.

[2]胡清華,于達仁.應用粗糙計算[M].北京:科學出版社,2012.

[3]段潔,胡清華,張靈均,等.基于鄰域粗糙集的多標記分類特征選擇算法[J].計算機研究與發展,2015,52(1):56-65.

[4]張維,苗奪謙,高燦,等.鄰域粗糙協同分類模型[J].計算機研究與發展,2014,51(8):1811-1820.

[5]朱鵬飛,胡清華,于達仁.基于隨機化屬性選擇和鄰域覆蓋約簡的集成學習[J].電子學報,2012,40(2):273-279.

[6]楊習貝,徐蘇平,戚湧,等.基于多特征空間的粗糙數據分析方法[J].江蘇科技大學學報(自然科學版),2016, 30(4):370-373.

[7]Wu ХD,Kumar V,Quinlan JR,et al.Top 10 algorithms in data mining[J].Knowledge and Information Systems,2008,14(1):1-37.

[8]Hu QH,Yu DR,Хie ZХ.Neighborhood classifiers[J].Expert Systems with Applications,2008,34(2):866-876.

[9]Fawcett T.Using rule sets to maximize ROC performance[C]//IEEE International Conference on Data Mining,2001:131-138.

張艷芹(1979—),女,碩士,講師,主要研究方向為智能信息處理。竇慧莉(1980—),女,碩士,助理研究員,主要研究方向為粗糙集理論、粒計算、機器學習。

〔編輯:白潔〕

TP18

A

10.15913/j.cnki.kjycx.2017.24.043

2095-6835(2017)24-0043-03

國家自然科學基金(61572242);江蘇省高校哲學社會科學基金(2015SJD769)

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 国产男人的天堂| 久久久久久尹人网香蕉| 亚洲美女视频一区| 亚洲人成网站观看在线观看| 国产黑丝视频在线观看| 国产在线精品99一区不卡| 在线看片免费人成视久网下载| 亚洲三级a| 欧美日韩理论| 国产精品手机视频一区二区| 99热这里都是国产精品| 亚洲精品色AV无码看| 亚洲欧美日韩成人在线| 国产69精品久久久久妇女| 91国内在线视频| 国产va在线观看免费| 中文国产成人精品久久一| 日本人妻丰满熟妇区| 91无码人妻精品一区二区蜜桃| 99精品视频九九精品| 国产乱视频网站| 国产成a人片在线播放| 99国产在线视频| 日韩乱码免费一区二区三区| 青青草国产在线视频| 国产成人无码播放| 欧美日韩91| 99久久国产综合精品2023 | 久久精品人妻中文系列| 欧美日韩一区二区三区四区在线观看| 激情爆乳一区二区| 日本色综合网| 久草视频精品| 国产丰满大乳无码免费播放 | 97免费在线观看视频| 日韩毛片免费观看| 在线毛片网站| 国产成人综合久久精品尤物| 日韩欧美中文| 亚洲一级色| 亚洲中文在线看视频一区| 久久五月视频| 国产精品尤物在线| 久久免费精品琪琪| 欧美啪啪精品| 伊人无码视屏| 夜夜操狠狠操| 亚洲第一区在线| 特级aaaaaaaaa毛片免费视频| 国产免费a级片| 久久伊人操| 国产亚洲第一页| 国产九九精品视频| 新SSS无码手机在线观看| 精品视频福利| 国产浮力第一页永久地址| 狠狠做深爱婷婷久久一区| 三上悠亚在线精品二区| 免费可以看的无遮挡av无码| 国产成人精品免费视频大全五级| 欧美专区在线观看| 午夜一级做a爰片久久毛片| 色综合a怡红院怡红院首页| 国产本道久久一区二区三区| AV无码一区二区三区四区| 亚洲视频黄| 亚洲一级毛片免费观看| 亚洲精品无码成人片在线观看| 国产中文在线亚洲精品官网| 日韩精品一区二区三区大桥未久| 久久福利网| 亚洲首页在线观看| 国产成人亚洲日韩欧美电影| 国产一级妓女av网站| 久久网欧美| 五月激激激综合网色播免费| 久久精品国产999大香线焦| 亚洲婷婷丁香| 欧美国产菊爆免费观看 | 中字无码精油按摩中出视频| 国产无人区一区二区三区| 久久96热在精品国产高清|