999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向一致性樣本的屬性約簡

2019-02-27 08:55:36高媛陳向堅王平心楊習(xí)貝
智能系統(tǒng)學(xué)報 2019年6期
關(guān)鍵詞:一致性定義分類

高媛,陳向堅,王平心,楊習(xí)貝

(1.江蘇科技大學(xué) 計算機(jī)學(xué)院,江蘇 鎮(zhèn)江 212003; 2.江蘇科技大學(xué) 理學(xué)院,江蘇 鎮(zhèn)江 212003)

粗糙集[1-2]是Pawlak 提出的一種用以刻畫不確定性的建模方法。由于經(jīng)典粗糙集所使用的等價關(guān)系僅僅適用于符號型數(shù)據(jù),為了彌補(bǔ)這一不足,涌現(xiàn)出了一批可以處理復(fù)雜類型數(shù)據(jù)的拓展粗糙集模型[3-5]。

眾所周知,無論是在經(jīng)典粗糙集還是在眾多拓展粗糙集研究中,屬性約簡[6-10]一直扮演著核心角色。根據(jù)問題求解需求的不同,屬性約簡可以使用不同的度量準(zhǔn)則加以定義,因此其具有豐富的解釋與含義。例如近似質(zhì)量可以用來度量數(shù)據(jù)中的確定性程度,條件熵可以用來描述條件屬性相對于決策屬性的鑒別能力。屬性約簡,就可以依據(jù)這些度量準(zhǔn)則,找到數(shù)據(jù)中的冗余屬性并加以刪除,以達(dá)到滿足度量準(zhǔn)則所對應(yīng)的約束條件。通過這一策略,還能夠使得后續(xù)的學(xué)習(xí)過程僅需在一部分屬性上構(gòu)建模型,從而達(dá)到降低學(xué)習(xí)難度以及降低學(xué)習(xí)時間消耗的目的。

目前在粗糙集理論中,窮舉法與啟發(fā)式方法被公認(rèn)為是求解約簡的兩大類基本方法。然而很多窮舉搜索與啟發(fā)式搜索策略都將數(shù)據(jù)集中的所有樣本視為同等重要,當(dāng)樣本量非常巨大時,這會帶來較低的約簡求解效率。為解決這一問題,已有眾多學(xué)者將樣本選擇的概念引入到約簡求解過程中。樣本選擇的概念最早是由Hart 提出,他提出了壓縮近鄰規(guī)則[11],隨后亦有學(xué)者提出了很多改進(jìn)策略,如縮減最近鄰[12]、有序最近鄰[13]和快速壓縮最近鄰[14]等。當(dāng)涉及約簡求解的問題時,已有學(xué)者[15-19]關(guān)注到不同的樣本對屬性重要度評價的貢獻(xiàn)是不同的,如王熙照等[15]提出的K-means 樣本選擇算法將遠(yuǎn)離類簇中心點(diǎn)的樣本視為重要的;隨后Xu 等[19]將這種方法應(yīng)用到多標(biāo)記數(shù)據(jù)的維度壓縮問題中。但他們在追求時間效率的同時忽略了約簡在測試集上的分類性能。

基于以上分析,筆者提出了一種基于樣本一致性原則的樣本選擇算法(以下簡稱為一致性采樣),一致性采樣的主要思想為:1)給定一個樣本,找到距離自己最近的鄰居;2)判斷這一鄰居是否與自身屬于同一類別,若屬于同一類別,則將該樣本選中;3)最后將所有選中的樣本組成一個新的數(shù)據(jù)集。

1 基礎(chǔ)知識

在粗糙集理論中,一個決策系統(tǒng)可表示為一個二元組DS=,U是所有樣本構(gòu)成的非空有限集合,即論域;AT 是所有條件屬性的集合;D是決策屬性的集合且AT∩D=?。當(dāng)D的取值都為離散型時,可得U/IND (D)={X1,X2, ···,Xq},其表示根據(jù)決策屬性D所誘導(dǎo)出的論域上的劃分,對于?Xp∈U/IND(D),Xp表示第p個決策類,其中[x]D表示與x屬于同一個決策類的樣本的集合。

定義1給定一個決策系統(tǒng)DS, ?A? AT, 則鄰域關(guān)系定義為

其中,?x,y∈U,r(x,y)表示樣本x與y之間的歐氏距離,δ>0 稱為鄰域半徑。

則由式(1),容易得到關(guān)于A樣本x的鄰域:

定義2給定一個決策系統(tǒng)DS,U/IND(D)={X1,X2, ···,Xq}, ?A?A T, ?Xp∈U/IND(D),Xp關(guān)于A的下近似集和上近似集分別定義為

定義3[20]給定一個決策系統(tǒng)DS,U/IND(D)={X1,X2, ···,Xq}, ?A? AT,D關(guān)于A的近似質(zhì)量定義如下:

其中|U|表示集合X的基數(shù)。

顯然0≤γ(A,D)≤1 成立。γ(A,D)表示根據(jù)條件屬性A, 那些確定屬于某一決策類別的樣本占總體樣本的比例。

條件熵是屬性約簡中另外一種常用的度量準(zhǔn)則,它能反映條件屬性相對于決策屬性的鑒別能力。根據(jù)不同的需求,很多學(xué)者設(shè)計并定義了多種形式的條件熵[21-25],一種經(jīng)典的形式可定義為:

定義4[25]給定一個決策系統(tǒng)DS, ?A? AT,D關(guān)于A的條件熵定義如下:

顯然,條件熵的值越小,條件屬性相對于決策屬性鑒別能力越大。

2 屬性約簡

屬性約簡作為粗糙集領(lǐng)域的一個核心內(nèi)容,其主要目的是根據(jù)某一給定的約束條件來去除全部屬性中的冗余、不相關(guān)的屬性。目前求解約簡的常用策略包括窮舉式算法和啟發(fā)式算法。雖然前者可以得到一個數(shù)據(jù)中的所有約簡,但當(dāng)數(shù)據(jù)維數(shù)急劇升高時,它的時間消耗隨之增大,過大的時間消耗導(dǎo)致算法并不適用于處理實(shí)際問題。與窮舉式算法不同,啟發(fā)式算法因其較高的時間效率得到了眾多學(xué)者的青睞,它運(yùn)用貪心策略,每次迭代過程中其將屬性重要度最大的屬性加入到潛在約簡集合中,直至滿足約束條件則終止算法。因此,接下來需要給出屬性重要度的表達(dá)式。

對于近似質(zhì)量(利用式(7) 來計算屬性重要度),ai的重要度越大,表示ai對其值的提升效果越明顯。而對于條件熵而言(利用式(8)來計算屬性重要度),ai的重要度越大,則表示ai對其值的降低效果越明顯。

定義5給定一個決策系統(tǒng)DS, ?A? AT,A是DS 中的一個關(guān)于φ的約簡當(dāng)且僅當(dāng):

(1)φ(A,D)滿足約束條件;

(2) ?A'?A,φ(A',D)不滿足約束條件。

在定義5 中,“φ”可以是“γ”也可以是“ENT”。當(dāng)φ=γ時,約束條件可以定義為γ(A,D)≥γ(AT,D),它表示利用約簡A中的屬性計算的近似質(zhì)量值應(yīng)不低于利用全部屬性(AT)計算的近似質(zhì)量值;而當(dāng)φ=ENT 時,約束條件則定義為ENT(A,D)≤ENT (AT,D), 它表示利用約簡A中的屬性計算的條件熵值應(yīng)不高于利用全部屬性(AT)計算的條件熵值。

算法1 給出了一個求解定義5 所示φ約簡的啟發(fā)式框架型描述。

算法1 啟發(fā)式算法

輸入決策系統(tǒng)DS=, 半徑δ

輸出一個關(guān)于φ的約簡:A

1) 計算φ(AT,D);

2)A←?;

3):

(1) ?ai∈AT?A,計算屬性ai的重要度Sigφ(ai,A,D);

(2) 選出一個重要度最大的屬性b, 令A(yù)=A∪{b};

(3) 計算φ(A,D);

4) 如果φ(A,D)滿足約束條件,則直接轉(zhuǎn)至5)

5) 返回A

算法1 的時間復(fù)雜度為O(|U|2·|AT|2),其中|U|為論域中樣本數(shù)目,|AT|為條件屬性數(shù)目。

算法1 是基于單準(zhǔn)則設(shè)計的,而運(yùn)用基于單準(zhǔn)則的算法得到的約簡往往僅能滿足一個約束條件,而此約簡結(jié)果可能無法滿足其他約束條件。例如:僅使用近似質(zhì)量得到的約簡滿足自身的約束條件,但它往往無法同時提高分類能力,這主要是因?yàn)榻瀑|(zhì)量是用來描述數(shù)據(jù)中的確定性程度,而與數(shù)據(jù)的分類關(guān)系不大。為了彌補(bǔ)這一局限,近年來,根據(jù)多準(zhǔn)則設(shè)計的約簡也開始受到學(xué)者的重視。如Yang 與Yao[26]提出的集成選擇器極大地豐富了約簡的求解策略;隨后,Li 等[27]利用這一思想設(shè)計了基于調(diào)和平均的多準(zhǔn)則屬性約簡。Liu 等[21]進(jìn)一步利用集成思想,將其擴(kuò)展應(yīng)用到半監(jiān)督領(lǐng)域中。一般來說,多準(zhǔn)則啟發(fā)式算法可由算法2 實(shí)現(xiàn)。

算法2多準(zhǔn)則啟發(fā)式算法

輸入決策系統(tǒng)DS=, 半徑δ

輸出一個多準(zhǔn)則約簡:A

1) 計算φ1(AT,D),φ2(AT,D), ···,φm(AT,D);

(1) For 1 ≤k≤m

?ai∈AT?A,計算屬性ai的重要度 S igφk(ai,A,D);選出重要度最大的屬性

End For

2)A←?;

3)

(3)A=A∪{b};

(4) 計算φ1(A,D),φ2(A,D), · · ·,φm(A,D);

4) 如果對于任意的k(1≤k≤m),φk(A,D)滿足約束條件,則直接轉(zhuǎn)至步驟5); 否則轉(zhuǎn)至步驟3);

5) 返回A。

算法2 的時間復(fù)雜度為O(m·|U|2·|AT|2)。在每次迭代過程,3)將m個準(zhǔn)則下重要度最大的屬性分別選擇出來并記錄每個屬性出現(xiàn)的頻次,選取頻次最高的屬性加入到潛在約簡集合中:1)如果出現(xiàn)頻次最高的屬性是唯一的,則直接將其加入到潛在約簡集合中;2)否則,出現(xiàn)頻次最高的屬性發(fā)生沖突情況,即兩個或多個屬性的頻次同時達(dá)到最高,則需要進(jìn)行選擇,為了保證算法的穩(wěn)定性,將位置靠前的屬性加入到潛在約簡集合中。

3 一致性采樣約簡

顯然,第2 節(jié)所示的兩個算法都是基于掃描數(shù)據(jù)中的全部樣本來實(shí)現(xiàn)的。但當(dāng)數(shù)據(jù)體量較大時,這種求解策略的時間消耗較高。為了進(jìn)一步壓縮算法的時間消耗,可以將樣本選擇的方法引入到約簡求解過程中。不同的樣本選擇方法會選取不同的樣本,進(jìn)而產(chǎn)生不同的分類效果。本文將一致性從樣本間距離與樣本的決策屬性值角度出發(fā),目的是使得算法可以利用選擇出的樣本獲取更高的分類精度。算法大致分為兩個主要部分:1)要全部樣本組成的決策系統(tǒng)上進(jìn)行采樣處理以構(gòu)建含有較少樣本個數(shù)的新決策系統(tǒng);2)隨后,將一致性采樣的思想應(yīng)用到屬性約簡的求解過程中。具體算法流程如下所示。

算法3一致性采樣約簡算法

輸入決策系統(tǒng)DS=, 半徑δ;

輸出一個約簡A。

1)

(1) 令U'=?;

(2) ?y∈U, 計算樣本之間距離r(x,y);(3) 對r(x,y)進(jìn)行排序;

(4) 取距離測試樣本y最近的樣本,若二者的決策值相同,則選中該測試樣本并將其加入到U'中;

(5)將新選中的樣本組成新的決策系統(tǒng)DS'=;

2) 在新的決策系統(tǒng)DS'中計算φ1(AT,D),

3)A←?;

4)

?ai∈AT?A,計算屬性ai的重要度 S igφk(ai,A,D);選出重要度最大的屬性

End For

5) 如果對于任意的k(1≤k≤m),φk(A,D)滿足約束條件,則直接轉(zhuǎn)至步驟6) ; 否則轉(zhuǎn)至步驟4) ;

6) 返回A。

算法3 的時間復(fù)雜度為O(|U|2+m·|U'|2·|AT|2)。其中,|U'|為新的決策系統(tǒng)中樣本的個數(shù)。步驟1 為樣本選擇的過程,將一致性樣本選擇出來的時間復(fù)雜度為O(|U|2)。而之后的步驟則是用啟發(fā)式算法求解約簡,由于使用的是新的決策系統(tǒng),則時間復(fù)雜度為O(m·|U'|2·|AT|2)。這里的啟發(fā)式算法可以為單準(zhǔn)則屬性約簡算法也可以為多準(zhǔn)則屬性約簡算法,當(dāng)m=1 時則簡化為單準(zhǔn)則屬性約簡算法。換言之,無論單準(zhǔn)則還是多準(zhǔn)則約簡算法,都可先經(jīng)過采樣后再根據(jù)具體需求設(shè)計相應(yīng)的屬性約簡算法。

4 實(shí)驗(yàn)分析

為了驗(yàn)證算法3 的有效性,筆者從UCI 數(shù)據(jù)集中選取了8 組數(shù)據(jù),數(shù)據(jù)的基本描述如表1 所列。實(shí)驗(yàn)環(huán)境為PC 機(jī),雙核2.60 GHz CPU,8 GB 內(nèi)存,windows 10 操作系統(tǒng),Matlab R2016a實(shí)驗(yàn)平臺。

表1 數(shù)據(jù)描述Table 1 Data sets description

實(shí)驗(yàn)采用了5 折交叉驗(yàn)證的方法,并且選取了10 個不同的半徑δ, 其值分別為0.03,0.06, ···,0.3。5 折交叉驗(yàn)證的具體實(shí)施過程是將實(shí)驗(yàn)數(shù)據(jù)中的樣本平均分成5 份,即U1,U2, ∪ ···,U5。第一次使用U2∪U3∪ ···∪U5作為訓(xùn)練集求得約簡A1,使用U1作為測試集并在其中利用A1中的屬性計算分類精度;第2 次使用U1∪U3∪…∪U5作為訓(xùn)練集求得約簡A2,使用U2作為測試集并在其中利用A2中的屬性計算分類精度;依次類推,第5 次使用U1∪U2∪ ···∪U4作為訓(xùn)練集求得約簡A5,使用U5作為測試集并在其中利用A5中的屬性計算分類精度。

本組實(shí)驗(yàn)選取了近似質(zhì)量、條件熵以及多準(zhǔn)則(同時滿足近似質(zhì)量和條件熵的約束條件) 作為約簡的度量準(zhǔn)則。實(shí)驗(yàn)將一致性采樣屬性約簡算法與基于K-means 采樣[15]的屬性約簡算法(這里K的取值等于數(shù)據(jù)的決策類數(shù)目)進(jìn)行對比分析。在上述8 組數(shù)據(jù)集上分別計算并比較了基于這3 種約簡的分類精度。其中,在計算分類精度時,分別采用了鄰域分類器(NEC)[28]和SVM 分類器[29],實(shí)驗(yàn)結(jié)果如圖1、圖2 所示。

圖1 鄰域分類器下分類精度的對比Fig.1 Comparisons among classification accuracies with using NEC

圖2 SVM 分類器下分類精度的對比Fig.2 Comparisons among classification accuracies with using SVM

在以下的結(jié)果圖中,用KS-A、KS-E、KS-U 分別表示基于K-means 采樣的近似質(zhì)量約簡、條件熵約簡、多準(zhǔn)則約簡,OS-A、OS-E、OS-U 分別表示基于一致性采樣的近似質(zhì)量約簡、條件熵約簡、多準(zhǔn)則約簡。

觀察圖1 可以發(fā)現(xiàn),在10 個半徑下,不難得出如下結(jié)論:

1) 相較于基于K-means 采樣的約簡,利用基于一致性采樣的約簡在測試樣本上可以獲得更好的分類效果;

2) 在3 個度量準(zhǔn)則的比較中,利用條件熵約簡能夠大體上使得分類精度達(dá)到最高。此外,一致性采樣相較于K-means 采樣來說,當(dāng)利用近似質(zhì)量作為約簡的度量準(zhǔn)則時,約簡在測試樣本上分類效果的提升最為明顯。這主要是因?yàn)橄噍^于K-means 采樣來說,一致性采樣能夠使得較多的樣本落入下近似集中,從而較大幅度地提升近似質(zhì)量的值,使得在約簡迭代過程中,需要更多的屬性被加入到約簡集合中。

觀察圖2,不難得出如下結(jié)論:

1) 由于SVM 分類器在計算分類精度時沒有使用半徑這一參數(shù),所以本文主要比較兩者的分類精度的平均值,可以發(fā)現(xiàn)相較于基于K-means采樣的約簡,基于一致性采樣的約簡在測試樣本上能夠提供較高的分類精度;

2) 在3 個度量準(zhǔn)則的比較中,利用多準(zhǔn)則策略大體上可以使得分類精度達(dá)到最高,這主要是因?yàn)槎鄿?zhǔn)則約簡同時滿足近似質(zhì)量與條件熵的約束條件,較多的約束條件需要較多的屬性才能完成目標(biāo)。

觀察圖3 可以發(fā)現(xiàn),相較于K-means 采樣,利用一致性采樣進(jìn)行約簡求解,大體上需要更多的時間消耗,這主要是因?yàn)槔靡恢滦圆蓸拥玫降臉颖緮?shù)量往往比利用K-means 采樣所得到的樣本數(shù)量多,這一事實(shí)可以參照表2。

圖3 約簡求解的時間消耗對比Fig.3 Comparisons among elapsed time for computing reducts

表2 采樣后數(shù)目Table 2 Number of data after sample selection

5 結(jié)束語

為了提高約簡的求解效率,本文提出一種基于一致性原則的采樣方法。進(jìn)一步地,將基于一致性采樣與基于聚類采樣所求得的約簡結(jié)果進(jìn)行對比分析,實(shí)驗(yàn)結(jié)果表明,相較于聚類采樣,一致性采樣的約簡結(jié)果可以有效地提升分類器的分類性能。在這一工作的基礎(chǔ)上,本文將就以下問題展開進(jìn)一步探討:

1) 本文僅僅從整體角度考慮度量準(zhǔn)則,在之后的研究中可以進(jìn)一步引入一些局部度量準(zhǔn)則[30]如:局部近似質(zhì)量、局部條件熵等。

2) 本文算法及所使用的對比算法都僅僅是建立在一種采樣技術(shù)的基礎(chǔ)上的,今后可以嘗試使用混合采樣的方法[31]以進(jìn)一步地提升約簡的性能。

猜你喜歡
一致性定義分類
關(guān)注減污降碳協(xié)同的一致性和整體性
公民與法治(2022年5期)2022-07-29 00:47:28
注重教、學(xué)、評一致性 提高一輪復(fù)習(xí)效率
IOl-master 700和Pentacam測量Kappa角一致性分析
分類算一算
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
基于事件觸發(fā)的多智能體輸入飽和一致性控制
修辭學(xué)的重大定義
主站蜘蛛池模板: a级毛片在线免费观看| 国产精品无码AV中文| 久久久受www免费人成| 亚洲av成人无码网站在线观看| 毛片在线看网站| 97在线免费视频| 四虎成人精品| 国产一区二区三区在线精品专区| 国产一区二区精品福利| 久久婷婷六月| 久久99热这里只有精品免费看| 国产情侣一区| 亚洲精品桃花岛av在线| 91小视频在线观看免费版高清| 亚洲欧美日本国产综合在线 | 亚洲免费毛片| 日本免费福利视频| 毛片在线区| 不卡无码h在线观看| а∨天堂一区中文字幕| 九色在线观看视频| 成人国产精品视频频| 免费高清a毛片| 经典三级久久| 香蕉久久永久视频| 欧洲免费精品视频在线| 国产精品免费p区| 欧洲欧美人成免费全部视频 | 毛片免费在线| 亚洲性影院| a毛片基地免费大全| 欧美黑人欧美精品刺激| 国产精品无码AV片在线观看播放| 欧美一级黄片一区2区| 亚洲一级色| 国产精品专区第一页在线观看| 国产第四页| 亚洲男女天堂| 欧美a在线看| 久久 午夜福利 张柏芝| 无码福利日韩神码福利片| 野花国产精品入口| 亚洲精品手机在线| AV熟女乱| 综合色88| 91亚洲精选| 亚洲区一区| 亚洲一区二区三区国产精品 | 国产精品一区二区国产主播| 国产AV无码专区亚洲精品网站| 中文无码精品a∨在线观看| 欧美一级99在线观看国产| 无码一区二区三区视频在线播放| 国产一级在线观看www色| 久久77777| 韩国自拍偷自拍亚洲精品| 成人精品区| 99热这里只有精品2| 欧美午夜一区| 91成人在线免费观看| 91免费观看视频| 国产精品久久久久久久久kt| 国产免费久久精品99re丫丫一| 亚洲va视频| 亚洲三级视频在线观看| 亚洲一区二区日韩欧美gif| 国产精品页| 亚洲视频三级| 91丝袜在线观看| P尤物久久99国产综合精品| 国产一二视频| 老司机午夜精品网站在线观看 | 日韩中文无码av超清| 91精品国产91久久久久久三级| 中文天堂在线视频| 国产男人的天堂| 日韩毛片免费| 久久男人视频| 自慰网址在线观看| 亚洲中文制服丝袜欧美精品| 国产精品欧美日本韩免费一区二区三区不卡 | 91国内在线视频|