999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于K-means的最小生成樹聚類算法*

2014-07-18 11:56:19歐陽浩黃鎮(zhèn)謹(jǐn)王智文
關(guān)鍵詞:定義實(shí)驗(yàn)評價(jià)

歐陽浩,陳 波,黃鎮(zhèn)謹(jǐn),王 萌,王智文

(廣西科技大學(xué) 計(jì)算機(jī)學(xué)院,廣西 柳州 545006)

基于K-means的最小生成樹聚類算法*

歐陽浩,陳 波,黃鎮(zhèn)謹(jǐn),王 萌,王智文

(廣西科技大學(xué) 計(jì)算機(jī)學(xué)院,廣西 柳州 545006)

傳統(tǒng)的K-means算法只能識(shí)別出類似球形的數(shù)據(jù)集,傳統(tǒng)的MST聚類算法雖然能識(shí)別任意形狀的數(shù)據(jù)集,但對噪聲和異常點(diǎn)十分敏感,由此提出了一種將K-means聚類與MST聚類相結(jié)合的聚類算法。此算法先使用K-means算法將數(shù)據(jù)分割成多個(gè)小的類似球形的數(shù)據(jù)集,然后對各個(gè)小的數(shù)據(jù)集的均值點(diǎn)采用MST聚類算法進(jìn)行聚類分析。實(shí)驗(yàn)證明此算法具有較好的抗干擾性,并且可以識(shí)別出任意形狀分布的數(shù)據(jù)集。為了評價(jià)聚類算法的性能,文中同時(shí)提出了一種新的聚類質(zhì)量評價(jià)函數(shù),實(shí)驗(yàn)證明此評價(jià)函數(shù)是有效的。

聚類分析;K-means;最小生成樹;質(zhì)量評價(jià)函數(shù)

0 引言

K-means算法[1]由于簡單、快速的特點(diǎn),在現(xiàn)實(shí)生活中得到廣泛的應(yīng)用[2-3]。但傳統(tǒng)的K-means算法也存在一些缺陷[4-5]:①要求預(yù)先給定一個(gè)確定的k值;②對初始聚類中心敏感;③只能發(fā)現(xiàn)球形或圓形的簇;④算法對“噪聲”和孤立點(diǎn)敏感。

MST[6-7]聚類算法是對所有的數(shù)據(jù)點(diǎn)建立最小生成樹,再去掉最小樹的若干個(gè)最大邊,從而得到多個(gè)簇。此方法可以發(fā)現(xiàn)任意形狀的簇[8],但實(shí)際應(yīng)用中容易受到“噪聲”的影響[9]。

針對標(biāo)準(zhǔn)K-means算法和MST聚類算法不足,本文做了以下改進(jìn):將K-means算法與MST聚類算法結(jié)合,可以有效地減少“噪聲”對聚類結(jié)果的影響,且能發(fā)現(xiàn)任意形狀的簇。

1 K-means聚類算法和最小生成樹聚類算法

1.1 K-means聚類算法

K-Means算法的核心思想是通過迭代把數(shù)據(jù)對象劃分到不同的簇中,以求目標(biāo)函數(shù)的最小化。其中,通常采用的目標(biāo)函數(shù)形式為平均誤差標(biāo)準(zhǔn)準(zhǔn)則函數(shù):

1.2 最小生成樹聚類算法

最小生成樹聚類算法建立在完全圖的鄰接矩陣基礎(chǔ)上。首先需構(gòu)建賦權(quán)完全圖。在得到各點(diǎn)的距離的鄰接矩陣后,便利用Kruskal或者Prim算法找最小生成樹,再刪除掉最小生成樹中權(quán)值最大的K-1條邊。這樣將得到K個(gè)子樹,這K個(gè)子樹就是K個(gè)簇,如圖1所示。

圖1 MST聚類

2 基于K-means的最小生成樹聚類算法

(KmMST算法)

2.1 基本思想

在傳統(tǒng)的K-means算法中,先給定K的值,然后采用迭代的方式來完成聚類。K值一般情況下數(shù)值取得比較小,這樣帶了的問題是,使得聚類結(jié)果很容易受到噪聲的干擾,而且只有當(dāng)每個(gè)簇的大小近似,形狀類似于球形時(shí)才能得到一個(gè)好的聚類結(jié)果。如果在聚類分析時(shí),能將K取值比較大的時(shí)候,這樣可以將數(shù)據(jù)對象分組成多個(gè)小的球形的簇。如圖2。然后以這些小的簇的均值點(diǎn)建立最小生成樹,刪除掉C-1條最大的邊,從而得到最終的分組。這樣可以降低噪聲或異常點(diǎn)對于聚類分析的影響。并且可以識(shí)別出任意形狀分布的數(shù)據(jù)對象。

圖2 KmMST中間結(jié)果(K=10)

2.2 K-means算法中K的獲取

2.3 算法描述

KmMST算法描述如下:

輸入:n個(gè)數(shù)據(jù)對象,調(diào)節(jié)系數(shù)r,C

輸出:若干個(gè)簇

方法:

(1)計(jì)算K的值,K=|nr|(r∈[0,1]),r的常用系數(shù)為0.5;

(2)使用K-means聚類算法,得到K個(gè)子類;

(3)計(jì)算各個(gè)子類均值點(diǎn)之間的距離,對子類的距離進(jìn)行遞增排序;

(4)采用Kruskal算法,生成最小生成樹;

(5)刪除掉C-1條權(quán)值最大的邊,從而生成C個(gè)連通分支,即C個(gè)類。

2.4 算法的復(fù)雜度分析

假定有n個(gè)數(shù)據(jù)對象,調(diào)節(jié)系數(shù)為r,算法第一步用K-means聚類的時(shí)間復(fù)雜度為O(Knt)=O(nrnt)=O(nr+1t),其中r∈[0,1],t為迭代次數(shù)。算法第二步生成最小生成樹的時(shí)間復(fù)雜度為:O((nr(nr-1)/2)log(nr(nr-1)/2))。所以總的算法的時(shí)間復(fù)雜度為O(nr+1t+(nr(nr-1)/2)log(nr(nr-1)/2))。算法的空間復(fù)雜度為O(n+nr(nr-1)/2)。

3 一種新的聚類質(zhì)量評價(jià)函數(shù)

在實(shí)際的聚類分析算法中,對于聚類結(jié)果的評價(jià)常用的評價(jià)函數(shù)是本文1.1節(jié)中的平均誤差標(biāo)準(zhǔn)準(zhǔn)則函數(shù),此函數(shù)對于分布均勻,大小相近的數(shù)據(jù)集可以進(jìn)行很好的評價(jià),但對于任意動(dòng)態(tài)變化或未知結(jié)構(gòu)的數(shù)據(jù)集的評價(jià)較差[10-11]。本文根據(jù)聚類的特點(diǎn),即簇內(nèi)相似度盡可能高,而簇間相似度盡可能低,提出了一種新的質(zhì)量評價(jià)函數(shù),此評價(jià)函數(shù)可以對任意結(jié)構(gòu)的數(shù)據(jù)按照聚類分析的定義做出相應(yīng)的評價(jià)。

定義1:簇間相異度(inter-clusterdissimilarity,INTER_CD)。簇間相異度是描述聚類中,各個(gè)簇之間的相異度之和,其定義為:

其中C為簇的數(shù)目;dmin(Ti,Tj)表示簇Ti與簇Tj之間的最短距離,即:

定義2:簇內(nèi)相似度(intra-clustersimilarity,INTRA_CS)。簇內(nèi)相似度是描述聚類中,各個(gè)簇內(nèi)部數(shù)據(jù)點(diǎn)之間的相似度,其定義為:

其中wMST(Ti)表示簇Ti的最小生成樹的權(quán)值;|Ti|表示簇Ti中數(shù)據(jù)點(diǎn)的個(gè)數(shù)。

定義3:簇內(nèi)平均誤差(intra-meandifference,INTRA_MD)。平均誤差是描述數(shù)據(jù)點(diǎn)與它們所屬簇的質(zhì)心的誤差的平均值,其定義為:

其中ci表示簇Ti的均值,即:

定義4:簇間平均誤差(inter-meandifference,INTER_MD)。平均誤差是描述數(shù)據(jù)點(diǎn)與其他非屬簇的質(zhì)心的誤差的平均值,其定義為:

定義5:聚類熵(clusteringentropy,CE)。聚類熵是描述聚類中各個(gè)簇?cái)?shù)據(jù)量的均勻分布情況,其定義為:

其中|p|為聚類中所有數(shù)據(jù)對象的個(gè)數(shù)。

定義6:聚類指數(shù)(clusteringindex,CI)。聚類指數(shù)是用于描述聚類質(zhì)量的指數(shù),其定義為:

其中α∈[0,1]。

4 實(shí)驗(yàn)分析

實(shí)驗(yàn)中選擇了3個(gè)不同分布特征的數(shù)據(jù)集進(jìn)行計(jì)算實(shí)驗(yàn),數(shù)據(jù)集通過計(jì)算機(jī)程序隨機(jī)產(chǎn)生,數(shù)據(jù)分布見圖3~圖5。PC機(jī)的配置為:Intel(R)Core(Tm)2DuoCPUET500 @2.93GHz2.93GHz,2.0GB內(nèi)存。軟件環(huán)境是WindowXPSP3V6.2,VC6.0。

4.1 與K-means以及MST聚類算法的比較

實(shí)驗(yàn)1:正態(tài)分布數(shù)據(jù)集的實(shí)驗(yàn)。使用的數(shù)據(jù)集用D1表示,共有250個(gè)二維的數(shù)據(jù)點(diǎn),如圖3所示。由圖3不難看出,D1明顯包含2個(gè)類。圖6是采用K-means聚類算法,K=2;圖7是采用普通MST聚類算法,C=2。圖8是采用KmMST聚類算法,其中K=|nr|=15,(n=250,r=0.5)。

實(shí)驗(yàn)2:大小不均勻數(shù)據(jù)集的實(shí)驗(yàn)。使用的數(shù)據(jù)集用D2表示,共有340個(gè)二維的數(shù)據(jù)點(diǎn),如圖4所示。由圖4不難看出,D2明顯包含2個(gè)類。圖9是采用K-means聚類算法,K=2。圖10是采用普通MST聚類算法。圖11是采用KmMST聚類算法的分析結(jié)果,其中K=|nr|=18,(n=340,r=0.5)。

實(shí)驗(yàn)3:嵌套數(shù)據(jù)集的實(shí)驗(yàn)。使用的數(shù)據(jù)集用D3表示,共有320個(gè)二維的數(shù)據(jù)點(diǎn),如圖5所示。由圖5不難看出,D3明顯包含2個(gè)類。圖12是采用K-means聚類算法,K=2。圖13是采用普通MST聚類算法。圖14是采用KmMST聚類算法最后的分析結(jié)果,其中K=|nr|=17,(n=320,r=0.5)

圖3 實(shí)驗(yàn)1_原始數(shù)據(jù) 圖4 實(shí)驗(yàn)2_原始數(shù)據(jù)

圖5 實(shí)驗(yàn)3_原始數(shù)據(jù) 圖6 實(shí)驗(yàn)1_K-means運(yùn)算結(jié)果

圖7 實(shí)驗(yàn)1_MST聚類運(yùn)算結(jié)果 圖8 實(shí)驗(yàn)1_KmMST運(yùn)算結(jié)果

圖9 實(shí)驗(yàn)2_K-means運(yùn)算結(jié)果 圖10 實(shí)驗(yàn)2_MST聚類運(yùn)算結(jié)果

圖11 實(shí)驗(yàn)2_KmMST運(yùn)算結(jié)果 圖12 實(shí)驗(yàn)3_K-means運(yùn)算結(jié)果

圖13 實(shí)驗(yàn)3_MST聚類運(yùn)算結(jié)果 圖14 實(shí)驗(yàn)3_KmMST運(yùn)算結(jié)

4.2 與DBSCAN算法的比較

實(shí)驗(yàn)4 :DBSCAN算法中使用的人工測試數(shù)據(jù)的實(shí)驗(yàn)。實(shí)驗(yàn)中的數(shù)據(jù)集來自文獻(xiàn)[10]當(dāng)中的人工測試數(shù)據(jù)集D4、D5、D6。其中,D4有280個(gè)數(shù)據(jù)點(diǎn),D5有355個(gè)數(shù)據(jù)點(diǎn),D6有240個(gè)數(shù)據(jù)點(diǎn)。圖15~圖17,分別給出了使用KmMST聚類算法(r=0.5)對D4-D6的實(shí)驗(yàn)結(jié)果。可以看出KmMST同樣能識(shí)別出這三個(gè)測試數(shù)據(jù)集。

圖15 KmMST對D4運(yùn)算結(jié)果 圖16 KmMST對D5運(yùn)算結(jié)果

圖17 KmMST對D6運(yùn)算結(jié)果

實(shí)驗(yàn)5:DBSCAN算法中使用的真實(shí)數(shù)據(jù)的實(shí)驗(yàn)。實(shí)驗(yàn)采用的真實(shí)數(shù)據(jù)是SEQUOIA 2000基準(zhǔn)數(shù)據(jù)庫中的數(shù)據(jù)集,也是文獻(xiàn)[2]中用來對DBSCAN算法進(jìn)行測試的數(shù)據(jù)庫。 圖18給出了KmMST(r=0.5)以及DBSCAN(ε=20,MinPts=4)兩個(gè)算法的性能比較結(jié)果。從圖中可以看出KmMST相對DBSCAN器運(yùn)行時(shí)間更少。

圖18 KmMST與DBSCAN性能對比

表1 聚類性能比較表

4.3 與其他改進(jìn)K-means算法的比較

實(shí)驗(yàn)6:UCI數(shù)據(jù)集的實(shí)驗(yàn)。為了驗(yàn)證KmMST算法的有效性,本文將此算法與文獻(xiàn)[9]中的基于密度的K-Means算法以及文獻(xiàn)[12]中的基于遺傳算法的K-Means算法進(jìn)行比較,分析數(shù)據(jù)來自UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(http://ftp.ics.uci.edu/pub/machine-learning-database),數(shù)據(jù)集為:iris,glass以及wine。表2對這幾個(gè)數(shù)據(jù)集進(jìn)行了描述。

表2 數(shù)據(jù)集描述

基于密度的K-Means算法中參數(shù)ε的設(shè)置在文獻(xiàn)[13]中已驗(yàn)證ε=1.01時(shí),正確率最高。基于遺傳算法的K-Means算法所使用的參數(shù)設(shè)置,來自提供此算法的文獻(xiàn)[12]:種群大小m=30,算法的最大迭代次數(shù)T=100,交叉概率pc1=0.9,pc2=0.6,變異概率pm1=0.1,pcm2=0.001,b=1000。表3給出了三種算法的性能比較。

表3 KmMST與其他改進(jìn)K-Means的性能比較

5 結(jié)束語

本文提出了一種將K-means聚類與MST聚類相結(jié)合的KmMST聚類算法。此算法先將數(shù)據(jù)集分割成多個(gè)小類似球形的分組,然后對各個(gè)分組采用最小樹聚類的方法來完成聚類分析。算法具有較好的抗干擾性,并且可以識(shí)別出任意形狀分布的數(shù)據(jù)集,是一種有效地聚類方法。對于聚類質(zhì)量性能的評價(jià),本文提出了一個(gè)新的質(zhì)量評價(jià)函數(shù)。

本文只對低維的情況進(jìn)行了研究與實(shí)驗(yàn),對于高維的情況仍缺少研究,而且此算法只適用于連續(xù)型的數(shù)據(jù),不適于分組屬性數(shù)據(jù)。因此對于這些問題,需要在今后的工作中作進(jìn)一步的研究。

[1]MacQueenJ.Somemethodsforclassificationandanalysisofmultivariateobservations[C].Proceedingsof5thBerkeleySymposiumonMathematicalStatisticsandProbability.Berkeley:UniversityofCaliforniaPress, 1967: 281-297.

[2] 楊瑞龍,朱慶生,謝洪濤. 快速混合Web文檔聚類[J]. 計(jì)算機(jī)工程與應(yīng)用, 2010,46(22): 12-15.

[3] 向堅(jiān)持,劉相濱,資武成,等.基于密度的K-Means算法及在客戶細(xì)分中的應(yīng)用研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2008,44(35): 246-248.

[4]GuhaS,RastogiR,ShimK.CURE:anefficientclusteringalgorithmfordatabase.In:HaasLM,TiwaryA,eds.ProoftheACMSIGMODInternationalConferenceonManagementofData.Seattle:ACMPress, 1998: 73-84.

[5] Jiawei Han, Micheline Kamber. Data Mining:Concept and Techniques. Beijing Higher Education Press, 2001.

[6] Anil K Jain. Richard C Dubes. Algorithms for clustering data[M]. New Jersey: Prentice-Hall. Inc, 1996: 55.

[7] Charles T Zahn. Graph-theoretical methods for detecting and describing gestalt clusters[J]. IEEE Transactions on Computers, 1971, C-20(1): 68-86.

[8] 楊國慧,周春光,黃艷新,等. 最小生成樹用于基因表示數(shù)據(jù)的聚類算法[J]. 計(jì)算機(jī)研究與發(fā)展, 2003, 40(10): 1431-1435.

[9] 汪閩,周成虎,裴韜,等. 一種帶控制節(jié)點(diǎn)的最小生成樹聚類方法[J]. 中國圖像圖形學(xué)報(bào), 2002, 7(8): 766-770.

[10] 張惟皎,劉春煌,李芳玉.聚類質(zhì)量的評價(jià)方法[J].計(jì)算機(jī)工程, 2005,31(20):10-12.

[11] 韓習(xí)武,趙鐵軍.一種聚類質(zhì)量的評價(jià)方法及其應(yīng)用[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2009,41(11):225-227.

[12] 賴玉霞,劉建平,楊國興.基于遺傳算法的K均值聚類分析[J].計(jì)算機(jī)工程,2008,34(20):200-202.

[13] 王莉,周獻(xiàn)中,沈捷.一種改進(jìn)的粗K均值聚類算法[J].控制與決策,2012,27(11):1711-1714,1719.

(編輯 趙蓉)

MST Clustering Algorithm Based on K-means

OUYANG Hao,CHEN Bo,HUANG Zhen-jin,WANG Meng,WANG Zhi-wen

(Computer School, Guangxi University of Science and Technology, Liuzhou Guangxi 545006, China)

Classical K-means only can distinguish similar sphere-cluster, classical MST clustering algorithm can distinguish arbitrary cluster, but it’s very sensitive to noisy and abnormal data, the paper combine K-means and MST clustering algorithm. Firstly, K-means algorithm divides data to many similar mini sphere-clusters, and then MST clustering algorithm deals with mean points of these mini sphere-clusters. Results show that the new algorithm has good anti-noisy ability, and can distinguish arbitrary cluster. In order to analyze the quality of clustering, the paper provides a new quality evaluation function. Results show the function is effective.

clustering analysis; K-means; MST; quality evaluation function

1001-2265(2014)04-0041-04

10.13462/j.cnki.mmtamt.2014.04.011

2013-08-12;

2013-09-17

廣西自然科學(xué)基金項(xiàng)目(2013GXNSFAA019336);廣西自然科學(xué)基金項(xiàng)目(2013GXNSFBA019280);廣西壯族自治區(qū)教育廳項(xiàng)目(201203YB124);廣西科技大學(xué)科學(xué)基金(校科自1261128)

歐陽浩(1979—),男,湖南平江人,廣西科技大學(xué)講師,碩士,研究方向?yàn)閿?shù)據(jù)挖掘和人工智能等,(E-mial)ouyanghao@tom.com。

TH122;TG65

A

猜你喜歡
定義實(shí)驗(yàn)評價(jià)
記一次有趣的實(shí)驗(yàn)
SBR改性瀝青的穩(wěn)定性評價(jià)
石油瀝青(2021年4期)2021-10-14 08:50:44
做個(gè)怪怪長實(shí)驗(yàn)
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
基于Moodle的學(xué)習(xí)評價(jià)
修辭學(xué)的重大定義
山的定義
保加利亞轉(zhuǎn)軌20年評價(jià)
主站蜘蛛池模板: 亚洲精品少妇熟女| 日本黄色a视频| 国产精品自在自线免费观看| 久青草免费在线视频| 欧美v在线| 三级欧美在线| 91精品啪在线观看国产91九色| 国产区免费精品视频| 无码国产偷倩在线播放老年人| 国产 在线视频无码| 精品国产三级在线观看| 国产第一页免费浮力影院| 国产91视频免费| 欧美日韩午夜视频在线观看| 91在线高清视频| 欧美不卡在线视频| 在线欧美日韩国产| 亚洲欧美一区二区三区麻豆| 国产综合精品日本亚洲777| 国产麻豆va精品视频| 精品国产自在在线在线观看| 亚洲中文字幕在线一区播放| 中国成人在线视频| 亚洲无码高清免费视频亚洲 | 国产在线日本| 亚洲中文字幕在线观看| 色偷偷av男人的天堂不卡| 亚洲人成网址| 亚洲精品视频在线观看视频| 亚洲第一av网站| 91精品啪在线观看国产60岁| 国产青榴视频| 麻豆国产在线观看一区二区| 一区二区欧美日韩高清免费| 亚洲天堂精品在线| 国产区精品高清在线观看| 香蕉视频国产精品人| 韩日午夜在线资源一区二区| 久久午夜夜伦鲁鲁片不卡| 亚洲第一综合天堂另类专| 青草精品视频| 无码区日韩专区免费系列| 欧美精品aⅴ在线视频| 亚洲精品成人片在线观看| 国产情侣一区二区三区| 欧美福利在线| 中国毛片网| 宅男噜噜噜66国产在线观看| 在线观看国产一区二区三区99| 亚洲女同一区二区| 亚洲美女高潮久久久久久久| 91热爆在线| 成人久久精品一区二区三区| 国产18在线播放| 中文字幕久久波多野结衣| 欧洲一区二区三区无码| 欧美日韩一区二区三区在线视频| 久久伊人色| 国产精品久久自在自线观看| 国产呦精品一区二区三区下载 | 青青操视频在线| 久久久久亚洲精品成人网| 午夜在线不卡| 草草线在成年免费视频2| 成年人视频一区二区| 国产高颜值露脸在线观看| 久久国产精品波多野结衣| 国产一级妓女av网站| 91在线无码精品秘九色APP| 毛片基地视频| 人妻精品久久无码区| 九九香蕉视频| 婷婷激情亚洲| 一级毛片基地| 欧美中出一区二区| 亚洲Av综合日韩精品久久久| 国产1区2区在线观看| 97超爽成人免费视频在线播放| 色偷偷av男人的天堂不卡| 青青青国产在线播放| 久久五月天国产自| 中文字幕 日韩 欧美|