999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于圖金字塔的聚類算法

2018-04-18 11:07:52呂曉波張相芬李順寶張玉萍
關(guān)鍵詞:利用方法

呂曉波 馬 燕 張相芬 李順寶 張玉萍

1(上海師范大學(xué)信息與機(jī)電工程學(xué)院 上海 200234) 2(上海師范大學(xué)數(shù)理學(xué)院 上海 200234 )

0 引 言

聚類是按照數(shù)據(jù)集中數(shù)據(jù)間的相似性進(jìn)行區(qū)分和分類的過(guò)程,其分類原則是使同一簇中的數(shù)據(jù)具有盡可能大的相似性,不同簇中的數(shù)據(jù)具有盡可能大的相異性。聚類算法可分為基于劃分的、分層的、密度的、網(wǎng)格的、模型等類型。作為基于劃分的聚類算法,k-means聚類算法[1]因其算法簡(jiǎn)單、執(zhí)行高效而被廣泛應(yīng)用,但其聚類結(jié)果依賴于初始聚類中心的選取,目前提出的k-means++[2]、CCIA[3]、kd-tree[4]等初始聚類中心確定方法無(wú)法普適于任何數(shù)據(jù)集,并且k-means算法易受離群點(diǎn)影響,導(dǎo)致聚類結(jié)果不穩(wěn)定,聚類精度不高。作為基于分層的層次聚類算法,包括兩種類型:凝聚的層次聚類和分裂的層次聚類[5],層次聚類方法的缺點(diǎn)在于不能改進(jìn)先前的錯(cuò)誤分類,一旦一個(gè)樣本被分在一個(gè)類之后,便不再有變化,缺乏穩(wěn)健性和抗干擾能力,特別是當(dāng)簇間有交疊時(shí),會(huì)產(chǎn)生錯(cuò)誤聚類結(jié)果。為改進(jìn)其效果,一些新的層次聚類算法被提出,包括CURE、ROCK、CHAMELEON和BIRCH[6]。基于密度的聚類算法,如DBSCAN方法[7],將密度較大的點(diǎn)集劃分為簇,彌補(bǔ)了基于劃分和基于層次的聚類算法只能發(fā)現(xiàn)凸形簇的缺陷,但該方法對(duì)于高維數(shù)據(jù)和密度變化較大的數(shù)據(jù)集聚類效果較差。

受小波多分辨率分析[8]啟發(fā),數(shù)據(jù)集中的所有數(shù)據(jù)點(diǎn)可以看作是高分辨率表示,這些數(shù)據(jù)點(diǎn)逐步被歸類到不同簇,不同簇的代表點(diǎn)又可看作是低分辨率的近似。因此,本文提出一種基于圖金字塔的聚類算法,首先輸入數(shù)據(jù)集的類別數(shù)目K,利用圖論對(duì)數(shù)據(jù)點(diǎn)構(gòu)建最小生成樹(shù),按節(jié)點(diǎn)優(yōu)先值由高到低遍歷最小生成樹(shù),進(jìn)行節(jié)點(diǎn)間的合并,反復(fù)進(jìn)行此過(guò)程,由此建立從高分辨率到低分辨率、由合并數(shù)據(jù)點(diǎn)構(gòu)成的金字塔結(jié)構(gòu),位于金字塔塔頂?shù)腒個(gè)代表點(diǎn)即為最終聚類結(jié)果。

1 基于圖金字塔的聚類算法

1.1 構(gòu)建最小生成樹(shù)

當(dāng)以較小的尺度去觀察數(shù)據(jù)集時(shí),看到的是數(shù)據(jù)集中的每個(gè)數(shù)據(jù)點(diǎn),相當(dāng)于金字塔的最底層[9]。對(duì)應(yīng)高分辨率表示,這里的高分辨率指數(shù)據(jù)點(diǎn)未參加合并,相當(dāng)于數(shù)據(jù)集中的原始數(shù)據(jù)點(diǎn)。假定數(shù)據(jù)集中一共有9個(gè)數(shù)據(jù)點(diǎn),圖1中0層,其中包括9個(gè)數(shù)據(jù)點(diǎn),則可以認(rèn)為0層即為高分辨率表示。而當(dāng)我們以較大的尺度去觀察數(shù)據(jù)集時(shí),在0層中距離較近的數(shù)據(jù)點(diǎn)可以被合并為一個(gè)新的數(shù)據(jù)點(diǎn),如圖1中的1層,對(duì)應(yīng)低分辨率近似,其數(shù)據(jù)點(diǎn)個(gè)數(shù)分別為5個(gè)。假定數(shù)據(jù)集的類別數(shù)目K等于2時(shí),圖1的2層中的2個(gè)數(shù)據(jù)點(diǎn)已包含2個(gè)簇中所有數(shù)據(jù)點(diǎn)的信息。

圖1 數(shù)據(jù)點(diǎn)的金字塔結(jié)構(gòu)

要實(shí)現(xiàn)基于多分辨率思想的聚類,可以通過(guò)將數(shù)據(jù)點(diǎn)表示為最小生成樹(shù)(MST)[11]來(lái)完成,從MST中進(jìn)一步獲取節(jié)點(diǎn)的密度及其相鄰節(jié)點(diǎn)等信息。給定包含n個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)集D,數(shù)據(jù)集中的n個(gè)數(shù)據(jù)點(diǎn)可以看作是MST中的n個(gè)節(jié)點(diǎn),MST中邊的權(quán)重等于對(duì)應(yīng)兩個(gè)數(shù)據(jù)點(diǎn)間的歐幾里德距離,生成的MST是在所有由n個(gè)節(jié)點(diǎn)構(gòu)成的樹(shù)中,n-1條邊的權(quán)重總和最小的生成樹(shù)。

1.2 節(jié)點(diǎn)優(yōu)先級(jí)的計(jì)算

當(dāng)對(duì)數(shù)據(jù)集中的所有數(shù)據(jù)點(diǎn)構(gòu)建了MST以后,下一步就要遍歷各節(jié)點(diǎn),將一些距離鄰近的節(jié)點(diǎn)進(jìn)行合并,形成新的節(jié)點(diǎn)并用于下一次遍歷。在遍歷中如果順序遍歷節(jié)點(diǎn),則會(huì)導(dǎo)致錯(cuò)誤的聚類結(jié)果。如圖2所示,理想的節(jié)點(diǎn)合并方案是節(jié)點(diǎn)1、2合并,節(jié)點(diǎn)3、4、5合并,但如果在遍歷時(shí),首先找到節(jié)點(diǎn)3,則極有可能將其鄰節(jié)點(diǎn)2、4、5與節(jié)點(diǎn)3合并,而距離較近的節(jié)點(diǎn)1、2則未被合并。

圖2 數(shù)據(jù)點(diǎn)示意圖

為得到正確的聚類結(jié)果,應(yīng)按節(jié)點(diǎn)的優(yōu)先級(jí)由高到低的順序遍歷節(jié)點(diǎn)。對(duì)于密度較大的節(jié)點(diǎn)應(yīng)具有較高的優(yōu)先級(jí),使其能合并鄰節(jié)點(diǎn),MST中節(jié)點(diǎn)的度與其密度呈正比關(guān)系,因此,

在定義節(jié)點(diǎn)的優(yōu)先級(jí)時(shí),應(yīng)遵循以下原則:

(1) 節(jié)點(diǎn)的度越大,優(yōu)先級(jí)應(yīng)該越高,反之,則越低。

(2) 在節(jié)點(diǎn)度相同的情況下,與節(jié)點(diǎn)相連的最短邊的長(zhǎng)度越短,則該節(jié)點(diǎn)優(yōu)先級(jí)應(yīng)該越高,反之,則越低。

按上述原則,我們定義節(jié)點(diǎn)vi的優(yōu)先級(jí)pi:

(1)

(2)

(3)

1.3 節(jié)點(diǎn)的遍歷與合并

獲得MST中所有節(jié)點(diǎn)的優(yōu)先級(jí)以后,進(jìn)行節(jié)點(diǎn)間的合并,具體步驟如下:

按優(yōu)先級(jí)降序遍歷MST中的所有n個(gè)節(jié)點(diǎn),并判斷遍歷到的節(jié)點(diǎn)vi是否參與過(guò)合并,如果已參與過(guò)合并,則不再參與合并,否則在MST中找到與vi存在邊相連的所有節(jié)點(diǎn),在這所有的節(jié)點(diǎn)中,將符合如下要求的節(jié)點(diǎn)挑選出來(lái)并與vi合并:該節(jié)點(diǎn)未參與過(guò)合并,在所有與vi存在邊相連的節(jié)點(diǎn)中,該節(jié)點(diǎn)與vi的距離最小;這里,如果有多個(gè)節(jié)點(diǎn)與vi的距離相等且最小,則與vi合并的節(jié)點(diǎn)數(shù)目大于1。

(4)

整個(gè)算法流程見(jiàn)圖3。

圖3 算法流程

MST中所有節(jié)點(diǎn)的初始值為1,合并后新節(jié)點(diǎn)的質(zhì)量等于合并前所有節(jié)點(diǎn)質(zhì)量之和,該值其實(shí)就是參與合并的節(jié)點(diǎn)總數(shù)。按式(4),參與合并的節(jié)點(diǎn)質(zhì)量越大,則在屬性值中所占的權(quán)重越大,即合并后的新節(jié)點(diǎn)越接近該節(jié)點(diǎn)。當(dāng)遍歷完所有n個(gè)節(jié)點(diǎn)或n等于類別數(shù)K,則結(jié)束本次遍歷;否則繼續(xù)本次遍歷。若當(dāng)前總的節(jié)點(diǎn)數(shù)目大于類別數(shù)K,則對(duì)當(dāng)前的節(jié)點(diǎn)生成MST,繼續(xù)進(jìn)行遍歷與合并;若當(dāng)前總的節(jié)點(diǎn)數(shù)目等于類別數(shù)K,則聚類結(jié)束,K個(gè)節(jié)點(diǎn)中所有參與合并的節(jié)點(diǎn)分別構(gòu)成K個(gè)簇,從而得到聚類結(jié)果。

2 算法分析

其次,將本文方法與k-means方法在數(shù)據(jù)集中有離群點(diǎn)的情況下的性能作一比較。

在k-means方法中,常用k-means++方法來(lái)選取初始聚類中心,該方法僅考慮數(shù)據(jù)點(diǎn)間的距離因素,而忽略數(shù)據(jù)點(diǎn)的密度,從而易將離群點(diǎn)作為聚類中心,最終導(dǎo)致錯(cuò)誤聚類結(jié)果。而在利用本文方法時(shí),由于離群點(diǎn)與其他數(shù)據(jù)點(diǎn)的屬性相差較大,在對(duì)所有數(shù)據(jù)點(diǎn)生成MST時(shí),離群點(diǎn)大多是MST中的葉子節(jié)點(diǎn),且與鄰接點(diǎn)間的距離較大,按式(1)計(jì)算得到的優(yōu)先級(jí)較小,遍歷MST中參與合并的機(jī)會(huì)也較小,其質(zhì)量也相應(yīng)低于其他優(yōu)先級(jí)高的節(jié)點(diǎn)。由于式(4)是以參與合并節(jié)點(diǎn)的質(zhì)量為權(quán)重計(jì)算新節(jié)點(diǎn)的屬性值,參與合并節(jié)點(diǎn)的質(zhì)量越小則權(quán)重越小,從而使得離群點(diǎn)對(duì)于新節(jié)點(diǎn)屬性值的影響較小。因此,本文方法受離群點(diǎn)的影響較小。

接著,將本文方法與層次聚類法在簇間有交疊的情況下的性能作一比較。

在層次聚類法的每次迭代中,以距離作為合并準(zhǔn)則,將距離最近的兩個(gè)簇合并為新的簇,在合并過(guò)程中,忽略了密度因素。在遇到兩個(gè)簇發(fā)生交疊的情況時(shí),則會(huì)將交疊部分錯(cuò)誤地歸為某一簇,又由于層次聚類法的聚類過(guò)程是不可逆的,由此導(dǎo)致錯(cuò)誤聚類結(jié)果。本文方法是按節(jié)點(diǎn)優(yōu)先級(jí)降序遍歷節(jié)點(diǎn),位于兩個(gè)簇交疊處的節(jié)點(diǎn),又可以認(rèn)為是位于簇邊界的節(jié)點(diǎn),其度數(shù)一般小于位于簇中心的節(jié)點(diǎn),故優(yōu)先級(jí)也較小,往往在較后面才會(huì)被遍歷到。而該節(jié)點(diǎn)與同屬本簇的相鄰節(jié)點(diǎn)的距離一般小于與異簇節(jié)點(diǎn)的距離,因此,在該節(jié)點(diǎn)被遍歷前,大多已被本簇優(yōu)先權(quán)值較高的節(jié)點(diǎn)合并。由此,本文提出的方法較好地解決了簇間有交疊的情況。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 離群點(diǎn)的影響

為了驗(yàn)證本算法相對(duì)于k-means算法在處理離群點(diǎn)時(shí)的穩(wěn)定性,我們產(chǎn)生了具有330個(gè)數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)包含2個(gè)屬性的人工合成數(shù)據(jù)集SYN1,該數(shù)據(jù)集的類別數(shù)K=3,對(duì)應(yīng)在二維空間下的數(shù)據(jù)點(diǎn)集如圖4所示。從圖4可以看出該SYN1中包含部分離群點(diǎn)。圖5為利用k-means方法聚類結(jié)果,其中,初始聚類中心確定方法是采用k-means++[2],其基本思想是初始聚類中心間的相互距離盡可能遠(yuǎn)。我們?nèi)? 000次結(jié)果的均值作為最終聚類結(jié)果。圖中“▲”表示通過(guò)隨機(jī)選取法選擇的3個(gè)初始聚類中心。圖6為利用本文方法的聚類結(jié)果。圖5和圖6中利用“+”,“°”與“×”表示聚類得到的三類數(shù)據(jù)。從圖5與圖6,可以看出,利用本文方法準(zhǔn)確地得到了聚類結(jié)果,而利用k-means++方法選取的3個(gè)初始聚類中心,其中有2個(gè)初始聚類中心位于離群點(diǎn),從而導(dǎo)致k-means方法陷入局部最優(yōu)解,最終導(dǎo)致錯(cuò)誤聚類結(jié)果。

圖4 SYN1數(shù)據(jù)集

圖5 k-means方法

圖6 本文方法

3.2 簇間有交疊的影響

為進(jìn)一步驗(yàn)證本文方法相對(duì)于層次聚類算法在簇間有交疊時(shí)聚類結(jié)果的穩(wěn)定性,我們產(chǎn)生了具有800個(gè)數(shù)據(jù)點(diǎn),簇間有一定的交疊,每個(gè)數(shù)據(jù)點(diǎn)包含兩個(gè)屬性的人工合成數(shù)據(jù)集SYN2,該數(shù)據(jù)集的類別數(shù)K=3,對(duì)應(yīng)在二維空間下的數(shù)據(jù)點(diǎn)集如圖7所示。圖8為利用層次聚類法得到的聚類結(jié)果,其中,層次聚類法中的類間距離計(jì)算方法使用離差法,圖9為利用本發(fā)明方法得到的聚類結(jié)果。圖8和圖9中利用“+”,“°”與“×”表示聚類得到的三類數(shù)據(jù)。從圖8可見(jiàn),由于中間與下面這2個(gè)簇間有交疊,導(dǎo)致下面的簇被錯(cuò)誤聚類。從圖9中可見(jiàn),利用本文方法獲得了正確的聚類結(jié)果。

圖7 SYN2數(shù)據(jù)集

圖8 層次聚類法

圖9 本文方法

3.3 真實(shí)數(shù)據(jù)集

利用本文方法分別對(duì)UCI[10]里的4個(gè)數(shù)據(jù)集:Iris、Wine、Soybean-small、Segment進(jìn)行實(shí)驗(yàn)并得出實(shí)驗(yàn)結(jié)果,然后將其與k-means方法以及層次聚類法得出的結(jié)果進(jìn)行比較。這四個(gè)數(shù)據(jù)集的信息如表1所示。

表1 數(shù)據(jù)集信息

對(duì)于k-means方法,挑選了具有代表性初始聚類中心確定方法:k-means++,CCIA和kd-tree,取1 000次結(jié)果的均值作為k-means++最終聚類結(jié)果。為評(píng)價(jià)上述聚類方法的優(yōu)劣,我們運(yùn)用4種聚類有效性評(píng)價(jià)指標(biāo):Accuracy(AC)、Adjusted Rand Index(ARI)、Rand Index(RI)和Mirkin Metric Index(MI)[11]對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。除了MI之外的所有指標(biāo),其評(píng)價(jià)指標(biāo)越高則說(shuō)明聚類效果越好,而對(duì)于MI來(lái)說(shuō),評(píng)價(jià)指標(biāo)越低則說(shuō)明聚類效果越好。表2顯示了利用本文方法、k-means++、CCIA、kd-tree、層次聚類這5種方法在Iris,Wine,Soybean-small和Segment數(shù)據(jù)集上的評(píng)價(jià)結(jié)果及其運(yùn)行時(shí)間,為清楚起見(jiàn),對(duì)每個(gè)數(shù)據(jù)集中效果最好的方法所對(duì)應(yīng)的指標(biāo)值用粗體表示。對(duì)于層次聚類法的類間距離計(jì)算,我們分別采用了離差法、最短距離法、最大距離法、平均距離法、中位數(shù)法和重心法,并取最優(yōu)的指標(biāo)結(jié)果列在表2。從表2可以看出,對(duì)于Iris、Wine、Soybean-small和Segment數(shù)據(jù)集,本文方法所需時(shí)間略高于k-means++、CCIA、kd-tree,但聚類效果明顯優(yōu)于k-means++、CCIA、kd-tree。另外,除了Soybean-small數(shù)據(jù)集,本文方法在其余3個(gè)數(shù)據(jù)集上所需時(shí)間均低于層次聚類法。從聚類效果來(lái)看,本文方法在4個(gè)數(shù)據(jù)集上的聚類效果優(yōu)于層次聚類法或與層次聚類法持平。

表2 聚類結(jié)果和運(yùn)行時(shí)間

4 結(jié) 語(yǔ)

本文提出一種圖金字塔的聚類算法,該算法通過(guò)遍歷與合并節(jié)點(diǎn)將數(shù)據(jù)點(diǎn)逐步歸類到不同簇。我們將本文方法與k-means方法,層次聚類法在有離群點(diǎn)和簇間交疊情況的人工數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)比較,驗(yàn)證本文方法在數(shù)據(jù)集有離群點(diǎn)和簇間交疊情況下不受影響,聚類結(jié)果具有穩(wěn)定性。另外,我們將本文方法、k-menas++、CCIA、kd-tree和層次聚類法共5種方法在Iris,Wine,Soybean-small和Segment數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)比較。就4個(gè)指標(biāo)(包括AC,ARI,RI和MI)的結(jié)果而言,本文算法的聚類性能是最優(yōu)的。如何利用本文方法進(jìn)一步確定類別數(shù)目K,是將來(lái)研究的方向之一。

[1] Forgy E W.Cluster Analysis of Multivariate Data:Efficiency vs.Interpretability of Classification[J].Biometrics,1965,21(3):41-52.

[2] Arthur D,Vassilvitskii S.k-means++:the advantages of careful seeding[C]//Eighteenth Acm-Siam Symposium on Discrete Algorithms.Society for Industrial and Applied Mathematics,2007:1027-1035.

[3] Khan S S,Ahmad A.Cluster center initialization algorithm for K-modes clustering[J].Expert Systems with Applications,2013,40(18):7444-7456.

[4] Redmond S J,Heneghan C.A method for initialising the K-means clustering algorithm using kd-trees[J].Pattern Recognition Letters,2007,28(8):965-973.

[5] 文順,趙杰煜,朱紹軍.基于貝葉斯和諧度的層次聚類[J].模式識(shí)別與人工智能,2013,26(12):1161-1168.

[6] Rafsanjani M K,Varzaneh Z A,Chukanlo N E.A survey of hierarchical clustering algorithms[J].International Journal of Applied Mathematics & Computer Science,2012,5(3):229-240.

[7] Abbas O A.Comparisons Between Data Clustering Algorithms[J].International Arab Journal of Information Technology,2007,5(3):320-325.

[8] Mallat S G.A Theory for Multiresolution Signal Decomposition:The Wavelet Representation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,1989,11(7):674-693.

[9] Cheng C Y,Hu Y J.Extracting the abstraction pyramid from complex networks[J].BMC bioinformatics,2010,11(1):411.

[10] Celebi M E,Kingravi H A,Vela P A.A comparative study of efficient initialization methods for the k-means clustering algorithm[J].Expert Systems with Applications,2012,40(1):200-210.

[11] Yang J,Ma Y,Zhang X,et al.A Minimum spanning tree-based method for initializing the k-means clustering algorithm[J].International Journal of Computer,Electrical,Automation,Control and Information Engineering,2016,11(1):13-17.

猜你喜歡
利用方法
利用min{a,b}的積分表示解決一類絕對(duì)值不等式
利用倒推破難點(diǎn)
利用一半進(jìn)行移多補(bǔ)少
學(xué)習(xí)方法
利用數(shù)的分解來(lái)思考
Roommate is necessary when far away from home
利用
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 久久网欧美| 国产美女在线观看| 自偷自拍三级全三级视频 | 中文纯内无码H| 成人无码一区二区三区视频在线观看 | 99精品欧美一区| 亚洲天堂.com| 国产激爽爽爽大片在线观看| 国产一级无码不卡视频| 日韩视频精品在线| 国产高清免费午夜在线视频| 91精品aⅴ无码中文字字幕蜜桃| 99精品热视频这里只有精品7 | 天堂亚洲网| 久久国产精品77777| 亚洲国产中文欧美在线人成大黄瓜| 亚洲色图欧美激情| 欧美va亚洲va香蕉在线| 毛片免费在线视频| 国产无码网站在线观看| 毛片免费在线视频| 又粗又硬又大又爽免费视频播放| 91精品啪在线观看国产| 欧美一级高清片欧美国产欧美| 日韩高清在线观看不卡一区二区| 18禁影院亚洲专区| 国产91高跟丝袜| 女人天堂av免费| 国产在线观看人成激情视频| 99中文字幕亚洲一区二区| 国产丝袜丝视频在线观看| 久久夜色撩人精品国产| 国产精品漂亮美女在线观看| 亚洲精品第一在线观看视频| 国产在线拍偷自揄拍精品| 精品久久香蕉国产线看观看gif | 亚洲乱码在线视频| 2021最新国产精品网站| 亚洲V日韩V无码一区二区| 亚洲一级毛片免费观看| 国产在线观看成人91| 亚洲一区国色天香| 精品国产一二三区| 另类欧美日韩| 中文无码日韩精品| 婷婷亚洲天堂| 亚洲视频三级| 免费av一区二区三区在线| 狠狠色综合网| 国产综合精品日本亚洲777| 精品91视频| 999精品视频在线| 无码精品一区二区久久久| 国产精品主播| 综1合AV在线播放| 国产美女91视频| 久久久久免费看成人影片 | 日本免费一区视频| 最新亚洲人成网站在线观看| 伊人久久精品无码麻豆精品| 97久久精品人人做人人爽| 91无码网站| 伊人久久大香线蕉影院| 久久伊伊香蕉综合精品| 在线欧美国产| 拍国产真实乱人偷精品| 另类专区亚洲| 九九九久久国产精品| 黄色免费在线网址| 日本少妇又色又爽又高潮| 激情六月丁香婷婷| 中文字幕亚洲精品2页| 亚洲成av人无码综合在线观看| 午夜日b视频| 欧美国产精品不卡在线观看| 九九视频免费看| 亚洲愉拍一区二区精品| 天天躁夜夜躁狠狠躁图片| 一区二区在线视频免费观看| 欧美成在线视频| 高清视频一区| 欧美激情成人网|