999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于局部密度估計的聚類個數確定研究

2016-09-26 02:07:47龍章勇
河南科技 2016年9期
關鍵詞:有效性

龍章勇

(南京鐵道職業技術學院,江蘇 南京 210031)

基于局部密度估計的聚類個數確定研究

龍章勇

(南京鐵道職業技術學院,江蘇南京210031)

隨著人工智能和數據挖掘技術的興起,聚類分析已被廣泛應用于通信、文本數據統計、生物信息學和圖像處理中。對于非監督聚類分析,聚類的分類數目是決定聚類質量的關鍵因素。通常聚類個數事先無法確定,隨即選擇的初始聚類中心容易使聚類結果不穩定。針對此,基于聚類中心具有高局部密度且距高局部密度聚類中心距離較遠的特點,提出一種基于局部密度估計的聚類個數的估計方法。經過仿真實驗,驗證了該算法具有良好的有效性和魯棒性。

聚類個數;密度峰值估計;聚類有效性;聚類分析

隨著計算機和互聯網應用的普及,信息和數據爆炸似的增長,復雜的多種信息數據也可以作為很重要的研究內容。從海量數據的研究和挖掘中提取出互有關系的信息變得非常重要,甚至決定了社會科技的發展。聚類算法作為數據分析的主要工具,已在多方面被廣泛地研究和應用。

1 聚類有效性分析與聚類個數估計

1.1聚類有效性分析

現在常用的估計聚類個數的有效性評價方法大概有3種:有效性指標、檢測穩定聚類結構的穩定性方法和系統演化方法。其中,有效性指標在實際中應用廣泛,包括Silhouette指標、Davies-Bouldin指標、Calinski-Harabasz指標、加權的類間類內相似度比率和Homogeneity-Separation指標等。

1.1.1平均Silhouette(Sil)指標。設a(t)為聚類Cj中的樣本t與類內所有其他樣本的平均不相似度或距離,d(t,Ci)為樣本t到另一個類Ci的所有樣本的平均不相似度或距離,則b(t)=min{d(t,Ci)},i=1,2,……,k;i≠j[1]。Sil指標計算每個樣本與同一聚類中樣本的不相似度以及與其他聚類中樣本的不相似度,其每個樣本t的計算公式如下:

一般以一個數據集的所有樣本的平均Sil值來評價聚類結果的質量,Sil指標越大,表示聚類質量越好,其最大值對應的類數作為最優的聚類個數。

1.1.2Davies-Bouldin(DBI)指數。DBI指數是基于樣本的類內散度與各聚類中心間距的測度,進行類數估計時其最小值對應的類數作為最優的聚類個數。設DWi表示聚類Ci的所有樣本到其聚類中心的平均距離,DCij表示聚類Ci和聚類Cj中心之間的距離,則DB指標如下:

1.1.3Calinski-Harabasz(CH)指標。CH指標(偽F統計量)是基于全部樣本的類內離差矩陣與類間離差矩陣的測度,其最大值對應的類數作為最優的聚類個數,則CH指標如下:

其中,SSB和SSw分別表示類間離差矩陣和類內離差矩陣,k為聚類數目。類間離差矩陣SSB定義如下:

其中,mi,m分別表示第i個類的中心和類內平均,||mi-m||定義了向量之間的歐式距離。類內離差矩陣SSw的定義如下(也稱為Hartigan指標):

其中,x,Ci分別表示數據點和第i個類。

從定義可以看出:好的聚類結果,是希望SSB越大越好和SSw越小越好。因此,CH(k)的值越大,選擇的k值越接近最優。

1.2聚類數目對有效性的影響

對于盲聚類分析,聚類數目和聚類初始中心對于結果的影響很明顯,因為目前采用的聚類算法,類似于K-均值聚類,都對類數和初始聚類中心敏感。

不失一般性,對同一組數據集合,分別采用目標類數為3~5進行K-均值聚類,仿真的對比結果如圖1所示。

(a)采用k=3聚類的結果

圖1 不同類數下的K均值聚類結果

為了對比不同聚類數目下的聚類結果的性能指標,對上述實驗數據,分別采用2.1節中的指標進行評估,結果如圖2所示。從圖2可以看出,前3種指標顯示,選擇類數為4最接近最優的聚類目標。但是采用Hartigan指標,其結果不然。

圖2 4種有效性指標估計結果

上述實驗中,不同的指標所側重的測度是不一致的,從而適用的應用場景也是有區別的。另外,從相鄰類數下指標的走勢可以看出,K-均值算法對于類數敏感性顯而易見。因此,在聚類之前,能夠確定有效的聚類數目是非常必要和重要的。

2 基于局部密度估計的聚類個數確定

給定點集S,對于每一個樣本點i,為其定義2個屬性參量:局部密度ρi和距離高密度點集的距離δi。樣本點i的局部目的ρ定義如下:

其中,dij為樣本點i和樣本點j之間的“距離”度量,并且滿足三角不等式;dc是常數參數,定義為截止距離,其物理意義是控制樣本點的影響最遠距離。式(6)中函數R(x)的定義如式(7):

其中,ρi表示距離i的距離小于dc的樣本點數量。i的參數δi計算如下:

其中,max(ρ)為點集S的最大局部密度。從式(8)可以看出,對于非最大局部密度樣本點,δi定義為樣本點i距離其他任意更高局部密度樣本點的最小距離;而對于最大局部密度樣本點,δi定義為其他點到此點的最大距離。

通過對點集S中的樣本經行二維空間的處理,以 ρi和δi兩個指標對點集降維處理。其中,ρi用來限制點集在多維測度空間內的局部密度,而δi用來度量局部密度較大的多維點集在測度空間內的相對聚類。距離其他高局部密度較“遠”的點,稱為在決策圖上的“孤點”。“孤點”的個數即是聚類的估計類數。在局部密度的估計中,截止距離dc的選擇非常重要,其影響了局部密度測度空間的邊界。對于dc的選擇準則,還需要進一步的理論分析,但是多次實驗證明,dc的選擇需要保證局部密度的最小取值不小于點集總數的1%~2%。

3 實驗結果與分析

對于2.2中所采樣的同樣的數據數據集合,使用2中介紹的基于局部密度估計的方法,計算點集中每個樣本的ρi和δi兩個指標,繪出決策圖如圖3所示。

從圖3可以看出,在ρi和δi兩個指標都很“突出”的區域有4個明顯的“孤”點。所以,估計算法確定出的聚類數目為k=4。對于2.2節的結論,兩者的結論是一致的。通過對多組數據的實驗,該文所提出的算法估計出的聚類類數和Sil指標、DBI指標和CH指標的一致率分別是99.4%、99.1%和98.8%。

圖3 基于局部密度估計的決策圖

4 結論

從K-均值算法對于聚類個數和初始中心敏感的缺陷出發,基于聚類中心具有高密度且距高局部密度聚類中心具有較遠距離的特點,提出一種基于局部密度估計的聚類個數的估計方法。經過仿真實驗,驗證了該算法具有良好的有效性和魯棒性。

Cluster Number Estimation Based on Local Density Estimator

Long Zhangyong
(Nanjing Institute of Railway Technology,Nanjing Jiangsu 210031)

With the development of artificial intelligence and data mining technology,cluster analysis has been widely used in many fields,which range from communication to bioinformatics,bibliometrics,and image processing.For unsupervised clustering analysis,the number of clusters is the key factor to determine the quality of clustering.Usually the number of clusters can not be determined in advance,then the initial cluster center is easy to make that the clustering result is not stable.For this,based on the characteristic that the cluster centers have a high local density and a relatively large distance from the high local density clustering center,a new method for estimating the number of clusters based on local density estimation was proposed.The simulation showed that the proposed algorithm performance was effective and robust.

cluster number;density peaks estimator;cluster validation;cluster analysis

TP18

A

1003-5168(2016)05-0026-03

2016-04-18

中國職教學會軌道交通專業委員會科研基金(201419);全國教育信息技術研究十二五規劃課題(136231366)。

龍章勇(1979-),男,碩士,講師,研究方向:無線通信技術。

[1]Kaufman L,P J Rousseeuw.Finding Groups in Data:An Introduction to Cluster Analysis[M].Hoboken,NJ:John Wiley&Sons,Inc.,1990.

猜你喜歡
有效性
當代藝術概念的確立與有效性
如何提高英語教學的有效性
甘肅教育(2020年6期)2020-09-11 07:45:28
制造業內部控制有效性的實現
提高家庭作業有效性的理論思考
甘肅教育(2020年12期)2020-04-13 06:24:56
論新形勢下工商管理企業管理有效性的提升
活力(2019年22期)2019-03-16 12:47:08
翻譯的政治性與有效性
翻譯界(2018年2期)2018-03-05 07:55:16
如何提高高中數學作業有效性
小學語文課堂提問的有效性
散文百家(2014年11期)2014-08-21 07:16:22
船舶嚴重橫傾時應急行動的有效性
中國航海(2014年1期)2014-05-09 07:54:30
對體育教學有效性的思考
體育師友(2011年5期)2011-03-20 15:29:48
主站蜘蛛池模板: 亚洲VA中文字幕| 性欧美在线| 精品伊人久久大香线蕉网站| 国产av一码二码三码无码| 精品91在线| 狠狠色成人综合首页| swag国产精品| 精品一區二區久久久久久久網站| 日韩经典精品无码一区二区| 久久青草精品一区二区三区| 女高中生自慰污污网站| 亚洲精品国产首次亮相| 免费精品一区二区h| 欧美日韩在线国产| 午夜日韩久久影院| 夜精品a一区二区三区| 欧美乱妇高清无乱码免费| 激情無極限的亚洲一区免费| 亚洲二区视频| 国产精品久久自在自线观看| 婷婷丁香色| 亚洲男人天堂久久| 精品国产三级在线观看| 国产亚洲欧美日本一二三本道| 国产精品护士| 一本色道久久88| 黄网站欧美内射| 2021亚洲精品不卡a| 久草青青在线视频| 成人va亚洲va欧美天堂| 中文字幕中文字字幕码一二区| 国产中文一区二区苍井空| 中文字幕人成人乱码亚洲电影| 欧美一道本| 欧洲高清无码在线| 99视频在线免费| 亚洲天堂在线免费| 91精品国产情侣高潮露脸| 最新国产你懂的在线网址| 精品视频在线一区| 一级香蕉人体视频| 亚洲AV人人澡人人双人| 欧美精品一二三区| 三上悠亚在线精品二区| 99精品在线看| 亚洲成人网在线观看| a级毛片免费网站| 欧美一区福利| 国产黄视频网站| 亚洲欧洲日产国产无码AV| 日本欧美视频在线观看| 久久香蕉国产线看精品| 国产老女人精品免费视频| 在线观看免费国产| 亚洲精品综合一二三区在线| 91精品国产丝袜| 国产成人综合日韩精品无码首页 | 她的性爱视频| 亚洲国产综合精品中文第一| 亚洲小视频网站| 久久免费精品琪琪| 欧美激情伊人| 免费A级毛片无码免费视频| 女人18毛片一级毛片在线 | 在线精品自拍| 国产精品福利在线观看无码卡| 亚洲中文字幕23页在线| 国产亚洲精品无码专| 国产乱子伦精品视频| 国产99视频在线| 国产成人精品视频一区视频二区| 成人亚洲国产| 日本五区在线不卡精品| 久久国产精品嫖妓| 婷婷六月综合网| 国产精品亚洲专区一区| 97久久超碰极品视觉盛宴| 成人亚洲国产| 亚洲视频在线网| 国产高清国内精品福利| 欧美成人看片一区二区三区 | 免费AV在线播放观看18禁强制|