999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于核函數動態分配聚類中心的DGK-Kmeans算法

2019-06-10 01:01:19張晉逢孫忠林
軟件導刊 2019年2期

張晉逢 孫忠林

摘 要:Kmeans算法存在兩個主要缺陷,導致聚類結果準確率較低。為改善聚類效果,提出一種DGK-Kmeans算法。該算法選用核密度估計處理數據,得到備選聚類中心,依據平均類間相似度動態增加初始聚類中心個數,直至平均類間相似度大于前次計算值時,選取平均類內相似度最小時對應的聚類中心為初始聚類中心,進行Kmeans聚類計算。采用UCI標準數據集進行實驗,證明改進后的DGK-Kmeans算法在聚類準確率和穩定性方面有很大提高。

關鍵詞:Kmeans算法;高斯核函數;動態聚類中心

DOI:10. 11907/rjdk. 182140

中圖分類號:TP312文獻標識碼:A文章編號:1672-7800(2019)002-0042-03

Abstract:There are two main defects in the Kmeans algorithm which lead to lower accuracy of clustering results.In order to improve the clustering effect, a DGK-Kmeans algorithm is proposed.The algorithm uses the kernel density estimation to process the data to obtain the candidate cluster center, and dynamically increases the number of initial cluster centers according to the average inter-class similarity until the average inter-class similarity is greater than the previous calculated value, and the average intra-class similarity is selected. The cluster center corresponding to the minimum degree is Kmeans clustering calculation for the initial cluster center.The experiment uses the UCI standard data set to verify that the improved DGK-Kmeans algorithm and greatly improves the accuracy and stability of clustering.

Key Words:Kmeans clustering;Gaussian kernel function;dynamic clustering center

0 引言

Kmeans算法是一種適用于大規模數據集[1]的簡單聚類算法,但算法迭代次數受初始聚類中心和實際聚類中心偏差的影響很大,所以選擇合適的初始聚類中心是很有必要的[2]。Kmeans算法有兩個主要缺點:一是需要人工輸入聚類K值;二是隨機選擇K個初始中心[3]。

為提高Kmeans算法的性能,許多學者從不同方面對算法進行改進[4]。ALSABTI[5]選擇利用K-D樹結構對Kmeans算法進行改進。賴玉霞等[6]根據聚類對象分布密度,從K個處于高密度區域的點中選取相互距離值最遠的樣本點作為初始聚類中心。王玲等[7]提出一種基于密度敏感的相似度度量方法。程艷云等[8]提出通過定義的平均類間最大相似度指標值確定最佳K值,進而動態分配聚類中心的聚類算法。韓凌波等[9]提出按照密度大小選擇K個聚類中心的算法。馬帥等[10]選擇根據密度和參考點提高聚類算法,基本滿足聚類以適應數據集分布的特征。袁方等[11]提出一種基于樣本距離相似度及通過合適的權值初始化聚類的方法,對特定的數據集選擇合適權值進行聚類,達到了良好的效果。周涓等[12]提出基于距離大小的算法,初始聚類中心選擇的是相互之間距離最遠的K個樣本點。周世兵等[13]從樣本幾何結構的角度定義樣本聚類距離和樣本聚類離差距離,設計一種新的聚類有效指標,從而提出一種自動確定最佳聚類數量的方法。劉鳳芹等[14]提出一種基于最大距離實現K值自動生成的算法。翟東海等[15]提出基于最大距離選取初始簇中心的算法。

以上研究通過密度、權值及距離對算法進行改進,但都存在聚類精度不高、時間復雜度高等情況。因此本文提出一種基于高斯核密度、動態確定初始聚類中心的DGK-Kmeans算法(Gaussian Kernel Kmeans Algorithm)。通過實驗證明,本文算法在UCI數據集中的聚類精度高于傳統K-means算法,并且在誤差平方和方面也有很大優勢。

1 高斯核密度估計

核密度估計方法對于數據分布特征的研究從數據樣本集合本身出發,不需要利用數據分布的先驗知識或對數據樣本服從何種分布作出任何假設[16]。核函數的作用是在高維空間對輸入的空間進行特征映射后,直接在高維數據空間進行數據處理。核函數映射是非線性變換的,可確保映射出各種不同的高維特征空間[17]。

使用高斯核函數作為核平滑函數的密度估計,是一種用來估計概率密度函數的非參數方法,假定[x1,x2,?,xn]為獨立分布[F]的[n]個數據點,數據點服從的分布密度函數為[f],函數定義為:

本文采用高斯核函數為核平滑函數,公式為:

[h]的取值公式為:

2 DGK-Kmeans算法

由于Kmeans算法聚類數需事先確定,且初始聚類中心的選取具有隨機性,因此本文提出基于高斯核密度的動態確定初始聚類中心的算法(DGK-Kmeans算法)。

主站蜘蛛池模板: 青青久久91| 国产流白浆视频| 亚洲综合亚洲国产尤物| 狠狠亚洲婷婷综合色香| 特级毛片免费视频| 国产精品无码影视久久久久久久| 无码免费试看| 91福利在线观看视频| 婷婷激情亚洲| 欧美激情福利| 日韩第八页| 亚洲成在线观看| 国产自在自线午夜精品视频| 最近最新中文字幕在线第一页| 精品视频一区在线观看| 真人免费一级毛片一区二区| 国产免费精彩视频| 99久久精品免费视频| 在线看国产精品| 欧美国产日韩另类| 麻豆AV网站免费进入| 国产黄网永久免费| 国产女人综合久久精品视| 国产欧美日韩精品综合在线| 国产欧美一区二区三区视频在线观看| 欧美亚洲综合免费精品高清在线观看| 精品国产网站| 色综合手机在线| 国产成人亚洲精品色欲AV| 国产黄色片在线看| 久久精品国产亚洲AV忘忧草18| 国产精品视频999| 亚洲系列无码专区偷窥无码| 亚洲swag精品自拍一区| 成人欧美日韩| 精品人妻无码中字系列| 亚洲熟妇AV日韩熟妇在线| 亚洲天堂精品视频| 九九热免费在线视频| 成人韩免费网站| 久久中文电影| 国产国产人成免费视频77777| 国产乱视频网站| 国产一级妓女av网站| 欧美精品成人一区二区在线观看| 精品91在线| 亚洲国产日韩在线成人蜜芽| 国产美女自慰在线观看| 久久婷婷六月| 欧美日韩国产在线人成app| 人妻免费无码不卡视频| 亚洲国产成人精品一二区| 国产精品视频3p| 999国内精品久久免费视频| 亚洲国产精品人久久电影| 亚洲大学生视频在线播放| 青青操国产| 中国黄色一级视频| 亚洲乱码精品久久久久..| 欧美一级在线看| 亚洲无码高清视频在线观看| 在线国产你懂的| 9久久伊人精品综合| 亚洲成a∧人片在线观看无码| 成人免费午间影院在线观看| 国产菊爆视频在线观看| 欧美亚洲综合免费精品高清在线观看| 国产亚洲精品97在线观看| 在线观看网站国产| 婷婷丁香色| 久草视频精品| 亚洲VA中文字幕| 中文字幕在线视频免费| 91精品专区国产盗摄| 亚洲性影院| 国产午夜一级毛片| 欧美人人干| 国产天天射| 国产成人久久777777| 亚洲日韩高清无码| 亚洲国产黄色| 亚洲欧美成人影院|