

摘 要:如何能夠使用數據挖掘方法快速對高維大規模數據進行分析和信息提取成為現今一個熱門課題?;诖?,本文針對當前密度峰值聚類算法的高復雜度和高計算量等問題,使用云計算框架MapReduce,研究了一種基于z值的分布式密度峰值聚類算法(DP-z)。該算法利用空間z填充曲線將高維數據集映射到一維空間上,根據數據點的z值信息對數據集進行分組。為了能夠得到正確的聚類結果,再對分組間數據進行交互,然后進行并行計算。
關鍵詞:聚類分;分布式計算;大數據
通過理論分析可知,DP-z算法與原始密度峰值聚類算法相比,在得到聚類結果相同的情況下能夠有效的提高算法執行效率。本文在Hadoop開源云計算平臺上,設計并實現了DP-z算法,并通過對比實驗,驗證了本文研究方法的有效性。
一、聚類分析基本理論
聚類是一個把數據對象分成多個簇的過程,使得簇內之間對象的相識性大于其他簇中的對象。聚類分析方法作為數據挖掘的一種常用方法,已經被廣泛應用于許多領域,例如生物,醫學,智能商務和web搜素等等。在某些應用中,聚類分析又稱為數據分割,它根據數據之間的相似性將大型數據集劃分為簇。聚類還可以進行離散點的檢測,也就是離群點(遠離任意簇的點)。
基于劃分的聚類算法是比較常用的聚類算法。此思想是將數據對象劃分為分離的簇。典型的基于劃分的聚類算法有K-Means算法,K-Mediods算法,PAM算法等。
(1)K-Means算法
K-Means算法是一種基于形心技術對數據進行劃分的算法。……