基于大數據的分布式K-means聚類算法的研究

2022-04-29 00:00:00吳斌李明東

客聯 2022年12期

摘要：如何能夠使用數據挖掘方法快速對高維大規模數據進行分析和信息提取成為現今一個熱門課題?；诖?，本文針對當前密度峰值聚類算法的高復雜度和高計算量等問題，使用云計算框架MapReduce，研究了一種基于z值的分布式密度峰值聚類算法（DP-z）。該算法利用空間z填充曲線將高維數據集映射到一維空間上，根據數據點的z值信息對數據集進行分組。為了能夠得到正確的聚類結果，再對分組間數據進行交互，然后進行并行計算。

關鍵詞：聚類分；分布式計算；大數據

通過理論分析可知，DP-z算法與原始密度峰值聚類算法相比，在得到聚類結果相同的情況下能夠有效的提高算法執行效率。本文在Hadoop開源云計算平臺上，設計并實現了DP-z算法，并通過對比實驗，驗證了本文研究方法的有效性。

一、聚類分析基本理論

聚類是一個把數據對象分成多個簇的過程，使得簇內之間對象的相識性大于其他簇中的對象。聚類分析方法作為數據挖掘的一種常用方法，已經被廣泛應用于許多領域，例如生物，醫學，智能商務和web搜素等等。在某些應用中，聚類分析又稱為數據分割，它根據數據之間的相似性將大型數據集劃分為簇。聚類還可以進行離散點的檢測，也就是離群點（遠離任意簇的點）。

基于劃分的聚類算法是比較常用的聚類算法。此思想是將數據對象劃分為分離的簇。典型的基于劃分的聚類算法有K-Means算法，K-Mediods算法，PAM算法等。

（1）K-Means算法

K-Means算法是一種基于形心技術對數據進行劃分的算法。……

登錄APP查看全文

客聯 2022年12期

客聯的其它文章: 禮貌原則下商務英語信函中的委婉語; 網商銀行助力普惠金融; 淺談戲曲老生角色的形象解讀; 淺談對油田企業基層企業文化建設的認識; 中華優秀傳統文化外宣創新性發展的話語體系建構與實踐路徑探索; 關于進一步加強新形勢下國有企業保密工作的思考