陳佳佳,張 旺,劉東海,張曉琴
(山西財經大學 統計學院,太原 030006)
作為機器學習中的分支,聚類分析是用特定的方式選擇初始類中心并將所有樣本分到與其相似性最大的類中的過程。聚類分析技術有著廣闊的應用范圍:電子技術、電力系統、農業研究、文本識別、經濟分析等領域。聚類分析主要分為以K-means算法為代表的劃分聚類、以CURE算法[1]為代表的層次化聚類、以DBSCAN算法[2]為代表的密度聚類、以STING 算法為代表的網格式聚類、以EM 算法為代表的模型聚類。
在聚類算法的研究過程中,不同研究者給出了不同的算法。文獻[3]針對數值型數據提出了K-means算法,該算法計算量小、計算速度快、適用范圍比較廣泛。針對分類型數據,文獻[4]通過對比樣本點與類中心的異同,提出了基于簡單0-1 匹配計算距離的K-modes 算法。K-means、K-modes 算法簡單高效,但是只能處理固定的一類數據。在此基礎上,文獻[5]將K-means算法與K-modes算法簡單結合,分別對兩部分數據計算距離后再賦予二者權重進行調整,提出了針對混合型數據的K-prototypes算法(又稱為K-原型算法)。文獻[6]提出了K-centers算法,分類型數據類中心為頻率向量,數值型數據類中心仍為均值,某一個樣本的類中心即為兩個部分的結合,這對混合型數據聚類提供了新的思路。文獻[7]提出了適用于模糊場景中表示類別屬性的類中心。文獻[8]提出了一種改進的K-prototypes 算法,將類中心表示為均值與頻率模糊類中心結合的形式。文獻[9]提出了一種由信息熵計算不同類型數據權重的K-prototypes 聚類算法,通過計算不同類別的類內熵與類間熵得出每個屬性的權重。……