王 磊
(商洛學院 現代教育技術中心,陜西商洛 726000)
近年來有關譜聚類算法的應用研究受到了國內外學者的廣泛關注,并且已經在多個領域得到了較好的應用,如:圖像分割[1-2],文本語義分析[3-4]等。但該算法在實際應用中仍然存在一些亟待解決的問題,例如:由于傳統譜聚類通常采用K-means算法對特征向量進行聚類,導致算法對初始聚類中心較敏感[5],穩定性較低、準確性不高,并難以應用于大規模數據處理等,這些問題極大的阻礙了該算法的進一步應用與發展。由此,本文在深入研究譜聚類算法、Bayes決策理論及半監督學習方法的基礎上,提出了一種結合Bayes決策的半監督譜聚類算法。其主要思想是利用Bayes決策的距離學習理論對相似度矩陣的內容進行適當調整;然后,利用半監督K-means聚類對調整后的特征向量進行聚類劃分,進一步提高譜聚類算法的穩定性與準確性。
譜聚類算法是建立在譜圖理論基礎之上,其基本內容是:首先根據給定的數據集按照一定的相似度測量規則定義一個描述成對數據點相似度的相似度矩陣,并計算矩陣的特征向量和特征值,然后選擇合適的特征向量聚類成不同的數據點[6-7],是一種點對聚類算法,對數據聚類具有很好的應用前景。由于譜聚類算法建立在圖論中的譜圖理論基礎上,其本質是將聚類問題轉化為圖的最優劃分問題,即:成求解Laplacian矩陣或相似度矩陣的譜分解問題[8]。與傳統的聚類算法相比,它具有能在任意形狀的樣本空間上聚類并且收斂于全局最優解的優點?!?br>