摘 要:針對K一均值算法在隨機選取初始類中心時存在不足、對噪聲和孤立點敏感、不適用于發(fā)現(xiàn)大小差別很大的類的問題,借鑒分子間的相互作用力模型,將文本模擬成數(shù)據(jù)場中的數(shù)據(jù)點,綜合考慮文本間的相似度和相異度,提出一個新的數(shù)據(jù)勢值計算公式。根據(jù)文本數(shù)據(jù)的勢,剔除孤立點、確定初始類中心。實驗結(jié)果證明,該算法可以提高收斂速度,消除噪聲和孤立點對聚類結(jié)果的影響,提高聚類的精度,適用于主題分布不均勻的文本集。