摘要:為了解決傳統聚類算法難以獲得較好的web用戶聚類結果、使用的指標無法全面反映用戶行為特征的問題,提出一種基于粒度原理的web用戶聚類算法。首先對離散化數據給出稀疏相似度和初始等價關系的定義,進行初次聚類;然后設計可變精度的二次聚類模型對初始聚類結果進行修正;最后結合應用領域定義一種新的聚類質量評價模型。算法中面向web用戶引入多指標體系,各種指標既可獨立考核,也可靈活組合,并同時兼顧決策者對指標的偏好。實驗證明,該算法適用于web用戶的高維稀疏數據,不依賴樣本的順序,具有更廣應用性,可提供多粒度分析結果,得到的聚類結果能真實反映數據的特征。