宗文澤,吳永明,,徐 計,黎 旭,王 晨
(貴州大學 a.現代制造技術教育部重點實驗室;b.公共大數據國家重點實驗室,貴陽 550025)
伴隨著大數據時代的到來,醫學、生物、金融、工程和工業生產等領域產生了大量的具有明顯的時間順序性的數據[1-3]。尤其是生產的信息化和傳感器的普及,使越來越多的數據被實時記錄下來,形成了時間序列數據。在時間序列數據中,異常數據往往攜帶著大量有用的信息,所以時間序列數據的異常檢測正在在當今社會關注度越來越高。與此同時,聚類算法作為機器學習算法的一個重要分支[4-6],不需要給數據打標簽,不需要標記實例[7],成為最適合處理時間序列數據的方法之一,得到廣泛研究和應用。
聚類算法一般可以用基于劃分、基于密度、基于層次等方式來進行分類[8]。黃曉輝等[9]結合特征加權方法,提出了一種新的通過在子空間內最大化簇中心與其他簇數據對象的距離來融合簇內和簇間距離進行聚類的加權K-means方法(KICIC)來解決高維數據聚類問題。秦佳睿等[10]提出一種自適應選擇局部半徑的密度聚類算法(SALE-DBSCAN),通過確定密度峰值點,自適應選擇聚類的局部鄰域半徑,簡化了參數選擇的過程;通過使用自適應選擇的局部鄰域半徑擴張密度峰值點的鄰域進行聚類,提高了聚類結果質量。季姜帥等[11]構建了融合精英保留法與輪盤賭的選擇算子,并通過優化適應度函數和小生境策略保持種群多樣性,加快收斂速度,提升聚類精度。……