摘要:針對支持向量機在訓練大規模數據集時出現的速度瓶頸問題,提出一種新的減樣方法,稱為雙層減樣法。數據減樣時,雙層減樣法從粗、細粒度兩個層次削減樣本。粗粒度約減時,利用核空間距離聚類法,以簇為單位削減冗余子集;細粒度約減時,以點為單位挑選剩余點集中的支持向量。實驗表明,雙層減樣法能有效地壓縮樣本數據,同時還能放大數據集的分類特征,提高分類器的分類精度。將此法應用于大規模sVM垃圾標簽檢測模型的訓練集優化上,能明顯提高檢測模型的訓練速度。雙層減樣法將粒度和層次的概念引入減樣法中,在約減時適時改變約減幅度,這比傳統減樣法更具有優勢。