










摘要:針對在不均衡流數據在檢索過程中,由于數據流中存在不均衡性,且易受差異性數據、邊緣數據的影響,導致數據檢索性能下降的問題,提出了基于多相似度模糊C均值聚類的不均衡流數據檢索方法。該方法計算出不均衡流數據之間的多相似度,針對不同相似度的數據,采用模糊C均值算法對其聚類處理。通過構建八叉樹檢索模型,對聚類后的數據進行存儲、編碼和判斷,完成不均衡流數據的檢索。實驗結果表明,所提方法的檢索時間低于20 s,查全率和查準率保持在80%以上,且NDCG(Normalized Discounted CumulativeGain)數值高。
關鍵詞:標準特征矩陣;交叉類簇;數據編碼篩選;不均衡度量;三維坐標;判斷編碼
中圖分類號:TP393. 08 文獻標志碼:A
0 引言
不均衡流數據檢索是指在網絡流量中存在著一些具有較高頻率的流,而其他流則數量較少。這種不均衡的流量分布導致傳統的網絡流量分析方法效果不佳,需要針對這種情況進行專門的研究和分析。隨著互聯網的快速發展,大數據技術逐漸成為熱門課題,被廣泛應用于電力評估、財務學、資源測評等領域,致使網絡流量的規模和復雜性不斷增加,不均衡流數據的問題也日益突出。目前,主要的不均衡流數據檢索方法包括基于采樣、分類器和聚類方法等。基于采樣方法通過對原始數據進行采樣平衡不均衡流數據,但可能會丟失一些重要的流信息。基于分類器方法則使用機器學習算法對流數據進行分類,但需要大量的標記數據和計算資源。……