牛晨晨, 張 昪, 周 暢
(蘭州財經大學信息工程學院, 甘肅蘭州 730000)
基于ExCC算法的流數據挖掘研究
牛晨晨, 張 昪, 周 暢
(蘭州財經大學信息工程學院, 甘肅蘭州 730000)
隨著現代科學技術的快速發展,出現了諸如無線通信網絡的數據、傳感器網絡的數據、證券交易的數據等的新型數據,即流數據.流數據呈現的特點不同于傳統的數據集,其所表現的是數據規模宏大、時序性、數據快速變化等.傳統的聚類分析算法對于流數據挖掘已不再具有可行性,因此,本文就ExCC算法對于流數據挖掘的相關問題進行了深入研究.
流數據;聚類分析;ExCC;數據挖掘
1.1 流數據簡介
流數據是一組順序、 大量、 快速、 不斷增加的數據序列, 一般情況下, 其可被看作是無限增加的動態數據集合[1]. Henzinger[2]第一次把流數據作為新型的研究對象提出來了. 參考文獻[3-6]都對流數據的相關特征進行了詳細的描述與深入的探討.
綜合已有文獻的研究, 我們可以把流數據的特征概括為以下幾點:
(1)流數據中的數據是海量的并且具有不斷增加的特征[3], 如果想將這些海量的數據全部儲存起來, 那么存儲這些數據所需要的空間就必須是無限的.
(2)流數據中數據的傳遞速度是很快的. 例如:通信收集的數據、 流量監控的數據、 證券交易的數據等, 這些數據的傳遞速度是很快的.
(3)流數據還具有時序的特征, 這就使得對流數據的訪問是單次遍歷的[4]. 也就是對數據元素的讀取只能按照數……