中國計量大學信息工程學院 蔡叢豫
引言:就傳統的數據挖掘技術來說,其在數據量級方面存在著一定的局限性,影響最終的效果,所以將粗糙集理論應用其中。對此,本文以算法的優化為切入點,對一種基于粗糙集的海量數據挖掘算法進行分析。結合本文的分析,其目的就是優化海量數據挖掘算法,并以全新的并行算法等為基礎,提高海量數據挖掘的效率,以期為相關人員提供參考。
在Rough Set知識獲取方法中,數據離散化是其關鍵的構成內容之一,本文就采用屬性重要性的方式,將CDL引入到原算法之中,保證這種算法能夠實現對海量數據的挖掘。具體來說,這種算法的具體步驟為:
(1)對每一個連續的條件屬性,進行循環遍歷,同時能夠生成條件信息熵,即ICDL({ai})的信息熵。
(2)結合條件信息,對信息熵以降序的方式進行排序,即將所有連續的屬性均進行排列。
(3)對于完成排序的DT,并每個條件的ai進行循環遍歷,從而能夠形成ICDL(C{ai})。在這一條件下,可以將Szone設置為null,而Szone實際上是ai值域的子集。
(4)對(Sa,Sb)區間的額每一個斷點,進行循環遍歷,而Sa、Sb是ai的連續屬性值,并設Szone的值為Szone與Sa的和。
(5)對DT中所有滿足條件SVj(ai)=Sh的樣本,進行循環遍歷,即SVj,而其中的Sh=屬于Szone。
(6)對DT中所有滿足條件SVj(ai)=Sb的樣本,進行循環遍歷,即SVk,如果樣本SVk、SVj屬于ICDL({ai})的同一分類中,并且使用@的符號進行連接,在需要將(Sa,Sb)的斷點選擇出來,并對Szone進行重置(空)。
基于粗糙集理論,能夠對值約簡算法進行改進,以此來實現對海量的挖掘,保證數據分析結果的穩定性。……