董 婷
(榆林學院信息工程學院,陜西 榆林 719000)
?
基于weka的數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則應用研究
董婷
(榆林學院信息工程學院,陜西 榆林719000)
摘要:以榆林市采氣廠的采氣監(jiān)測數(shù)據(jù)為例,運用weka工具進行數(shù)據(jù)分析,并通過基于weka的Apriori算法數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則應用,找出油壓、進站壓力、日產(chǎn)氣量之間的關(guān)聯(lián),利用關(guān)聯(lián)規(guī)則分析其中存在的規(guī)律。實驗結(jié)果表明,數(shù)據(jù)挖掘工具weka能夠準確分析出各數(shù)據(jù)之間的關(guān)聯(lián)情況。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;weka;數(shù)據(jù)挖掘;Apriori算法
隨著信息技術(shù)的發(fā)展,產(chǎn)生的數(shù)據(jù)量越來越大,人們對于從數(shù)據(jù)中獲取有效信息的要求也越發(fā)強烈。數(shù)據(jù)庫數(shù)量的日益增多,數(shù)據(jù)類型多樣化、結(jié)構(gòu)復雜化的趨勢越發(fā)明顯,迫切需要先進的技術(shù)以滿足人們的需求。數(shù)據(jù)挖掘(data mining, DM)技術(shù)正是基于人們對挖掘有效信息的需求而產(chǎn)生的新技術(shù)。所謂數(shù)據(jù)挖掘就是從數(shù)據(jù)中發(fā)現(xiàn)趨勢和模式的過程[1]。學術(shù)界對于數(shù)據(jù)挖掘進行了深入的研究,取得了不菲的成績,其中關(guān)聯(lián)規(guī)則算法的研究在數(shù)據(jù)挖掘算法的研究中占有舉足輕重的地位,而關(guān)聯(lián)規(guī)則算法的核心就是Apriori算法,目前對Apriori算法的研究也在逐漸增加[2]。
數(shù)據(jù)挖掘就是從多種多樣的數(shù)據(jù)中發(fā)掘出潛在的、有價值的、有規(guī)律的知識發(fā)現(xiàn)(knowledge discovery in database,KDD)的過程[3],不僅如此,數(shù)據(jù)挖掘還可以用于數(shù)據(jù)自身的維護[4]。本文基于weka軟件對數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則應用進行研究。
1數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則挖掘
設I={i1,i2,…,in}是由n個不同的項目組成的集合,字母T表示I的子集,事務數(shù)據(jù)庫用字母D表示, TID代表著一個事務,這個標識符有著唯一性。……