何正玲
(西安文理學院 ,陜西西安,710065)
隨著信息通信技術的發展,人類社會已經進入了“網絡大數據時代”,各種數據體量巨大、數據類型繁多、價值密度低。如何從海量 的數據中探尋數據規律,發現有意義的信息是迫切解決的難題。作為信息技術自然進化的結果,數據挖掘這一研究領域應運而生。關聯規則( Association Rules)的挖掘在數據挖掘中扮演著一個重要的角色,對于關聯規則的挖掘算法已經進行了很多研究。閥值篩選、刪除候選項集,然后進行下一次的合成并生成該層的頻繁項集。篩選之后,候選項集數減少,提高其挖掘速度。
Apriori算法是一種尋找頻繁項集的基本算法, 其基本原理是使用一種稱作逐層搜索的迭代方法,即用k項集去探索(k+1)項集。Apriori算法使用頻繁項集性質的先驗知識,該集合記作L1。Apriori算法的基本思想如下:先找出所有的頻繁1項集的集合L1,然后利用L1找L2(頻繁2項集的集合),利用L2找L3(頻繁3項集的集合),以此類推,直至不能找出的頻繁K項集的集合,結束。找出全部項集之后利用預先設定的最小支持度
Mining Frequent Patterns without Candidate Generation 一文中提出了一種新型的模式增長算法FP-growth。FP-growth算法是基于FP-tree結構,不會生成候選項集,挖掘頻繁項集采用模式增長的方法。它是一種關聯規則挖掘的新思路。
基本思路:不斷地迭代FP-tree的構造和投影過程
算法描述如下:
1、對于每個頻繁項,構造它的條件投影數據庫和投影FP-tree。
2、對每個新構建的FP-tree重復這個過程,直到構造的新FP-tree為空,或者只包含一條路徑。
3、當構造的FP-tree為空時,其前綴即為頻繁模式;當只包含一條路徑時,通過枚舉所有可能組合并與此樹的前綴連接即可得到頻繁模式。
FP-Growth 算法輸入: 對數據庫DB 進行最小支持度約束后得到的FP-tree。 輸出: 全部頻繁項的集合。
首先, DB的FP-tree 包含了DB 中為了完成支持度閾值為N的挖掘所需的完整信息。其次, 如果FP-tree包含單一路徑,它可以進行頻繁模式集的生成工作。否則,對頭表中的每個項,產生它的條件模式基,將其與目前的模式合并,并構造新模式下的條件模式樹。如果樹不為空,則繼續調用新模式下的函數;否則, 函數在此結束。
綜上所述可知,兩種算法中,FP-Growth 算法的表現更好。
我們不直接比較算法的絕對運行時間,因為,不同的機器結構可能有很大的不同。我們實現自己的算法,最好將不同的算法在同一臺機器上、同一環境下運行,運行時間這里指總的執行時間,即輸入和輸出之間的期間,而不是CPU。此外,在FP增長的運行時的所有報告,包括從原始構建FP樹的時間數據庫。
通過對Apriori和FP- Growth算法進行測試,可以看出,隨著最小支持度的逐漸減小,Apriori算法性能急劇降低,而FPGrowth算法性能相對穩定,所需時間沒有發生突變的增加。經過多次測試,結果顯示,FP- Growth 算法比Apriori算法快一個數量級,且FP-Growth算法對不同長度的規則都有很好的適應性。
FP-Growth和Apriori算法顯示線性可擴展性與交易從10K到100K的數量。然而,FP-Growth增長比Apriori算法更具擴展性。由于交易的數量增長時,兩種方法之間差距變得越來越大。總體而言,FP-Growth在同一個數量級比Apriori算法在大型數據庫速度更快,而且這種差距變寬當最小支持度閾值降低。
數據挖掘也是進行商業決策的輔助工具,數據挖掘可一充大嶺的商業數據之中,對各種數據進行抽樣、轉換、分析以及進行模型化處理,進而從中的出關鍵性數據。就此而言,數據挖掘在商業領域有著十分廣闊的應用前景,特別是在市場營銷中的有著十分廣闊的應用空間。通過系統的數據局分析,我們可以發現用戶的消費特點,在此基礎上,作出合理的營銷策略,促進商品的銷售。目前,數據挖掘技術在營銷領域的應用以及涉及到了各個領域,如,金融領域、電子商務等諸多方面。利用數據挖掘技術發現顧客的潛在需求,對于促進營銷的發展意義重大[2]。
學校的教學系統的是由不同的元素想和配合構成的,充分發揮數據挖掘技術來挖掘數據庫中的知識,發現教學系統中個不同的要素之間的關系,可以為師實現學校管理的科學化以及合理化提供科學的根據[3]。除此之外,通過數據挖掘技術,我們可以發現教師的教學質量與教師的經驗、教學的職齡以及專業等因素之間的內在關聯用于提高教師的教學水平。同時,通過數據挖掘我們也可以發現,不同年段的學生的學習認知特點,根據學生的學習特點和學習特征,制定教學過程中,為實現了個性化教學體提供了技術支持[4]。
在我國,農業是基礎產業,農業數據信息多而繁雜,具體可能涉及農作物生長情況、土地使用情況、水設施情況、收成情況等等。然而,由于地域性、時效性的限制,對這些農業數據信息要進行及時、準確的進行整合、提取,需要借助于數據挖掘技術,這樣才能夠提高農業數據信息處理的實時性,充分發揮其預測、指導作用。數據挖掘技術的在農業數據信息中的應用的最大優勢就是在保證信息質量的前提下,深入挖掘其中作為有效的農業信息,從而為我國農業發展提供有力的數據支持,實現農業部門的科學決策與管理,保證了我國農業的快速、有效、健康發展[5]。
近年來,社會進入快速發展時期,大數據所帶來的海量信息,對于數據挖掘技術來說既是機遇也是挑戰,數據挖掘技術的更新發展需要依靠高科技,需要改進處理數據的工具進行數據挖掘分析、以提高有預測性和決策力,從而保證數據信息的及時性、準確性、。數據挖掘技術因其自身優勢,其應用前景廣闊,必將推動我國經濟的快速發展,實現社會的信息化發展。
參考文獻
[1] Jiawei Han, Jian Pei, and Yiwen Yin. Mining Frequent Patterns without Candidate Generation[J].In Data Mining And Knowledge Discovery,8.53-87,2004
[2] 李平榮.大數據時代的數據挖掘技術與應用[J].重慶三峽學院學報,2014.3(3):45-47
[3] 魏萍萍等.數據挖掘技術及其在高校教學系統中的應用[J].計算機工程, 2003,29(11):87 -89.
[4] 李汪麗等.數據挖掘在中國教育領域的應用研究綜述[J].湖北第二師范學院學報,2012.2(27):55-58
[5] 羅鳳娥等. 數據挖掘在農業領域中的應用研究[J]. 農業網絡信息,2009.1(1)55-58