摘 要:關聯(lián)規(guī)則進行挖掘被發(fā)現具有獨特的應用價值,尤其是在海量數據的存儲和應用中,可以建立某些聯(lián)系,更加合理更加高效的進行數據管理。所以關注的目光已經停留在它的身上。本文從關聯(lián)規(guī)則和挖掘算法進行簡要介紹,同時就原理和應用與發(fā)展進行了闡述。
關鍵詞:數據庫;頻集算法;關聯(lián)規(guī)則;算法優(yōu)化;并行規(guī)則
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1674-7712 (2014) 18-0000-01
一、關聯(lián)規(guī)則簡介
(一)產生與含義
關聯(lián)規(guī)則的定義顧名思義,于萬事萬物中存在千絲萬縷的關系。就如同我們所常說的蝴蝶揮翅效應一樣。雖然有些事物看起來不存在必然的關聯(lián),但是由于某個事物的某種行為就會因為不斷的關聯(lián)而最終影響到那個看起來不關聯(lián)的事物。關聯(lián)規(guī)則在20世紀90年代,在研究不同商品在顧客購買時如何讓顧客購買的商品更加便于管理便于數據應用進行了研究,從而提出了“關聯(lián)規(guī)則”這個概念。也正因為如此,關聯(lián)規(guī)則被迅速應用于超市物品購買和電子商務數據挖掘中。針對關聯(lián)規(guī)則,優(yōu)化關聯(lián)規(guī)則從而達到數據高效挖掘管理的目的,產生了多種算法。比如Apriori算法、partition算法等等。
(二)典型算法定義與介紹
關聯(lián)規(guī)則中最經典出現時間較早的算法莫過于Apriori算法、后期很多優(yōu)化算法都是針對于原算法的改進。
算法大多數都是由一些數學的公式和表述方法來表示的,這樣的做法主要是因為這種方式的表達更加嚴謹,經得住推敲。但是這種復雜的公式并不是利于人們理解的。這里以思想模式讓大家了解Apriori算法。思想模式:從管理角度講,在不斷出現的各個數據中,最重要的當然是出現頻率,或者簡單說出現次數、管理次數最多的那個數據項。因為對這個數據項需要大量的操作,實現它的高效管理,就讓數據挖掘管理更加科學更加方便。然后通過這個數據項,采用數學方法中的迭代算法,以層為概念進行搜索操作,找出與最多項頻繁項的關聯(lián)集合。不斷的執(zhí)行層面的迭代,建造多個頻繁集合。這就是算法的作用。但是我們會發(fā)現,在不斷的探索關聯(lián)關系時候,數據項總會有某些關聯(lián)。但是關聯(lián)關系太遠的,并不是我們提升效率的需要,也不是提升數據管理的方法,所以我們要根據一些要求與規(guī)則,去除一些關聯(lián)集合,這個過程被形象的比喻成“剪枝”。就好像為了獲得最美最能茁壯成長的植物,我們需要剪去一些不好的枝葉一樣。至于數據定義的公式,數學方法表示,在各種參考資料中都可以方便的找到,這里就不再贅述。
二、關聯(lián)規(guī)則數據挖掘
對于很多的應用來說,由于數據分布的分散性,所以很難在數據最細節(jié)的層次上發(fā)現一些強關聯(lián)規(guī)則。當我們引入概念層次后,就可以在較高的層次上進行挖掘。雖然較高層次上得出的規(guī)則可能是更普通的信息,但是對于一個用戶來說是普通的信息,對于另一個用戶卻未必如此。所以數據挖掘應該提供這樣一種在多個層次上進行挖掘的功能。
三、此算法的應用方向與未來發(fā)展
(一)應用方向
從定義而來,我們都可預期關聯(lián)算法的挖掘算法主要應用于電子商務、數據管理。所以針對方向從計算機角度來講當然是數據庫技術。對于商業(yè)購買(尤其是超市)具有重大作用,利用關聯(lián)數據分析我們就知道了顧客最喜歡哪些商品,哪些商品是購買最多的、哪些商品銷售是穩(wěn)定的、哪些商品的銷售不盡如人意。所以可以根據這些數據信息,可以對貨品的進貨頻率、商品價格的提升與下降、某段時間段需要刺激客戶的購買欲望等做出合理的評價與操作。同時目前比較流行的商業(yè)概念,交叉銷售方法,也需要使用到關聯(lián)規(guī)則挖掘算法。就是在銷售給用戶一種商品的時候,利用數據來分析顧客可能需要的其它商品,將這些商品合理的推薦給用戶,增加銷售量達到銷售目的的過程。商業(yè)應用方向以為,這種數據庫的分析方法還適合用于金融角度,如股票、期貨等升降的趨勢預測。用于醫(yī)療器材中,比如疾病基因預測。當然在其它行業(yè)如保險、通信、建筑等領域也有一定的應用空間。
(二)算法優(yōu)化發(fā)展方向
挖掘算法效率的提高隨著數據庫尺寸的不斷增大,不僅增大了采掘算法的搜索空間,而且也增加了盲目發(fā)現的可能。因此我們必須利用領域知識去提取與我們發(fā)現任務有關的數據,刪除無用的數據,有效降低問題的維數,設計出更加有效的采掘算法。在這方面,基于約束的關聯(lián)規(guī)則采掘具有廣闊的前途。另外,數據庫可能經常頻繁的更新,一旦有新的數據集添加到舊的數據庫后,原來的強關聯(lián)規(guī)則可能不再是強關聯(lián)規(guī)則了,而原來的弱關聯(lián)規(guī)則也可能會變?yōu)閺婈P聯(lián)規(guī)則。所以,對數據庫需要經常挖掘最新的關聯(lián)規(guī)則,這時可以將現有的挖掘算法如Apriori重新運行來得到新的關聯(lián)規(guī)則。這種方法雖然簡單,但是有明顯不足,因為在原有數據庫中發(fā)現到的頻繁項目集都被浪費掉了,所有的頻繁項目集必須重新開始計算。因此有必要研究針對數據庫變化時的挖掘算法。在這方面增量式更新算法大有前途??梢暬删蚰壳暗年P聯(lián)規(guī)則挖掘過程一般是在用戶規(guī)定最小支持度和最小置信度等參數之后,通過掃描數據庫找出所有的頻繁項目集生成關聯(lián)規(guī)則最后將挖掘出的關聯(lián)規(guī)則提交給用戶。由于頻繁項目集的尋找比較費時,用戶在指定這些參數后等待較長時間才能獲得挖掘結果。如果用戶對所得到的挖掘結果不滿意,則需要修改最小支持度、最小置信度等參數,并再次運行挖掘算法。用戶要得到滿意的結果可能需要多次反復上述的過程。雖然上述過程可以優(yōu)化,但仍然難以達到理想的效果。增強關聯(lián)規(guī)則挖掘算法與用戶的交互性可以減小算法的搜索空間,提高挖掘效率挖掘出滿足用戶需求的關聯(lián)規(guī)則。因此設計出靈活方便的交互用戶界面并對所挖掘的結果進行很好的可視化表示,使非領域專家也能夠挖掘是一個廣闊的發(fā)展方向。
參考文獻:
[1]何月順,杜萍,丁秋林.基于數據挖掘思想的故障模式分析[J].計算機應用研究,2005(11).
[2]何月順,丁秋林.計算機半結構化數據源的數據挖掘技術研究[J].哈爾濱工業(yè)大學學報,2005(10).
[3]彭儀普,熊擁軍.關聯(lián)規(guī)則挖掘AprioriTid算法的改進[J].計算機應用,2005(05).
[4]何月順,湯彬,丁秋林.基于Web的數據挖掘技術的應用研究[J].計算機系統(tǒng)應用,2005(05).
[5]何月順,劉光萍,丁秋林.XML與面向Web的數據挖掘技術的應用研究[J].江西農業(yè)大學學報,2004(06).
[6]馬水山,王志旺,張漫.基于關聯(lián)規(guī)則挖掘的滑坡監(jiān)測資料分析[J].長江科學院院報,2004(05).
[作者簡介]馬峰柏(1983.09-),男 ,黑龍江人,黑龍江農業(yè)職業(yè)技術學院,教研室主任,講師,碩士研究生,研究方向:網絡、軟件方向。
[基金項目]本論文支持黑龍江省教育廳高職高專院??蒲许椖浚宏P聯(lián)規(guī)則挖掘算法的研究與應用(項目編號:12535109)。