摘要:數據挖掘被稱為數據庫中的知識發現,是一個跨學科的研究領域。關聯規則分析是數據挖掘中一個重要的課題,用于發現存在于數據庫中的項或屬性間的關聯聯系,這些聯系是事先未知且隱藏的。關聯規則的研究主要集中在生成頻繁項集的挖掘算法。通過對幾種主要關聯規則的算法分析,利用Apriori算法研究再生資源系統中關聯規則的確定,從而實現物資的二次銷售。
關鍵詞:關聯規則
數據挖掘
頻繁項集 支持度
置信度
中圖分類號:TN311.11
文獻標識碼:A
文章編號:1002-2422(2010)03-0095-03
1關聯規則挖掘
1,1問題描述
關聯分析是尋找在同一個事件中出現的不同項的相關性。經典的問題是“尿布與啤酒”的故事。沃爾瑪擁有世界上最大的數據倉庫系統,為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是:“跟尿布一起購買最多的商品竟是啤酒。經過大量實際調查和分析,揭示了一個隱藏在“尿布與啤酒”背后的美國人的一種行為模式:一些年輕的父親下班后經常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。
數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時并不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。關聯規則挖掘主要考慮支持度和置信度兩個閾值。
設x是項集,T是數據庫DB中的任意一個記錄。x的支持度是指支持x的記錄數與全體記錄數的比,Support(x)=1 {T|T#61042:X,T∈DB)|/| DB |。蘊涵關系x-Y在數據庫DB中的置信度是指同時支持X和Y的記錄數與支持x的記錄數之比,即:置信度(x-Y,T∈DB}|。支持度可理解為在數據庫DB中隨機抽取一個記錄,該記錄同時支持x和Y的概率。置信度可理解為在支持x的記錄全體中隨機抽取一個記錄,該記錄支持Y的概率。具有高置信度和強支持度的規則稱為“強規則”,關聯規則發現任務的本質就是要在數據庫中發現強關聯規則。
利用這些關聯規則可以了解各種物資之間潛在的關系行為,這對于物資的二次銷售有很大的決策幫助。
1,2算法分析
1,2,1 Apriofi算法
算法的核心思想是使用候選項集找頻繁項集。采用兩階段挖掘的思想,并且基于多次掃描事務數據庫來執行的為了生成所有頻集。其核心思想簡要描述如下:

首先找出所有的頻集,這些項集出現的頻繁性至少和預定義的最小支持度一樣。然后由頻集產生強關聯規則,這些規則必須滿足最小支持度和最小可信度。然后使用找到的頻集產生期望的規則,產生只包含集合的項的所有規則,其中每一條規則的右部只有一項,這里采用的是中規則的定義。一旦這些規則被生成,那么只有那些大于用戶給定的最小可信度的規則才被留下來。為了生成所有頻集,使用了遞推的方法。
1,2,2基于劃分的算法
先把數據庫從邏輯上分成幾個互不相交的塊,每次單獨考慮一個分塊并對其生成所有的頻集,然后把產生的頻集合并,用來生成所有可能的頻集,最后計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存,每個階段只需被掃描一次。
1,2,3 FP-樹頻集算法
算法的核心思想是不產生侯選挖掘頻繁項集的方法。在經過第一遍掃描之后,把數據庫中的頻集壓縮進一棵頻繁模式樹(FP-tree),同時依然保留其中的關聯信息,隨后再將FP-tree分化成一些條件庫,每個庫和一個長度為1的頻集相關,然后再對這些條件庫分別進行挖掘。當原始數據量很大的時候,也可以結合劃分的方法,使得一個FP-tree可以放入主存中。
1,3關聯規則挖掘過程
首先,先從收集的數據集合中找出所有的高頻項目組。既指某一項目組出現的頻率相對于所有記錄而言,必須達到某一水平;然后利用前一步驟的高頻項目組來產生規則,在最小支持度的限制下,若一規則所求得的信賴度滿足最小支持度,稱此規則為關聯規則。其中同層關聯規則可以采用兩種支持度策略:
(1)統一的最小支持度。對于不同的層,都使用同一個最小支持度。

(2)遞減的最小支持度,不同層次的最小支持度也不同,較低層次的最小支持度相對較小。
2應用
關聯分析的目的就是為了挖掘出隱藏在數據間的關聯規則。對再生資源數據庫中的數據進行關聯分析就是找到已有的積壓物資與現在銷售的物資之間的相互聯系,構建關聯模型。可以更好地組織銷售,實現物資的二次銷售,把狀態良好的積壓物資,并非報廢物資,再次利用,變“廢”為“寶”,逐年減少積壓物資總額,降低企業營銷成本,從而增創企業效益。那么衡量規則是否構建的理想,有兩個量可以進行衡量,即置信度和支持度。以銷售訂單為例,分析表1如下。根據表1中物資銷售情況,整理后產生表2,橫欄和縱欄的數字表示同時銷售出這兩種商品的交易條數。如購買有防爆燈的交易數為4,而同時購買防爆燈和接線盒的交易數為2。
置信度是通常計算的條件概率P(Y,x)。計算公式為:
關聯規則X-Y的置信度
置信度(X-Y)=P(YIX)=P(X,Y)/P(X)=#{購買X和Y的顧客/#{購買X的顧客)
(1)
支持度(x,Y)=P(x,Y)=#{購買x和Y的顧客}#{顧客}
(2)
根據公式(1)可見置信度表示了這條規則有多大程度上值得可信。設條件的項的集合為A,結果的集合為B。置信度計算在A中,同時也含有B的概率。即置信度(A-B)=P(BIA)。例如計算“如果防爆燈則接線盒”的置信度。由于在含有防爆燈的4條交易中,僅有2條交易含有接線盒。其置信度為0.5。
支持度計算在所有的交易集中,既有A又有B的概率。例如在4記錄中,既有防爆燈又有接線盒的記錄有2條。則此條規則的支持度為2/4=0.5。這條規則可表述為,如果銷售一個防爆燈,則有50%的可能銷售出接線盒。而這樣的情況會有50%的可能發生。因此一方面,在進行庫房物資管理時,把這類物資放置同一庫房或同一層貨架上,也便于保管員發貨;另一方面,在組織銷售時,可以把新物資防爆燈銷售出去的阿時不直接銷售待購物資接線盒,而是銷售積壓物資中相關的產品,不但滿足了顧客的需要。同時也產生降壓增效的作用;再者,利用這些關聯規則。可以為企業制定市場營銷策略,使營銷能夠有針對性進行,減低銷售成本,增加銷售額。
3結束語
關聯規則分析是數據挖掘中的一個重要方法,用于發現存在于數據庫中的項或屬性間的聯系,這些聯系是不能通過傳統的數據庫邏輯操作或統計的方法得出。因此關聯規則挖掘不是基于數據自身的固有屬性,而是基于數據項的同時出現特征。利用關聯規則分析實現大量的良好狀態積壓物資的二次利用,不但提高銷售業績,而且能夠逐年減少維護積壓物資的人力、物力和財力,減低企業的成本,從而提高企業的經濟效益。