鄒金花
〔摘要〕介紹了關聯規則的相關概念及理論知識,然后針對關聯規則的經典算法Apriori算法提出了改進,即Apriori-high算法,以及改進算法的好處,最后介紹了關聯規則在圖書館中的應用,可以提高讀者的效率,更好的為讀者服務。
〔關鍵詞〕關聯規則;圖書館;Apriori算法
DOI:10.3969/j.issn.1008-0821.2013.05.005
〔中圖分類號〕G250〔文獻標識碼〕A〔文章編號〕1008-0821(2013)05-0017-04
114最小支持度和最小可信度
最小支持度是指項集滿足它的最小支持度,最小支持度也稱支持度閾值,通常記作minsup。最小可信度或者稱最低置信度,指項集滿足它的最小可信度或者最小置信度,最小可信度也稱置信度閾值,通常記作minconf。
115關聯規則產生
關聯規則產生是找出所有支持度不小于最小支持度且置信度不小于最小置信度的規則。即S(A→B)≥minsup,C(A→B)≥minconf。
因此,我們可將關聯規則挖掘問題分為以下的兩個子問題:
頻繁項集 找出所有滿足最小支持度閾值的項集,我們稱這些項集為頻繁項集體。
規則的發現或者規則的產生 找出滿足頻繁項集和置信度閾值的規則,我們把這些規則稱為強規則。
12關聯規則中的Apriori(先驗)算法
關聯規則挖掘的算法有很多種,Apriori(先驗)算法是首個關聯規則挖掘算法。下面介紹的就是關聯規則最經典的算法——Apriori(先驗)算法[23]。其基本思想是:第一步,產生頻繁1-項集L1,初始時每個項都被看作候選1-項集,我們記為C1,掃描整個數據庫,對C1計數,根據已知的最小支持度計數,刪除C1中不滿足最小支持度的項,得到頻繁1-項集L1。第二步,產生頻繁2-項集L2,由L1產生候選2-項集C2,掃描數據庫,同樣的刪除C2中小于最小支持度的項,得到頻繁2-項集L2。……