
摘 要:由于信息技術的發展迅速,海量信息不斷累積,如何從大量并且隨機的數據集中挖掘出一些有價值的信息,是一個重要而且有意義的研究方向,所以帶動了數據挖掘技術的迅速發展。這樣能利用模糊關聯規則挖掘數據庫中各個數據之間的關聯,更有效的為我們服務。本文則研究模糊關聯規則算法及其改進算法。
關鍵詞:數據挖掘;模糊關聯規則
study of fuzzy association rule mining technology
Ran Na
(Department of Computer ,Sichuan TOP IT Vocational Institute ,Chengdu 611743 ,China)
【 ABSTRACT 】 Due to the rapid development of information technology and the accumulation of massive information, it is an important and meaningful research direction and research to excavate some valuable information from a large number of random data sets. So the rapid development of data mining technology. In this way, we can use fuzzy association rules to mine the association between data in the database and serve us more effectively. In this paper, the fuzzy association rules algorithm and its improved algorithm are studied.
【 KEY WORDS 】: data mining; fuzzy association rules mining;
一、研究背景及意義
關聯規則重點在于找到不同數據之間的關系,并且找到大于已經設置好的支持度和置信度閥值的,并且隱藏在多個領域之間的數據關聯規律[1],按照給不一樣的屬性進行取值方式,關聯規則包含兩種類型:第一種是布爾型關聯規則,第二種是多值屬性關聯規則,在對第二種類型的挖掘過程中,如果將屬性值精確劃分到某個特定范圍內,可能會導致比較突出的邊界問題,從而導致丟失了區間邊界周圍的有用信息。為了解決這個問題,在挖掘中加入模糊概念方法,可以將多值屬性進行模糊化處理,達到從一個區間到另一個區間的過渡比較平順,保存區間周圍信息的目的[2]。因此,數據庫是多值屬性的可以用屬性模糊化的辦法來獲得更多、并且更有用的規則,本文的數據集就是屬于多值的。
二、算法分析和研究
在推薦系統中使用模糊關聯規則的原因如下:首先可以更直接地展示推薦結果,而且會以比較容易的方式讓用戶接受,其次可以輕松發現新的興趣點,而且不需知道過多的專業知識。
(一)基于 Fuzzy FP-tree 的模糊關聯規則挖掘算法
Lin等人第一次使用了一種叫做模糊關聯規則挖掘方法——Fuzzy FP-tree算法進行挖掘[3]。它借鑒了FP-tree的算法中心內容,使用“分層治理”方法,先整理數據庫中的信息保存在FFP-tree這樣的結構中。FFP-tree的優勢是不需要構成復雜的候選項集,基本沒有什么內存占用,不足在于處理模糊屬性本領較弱,會直接挖掘結果中有意義的信息,無法獲得完整的挖掘規則。研究的改進算法有比較強的能力,不會造成有用信息丟失。
(二)改進的模糊關聯規則挖掘算法
通過研究了很多篇資料可以得知,對模糊關聯規則挖掘影響最大的因素就是支持度的確定和隸屬度的確定。隸屬度由隸屬函數計算出來的。所以要想改進模糊關聯規則,就要挖掘出更高效的隸屬度函數確定的方法。改進的算法為NFAR(New Fuzzy Association Rules),研究改進算法需要首先通過隸屬函數將模糊化數據庫為Df 。接著計算各個模糊項目的支持度,篩選出支持度大于最小支持度的數據構成頻繁1-項模糊集L1。由L1形成候選2-項集C2 ,通過Fuzzy FP-tree算法對C2去除噪聲數據形成包含有意義數據的頻繁模糊項目集。所有滿足ms的模糊項目都加入到L1 中,可以讓數據更加完整。
(三)算法實驗
為了評估改進算法的效率,實驗數據來自大型數據庫訂單信息表,對Fuzzy FP-tree算法與改進的模糊關聯規則算法NFAR算法進行比較。10000 條相同屬性模糊化處理之后分別使用兩種算法挖掘關聯規則。將數值型屬性通過各自設定的隸屬函數轉化為模糊項目集,就能將數據庫 D轉化為模糊數據庫Df,接下來對轉化后的數據進行算法性能測試。
在此部分的實驗中,主要是比較兩種算法在相同支持度的情況下,對不同數量的數據集進行挖掘,得出頻繁項集所用的時間。設置相同的最小支持度為10%,對于數據集取出不同數目的實驗數據,分別取出數據集的1000條,2000條,4000條,5000條和8000條進行試驗,比較二者算法所用的時間。
比較結果如圖1所示
通過上面的實驗證明了,改進的NFAR算法在處理不同數量的數據集的情況下,效率是優于Fuzzy FP-tree算法的。在數據集的數量較小時,兩種算法的性能相差很小,但是當數據集中的數據的逐漸變多時,改進算法的效率有了較大提高。原因在于改進算法主要是去除噪聲數據,去除了對生成頻繁項集毫無意義的數據,也就減少了搜索頻繁項集所用的時間,所以在數據集多的時候,新的算法可以更好的提升挖掘效率。
三、結語
目前,學者們對關聯規則挖掘技術挖掘熱情越來越高漲,各個方面都能看到它的運用。模糊關聯規則作為其中的一個非常重要的領域,對它的學習具有重大的意義。類似于大型購物網站,與我們的日常生活密切相關,而且伴隨著挖掘技術的不斷成熟與發展,網站的前景發展廣闊。
參考文獻:
[1] 廖志 ,郝志峰 ,陳志宏.數據挖掘與數學建模[M].北京:國防工業出版社,2011:188.
[2] 李雄飛 ,董元芳 ,李軍.數據挖掘與知識發現[M].北京:高等教育出版社,2015:12..
[3] Lin C W,Hong T P,Lu W H. Linguistic data mining with fuzzy FP-trees[J]. ExpertSystems with Applications,2015,37:4560-4567.
作者簡介:
①冉娜(1983-),女,漢,四川廣安人,講師,研究生,主要研究方向為數據挖掘。