999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關聯規則在汽車銷售中的應用

2013-01-01 00:00:00劉斐
科技創新導報 2013年1期

摘 要:該文主要介紹了關聯規則挖掘的FP-tree算法。并基于對FP-tree算法的研究,在Microsoft 2010中用C#語言實現FP-tree算法,并將應用程序應用到某汽車銷售企業的汽車銷售數據進行關聯規則挖掘。根據程序所得到的結果,由lift值判斷,證明了所得規則的有效性。

關鍵詞:數據挖掘 關聯規則 FP-tree算法 汽車銷售 lift

中圖分類號:TP311.13 文獻標識碼:A 文章編號:1674-098X(2013)01(a)-000-03

數據挖掘(Data Mining,DM)就是從大量的、不完全的、有噪聲的、模糊的數據中,提取隱含在其中的、人們事先不知道的但又是潛在的可理解、可接受、可應用的有用信息和知識的過程,并最終利用其來進行重要的商業決策[1-2]。該文重點研究關聯規則中的FP-Tree算法。根據對這種算法的研究,并運用其對某公司的汽車銷售數據進行挖掘,運用關聯規則分析銷售數據,找出影響汽車銷量的因素,為汽車銷售提供決策支持。

1 關聯規則算法

1.1 關聯規則概述

關聯規則是美國IBM Almaden Research Center的RakeshAgrawal等人于1993年首先提出來的知識發現(KDD:Knowledge Discovery in Databases)研究的一個重要課題[3]。由于關聯規則挖掘形式簡潔、思路清楚、易于理解,并可以有效的捕捉數據間的重要關系,因此從大型數據庫中挖掘關聯規則的問題己經成為近年來數據挖掘研究領域的一個熱點。

1.2 關聯規則算法

在目前的許多算法中,以1994年RakeshAgrawal等人提出了的Apriori算法最有影響力[4],其他大多數算法也是以Apriori算法為核心的。Apriori算法是使用一種稱作逐層搜索的迭代方法。首先,產生1-頻繁項集,記作L1。然后用L1找出2-頻繁項集L2,直到不能找到更多的頻繁項集為止。在k次循環中,過程先產生k-候選項集的集合Ck。然后通過掃描數據庫生成支持度,并測試產生k-頻繁項集Lk。找每一個Lk就需要掃描一次事務數據庫。Apriori算法雖然簡單明了,但是卻存在難以克服的性能瓶頸。Apriori算法在執行的過程中需要很大的I/O負載,并且可能產生龐大的候選集。

針對Apriori算法的性能瓶頸問題-需要產生大量候選項集和需要重復地掃描數據庫,2000年Jiawei Han等人提出了基于FP-tree生成頻繁項集的FP-growth算法。該算法只進行2次數據庫掃描且它不使用侯選集,直接壓縮數據庫成一個頻繁模式樹,最后通過這棵樹生成關聯規則。研究表明它比Apriori算法大約快一個數量級[5]。

FP-growth算法是一種不產生候選模式而采用頻繁模式增長的方法挖掘頻繁模式的算法。算法只需要掃描2次數據庫:第一次掃描數據庫,得到1維頻繁項集;第二次掃描數據庫,利用1維頻繁項集過濾數據庫中的非頻繁項,同時生成FP-tree。由于FP-TREE蘊涵了所有的頻繁項集,其后的頻繁項集的挖掘只需要在FP-TREE上進行。FP-TREE挖掘由兩個階段組成:第一階段建立FP-tree,即將數據庫中的事務構造成一棵FP-tree;第二階段為挖掘FP-tree,即針對FP-tree挖掘頻繁模式和關聯規則。由于FP-growth算法的優點,該文即基于FP-growth算法進行實現。

下面給出FP-growth算法:

輸入:FP-tree,α;

輸出:所有頻繁模式集;

(1)begin

(2)FP-growth(tree,α)

(3)if(tree has single Path P)then

(4)forallβP //對路徑P中的結點的任一組合記為β

(5)生成αβ頻繁項集,使其支持度等于β中所有節點的最小支持度

(6)else

(7)forall //對Tree頭上的每個節點記為

(8)begin

(9)β=α

(10)β.sup port= ·sup port;

(11)end

(12)構造β的條件模式基和β的條件FP樹Treeβ

(13)if Treeβthen

(14)FP-growth(Treeβ,β)

(15)end

由FP-growth算法得到頻繁項集之后,就可以提取其關聯規則了。從已知頻繁項集產生關聯規則為兩步:

(1)對于每個頻繁項集l,產生l的所有非空子集;

(2)對于每個l的非空子集s,若,則產生關聯規則“”,其中是最小可信度閾值。

1.3 關聯規則的有效性

在關聯規則挖掘中,lift[6]是用來衡量關聯規則()或目標模型是否有效的量。lift表示的是關聯規則當中Y在X條件下的效應對與Y在整體平均水平下的高低。如果lift大于1,那么目標模型的效應就比一般平均水平高,即關聯規則Y在X條件下表現的更好;lift小于1,則表明沒有平均水平高,即關聯規則Y在X條件下沒有一般情況下好;lift等于1,則表示Y的表現與X不相關。lift的定義為:

例1 表1是關于咖啡與茶的列鏈表,表中分別表示喝茶和喝咖啡的人數。

對于關聯規則(喝茶喝咖啡),由表中數據可得confidence(喝茶喝咖啡)=50/70=0.714,即說明了在喝茶的人當中有71.4%的人和咖啡,這是一個很高的比率,如果最小置信度是70%的話,這個關聯規則就是強關聯規則。但是考慮到{喝咖啡}的支持度=80/100=0.8,說明人群中有80%的人喝咖啡。這個比率要比喝茶的人中喝咖啡的比率大,即說明了喝茶并不真的促進喝咖啡,而是相反。這個例子說明了,關聯規則的置信度并不能完全反映關聯規則的有效性,它需要更進一步判斷才可以得出正確的結論。

我們應用lift來判斷例1中關聯規則的有效性,根據lift的計算公式:

可以知道,喝咖啡與喝茶負相關,即喝茶并不對喝咖啡有積極影響。

2 實驗

2.1 確定挖掘對象

該文的挖掘對象是某公司的汽車銷售數據,挖掘的目的是找出隱藏在汽車銷售數據中顧客的性別、住址和購買車型中所蘊含的不為人知的知識和信息。

2.2 數據準備和預處理

首先,進行數據選擇。對于該文,筆者需要從某公司的銷售數據的數據庫中提取出所要用到的銷售數據,這些銷售數據中必須包含本挖掘問題所關心的屬性,即是購買者的性別、住址以及購買車型這三個必要屬性。表2就是筆者在數據選擇過程后的到的一部分數據。其中第一列sex是性別屬性,包括男、女和單位。第二列brand是購買車型,有朗逸382、途觀232和新POLOC22等。第三列address是顧客的地址信息。第五列y和第六列x分別是顧客地址的經緯度坐標。ID列是銷售編號。

然后,進行數據的預處理。在該文中,經過數據選擇后,需要對某些數據進行預處理,例如sex列,在數據表中,有很多交易這個屬性為空值。所以需要在數據表中去掉sex屬性為空的交易,負責會影響到sex列屬性的支持度計算。第二列brand也需要清洗,因為在數據項中發現有同一車型但名稱有差異的車型。如“新POLO C22”和“新POLOC22”,它們雖然是同一車型,但記錄的名稱中卻相差一個空格。所以,需要將相同車型的名稱進行不一致清洗。同時需要將各品牌車的名稱統一進行清洗,將細分車型改變成品牌名稱。同樣需要將第三列進行類似的清洗,將詳細地址改變成每個區縣的名稱。由于前三列已經滿足了挖掘所需的必要數據特征,為了提高挖掘效率,減少特征維數,第四列至第七列應予以丟棄,如表3所示。這樣數據的預處理就已完成。

2.3 用FP-tree算法挖掘

根據FP-tree算法,該文使用Microsoft 2010 C#語言進行編程。所編得的應用程序界面如圖1。本程序可以選擇數據源文件,數據源文件須是文該文件,如*.dat或*.txt文件。文件中的每行為一個交易數據,交易數據中的各屬性用空格

隔開。

在完成數據文件選擇后,同樣可以設置產生頻繁項集的最小支持度和最小置信度。對于本次實驗對象,該文選用的最小支持度為10%,最小置信度為60%。

運行本程序,得到最小支持度為10%,最小置信度為60%的兩條關聯規則為:朗逸男,其對應置信度為67.73%;新POLO女,其對應置信度為67.24%。運行結果如圖1所示。第一個規則說明了買朗逸的車主中,有67.73%的是男車主,即選擇買朗逸的男性居多。第二個規則說明了買新POLO的車主中,有67.24%的是女車主,即選擇買新POLO的女性居多。由圖1的運行結果知,(朗逸男)的lift值為1.2052,(新POLO女)的lift值為2.2493,均大于1,說明有效。可以根據其來作為汽車銷售中相關決策的依據。

3 結語

該文通過對FP-tree算法的實現,并將其應用到汽車銷售數據中,得出了有效的關聯規則。說明了關聯規則可以有效的挖掘客戶類型與購買車型之間的關系,為汽車銷售的決策提供了有效的依據。目前對于關聯規則挖掘的研究主要集中在如何提高發現頻繁項集的效率,但對如何提高挖掘規則的有效性和可用性的研究則較少,所以,在海量的數據挖掘中很容易出現冗余項和無效規則。因此,在今后的研究當中,本人將會更關注如何提高關聯規則挖掘的有效性和可用性方面的研究,以給出更準確有用的信息提供給決策者,達到科學決策的目的。

參考文獻

[1]朱明.數據挖掘[M].2版.合肥:中國科學技術大學出版社,2008.

[2]Simoudis,Evangelos.IEEE Expert:Intelligent Systems and Their Applications.Reality Check for Data Mining,1996:26-33.

[3]Agrawal,R.Imieliński,T.Swami,A.\"Mining association rules between sets of items in large databases\".Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '1993:207-216.

[4]Agrawal,Rakesh;and Srikant,Ramakrishnan;Fast algorithms for mining association rules in large databases,in Bocca,Jorge B.;Jarke,Matthias;andZaniolo,Carlo;editors,Proceedings of the 20th International Conference on Very Large Data Bases(VLDB),Santiago,Chile,1994:487-499.

[5]Jiawei Han,Jian Pei,YiwenYin.Mining Frequent Patterns without Candidate Generation.In:Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data.Dallas,2000:l-12.

[6]Coppock,David S.(2002-06-21).“Data Modeling and Management:Why Lift?”.2012-12-19.

主站蜘蛛池模板: 国产精品嫩草影院视频| 国产流白浆视频| 97se亚洲综合在线韩国专区福利| 香蕉色综合| 亚洲日本www| 国产拍揄自揄精品视频网站| 国产一区自拍视频| 老司机午夜精品网站在线观看 | 免费大黄网站在线观看| 国产靠逼视频| 久久综合五月| 67194亚洲无码| 国产九九精品视频| 99无码中文字幕视频| 国产99在线| 成人免费网站久久久| 99久久国产精品无码| 国内精品久久九九国产精品| 国产毛片网站| 波多野结衣一区二区三区AV| 熟女成人国产精品视频| 2021国产精品自产拍在线| 乱人伦99久久| 一本一道波多野结衣一区二区| 99青青青精品视频在线| 日韩中文字幕免费在线观看| 精品视频一区二区观看| 国产中文一区a级毛片视频| 五月天香蕉视频国产亚| 国产亚洲一区二区三区在线| 伊人激情综合网| 日韩无码一二三区| 国产成人综合日韩精品无码首页 | 欧美在线黄| 四虎AV麻豆| 亚洲精品你懂的| 永久毛片在线播| 久久国产精品麻豆系列| 大学生久久香蕉国产线观看 | 一本大道AV人久久综合| 天堂成人av| 亚洲国产天堂久久综合| 在线看AV天堂| 九色在线观看视频| 国产成人夜色91| 国产女人18水真多毛片18精品| 精品视频在线一区| 欧美无专区| 亚洲人网站| 国产在线一区视频| 在线无码九区| 国产成人91精品| 欧美区一区| 日韩无码视频播放| 人人看人人鲁狠狠高清| 国产免费黄| 精品福利国产| 精品无码一区二区在线观看| a级毛片在线免费| 色综合天天操| 亚洲综合经典在线一区二区| 欧美亚洲激情| 2021国产精品自拍| 亚洲乱码在线播放| 国产肉感大码AV无码| 国产精品99久久久久久董美香| 国产成人a在线观看视频| 欧美中文一区| 国产乱子伦无码精品小说| 色天堂无毒不卡| 在线日韩日本国产亚洲| 一区二区三区在线不卡免费| 亚洲精品制服丝袜二区| 国内丰满少妇猛烈精品播| 国产亚洲精品自在线| 乱人伦视频中文字幕在线| 亚洲精品无码不卡在线播放| 99热这里只有精品国产99| www.亚洲天堂| 九九精品在线观看| 九色综合视频网| 久青草网站|