譚凱波 周靜





摘 要:隨著社會的不斷發展,化妝品成為現代女性不可或缺的必需品,掌握顧客消費習慣,是提升銷售策略的重要方法和手段。基于此,本文對關聯規則算法(Apriori)算法的相關定義及其原理進行了剖析,并以某網店交易數據為例,利用關聯規則算法(Apriori)分析了各種化妝品之間的強關聯關系,為化妝品銷售提供了決策參考。
關鍵詞:化妝品;Apriori算法;關聯規則;消費習慣
1 引言
近年來,隨著生活物質水平的不斷提高,人們對生活的追求越來越高,尤其在當代很多女性為追求時代潮流開始頻繁的使用化妝品。線上線下的化妝品店的出現,生成了大量的銷售交易數據。對這些數據進行了解分析,可以找尋其中的強關聯關系,進而掌握顧客消費習慣,提升銷售策略。
2 關聯規則與Apriori算法
關聯規則分析算法(Apriori)的主要功能是挖掘所有支持度和置信度分別大于等于預定的最小支持度(Min-Support)和最小可信度(Min-Confidence)的關聯關系。從而描述了一個事物中某些屬性同時出現的規律和模式。
2.1 相關定義
關聯規則分析算法(Apriori)又稱為關聯規則學習,是指在大規模數據集中尋找數據之間的關聯規則。相關定義說明如下:
(1)項集
包含事物的集合稱為項集,包含k個項的項集稱為k-項集。
(2)支持度與置信度
支持度和置信度是用來量化關聯分析是否成功的兩個指標。支持度是數據集中某項記錄所占的比例。置信度是針對一條具體的關聯規則來定義的,表示包含A事務中同時包含B事務的比例,即同時包含A和B的事務占包含A事務的比例[1]。其計算公式分別為:
(3)頻繁項集
頻繁項集是經常出現在一起的事物的集合,只要某個項集的支持度大于給定的閾值,那么該項集稱作頻繁項集。
(4)關聯規則
關聯規則是表示兩種物品之間存在的聯系,大于或等于最小支持度閾值和最小置信度閾值的規則叫做強關聯規則。找出強關聯規則是關聯分析的最終目標。
2.2 Apriori算法原理
Agrawal在1993年設計了一個基本Apriori算法并提出了挖掘關聯規則的一個重要的基于兩階段頻集思想的方法,這是最典型的層次算法,是布爾關聯規則挖掘算法中最成功的一類算法。其核心技術為其它各類布爾關聯規則挖掘算法所廣泛采用[2]。
Apriori算法是將關聯規則挖掘算法的設計分解為兩個子問題:
①所有支持度大于所設定最小支持度的項集(Itemset) , 這些項集被稱為頻集(Frequent Itemset) 。
②使用第1步找到的頻集產生期望的規則。Apriori算法是一種寬度優先算法, 通過對數據庫D的多次掃描來發現所有的頻繁項目集。在每一次掃描中只考慮具有同一長度k (即項目集中所含項目的個數)的所有項目集。
在第1次掃描中Apriori算法計算D中所有單個項目的支持度,生成所有長度為1的頻繁項目集L1。在后續掃描的第k次中,首先以前一次掃描中所發現的所有頻繁項目集為基礎,生成所有新的候選項目集(Candidate Itemsets)即潛在的頻繁項目集,然后掃描數據庫D,計算這些候選項目集的支持度,最后確定候選項目集中哪一些真正成為頻繁項目集Ck。如此循環下去,一直重復上述過程直到再也發現不了新的頻繁項目集[3]。Apriori的具體計算過程如下:
①在數據庫集D中掃描所有記錄,找出頻繁1項集的集合,記作L1
②其次在L1中找出頻繁2項集的集合,記作L2
③在L2中找出頻繁3項集的集合,記作L3
④如此下去,直到不能找到頻繁k-項集。
3 實例分析
隨著人們生活水平的提高,女性對化妝品的選購通道不僅僅只在實體店中購買還可以利用網上購物,網絡化妝品經銷商對于銷售產品的越來越受到關注。利用網絡數據進行關聯規則分析,可以掌握女性顧客關于化妝品的消費習慣,從而提升銷售策略。
3.1 化妝品數據收集
本文從淘寶網站上獲取國內某知名品牌化妝品的用戶購買清單,經過隨機抽樣選取十條交易記錄作為分析對象。其交易數據如下表1所示
表1中,TID是一個唯一的標識,數據庫中的每一條交易記錄稱為一筆事務。每條交易記錄對應的商品顯示為“1”表示這筆交易購買了該商品,否則顯示為0。如表1中所示,在TID等于1的事務中,顧客購買了精華露、清瑩露和精華霜。
3.2 基于Apriori算法的挖掘過程
下面用實例展示利用Apriori算法對交易數據進行挖掘,從而發現關聯規則的過程。定義數據集{D}={精華露,清瑩露,洗面乳,隔離乳,精華霜,化妝水},設置最小支持度minsup=0.4,設置最小置信度minconf=0.9,由Apriori算法在數據集{D}中確定的頻繁1-項集如下表2所示:
同理可得,根據表2中的頻繁1-項集,尋找滿足最小支持度(minsup)要求的頻繁2-項集、頻繁3-項集,將沒有達到最小支持度的舍去,其結果分別如表3、表4所示。
基于頻繁3-項集,生成的候選4-項集為空集,則頻繁4-項集為空,算法停止。
3.3 關聯規則結果
由表4可知,l1, l2, l5滿足最小支持度(minsup=0.4)的要求,關聯關系存在。故剔除其余指標,只保留l1和l2, l5間的相互影響關系。篩選出最小支持度α=0.4的關聯規則,然后設置最小置信度為0.9,確定強關聯規則。各指標間的關聯規則如表5所示。
從表5中可以發現有3組關聯規則置信度均為100%,符合最小置信度(minconf=0.9)的要求,分別為:{ l1(精華露), l2(清瑩露), l5(精華霜)},{ l1(精華露), l5(精華霜)},{ l2(清瑩露), l5(精華霜)}
4 結果討論分析
從以上強關聯規則中可以初步的得出簡略結論。
①首先從規則l1∩l2=>l5可以得出,顧客只要選購了精華露和清瑩露的就一定會夠購買精華霜。
②然后,從規則l1=>l5可以得出,顧客選購了精華露的就一定會選購精華霜。
③其次,從規則l2=>l5可以得出,顧客選購了清瑩露的就一定會選購精華霜。
根據以上的關聯規則,可以運用到具體銷售實踐當中去,以便掌握顧客消費習慣,提升銷售策略。例如,為提升該店的銷售額,可以針對分析中關聯性很強的商品,如將精華露、清瑩露和精華霜進行捆綁銷售。針對其它關聯性的商品,可在節假日實行促銷等活動。
5 結語
本文對淘寶某化妝品網店的交易數據進行簡單的隨機抽取,抽取的樣本為10個,如果抽取的樣本更大,數據更多,分析的結果也就更加的精準。不僅僅在化妝品商中,甚至在整個商業行中,如果能夠將這種關聯規則與Apriori算法有效的運用在線上線下的銷售中,通過消費者的交易數據,挖掘出顧客購買商品之間的強關聯規則,了解消費者在購買商品過程中的行為習慣,可為商家的管理層在制定相應的營銷策略時提供參考和依據,在提升交易額的同時,也可以使經銷商改善服務質量,真正實現“顧客就是上帝”的經營理念。
參考文獻:
[1]Python數據分析與挖掘實戰[M],機械工業出版社,張良均, 2019.
[2]肖勁松,林子禹,毛超.關聯規則在零售商業的應用[J], 計算機工程, 2004, 30 (3) :189-190.
[3]王方華, 陳潔.數據庫營銷[M].上海:上海交通大學出版社, 2006.