謝瑾
摘要:為了提高超市的銷售率,對校園超市POS系統的數據做了調查分析。首先介紹了關聯規則挖掘算法的相關概念,其次運用條件概率等方法,分析了大學生日常在超市購買多種商品時的選擇概率,最后得出相應的關聯規則及營銷策略。
關鍵詞:數據挖掘;關聯規則;條件概率;營銷策略
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2020)09-0043-03
0 引言
隨著科技的發展,運用現代技術將掌握的資料轉變為數據,通過存儲及分析后,為相關部門或企業給出正確的決策方案。在購物籃分析(Market Basket Analysis)中,“關聯規則是比較重要的一種規則模式,也是知識模式最活躍的分支之一”[1]。關聯規則反映事物之間的相互依存性和關聯性,用于從大量數據中挖掘出有價值的數據項之間的相關關系。
隨著超市的信息技術如條形碼、電子收款機和POS系統在超市的應用,POS系統在大學校園超市中的收款、倉儲等方面的應用已經非常普及,同時POS系統也積存了大量的商業運行數據,利用每天有效銷售數據得到的準確信息,利用數據挖掘分析出大學生消費的購物習慣和行為,挖掘商品之間隱含的關聯性。為校園超市的管理者提供科學的營銷策略,提高決策的高效性和科學性。
購物籃分析的主要目的是在購買交易中分析出能夠同時購買一類產品或一組產品的可能性(相互關聯),通過商品銷售記錄的關聯規則,挖掘學生經常購買商品的規律。利用得到的規律采取不同的銷售策略,例如商品的放置區域以及布局設置,利用物理空間提高學生逗留時間和購買其它商品的概率。
1 基本理論
1.1 數據挖掘
數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程[2]。常用的挖掘算法有關聯分析、決策樹、遺傳算法等。
1.2 關聯規則
關聯規則是尋找在同一個事件中出現的不同項的相關性,關聯分析被廣泛應用于購物籃或事務數據分析[3]。關聯規則是一種常用技術,它為了挖掘數據之間的相互關系,從而促進信息的顯化。
關聯規則中的基本概念[4]:
(1)項集:設I={i1,i2,…,im}是項的集合,則I稱為項集(itemset)。
(2)事務:事務是項的集合。
(3)事務集:事務的集合稱為事務集。
(4)關聯規則:關聯規則是形如AB的蘊含式,規則AB在事務集D中成立,具有支持度S,其中S是D中事務包含A∪B的百分比,它是概率P(A∪B)。
(5)頻繁項集:它是為滿足最小支持度的項集,最小支持度是以獲取對用戶有用的規則,摒棄沒用的規則,需要設定最小支持度和最小置信度兩個閾值。
1.3 購物籃分析
購物籃是指超市供顧客購物時使用裝商品的籃子,顧客付款時購物籃內的商品通過收款機登記結算并記錄。所謂購物籃分析就是通過這些購物籃所顯示的交易信息來研究顧客的購買行為[5]。購物籃分析是數據挖掘最直接、簡單和有效的應用領域,它能在潛在的顧客群體中發現新顧客,并建立相應的模型;能確定銷售策略從而增加銷量;能發現并防止顧客的流失,能更好地為社會提供更有價值的服務。
關聯規則反映事物間的關聯性,挖掘有價值的數據項之間的相關關系,其中某項屬性值可根據其它屬性值進行預測。經典案例“啤酒與尿布”反映了啤酒和尿布之間依賴或關聯。這種現象就是賣場中商品之間的關聯性。
1.4 概率概念
(1)條件概率:條件概率是指事件A在事件B發生的條件下發生的概率。條件概率表示為:。若只有兩個事件A、B,則。
(2)聯合概率:聯合概率表示兩個事件共同發生的概率。A與B的聯合概率表示為或或。
(3)置信度:置信度是對支持度進行衡量的主要指標,用于衡量支持度的可信度及數據強度。這項指標將商品同時出現在購物籃中的概率進行多次運算,因此這是衡量商品相關性的主要指標。
2 具體應用
對蘭州大學榆中校區天貓超市的商品銷售情況做了調查和分析,利用關聯規則挖掘學校超市的具體應用,由于校園超市和消費群體的局限性,該調查旨在分析大學生日常在超市購買多種商品時的選擇概率,討論超市商品捆綁銷售策略,給出具體的分析過程和營銷建議。
2.1 數據來源
數據來自蘭州大學“天貓超市”的實際數據。收集得到的幾天不同時段隨機收集的購物小票,對銷售數據中的缺失值和噪聲數據進行預處理。銷售數據以小時為單位存儲在Excel表格中,最終得到的有效數據為96份。利用Excel表格工具匯總出數據統計記錄如表1(表格中的數字“1”僅代表消費記錄中包含此類商品,不代表數量)。
從POS系統中整理出數據表數據,不同商品出現的頻數如表2。
從圖1中可以看出,96份消費記錄中面包出現的頻數最高,超過了一半,其次是乳制品。飲料、方便面和鹵制香腸肉類銷售數量也較多。這一統計情況基本符合大學生日常生活的普遍消費需求。
2.2 購買面包的同時購買的其它商品
將出現面包類的消費記錄單做進一步統計,發現購買面包的51人在選擇面包的同時,選擇其他的商品主要有(圖2)。
記“購買面包”為事件A;“購買乳制品”為事件B;“購買飲料”為事件C;“購買膨化食品”為事件D。
由此得知,僅有9.8%的學生會在購買面包的同時購買膨化食品,這個比例較低,即只有較少的學生買面包的同時會購買膨化食品。但卻有43%的學生會在購買面包的同時購買乳制品,這表明在購買面包的消費群體中,同時購買其它商品時選擇乳制品的概率最大。
2.3 購買方便面的同時購買的其它商品
記“購買方便面”為事件A;“購買面包”為事件B;“購鹵制香腸肉類”為事件C。
在購買方便面的同時會購買面包和鹵制香腸類食品的概率較大,這通常也符合大多數人的購物選擇。
3 結語
校園超市應制定出更好的營銷策略,為學生提供更便捷和優質的服務。研究商品之間的關聯程度能讓管理者制定出更好的營銷策略,比如商品的擺放位置,擺放數量,捆綁銷售等。通過分析,商品相關性的規則都有高置信度,由于商品銷售關聯度大,可通過擺放貨品在超市貨架的位置,進一步提高整體銷售量。通過購物調查分析,針對蘭州大學學生這一特定的消費群體,運用條件概率的計算,調查得出的結果也基本符合我們的認知,超市貨物擺放以及數量基本符合這一規律。但真正的商品分析要復雜得多,需要挖掘的數據也較復雜。
參考文獻
[1] 焦李成,劉芳.智能數據挖掘與知識發現[M].西安:西安電子科技大學出版社,2006.
[2] Han Jiawei,Micheline Kamber.數據挖掘概念與技術[M].范明,孟小峰,譯.北京:機械工業出版社,2007.
[3] 陳玉婷,王斌,劉博,等.關聯規則挖掘算法介紹[J].計算機技術與發展,2006(5):21-25.
[4] 蔣盛益.商務數據挖掘與應用案例分析[M].北京:電子工業出版,2014(1):104-109.
[5] Qu Yang,Weimin Cai,Qingsheng,Researches on discovery of association rules,Computer Science in Chinese,1999(3):41-44.