劉青
摘 要:在大數據時代中,電商的出現顛覆了傳統的營銷方式,成為互聯網最成功的應用之一,而電商每天交易而產生的海量數據,具有極其重要的應用價值。此類的電商數據關聯分析方法能夠解決各種用戶的需求,為電商數據系統的決策者改善經營模式,更好地維護客戶關系,提升利潤率提供了有力的處理工具,具有較強的實際應用價值;同時,對數據分析的方法進行了研究和改進,具有一定的理論研究價值。
關鍵詞:電子商務;數據分析;R語言;關聯分析
1 引言
談及“關聯分析”,人們津津樂道十幾年的經典段子——“啤酒與尿布”的故事就又要被提及了,這里可以簡單重溫。大約1990年前后,一個商場的經營者分析所賣出的產品的一系列數據的時候發現了一個有趣的情況:兩件產品尿布和啤酒看似風馬牛不相及,但是在特殊狀況下有時會被同一名顧客同時購買。調查后發現,年輕的父親們在購買尿布的同時,常常因為熬夜照顧孩子,觀看體育比賽而順便購買用來助興的啤酒,由此產生了尿布搭配啤酒的有趣狀況。從這以后,該超市嘗試著將尿布與啤酒置于相同的區域,由此營業額果然有了顯著的增長。在這個有趣的狀況中尿布和啤酒的關系稱為關聯性,而把此種關聯性發掘和利用起來就是關聯分析。
2 對商品的關聯分析
我們對商品的關聯分析有著十分明確的目標,就是旨在研究顧客的消費習性和習慣,明確顧客購買產品的需要,并且最大程度上消除顧客消費與再消費的障礙,這里主要障礙在于推送的內容不符合顧客心意,顧客不能產生想購買的欲望。更總要的是,對商品的關聯分析要在發掘顧客的潛在的消費需求上發揮極大的作用,讓顧客產生最強烈的購物欲望,從而使公司更好收益。
2.1 為什么會想到對商品進行關聯分析
電商G在公司成立之初舉辦過打折季,打折季為期兩星期。在這兩周的時間里產品價格都是只有原來的70%。自從打折季開始,公司工作人員的工作量大約是平時的1.2倍。打折季結束之后,經過數據分析研究發現,在打折季期間顧客流量、營業額、銷售量以及訂單數量都是只增不減,只有營業利潤與原來持平。究其原因,只是增加顧客流量以及訂單數量,不停降低價格,這樣做并不能給公司帶來更大的收益。這樣做只會增加廣告費用和公司工作人員的加班工資,公司的利潤率沒有明顯的增益。最后發現,關鍵點在于客戶單價。單單一名顧客進行一次購買行為的利潤不增反減。另一種情況是各個顧客在這打折季期間并不存在多次重復購買的消費行為。正因如此,公司在各個顧客的消費中得到的利潤只會不停下降。在電商G失敗的打折季活動中,他們領悟到一定要將商品相互關聯起來,對商品進行關聯分析后,把握住消費者的購買習慣,發掘顧客的潛在消費需要,讓顧客同時購買兩種或者兩種以上商品,這樣一來可以為公司節約大量廣告費,這筆錢可以用于提升員工工資,激發員工積極性,提升用戶
體驗。
2.2 對商品關聯分析的必要性
假設顧客想在電商G的網絡平臺上有不止一個消費需求,而且假設該顧客在電商G的平臺上花了半小時都并未找到他想要購買的商品,很有可能這個顧客就一件產品都不會買就離開了。一位顧客的不購買而離開的行為對于公司的影響可能微乎其微,但是放到龐大的顧客群體中來看,這對于公司的影響是巨大的,對公司的損失也是極大的。為了應對這種情況,雖然目前不能做到積極應對每一名顧客的消費習慣即特殊需求,但是目前我們能夠做到的是分析那些具有共同消費特征的顧客群體,分析找出顧客的共同需求,把這些顧客可能想購買的,或者可能十分感興趣的產品通過移動客戶端或者網頁推送給各個顧客,一來激發顧客更大的購買欲望,可能因此購買更多的關聯商品,二來很大程度上減少了顧客查找挑選產品的時間,因此大大提升了消費速度。由此公司的訂單量不斷增加,公司也不用為了增加利潤而降低售價這種薄利多銷的不利于企業發展的營銷模式。這樣一來,用戶體驗不斷變好,公司的形象徹底扭轉,公司的品牌價值得到提升,員工不用再為了企業利潤徹夜加班,員工的工作情緒得到很大照顧,對于公司的良性發展十分有利。更重要的是,顧客的潛在消費需求被充分挖掘,顧客進行再次購買時依舊會在電商G的平臺上進行,而且因為良好的用戶體驗,顧客之間相互傳播消息,其他電商平臺的常客也會慕名而來,進行購買。這樣更多的資源由此被吸引而來。所以,對商品進行關聯分析,并進行智能推薦是非常必要的。
3 數據關聯性分析
關聯分析是數據挖掘領域各種各樣的核心技術中,地位舉足輕重的一個。
3.1 項集
所謂項集就是集合概念的一種,在相同購物籃里的產品中的一件消費品即為一項,那么若干項的集合稱為項集,比如{啤酒,尿布}就構成了一個二元項集。
3.2 關聯規則
一般記為X→Y的形式,關聯規則左側的項集稱為先決條件,右側項集Y為與之相應的關聯結果,是來表達數據內部所隱藏的關聯性。比如,關聯規則尿布→啤酒成立,就說明采購尿布的顧客通常也會采購啤酒,就是說兩種購買行為具有比較明顯的關聯性。
接下來我們將目光放在研究關聯性的強度大小上,那么引出關聯分析領域里的三大核心概念,即支持度、置信度和提升度來對關聯分析進行評價和控制。它們之間的具體關系如下。
下面舉例來對這三度進行說明。
我們如果認為存在1000名顧客有采購行為,他們之中有1000人買尿布,有2000人買啤酒,有500人買面包,而且同時購買尿布與啤酒的有800個,同時購買尿布與面包的有100個。
3.3 支持度
支持度是指在所有項集中{X,Y}出現的可能性,即項集中同時含有X和Y的概率:
這個指標是建立強關聯準則的首要準則,它度量了所需要研究的關聯規則在“量”上的大小。它通過設定最小閾值去掉出現次數少的限定規則,保存出現次數較多的項集不明顯的規則。這些步驟用如下的公式表達,就是挑選出滿足:
的項集Z,我們稱其為頻繁項集。
我們前文提到的研究數據中,調整最小閾值為5%的時候,因為{尿布,啤酒}支持度為800/1000=8%,又因為{尿布,面包}支持度計算得到是100/1000=1%,那么{尿布,啤酒}符合數量規則而作為頻繁項集,與此同時規則尿布→啤酒、啤酒→尿布成立,{面包,尿布}所對應的兩條規則不符合條件因此刪去。
3.4 置信度
置信度是指在關聯規則的前提條件X出現的條件下,即包含X的項集和包含Y的可能性的條件下關聯結果Y的發生概率:
現在我們來研究產生強關聯規則的第二個門檻,即可以用來衡量相關關聯規則的“質”。與前文一樣,我們需要設置一個置信度的最低門檻來實現進一步篩選,并最終生成符合我們需求的強關聯規則。所以在選擇頻繁項目集之后,有必要使它們來滿足:
的規則,因此完成所需關聯規則的生成。
結合實際來說,我們設定置信度最小閾值為70%時,尿布→啤酒的置信度計算得到800/1000=8%,而規則啤酒→尿布的置信度是800/2000=40%,因此不符合條件被刪除。綜上所述我們不停篩選最終得到一條強關聯規則——尿布→啤酒。
3.5 提升度
提升度表示在Y發生的概率P(Y)的條件下,X的發生對于Y的出現概率P(Y—X)的提升程度,就是在已經存在X的條件下,同時含有Y的概率和不存在這個條件下項集中含有Y的概率之比:
提升度與置信度都用來度量關聯規則的可靠程度,我們可以吧提升度當成是與置信度相互補充的一種指標。
打個比方,我們研究1000個顧客,經過研究知道500人購買了香蕉,在他們之中存在450人也買了桔子,還有50名顧客未曾購買。因為規則香蕉→桔子的置信度為450/500=90%,所以判定很大概率上喜歡吃香蕉的也會喜歡吃橘子。然而研究剩下的500人,即沒有買香蕉的顧客,在他們之中,也存在450名顧客買了桔子,置信度也是90%.所以不吃香蕉的顧客也喜歡吃桔子。綜上所述,是否買桔子與是否買香蕉沒有聯系,它們相互獨立且它們的提升度是90%/(450+450)/1000=1。
其實提升度的提出是為了用來補充置信度的缺陷,如果lift值為1則指X、Y之間相互關系是獨立的,X的存在對Y出現的概率沒有影響,這里的影響即為提升概率。同時,提升度越大(>1)指X對Y的影響程度越大即表示關聯性越強。
那么進行關聯分析算法步驟如下:
1)篩選符合支持度最小閾值的全部項集,由上文就是我們提到的頻繁項集。通常因為研究的數據很龐大,所以我們所想到的關聯規則不會占據其中的很大比重。舉個例子,比如說如果管理者想要研究買啤酒的顧客還會采購什么商品時,把閾值設為50%,就差不多刪除了存在“啤酒”的項,究其原因,在于不會去超市的顧客一半都購買啤酒,所以閾值通常我們設定其為5%~10%。
2)從頻繁項集中篩選符合最小置信度全部的關聯規則。置信度的閾值一般來說設置得高一些比如70%~90%,因為這是除去沒有意義的項集進而得到強關聯規則的不可或缺的過程。其實這也會隨情況而變,假如目的是找出很多關聯規則,那么閾值應該設置成比較小
的值。
4 分析結論
對于雜亂無章的大量信息,我們肯定不能很快地得到比如說最密切關聯商品等等諸如此類的重要信息,正因如此我們必須對關聯性制定準則,商品之間的關聯是有條件的有規則的。
當按照置信度控制時,得到5條置信度為100%的關聯規則,電商G可以把下列置信度達到100%的商品進行捆綁推送。
顯然這是十分直觀并且有趣的結論,可以想象,忙碌一周的學生或者上班族周末在家放松的時候吃薯片,吃泡面,喝飲料,看電視
等等。
對于特殊的冷門商品,如果經常推送多種冷門商品,會降低顧客購買欲望,讓顧客產生厭煩情緒,所以一般一種冷門商品只和一種比較熱門的商品捆綁,即一對一捆綁。經過數據分析后,我們給出的結論是將芥末與蛋黃醬捆綁進行推送,即在顧客購買蛋黃醬后給出類似商品芥末。
對于熱門商品我們也能進行捆綁推送。上述數據分析的結果表示全脂牛奶,蔬菜,面包卷,蘇打和酸奶為銷量前五的商品。經過分析將全脂牛奶和蜂蜜捆綁推送,將全脂牛奶和蘇打捆綁推送最為合理。
5 結束語
綜上所述,在全力提升電商G的網絡平臺效率的目的下,最大程度降低廣告所需費用同時實現銷售量的增長,我們依照關聯分析的結果給電商G創造一個特殊化推送系統,它可以判斷所有用戶各自的特征,然后系統給出最為恰當的產品或者產品組合。這樣電商G能夠吸引更多的忠實用戶,并給予這些顧客最好的網購體驗。而且,顧客的潛在需求也會被發掘,電商G的用于廣告和管理的預算也會相應下降,更多的資金被用于提高公司其他方面。
參考文獻
[1]曹貞杰.可口可樂在1號店的客戶轉化能力研究[J].上海交通大學學報,2014(12).
[2]黃鈞晟.云計算環境下基于Apriori算法的氣象數據關聯規則分析研究[J].統計分析,2015(5).