羅博煒
(五邑大學智能制造學部,江門 529020)
大數據領域涵蓋了數據采集、數據存儲、數據處理、數據挖掘、數據分析、數據呈現等一系列的技術手段,隨著技術的不斷成熟,逐漸被更多富數據的行業和企業所應用,各個行業在享受大數據帶來收益的同時,也在推動大數據技術的快速發展。從電商網站的“看了又看”“猜你喜歡”等個性化推薦、商家促銷活動的精準營銷,到智慧城市建設的一站式服務等應用場景,大數據已逐漸滲透、應用到我們的生活中,成為提高我們生活、工作質量的重要組成部分[1]。各行業產生的海量數據只有通過技術手段進行存儲、分析、挖掘才能創造出價值。隨著近年來數據化運營與數據化管理的興起,作為數據分析的首選語言,Python 語言在商業數據分析領域的價值也日漸增長。
一切能夠進行產品推廣、促進用戶使用、提高客戶認知的方法與活動都是運營,運營的終極目標是使產品能持續穩定地、更好地生存下去[1]。好的運營是通過推廣、引導、活動等一系列舉措讓產品的各個指標得到提升。作為評價運營結果的常用方法,同期群分析的主要目的是分析相似群體隨時間的變化,它通過將用戶按初始行為的發生時間進行群組的劃分(即同期群)。
常見的同期群分析表格式如表1,以客戶首次購買月份后每月的留存率為例。

表1 同期分析樣例表
表1 中每一橫行表示一個同期群,代表當月新增用戶,在接下來幾個月的留存情況。通過橫向對比,能夠對客戶留存和生命周期有初步的認識。基于縱向觀察,可以發現不同時期客戶的留存情況的差異,以反推該期引入的客戶是否精準[2]。
本例的數據集為廣州某線上生活用品店2019 年9月~2020 年 2 月的銷售數據(53210 條),經過清洗與處理后再使用Python 進行同期群分析,最后得出客戶的同期群表,以實現評估每月促銷活動的質量并協助制定新的銷售策略。
案例數據集中的部分脫敏數據如表2。

表2 廣州某線上生活用品店的部分銷售數據
基于訂單數據計算出最終的留存表的核心Python代碼如下:


一步到位的實現代碼中的整個大循環并非易事,將其拆解成新增和留存兩個部分來進行組合實現將會容易得多,思路也更加嚴謹。最終生成的同期分析表的每一行代表一個同期群,其本質邏輯都是一樣的:首先計算出當月新增的客戶數,并記錄客戶昵稱,然后拿這部分客戶,分別去和后面每個月購買的客戶做匹配,并統計有多少客戶出現復購(留存),只要計算出每個月的新增客戶和對應的留存情況,再將這些數據拼接在一起,便可實現最終的完整的同期群分析表。首先需要計算每個月的新增客戶數,這個新增是需要和之前的月份遍歷匹配來驗證的,以2019 年11 月為例,其之前的客戶就是2019 年9 月和10 月的數據,與歷史數據做匹配可計算11 月新增的客戶數,而與11 月之后每個月的數據進行匹配可計算出11 月的留存情況。所以第一層循環中的每個月的數據與其歷史月份數據進行客戶昵稱的匹配,不一致者便可視為新增數據。內層嵌套的循環則負責匹配該月與之后的每個月的客戶昵稱進行匹配,一致者可視為留存成功。
基于本案例脫敏數據計算出的客戶留存率如表3。

表3 案例留存率結果
對于相同生命周期階段的用戶進行垂直分析(橫向比較),從而比較得出相似群體隨時間的變化,從表3可以看出:次月流失嚴重,表現最好的月份次月留存也只有月18%,隨后水平降低,穩定在7%左右。
通過比較不同的同期群(縱向比較),可以從總體上看到,2020 年1 月的新增客戶雖然不是最多的,但人群相對精準,留存率表現優于其他月份。從每月固定的促銷活動的效果上看,2019 年10 月份的促銷效果帶來的新客最多,但有透支未來銷售的嫌疑,對口碑影響不利,隨后店鋪對促銷活動的調整使得次月留存率逐漸升高[3]。
數據運營時代,促銷活動逐漸常態化,作為零售業最常見的銷售模式,促銷分析和評估也變成了一種固定的工作。無論是分析線下還是線上的促銷活動數據分析都容易出現一些誤區:只和促銷目標對比,一旦完成了銷售額目標的促銷活動就算成功;只進行促銷期的數據同比,且誤差較大和只關注促銷前和促銷中的數據,對促銷后的數據關注較少。這就容易出現虛假繁榮和透支未來消費的情況。
同期分析能夠更好的,進而為商家或企業探尋流量營銷中出現的問題、調整產業結構和流量運算的分配提供強有力的參考,使后續的數據化運營更有的放矢,從而更好的提升客戶的黏性、留存率與延長其生命周期并制定針對性的營銷方案,最終為企業的利潤最大化帶來幫助。