鄧超,梁雪霞,陳志,許良本,莫玉華*,朱博文,譚茜,廖國彬,李安,張欣
基于卷煙消費大數據標簽體系的六大畫像系統
鄧超1,梁雪霞1,陳志1,許良本1,莫玉華1*,朱博文2,譚茜1,廖國彬2,李安2,張欣1
1 廣西中煙工業有限責任公司,互聯網研究中心,南寧市北湖南路28號 530001;2 廣西壯族自治區煙草公司玉林市公司,營銷中心,玉林市二環東路58號 537000
為解決卷煙消費者數據采集與分析難問題,提出了一種全新的基于時空網格技術的消費人群大數據采集分析方法。通過商圈網格劃分和數據標簽特征工程,實現企業消費者大數據資源的高效融合,建立卷煙消費大數據標簽體系,提高了數據的使用價值和復用性。基于大數據、時空網格、可視化技術構建卷煙市場數字孿生體,設計實現了六大畫像系統。以玉林市場為例,實現了5237個商圈畫像、19544個終端畫像、42個品牌畫像、169個產品畫像以及12種商圈類別畫像、24種卷煙分類畫像。基于系統對某卷煙品牌實施精準投放實驗,該產品的貨源利用率從35%提升至59%。
消費者;數字畫像;大數據;標簽體系;商圈;可視化
消費者大數據分析是企業必須攻克的時代性課題,對企業數字化轉型具有重要意義。為順應時代浪潮,煙草行業實施了生產經營管理一體化平臺、云計算平臺、大數據中心等數字化項目[1],為業務數據的采集、串聯、聚合打下基礎。同時,各煙草企業在消費者大數據分析方面開展了大量研究,例如廣東煙草[2]基于SnowNLP情感詞典及分析庫和消費者網評,動態監測消費者對卷煙產品的情感傾向和情感指數。上海煙草[3]基于網絡爬蟲軟件和文本挖掘技術分析消費者對電子煙的關注熱度及消費行為。浙江煙草[4]結合企業宏觀經濟、批發、零售、消費、專賣管理數據,基于多層神經網絡模型進行卷煙市場調控。福建煙草[5]利用大數據技術實現營銷、專賣業務數據分析。江蘇中煙[6]利用大數據和機器學習技術構建了一種卷煙市場運行狀態智能評價模型。河南中煙[7]基于消費者網絡評價數據運用詞頻分析法及關聯規則挖掘方法分析消費者的斗煙市場偏好。廣西中煙[8-10]基于圖像識別技術構建消費者卷煙購買行為的識別方法;基于數據挖掘技術實現了卷煙掃碼消費數據的熱力圖分析;基于時空網格技術實現了煙草市場大數據的可視分析。但總體而言,各煙草企業在卷煙消費者數據采集與分析方面依舊存在不足。一是消費者數據采集手段比較單一,消費者信息不全、數據維度不夠豐富;二是缺乏一種行之有效的通用化方法對企業獲得的多源消費者大數據進行融合、分析、挖掘。
隨著互聯網技術的發展,互聯網公司基于各種應用軟件獲取了海量的消費者數據,為傳統企業研究市場消費行為提供了新路徑。本文基于大數據技術和時空網格技術實現企業多源消費者大數據融合,用商圈的地理屬性來聚合卷煙銷售業務數據和互聯網消費人群數據,提出了市場畫像、商圈畫像、終端畫像、消費者畫像、品牌畫像、產品畫像(簡稱“六大畫像”)的技術實現方法,以期為行業卷煙市場銷售分析、消費洞察、品牌培育、營銷策劃、卷煙投放、產品研發等核心業務提供消費者大數據分析方法及范式。
為了能夠統籌兼顧煙草“工、商、零、消”各種應用需求,建立以商圈為核心的“市場-商圈-終端”一體化卷煙消費大數據標簽體系。
卷煙消費市場包括商圈、終端、消費者、品牌、產品等多種要素,不同要素之間相互影響、相互作用,共同構成了一個非常復雜的關系網絡。基于不同的分析目的會得到不同的分析脈絡,在不同的業務場景中,消費者分析需求各不相同。從“人、貨、場”維度出發得到卷煙消費分析的3條主線:
(1)“人→場+貨”:這類人群在什么場所消費了哪些卷煙?
(2)“貨→場+人”:這類卷煙(品牌、產品)在什么場所賣給了哪些人群?
(3)“場→貨+人”:這類零售終端訂購了什么卷煙賣給了哪些人群?
盡管“人、貨、場”同時出現在三條分析脈絡中,但是其含義和價值是不同的。不同分析脈絡決定了不同數據分析模型的“輸入”和“輸出”,而“輸入”和“輸出”之間往往是“一對多”的關系,例如一類人群會對應多種卷煙消費,一個卷煙產品會對應多個消費人群。換言之,要確定基于哪些假設條件去推導求解畫像結果。
煙草工業企業在做品牌發展規劃和新產品研發時按“人→場+貨”主線,分析挖掘市場消費行為規律和趨勢,精準捕捉卷煙消費需求進行產品設計,以提高產品研發成功率;在做市場營銷時按“貨→場+人”主線,制定符合消費者興趣和習慣的營銷策略,為消費者提供增值服務和舒適體驗。
煙草商業企業開展品牌培育時需要按“人→場+貨”主線,研究當地市場的卷煙消費潮流和趨勢,從而更有針對性的制定品牌培育戰略,提升銷售結構;卷煙投放時按“貨→場+人”主線,根據實際消費需求來統籌均衡投放策略,把貨源投放到有消費需求的地方;終端服務時按“場→貨+人”主線,分析終端所處商圈的位置和消費能力,為終端提供個性化銷售指導及建議。
地理學第一定律認為,任何事物都是與其他事物相關的,但相近的事物關聯更緊密,地理事物或屬性在空間上存在聚集、隨機、規則分布特征[11-12]。卷煙零售具有典型的線下零售特征,絕大部分消費者都會遵循就近購買原則,為“以商圈為載體串聯消費人群和產品”提供了理論基礎。由于煙草行業記錄了所有卷煙訂購及配送信息,可以精準定位每一條卷煙銷售發生的地理位置,而互聯網服務商可以提供指定區域內的消費人群畫像等多維度信息。通過空間自相關分析方法[11-12],將同一個商圈范圍內的消費人群畫像與卷煙產品銷售信息進行關聯,進而獲得“場+人+貨”數據樣本。
如圖1所示,以城市為單位,采用空間網格技術[10]將整個城市均勻劃分成若干個網格(750 m×750 m)。根據終端的經緯度信息,將其映射到網格中,并統計每一個終端訂購各個卷煙規格的數量及金額。再根據終端的商圈ID,統計每一個商圈網格訂購各個卷煙規格的數量及金額,構成商圈卷煙銷售屬性;采集(采購)每一個商圈的經濟消費、人群畫像、POI信息,構成商圈外部消費屬性。最終建立從卷煙產品到銷售場所再到消費人群的數據分析鏈路。
本方法主要是基于地理空間特征來聚合經濟人口和消費人群信息,而非逐一追蹤消費個體的消費行為,用數萬個商圈的消費人群畫像替代海量的消費者個體畫像,把大數據樣本問題轉化為小數據樣本問題。城市商圈采用網格劃分,實現了卷煙銷售區域的全覆蓋,能夠更加高效的建立卷煙產品銷售與消費場所周邊環境、消費人群畫像之間的關聯,有效補齊企業內部消費者數據采集的不足,提高了數據樣本的通用性和復用性,降低了卷煙消費者數據采集的成本。

圖1 城市商圈網格示意圖
將數字孿生概念引入卷煙消費者大數據分析領域,基于時空網格技術實現卷煙市場、商圈、終端、消費者、品牌、產品信息與物理世界的一一對應,構建卷煙市場數字孿生體,挖掘卷煙消費市場中“人、貨、場”三者之間關聯關系。
六大畫像系統架構總共分為5層,依次是數據層、算法層、技術層、部署層和應用層(如圖2所示)。數據層主要是負責原始數據的采集、存儲、清洗、預處理、聚合。由于原始數據的體量大、維度多,不利于上層應用的實時計算和快速交互,因此需要通過算法層進行數據特征提取,將海量的原始數據加工成為應用層可以直接調用的統計數據。算法層主要包括特征提取工程中涉及的各種大數據批處理算法、數據挖掘算法和商業分析模型,負責將海量原始數據加工成各種數據標簽,建立消費人群大數據標簽體系,為應用層提供數據調用基礎。技術層主要包括用于系統功能實現的前后端、中間件和數據庫技術。部署層主要采用了私有云架構,負責系統承載和安全防護。應用層主要負責以一種交互、高效、便捷、友好的方式,向用戶提供系統操作界面和應用功能呈現,將各種標簽信息及數字畫像向用戶進行可視化展示。

圖2 系統架構圖
為實現企業內外部大數據資源融合,從商圈的基礎屬性、人群特征、消費能力、銷售狀態、產品偏好等維度出發建立卷煙消費大數據標簽體系,分別對每個商圈和終端進行數字化描述和評價,共建立了60多項一級指標和400多項二級指標。為了高效的從海量數據中挖掘“人、貨、場”三者之間的關聯關系,需要先進行批量化、自動化的標簽特征工程。分別以終端和網格為單位,按規則對終端數據表、商圈數據表中的每一列屬性打標簽:
(1)定性分析:是或不是、有或沒有,匹配記為“1”,不匹配記為“0”。
(2)定量分析:采用管理學中的“二八原則”,篩選排名靠前的20%記為“1”,其余記為“0”。例如針對“某品牌”這個規格進行打標簽,銷量排名前20%的終端記“1”,其余記“0”。
基于標簽進行數據挖掘:
(1)“人→場+貨”主線:首先確定目標人群,例如“高收入”人群,根據商圈中的“高收入”屬性進行分組,值為“1”的商圈納入“高收入組”,值為“0”的商圈納入“普通收入組”,然后分別對2個組中所有商圈的其它屬性求平均值。通過“高收入組”和“普通收入組”之間各個屬性之間的差異分析,差異顯著的屬性即為我們重點關注的特征。例如“高收入組”中“某品牌”這個屬性為“1”的比例遠高于“普通收入組”,那么得到推論:“高收入”人群與“某品牌”規格卷煙的銷量具有正相關關系。
(2)“貨→場+人”主線:首先確定目標產品(或品牌)。例如對所有的商圈進行分組(1或0,1代表高銷量,0代表普通)。然后以商圈銷量值作為權重,分別對2個組中所有商圈的其余屬性求加權平均值。通過2個組各個屬性之間的差異分析,獲得品牌規格銷量較高的商圈特征和人群特征。同理可應用于卷煙品牌、卷煙類別(如“細支”、“一類煙”)與消費場所、消費人群的關聯關系分析。
(3)“場→貨+人”主線:終端繼承了所屬商圈的外部消費屬性,而商圈聚合了所含終端的卷煙銷售屬性。大數據標簽體系中的400多項二級指標是對商圈和終端的數字畫像,而市場畫像是一種宏觀視角的畫像,它由多個終端微觀畫像和商圈中觀畫像聚合而成。例如可根據檔位、星級、市場類型、區縣等維度對終端進行分類,然后對組內所有終端的各個屬性求平均值,獲得不同終端類別的數字畫像。同理,也可根據商圈類型進行聚合,獲得不同商圈類別的數字畫像。通過不同類別終端(或商圈)的各項屬性之間的差異分析,挖掘市場潛在規律。
該方法的本質是采用“二分類”思想進行數據樣本分組,然后通過數據關聯和統計分析尋找兩類樣本之間的差異。這些差異是基于事實大數據的總結和歸納,讓人對市場的認知更加直觀、更加精準、更加深刻,為實際工作提供重要思路和線索。當數據樣本量越大,個體樣本誤差對計算結果的影響越小,數字畫像越精準。數據分析結果與人的經驗之間反差越大,發現的數據價值就越大,此時舊的觀念會被顛覆,新的認知隨之產生。
基于大數據、時空網格、可視化等技術構建六大畫像系統,實現面向卷煙市場數字孿生體的可視化呈現和交互式分析。結合廣西中煙某品牌發展需要,與廣西玉林市公司進行合作,對新上市卷煙產品—某品牌(中支)開展市場培育和卷煙投放工作。
系統采用大數據可視分析技術[10]對六大畫像進行空間化、可視化組織及索引,用戶可以一眼洞察卷煙消費的空間分布規律,并通過電子地圖漫游查看商圈畫像和終端畫像。圖3從“宏觀-中觀-微觀”三種視角展現了玉林卷煙消費市場的立體式畫像。市場畫像(如圖3(a))展示了玉林卷煙消費市場的宏觀經濟總覽,從人口密度、消費水平、卷煙銷售能力、卷煙銷售潛力、基礎屬性等方面體現卷煙消費市場的總量、環境及結構。玉林市場畫像中涵蓋12種商圈類別、19544個終端、42個品牌、169個品規、14類基礎設施,以及超過12萬個POI信息,還包括城市面積、GDP、居民可支配收入等城市宏觀經濟數據。
終端的卷煙銷售數量及結構主要取決于所在商圈的消費環境及人群結構。整個玉林市包含5237個商圈格子,每個格子對應著不同的商圈畫像。商圈畫像(如圖3(b))從產品偏好、基礎屬性、人群畫像、消費能力4個維度、共61項指標對商圈進行數字化評價。終端畫像(如圖3(c))從門店信息、人群畫像、訂貨詳情、周邊對比4個維度、共37項指標對終端進行數字化評價。用戶可以自由切換各種畫像展示,全方位掌握市場銷售狀態。

圖3 市場-商圈-終端畫像
為了尋找適合某品牌(中支)的目標消費人群及目標銷售場所,基于“貨→場+人”主線從品牌、價位、類型、競品等維度出發,查看玉林市場上已有相關卷煙品牌及產品的畫像,包括其消費場所、消費人群的各種標簽及統計分析。其中,某品牌(中支)和某品牌屬于同系列產品,具有相似的感官體驗和價位。如圖4所示,某品牌銷量較高的商圈類型依次是CBD、高消費、醫院、Z時代。而中支卷煙銷售也表現出相似的規律,這4類商圈的中支卷煙銷量占全市總銷量的73.3%(如圖5(a))。因此,某品牌(中支)的市場培育應該重點鎖定CBD、高消費、醫院、Z時代種類型商圈。

圖4 品牌-產品-消費者畫像
可視化有助于實現信息的高效傳遞,而交互式分析有助于發揮人的主觀分析能力。針對某品牌(中支)的選點投放問題,用戶可以點擊“品規詳情”模塊中的中支卷煙畫像(如圖5(a)),查看市場上最暢銷的10款中支卷煙產品以及年度銷量變化趨勢。如5(b)所示,系統右側數據面板中可以看到整個城市宏觀的經濟數據、基礎屬性和各個類型商圈的數量。在系統左側導航欄中勾選商圈類型,會用對應的顏色展示該類型商圈在市場上的分布,通過縮放、點選地圖方格可以查看所選商圈的人口屬性、基礎屬性、人群畫像、消費能力、產品偏好等信息,如圖5(c)所示。“熱力圖”功能可以針對400多個標簽進行條件篩選,并通過熱力地圖方式呈現。此外,可以根據“檔位、商圈、業態、區位”篩選終端,點擊商圈中的終端圖標可以查看終端畫像(如圖5(d)),對該終端銷售某品牌(中支)的潛力進行評估,最終選擇有潛力的終端進行市場培育。
2021年9—12月,玉林市公司開展了基于消費人群大數據標簽的某品牌(中支)市場投放實驗,該產品的貨源利用率從35%提升至59%,市場培育效果提升明顯,全年共實現銷量5.35萬條。六大畫像系統獲得廣西煙草業界同行的一致好評,并在“廣西全區煙草商業農網建設暨數據營銷現場會”上進行重點展示和推廣應用。

圖5 六大畫像系統演示
為解決我國煙草企業消費者數據采集難、分析難等問題,提出了一種基于消費人群大數據標簽體系的六大畫像方法及系統,為煙草行業提供了一種全新的卷煙消費大數據采集與分析方法。其特點是通過標簽特征工程將多源大數據進行網格化、時空化、密度化處理,形成卷煙消費大數據標簽體系,實現了涵蓋卷煙市場、商圈、終端、消費者、品牌、產品等400多個維度信息的高度集成,以及卷煙市場消費規律的高效挖掘。提高了企業數據資源的使用價值、復用性和分析效率,降低了卷煙消費者信息采集與分析的成本。基于大數據、時空網格、可視化等技術實現六大畫像系統,從多種視角展現消費者、卷煙產品和消費場所之間的關聯關系與規律。
以廣西玉林市場為案例進行系統展示,共實現了5237個商圈畫像、19544個終端畫像、42個品牌畫 像、169個產品畫像以及12種商圈類別畫像、24種卷煙分類畫像。基于六大畫像開展某品牌(中支)新品上市培育工作,從多個視角進行終端投放選點分析。最終,該產品的貨源利用率從35%提升至59%,系統應用效果良好。下一步,將會擴大系統的推廣范圍,并在終端經營分析指導和卷煙精準投放等領域進行應用擴展。
[1] 謝劍平,王元英,鄭新章,等. 中國煙草科學與技術(1982- 2020)[M]. 北京:中國輕工業出版社,2021.
XIE Jianpin, WANG Yuanying, ZHENG Xinzhang, et al. China tobacco science and technology(1982-2020)[M]. Beijing: China Light Industry Press, 2021.
[2] 楊春曉,張鶴馨,黃家雯,等. 卷煙在線評論的文本情感分析[J]. 中國煙草學報,2020, 26(02): 92-100.
YANG Chunxiao, ZHANG Hexin, HUANG Jiawen, et al. Text sentiment analysis of online cigarette reviews[J]. Acta Tabacaria Sinica, 2020, 26(02): 92-100.
[3] 金吉瓊,劉鴻,鄭賽晶. 基于在線評論文本挖掘技術的電子煙市場消費熱點分析[J]. 煙草科技,2019, 52(12): 106-114.
JIN Jiqiong, LIU Hong, ZHENG Saijing. Analysis of consumption hotspots of electronic cigarette market based on online comment text mining technology[J]. Tobacco Science & Technology, 2019,52(12):106-114.
[4] 林少華,倪震海,周飛. 數據驅動卷煙市場調控的探索與實踐[J]. 中國煙草學報,2019, 25(04): 93-100.
LIN Shaohua, NI Zhenhai, ZHOU Fei. Exploration and practice of data-driven cigarette market regulation[J]. Acta Tabacaria Sinica, 2019, 25(04): 93-100.
[5] 章惠民. 福建煙草商業系統大數據技術研究與應用[J]. 中國煙草學報,2019, 25(06): 98-104.
ZHANG Huimin. Research and application of big data technology in Fujian Tobacco's commercial section[J]. Acta Tabacaria Sinica, 2019, 25(06): 98-104.
[6] 邢陽,黃旭峰,董曉萍,等. 卷煙市場運行狀態智能評價模型的研究與應用[J]. 煙草科技,2018, 51(7): 96-102.
XING Yang, HUANG Xufeng, DONG Xiaoping, et al. Research and application of intelligent assessment model for operation status of cigarette market[J]. Tobacco Science & Technology, 2018, 51(7): 96-102.
[7] 蘇凱,付博,楊永鋒,等. 基于互聯網數據的斗煙市場偏好性分析[J]. 煙草科技,2019, 52(08): 106-113.
SU Kai, FU Bo, YANG Yongfeng, et al. Internet data sourced market preference analysis for pipe tobacco[J]. Tobacco Science & Technology, 2019, 52(08): 106-113.
[8] 梁冬,陳智斌,農英雄,等. 基于圖像識別技術的卷煙零售數據采集方法[J]. 中國煙草學報,2021, 27(05): 81-89.
LIANG Dong, CHEN Zhibin, NONG Yingxiong, et al. Cigarette retail sales data collection method based on image recognition technology[J]. Acta Tabacaria Sinica, 2021, 27(5): 81-89.
[9] 鄧超,宋金偉,孫瑞志,等. 基于熱力圖的卷煙市場數據可視分析系統[J]. 煙草科技,2016, 49(12): 91-97.
DENG Chao, SONG Jinwei, SUN Ruizhi, et al. Visual analysis system of cigarette marketing data based on thermodynamic diagram[J]. Tobacco Science & Technology, 2016, 49(12): 91-97.
[10] 鄧超,宋金偉,孫瑞志,等. 基于時空網格的煙草市場大數據可視化[J]. 煙草科技,2018, 51(6): 106-112.
DENG Chao, SONG Jinwei, SUN Ruizhi, et al. Visual analysis of tobacco market big data based on spatial-temporal grid[J]. Tobacco Science & Technology, 2018, 51(6): 106-112.
[11] 禹文豪,艾廷華,楊敏,等. 利用核密度與空間自相關進行城市設施興趣點分布熱點探測[J]. 武漢大學學報(信息科學版),2016, 41(02): 221-227.
YU Wenhao, AI Tinghua, YANG Min, et al. Detecting “hot spots” of facility POIs based on Kernel density estimation and spatial autocorrelation technique. Geomatics and Information Science of Wuhan University. 2016, 41(02): 221-227.
[12] 郝斌,董碩,胡引翠,等. 多維特征融合的城市商圈劃分方法[J]. 地理與地理信息科學,2017, 33(05): 56-62.
HAO Bin, DONG Shuo, HU Yincui, et al. Urban business zones delimitation method based on the fusion of multidimensional characteristics[J]. Geography and Geo-Information Science. 2017, 33(05): 56-62.
Six portrait system based on cigarette consumption big data label system
DENG Chao1, LIANG Xuexia1,CHEN Zhi1, XU Liangben1, MO Yuhua1*, ZHU Bowen2, TAN Qian1, LIAO Guobin2, LI An2, ZHANG Xin1
1 Internet Research Center, China Tobacco Guangxi Industrial Co., Ltd., Nanning 530001, China;2 Marketing Center, Guangxi Tobacco Corporation Yulin Branch, Yulin 537000, China
A new big data collection and analysis method of cigarette consumer groups based on spatio-temporal grid technology is proposed in this paper. Through business district grid division and data label feature engineering, the efficient integration of big data resources of enterprise consumers is realized, and the cigarette consumption big data label system is established, which improves the use value and reusability of data. Based on technologies of big data, spatio-temporal grid and visualization, the digital twin of cigarette market is constructed, and the six portrait system is designed and implemented. Taking Yulin market as an example, 5237 business district portraits, 19544 terminal portraits, 42 brand portraits, 169 product portraits, 12 business district category portraits and 24 cigarette classification portraits have been realized. Based on the accurate delivery experiment of the Zhenlong (Haiyun middle branch) cigarette based on the system, the utilization rate of the product's supply increased from 35% to 59%, and the annual sales volume exceeded 53500 cartons per cigarette type. The application effect of the system has been highly praised by Guangxi tobacco peers.
consumer; digital portrait; big data; label system; business district; visualization
. Email:1351401656@qq.com
中國煙草總公司科技項目“面向研發營銷一體化的消費者大數據分析關鍵技術研究”(No. 110202102029)
鄧超(1984—),博士,高級工程師,主要研究方向:大數據、人工智能、軟件工程,Email:154309865@qq.com
莫玉華(1995—),Email:1351401656@qq.com
2022-04-11;
2023-06-27
鄧超,梁雪霞,陳志,等. 基于卷煙消費大數據標簽體系的六大畫像系統[J]. 中國煙草學報,2024,30(1). DENG Chao, LIANG Xuexia, CHEN Zhi, et al. Six portrait system based on cigarette consumption big data label system[J]. Acta Tabacaria Sinica, 2024, 30(1). doi:10.16472/j.chinatobacco.2022.063