杜炳濤 李寧麗



摘要:數據要素已成為驅動經濟實現高質量增長與培育新型動能的關鍵引擎。本文旨在探究如何利用煙草行業的內部數據,并將其與宏觀經濟指標、人口統計學數據、社會輿情等多種外部數據源相結合,在嚴格遵守數據隱私保護及法律法規的前提下,應用多模型融合技術構建煙草市場信心指數。這一指數旨在服務于對煙草和茶飲市場的運行狀態評估、銷售趨勢預測、智能投放決策、貨源精準配置、品牌建設以及金融信貸等多個應用場景,從而有力支撐數據交易流通場景的構建與發展。
關鍵詞:數據交易;多源數據融合;數據建模;市場信心指數;煙草行業;茶飲市場;智能決策支持
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2024)11-0060-03
0 引言
近年來,中共中央、國務院發布了《關于構建更加完善的要素市場化配置體制機制的意見》,正式將“數據”列為生產要素,并提出了促進數據要素市場化配置的改革方向。隨后,又陸續在《國務院辦公廳關于印發要素市場化配置綜合改革試點總體方案的通知》《“十四五”數字經濟發展規劃》《國務院辦公廳關于印發全國一體化政務大數據體系建設指南的通知》等政策文件以及中央深改委第二十六次會議上,進一步提出要促進數據要素資源在更大范圍內暢通流動,加快構建數據基礎制度體系,旨在促進國家數據要素市場化配置的健康發展,并構建以數據要素為核心的數字經濟發展新模式。2023年,國家數據局發布了《“數據要素×”三年行動計劃(2024—2026 年)(征求意見稿)》,簡稱《行動計劃》,并向公眾征求意見。該計劃鼓勵各方積極參與數據要素的開發和利用,專注于重要行業和領域,挖掘高價值數據要素的應用場景。本文擬以煙草行業為例,探索運用煙草內部數據、宏觀經濟數據等多源數據,基于多模型融合的技術,在保證數據隱私安全及合法合規的基礎上,構建煙草市場信息指數數據產品,服務于煙草和茶飲市場狀態評價、銷售預測、智能投放、貨源精準投放、品牌培育、金融貸款等場景。
1 研究綜述
在煙草行業數據研究方面,嚴正(2003) [1]指出,煙草零售終端數據的收集和分析方法對市場狀態判斷至關重要。中國卷煙銷售公司通過深入監測和分析卷煙市場,特別是通過全國卷煙市場直測網絡的提質擴容,不僅擴大了監測覆蓋范圍,還在監測分價位段卷煙、細化區域和品牌維度上取得了顯著進展,從而積累了豐富的行業零售客戶訂購行為數據。在多源數據研究方面,黃飛杰、張衛東、侯石鵬等(2022) [2]指出,卷煙行業通常基于歷年消費和人口數據進行次年投放需求的預測。然而,由于缺乏反映消費者意愿和偏好的數據,特別是在卷煙價位段和品類等結構性需求預測方面存在困難,導致預測精度無法滿足實際應用需求。通過引入搜索指數的預測模型,有望提高預測的準確性,彌補了目前模型的不足。在多源數據的融合建模研究方面,國內學者和卷煙行業從業人員在卷煙需求預測方面進行了深入的研究,涉及預測模型、數據源處理等多個方面,并取得了令人滿意的研究成果[3-6]。在數據產品的應用研究方面,紀婷婷、甘似禹、劉春花(2018) [7]總結了數據資產的三種增值路徑,包括數據資產應用、數據資產流通以及金融衍生服務。從需求角度看,許建平(2023) [8]從銀行的視角,提出了結合煙草專賣的特許特征,可以開發出煙草數據的貸款產品,為相關的小微企業提供更便捷的信貸支持。
由此可見,煙草行業是典型的壟斷性企業,但是優勢數據密集型企業,尤其是在營銷方面,積累了大量的數據資產,可以細分維度非常高。而從產業鏈的視角看,零售戶的數據資產對煙草工業企業、金融企業皆有較大的價值,有數據流通交易的需求。但是,煙草行業的特殊性,也需要進行脫敏的輸出,因此,有必要基于算法模型構建可見不可用的市場信心指數。
2 總體框架
本研究主要技術框架如下:在數據層面,通過多類數據源,通過自動化對接、人工定時處理等方式,在數據融合層處理為可以為建模應用的結構化數據。在模型服務層,由多類市場信心指數模型進行運算,得到多種指數結果。在應用層,將多類型指數結果,建議以統計月報應用頁面方式進行呈現。
如圖1所示,在數據源層面,綜合考慮多源的數據輸入,包括政務中心提供的政府數據、人口數據、百度輿情數據和煙草內部的數據庫。基于上述的數據大類,在數據融合層進行融合。結合對應的算法,在模型和服務層形成相關方面的指標,在應用層實現查詢展示。以上構成了主要的技術框架。
3 多源數據指標選取
基于煙草內部數據相對整齊規范,煙草銷售受到人口流動、季節變化、產業變遷、城市發展、天氣變化等一系列因素影響。但僅基于煙草內部數據構建市場信心指數并不夠全面。因此,本研究將外部數據源納入煙草消費信心指數的構建中,將人口數據、消費數據、宏觀經濟數據等維度,以一定的權重納入模型。在實踐中,卷煙行業市場的信心預測主要依據歷年消費數據和人口數據。結合業界學者的相關研究,認為互聯網輿情數據和宏觀經濟對卷煙市場也有一定的影響。因此,本文擬通過納入煙草內部數據、人口數據、消費數據、宏觀經濟數據、輿情數據等多源數據,構建基于多源數據融合的市場信心指數。
1) 煙草內部數據。煙草零售市場的預測主要依據歷年銷售量,結合零售終端情況進行修正。在數據源選擇上,內部生產系統的數據是構建數據產品中最重要的一部分。中國卷煙銷售公司長期致力于深入監測和分析卷煙市場,目前在數據保障方面已具備了深入評估卷煙市場狀態的能力。其系統已能夠支持卷煙進貨計劃、按工業進貨計劃、按價類進貨計劃,以及輸出卷煙訂購量、卷煙訂購均價、按價類訂貨量等數據。
2) 人口數據。卷煙作為快消品,其銷售量與當地人口的增長變化相關,也與人口的年齡結構、性別和地域特點相關。首先,在人口增長變化方面,若某地區流入人口增加,則對卷煙有正向作用。從微觀的視角看,每個地域的人員有其特定的偏好,因此對不同工業企業卷煙的投放有不同的選擇。因此,在市場信心指數的構建中,需要引入人口數據。人口數據往往需要來源于政府,統計年鑒中有宏觀的人口數據,但由于其顆粒度較大,實時性較低,因此需要設法獲得政府的支持,獲取更高精度、更細顆粒度和更實時的人口數據。
3) 互聯網輿情數據。快消品銷售量受當地人口增長變化的影響,也與商品消費者的關注度等因素相關。卷煙相關的搜索詞能夠反映卷煙消費者的消費意愿。通過網絡爬蟲收集所有與卷煙相關的關鍵詞,考慮地域和時間特征,對關鍵詞搜索數據與卷煙銷售數據(如價位段、品類等)進行相關性分析,篩選出與銷售相關性大的關鍵詞,并采集近年來的搜索數據作為模型的輸入,作為構建市場信心指數的指標之一。
4) 宏觀經濟數據。卷煙銷售量及卷煙價格與多個經濟指標相關。每個經濟指標在不同程度上反映了卷煙市場的某些信息,例如該地區的人均可支配收入可能與該區域投放卷煙的價位相關。因此,經濟類的數據需作為構建市場信心指數的指標之一。
4 數據建模
本研究建議通過多模型融合建模方式構建市場信心指數,主要技術實現方式包括有監督的機器學習算法和主成分分析構造法。
4.1 方案一:有監督的機器學習算法
參照其他品味數據產品的建設,如菠蘿指數、對蝦指數,主要是通過框定信心指數和價格與供銷的經濟學邏輯,通過滯后關系和協同性來確定市場信心指數構造的合理性。模型上通過機器學習方式學習煙草內部特征、手機信令數據、宏觀數據和輿情數據特征,來構建市場信心指數,對市場的消費情況變動做出預警和指導。
本方法基于價格/供銷等參照系,通過去除通脹系數的條均價格p(t+1)+Δ作為y 值,構建Y 值以Y(t)作為信心指數,或者通過供銷比(t+1)+Δ作為y 值,構建Y值以Y(t)作為信心指數。
擬用數據維度,煙草內部數據:卷煙進貨計劃、卷煙按工業進貨計劃、卷煙按價類進貨計劃、卷煙訂購量、卷煙訂購均價、卷煙按價類訂貨量等;宏觀數據:CPI、工業增加值、社會消費品零售總額、居民存款、居民貸款等;手機信令大數據:人口年齡、人口戶籍、全量人口環境數據:名勝景區、餐飲、住宿等;輿情數據:煙草(工業、規格)搜索量、失業搜索量等。
擬用的驗證值:指數的相關性Y值和y值的相關性,需要信心指數提前反映價格,或者供銷狀況的幅度。
在這一方案中,涉及的核心算法為隨機森林,AdaBoost模型等。
實施思路和構建主要流程如圖3所示。
4.2 方案二:主成分分析構造法
參照統計局的消費者信心指數方案,該方案來源于傳統消費者信心指數構建,分為消費者現狀滿意度和消費者預期兩類。由于采用的數據源和傳統構建方式不同,因此對數據進行歸一化處理,通過主成分分析的方式得到各特征權重,搭建市場信心指數。
該方法基于消費者現狀/預期滿意度構建,消費現狀滿意度擬合消費者預期滿意度擬合。驗證值Y 和價格的滯后關系,相關系數。
算法過程擬用到的數據維度包括煙草內部數據:卷煙訂購量、卷煙訂購價、卷煙按工業訂貨量、卷煙按價類訂貨量;宏觀數據:CPI、工業增加值、社會消費品零售總額、居民存款、居民貸款、規模工業企業平均從業人數;手機信令大數據:人口年齡、人口戶籍、全量人口;輿情數據:煙草(工業、規格)搜索量、失業搜索量等。
實施思路和構建主要流程如圖4所示。
4.3 模型計算的結果呈現
以上一年半年平均值為基數100,表示市場對零售品的信心。數值上升表示市場對零售品(如卷煙)的消費信心增加,該值大于100則表示市場信心相較于2023 年上半年平均信心上升;反之,則表示市場信心較為低迷。基于市場信心指數,可以根據品類、工業企業、區域、價位等多個方面對市場狀況進行描述和預警。
5 信心指數應用研究
基于市場信心指數模型,全方位對市場狀況進行描述和預警。通過市場信心指數模型對空間維度下的各地煙草狀況進行評估,為重點區域投放策略提供決策依據。通過價類的市場信心指數模型,對不同價類的煙草市場狀況進行評估,為各價類煙草的價格指導和投放策略提供參考依據。根據不同煙草工業的市場信心指數模型,研判不同工業煙草市場狀況,為品牌培育和品牌聯合投放提供數據支撐。基于多類型市場信心指數數據,開發市場信心指數的綜合查詢、展示和應用平臺,方便本公司、煙草工業、社會單位隨時獲取信心指數數據,研判分析趨勢,輔助商業決策、政策規劃的制定和實施、金融信貸等。
5.1 場景一:生產計劃制定場景
卷煙銷售具有特殊性,既有商品屬性,又受到調控計劃的影響,且具有地域銷售特征。一般是在本年度對次年的市場預測,根據預測的情況進行工廠的下單,進行按計劃生產。其對次年的市場主要根據零售商戶的問卷、本年的銷售情況、歷史經驗等方面進行預測,并結合宏觀的經濟發展趨勢。該預測存在較大的主觀性。在這個背景下,可以通過建立市場信心指數,通過整合卷煙相關數據、公共數據、社會數據等,進行大數據分析,達到更科學預測次年的市場空間、區域市場不同產品的精準投放、農村市場精準開發等預期目標。
5.2 場景二:產品精準投放場景
市場信心指數的建設有利于促進煙草零售戶卷煙品類投放的精準性。依托區域消費能力和終端會員數據,精準勾勒消費者畫像,多維度、多角度夯實品牌培育基礎;依托全地區客流、商圈類型等開發貨源投放等級評定模型,提升貨源投放精準度、匹配度;構建分類別要素特征模型,分析人口特征、消費特征、區域特征等關鍵要素,挖掘真實市場需求,持續提升渠道掌控力和綜合服務力。
5.3 場景三:普惠金融場景
市場信心指數的建設有利于促進煙草零售戶金融信貸的便利性。煙草行業目前有500多萬零售商戶[9],煙草行業具有利潤豐厚且市場規模龐大的特點。一方面,煙草的成本較低,另一方面,煙民數量龐大。然而,目前煙草市場存在明顯的分割現象,不同的煙草企業各自為戰,競爭各自的市場份額。同時,各個地區的煙草商戶數據并未實現有效打通,導致煙草行業內部的割裂問題日益突出,給金融機構在貸款額度判定和放款方面帶來了巨大挑戰,同時也影響了轉款專用。因此,通過建立信心指數,加強對煙草行業數據的整合,創建專門的煙草服務平臺,打通不同區域間的數據壁壘,實現資金托收、結算、補貼和貸款等工作的統一管理。建立專門的煙草指數,統計全國煙葉消費情況,并結合大數據風控平臺,構建種植戶和零售商的畫像,輸出不含敏感信息的指數化評級產品,以支持線上貸款業務,加速供需對接過程。
6 結束語
2023年8月21日,財政部制定印發了《企業數據資源相關會計處理暫行規定》。隨著國家數據局就《“數據要素×”三年行動計劃(2024—2026年)(征求意見稿)》發布推動,各地也在陸續成立數據交易所,未來數據產品的構建將會層出不窮。本文研究煙草行業的數據融合和利用,作為壟斷行業的一個試點場景,希望能為產業鏈上下游企業、金融企業和零售商戶的業務發展有積極的促進作用。
參考文獻:
[1] 嚴正. 基于終端動態指標的卷煙市場狀態指數設計[J]. 全國流通經濟,2023(3):84-87.
[2]?黃飛杰,張衛東,侯石鵬,等. 融合搜索指數的卷煙需求預測研究[J]. 福建電腦,2022,38(10):17-20.
[3]?趙旻,張丹楓,曾中良,等. 基于組合模型的云南省卷煙需求預測與結果評價研究[J]. 中國煙草學報,2019,25(1):93-98.
[4]?王詩豪,張曉妮,張云,等. 銅川市卷煙需求集成預測[J]. 中國煙草學報,2019,25(6):105-109.
[5]?齊志成. 基于BP神經網絡模型的商洛市卷煙需求預測[J]. 湖南農業科學,2017(1):86-89.
[6]?朱峰,高林. 基于組合模型的卷煙市場需求預測研究[J]. 合作經濟與科技,2017(1):62-64.
[7]?紀婷婷,甘似禹,劉春花,等. 數據資產化與數據資產增值路徑研究[J]. 管理觀察,2018(18):157-160.
[8]?許建平. 提升普惠金融供給質效 助力地方經濟高質量發展
[9]?鐘木.中國銀行談“煙商貸”的發展路徑[J]. 營銷界,2020(51):81- 82.
【通聯編輯:唐一東】