李錦朋,黃貽望,2*
(1. 銅仁學院大數據學院,銅仁 554300;2. 貴州省公共大數據重點實驗室(貴州大學),貴陽 550025)
隨著數據技術的發展,企業轉型數字化成為必然的趨勢,如何去收集、挖掘、分析大數據加快企業的轉型數字化發展是企業信息化的一個重要功能[1]。某餐飲品牌是貴州本土品牌,成立于2013 年,結合本土各種好茶葉,醞釀出各種好口碑的奶茶,隨著店面不斷增加,銷售數據也日益增加,現有簡單的數據統計圖應用無法支撐一個企業快速發展,根據某茶飲銷售過程中產生的異構數據,利用支持向量機(sup?port vector machine,SVM)小樣本算法構建基于不同核函數的銷售額預測分析模型,通過對不同核函數下SVM 銷售額預測模型的對比分析,得到參數調優后的SVM 銷售額預測值與實際銷售額的值進行比較[2]。實驗仿真表明,參數優化后的SVM 可減少數據中噪聲數據的影響,提高了銷售預測模型的效率[3]。
實現某茶飲銷售數據動態適時分析與預測具有重要的意義,能對企業未來的趨勢進行風險預測,并能及時制定解決方案。通過公司的海量數據分析出產品與產品之間的關聯模式、天氣對企業銷量的影響等諸多因素。通過圖表觀察數據的整體情況可探究歷史企業整體運營情況、業務組成,以便了解企業每個業務的動態發展變化,所有店鋪及單個店鋪銷售情況、消費者(口味、喜好)以及同行的經營狀況等,從數據到實際生活等多個維度來定制數字化服務,從而實現企業的快速發展[4]。
主要貢獻:①獲取某茶飲歷史銷售數據集及時間段內地區氣溫溫度;②在企業運營系統獲取到的數據集進行預處理;③構建基于支持向量機的銷售額預測模型;④將非線性SVM模型的預測銷售額與真實銷售額進行對比分析,有比較好的吻合度,說明模型具有較好的泛化性能。
某茶飲銷售額受到多種因素,如天氣溫度、消費者購買力、節假日、門店地域不同等影響,不同的門店位置、不同的人群購買力產生的銷售額不同,選擇消費者購買力、天氣溫度、節假日等特征值建立銷售額關系的預測模型,利用支持向量機(SVM)方法可以實現銷售額是否達到預期目標的預測,有效提升產品的銷售布局和管理決策。
解決辦法是根據已有的銷售數據在模型中的多樣性和學習能力之間尋求最好解決方案[11],SVM 解決海量數據中非線性問題的核心思想是原始的非線性可分數據X 可找到一個非線性映射Φ,該映射Φ 將非線性可分的原始特征空間投影到線性可分的高維特征空間F,從而在高維特征空間中實現樣本的線性分類或回歸[5]。由于SVM 可以實現對特定訓練樣本的學習并分類識別,將SVM預測模型應用于銷售額預測領域,通過對數據集的預處理,使用SVM 可減少噪聲數據對預測的影響并在分析過程中提高了SVM模型的準確性[6]。
設有M個數據樣本的數據集,其中xi∈Rd是d維向量,表示每個數據樣本的輸入特征值向量,yi∈{+ 1, - 1} 是每個數據樣本的標簽,表示樣本屬于的類別,則使用模型對該數據集中的樣本進行預測的約束條件為
將 公 式(1)合 并 為yi(ωTxi+b) ≥+1,i=1,2,…,m,其中ω=(ω1,ω2,…,ωd)為特征向量的權重向量,決定分類超平面的法向量;b為截距,表示超平面與原點之間的距離,記為(ω,b)。
數據集中任意樣本x到分類超平面(ω,b)的距離公式寫為
從而優化目標函數為
通過對(ω,b)進行縮放使得|ωTx+b|= 1,則將式(3)轉化為式(4):
為降低基于SVM 銷售額預測模型的泛化誤差[7],引入松馳變量ξi,將優化目標轉化為
通過引入拉氏(Lagrange)系數,構造拉氏函數,將式(5)化為無限制的優化問題,拉格朗日乘子αi≥0,i= 1,2,…,N,拉氏函數如下:
當滿足對應的KKT條件時,
無約束優化問題式(6)轉化為相應的強對偶問題:
通過求解公式(8)得到原問題的優化解,見式(9)。
數據集是采用貴州某餐飲品牌實時銷售數據,某店 面2015 年1 月1 日 至2021 年7 月31 日每一天的銷售額數據,數據集包含2826 行10 列的時間-銷售金額數據。如表1所示。

表1 茶飲銷售數據源
為防止多維屬性的強關聯對茶飲樣本數據質量產生噪聲,從而影響模型的可靠性,從一級品類、二級品類、商品名稱、商品編碼、單位、銷售次數、銷售數量、銷售金額、退貨數量、退貨金額等10 個特征中選擇對預測銷售額影響較大的特征,即樣本空間屬性的降維處理,也就是特征選擇,從而降低預測過程的復雜性,同時由于是針對餐飲店銷售額的預測,將加入影響銷售的外界因素天氣溫度、購買力作為特征值,共計12 個特征,通過降維到4 個屬性用于模型的訓練。圖1為各屬性貢獻值。

圖1 各屬性貢獻值
影響銷售額的參數有氣溫、購買力、節假日、銷售數量,其中氣溫和購買力是長期影響銷售額的因素。
氣溫數據從國家氣象網上采集,政府部門發布的統計數據可提供人群購買力的參考指標,比如人均收入、消費支出等。圖2和圖3是影響銷售額的氣溫和購買力,銷售數量與銷售額呈正比,隨著節假日到來,銷售額也會隨之增長,影響銷售額的還有門店位置。

圖2 氣溫

圖3 客戶群購買力
為解決因特征變化而導致的預測偏差,需要對數據集進行歸一化處理,這里采用min?max標準化[8],如公式(10)所示。
其中:xi為第i個樣本數據屬性值,xmin和xmax是屬性的最小值和最大值。
歸一化后的銷售額數據可以提升模型精度和準確性,圖4(b)是將實際銷售額數據歸一化后的結果。

圖4 標準化后的數據對比

圖5 三種核函數銷售額預測對比
將2826 條數據分為訓練集和預測集,其中1978 條數據作為訓練集,848 條數據作為測試集[9]。模型訓練是基于線性核、多項式核和RBF核三種不同的核函數進行的,通過三種不同核函數構造SVM銷售額數據的預測模型,其中RBF核為高斯核,對應的函數為高斯核函數(見表2)。

表2 核函數的表達式
選取均方誤差(MSE)和平均絕對百分比誤差(MAPE)兩個評價指標分別從預測誤差和預測精準度兩個方面對不同核函數下的SVM 銷售額預測結果進行對比[10],結果如表3所示。

表3 三種核函數銷售額預測對比
據統計分析可知,均方誤差(MSE)越小,表示預測值與真實值誤差越小,即分類模型性能越好,也就是說模型的預測結果越接近真實值[11],從表3可知基于高斯核函數(RBF)的支持向量機模型的預測銷售額效果較其余兩個函數的效果更佳[12]。
為降低預測銷售額模型的預測誤差,提高模型的泛化性能,現對RBF 函數下的SVM 銷售額預測模型的參數進行優化。隨機選取3組參數對(σ,δ)進行對比實驗,其中σ為懲罰參數,δ為多項式函數的系數,對比結果如圖6所示[13]。

圖6 基于不同參數的SVM的預測結果對比
對比表3 和表4 銷售預測模型的MSE、MAPE 和Accuracy,得 到σ=3.00,δ=0.75 時,RBF 核函數MSE=0.004115,MAPE=0.0964,Accu?racy=92.14%,表明SVM預測效果較好。

表4 基于不同核函數銷售額預測對比
由表4 可知,對參數調優前后MSE、MAPE的值進行對比,發現參數調優后模型預測效果更佳[14]。
將銷售數據作為訓練集,訓練不同核函數下的SVM 銷售預測模型,并對RBF 函數SVM 銷售預測模型進行參數優化,通過對SVM 模型預測結果誤差和準確率進行仿真分析,驗證了優化后模型的有效性,有助于企業精準掌握客戶喜好,針對不同的客戶群采用不同的方案進行精準營銷。