王巍 任文強
摘 要 互聯網時代,電商平臺銷售量猛增,使得電商企業對各種商品的庫存管理進行保管與控制變得越來越復雜,庫存管理的關鍵就是庫存量的把控。所以對庫存商品的需求預測是非常必要的。本案采用時間序列預測法建立模型,隨機選取一定數量商品,經過特征選擇去除異常數據,然后選擇ARIMA模型,劃分出訓練集和驗證集后,得出未來一周的商品需求的預測結果。對比一周的商品真實需求,來驗證本方案使用的模型預測準確性。
關鍵詞 大數據 預測研究 區域商品需求
一、研究背景
利用數據挖掘技術可以對未來的商品需求量進行精準預測,從而幫助商家自動做出供應鏈過程中的某些決策。這些以大數據驅動的供應鏈能夠幫助商家大幅降低運營成本,提升用戶的體驗,對整個電商行業的效率提升起到重要作用。
本方案以長風大數據提供的2014年10月1日至2015年12月27日的銷售數據為依據,預測某種商品(如item_id = 727)在未來1周全國和區域性需求量,運用數據挖掘技術和方法(時間序列ARIMA),精準刻畫商品需求的變動規律,對未來1周的全國和區域性商品需求量進行預測。
二、數據研究技術及數據處理
本次研究基于兩個數據集中的詳細數據進行分析。運用的數據預處理方法有:數據清理和數據標準化。并運用時間序列預測法作為回歸預測方法。
本方案隨機挑選item_id=727為商品例子,由于預測目標設定為未來1周的需求變化,故而將商品數據時間跨度為2014年10月1日至2015年12月20日作為訓練集,2015年12月21日至2015年12月27日作為測試數據。
(一)數據處理方法及模型選擇
本方案采用logisPMT,基于ARMA算法進行數據處理。ARMA模型是研究時間序列的重要方法,在市場研究中常用于長期追蹤資料的研究,本方案預測的是1周的銷售值,對于短期內相關數據的預測,ARMA模型具有優越性。
(二)數據預處理
第一,載入本地數據與原始數據觀測。新建一個工程,在Data區域中選擇Logis云端數據組件,將數據表格“智能分倉數據_item_feature”載入。從Data區域將“數據表格”組件與“Logis云端數據”組件相連,在info區域展現原始數據的基本信息,包括數據的體量(232621條數據)、特征維度(32個字段)以及缺失值比率(沒有缺失值),有無元變量等信息。
第二,數據清洗。由于本任務沒有缺失字段,所以直接結合本任務的需求,進行特征選擇。由于本任務將以構造時間序列模型為核心,故特征變量只選擇日期型變量“date”和目標變量“qty_alipay”。
三、模型訓練
(一)測試集與訓練集
為了驗證訓練模型的優劣,將商品數據時間跨度為2014年10月1日至2015年12月20日作為訓練集,2015年12月21日至2015年12月27日作為驗證集。
(二)異常數據過濾
從螺旋圖中可看出,該商品預測值的時間段式需求的平淡期,為了降低某些異常值的存在對構建模型的影響,商品全面需求變化受季節影響較大需對其進行消除,可進行季節性調整。
(三)模型判斷
為了選擇合適的ARIMA模型,引入自相關圖ACF,從“時間序列”區域中選擇“相關圖”組件,并與“時間選擇對象”組件相連。
在95%的置信度下,滯后1階自相關值大部分沒有超過邊界值,部分超過邊界可能是由于異常值的影響。引入偏相關圖PACF。序列的偏自相關函數中,超過95%的序列偏相關系數都在1倍標準差的范圍內,可以判斷該序列的偏自相關值選1階后結尾,于是設置本方案中ARIMA模型的參數為arima(1,1,1),預測步長設置為7。
(四)模型假設檢驗
為了評估訓練后模型的性能,從“時間序列”區域中選擇“模型評估”組件,并與“時間對象選擇”組件和“ARIMA模型”組件相連。RMSE為均方根誤差,MAE為平均絕對誤差,MAPE為平均絕對百分誤差,R2為相關性較弱,AIC為赤池信息準則,BIC為貝葉斯信息準則等。MAE值為16.9,開方即為4.1,表明單個記錄的總體平均預測誤差為4.1,模型的總體性能較好。
(五)模型預測誤差
為了獲取詳細的預測值,從“Data”區域選擇“數據表格”組件,命名為“預測值”,并與“ARIMA模型”組件相連。
得出結果qty_alipay(forecast)預測值第1天:22.533;第2天:22.380;第3天:22.388;第4天:22.415;第5天:22.445;第6天:22.474;第7天:22.504。對7天的預測值求和為157.139。
得出結果Qty_alipay測試集第1天:15.000;第2天:17.000;第3天:28.000;第4天34.000;第5天:37.000;第6天:21.000;第7天:4.000。對7天的測試集求和為156。對1周(7天)的預測值與實際值對比誤差為1.139,預測效果滿足預期。
四、結語
本文在大數據背景下,以歷史一年海量買家的行為數據以及商品信息數據為依據,預測各種商品在未來一周全國和區域性需求量,選取了有效的特征,建立ARIMA模型,獲得了優于傳統預測方法的商品需求預測結果,該結果為后續建立準確的分倉規劃模型、提出有效的分倉規劃建議奠定量化基礎,但ARIMA的預測精準度有待提高,可嘗試與神經網絡等模型相結合進行進一步研究。
(作者單位為北京吉利學院)
參考文獻
[1] 朱曉峰.大數據分析與挖掘[M].機械工業出版社,2019.
[2] 李長春.大數據背景下的商品需求預測與分倉規劃[J].數學的實踐與認識,2017.
[3] 史密斯·D .漢密爾頓(美).時間序列分析[M].夏曉華,譯.北京:中國人民大學出版社,2014.