孫延華 張冬杰 曾慶維 金健 陳桓 姚小龍



摘要:隨著大數據的發展和物流科技信息化進程的加快,企業供應鏈數據呈爆炸式增長,且種類繁多、關系網絡復雜,而傳統cPRF技術中的預測模型已經不能適應供應鏈大數據需求預測,更不能依據需求預測進行有效的庫存管理,經典的周期庫存盤點策略也不能很好地適應非正態分布的需求數據,如何對供應鏈大數據進行準確預測并補貨已成為供應鏈研究的熱點。依據大數據的分位數回歸預測技術,利用歷史數據信息進行準確預測,并將分位數回歸預測與補貨模型合理有效連接,通過真實數據仿真分析,表明在98%的服務水平下,平均庫存得到了降低。
關鍵詞:大數據;物流供應鏈;CPRF;分位數回歸預測;服務水平;庫存
DOI:10.11907/rjdk.192360
中圖分類號:TP306 文獻標識碼:A 文章編號:1672-7800(2019)012-0035-05
0引言
在經濟全球化和科技物流迅速發展的今天,企業供應鏈的科學有效管理依賴于現代信息技術,各供應鏈企業也積累了豐富的供應鏈大數據,如何利用大數據技術進行供應鏈優化受到高度關注。CPRF技術是計算機領域與供應鏈庫存管理領域相結合的研究熱點。供應鏈是指圍繞核心企業,通過對信息流、物流、資金流的控制,從采購原材料開始,制成中間產品以及最終產品,最后由銷售網絡將產品送到消費者手中,并將供應商、制造商、分銷商、零售商、最終用戶連成一個整體的功能網鏈結構模式。同一個企業可能構成該網鏈的不同組成節點,但更多情況下是由不同企業構成該網鏈的不同節點。供應鏈管理是一種集成管理思想和方法,是在滿足一定客戶服務水平條件下,為使整個供應鏈系統成本最小,將鏈上各節點有效組織在一起而進行的產品制造、轉運、分銷及銷售的整體管理模式。
庫存表示用于將來目的的資源暫時處于閑置狀態,設置庫存的目的是防止短缺,其對企業供應鏈管理具有重要作用,可提高服務水平并降低成本。優秀的庫存管理模型既能減少缺貨成本,又能提高企業服務水平,而過多的庫存也會給企業帶來損失,庫存過多會長久地積壓在庫,勢必造成資金周轉緩慢、資本回報率低。要進行精確的庫存管理,合理的預測模型必不可少。CPRF技術是最新的供應鏈管理技術,可提高預測準確度,最終達到提高供應鏈效率、減少庫存和提高消費者滿意度的目的。
隨著經濟全球化的加快,零售企業將面臨全世界范圍內的巨大競爭壓力,迫切需要利用有價值的商業信息和知識應對日益劇增的市場挑戰。隨著計算機信息技術的快速發展,大量信息技術如條形碼、電子收款機、POS系統已在零售業廣泛使用,這些信息系統的日益龐大積累了大量銷售交易數據,如何基于零售業銷售信息得到準確的預測知識,以幫助零售企業作出正確決策,更好開發CPRF技術中的預測模塊,是當前零售業亟待解決的問題。
數據挖掘是從大量、不完全、有噪聲、模糊、隨機的實際數據中,提取隱含、未知而又潛在有用信息與知識的過程。而傳統零售業的銷量預測有季節分析模型、馬爾科夫預測模型等,但這些模型都是基于簡單的統計技術,利用歷史數據和商品銷量數據,不能深層次地挖掘影響銷量的一些原因與特征,數據維度單一,數據量大小對于預測準確性提升有限,對于長期變化規律的場景捕捉能力差。本文利用數據挖掘技術挖掘各種影響銷量的相關特征,建立樹模型對其銷量進行預測。預測模型能快速捕捉到市場變化,具有強大的特征識別和挖掘能力以及防止過擬合的優勢,非常適合突發事件預測。本文將計算機大數據機器學習技術與供應鏈CPFR技術相結合,提出基于分位數回歸預測的補貨模型。
1相關研究
1995年,沃爾瑪與其供應商Warner-Lambert等5家公司共同開發出CPFR(collaborate Planning Forecastingand Replenishment)技術。CPFR是零售行業中的一種供應鏈管理方案,在提升供應鏈運行效率的同時也加強了供應鏈各環節之間的協同合作能力,它是在VMI(供應鏈管理庫存)之后集預測和補貨于一體的供應鏈整合全新技術。CPFR的預測提高了需求預測準確度,從而能科學有效地制定庫存策略,降低生產、運輸、庫存持有成本,提高銷售量,進而提高供應鏈運行效率。
現有銷量預測算法主要分為時間序列預測算法和機器學習預測算法。時間序列方法采取自回歸的方式(Auto-Regression,AR),用歷史上因變量y的取值預測y。Box& Jenkins在1970年提出ARIMA模型,其中ARIMA(p,d,g)稱為差分自回歸移動平均模型,P為自回歸項,g為移動平均項數,d為時間序列平穩時所做的差分次數。ARIMA用差分將非平穩時間序列轉化為平穩的時間序列,再進行滑動平均。另一種通用的時間序列方法是指數平滑方法(Exponential Smoothing),Peter Winters & Charles holt在1960年提出其中3次指數平滑方法(Triple ExponentialSmoothing),也稱為Holt-winters模型,Holt-winters季節模型在每個周期中采用水平、趨勢及季節3個權重更新分量,可同時修正時間序列的季節性和傾向性,并能將隨機波動的影響適當過濾掉,適于趨勢性和季節性的時間序列。Taylor在2017年提出Prophet模型,采用廣義加法模型擬合平滑和預測函數。模型整體由3部分組成:增長趨勢、季節性趨勢、節假日,并且加人了噪聲擾動項,提升了模型的魯棒性,達到了時序模型的最好性能。機器學習模型預測算法主要有線性回歸、SVM、決策樹模型以及深度學習模型。線性回歸指利用線性回歸方程的最小二乘函數對一個或多個自變量和因變量之間關系進行建模的一種回歸分析。Vapnik在1998年提出SVM(support Vec-tor Machine),其基本思想是用少數支持向量代表整個樣本集,通過核函數將輸入空間的數據映射到更高維特征空間,然后在新的空間內按照結構風險最小化原則構造一個最優分割面,對于有異常值、數據量小、維度高的數據集有很好效果。決策樹模型由于單棵決策樹性能限制,大多采用集成學習方法,分Bagging和boosting兩類。其中,Bag-ging的代表作是隨機森林,由Leo Breiman提出,它通過自助法(Bootstrap)重采樣技術,從原始訓練樣本集N中有放回地重復隨機抽取k個樣本生成新的訓練樣本集合,然后根據自助樣本集生成k個分類樹組成隨機森林,結果按投票法而定,在計算速度和分布式計算方面有很大優勢。Boosting的代表作是梯度提升樹,是由FRIEDMAN于2001年提出的一種改進算法。它是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結論加起來作為最終答案。與隨機森林不同的是,每次建立模型是在之前建立模型損失函數的梯度下降方向,改進了傳統Boosting對正確和錯誤樣本進行加權的方法。深度學習模型善于提取時間和空間類的復雜特征;RNN(Recurrent Neural Net-work)對于時序數據可以自動提取時間維度的特征。Schmidhuber在1997年提出LSTM(Long Short-TermMemory),引入輸入門、輸出門和遺忘門的概念,解決了RNN梯度消失的問題,是目前處理時序數據性能最好的深度學習模型。Kyunghyun在2014年提出GRU(Gated Re-current Unites),將LSTM輸人門、輸出門和遺忘門縮減為兩個門:更新門和重置門,減少了模型參數,對于小數據集有更好的表現。
2預測模型
GBDT是一個梯度提升模型,使用基于機器學習算法的決策樹,該算法是對隨機森林的進一步改進,在模型的樹模型中包含了分類樹和回歸樹。決策樹常用來處理分類問題,在商品銷量預測中可以對商品離散型特征進行有效處理和預測;回歸樹常用來處理預測問題,對商品的時間等連續性特性更加敏感。GBDT采用梯度提升方式,將分類數和回歸樹進行有效疊加,該算法應用于商品銷量預測中,可以有效地將商品的基本屬性,如類別、周期性指數等離散特征與按時間滑動窗口獲取的連續銷量的連續特征有效結合,使商品銷量預測的多方面特征得到更綜合的利用。
分位數回歸是基于被解釋變量的條件分布擬合解釋變量的回歸模型。傳統回歸方法研究自變量與因變量條件期望之間的關系,而分位數回歸是通過估計被解釋變量取不同分位數時,對特定分布的數據進行估計,可以進一步推論因變量的條件概率分布。梯度提升樹(GradientBoosting Tree)算法是用訓練樣本集產生多棵弱回歸樹集成形成強回歸樹的集成學習方法,在基于表格類數據的機器學習任務方面顯示出最好效果。
最近幾年,3種高效的GBRT實現方式被提出:XG-Boost、LightGBM和CatBoost。這3種模型在工業界、學術界和數據科學競賽中被廣泛采用。本文應用XGBoost、LightGBM和CatBoost 3種GBRT算法分別建立分位數回歸模型,根據模型評價指標對其進行對比研究。
2.1XGBoost
XGBoost(Extreme Gradient Boosting)對損失函數進行泰勒公式二階展開,在損失函數后面增加正則項,用于約束損失函數下降和模型整體復雜度,并且在計算葉子節點基尼指數時采取并行計算方式模型,能自動利用CPU進行多線程并行計算,是GBRT基礎上的一種優化算法。XG-Boost層生長策略如圖l所示。XGBoost的目標函數為:
2.2LightGBM
Light Gradient Boosting Decisition Tree(LightGBM)由Guolin于2017年提出,與普通的GBRT模型有如下兩點區別:
(1)帶深度限制的Leaf-wise葉子生長策略。相比于普通GBDT工具使用按層生長(Level-wise)的決策樹生長策略,具有控制模型復雜度、降低過擬合的效果。LightG-BM葉子生長策略如圖2所示。
(2)直方圖算法。其基本思想是先將連續的浮點特征值離散化成k個整數,同時構造一個寬度為k的直方圖。在遍歷數據時,根據離散化后的值作為索引在直方圖中累積統計量,遍歷尋找最優分割點,降低了內存消耗和時間復雜度。
2.3Catboost
2017年,由Yandex公司推出的CatBoost算法是一種擅長處理類別特征(categorical Features)的梯度提升(GBRT)算法。CatBoost運用一種有效方式將類別特征轉化成數值型數據并且防止過擬合:OneHotMaxSize(OHMS)。CatBoost在執行隨機排列后能有效處理類別特征,通過使用多個排列訓練不同模型防止過度擬合,進而獲得對梯度的無偏估計,以減輕梯度估計偏差的影響,提高模型魯棒性。主要通過以下3步完成:
(1)將初始數據進行隨機排列,產生多個隨機排列。
(2)將具有浮點或類別的標簽值轉換為整數。
(3)通過式(4)將分類變量轉換成數值型變量。其中,CountInClass是具有當前分類特征值的對象標簽為1出現的次數,totalCount是具有與當前值匹配的分類特征值的對象總數,Prior是分子的初始值。
2.4性能比較
各機器學習算法性能比較如表l所示。
3實驗結果
利用某零售業供應商19家門店2015年1月-2019年5月牛奶的歷史銷量數據,訓練數據集達百萬以上,通過GBRT樹模型分位數回歸算法預測2019年6月1日-14日的銷量。其中50分位數的MAPE誤差為:
4CPRF庫存補貨方法
4.1經典庫存管理模型
在周期盤點策略中,庫存每盤點之后隨即發生一次訂貨,使得現有庫存水平加上補貨量達到目標最大庫存,假設為OUL,盤點周期等于連續兩次訂貨的時間間隔T,并假設已知如下參數:D=每個時期的平均需求;σp=每個時期需求的標準差;L=平均提前期;T=盤點間隔期;CSL=期望周期服務水平。
為確定所需安全庫存,跟蹤店面經理每次發出訂單后隨時間順序發生的各時間點。店面經理在時點0下達第一個訂單,訂貨批量和現有庫存之和達到目標最大庫存,訂單一旦發出,經過提前期L補充訂貨將送達。下一次盤點庫存的時間為T,這時,店面經理下達第二個訂單,訂貨在T+L時送達。目標最大庫存水平表示滿足時點0到達時點T+L期間需求的庫存,如果在0到T+L的間隔期內,需求超過目標最大庫存,倉庫將出現缺貨。因此,在經典周期盤點策略中,必須確定一個目標最大庫存水平使得等式成立。
4.2基于GBRT樹分位數回歸補貨模型
在經典庫存管理模型中,需求數據必須滿足正態分布的假設前提,而實際零售業的需求分布并不能很好地滿足正態分布。本文提出一種基于分位數回歸預測的補貨模型,假設分位數為Cr,則目標最大庫存為:
5仿真分析
為了驗證分位數模型對CPRF補貨方法的有效性,使用與預測算法相同供應商19家門店牛奶2018年7月-2019年4月的真實銷量數據,每天門店銷售約千種sku,特征維度上百維,對其進行仿真分析。
由圖4可看出,使用分位數模型的平均庫存要低于經典模型下的平均庫存。為了進一步驗證模型的有效性,對不同模型下的庫存覆蓋天數和服務滿足率進行分析。由圖5可以看出,使用分位數模型的覆蓋天數小于經典模型下的覆蓋天數;由圖6可以看出,使用分位數模型的服務滿足率大大高于經典模型下的服務滿足率。仿真結果表明,使用分位數模型效果優于經典模型下補貨模型。
6結語
本文對CPFR預測補貨方法進行了改進,將GBRT樹模型引入分位數回歸預測算法中,分別比較了GBRT的主要3種實現方式:XGBoost、LightGBM、CatBoost 3種算法,結果顯示LightGBM算法效果最好。對50%分位數進行了測試,計算MAPE值,結果表明效果較好。將分位數回歸預測與補貨模型相結合,將98%分位數作為補貨模型的輸入,并引入新的安全庫存計算方法,對零售業的19家門店作仿真測試分析。結果表明,在滿足98%的服務水平下,其平均庫存、平均覆蓋天數和服務滿足率均優于經典庫存管理模型。分析仿真結果可知,仍有幾個門店存在異常值,其結果不甚理想。對于CPRF方法,如何將預測與補貨更好地相結合仍值得研究。未來研究中可以設計精度更高的預測算法,并對魯棒性更好的補貨模型加以優化,以完善供應鏈的CPRF方法。