999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強(qiáng)化學(xué)習(xí)的生鮮農(nóng)產(chǎn)品庫存優(yōu)化

2024-12-31 00:00:00李帥鵬馬祖懷曲宏博董翠粉
商場現(xiàn)代化 2024年24期

摘 要:本文針對(duì)生鮮農(nóng)產(chǎn)品零售商庫存成本控制問題,充分考慮了在庫存成本的控制過程中,零售經(jīng)營者不可忽視的利潤、持有成本、缺貨成本、過期成本等因素,通過設(shè)計(jì)強(qiáng)化學(xué)習(xí)四元組,構(gòu)建一個(gè)基于Q學(xué)習(xí)算法的生鮮農(nóng)產(chǎn)品零售終端庫存成本控制模型。與傳統(tǒng)的庫存成本控制策略如定量訂貨法模型相比,本模型能夠有效降低生鮮產(chǎn)品零售商的庫存成本,增加利潤。

關(guān)鍵詞:強(qiáng)化學(xué)習(xí);生鮮農(nóng)產(chǎn)品;庫存控制

一、引言

近幾年,我國生鮮電商行業(yè)進(jìn)入高速發(fā)展期。消費(fèi)者可以通過電商平臺(tái)實(shí)現(xiàn)足不出戶購買高品質(zhì)農(nóng)產(chǎn)品,因此生鮮電商行業(yè)深受廣大消費(fèi)者的歡迎。目前市場上經(jīng)營生鮮的電商平臺(tái)較多,但實(shí)現(xiàn)盈利的企業(yè)較少,虧損的主要原因在于庫存成本過高。例如:盒馬鮮生、京東這類生鮮零售商,因?yàn)榉N類繁多,倉庫容量有限,時(shí)常發(fā)生缺貨或滯銷現(xiàn)象,增加了企業(yè)的運(yùn)營成本。因此一個(gè)科學(xué)有效的零售商庫存控制策略顯得尤為重要。目前較為成熟的傳統(tǒng)庫存控制策略如經(jīng)濟(jì)批量訂貨、第三方物流管理庫存、供應(yīng)商管理庫存、聯(lián)合庫存控制等都起到了降低庫存成本的作用。然而這些策略主要針對(duì)整條供應(yīng)鏈,且主要集中在管理層面,供應(yīng)鏈各環(huán)節(jié)為了擴(kuò)大盈利而主動(dòng)增加訂貨數(shù)量,造成了牛鞭效應(yīng),導(dǎo)致供應(yīng)鏈下游至供應(yīng)鏈上游庫存成本逐級(jí)遞增的問題。因此,很多學(xué)者對(duì)庫存訂貨策略進(jìn)行了研究。

倪冬梅、趙秋紅假設(shè)商品的需求分布滿足自由分布,從而搭建了庫存優(yōu)化模型,并對(duì)其進(jìn)行了詳細(xì)分析。Alizadeh等在需求分布為泊松分布且訂貨提前期不為0的假設(shè)下,以平均利潤為最大函數(shù),搭建了易腐品庫存控制模型。馮穎等基于消費(fèi)者購買物品的數(shù)量對(duì)商品標(biāo)價(jià)的依賴程度,搭建了某一種物品的庫存優(yōu)化模型并對(duì)其進(jìn)行了研究。葉勇等假設(shè)消費(fèi)者對(duì)某一商品的需求滿足均勻分布時(shí),利用了迭代算法在價(jià)格折扣的基礎(chǔ)上,計(jì)算出了零售商的最佳訂貨批量。Vaish和Garg認(rèn)為當(dāng)一個(gè)商品在不新鮮的時(shí)候,對(duì)其進(jìn)行打折,可以促進(jìn)消費(fèi),減少經(jīng)營者的損失。在此基礎(chǔ)上其搭建了庫存優(yōu)化模型,為經(jīng)營者確定了最優(yōu)的定價(jià)策略與最優(yōu)的訂貨策略。一些學(xué)者將人工智能的方法應(yīng)用到了庫存控制當(dāng)中,從而實(shí)現(xiàn)降低庫存成本的目的。蔣國飛等使用強(qiáng)化學(xué)習(xí)中的Q學(xué)習(xí)算法來對(duì)模型進(jìn)行探索,以解決序貫決策問題。湯大為等建立了二級(jí)供應(yīng)鏈模型,用Q學(xué)習(xí)算法進(jìn)行解決,從而得出最佳訂貨量。劉夢婷建立了供應(yīng)鏈模型,然后用Q學(xué)習(xí)算法進(jìn)行學(xué)習(xí)探索,以求得整條供應(yīng)鏈的總庫存成本最低值。

雖然強(qiáng)化學(xué)習(xí)很早就已經(jīng)應(yīng)用于庫存控制中,但是對(duì)生鮮農(nóng)產(chǎn)品的庫存控制研究較少?;谝陨系难芯糠治?,本文構(gòu)建了基于Q學(xué)習(xí)算法的庫存控制模型,然后用Python軟件做仿真實(shí)驗(yàn)得出最優(yōu)的庫存控制策略,為現(xiàn)實(shí)經(jīng)營者提供最優(yōu)的訂購策略,從而減少企業(yè)的經(jīng)營成本,增加企業(yè)的利潤,進(jìn)而提高企業(yè)的競爭力。

二、算法理論簡介

1.馬爾可夫決策過程簡介

馬爾可夫決策過程是通過數(shù)學(xué)表達(dá)的方式對(duì)強(qiáng)化學(xué)習(xí)進(jìn)行形式化的描述。馬爾可夫決策過程一般由一個(gè)四元組(S,A,R,P)來表示。里面S代表智能體在未知的環(huán)境中所能觀測到的所有狀態(tài);A代表智能體在這個(gè)環(huán)境中可以采取動(dòng)作的所有集合;R代表智能體在某一狀態(tài)下采取了行動(dòng),然后獲得的及時(shí)獎(jiǎng)勵(lì);P是狀態(tài)之間的轉(zhuǎn)移概率,即從某一狀態(tài)、動(dòng)作映射到下一狀態(tài)的概率分布。

2.強(qiáng)化學(xué)習(xí)算法簡介

強(qiáng)化學(xué)習(xí)又可以稱為增強(qiáng)學(xué)習(xí)。強(qiáng)化學(xué)習(xí)算法是指當(dāng)智能體處于陌生的環(huán)境中,通過不斷地與環(huán)境進(jìn)行交互來獲得獎(jiǎng)勵(lì),再利用獎(jiǎng)勵(lì)來不斷地調(diào)整自己的動(dòng)作,從而獲得最佳的動(dòng)作策略。強(qiáng)化學(xué)習(xí)原理如圖1所示。

3.Q-learning算法

Q學(xué)習(xí)算法在強(qiáng)化學(xué)習(xí)算法中屬于時(shí)序差分算法,智能體在利用此算法進(jìn)行探索交互時(shí),可以最大程度降低對(duì)系統(tǒng)模型的依賴度。獎(jiǎng)勵(lì)信號(hào)由Q值函數(shù)來表示,智能體在某一狀態(tài)下采取動(dòng)作之后就會(huì)獲得一個(gè)值函數(shù)。智能體的最終目的是獲得長期累積獎(jiǎng)勵(lì)最大。因此值函數(shù)可以表達(dá)智能體在某一狀態(tài)下所采取動(dòng)作的好壞。其算法公式為:

Q(s,a)←Q(s,a)+α[r+γQmax(s',a')-Q(s,a)](1)

式中s'表示采取動(dòng)作a轉(zhuǎn)移到的下個(gè)狀態(tài)。Q表是Q-learning算法的核心,是一個(gè)二維向量表,橫坐標(biāo)由動(dòng)作組成,縱坐標(biāo)由狀態(tài)組成,中間值即為Q值。當(dāng)智能體在利用Q學(xué)習(xí)算法進(jìn)行環(huán)境學(xué)習(xí)時(shí),Q表中的Q值就會(huì)進(jìn)行迭代更新。

三、研究內(nèi)容

1.研究背景

根據(jù)多年來的數(shù)據(jù)顯示,我國生鮮農(nóng)產(chǎn)品零售經(jīng)營者的庫存成本一直居高不下,而且有很大一部分都處于虧損狀態(tài)。造成這種現(xiàn)象的主要原因是零售經(jīng)營者訂購商品時(shí)因主觀原因增加訂購數(shù)量,引起了供應(yīng)鏈的牛鞭效應(yīng),而生鮮產(chǎn)品的生命周期短,當(dāng)產(chǎn)品存儲(chǔ)時(shí)間超過生命周期時(shí),就會(huì)被處理掉,產(chǎn)生較高的過期成本。這樣就導(dǎo)致了我國生鮮農(nóng)產(chǎn)品庫存成本的增加,不利于企業(yè)的健康發(fā)展。

2.業(yè)務(wù)模型

供應(yīng)商、生產(chǎn)商、批發(fā)商、零售商、客戶構(gòu)成了供應(yīng)鏈的主體,本文中以批發(fā)商-零售商二級(jí)供應(yīng)鏈模型為研究對(duì)象,如圖2所示。

在此模型中零售商向批發(fā)商下訂單,批發(fā)商負(fù)責(zé)滿足零售商的訂單需求,即為零售商提供充足的貨源。在模型中定義批發(fā)商不存在缺貨,零售商店面不大庫存空間存在限制,所以零售商的庫存容量0≤K≤100,且客戶需求分布滿足正態(tài)分布。

批發(fā)商-零售商二級(jí)供應(yīng)鏈模型的業(yè)務(wù)流程描述為:

第一步,零售商向批發(fā)商發(fā)送訂單需求,批發(fā)商在提前期內(nèi)將貨物發(fā)送給零售商,零售開始更新庫存;

第二步,產(chǎn)生客戶需求,當(dāng)零售商滿足客戶需求時(shí)則為客戶提供需求,不能滿足客戶需求時(shí)則為缺貨產(chǎn)品;

第三步,零售商根據(jù)當(dāng)日庫存成本核算利潤并更新庫存;

第四步,零售商通過Q學(xué)習(xí)算法庫存控制模型制定生鮮農(nóng)產(chǎn)品的訂貨策略,向批發(fā)商下訂單。

3.Q-learning算法模型

本文以生鮮農(nóng)產(chǎn)品零售商每日的利潤為獎(jiǎng)勵(lì)函數(shù),通過馬爾科夫決策過程建立強(qiáng)化學(xué)習(xí)四元組(環(huán)境狀態(tài)觀測、智能體行動(dòng)、狀態(tài)遷移、獎(jiǎng)勵(lì)),將Q學(xué)習(xí)算法應(yīng)用到庫存控制當(dāng)中。

(1) 狀態(tài)變量

將狀態(tài)變量設(shè)為S。OO表示批發(fā)商從零售商收到的訂單的大小;AO表示零售商從批發(fā)商收到的貨物的多少;X表示零售商的庫存水平;I表示零售商從客戶處了解到的需求。

S=[OO, AO, X, I] (2)

(2) 動(dòng)作變量

智能體動(dòng)作變量設(shè)為A,即選擇訂貨的數(shù)量。根據(jù)實(shí)際情況,將動(dòng)作函數(shù)連續(xù)離散化,A取整數(shù)。

At=[Kt](3)

(3) 獎(jiǎng)懲變量

在進(jìn)行迭代的過程中,智能體根據(jù)觀察狀態(tài)變量然后采取行動(dòng),之后根據(jù)獲得的獎(jiǎng)懲反饋給智能體來判斷動(dòng)作的好壞。本文以零售商每日的利潤,綜合作為本模型的獎(jiǎng)懲函數(shù)R。

R=wI-(C·Cn+ P·Pn+G·Gn)(4)

其中,w為商品單個(gè)盈利,I為客戶需求,C為單位產(chǎn)品的過期成本,Cn為每段時(shí)間內(nèi)的過期數(shù)量,P為單位產(chǎn)品的持有成本,Pn為每段時(shí)間內(nèi)持有的商品的數(shù)量,G為單位產(chǎn)品的缺貨成本,Gn為每段時(shí)間內(nèi)的缺貨數(shù)量。

四、實(shí)驗(yàn)與評(píng)測

1.實(shí)驗(yàn)方案設(shè)計(jì)

本文以生鮮農(nóng)產(chǎn)品零售經(jīng)營者利潤為獎(jiǎng)勵(lì)函數(shù),建立了基于Q學(xué)習(xí)算法的庫存控制模型,從而求出生鮮農(nóng)產(chǎn)品零售經(jīng)營者最優(yōu)的庫存訂購策略。在實(shí)驗(yàn)過程中,生鮮農(nóng)產(chǎn)品零售商利潤以天為單位,進(jìn)行500天實(shí)驗(yàn),從而得出零售商的總利潤和庫存成本。然后零售經(jīng)營者采用服務(wù)水平為96%的定量訂貨模型,利潤以天為單位,進(jìn)行500天的計(jì)算,得出總利潤和庫存成本,兩者在相同的條件下進(jìn)行對(duì)比。

本文對(duì)某生鮮零售商進(jìn)行了實(shí)地調(diào)研,對(duì)需要的數(shù)據(jù)進(jìn)行了收集。為保證收集的數(shù)據(jù)具有廣泛的適用性,根據(jù)相關(guān)文獻(xiàn)做了相應(yīng)的調(diào)整。以皇冠梨為例,定義皇冠梨訂購成本為1.5元,售價(jià)為2.1元,過期成本為1.7元,缺貨成本為0.4元,持有成本為0.1元,提前期為1天,生命周期為3天,對(duì)動(dòng)作數(shù)量和數(shù)值進(jìn)行調(diào)整,對(duì)Q學(xué)習(xí)算法模型進(jìn)行訓(xùn)練。然后與定量訂貨法在相同的條件下進(jìn)行對(duì)比。庫存成本計(jì)算公式為:

" U=(C·Cn+ P·Pn+G·Gn)(5)

其中,U為庫存成本,C為單位產(chǎn)品的過期成本,Cn為每段時(shí)間內(nèi)的過期數(shù)量,P為單位產(chǎn)品的持有成本,Pn為每段時(shí)間內(nèi)持有的商品的數(shù)量,G為單位產(chǎn)品的缺貨成本,Gn為每段時(shí)間內(nèi)的缺貨數(shù)量。

2.算例求解思路

本文中生鮮農(nóng)產(chǎn)品零售商分別采用定量訂貨法和基于Q學(xué)習(xí)算法庫存控制模型來進(jìn)行訂貨,保持庫存容量、提前期、產(chǎn)品生命周期、客戶需求等參數(shù)都一致,選擇L=(60,52)的客戶需求數(shù)據(jù)進(jìn)行500天的實(shí)驗(yàn)。最后將兩種庫存控制策略得出的利潤和庫存成本進(jìn)行對(duì)比,從而得出最優(yōu)的庫存訂購策略。實(shí)驗(yàn)以皇冠梨為例,定義皇冠梨的訂購成本為1.5元,過期成本為1.7元,缺貨成本為0.4元,持有成本為0.1元,銷售價(jià)格為2.1元??偫麧櫈?00*R,庫存成本為U。該過程由Q學(xué)習(xí)算法描述,具體如下:

輸入:

狀態(tài)空間S=[OO、AO、X、I],動(dòng)作A;

輸出:

策略π,即在每種狀態(tài)下最優(yōu)的訂貨策略。

第一步:

初始化動(dòng)作狀態(tài)價(jià)值函數(shù)Q(s、a)=0,策略π(s,a),S=S0;

第二步:

生成(0、1)之間的隨機(jī)數(shù)r;

如果r lt; greedy:

從可選的動(dòng)作中,隨機(jī)選取一個(gè)動(dòng)作,即訂貨數(shù)量;

否則:

從當(dāng)前狀態(tài)表中,選取Q值最大的動(dòng)作;

第三步:

獲取下一個(gè)狀態(tài)的最大Q值,記為Next_Q_Value;

第四步:

根據(jù)獎(jiǎng)勵(lì)函數(shù),計(jì)算獎(jiǎng)勵(lì)值rewards:

R=wI-(C·Cn+ P·Pn+G·Gn)

第五步:

更新當(dāng)前狀態(tài)下,當(dāng)前動(dòng)作的Q值:

Q(s,a)←Q(s,a)+α[r+γQmax(s',a')-Q(s,a)]

第六步:

重新回到第二步;

第七步:

end for。

3.實(shí)驗(yàn)結(jié)果與分析

由圖像分析可知,智能體在與環(huán)境交互中,在實(shí)驗(yàn)中以E=0.1,學(xué)習(xí)率初始化為0.7。當(dāng)訓(xùn)練2萬次,每迭代千次便將學(xué)習(xí)率降低為α*β, β=0.9。實(shí)驗(yàn)的每個(gè)周期為500次,每個(gè)實(shí)驗(yàn)周期只進(jìn)行一次訂貨與庫存更新。在實(shí)驗(yàn)條件均相同的情況下,當(dāng)需求數(shù)據(jù)是L=(60,52)時(shí),零售商分別使用基于Q學(xué)習(xí)算法的庫存模型和定量訂貨法模型得到的庫存成本對(duì)比結(jié)果如圖3所示。

經(jīng)過數(shù)據(jù)分析可得出以下結(jié)論:

第一,當(dāng)消費(fèi)者的需求確定時(shí),零售經(jīng)營者商品的庫存數(shù)量應(yīng)接近或者稍微大于需求,這樣的話就能保證滿足消費(fèi)者的需求,又能提高零售經(jīng)營者的利潤,同時(shí)減少缺貨成本與過期成本,降低了總庫存成本,零售經(jīng)營者的庫存空間又可以得到很好的利用。

第二,智能體的動(dòng)作選擇與利潤、過期成本、缺貨成本、持有成本四者有關(guān)。

第三,由于過期成本較高,智能體在選取動(dòng)作時(shí)會(huì)避免產(chǎn)生過期成本。

第四,在進(jìn)行實(shí)驗(yàn)之后,通過對(duì)比定量訂貨法模型和基于Q學(xué)習(xí)的庫存控制模型獲得總利潤和庫存成本,其中定量訂貨法策略得到500天總利潤為12874.8元,基于Q學(xué)習(xí)的庫存控制模型得到總利潤為17835.6元,而且采用強(qiáng)化學(xué)習(xí)算法進(jìn)行訂購時(shí)庫存成本比采用定量訂貨法進(jìn)行訂貨時(shí)降低了2582.7元。由此可見,強(qiáng)化學(xué)習(xí)訂貨策略要優(yōu)于定量訂貨法策略,證明了此模型的真實(shí)有效性。

五、結(jié)語

本文將Q學(xué)習(xí)訂貨策略與定量訂貨法在相同條件下得出的庫存成本進(jìn)行對(duì)比之后得出結(jié)論:當(dāng)用戶需求滿足正態(tài)分布時(shí),基于Q學(xué)習(xí)算法的庫存優(yōu)化模型制訂的訂貨策略的庫存成本低于定量訂貨法模型的庫存成本,帶來了較高的利潤。該模型為商家提供了一個(gè)新的訂貨策略。在進(jìn)行決策時(shí),Q學(xué)習(xí)算法中的智能體(agent)可以根據(jù)歷史數(shù)據(jù)做出明智的決策,降低了零售商的缺貨成本、過期成本和持有成本,合理優(yōu)化了零售商的庫存空間,使零售商的經(jīng)營空間得到了合理的利用,從而降低了零售商的經(jīng)營成本。同時(shí),區(qū)別于傳統(tǒng)的庫存訂購策略,預(yù)測的準(zhǔn)確性有了很大的提升。因此,本文的模型具有實(shí)用價(jià)值。

參考文獻(xiàn):

[1]倪冬梅,趙秋紅.需求服從自由分布的兩階段供應(yīng)鏈訂貨策略[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2017(11):167-170.

[2]Alizadeh M,Eskandari H,Sajadifar SM.A modified(S-1,S)inventory system for deteriorating items with Poisson demand and non-zero lead time[J].Applied Mathematical Modelling,2014(2):699-711.

[3]馮穎,蔡小強(qiáng),涂菶生,等.隨機(jī)需求情形下單一易變質(zhì)產(chǎn)品庫存模型的訂購與定價(jià)策略[J].南開大學(xué)學(xué)報(bào)(自然科學(xué)版),2010(2):106-112.

[4]葉勇,張友華,李紹穩(wěn).零售商價(jià)格折扣策略下的易腐產(chǎn)品報(bào)童模型研究[J].蘭州商學(xué)院學(xué)報(bào),2011(2):31-35.

[5]Vaish B,Garg G,Optimal price discount policy for non-instantaneous deteriorating items with stock-dependent and time decreasing demand[J].Journal of Mathematics Research,2011(3):119-129.

[6]蔣國飛,吳滄浦.Q學(xué)習(xí)算法在庫存控制中的應(yīng)用[J].自動(dòng)化學(xué)報(bào),1999(2):96-101.

[7]湯大為,王紅衛(wèi).強(qiáng)化學(xué)習(xí)算法在供應(yīng)鏈環(huán)境下的庫存控制中的應(yīng)用[J].管理學(xué)報(bào),2005(3):358-361.

[8]劉夢婷,牟永敏,趙剛,等.基于強(qiáng)化學(xué)習(xí)算法的供應(yīng)鏈管理訂單策略研究[J].數(shù)據(jù)通信,2013(1):22-25.

主站蜘蛛池模板: 天堂网国产| 精品久久国产综合精麻豆| 九一九色国产| 国产一区二区视频在线| 国产网友愉拍精品| 亚洲无码高清一区| 在线色国产| 国产视频只有无码精品| 亚洲第一黄色网址| 国产在线啪| 欧美黄网在线| 91久久国产综合精品女同我| 国内精品久久久久久久久久影视| 99福利视频导航| 91福利在线观看视频| 国产精品v欧美| 日韩高清在线观看不卡一区二区 | 国产精品不卡永久免费| 999国产精品| 日韩av电影一区二区三区四区| 久久亚洲国产最新网站| 国产成人综合亚洲欧美在| 国产精品不卡片视频免费观看| 国产微拍精品| 乱人伦99久久| 亚洲人成网7777777国产| 欧美激情综合| 丁香婷婷激情综合激情| 久久伊人色| 区国产精品搜索视频| 亚洲一级毛片在线观| 午夜激情福利视频| 国产一级毛片在线| 国产一级在线播放| 在线欧美a| 人人91人人澡人人妻人人爽 | 欧美成人aⅴ| 亚洲精品无码高潮喷水A| 91在线播放免费不卡无毒| 久久亚洲美女精品国产精品| 91福利国产成人精品导航| 在线精品自拍| 国产欧美精品专区一区二区| 亚洲成年人网| 欧美午夜在线播放| 久久久精品国产SM调教网站| 亚洲中文字幕av无码区| 99精品国产电影| 国产精品自拍露脸视频| 国产主播在线观看| 亚洲国产第一区二区香蕉| 国产精品第| 三级毛片在线播放| 国产激爽爽爽大片在线观看| 青青青亚洲精品国产| 久久精品一品道久久精品| 国产麻豆精品在线观看| 国产精品视频白浆免费视频| 国产高潮视频在线观看| 国产精品成人久久| 香蕉久久永久视频| a毛片在线| 国产伦片中文免费观看| 国产亚洲精品97在线观看 | 69国产精品视频免费| 欧美日韩免费在线视频| 欧美日韩国产在线播放| 蜜桃臀无码内射一区二区三区 | 日韩在线第三页| 天天激情综合| 亚洲男人天堂2018| 亚洲色图狠狠干| 国产视频一区二区在线观看| 国产拍揄自揄精品视频网站| 一区二区无码在线视频| 欧美成人亚洲综合精品欧美激情| 乱人伦中文视频在线观看免费| 亚洲精品无码av中文字幕| 日韩欧美国产三级| 欧美日韩午夜| 91网红精品在线观看| 国产精品开放后亚洲|