999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

強(qiáng)化學(xué)習(xí)在運(yùn)籌學(xué)的應(yīng)用:研究進(jìn)展與展望

2020-10-23 09:18:52徐翔斌李志鵬
運(yùn)籌與管理 2020年5期
關(guān)鍵詞:利用優(yōu)化策略

徐翔斌, 李志鵬

(華東交通大學(xué) 交通運(yùn)輸與物流學(xué)院,江西 南昌 330013)

0 引言

強(qiáng)化學(xué)習(xí)(Reinforcement Learning,以下簡(jiǎn)稱RL),又稱增強(qiáng)學(xué)習(xí),在運(yùn)籌與控制理論領(lǐng)域稱為近似動(dòng)態(tài)規(guī)劃,是統(tǒng)計(jì)學(xué)、心理學(xué)、運(yùn)籌學(xué)、信息論以及計(jì)算機(jī)科學(xué)等多學(xué)科交叉綜合的一門學(xué)科。RL是機(jī)器學(xué)習(xí)的一個(gè)重要分支,它是基于Agent與環(huán)境進(jìn)行交互,并從環(huán)境中獲得信息獎(jiǎng)賞并映射到動(dòng)作的一種學(xué)習(xí)方式[1],其主要思想是Agent與環(huán)境不斷交互和試錯(cuò),接收反饋信號(hào)來(lái)進(jìn)行優(yōu)化決策[2]。RL更接近于自然界生物學(xué)習(xí)的本質(zhì),因而在很多領(lǐng)域取得了成功的應(yīng)用,包括游戲[3,4]、機(jī)器人控制[5]、自然語(yǔ)言處理[6]以及計(jì)算機(jī)視覺(jué)[7]等。特別地,基于RL與深度學(xué)習(xí)[8]融合的AlphaGo[9]與新一代AlphaGo Zero圍棋程序?qū)L的理論和應(yīng)用研究推向了一個(gè)新的高度。

本文對(duì)RL在運(yùn)籌優(yōu)化領(lǐng)域中的應(yīng)用進(jìn)行文獻(xiàn)綜述,首先簡(jiǎn)單介紹RL的基本原理及其算法分類,其次闡述RL在運(yùn)籌優(yōu)化領(lǐng)域應(yīng)用的研究框架,然后對(duì)RL在運(yùn)籌優(yōu)化領(lǐng)域的應(yīng)用進(jìn)行總結(jié)與評(píng)述,主要包括庫(kù)存控制、路徑優(yōu)化、裝箱配載以及車間作業(yè)調(diào)度等幾個(gè)經(jīng)典運(yùn)籌學(xué)問(wèn)題,最后對(duì)RL在該領(lǐng)域的應(yīng)用研究進(jìn)行展望,指出幾個(gè)需要重點(diǎn)關(guān)注的研究方向。

1 強(qiáng)化學(xué)習(xí)簡(jiǎn)介

RL基本結(jié)構(gòu)如圖1所示,在每個(gè)時(shí)間步長(zhǎng)內(nèi),Agent感知環(huán)境狀態(tài)st,并根據(jù)既定的策略采取行動(dòng)at,得到執(zhí)行at所獲得的立即獎(jiǎng)賞rt,同時(shí)使環(huán)境由狀態(tài)st轉(zhuǎn)換為st+1。RL的目的是讓Agent學(xué)習(xí)到一種策略,實(shí)現(xiàn)狀態(tài)到動(dòng)作的映射,Agent在該策略的指導(dǎo)下行動(dòng),獲得最大的獎(jiǎng)賞[10]。

圖1 RL的基本結(jié)構(gòu)

RL主要用于解決序貫決策問(wèn)題,根據(jù)外部環(huán)境是否完全可知,可分為基于模型(Model-Based)的RL算法和無(wú)模型(Model-Free)的RL算法[1]。基于模型的RL核心思想是動(dòng)態(tài)規(guī)劃,其實(shí)質(zhì)是從過(guò)去的經(jīng)驗(yàn)中學(xué)習(xí)并建立環(huán)境模型,再依據(jù)模型計(jì)算出值函數(shù),根據(jù)值函數(shù)的迭代方式不同,又可將其分為值迭代以及策略迭代算法;基于模型的RL還包括GPS(Guided Policy Search)[11]和PILCO(Probabilistic Inference for Learning Control)[12]等算法。無(wú)模型RL直接與外部環(huán)境進(jìn)行交互和試錯(cuò),以此達(dá)到學(xué)習(xí)的目的,它主要分為基于值函數(shù)的RL和基于直接策略搜索的RL兩大類:其中基于值函數(shù)的RL包括基于表格型的算法(主要有Q-學(xué)習(xí)[13]、蒙特卡羅(MC)[10,14]以及時(shí)序差分法(TD)[15]等)和值函數(shù)近似的RL,而值函數(shù)近似又可分為線性近似和神經(jīng)網(wǎng)絡(luò)近似兩種,其中深度RL(Deep Reinforcement Learning,以下簡(jiǎn)稱DRL)[16]主要有DQN[3,4](Deep Q Network,以下簡(jiǎn)稱DQN)和RUDDER(Return Decomposition for Delayed Rewards)[17]等。而基于直接策略搜索的RL主要包括REINFORCE[18]、演員-評(píng)論家(AC)[19]以及異步演員-評(píng)論家(A3C)[20]等算法,RL算法分類如圖2所示。

圖2 RL算法分類

2 基于強(qiáng)化學(xué)習(xí)的運(yùn)籌學(xué)研究框架

傳統(tǒng)運(yùn)籌學(xué)的研究方法通常分為兩步:首先建立待求問(wèn)題的數(shù)學(xué)模型,包括目標(biāo)函數(shù)和約束條件等;其次設(shè)計(jì)算法求解該模型,如分支定界[21]、禁忌搜索[22]以及遺傳算法[23,24]等。對(duì)于大規(guī)模復(fù)雜系統(tǒng)來(lái)說(shuō),傳統(tǒng)運(yùn)籌學(xué)研究方法存在以下幾個(gè)方面的問(wèn)題:(1)難以建立精確有效的數(shù)學(xué)模型,或者即使建立了數(shù)學(xué)模型,也是對(duì)實(shí)際問(wèn)題的理想化處理;(2)無(wú)法解決較大規(guī)模問(wèn)題,因?yàn)殡S著問(wèn)題規(guī)模的增大會(huì)出現(xiàn)“組合爆炸”現(xiàn)象,計(jì)算的時(shí)間和空間復(fù)雜度呈指數(shù)級(jí)增長(zhǎng);(3)只能求解靜態(tài)確定性問(wèn)題,難以考慮動(dòng)態(tài)及隨機(jī)因素。

馬爾可夫決策過(guò)程(MDP)[25]是解決多階段序貫決策問(wèn)題的重要方法,馬爾可夫特性是指系統(tǒng)的下一個(gè)狀態(tài)只與當(dāng)前狀態(tài)信息有關(guān),而與更早之前的狀態(tài)無(wú)關(guān)。RL將運(yùn)籌學(xué)領(lǐng)域的序貫決策問(wèn)題建模為MDP并進(jìn)行求解。MDP將待求解問(wèn)題定義為一個(gè)六元組(S,A,P,R,γ,π),其中:S代表Agent的狀態(tài)集合,st∈S表示Agent在t時(shí)刻所處的狀態(tài);A代表Agent可取的動(dòng)作集合,at∈A表示Agent在t時(shí)刻采取的行動(dòng);P代表狀態(tài)轉(zhuǎn)移概率,P(st+1|st,at) 是Agent在st∈S狀態(tài)下,執(zhí)行動(dòng)作at后,轉(zhuǎn)移到下一狀態(tài)st+1的概率;R代表獎(jiǎng)賞函數(shù),rt代表t時(shí)刻采取行動(dòng)at獲得的立即獎(jiǎng)賞;γ代表折扣因子,用來(lái)計(jì)算累計(jì)獎(jiǎng)賞,其中γ∈[0,1];π表示策略,RL學(xué)習(xí)的目標(biāo)是讓Agent學(xué)習(xí)得到一個(gè)最優(yōu)策略π*,使其累計(jì)獎(jiǎng)賞最大;RL用狀態(tài)值函數(shù)V(s)或動(dòng)作值函數(shù)Q(s,a)來(lái)衡量策略的優(yōu)劣,采用動(dòng)態(tài)Bellman公式對(duì)V(s)或Q(s,a)進(jìn)行求解,如公式(1)和(2)所示。

Vπ(s)=Eπ[rt+1+γVπ(st+1)|st=s]

(1)

Qπ(s,a)=Eπ[rt+1+γQπ(st+1,at+1)|st=s,at=a]

(2)

RL能較好地克服傳統(tǒng)運(yùn)籌學(xué)建模方法的缺點(diǎn):(1)在建模難、建模不準(zhǔn)確的問(wèn)題方面,RL可以通過(guò)Agent與環(huán)境的不斷交互,學(xué)習(xí)到最優(yōu)策略;(2)在傳統(tǒng)方法難以解決高維度的問(wèn)題方面,RL提供了包括值函數(shù)近似以及直接策略搜索等近似算法;(3)在難以求解動(dòng)態(tài)與隨機(jī)型問(wèn)題方面,RL可在Agent與環(huán)境之間的交互以及狀態(tài)轉(zhuǎn)移過(guò)程中加入隨機(jī)因素。RL的這些優(yōu)點(diǎn)使得其適合求解運(yùn)籌學(xué)領(lǐng)域的大規(guī)模動(dòng)態(tài)、隨機(jī)決策問(wèn)題,如庫(kù)存控制、路徑優(yōu)化、裝箱配載以及車間作業(yè)調(diào)度等問(wèn)題,為運(yùn)籌優(yōu)化的研究提供一個(gè)新視角。

3 強(qiáng)化學(xué)習(xí)在運(yùn)籌學(xué)中的應(yīng)用

3.1 庫(kù)存控制

庫(kù)存控制的核心內(nèi)容包括訂貨時(shí)間、訂貨數(shù)量以及庫(kù)存水平等,其目的是在降低庫(kù)存的同時(shí)保證較高的客戶服務(wù)水平。實(shí)際庫(kù)存控制存在很大的不確定性,如客戶需求或訂貨提前期動(dòng)態(tài)變化,特別地,在多階段供應(yīng)鏈庫(kù)存決策中,由于供應(yīng)鏈不協(xié)調(diào)容易造成“牛鞭”效應(yīng),傳統(tǒng)的運(yùn)籌優(yōu)化方法難以優(yōu)化這類動(dòng)態(tài)隨機(jī)型庫(kù)存控制問(wèn)題。

庫(kù)存控制是一個(gè)典型的多階段序貫決策問(wèn)題,在兩階段供應(yīng)鏈庫(kù)存決策方面,Van Roy[26]等早在1997年就將RL運(yùn)用于兩階段單一產(chǎn)品零售商庫(kù)存問(wèn)題,并利用近似策略迭代算法與TD算法進(jìn)行求解,結(jié)果顯示該算法比傳統(tǒng)啟發(fā)式算法減少了10%左右的平均庫(kù)存成本。在此基礎(chǔ)上,Kim[27,28]等提出兩階段供應(yīng)鏈的自適應(yīng)庫(kù)存控制模型(集中式控制模型與分散式控制模型),并設(shè)計(jì)了同步和異步獎(jiǎng)賞學(xué)習(xí)算法,結(jié)果表明該算法在兩種模型中均比傳統(tǒng)算法花費(fèi)更少的庫(kù)存成本,并且在運(yùn)行速度方面,異步算法要比同步動(dòng)作獎(jiǎng)賞學(xué)習(xí)更快。Kwon[29]和Jiang[30]等將基于案例的推理技術(shù)與RL結(jié)合起來(lái),用于處理較大狀態(tài)空間非穩(wěn)定需求的庫(kù)存控制問(wèn)題;Giannoccaro[31]更進(jìn)一步將兩階段庫(kù)存決策模型擴(kuò)展至包括供應(yīng)商、制造商及分銷商的三階段模型,假定需求服從指數(shù)分布,同時(shí)考慮了訂貨成本、持有成本、缺貨成本及渠道成本,提出了一種名為SMART的平均獎(jiǎng)賞算法來(lái)求解模型;隨后Chaharsooghi[32]、Tongeren[33]以及Mortazavi[34]等以“啤酒游戲”為背景,構(gòu)建了由零售商、分銷商、批發(fā)商以及制造商組成的四階段供應(yīng)鏈模型,考慮動(dòng)態(tài)交貨期以及非穩(wěn)定客戶需求,利用Q-學(xué)習(xí)方法來(lái)求解最優(yōu)庫(kù)存控制策略,結(jié)果表明該算法能更好地解決復(fù)雜環(huán)境下的庫(kù)存決策問(wèn)題。

特別地,Oroojlooyjadid[35]等將最新的DQN算法引入“啤酒游戲”并開(kāi)發(fā)了一種反饋機(jī)制下的合作框架,并利用遷移學(xué)習(xí)[36]實(shí)現(xiàn)Agent之間的知識(shí)轉(zhuǎn)移,仿真結(jié)果顯示當(dāng)零售商、分銷商、批發(fā)商和制造商中的一種角色使用DQN算法,其他角色使用strm-BS策略時(shí),基于DQN算法的庫(kù)存成本都低于strm-BS策略,并且在DQN算法中引入遷移學(xué)習(xí)時(shí),運(yùn)行時(shí)間可縮短94.6%,這表明DQN算法在庫(kù)存控制應(yīng)用中的有效性,特別是加入遷移學(xué)習(xí)的DQN算法求解效率更高。在此基礎(chǔ)上,Gijsbrechts[37]等將A3C算法應(yīng)用于雙源采購(gòu)庫(kù)存決策問(wèn)題,并引入具有實(shí)際訂單大小及成本參數(shù)的真實(shí)數(shù)據(jù)集進(jìn)行測(cè)試,結(jié)果顯示在不需要任何啟發(fā)式算法的情況下,A3C算法計(jì)算得到的庫(kù)存成本與最優(yōu)成本的差距在6%~7%,接近于最優(yōu)解。

此外,Valluri[38]和Sun[39]利用RL研究了由客戶、零售商、批發(fā)商、分銷商和供應(yīng)商構(gòu)成的五階段供應(yīng)鏈模型,在此基礎(chǔ)上,Kim[40]等將供應(yīng)鏈模型由多階段擴(kuò)展至N階段,其中第一階段為零售商,其余階段均為供應(yīng)商,提出了一種多主體協(xié)同需求估計(jì)協(xié)議和分布式的動(dòng)作獎(jiǎng)賞學(xué)習(xí)技術(shù)。另外還有學(xué)者研究了供應(yīng)商管理庫(kù)存(VMI)模式下庫(kù)存控制問(wèn)題,Kwak[41]等提出了收斂速度更快的回顧性行動(dòng)獎(jiǎng)賞算法,Yang[42]等用Q-學(xué)習(xí)算法選擇合適的安全庫(kù)存以應(yīng)對(duì)非穩(wěn)定性需求,同時(shí)還對(duì)需求預(yù)測(cè)過(guò)程中的牛鞭效應(yīng)進(jìn)行了分析。Zheng[43]等基于RL研究了一種由供應(yīng)商保留零售商庫(kù)存所有權(quán),在零售商銷售商品之前庫(kù)存成本由供應(yīng)商承擔(dān)的VMI補(bǔ)貨策略。此外,Katanyukul[44]等基于GARCH(1,1)庫(kù)存模型對(duì)Sarsa[45]算法與rollout策略[46]進(jìn)行了比較分析,結(jié)果表明在持有成本與缺貨成本比率較高時(shí),rollout策略更適用于該類問(wèn)題的求解。值得注意的是,Kara[47]等運(yùn)用RL解決了考慮產(chǎn)品壽命的單階段庫(kù)存決策問(wèn)題,以總庫(kù)存成本最小化為目標(biāo),分別用Sarsa、Q-學(xué)習(xí)算法與遺傳算法進(jìn)行比較分析,實(shí)驗(yàn)表明在客戶需求變化大、產(chǎn)品壽命短的情況下,使用RL進(jìn)行學(xué)習(xí)可以獲得更好的結(jié)果。典型的基于RL的庫(kù)存決策文獻(xiàn)統(tǒng)計(jì)如表1所示。

總的來(lái)說(shuō),RL在供應(yīng)鏈庫(kù)存控制問(wèn)題的研究成果豐碩,RL可充分考慮庫(kù)存決策過(guò)程中的多階段序貫決策和不確定性,進(jìn)而求解非平穩(wěn)需求下庫(kù)存控制問(wèn)題。但目前大多數(shù)文獻(xiàn)仍然采用Q-學(xué)習(xí)、TD算法等傳統(tǒng)表格型算法求解,此類算法在收斂速度以及收斂性方面都表現(xiàn)得很不穩(wěn)定,特別是在問(wèn)題比較復(fù)雜或規(guī)模較大的情況下,會(huì)出現(xiàn)“維數(shù)災(zāi)難”而無(wú)法求解,需研究可自動(dòng)提取庫(kù)存系統(tǒng)關(guān)鍵特征的高效算法。

表1 RL應(yīng)用于庫(kù)存決策文獻(xiàn)匯總

3.2 路徑優(yōu)化

路徑優(yōu)化主要包括旅行商問(wèn)題(TSP)和車輛路徑問(wèn)題(VRP)[48],都是經(jīng)典的NP-hard組合優(yōu)化問(wèn)題[49],傳統(tǒng)的運(yùn)籌優(yōu)化方法難以求解不確定性路徑優(yōu)化問(wèn)題,路徑優(yōu)化問(wèn)題的“不確定性”主要體現(xiàn)在信息演變和信息質(zhì)量變化[50]這兩個(gè)方面。信息演變是指決策者掌握的某些信息有可能會(huì)在實(shí)際中隨時(shí)間發(fā)生變化,比如車輛旅行時(shí)間受實(shí)時(shí)交通路況影響隨時(shí)發(fā)生變化以及在配送服務(wù)時(shí)可能有新的顧客產(chǎn)生新的需求等;而信息質(zhì)量變化是指某些信息存在不確定性,比如決策者只能得知顧客的實(shí)際需求是按照某種概率分布存在但無(wú)法明確預(yù)知客戶的需求。學(xué)者們將前者稱為動(dòng)態(tài)路徑優(yōu)化問(wèn)題,后者稱為隨機(jī)路徑優(yōu)化問(wèn)題,路徑優(yōu)化問(wèn)題也是典型的多階段序貫決策問(wèn)題,可以利用RL進(jìn)行求解。

3.2.1 旅行商問(wèn)題(TSP)

已有學(xué)者運(yùn)用RL對(duì)動(dòng)態(tài)隨機(jī)型TSP問(wèn)題進(jìn)行研究,Secomandi[51]將基于啟發(fā)式的rollout策略應(yīng)用于考慮隨機(jī)旅行時(shí)間的TSP問(wèn)題,仿真表明該策略的求解結(jié)果優(yōu)于循環(huán)啟發(fā)式算法,Toriello[52]等研究了隨機(jī)成本的動(dòng)態(tài)TSP問(wèn)題,將其建模為近似動(dòng)態(tài)規(guī)劃模型,提出了一種價(jià)格導(dǎo)向的rollout策略。然而,一般RL算法只能解決特定的具體問(wèn)題,Bello[53]等指出可以用神經(jīng)網(wǎng)絡(luò)與RL結(jié)合的框架來(lái)求解TSP問(wèn)題,并提出了基于策略梯度的兩種變體方法:一種是帶提前訓(xùn)練的RL,利用期望回報(bào)作為目標(biāo)函數(shù),使用與A3C[20]相類似的訓(xùn)練算法對(duì)指針網(wǎng)絡(luò)[54]進(jìn)行優(yōu)化,另一種是主動(dòng)搜索,不需要提前訓(xùn)練,仿真測(cè)試結(jié)果顯示該方法在三種不同規(guī)模下的TSP問(wèn)題均優(yōu)于監(jiān)督學(xué)習(xí)算法以及啟發(fā)式算法,并且該方法的求解結(jié)果與最優(yōu)解的差距均在1%以內(nèi)。在此基礎(chǔ)上,Dai[55]等進(jìn)一步指出同一類型的組合優(yōu)化問(wèn)題具有相同的結(jié)構(gòu),只是在具體問(wèn)題中的數(shù)據(jù)表現(xiàn)不同,于是提出了一種利用RL與圖嵌入網(wǎng)絡(luò)相組合的端到端的學(xué)習(xí)框架,具體來(lái)說(shuō),以圖形嵌入網(wǎng)絡(luò)來(lái)表示優(yōu)化策略,并運(yùn)用NFQ(Neural Fitted Q Iteration)[56]與多步Q-學(xué)習(xí)[10]組合的方式來(lái)學(xué)習(xí),以最小頂點(diǎn)覆蓋問(wèn)題、最大切割問(wèn)題以及TSP問(wèn)題為例進(jìn)行實(shí)驗(yàn),結(jié)果表明該框架可以應(yīng)用于各類組合優(yōu)化問(wèn)題,并且該框架在求解1200個(gè)節(jié)點(diǎn)的TSP問(wèn)題時(shí),與最優(yōu)解的差距在10%左右,具有較好的泛化能力[57]。隨后Emami[58]等又提出了一種基于Sinkhorn[59]策略梯度和AC結(jié)合的RL算法來(lái)求解TSP問(wèn)題。值得關(guān)注的是,Kool[60]和Deudon[61]等在文獻(xiàn)[53]的基礎(chǔ)上進(jìn)一步進(jìn)行研究,將深度學(xué)習(xí)中的注意力機(jī)制引入了RL算法用于求解TSP問(wèn)題,利用REINFORCE[18]算法對(duì)確定性最優(yōu)策略進(jìn)行訓(xùn)練,該方法在TSP20/50/100問(wèn)題的測(cè)試結(jié)果與最優(yōu)解差距分別為0.32%、1.71%和4.43%,求解質(zhì)量很高,并在同等條件下比文獻(xiàn)[53]更快收斂。總的來(lái)說(shuō),利用RL研究TSP問(wèn)題具有很大的潛力。典型的RL在TSP問(wèn)題中的應(yīng)用文獻(xiàn)統(tǒng)計(jì)如表2所示。

表2 RL應(yīng)用于TSP問(wèn)題文獻(xiàn)匯總

3.2.2 車輛路徑問(wèn)題(VRP)

與傳統(tǒng)運(yùn)籌優(yōu)化方法相比,RL更適合求解不確定的動(dòng)態(tài)VRP問(wèn)題,動(dòng)態(tài)VRP問(wèn)題主要包括:(1)隨機(jī)客戶需求VRP(VRPSD),指的是在服務(wù)之前無(wú)法得知客戶真實(shí)需求量,只有到達(dá)客戶的位置,才可得知需求量;(2)隨機(jī)客戶請(qǐng)求VRP(VRPSR),指的是在服務(wù)的過(guò)程中,可能會(huì)出現(xiàn)無(wú)法預(yù)期的潛在客戶請(qǐng)求,這些客戶可能在不同的時(shí)間和地點(diǎn)出現(xiàn);(3)隨機(jī)服務(wù)時(shí)間VRP(VRPST),指的是客戶服務(wù)時(shí)間的不確定性。傳統(tǒng)運(yùn)籌學(xué)方法在求解VRPSD時(shí)一般采用兩階段先驗(yàn)路徑的方法[21,62],首先在未知顧客需求的情況下設(shè)計(jì)好預(yù)定路線,然后在顧客需求逐漸已知的過(guò)程中,再進(jìn)一步調(diào)整該路線。鑒于傳統(tǒng)的方法難以考慮問(wèn)題的實(shí)時(shí)性,諸多學(xué)者開(kāi)始用RL來(lái)求解VRPSD,Dror[63]最先將VRPSD建模為MDP,但并未給出計(jì)算實(shí)例。由于rollout策略可在基本啟發(fā)式算法的基礎(chǔ)上得到最優(yōu)值函數(shù),學(xué)者們更多地利用該策略來(lái)求解VRPSD,Secomandi[64]以最小化最短距離期望為目標(biāo)函數(shù),分別比較了樂(lè)觀近似策略迭代與rollout策略這兩種策略的RL算法在單一車輛VRPSD中的表現(xiàn),結(jié)果表明后者比前者更為健壯。Novoa[65]等將rollout策略由一步更新拓展至兩步更新,在保證解的質(zhì)量前提下,用MC算法來(lái)計(jì)算更新后的基策略的期望成本,以此大幅減少計(jì)算時(shí)間。為進(jìn)一步減輕rollout策略的計(jì)算量,Goodson[66]和Bertazzi[67]等將前向動(dòng)態(tài)規(guī)劃以及可變鄰域搜索技術(shù)(VNS)[68]嵌入rollout策略,F(xiàn)an[69]則提出以先驗(yàn)路徑與rollout策略相結(jié)合的方式來(lái)求解多車輛VRPSD。

還有學(xué)者利用其它RL算法對(duì)VRPSD進(jìn)行求解,婁山佐[70]等構(gòu)建了徑向基網(wǎng)絡(luò)模型,利用最小二乘時(shí)序差分法(LSTD)確定權(quán)系數(shù),交叉熵確定隱含層參數(shù)的方法來(lái)求解VRPSD問(wèn)題,Zhang[71]等以基于有界表格查找的改進(jìn)Q-學(xué)習(xí)算法來(lái)求解VRPSD,結(jié)果表明該算法在求解質(zhì)量與計(jì)算時(shí)間兩方面都要優(yōu)于rollout策略。值得一提的是,Nazari[72]等將文獻(xiàn)[53]提出的RL優(yōu)化框架推廣應(yīng)用于需求可拆分VRP問(wèn)題,并以循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合注意力機(jī)制的方式代替指針網(wǎng)絡(luò)來(lái)增強(qiáng)該框架的魯棒性,通過(guò)與Clarke-Wright節(jié)約法以及Google’s OR工具比較發(fā)現(xiàn),該算法求解結(jié)果接近于最優(yōu)解,其中在VRP10以及VRP20問(wèn)題中,該方法與最優(yōu)解的差距分別處于10%和13%以內(nèi),在此基礎(chǔ)上,Kool[60]等繼續(xù)改進(jìn)帶注意力機(jī)制的DRL算法,并將其應(yīng)用于上述問(wèn)題,所得結(jié)果與最優(yōu)解差距均處于5%以內(nèi),且均優(yōu)于文獻(xiàn)[72]的測(cè)試結(jié)果。

也有學(xué)者利用RL研究VRPSR和VRPST問(wèn)題,Meisel[73]等以固定時(shí)間內(nèi)最大化服務(wù)客戶數(shù)量為目標(biāo),將客戶分為必須服務(wù)的客戶和隨機(jī)出現(xiàn)的客戶兩部分,利用RL求解VRPSR。Ulmer等[74,75]將rollout算法用于求解VRPSR,還有學(xué)者利用基于動(dòng)態(tài)表格查找的RL算法研究VRPSR,文獻(xiàn)[76]將動(dòng)態(tài)表格查找的方法運(yùn)用于多周期的VRPSR中。RL在VRPST中的應(yīng)用主要集中在緊急醫(yī)療領(lǐng)域,這類VRP問(wèn)題的隨機(jī)服務(wù)時(shí)間主要是指救護(hù)車到達(dá)救護(hù)現(xiàn)場(chǎng)對(duì)病人進(jìn)行預(yù)處理的時(shí)間,譬如文獻(xiàn)[77,78]研究了考慮隨機(jī)服務(wù)時(shí)間的救護(hù)車調(diào)度部署問(wèn)題。典型的RL在VRP問(wèn)題中的應(yīng)用文獻(xiàn)統(tǒng)計(jì)如表3所示。

綜上所述,相對(duì)傳統(tǒng)的運(yùn)籌優(yōu)化方法,RL在解決隨機(jī)、動(dòng)態(tài)的車輛路徑問(wèn)題具有一定的優(yōu)勢(shì)。但是當(dāng)前研究也存在一些問(wèn)題,比如RL對(duì)考慮單一隨機(jī)因素的動(dòng)態(tài)VRP問(wèn)題的研究較多,但是對(duì)考慮多重隨機(jī)因素的VRP問(wèn)題的研究較少,此外大多數(shù)文獻(xiàn)并未考慮車輛的異質(zhì)性,并且在算法方面,大部分文獻(xiàn)局限于采用rollout策略或基于表格型的RL算法進(jìn)行研究。

表3 RL在VRP問(wèn)題中的應(yīng)用文獻(xiàn)匯總

3.3 裝箱配載

有關(guān)背包問(wèn)題[79]和裝箱配載問(wèn)題[80]的研究成果頗豐,但大多都集中在精確算法[81]以及啟發(fā)式算法[82]。背包和裝箱配載也可視為序貫決策問(wèn)題,Kleywegt[83]等定義并研究了一類具有相同物品尺寸的動(dòng)態(tài)隨機(jī)背包問(wèn)題,隨后又將其拓展至物品大小隨機(jī)的背包問(wèn)題,并將其建模為MDP,在以最大化價(jià)值為目標(biāo)的情況下,分別研究了該算法在有限時(shí)域和無(wú)限時(shí)域下隨機(jī)背包問(wèn)題的表現(xiàn),并得到了最優(yōu)裝箱策略[84]。Mastin[85]通過(guò)對(duì)rollout策略與基策略在背包問(wèn)題的表現(xiàn)進(jìn)行比較分析,發(fā)現(xiàn)rollout策略嚴(yán)格優(yōu)于基策略,Bello[53]等還利用基于指針網(wǎng)絡(luò)與RL結(jié)合的框架求解三種規(guī)模的背包問(wèn)題,結(jié)果顯示基于預(yù)先訓(xùn)練的RL的算法與最優(yōu)解的差距在1%以內(nèi),且基于主動(dòng)搜索的RL算法可求得最優(yōu)解。Kong[86]等嘗試構(gòu)建基于RL求解線性組合優(yōu)化問(wèn)題的統(tǒng)一框架,并以背包問(wèn)題為例求解,結(jié)果與最優(yōu)解差距小于5%。值得一提的是,Bertsimas[87]等以多維背包問(wèn)題為背景,提出了參數(shù)化及非參數(shù)化的近似值函數(shù)的RL方法,并檢驗(yàn)其在大規(guī)模整數(shù)規(guī)劃問(wèn)題上的可行性,實(shí)驗(yàn)表明其能在較短時(shí)間內(nèi)得到比遺傳算法、CPLEX求解器更好的解。Perry[88]等利用隨機(jī)動(dòng)態(tài)規(guī)劃來(lái)求解動(dòng)態(tài)隨機(jī)多重背包的多周期資源配置問(wèn)題,Hua[89]等利用RL研究了二次背包問(wèn)題,并引入兩種啟發(fā)式算法來(lái)近似值函數(shù),另外,Goodson[90]等提出了一種基于rollout的策略框架,并利用隨機(jī)動(dòng)態(tài)多重背包問(wèn)題驗(yàn)證了框架的有效性。

經(jīng)典裝箱問(wèn)題以最小化箱子數(shù)量為優(yōu)化目標(biāo),而Hu[91]等以最小化箱子表面積為優(yōu)化目標(biāo),首次將DRL引入三維裝箱問(wèn)題,考慮物品的裝入順序、裝入方向以及箱子的空余空間等因素對(duì)表面積的影響,設(shè)計(jì)了一種啟發(fā)式算法來(lái)對(duì)物品的裝入方向及箱子的剩余空間進(jìn)行遍歷搜索,并用基于指針網(wǎng)絡(luò)[54]的DRL框架選擇物品的裝入順序,該方法計(jì)算得到箱子表面積該比啟發(fā)式算法少5%左右,且與最優(yōu)解的差距在6%以內(nèi)。在此基礎(chǔ)上,文獻(xiàn)[92]進(jìn)一步提出一種基于多任務(wù)選擇學(xué)習(xí)的框架,并引入了深度學(xué)習(xí)的注意力機(jī)制,在BIN10和BIN12的仿真實(shí)驗(yàn)中,求解結(jié)果優(yōu)于傳統(tǒng)DRL和啟發(fā)式算法。最近,Laterre[93]等設(shè)計(jì)了一種基于獎(jiǎng)勵(lì)排序(Ranked Reward)的算法應(yīng)用于二維裝箱問(wèn)題,并以最小化裝入物品邊界為優(yōu)化目標(biāo),利用深度神經(jīng)網(wǎng)絡(luò)以及蒙特卡羅樹(shù)搜索(MCTS)[94]進(jìn)行策略評(píng)估與策略改善,該算法的核心思想在于使用最近的獎(jiǎng)賞進(jìn)行排名,只有超過(guò)最新的最優(yōu)解才能獲得獎(jiǎng)賞,以此自我提升訓(xùn)練的難度,在一定程度上緩解了對(duì)訓(xùn)練數(shù)據(jù)的需求,求解結(jié)果優(yōu)于MCTS、監(jiān)督學(xué)習(xí)和A3C等算法,并在排序比例為75%時(shí),測(cè)試效果最優(yōu)。典型的RL求解裝箱配載問(wèn)題的文獻(xiàn)統(tǒng)計(jì)如表4所示。

盡管很多文獻(xiàn)利用RL研究經(jīng)典0-1背包、多維背包以及多重背包等更復(fù)雜的背包問(wèn)題,但是較少考慮物品的重量、價(jià)值和尺寸等隨機(jī)因素對(duì)裝箱問(wèn)題的影響,并且較少文獻(xiàn)利用RL解決裝箱與車輛路徑協(xié)同優(yōu)化問(wèn)題。此外在算法方面,大多文獻(xiàn)仍使用傳統(tǒng)的值函數(shù)近似算法對(duì)問(wèn)題進(jìn)行求解。

表4 RL在裝箱配載問(wèn)題中的應(yīng)用文獻(xiàn)匯總

3.4 車間作業(yè)調(diào)度(JSP)

JSP問(wèn)題也是典型的序貫決策問(wèn)題,根據(jù)調(diào)度環(huán)境的不同,JSP問(wèn)題可分為靜態(tài)JSP問(wèn)題和動(dòng)態(tài)JSP問(wèn)題。Zhang[95]等很早就將RL引入到NASA航天飛機(jī)的生產(chǎn)調(diào)度JSP問(wèn)題中,提出了一種新的基于迭代修復(fù)的方法,利用TD(λ)對(duì)狀態(tài)值函數(shù)進(jìn)行估計(jì)并使用隨機(jī)貪婪策略選擇動(dòng)作。然而工件和機(jī)器的多樣性以及機(jī)器故障等隨機(jī)因素導(dǎo)致實(shí)際調(diào)度環(huán)境是實(shí)時(shí)動(dòng)態(tài)變化的,因此相對(duì)于靜態(tài)JSP問(wèn)題,RL更多被用于求解這類動(dòng)態(tài)隨機(jī)的JSP問(wèn)題,Riedmiller[96]等利用基于神經(jīng)網(wǎng)絡(luò)的RL來(lái)求解最小化總延遲的JSP問(wèn)題,結(jié)果表明該方法能夠在短時(shí)間內(nèi)得到較為滿意的近似解;在此基礎(chǔ)上,Aydin[97]等應(yīng)用改進(jìn)的Q-學(xué)習(xí)算法來(lái)求解由仿真環(huán)境和Agent兩部分組成的動(dòng)態(tài)JSP問(wèn)題。此外,還有學(xué)者將Q-學(xué)習(xí)與其它方法相結(jié)合來(lái)研究動(dòng)態(tài)JSP問(wèn)題,魏英姿[98]和Chen[99]等分別提出了多目標(biāo)多機(jī)器的組合調(diào)度規(guī)則,隨后魏英姿[100]又研究基于遺傳算法與Q-學(xué)習(xí)機(jī)制相結(jié)合的RL方法,來(lái)平衡RL學(xué)習(xí)過(guò)程中的“利用”與“探索”。特別地,Shahrabi[101]等將VNS[68]引入考慮作業(yè)隨機(jī)到達(dá)與機(jī)器故障的動(dòng)態(tài)JSP問(wèn)題,利用Q-學(xué)習(xí)算法來(lái)得到合適的VNS參數(shù)以更新優(yōu)化策略。由于單Agent方法難以求解大規(guī)模復(fù)雜JSP問(wèn)題,學(xué)者們又將基于多Agent分散決策融入JSP問(wèn)題的研究中,在分散化決策的前提下,每個(gè)Agent都遵循各自的策略求解一部分子系統(tǒng)調(diào)度決策,再通過(guò)Agent之間的溝通機(jī)制協(xié)調(diào)各部分決策,以達(dá)到整體最優(yōu),研究表明分散式?jīng)Q策可應(yīng)對(duì)調(diào)度過(guò)程中的突發(fā)情況,大大提高了JSP調(diào)度系統(tǒng)的健壯性[102~104]。

值得注意的是,Mao[105]等利用DRL框架對(duì)計(jì)算集群中的JSP問(wèn)題進(jìn)行了研究,并以最小化遲交率(Job Slowdown)為優(yōu)化目標(biāo),利用改進(jìn)的REINFORCE算法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,仿真結(jié)果顯示,當(dāng)平均集群負(fù)載率為190%且作業(yè)規(guī)模為10時(shí),基于DRL框架的平均遲交率為5左右,遠(yuǎn)低于其它算法;此后有許多學(xué)者在此基礎(chǔ)上進(jìn)行改進(jìn),拓展DRL框架在JSP問(wèn)題上的應(yīng)用研究,Chen[106]等將其拓展為多資源多機(jī)器JSP問(wèn)題,并在獎(jiǎng)賞的設(shè)置以及特征提取這兩個(gè)方面對(duì)模型進(jìn)行了改進(jìn),該模型所得的平均遲交率相較于文獻(xiàn)[105]又降低了8.57%,并當(dāng)輸入層使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取時(shí),雖然平均遲交率降低幅度有所減少,但算法收斂速度有所提升。Waschneck[107]等也嘗試?yán)肈QN優(yōu)化半導(dǎo)體制造企業(yè)的生產(chǎn)調(diào)度問(wèn)題,為縮短訓(xùn)練時(shí)間以及保證訓(xùn)練的穩(wěn)定性,采用兩階段的訓(xùn)練方式對(duì)Agent進(jìn)行訓(xùn)練。最近,Chen[108]等提出將JSP問(wèn)題表述為重寫(xiě)(rewrite)問(wèn)題,其思路是通過(guò)不斷迭代現(xiàn)有解決方案以至最優(yōu),用A3C算法對(duì)重寫(xiě)器進(jìn)行訓(xùn)練,結(jié)果顯示基于重寫(xiě)的DRL求解得到的平均遲交率比文獻(xiàn)[105]中的算法減少50%以上。

此外也有學(xué)者利用Q-學(xué)習(xí)對(duì)單機(jī)JSP問(wèn)題進(jìn)行研究,Wang[109]等以最小化平均延遲時(shí)間為優(yōu)化目標(biāo)對(duì)單機(jī)JSP問(wèn)題的選擇調(diào)度規(guī)則進(jìn)行研究。在此基礎(chǔ)上,王世進(jìn)[110]等利用Q-學(xué)習(xí)研究了的三種調(diào)度規(guī)則的動(dòng)態(tài)JSP問(wèn)題,結(jié)果表明Q-學(xué)習(xí)方法能提高Agent的適應(yīng)能力,Xanthopoulos[111]等利用RL研究了隨機(jī)加工時(shí)間和完工時(shí)間的JSP問(wèn)題,并對(duì)15種調(diào)度規(guī)則進(jìn)行了測(cè)試。針對(duì)Q-學(xué)習(xí)方法在“維數(shù)災(zāi)”問(wèn)題上的局限性,王國(guó)磊[112]提出一種基于系統(tǒng)狀態(tài)聚類的Q-學(xué)習(xí)方法來(lái)求解動(dòng)態(tài)單機(jī)JSP問(wèn)題,結(jié)果表明該算法可有效地降低系統(tǒng)狀態(tài)的維數(shù)并提高收斂速度。典型的基于RL的車間作業(yè)調(diào)度問(wèn)題中的文獻(xiàn)如表5所示。

利用RL的JSP問(wèn)題研究成果頗豐,已有的文獻(xiàn)充分考慮了JSP問(wèn)題的隨機(jī)性與動(dòng)態(tài)性,并從單機(jī)調(diào)度逐漸向動(dòng)態(tài)、多目標(biāo)和多機(jī)器調(diào)度發(fā)展;從Agent角度來(lái)看,研究也由單Agent向多Agent協(xié)同優(yōu)化逐步發(fā)展,但目前大多數(shù)文獻(xiàn)都是采用Q-學(xué)習(xí)方法進(jìn)行模型求解,并且在基于Agent協(xié)作的RL方面的研究較少。

表5 RL在車間作業(yè)調(diào)度中的應(yīng)用文獻(xiàn)匯總

3.5 基于DRL的運(yùn)籌優(yōu)化

傳統(tǒng)RL在只能求解簡(jiǎn)單、小規(guī)模的運(yùn)籌優(yōu)化問(wèn)題,但現(xiàn)實(shí)中的運(yùn)籌優(yōu)化問(wèn)題往往都比較復(fù)雜,其狀態(tài)空間和動(dòng)作空間維數(shù)很大,傳統(tǒng)RL難以求解。近年來(lái),隨著深度學(xué)習(xí)的興起,深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合研究也受到了很多關(guān)注,深度強(qiáng)化學(xué)習(xí)(DRL)將深度學(xué)習(xí)的強(qiáng)大感知能力融入傳統(tǒng)RL算法,形成了人工智能領(lǐng)域新的研究熱點(diǎn),相比于傳統(tǒng)低維度表格型的RL,DRL融合了深度學(xué)習(xí)的優(yōu)點(diǎn):(1)深度學(xué)習(xí)可自動(dòng)提取高維度問(wèn)題的特征,可讓RL直接在更原始的狀態(tài)下進(jìn)行學(xué)習(xí);(2)深度學(xué)習(xí)可利用其強(qiáng)大的擬合能力對(duì)值函數(shù)或策略函數(shù)進(jìn)行近似;(3)深度學(xué)習(xí)為RL增強(qiáng)了泛化能力[57];(4)高級(jí)別的API(如Keras和Tensor Flow等)和仿真環(huán)境(如Openai等)為DRL提供了很多優(yōu)秀的實(shí)驗(yàn)平臺(tái),并輔助一些強(qiáng)大的硬件設(shè)施,這使得DRL能在可以接受的時(shí)間內(nèi)取得更為顯著的優(yōu)化效果。近年來(lái)學(xué)者們已開(kāi)始將DRL運(yùn)用于運(yùn)籌優(yōu)化領(lǐng)域,在一些經(jīng)典的運(yùn)籌優(yōu)化問(wèn)題上取得一定的研究成果,DRL與傳統(tǒng)算法的優(yōu)化效果分析如表6所示。

表6 基于DRL算法的應(yīng)用對(duì)比分析

傳統(tǒng)RL一般采用離線學(xué)習(xí)策略,利用神經(jīng)網(wǎng)絡(luò)來(lái)近似值函數(shù),并自舉采樣數(shù)據(jù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),由于在訓(xùn)練神經(jīng)網(wǎng)絡(luò)要求數(shù)據(jù)是獨(dú)立同分布,而自舉采樣得到的數(shù)據(jù)之間存在時(shí)序和狀態(tài)關(guān)聯(lián)性,導(dǎo)致訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)不是獨(dú)立同分布,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)會(huì)出現(xiàn)模型不收斂、不穩(wěn)定的現(xiàn)象,會(huì)極大地影響RL學(xué)習(xí)的效率、穩(wěn)定性和收斂性。DRL本質(zhì)上是深度神經(jīng)網(wǎng)絡(luò)和Q-學(xué)習(xí)強(qiáng)化學(xué)習(xí)的結(jié)合,它利用經(jīng)驗(yàn)回放的方法來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),即Agent先將收集得到的數(shù)據(jù)存儲(chǔ)到一個(gè)臨時(shí)數(shù)據(jù)庫(kù)中,再利用均勻隨機(jī)采樣的方法從該數(shù)據(jù)庫(kù)中抽取數(shù)據(jù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),這種經(jīng)驗(yàn)回放可以打破數(shù)據(jù)之間的關(guān)聯(lián)性,最大限度地保證數(shù)據(jù)獨(dú)立同分布,提高學(xué)習(xí)的穩(wěn)定性;此外傳統(tǒng)RL中在利用神經(jīng)網(wǎng)絡(luò)進(jìn)行值函數(shù)近似時(shí),計(jì)算TD目標(biāo)的動(dòng)作值函數(shù)所用的網(wǎng)絡(luò)參數(shù)與梯度計(jì)算中要逼近的值函數(shù)所用的網(wǎng)絡(luò)參數(shù)相同,也容易導(dǎo)致數(shù)據(jù)之間存在關(guān)聯(lián)性,使得訓(xùn)練不穩(wěn)定,DRL則利用一個(gè)單獨(dú)的目標(biāo)網(wǎng)絡(luò)來(lái)計(jì)算目標(biāo)Q值,并且用于動(dòng)作值函數(shù)逼近的網(wǎng)絡(luò)單步更新,而用于計(jì)算目標(biāo)Q值的網(wǎng)絡(luò)則每隔固定的步數(shù)更新一次,來(lái)減少目標(biāo)值與當(dāng)前值的相關(guān)性,進(jìn)一步提高模型的穩(wěn)定性;最后DRL可以利用圖嵌入等技術(shù)來(lái)自動(dòng)提取特征,這種自動(dòng)特征提取技術(shù)可以減少對(duì)專業(yè)領(lǐng)域知識(shí)的依賴,實(shí)現(xiàn)一種端到端的學(xué)習(xí),大大提高了學(xué)習(xí)效率。

4 研究展望

RL理論研究開(kāi)始較早且已取得了豐碩的成果,但國(guó)內(nèi)基于RL的運(yùn)籌優(yōu)化應(yīng)用研究起步相對(duì)較晚。本文僅對(duì)RL在庫(kù)存決策、路徑優(yōu)化、裝箱配載以及車間作業(yè)調(diào)度等經(jīng)典問(wèn)題中的應(yīng)用進(jìn)行綜述,可以看出,RL在求解隨機(jī)動(dòng)態(tài)型多階段序貫決策問(wèn)題方面具有一定的優(yōu)勢(shì),但是相對(duì)于日益復(fù)雜的生產(chǎn)、物流及管理系統(tǒng)來(lái)說(shuō),基于RL的研究仍處于起步階段,為推進(jìn)RL在運(yùn)籌優(yōu)化領(lǐng)域的應(yīng)用研究,提出以下幾點(diǎn)值得深入探討的研究方向。

(1)逐步提升基于MDP模型的精準(zhǔn)度,使模型更加符合日趨復(fù)雜的動(dòng)態(tài)系統(tǒng)的需要。可以從以下兩個(gè)方面進(jìn)行考慮:1)由于RL是基于交互和獎(jiǎng)賞的學(xué)習(xí)方式,獎(jiǎng)賞的定義對(duì)其至關(guān)重要,為避免人為主觀規(guī)定的不確定性,可以研究如何以更加科學(xué)的方式來(lái)定義獎(jiǎng)賞,如可以增加稀疏獎(jiǎng)勵(lì)來(lái)評(píng)估中間的成就;2)在隨機(jī)動(dòng)態(tài)模型下,需要綜合考慮多重而非單一隨機(jī)性因素對(duì)系統(tǒng)的影響,即考慮多種隨機(jī)因素的協(xié)同優(yōu)化,以此為實(shí)際生產(chǎn)運(yùn)營(yíng)提供理論支撐和實(shí)踐參考。

(2)與其它各類算法的結(jié)合。RL算法的優(yōu)勢(shì)在于通過(guò)交互獲取環(huán)境的動(dòng)態(tài)信息,從而解決大規(guī)模復(fù)雜系統(tǒng)性的問(wèn)題,但其存在收斂效率不高、速度過(guò)慢、不穩(wěn)定等問(wèn)題。因此,可以考慮用其它啟發(fā)式優(yōu)化算法指導(dǎo)RL進(jìn)行更有效率的學(xué)習(xí),如遺傳算法等,也可考慮在RL中加入人類專家領(lǐng)域的知識(shí)、經(jīng)驗(yàn)和高質(zhì)量數(shù)據(jù)等,以此來(lái)提高RL的學(xué)習(xí)效率以及降低學(xué)習(xí)難度,從而使得RL在處理具體問(wèn)題時(shí)更具準(zhǔn)確性與穩(wěn)健性。

(3)加強(qiáng)DRL算法在運(yùn)籌優(yōu)化中的應(yīng)用。傳統(tǒng)的表格型RL不足以解決更為復(fù)雜的運(yùn)籌學(xué)領(lǐng)域序貫決策問(wèn)題,DRL本質(zhì)上屬于值函數(shù)近似中非線性近似的一種,其優(yōu)勢(shì)在于利用深度神經(jīng)網(wǎng)絡(luò)對(duì)狀態(tài)的特征進(jìn)行自動(dòng)提取,在很大程度上避免了人工定義特征的不準(zhǔn)確性,并且能夠提取系統(tǒng)關(guān)鍵特征,使得Agent可以在更加原始的狀態(tài)上進(jìn)行學(xué)習(xí),能夠求解更為復(fù)雜的運(yùn)籌優(yōu)化問(wèn)題。另外,隨著序列的不斷增長(zhǎng),可考慮在DRL中加入深度學(xué)習(xí)中的注意力機(jī)制,讓其聚焦于與求解問(wèn)題密切相關(guān)的信息上,提高運(yùn)籌優(yōu)化問(wèn)題的求解質(zhì)量。

(4)增強(qiáng)RL在不同運(yùn)籌學(xué)問(wèn)題上的泛化能力。可考慮進(jìn)一步將元學(xué)習(xí)[117]、遷移學(xué)習(xí)[36]、多任務(wù)學(xué)習(xí)[92]以及終生學(xué)習(xí)等方法引入RL并應(yīng)用于運(yùn)籌優(yōu)化領(lǐng)域,使其能在面對(duì)新問(wèn)題時(shí)能快速發(fā)現(xiàn)問(wèn)題的本質(zhì),并能遷移以往的學(xué)習(xí)經(jīng)驗(yàn)來(lái)加速RL的學(xué)習(xí)進(jìn)程。同時(shí),由于許多運(yùn)籌學(xué)問(wèn)題都是多目標(biāo)決策問(wèn)題,可考慮將多任務(wù)學(xué)習(xí)機(jī)制引入RL,同時(shí)求解多個(gè)目標(biāo)的優(yōu)化決策問(wèn)題。

(5)擴(kuò)大RL的應(yīng)用范圍。很多運(yùn)籌優(yōu)化問(wèn)題都可以視為序貫決策問(wèn)題,如物流選址、自動(dòng)倉(cāng)庫(kù)的貨物揀選、客戶需求量預(yù)測(cè)以及物流網(wǎng)絡(luò)布局等問(wèn)題,這類問(wèn)題也是典型的隨機(jī)型動(dòng)態(tài)決策問(wèn)題,可以考慮如何利用RL的方法進(jìn)行優(yōu)化求解。

5 結(jié)束語(yǔ)

RL作為一門有較長(zhǎng)發(fā)展歷史的機(jī)器學(xué)習(xí)方法,在現(xiàn)代計(jì)算機(jī)計(jì)算能力極大提升的背景下,已成為人工智能領(lǐng)域的研究熱點(diǎn),RL在求解隨機(jī)型動(dòng)態(tài)序貫決策問(wèn)題方面具有一定的優(yōu)勢(shì),特別適合運(yùn)籌優(yōu)化領(lǐng)域中各類問(wèn)題的求解。近年來(lái)基于RL的運(yùn)籌優(yōu)化在國(guó)外已經(jīng)形成了研究熱點(diǎn),并取得了豐碩的成果,而在國(guó)內(nèi),無(wú)論是理論研究還是應(yīng)用實(shí)踐,尚處于起步階段,本文介紹了RL基本原理與算法分類,闡述了RL研究方法與傳統(tǒng)建模方法的不同,重點(diǎn)介紹了RL在運(yùn)籌優(yōu)化領(lǐng)域的典型問(wèn)題中的應(yīng)用,如庫(kù)存控制、車輛路徑、裝箱配載以及作業(yè)車間調(diào)度等。特別希望國(guó)內(nèi)的學(xué)者能結(jié)合中國(guó)的生產(chǎn)、物流和管理的實(shí)際問(wèn)題開(kāi)展關(guān)于RL的應(yīng)用研究,在解決實(shí)際問(wèn)題的同時(shí)也為RL的理論研究提出新的挑戰(zhàn)和問(wèn)題,進(jìn)一步豐富這一研究領(lǐng)域。

猜你喜歡
利用優(yōu)化策略
利用min{a,b}的積分表示解決一類絕對(duì)值不等式
超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
利用一半進(jìn)行移多補(bǔ)少
例談未知角三角函數(shù)值的求解策略
我說(shuō)你做講策略
利用數(shù)的分解來(lái)思考
Roommate is necessary when far away from home
主站蜘蛛池模板: 97在线免费| 香蕉在线视频网站| 成人国产精品网站在线看| 2021无码专区人妻系列日韩| 精品国产99久久| 激情五月婷婷综合网| 国产精品理论片| 欧美a网站| 2020久久国产综合精品swag| 亚洲国产中文欧美在线人成大黄瓜| 国产玖玖视频| 2020国产免费久久精品99| 日韩在线观看网站| 国产精品极品美女自在线看免费一区二区 | 久久性视频| 欧美97欧美综合色伦图| 亚洲欧洲天堂色AV| 美女高潮全身流白浆福利区| 精品久久久无码专区中文字幕| yy6080理论大片一级久久| 伊人成色综合网| 亚洲第一极品精品无码| 国产精品综合色区在线观看| 97超爽成人免费视频在线播放| 欧美精品伊人久久| 日本成人福利视频| 亚洲国产第一区二区香蕉| www.91在线播放| 国产精品3p视频| 制服丝袜国产精品| 久久一色本道亚洲| 在线免费a视频| 91探花在线观看国产最新| Aⅴ无码专区在线观看| 欧美日韩在线第一页| 亚洲一区二区三区国产精华液| 91精品啪在线观看国产91九色| 免费欧美一级| 日韩区欧美区| 9cao视频精品| 国产av色站网站| 免费人欧美成又黄又爽的视频| 免费 国产 无码久久久| 米奇精品一区二区三区| 久草中文网| 人妻中文字幕无码久久一区| 国产精品无码一区二区桃花视频| 白浆免费视频国产精品视频| 91麻豆国产精品91久久久| 国产精品久久久久久久久久久久| 国产精品成人观看视频国产 | 综合色天天| 99福利视频导航| 99久久99这里只有免费的精品| 中文天堂在线视频| 日韩欧美视频第一区在线观看| 精品欧美视频| 亚洲欧美在线综合图区| 精品国产自| 亚洲国产日韩在线成人蜜芽| 一级毛片免费高清视频| 国产91高清视频| 国产91视频观看| 亚洲天堂福利视频| 国产高清精品在线91| 中国精品久久| 久久亚洲国产最新网站| 亚洲欧洲美色一区二区三区| 亚洲天堂777| 国产一线在线| 亚洲天堂成人| 亚洲天堂777| 亚洲天堂网视频| 亚洲欧美激情另类| 波多野结衣中文字幕一区二区| 久久99这里精品8国产| 亚洲福利片无码最新在线播放| 国产综合色在线视频播放线视| 亚洲色婷婷一区二区| 国产精品久久国产精麻豆99网站| 国产第一页亚洲| 精品国产免费观看一区|