






收稿日期:2022-06-08;修回日期:2022-07-13" 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(71840003);上海市科學(xué)技術(shù)委員會(huì)“科技創(chuàng)新行動(dòng)計(jì)劃”軟科學(xué)重點(diǎn)項(xiàng)目(20692104300)
作者簡(jiǎn)介:彭大江(1995-),男,四川成都人,博士,主要研究方向?yàn)閼?yīng)急管理、運(yùn)籌優(yōu)化;葉春明(1964-),男(通信作者),安徽宣城人,教授,博導(dǎo),主要研究方向?yàn)樯a(chǎn)調(diào)度、工業(yè)工程(yechm6464@163.com);萬(wàn)孟然(1992-),女,河南濮陽(yáng)人,博士研究生,主要研究方向?yàn)楣I(yè)工程、應(yīng)急管理.
摘 要:
突發(fā)事件爆發(fā)后,應(yīng)急決策通常面臨信息不對(duì)稱(chēng)的情形,由此獲得合理的解決方案非常困難。研究需求量不確定的場(chǎng)景下,同時(shí)決策應(yīng)急物資中心選址方案和配送路徑的問(wèn)題。首先引入三角模糊數(shù)刻畫(huà)模糊需求,提出模糊需求下的應(yīng)急物資中心選址—路徑模型;然后定義Q-學(xué)習(xí)中的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì),形成超啟發(fā)式算法的上層策略;最后以一種新架構(gòu)封裝低層算子,提出一種基于Q-學(xué)習(xí)的超啟發(fā)式算法。通過(guò)數(shù)值實(shí)驗(yàn)驗(yàn)證了算法的有效性,同時(shí)通過(guò)案例分析體現(xiàn)了模型和算法在實(shí)際應(yīng)用中的可行性。
關(guān)鍵詞:應(yīng)急物資中心;選址路徑問(wèn)題;模糊需求;Q-學(xué)習(xí);超啟發(fā)式算法
中圖分類(lèi)號(hào):TP301.6"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1001-3695(2022)12-016-3631-08
doi:"" 10.19734/j.issn.1001-3695.2022.06.0238
Research on algorithm for emergency resource center location-routing problem based on fuzzy demand
Peng Dajiang, Ye Chunming, Wan Mengran
(Business School, University of Shanghai for Science amp; Technology, Shanghai 200093, China)
Abstract:
After an emergency outbreak, it is extremely hard to obtain reasonable solutions for emergency decisions facing information asymmetries. This paper aimed at the problem of simultaneous deciding locations of emergency resource centers and the delivery paths in a scenario with uncertain demand. Firstly, the paper introduced the triangular fuzzy number to depict the fuzzy demand and proposed an emergency resource center location-routing model based on the fuzzy demand. Then the algorithm formed the high-level strategy by defining the states, actions, and rewards in Q-learning. Finally, the paper presented a Q-learning based hyper-heuristic by encapsulating the low-level heuristic operators with a new architecture. The numerical experiments verify the effectiveness of the algorithm, meanwhile showing the feasibility of the model and algorithm in practical applications by a case study.
Key words:emergency resource center; location-routing problem(LRP); fuzzy demand; Q-learning; hyper-heuristic
0 引言
近年來(lái),災(zāi)害疫情等突發(fā)事件在世界各地頻發(fā),嚴(yán)重影響了人民的正常生活。由于突發(fā)事件的高度不確定性、難預(yù)見(jiàn)性和極強(qiáng)的破壞性,其造成的人員傷亡與經(jīng)濟(jì)損失難以估量。突發(fā)事件爆發(fā)后,急需建立臨時(shí)的應(yīng)急物資中心并轉(zhuǎn)運(yùn)物資,由此有效保障群眾的基本生活要求。然而,在突發(fā)事件爆發(fā)前夕,由于信息不對(duì)稱(chēng)等原因,可能面臨應(yīng)急需求點(diǎn)的需求量不確定的情況[1],導(dǎo)致只能依靠歷史經(jīng)驗(yàn)數(shù)據(jù)來(lái)粗略估計(jì)需求量的范圍,進(jìn)而在該情況下進(jìn)行決策。此外,由于防疫等原因規(guī)定各需求點(diǎn)群眾足不出戶,可能會(huì)要求配送物資到各需求點(diǎn),所以還需在選址方案基礎(chǔ)上決策配送路徑,而這正是應(yīng)急管理中一項(xiàng)巨大的挑戰(zhàn)。
關(guān)于同時(shí)決策選址方案和路徑規(guī)劃的研究主要基于選址—路徑問(wèn)題(LRP),該問(wèn)題可描述為從候選設(shè)施中選擇一部分進(jìn)行開(kāi)設(shè),而后用一批不超過(guò)最大載重的車(chē)輛對(duì)所有需求點(diǎn)進(jìn)行配送服務(wù)。LRP中每個(gè)需求點(diǎn)的服務(wù)成本不僅與為其提供服務(wù)的設(shè)施有關(guān),同時(shí)還與配送車(chē)輛有關(guān),而兩種子問(wèn)題均具備N(xiāo)P-hard特性,所以LRP的求解困難程度不言而喻。該問(wèn)題的一種常見(jiàn)的求解方式是將設(shè)施選址與路徑規(guī)劃分離,形成兩階段的模型再進(jìn)行求解,然而這種處理模式極易獲得局部最優(yōu)解或次優(yōu)解[2],因此近年來(lái)的研究更加傾向于同時(shí)決策這兩個(gè)子問(wèn)題。陳業(yè)華等人[3]在LRP基礎(chǔ)上考慮救援物資多次運(yùn)達(dá)且持續(xù)配送,對(duì)此設(shè)計(jì)一種均衡協(xié)作啟發(fā)式算法求解。Liu[4]針對(duì)地震發(fā)生后的傷員運(yùn)送問(wèn)題,考慮醫(yī)療中心的建立成本和加權(quán)距離建立三階段模型。孫華麗等人[5]針對(duì)需求量和運(yùn)輸時(shí)間的不確定性,考慮同時(shí)使用車(chē)輛和直升機(jī)聯(lián)合運(yùn)輸應(yīng)急物資,建立一個(gè)魯棒優(yōu)化模型,并使用CPLEX求解。郭鵬輝等人[6]以救援時(shí)效性、綜合滿意度和物資供給的公平性為目標(biāo),考慮多種物資的聯(lián)合運(yùn)輸,建立雙層的選址—路徑配送模型,并使用差分進(jìn)化算法分解目標(biāo)進(jìn)行求解。Wei等人[7]在LRP基礎(chǔ)上添加軟時(shí)間窗,建立災(zāi)后應(yīng)急物資中心選址—路徑的多目標(biāo)優(yōu)化模型,并設(shè)計(jì)混合蟻群算法進(jìn)行求解。鄭夏等人[8]考慮受災(zāi)地區(qū)分級(jí),建立多目標(biāo)的應(yīng)急物資儲(chǔ)備中心選址—路徑模型,并改進(jìn)差分進(jìn)化算法進(jìn)行求解。
可以看到,現(xiàn)有研究針對(duì)不同情境下應(yīng)急設(shè)施選址—路徑問(wèn)題,在經(jīng)典模型的基礎(chǔ)上提出了很多優(yōu)秀的模型,然而僅有少數(shù)研究考慮到應(yīng)急情景下的不確定性,且其中的模型多為隨機(jī)優(yōu)化和魯棒優(yōu)化。考慮到實(shí)際應(yīng)用時(shí)隨機(jī)優(yōu)化的概率和魯棒優(yōu)化的場(chǎng)景難以設(shè)定,引入三角模糊數(shù)[9]用于刻畫(huà)需求量,建立更加易用的模型。針對(duì)問(wèn)題特性,考慮引入Q-學(xué)習(xí)(Q-learning)[10],設(shè)計(jì)基于Q-學(xué)習(xí)的超啟發(fā)式算法(Q-learning based hyper-heuristic, QLHH)。Q-學(xué)習(xí)是強(qiáng)化學(xué)習(xí)領(lǐng)域中一種重要的算法,因其近年來(lái)在控制領(lǐng)域和深度學(xué)習(xí)領(lǐng)域取得的重要成果[11]而被重視。現(xiàn)已有一些基于Q-學(xué)習(xí)設(shè)計(jì)的優(yōu)秀超啟發(fā)式算法用于求解組合優(yōu)化問(wèn)題,并獲得較好的結(jié)果[12,13],然而此類(lèi)算法架構(gòu)在求解研究的問(wèn)題時(shí)存在一定的局限性。因此,本文使用一種封裝低層算子的新模式[14]設(shè)計(jì)QLHH。
基于上述分析,本文首先定義數(shù)學(xué)符號(hào),并用三角模糊數(shù)刻畫(huà)需求量,在LRP模型的基礎(chǔ)上提出基于模糊需求的應(yīng)急物資中心選址—路徑模型(emergency resource center location-routing model based on fuzzy demand,ERCLRM/FD);針對(duì)該模型,設(shè)計(jì)解的編碼并提出隨機(jī)初始化的操作,同時(shí)處理模型中的容量約束;其次定義Q-學(xué)習(xí)中的核心要素,形成超啟發(fā)式算法的高層策略(high level strategy,HLS),構(gòu)建可直接操作解編碼的低層策略(LLH);最后提出QLHH的算法流程。通過(guò)在30個(gè)數(shù)據(jù)集上驗(yàn)證QLHH的求解性能,并輔以一個(gè)實(shí)際案例來(lái)直觀展示不同模糊度下獲得的解決方案。
1 問(wèn)題建模
1.1 模型假設(shè)與數(shù)學(xué)符號(hào)
為不失問(wèn)題的一般性,同時(shí)突出研究問(wèn)題的重點(diǎn),建立的ERCLRM/FD基于以下六項(xiàng)假設(shè):
a)每個(gè)應(yīng)急需求點(diǎn)必須正好由一個(gè)應(yīng)急物資中心提供服務(wù),且只能安排一輛汽車(chē)途經(jīng)該需求點(diǎn)為其服務(wù);
b)每輛汽車(chē)可認(rèn)為是相同的,若啟用某車(chē)輛,其只有一條行駛路線,而多次使用同一輛車(chē)可認(rèn)為多次啟用車(chē)輛;
c)車(chē)輛的行駛路徑必須由某應(yīng)急物資中心出發(fā),經(jīng)過(guò)沿途的應(yīng)急需求點(diǎn),最后回到該物資中心,且裝載的應(yīng)急物資不得超過(guò)其容量限制;
d)每個(gè)應(yīng)急物資中心所服務(wù)的應(yīng)急需求點(diǎn)的需求量之和不得超過(guò)該物資中心的服務(wù)容量上限;
e)由于突發(fā)事件爆發(fā)后的信息不對(duì)稱(chēng)和信息滯后性,暫時(shí)無(wú)法獲取每個(gè)應(yīng)急需求點(diǎn)的具體需求量,只可由歷史數(shù)據(jù)大致評(píng)估該需求點(diǎn)的需求量上下界以及一個(gè)可能性最大的值;
f)突發(fā)事件爆發(fā)后人手緊張且資源稀缺,因此目標(biāo)函數(shù)為開(kāi)設(shè)應(yīng)急物資中心的資源消耗量,車(chē)輛使用的固定資源消耗量,以及運(yùn)輸過(guò)程中的資源消耗量之和。
基于以上假設(shè),形成模型中的數(shù)學(xué)符號(hào)及解釋如表1所示。
1.2 基于模糊需求的應(yīng)急物資中心選址—路徑模型
對(duì)于建立的ERCLRM/FD,其考慮當(dāng)各需求點(diǎn)的需求量為模糊的背景下,同時(shí)決策物資中心的選址、需求點(diǎn)的分配以及配送車(chē)輛路徑的規(guī)劃。由于建立物資中心和啟用車(chē)輛配送會(huì)造成固定資源消耗,而車(chē)輛行駛路線越長(zhǎng),反應(yīng)出配送效率越低,配送車(chē)輛的在行駛中消耗的資源量也越多。以總體資源消耗量最小為目標(biāo),同時(shí)決策選址方案和配送路徑的ERCLRM/FD中目標(biāo)函數(shù)如下:
min z=∑i∈I fixi+∑k∈K ∑e∈δ+(I)Tuek+∑k∈K ∑e∈Edeuek(1)
模型的約束條件如下:
∑k∈K ∑e∈δ-(j)uek=1" j∈J(2)
∑e∈δ+(i)uek=∑e∈δ-(i)uek" k∈K,i∈V(3)
∑e∈δ+(I)uek ≤ 1" k∈K(4)
∑e∈L(S)uek ≤ |S|-1" SJ,k∈K(5)
∑e∈δ-(j)uek+∑e∈δ+(i)∩δ-(J)uek ≤ 1+yij" i∈I,j∈J,k∈K(6)
∑j∈J ∑e∈δ-(j)juek ≤ C" k∈K(7)
∑j∈Jjyij ≤ qixi" i∈I(8)
xi∈{0,1}" i∈I(9)
yij∈{0,1}" i∈I,j∈J(10)
uek∈{0,1}" e∈E,k∈K(11)
其中:目標(biāo)函數(shù)式(1)表示最小化以下三部分資源的總和,應(yīng)急物資中心的開(kāi)設(shè)資源消耗,車(chē)輛使用的固定資源消耗,以及車(chē)輛在資源配送過(guò)程中行駛路程的資源消耗;約束式(2)表示對(duì)任一需求點(diǎn),有且僅有一輛車(chē)并只通過(guò)一條路徑到達(dá)該點(diǎn);約束式(3)限制由需求點(diǎn)或物資中心點(diǎn)出發(fā)和返回該點(diǎn)的車(chē)輛路徑數(shù)相等;約束式(4)確保每輛車(chē)至多從某個(gè)物資中心出發(fā)一次;約束式(5)用于限制每輛車(chē)在需求點(diǎn)間行駛時(shí)沒(méi)有子回路;約束式(6)表示某個(gè)需求點(diǎn)被某個(gè)物資中心服務(wù)的前提是存在一條開(kāi)設(shè)的路線由該物資中心出發(fā)且中途到達(dá)該需求點(diǎn);約束式(7)(8)分別代表車(chē)輛容量限制和物資中心容量限制;約束式(9)~(11)定義了模型中的決策變量。
1.3 模糊需求分析
由于ERCLRM/FD中考慮需求量的不確定性并用模糊數(shù)刻畫(huà),所以無(wú)法直接對(duì)模型進(jìn)行求解。為使其可解,引入模糊集合理論,借助其中最為廣泛使用的三角模糊數(shù)[9]來(lái)對(duì)模型分析。記=(al,am,au)為一個(gè)三角模糊數(shù),其中al和au表示該模糊數(shù)的下界和上界,am為其可能性最大的值,則的成員隸屬度函數(shù)μ(x)∈[0,1]可記為如下:
μ(x)=0""""""" xlt;al
fa(x)=x-alam-alal≤x≤am
ga(x)=x-amau-amam≤x≤au
0xgt;au(12)
其次,使用模糊理論中r-切割技術(shù)衡量參數(shù)的不確定性[15]。模糊數(shù)在某個(gè)r-切割下的定義為ar={x|μ(x)≥ r},其中r∈[0,1],且r越高,表示該參數(shù)下的確定性越高,因此可將ar記為ar=[f-1a(r),g-1a(r)]。如圖1展示了各r水平下模糊數(shù)的成員隸屬度函數(shù)的不確定性程度,下方的支撐面越寬,則表示不確定性程度越高。
對(duì)于模糊數(shù),定義r-切割下的期望區(qū)間EI()為
EI()=[Ea1,Ea2]=[∫10f-1a(r)dr,∫10g-1a(r)dr](13)
進(jìn)而推導(dǎo)出的期望值EV()為期望區(qū)間的中點(diǎn)[16],如式(14)所示。
EV()=[12(al+am),12(am+au)](14)
此外,若給定的一對(duì)模糊數(shù)和,記大于的度如下:
μM(,)=0""""""""" Ea2-Eb1lt;0
Ea2-Eb1Ea2-Eb1-(Ea1-Eb2) 0∈[Ea1-Eb2,Ea2-Eb1]
1 Ea1-Eb2gt;0(15)
其中:[Ea1,Ea2]和[Eb1,Eb2]分別為和的期望區(qū)間,若滿足μM(,)≥ λ,即可說(shuō)明在度為λ下大于或等于,記之為≥λ 。
基于上述知識(shí),當(dāng)考慮其中參數(shù)為三角模糊數(shù)的數(shù)學(xué)模型,其中決策變量記為x∈Euclid ExtraaBpn,某條不等式約束為ix≤ i,其中i=1,2,…,m。由式(15)可知,要使該模型在度為λ下可行,約束ix≤ i等價(jià)于式(16)。
Eaix2-Ebi1Eaix2-Eaix1+Ebi2-Ebi1 ≤ λ" i=1,2,…,m(16)
基于式(16),將ERCLRM/FD中包含模糊需求量的約束式(7)和(8)進(jìn)行轉(zhuǎn)換,即可形成如下可求解的數(shù)學(xué)模型:
min" 式(1)
s.t." 式(2)~(6),(9)~(11)
∑j∈J(1-λ)wmj+wuj2+λwlj+wmj2∑e∈δ-(j)uek≤C" k∈K(17)
∑j∈Jyij(1-λ)wmj+wuj2+λwlj+wmj2≤qixi" i∈I(18)
2 基于Q-學(xué)習(xí)的超啟發(fā)式算法
2.1 解的編碼方式
算法采用物資中心編號(hào)和需求點(diǎn)編號(hào)混合的方式對(duì)解進(jìn)行編碼,解碼時(shí)各物資中心編號(hào)后緊跟的需求點(diǎn)編號(hào)即為該物資中心按順序服務(wù)的需求點(diǎn)。如圖2所示是在一個(gè)m=5,n=10算例中的編碼示意圖,其中物資中心1服務(wù)需求點(diǎn)8、10、6,物資中心3服務(wù)需求點(diǎn)9、12、15、14,物資中心4服務(wù)需求點(diǎn)13、7、11,而物資中心2和5因編號(hào)后無(wú)緊跟需求點(diǎn)編號(hào)所以不開(kāi)設(shè)。需要注意的是,為盡量不錯(cuò)過(guò)問(wèn)題的最優(yōu)解,引入一種隔斷標(biāo)示(dummy flag)[17]用于強(qiáng)制隔斷當(dāng)前路徑,由此在不違反容量約束的前提下分割車(chē)輛配送路徑,圖2中用0來(lái)表示,而緊跟在物資中心編號(hào)后或處于解編碼末位的隔斷標(biāo)示可忽略。
隔斷標(biāo)示的數(shù)量l與車(chē)輛容量C和以及需求點(diǎn)的需求量j=(wlj,wmj,wuj)有關(guān),本文中按式(19)進(jìn)行計(jì)算,即經(jīng)過(guò)轉(zhuǎn)換后的三角模糊需求量之和與車(chē)輛容量的商并向上取整,表示最少需要l輛車(chē)來(lái)滿足所有需求點(diǎn)。由此可確定解的編碼長(zhǎng)度為m+n+l。
l=「1C∑j∈J(1-λ)wmj+wuj2+λwlj+wmj2(19)
此外,對(duì)于物資中心的容量約束,按式(20)將其轉(zhuǎn)換為懲罰。
M∑i∈Imax0,∑j∈Jyij(1-λ)wmj+wuj2+λwlj+wmj2-qixi(20)
其中:M(Mgt;0)是一個(gè)懲罰因子,表示對(duì)所有物資中心,將超出容量的服務(wù)量之和乘M,然后將其與目標(biāo)函數(shù)式(1)相加,即可用于評(píng)價(jià)某個(gè)解的適應(yīng)度,進(jìn)而可忽略模型中關(guān)于物資中心的容量約束式(18)。值得注意的是,M被初始化為M=∑i∈Ifi/∑i∈Iqi,然后在算法迭代過(guò)程中不斷增大直至+∞,以此鼓勵(lì)算法在前期跳出局部最優(yōu)解,去尋找全局最優(yōu)解,并在中后期逐漸穩(wěn)定,保證最終求得的解不會(huì)違反模型中的容量約束。
2.2 解的初始化操作
基于上述解的編碼方式,設(shè)計(jì)如算法1所示的隨機(jī)初始化操作,以保證算法產(chǎn)生可行的初始解。
算法1 解的初始化
輸入:包含所有需求點(diǎn)編號(hào)的向量B1×n=[bj]1×n ;隔斷標(biāo)示數(shù)量l;經(jīng)過(guò)三角模糊轉(zhuǎn)換后的需求量wj。
輸出:初始解x。
初始化開(kāi)設(shè)的應(yīng)急物資中心集合I′←{},各物資中心服務(wù)的需求點(diǎn)集合gi←{}
初始化需求總量W←∑j∈Jwj,總服務(wù)量Q′←0。
while Q′lt;W do //最少需要開(kāi)設(shè)的物資中心
隨機(jī)選擇應(yīng)急物資中心i∈I\I′
I′←I′∪{i},Q′←Q′+qi
end while
初始化每個(gè)物資中心的剩余需求量θi←qi
隨機(jī)打亂向量B中的次序
for j=1→n do
初始化d*←+∞,i*←0
for each i∈I′ do
if θigt;wj and dibjlt;d* then
d*←dibj,i*←i
end if
end for
if i*=0 then //物資中心容量不足
隨機(jī)選擇應(yīng)急物資中心i∈I\I′
I′←I′∪{i},j←j-1
else
θi*←θi*-wj,gi*←gi*∪{bj}
end if
end for
按各物資中心的服務(wù)情況gi記錄到初始解x中的編碼
在x首位之后的l個(gè)隨機(jī)位置添加隔斷標(biāo)示
return x
2.3 Q-學(xué)習(xí)中的要素定義
定義一系列可能的狀態(tài)S=(s1,s2,…,sm),以及一系列可選的動(dòng)作A=(a1,a2,…,an)。記rt+1為t時(shí)刻在狀態(tài)st時(shí)采取動(dòng)作at獲得的即時(shí)獎(jiǎng)勵(lì),而Q(st,at)為t時(shí)刻的一個(gè)狀態(tài)—?jiǎng)幼鲗?duì)(state-action pair)的累計(jì)獎(jiǎng)勵(lì)值(Q值),其按如下方式更新:
Qt+1(st,at)=Q(st,at)+α(rt+1+
γmaxa Q(st+1,a)-Q(st,at))(21)
其中:參數(shù)α∈[0,1]為學(xué)習(xí)率(learning rate);γ∈[0,1]為折扣因子(discount factor),表示未來(lái)獎(jiǎng)勵(lì)的衰變系數(shù)。
對(duì)應(yīng)到QLHH,將Q-學(xué)習(xí)作為上層策略根據(jù)算法所處狀態(tài)選擇封裝了LLH的動(dòng)作,進(jìn)而根據(jù)相應(yīng)動(dòng)作確定LLH和解的接受準(zhǔn)則,最終使用選擇的算子對(duì)解的編碼進(jìn)行擾動(dòng)。因此首先設(shè)定在該架構(gòu)下Q-學(xué)習(xí)中的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì),然后定義LLH,最后闡述動(dòng)作的選擇和執(zhí)行方式。
2.3.1 狀態(tài)定義
狀態(tài)能反應(yīng)算法當(dāng)下面臨的真實(shí)情況,進(jìn)而決定強(qiáng)化學(xué)習(xí)中動(dòng)作的選擇。由于Q-學(xué)習(xí)中的所有狀態(tài)—?jiǎng)幼鲗?duì)的Q值被存放在一張Q表中,所以其要求狀態(tài)集合必須是離散且有限的。鑒于該情況,引入一種基于目標(biāo)函數(shù)值的狀態(tài)聚合(state aggregation)[13]技術(shù),將算法迭代過(guò)程依據(jù)目標(biāo)函數(shù)值人為地分割成幾個(gè)階段。為使其更能反應(yīng)實(shí)際情況,將其改進(jìn)為
st=tzt∑tk=1zk(22)
其中:t表示算法的當(dāng)前迭代次數(shù);st為當(dāng)前的狀態(tài);zk表示迭代次數(shù)為k時(shí)算法產(chǎn)生的新解所對(duì)應(yīng)的帶懲罰的目標(biāo)函數(shù)值。
由于式(22)獲得的狀態(tài)st∈[0,+∞),所以按照狀態(tài)聚合技術(shù),將狀態(tài)分割為[0,σl)、[σl,σu)和[σu,+∞)三個(gè)區(qū)間,其中σl∈(0,1),σu∈[1,+∞),按st所在的值區(qū)間確定離散后的狀態(tài)。狀態(tài)st可理解為對(duì)比算法從開(kāi)始到當(dāng)前所獲得的新解,當(dāng)前解相對(duì)新解的平均水平有多好,由此將當(dāng)前解歸納為大幅提升、小幅提升和無(wú)明顯提升三種狀態(tài)之一。根據(jù)聚合后的三種狀態(tài),即可較為客觀地反映當(dāng)前解的優(yōu)劣狀態(tài)。
2.3.2 動(dòng)作定義
動(dòng)作是Q-學(xué)習(xí)中根據(jù)不同狀態(tài)作出的反應(yīng),經(jīng)過(guò)一段時(shí)間的學(xué)習(xí)和對(duì)Q表的擬合,算法即可針對(duì)狀態(tài)作出獲得累計(jì)獎(jiǎng)勵(lì)最大的反應(yīng)。大多數(shù)基于強(qiáng)化學(xué)習(xí)的超啟發(fā)式算法都把動(dòng)作設(shè)定為低層的啟發(fā)式算子(LLH),進(jìn)而由高層策略直接選址低層啟發(fā)式算子對(duì)問(wèn)題的解或解集進(jìn)行操作。然而有研究發(fā)現(xiàn),在這種設(shè)計(jì)模式下,解的接受準(zhǔn)則對(duì)求解結(jié)果有不亞于低層算子對(duì)求解結(jié)果的影響[18]。因此考慮一種封裝低層算子的模式,將可選動(dòng)作設(shè)計(jì)為低層算子的評(píng)分標(biāo)準(zhǔn)與解的接受準(zhǔn)則的組合。
LLH評(píng)分標(biāo)準(zhǔn)旨在從不同的方面評(píng)估某個(gè)LLH的優(yōu)劣,而接受準(zhǔn)則確定是否接受LLH產(chǎn)生的新解。本文采用如表2所示的四種評(píng)分標(biāo)準(zhǔn)和表3所示的四種接受準(zhǔn)則。
基于上述的四種LLH評(píng)分標(biāo)準(zhǔn)和四種解的接受準(zhǔn)則,可以組合形成4×4=16種搜索動(dòng)作。為使算法的可選動(dòng)作更完整,添加一種特殊的讀取最優(yōu)解動(dòng)作,即當(dāng)搜索過(guò)程阻塞時(shí),可選擇將最優(yōu)解賦值到當(dāng)前解。最終形成共17種動(dòng)作。
2.3.3 獎(jiǎng)勵(lì)定義
QLHH中的獎(jiǎng)勵(lì)r分為兩部分:a)使用讀取最優(yōu)解的特殊動(dòng)作后,將獲得r=-0.1的小懲罰,以避免算法重復(fù)選擇讀取最優(yōu)解的動(dòng)作;b)采用非特殊動(dòng)作后,即確定LLH評(píng)分標(biāo)準(zhǔn)與解的接受準(zhǔn)則后,算法按LLH評(píng)分準(zhǔn)則使用選中的LLH產(chǎn)生新解,再按相應(yīng)的接受準(zhǔn)則確定是否接受新解,獲得如式(23)所示的獎(jiǎng)勵(lì)。
r=1""""""" zlt;z*t-TmaxTmax z≥ z*(23)
其中:z為新解的目標(biāo)函數(shù)值;z*為當(dāng)前最優(yōu)解的目標(biāo)函數(shù)值;t為當(dāng)前迭代次數(shù);Tmax為最大迭代次數(shù)。按式(23)所示的方式設(shè)定,算法在采取非特殊動(dòng)作后,若能搜索到更優(yōu)解將獲得r=1的獎(jiǎng)勵(lì),否則將會(huì)受到一個(gè)隨著迭代次數(shù)而逐漸減小的懲罰。其意義在于公平獎(jiǎng)勵(lì)每次目標(biāo)函數(shù)值的變優(yōu),以及按難度懲罰搜索效果一般的動(dòng)作:前期搜索難度小,優(yōu)化目標(biāo)函數(shù)值容易,因此懲罰較大;后期搜索難度大,優(yōu)化目標(biāo)函數(shù)值困難,因此懲罰較小。
2.3.4 低層啟發(fā)式算子
對(duì)于提出的ERCLRM/FD,設(shè)計(jì)單點(diǎn)插入、序列插入、序列翻轉(zhuǎn)和雙點(diǎn)交換四種擾動(dòng)解的低層啟發(fā)式算子。
a)單點(diǎn)插入算子描述為隨機(jī)將解中一個(gè)在點(diǎn)位i的編碼插入到另一個(gè)隨機(jī)點(diǎn)位j之前。如圖3所示的單點(diǎn)插入算子執(zhí)行后,物資中心4關(guān)閉,而物資中心2開(kāi)設(shè)。
b)序列插入算子描述為隨機(jī)選取解中不超過(guò)解長(zhǎng)度一半的編碼[i,j],將其插入到另一個(gè)隨機(jī)點(diǎn)位k之前。如圖4所示的序列插入算子執(zhí)行后,物資中心2變?yōu)殚_(kāi)設(shè),且原本由物資中心3服務(wù)的需求點(diǎn){15,14}現(xiàn)改為物資中心2服務(wù)。
c)序列翻轉(zhuǎn)算子描述為翻轉(zhuǎn)兩個(gè)隨機(jī)點(diǎn)位i和j之間的編碼。如圖5所示的序列翻轉(zhuǎn)算子執(zhí)行后,物資中心3將不再服務(wù)需求點(diǎn){15,14},但額外服務(wù)需求點(diǎn)13;物資中心4取消服務(wù)需求點(diǎn)13,轉(zhuǎn)而服務(wù)需求點(diǎn){14,15}。
d)雙點(diǎn)交換算子描述為交換兩個(gè)隨機(jī)點(diǎn)位i和j的編碼。如圖6所示的雙點(diǎn)交換算子執(zhí)行后,物資中心1原本連續(xù)服務(wù)的需求點(diǎn){6,8,10}現(xiàn)變?yōu)閮商塑?chē)分別服務(wù){(diào)6}和{10,8}。
值得注意的是,算法將以上算子中的前三種,即單點(diǎn)插入、序列插入和序列翻轉(zhuǎn)作為參與評(píng)分的算子,且三種算子的評(píng)分被初始化為+∞以保證至少被選擇一次,而將雙點(diǎn)交換算子用于后續(xù)的局部?jī)?yōu)化搜索。此外,由于以上四種算子可在解的任意位置編碼進(jìn)行操作,所以產(chǎn)生的新解不一定如上述例子那么理想,甚至可能產(chǎn)生不以物資中心編碼開(kāi)頭的解。為解決該問(wèn)題,在使用了以上任意算子后,均執(zhí)行算法2以保證產(chǎn)生的新解可以正常解碼。
算法2 修復(fù)解的操作
輸入:給定的新解x;候選應(yīng)急物資中心數(shù)m。
if xi=0 or xigt;m then
初始化k←U(1,m) //隨機(jī)選擇一個(gè)物資中心編號(hào)
初始化i←1
while xi≠k do
i←i+1
end while
交換解x首位與點(diǎn)位i的編碼
end if
2.3.5 動(dòng)作的選擇和執(zhí)行
QLHH在選擇動(dòng)作時(shí)使用一種效果較好的ε-貪婪(ε-greedy)算法[10],其中ε是一個(gè)隨著迭代次數(shù)增加而不斷變小的數(shù)字,如式(24)所示。
ε=1-0.9×tTmax(24)
其中:t是算法的當(dāng)前迭代次數(shù);而Tmax是算法的最大迭代次數(shù)。ε∈[0.1,1]用于控制算法進(jìn)行隨機(jī)搜索的概率:每次選擇動(dòng)作時(shí),算法以ε的概率隨機(jī)從設(shè)定的17種動(dòng)作中選擇一種,或是以1-ε的概率選擇當(dāng)前狀態(tài)下Q值最大的動(dòng)作。使用ε-貪婪算法選擇動(dòng)作時(shí),可以有效避免陷入局部最優(yōu)。
前文已經(jīng)提到,QLHH與一般的超啟發(fā)式算法框架有些不同,主要體現(xiàn)在低層的LLH經(jīng)過(guò)封裝,上層的HLS只可選擇定義的16種普通的搜索動(dòng)作與一種特殊的最優(yōu)解讀取動(dòng)作。在選擇某種動(dòng)作后,QLHH執(zhí)行該動(dòng)作并迭代t0次:每次首先從單點(diǎn)插入、序列插入和序列翻轉(zhuǎn)三種LLH中通過(guò)選擇的評(píng)分準(zhǔn)則按輪盤(pán)賭法選擇一種用于產(chǎn)生新解,使用算法2確保新解可行后,再使用η次隨機(jī)兩點(diǎn)交叉算子進(jìn)行局部?jī)?yōu)化搜索,最后使用選擇的接受準(zhǔn)則確定是否接受新解。
算法3 動(dòng)作的執(zhí)行
輸入:解x;評(píng)分標(biāo)準(zhǔn)fs(LLH);接受準(zhǔn)則fa(x);本輪迭代次數(shù)t0;當(dāng)前迭代次數(shù)tc。
for t=tc→tc+t0 do
對(duì)前三種LLH使用fs(LLH)評(píng)分,并用輪盤(pán)賭法選擇其中一種,記為L(zhǎng)LH*
對(duì)解x使用LLH*,記產(chǎn)生的新解為x*
調(diào)用算法2修復(fù)新解x*
for i=1→η do //進(jìn)行局部搜索
對(duì)解x*使用雙點(diǎn)交換算子,記產(chǎn)生新解為x′
調(diào)用算法2修復(fù)新解x′
if z(x′)lt;z(x*) then
x*←x′
end if
end for
if fa(x*) then //若接受解x*
x←x*
end if
end for
2.4 算法參數(shù)與算法流程
基于上述各要素的定義與子算法的設(shè)計(jì),現(xiàn)可以將其組成如圖7所示的用于求解ERCLRM/FD的QLHH。其中的參數(shù)有學(xué)習(xí)率α、折扣因子γ、ε-貪婪中的隨機(jī)因子ε、兩個(gè)狀態(tài)分割點(diǎn)σl和σu,執(zhí)行動(dòng)作的搜索次數(shù)t0、局部搜索次數(shù)η、懲罰因子M和最大迭代次數(shù)Tmax。需要注意的是,為控制QLHH的總迭代次數(shù)為T(mén)max,t0需為T(mén)max的約數(shù)。此外,由于讀取最優(yōu)解的特殊動(dòng)作不會(huì)進(jìn)行搜索,所以其不消耗迭代次數(shù)。執(zhí)行該動(dòng)作后,可認(rèn)為目標(biāo)函數(shù)值大幅提升,因此下一狀態(tài)s′=0。
3 數(shù)值實(shí)驗(yàn)與結(jié)果分析
本章開(kāi)展數(shù)值實(shí)驗(yàn)驗(yàn)證QLHH的性能,與兩種搜索方式最接近的算法進(jìn)行對(duì)比:第一種是精心設(shè)計(jì)的元啟發(fā)式算法SALRP[17];第二種是同樣基于Q-學(xué)習(xí)的超啟發(fā)式算法QHH[13],以檢驗(yàn)QLHH的性能,然后通過(guò)求解一個(gè)實(shí)際案例來(lái)驗(yàn)證該算法求解實(shí)際問(wèn)題的效果。
3.1 數(shù)據(jù)集與模型參數(shù)
由于ERCLRM/FD同時(shí)考慮選址方案和路徑規(guī)劃,使用Prins等人[19]在研究中使用的30個(gè)測(cè)試數(shù)據(jù)集,其中問(wèn)題規(guī)模為:應(yīng)急需求點(diǎn)數(shù)n=20,50,100,200,應(yīng)急物資中心數(shù)m=5,10。然而,該數(shù)據(jù)集中不存在模糊需求量的設(shè)定,所以在原需求量的基礎(chǔ)上,按如下方式修改為三角模糊需求:記原數(shù)據(jù)中某需求量為w,則模糊需求量最可能的值wm=w,下界wl=w+U(-4,-1),上界wu=w+U(1,4),其中U(-4,-1)和U(1,4)分別為[-4,-1]和[1,4]的均勻分布隨機(jī)整數(shù),且該過(guò)程保證需求量的下界不小于1。此外,用于評(píng)價(jià)模糊需求度的參數(shù)λ在30個(gè)測(cè)試數(shù)據(jù)集上均設(shè)置為λ=0.5。
3.2 算法參數(shù)設(shè)置
QLHH中有四項(xiàng)待定參數(shù):兩個(gè)狀態(tài)分割點(diǎn)σl和σu、折扣因子γ,以及執(zhí)行動(dòng)作的搜索次數(shù)t0。對(duì)于其他非自適應(yīng)參數(shù),按如下方式進(jìn)行設(shè)置:最大迭代次數(shù)Tmax=10 000;局部搜索次數(shù)η=100×(m+n+l),其中l(wèi)為隔斷標(biāo)示的數(shù)量。為對(duì)待定參數(shù)尋找合適的參數(shù)組合,使用田口實(shí)驗(yàn)設(shè)計(jì)法[20]進(jìn)行實(shí)驗(yàn),選用中等大小的13號(hào)數(shù)據(jù)集(m=5,n=100)進(jìn)行測(cè)試,每項(xiàng)參數(shù)考慮三種合理的參數(shù)設(shè)定,使用正交表L9(34)進(jìn)行實(shí)驗(yàn),且每組實(shí)驗(yàn)均重復(fù)執(zhí)行30次以盡量減小隨機(jī)誤差,將每組具體參數(shù)值實(shí)驗(yàn)獲得的平均目標(biāo)函數(shù)值記錄在表4中。
由此可得,QLHH在ERCLRM/FD上的算法參數(shù)等級(jí)變化趨勢(shì)如圖8所示,而最終擇優(yōu)后按如下設(shè)置設(shè)定待定參數(shù):σl=0.8,σl=1.1,γ=0.8,以及t0=20。
3.3 實(shí)驗(yàn)環(huán)境
為盡量保證所有算法在相同的條件下運(yùn)行,本文提出的QLHH,以及用于對(duì)比的SALRP和QHH均使用C++實(shí)現(xiàn),且實(shí)驗(yàn)平臺(tái)均為Intel Core i5 2.9 GHz的CPU和16 GB運(yùn)行內(nèi)存,操作系統(tǒng)為Windows 10。為盡可能消除算法中隨機(jī)性帶來(lái)的差異,每種算法分別在每個(gè)數(shù)據(jù)集上獨(dú)立執(zhí)行30次,算法的各項(xiàng)參數(shù)也盡可能相同,具體按照如下方式設(shè)置:
a)QLHH中,最大迭代次數(shù)Tmax=10 000;局部搜索次數(shù)η=100×(m+n+l),其中隔斷標(biāo)示數(shù)l按式(19)設(shè)定;狀態(tài)分割點(diǎn)σl=0.8,σu=1.1;折扣因子γ=0.8;執(zhí)行動(dòng)作的搜索次數(shù)t0=20;自適應(yīng)的學(xué)習(xí)率α=1-0.9t/Tmax,ε-貪婪中的ε=1-0.9t/Tmax,其中t為當(dāng)前迭代次數(shù);懲罰因子M=∑i∈Ifi/∑i∈Iqi,后續(xù)每迭代100次增大兩倍。
b)SALRP中,初始溫度為30,最終溫度為0.1;降溫系數(shù)為0.98;解的擾動(dòng)次數(shù)為5 000×(m+n+l),其中隔斷標(biāo)示數(shù)l按式(19)設(shè)定;波茲曼系數(shù)為1/9;懲罰因子M=∑i∈Ifi/∑i∈Iqi,后續(xù)每迭代100次增大兩倍;若連續(xù)迭代100輪最優(yōu)解無(wú)提升則算法結(jié)束。
c)QHH中,最大迭代次數(shù)Tmax=10 000;擾動(dòng)次數(shù)η=100×(m+n+l),其中隔斷標(biāo)示數(shù)l按式(19)設(shè)定;狀態(tài)分割點(diǎn)σl=0.85,σu=1;折扣因子γ=0.7;初始溫度為6,最終溫度為1;降溫系數(shù)為0.7;自適應(yīng)的學(xué)習(xí)率α=1-0.9t/Tmax,ε-貪婪中的ε=1-t/Tmax,其中t為當(dāng)前迭代次數(shù);懲罰因子M=∑i∈Ifi/∑i∈Iqi,后續(xù)每迭代100次增大兩倍。此外,由于原文獻(xiàn)中QHH并未用于求解與LRP相關(guān)的組合優(yōu)化問(wèn)題,所以只采用了其中的架構(gòu),而低層可選算子為本文使用的單點(diǎn)插入、序列插入、序列反轉(zhuǎn)以及雙點(diǎn)交換算子。
3.4 實(shí)驗(yàn)結(jié)果與分析
基于以上設(shè)置,將QLHH與SALRP和QHH進(jìn)行對(duì)比實(shí)驗(yàn),分別在30個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)且每組實(shí)驗(yàn)重復(fù)30次,如表5所示的平均目標(biāo)函數(shù)值和相對(duì)誤差百分比,以及表6所示的Wilcoxon符號(hào)秩和檢驗(yàn)。所有測(cè)試采用95%的置信區(qū)間,并且符號(hào)“+”和“-”分別代表QLHH顯著優(yōu)于或顯著劣于某個(gè)對(duì)比算法,而符號(hào)“=”則表示兩種相比較的算法之間沒(méi)有顯著的區(qū)別。記R+為QLHH顯著優(yōu)于其他某個(gè)算法的秩和值,而R-為顯著劣于其他某個(gè)算法的秩和值,由于有R++R-=N(N+1)/2=465,其中N為每組實(shí)驗(yàn)的重復(fù)次數(shù),在表中僅展示Rm=min(R+,R-)以及相應(yīng)的P值。每個(gè)數(shù)據(jù)集上的最優(yōu)指標(biāo)或顯著(P≤ 0.05)的結(jié)果被標(biāo)記為粗體。
從表5、6可以發(fā)現(xiàn),QLHH相較于SALRP和QHH的平均誤差百分比有小幅優(yōu)勢(shì);在所有的30個(gè)測(cè)試數(shù)據(jù)集中,QLHH在18個(gè)數(shù)據(jù)集上顯著優(yōu)于SALRP,在19個(gè)數(shù)據(jù)集上顯著優(yōu)于QHH,分別在20號(hào)和16號(hào)數(shù)據(jù)集上顯著劣于SALRP和QHH。由此可見(jiàn),采用QLHH在求解ERCLRM/FD時(shí)對(duì)比兩種基于單解的元啟發(fā)式算法和超啟發(fā)式算法都明顯存在優(yōu)勢(shì),僅在極個(gè)別數(shù)據(jù)集上性能不足。
3.5 案例分析
為進(jìn)一步驗(yàn)證ERCLRM/FD和QLHH在實(shí)際場(chǎng)景的可行性,本節(jié)求解一個(gè)上海市的案例。其中各應(yīng)急點(diǎn)最可能的需求量wm為2010年公布的人口普查數(shù)據(jù),而模糊需求量下界為wl=「(1+U(-0.2,0))·wm,上界為wu=「(1+U(0,0.2))×w,其中U(-0.2,0)和U(0,0.2)分別為[-0.2,0]和[0,0.2]的均勻分布隨機(jī)實(shí)數(shù)。此外,根據(jù)實(shí)際情況將每個(gè)應(yīng)急物資中心點(diǎn)的最大服務(wù)容量qi(i∈I)設(shè)置為2 000 000,配送車(chē)輛的容量C=1 000 000,車(chē)輛使用固定消耗資源量T=1 000。對(duì)于物資中心的開(kāi)設(shè)資源消耗量fi,設(shè)定為|fi=N(10 000,2 0002)|,其中N(10 000,2 0002)是均值為10 000,標(biāo)準(zhǔn)差為2 000的高斯分布,獲得的結(jié)果向上取整。特別地,由于案例中需求點(diǎn)47的最大需求量為1 436 983,遠(yuǎn)超車(chē)輛容量C,所以對(duì)該點(diǎn)放寬約束:至多可由兩輛車(chē)配送,且其中一輛車(chē)必須滿載服務(wù)該點(diǎn)。兩點(diǎn)(x1,y1)和(x2,y2)之間的距離L按式(25)計(jì)算,其中R為地球半徑。
L=2R arcsin(sin2(y1-y22)+cos(y1)cos(y2)sin2(x1-x22))(25)
模型中的模糊度參數(shù)λ分別設(shè)置為λ=0,0.2,0.4,0.6,0.8,1,以分析不同λ對(duì)求解結(jié)果的影響,由此獲得的選址—路徑解決方案如圖9所示。值得注意的是,該圖中的配送路徑并非實(shí)際的行駛路徑,僅代表需求點(diǎn)的服務(wù)順序。可以看到,隨著λ由0增加至1,求得的總體資源消耗量從242 444下降至233 466。造成該情況的原因是各需求點(diǎn)的需求量模糊程度下降,對(duì)應(yīng)的需求量期望值也因此下降,所以每趟車(chē)輛可配送更多的需求點(diǎn),而各應(yīng)急物資中心也可服務(wù)更多的需求點(diǎn)。對(duì)應(yīng)地,開(kāi)設(shè)的物資中心數(shù)也總體呈下降趨勢(shì)。在實(shí)際應(yīng)用該模型時(shí),還可根據(jù)各需求點(diǎn)的情況不同而設(shè)定不同的模糊度λ,由此為決策人提供容錯(cuò)率更高的解決方案以供參考。
4 結(jié)束語(yǔ)
本文研究突發(fā)事件爆發(fā)后,信息不對(duì)稱(chēng)導(dǎo)致的需求不確定情境下的應(yīng)急物資中心選址—路徑問(wèn)題,由此提出了一種以三角模糊數(shù)刻畫(huà)需求量的ERCLRM/FD。考慮到約束的復(fù)雜性,引入隔斷標(biāo)示,并構(gòu)造解的編碼方式;基于該編碼,設(shè)計(jì)一種以強(qiáng)化學(xué)習(xí)領(lǐng)域中的Q-學(xué)習(xí)為高層啟發(fā)式策略,以LLH評(píng)分標(biāo)準(zhǔn)和解的接受準(zhǔn)則組合為動(dòng)作,進(jìn)而抉擇低層LLH的超啟發(fā)式算法QLHH。為檢驗(yàn)提出的QLHH的性能,將QLHH與兩種應(yīng)用在相似問(wèn)題的算法(SALRP和QHH)進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果說(shuō)明QLHH在求解ERCLRM/FD時(shí)表現(xiàn)出更優(yōu)的性能。最后,通過(guò)一個(gè)實(shí)際案例分析驗(yàn)證了算法在實(shí)際場(chǎng)景下的可行性。基于上述的數(shù)值結(jié)果,本文提出的QLHH在求解ERCLRM/FD的有效性和通用性得到驗(yàn)證,由此在實(shí)際應(yīng)用中可為決策人提供合理的解決方案。
在未來(lái)的研究工作中,考慮舍棄局限性較強(qiáng)的Q表同時(shí)移除狀態(tài)聚合技術(shù),用深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)來(lái)更靈活地?cái)M合連續(xù)狀態(tài)下的Q表,并輔以其他搜索特征來(lái)更準(zhǔn)確地表征算法所處的狀態(tài),以輔助Q-學(xué)習(xí)的決策。此外,針對(duì)LRP的最新算法也可學(xué)習(xí)其設(shè)計(jì)思路,以形成更智能的超啟發(fā)式算法。
參考文獻(xiàn):
[1]Salman F S,Yücel E. Emergency facility location under random network damage:insights from the Istanbul case[J]. Computers amp; Ope-rations Research,2015,62: 266-281.
[2]Salhi S,Rand G K.The effect of ignoring routes when locating depots[J].European Journal of Operational Research,1989,39(2):150-156.
[3]陳業(yè)華,白靜,李興源. 多階段災(zāi)后救援選址—路徑模型及求解算法[J]. 工業(yè)工程與管理,2017,22(5): 150-157. (Chen Yehua,Bai Jing,Li Xingyuan. Model and algorithm for location-routing of multi-stage post-disaster emergency rescue[J]. Industrial Enginee-ring and Management,2017,22(5): 150-157.)
[4]Liu Kenan. Post-earthquake medical evacuation system design based on hierarchical multi-objective optimization model: an earthquake case study[J]. International Journal of Disaster Risk Reduction,2020,51: 101785.
[5]孫華麗,項(xiàng)美康,薛耀鋒. 不確定信息下應(yīng)急設(shè)施選址—路徑魯棒優(yōu)化[J]. 系統(tǒng)管理學(xué)報(bào),2019,28(6): 1126-1133. (Sun Huali,Xiang Meikang,Xue Yaofeng. Robust optimization for emergency location-routing problem with uncertainty[J]. Journal of Systems amp; Management,2019,28(6): 1126-1133.)
[6]郭鵬輝,朱建軍,王翯華. 考慮異質(zhì)物資合車(chē)運(yùn)輸?shù)臑?zāi)后救援選址—路徑—配給優(yōu)化[J]. 系統(tǒng)工程理論與實(shí)踐,2019,39(9): 2345-2360. (Guo Penghui,Zhu Jianjun,Wang Hehua. Location-routing allocation problem with consolidated shipping of heterogeneous relief supplies in post-disaster rescue[J]. Systems Engineering: Theory amp; Practice,2019,39(9): 2345-2360.)
[7]Wei Xiaowen,Qiu Huaxin,Wang Dujuan,et al. An integrated location-routing problem with post-disaster relief distribution[J]. Computers amp; Industrial Engineering,2020,147: 106632.
[8]鄭夏,馬良. 考慮災(zāi)后分區(qū)的應(yīng)急物資LRP問(wèn)題研究[J]. 運(yùn)籌與管理,2020,29(11): 66-77. (Zheng Xia,Ma Liang. Research on LRP of emergency supplies considering post-disaster zoning[J].Ope-rations Research and Management,2020,29(11): 66-77.)
[9]Jiménez M,Arenas M,Bilbao A,et al. Linear programming with fuzzy parameters: an interactive method resolution[J]. European Journal of Operational Research,2007,177(3): 1599-1609.
[10]Sutton R S,Barto A G. Reinforcement learning: an introduction[M]. Cambridge,MA: MIT Press,2018: 118-120.
[11]Mnih V,Kavukcuoglu K,Silver D,et al. Human-level control through deep reinforcement learning[J]. Nature,2015,518(7540): 529-533.
[12]張景玲,馮勤炳,趙燕偉,等. 基于強(qiáng)化學(xué)習(xí)的超啟發(fā)算法求解有容量車(chē)輛路徑問(wèn)題[J]. 計(jì)算機(jī)集成制造系統(tǒng),2020,26(4): 1118-1129. (Zhang Jingling,F(xiàn)eng Qinbing,Zhao Yanwei,et al. Hyper-heuristic for CVRP with reinforcement learning[J]. Computer Integrated Manufacturing Systems,2020,26(4): 1118-1129.)
[13]Lin Jian,Li Yangyuan,Song Hongbo. Semiconductor final testing scheduling using Q-learning based hyper-heuristic[J]. Expert Systems with Applications,2022,187: 115978.
[14]Choong S S,Wong L P,Lim C P. Automatic design of hyper-heuristic based on reinforcement learning[J]. Information Sciences,2018,436: 89-107.
[15]Fazayeli S,Eydi A,Kamalabadi I N. Location-routing problem in multimodal transportation network with time windows and fuzzy demands: presenting a two-part genetic algorithm[J]. Computers amp; Industrial Engineering,2018,119: 233-246.
[16]Heilpern S. The expected value of a fuzzy number[J]. Fuzzy Sets and Systems,1992,47(1): 81-86.
[17]Vincent F Y,Lin S W,Lee W,et al. A simulated annealing heuristic for the capacitated location routing problem[J]. Computers amp; Industrial Engineering,2010,58(2): 288-299.
[18]Sabar N R,Ayob M,Kendall G,et al. Automatic design of a hyper-heuristic framework with gene expression programming for combinatorial optimization problems[J]. IEEE Trans on Evolutionary Computations,2015,19(3): 309-325.
[19]Prins C,Prodhon C,Calvo R W. Solving the capacitated location-routing problem by a GRASP complemented by a learning process and a path relinking[J]. 4OR,2006,4(3): 221-238.
[20]Deng Jin,Wang Ling. A competitive memetic algorithm for multi-objective distributed permutation flow shop scheduling problem[J]. Swarm and Evolutionary Computation,2017,32(1): 121-131.