鄭瑩瑩 周俊龍,2 申鈺凡 叢佩金 吳澤彬
1(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)
2(處理器芯片全國(guó)重點(diǎn)實(shí)驗(yàn)室(中國(guó)科學(xué)院計(jì)算技術(shù)研究所)北京 100190)
智能交通系統(tǒng)是未來交通運(yùn)輸系統(tǒng)的發(fā)展方向,它將智能傳感與控制、大數(shù)據(jù)、物聯(lián)網(wǎng)等先進(jìn)技術(shù)與嵌入式軟件融入到交通系統(tǒng)中,為用戶提供了更好的服務(wù)[1-2].在智能交通系統(tǒng)中,車輛通常受到計(jì)算和存儲(chǔ)資源的限制,導(dǎo)致其數(shù)據(jù)處理能力較低.然而,隨著信息技術(shù)的發(fā)展,諸多新興技術(shù)(例如輔助安全駕駛、紅綠燈車速引導(dǎo)和道路情況提醒等)對(duì)于計(jì)算和存儲(chǔ)資源的需求變得越來越大,車輛終端越來越難以有效支持這些技術(shù)[3].一種常用的解決方案是將這些任務(wù)提交至云(即任務(wù)卸載至云數(shù)據(jù)中心),借助云服務(wù)器的強(qiáng)大計(jì)算和存儲(chǔ)能力來應(yīng)對(duì)智能車飛速增長(zhǎng)的技術(shù)需求.
云數(shù)據(jù)中心雖然具有足夠的資源支持計(jì)算密集型應(yīng)用,但是云服務(wù)器通常部署在遠(yuǎn)離車輛的地方.網(wǎng)絡(luò)傳輸引起的響應(yīng)時(shí)間久問題會(huì)嚴(yán)重降低車輛任務(wù)卸載到云的效果,這對(duì)于時(shí)間敏感的強(qiáng)實(shí)時(shí)任務(wù)是不可接受的.因此,為緩解該問題,研究者們提出采用邊緣計(jì)算技術(shù),在車道附近的路邊單元部署計(jì)算資源(即邊緣服務(wù)器).由于車輛終端與路邊單元之間傳輸距離較短,可有效降低傳輸時(shí)延,適合處理時(shí)間敏感的強(qiáng)實(shí)時(shí)任務(wù)[4].然而,為了降低基礎(chǔ)設(shè)施成本,在路邊單元部署的邊緣服務(wù)器計(jì)算和存儲(chǔ)能力有限,一些計(jì)算密集型任務(wù)仍需卸載到云執(zhí)行.因此,相比單獨(dú)采用云計(jì)算或者邊緣計(jì)算,車輛終端與兩者相結(jié)合形成的端—邊—云層次性計(jì)算架構(gòu)可以更好地滿足用戶的多樣化需求[5].在采用端—邊—云架構(gòu)的車路協(xié)同系統(tǒng)中,車輛可以將時(shí)間敏感的任務(wù)卸載到附近的路邊單元執(zhí)行,利用該路邊單元的邊緣服務(wù)器滿足其實(shí)時(shí)性要求;而延時(shí)容忍或計(jì)算密集型的任務(wù)則可以繼續(xù)由路邊單元上傳到云中心執(zhí)行,充分利用云服務(wù)器的資源優(yōu)勢(shì).顯然,端—邊—云的層次性計(jì)算架構(gòu)可以整合邊緣計(jì)算和云計(jì)算的優(yōu)勢(shì),從而顯著提高服務(wù)質(zhì)量,并有效緩解云中心的擁塞[6].
采用端—邊—云層次性計(jì)算架構(gòu),雖然有助于降低任務(wù)的計(jì)算時(shí)間,但車輛卸載任務(wù)時(shí)也會(huì)帶來額外的時(shí)間和能量開銷.而且,任務(wù)在傳輸過程中也容易發(fā)生錯(cuò)誤,導(dǎo)致可靠性降低[7].車輛終端應(yīng)用的時(shí)延、能耗和可靠性一直以來都是智能交通系統(tǒng)關(guān)注的重點(diǎn).這是因?yàn)榻K端應(yīng)用的實(shí)時(shí)性和可靠性是決定車輛用戶體驗(yàn)的關(guān)鍵因素;并且,降低車輛能耗有利于控制車輛碳排放量,減少環(huán)境污染,是智能交通可持續(xù)發(fā)展的關(guān)鍵[8].此外,隨著車輛增多但路邊單元的資源有限,很容易在高峰時(shí)段出現(xiàn)過載現(xiàn)象[9].因此,非常迫切需要設(shè)計(jì)合理有效的端—邊—云車路協(xié)同資源調(diào)度方法,以優(yōu)化智能交通系統(tǒng)中車輛終端應(yīng)用的實(shí)時(shí)性、可靠性和能效.
端—邊—云架構(gòu)下的車路協(xié)同資源調(diào)度問題實(shí)質(zhì)是多智能體(智能車)對(duì)環(huán)境資源(路邊單元、云中心等)的競(jìng)爭(zhēng)與共享問題.并且,每個(gè)智能體在與環(huán)境交互過程中會(huì)通過學(xué)習(xí)改進(jìn)自己的策略,而環(huán)境資源也在動(dòng)態(tài)變化[10].考慮到智能體對(duì)于資源的競(jìng)爭(zhēng)與合作關(guān)系以及環(huán)境的不穩(wěn)定性,傳統(tǒng)的單智能體強(qiáng)化學(xué)習(xí)方法通常不能解決該問題[11].因此,本文針對(duì)端—邊—云架構(gòu)的車路協(xié)同系統(tǒng),設(shè)計(jì)了一種基于多智能體強(qiáng)化學(xué)習(xí)的資源調(diào)度算法,通過任務(wù)卸載和計(jì)算資源分配,實(shí)現(xiàn)可靠性約束下的系統(tǒng)時(shí)延和能耗優(yōu)化.
當(dāng)今時(shí)代,隨著車路協(xié)同系統(tǒng)在智能交通系統(tǒng)中的應(yīng)用越來越廣泛,對(duì)于其資源調(diào)度問題的研究也越來越受到國(guó)內(nèi)外學(xué)者的關(guān)注.在過去幾年中,國(guó)內(nèi)外學(xué)者已經(jīng)提出了許多有價(jià)值的工作來解決這個(gè)問題.其中,將端—邊—云架構(gòu)與車路協(xié)同系統(tǒng)相結(jié)合,為智能交通系統(tǒng)的優(yōu)化提供了新的思路和方向.本節(jié)將簡(jiǎn)要介紹與本研究相關(guān)的文獻(xiàn),并著重強(qiáng)調(diào)本文方法與現(xiàn)有資源調(diào)度方法之間的差異.
1)車路協(xié)同資源調(diào)度技術(shù)
車路協(xié)同資源調(diào)度是實(shí)現(xiàn)智能交通系統(tǒng)的關(guān)鍵技術(shù)之一,主要包括任務(wù)卸載和計(jì)算資源分配,已被廣泛研究.例如,文獻(xiàn)[12]針對(duì)車輛任務(wù)卸載環(huán)境的不確定性,提出了一種基于自適應(yīng)學(xué)習(xí)的任務(wù)卸載算法,使每個(gè)任務(wù)車輛能夠以分布式的方式學(xué)習(xí)服務(wù)車輛的延遲性能,避免頻繁的狀態(tài)信息交換,從而降低平均卸載時(shí)延.文獻(xiàn)[13]考慮車輛行駛速度的變化和無線信道條件的不穩(wěn)定性,將任務(wù)卸載問題定義為馬爾可夫決策過程,并提出了一種低開銷的啟發(fā)式算法為每個(gè)任務(wù)作出卸載決策.文獻(xiàn)[14]研究了如何高效調(diào)度志愿車輛中的空閑資源來應(yīng)對(duì)路邊單元中邊緣服務(wù)器的過載問題.文獻(xiàn)[15]綜合考慮通信資源和計(jì)算資源的分配,提出了針對(duì)計(jì)算卸載時(shí)延和成本的多目標(biāo)優(yōu)化問題,并利用粒子群優(yōu)化算法獲得帕累托最優(yōu)解.然而,以上工作均未考慮端—邊—云層次性計(jì)算架構(gòu).
2)基于端—邊—云架構(gòu)的車路協(xié)同資源調(diào)度方法
端—邊—云層次性計(jì)算架構(gòu)的興起為改善車輛服務(wù)體驗(yàn)和增強(qiáng)車輛計(jì)算能力提供了一種新范式,在學(xué)術(shù)界和工業(yè)界均引起了廣泛關(guān)注.例如,文獻(xiàn)[16]針對(duì)端—邊—云框架下的計(jì)算卸載和資源分配問題,設(shè)計(jì)了一種分布式算法,通過博弈論制定卸載決策并采用拉格朗日乘子法實(shí)現(xiàn)資源分配,以最小化任務(wù)處理時(shí)延和計(jì)算資源成本.文獻(xiàn)[17]提出了一種面向移動(dòng)邊緣計(jì)算的車聯(lián)網(wǎng)任務(wù)動(dòng)態(tài)卸載方案.該方案考慮資源的有限性和車輛的移動(dòng)性,并根據(jù)邊緣服務(wù)器的覆蓋范圍、傳輸速率和車輛的移動(dòng)速度等約束動(dòng)態(tài)推導(dǎo)出最優(yōu)卸載方案,以縮短任務(wù)卸載時(shí)間和提高車輛能效.為了實(shí)現(xiàn)低延遲通信,文獻(xiàn)[18]研究了端—邊—云架構(gòu)中車輛間的任務(wù)上傳問題以及邊緣服務(wù)器和云服務(wù)器間的計(jì)算遷移問題,并提出了一種基于概率統(tǒng)計(jì)的協(xié)同卸載算法.文獻(xiàn)[16-18]所述的工作雖然考慮了任務(wù)的延遲和能耗開銷,但忽略了端—邊—云架構(gòu)下任務(wù)傳輸和執(zhí)行過程中的可靠性問題,容易遭受錯(cuò)誤而導(dǎo)致任務(wù)失敗.
本文的貢獻(xiàn)是:運(yùn)用機(jī)器學(xué)習(xí)技術(shù)解決端—邊—云架構(gòu)下的車路協(xié)同資源調(diào)度問題.現(xiàn)有研究中已提出了基于強(qiáng)化學(xué)習(xí)的車路協(xié)同資源調(diào)度優(yōu)化方法(例如文獻(xiàn)[19-20]),但這些方法均為單智能體強(qiáng)化學(xué)習(xí)算法,不適用于多智能體環(huán)境.考慮到本文研究的端—邊—云車路協(xié)同系統(tǒng)屬于多智能體環(huán)境,并將多智能體強(qiáng)化學(xué)習(xí)算法與車輛結(jié)合以促進(jìn)車輛與環(huán)境的協(xié)作并提高車輛應(yīng)對(duì)動(dòng)態(tài)環(huán)境的能力[21].本文提出一種基于多智能體強(qiáng)化學(xué)習(xí)的端—邊—云車路協(xié)同資源調(diào)度方法,以優(yōu)化智能交通系統(tǒng)中車輛任務(wù)的實(shí)時(shí)性、可靠性和能效.具體來說,該算法充分利用端—邊—云架構(gòu)的特點(diǎn),采用集中訓(xùn)練—分散執(zhí)行(centralized training with decentralized execution,CTDE)的框架.在這個(gè)框架下,每輛智能車是一個(gè)智能體,在集中訓(xùn)練—分散執(zhí)行上部署actor 網(wǎng)絡(luò)以負(fù)責(zé)作出動(dòng)作(即任務(wù)卸載和計(jì)算資源分配決策);所有智能體的critic 網(wǎng)絡(luò)將集中部署在云數(shù)據(jù)中心并集中訓(xùn)練,critic 網(wǎng)絡(luò)指導(dǎo)actor 網(wǎng)絡(luò)以改進(jìn)策略.當(dāng)所有actor 網(wǎng)絡(luò)訓(xùn)練完成后,則不再需要critic 網(wǎng)絡(luò),屆時(shí)每個(gè)智能體可根據(jù)局部觀測(cè)作出最優(yōu)決策且不產(chǎn)生額外的迭代開銷.
本節(jié)主要介紹基于端—邊—云架構(gòu)的車路協(xié)同系統(tǒng)的相關(guān)模型,包括系統(tǒng)架構(gòu)模型、任務(wù)通信模型、任務(wù)計(jì)算模型和可靠性模型.
如圖1 所示,端—邊—云車路協(xié)同系統(tǒng)包含1 個(gè)云數(shù)據(jù)中心C、M個(gè)路邊單元(roadside unit,RSU),以及N輛智能車.每個(gè)路邊單元都配備1 個(gè)邊緣服務(wù)器.假設(shè)RS U={RS U1,RS U2,…,RS UM}表示路邊單元的集合,RS Um?RS U表示第m個(gè)路邊單元及其配備的邊緣服務(wù)器.每個(gè)路邊單元RS Um覆蓋一個(gè)區(qū)域Am=(ιm,hm),其中 ιm(單位為 m)表示Am是一個(gè)以 ιm為半徑的圓,hm(單位為km/h)表示Am內(nèi)限定的車輛最高時(shí)速.每個(gè)區(qū)域都有且僅由1 個(gè)路邊單元負(fù)責(zé),處于區(qū)域Am中的車輛可以和路邊單元RS Um通信.
假設(shè)V={V1,V2,…,VN}表示系統(tǒng)內(nèi)車輛的集合.每輛車Vn?V表示為四元組Vn=(τn,,ζn),其中τn表示Vn的當(dāng)前任務(wù),表示Vn微控制單元的計(jì)算頻率,表示Vn上傳τn的數(shù)據(jù)傳輸功率,ζn表示Vn當(dāng)前所處的路邊單元覆蓋區(qū)域.任務(wù)τn可表示為五元組τn=(dn,ωn,vn,δn,Rth),其中dn是任務(wù)的數(shù)據(jù)量(即輸入數(shù)據(jù),單位為b);ωn是任務(wù)的處理密度(單位為cycle/b),即處理單位比特?cái)?shù)據(jù)所需要的處理器時(shí)鐘周期數(shù);vn是任務(wù)遭受軟錯(cuò)誤的脆弱性因子;δn是任務(wù)的截止時(shí)間;Rth是任務(wù)的可靠性要求,若未到達(dá)此可靠性要求則認(rèn)為任務(wù)處理失敗.
當(dāng)任務(wù)的數(shù)據(jù)量不大時(shí),任務(wù)可以留在車輛本地執(zhí)行;否則,可以將部分?jǐn)?shù)據(jù)卸載到路邊單元執(zhí)行.因此,定義 βn(0 ≤βn≤1)為卸載任務(wù) τn的決策變量 βn,表示從車輛Vn卸載到路邊單元RS Um的數(shù)據(jù)在任務(wù)總數(shù)據(jù)量dn中的占比.借助于該決策變量 βn,卸載到RS Um中的邊緣服務(wù)器上處理的數(shù)據(jù)量為βndn,留在車輛Vn本地處理的數(shù)據(jù)量為(1-βn)dn.
路邊單元中邊緣服務(wù)器的計(jì)算和通信能力通常都是有限的.假設(shè)用(單位為cycle/s)表示路邊單元RS Um的最大計(jì)算能力,其可能無法滿足區(qū)域Am內(nèi)所有卸載任務(wù)的執(zhí)行要求(例如截止時(shí)間和可靠性等).為應(yīng)對(duì)該情況,可以將部分任務(wù)的數(shù)據(jù)進(jìn)一步上傳到資源充足的云數(shù)據(jù)中心C進(jìn)行并行處理.云數(shù)據(jù)中心C的計(jì)算能力表示為fC(單位為cycle/s),它與路邊單元之間的傳輸速率表示為 ?C.
由于路邊單元的信號(hào)覆蓋范圍有限,而車輛是不斷移動(dòng)的,因此需要考慮車輛與路邊單元的相對(duì)位置.假設(shè)當(dāng)車輛Vn進(jìn)入路邊單元RS Um的覆蓋區(qū)域Am時(shí),RS Um向Vn發(fā)送信息,發(fā)送給Vn的數(shù)據(jù)包中含有RS Um的編號(hào)信息m(1 ≤m≤M),以告知Vn已進(jìn)入其通信范圍,并記錄Vn進(jìn)入?yún)^(qū)域Am的時(shí)刻.假設(shè)計(jì)算資源有限的車輛為減少其計(jì)算負(fù)載,在其行駛區(qū)域內(nèi)會(huì)向所屬的路邊單元請(qǐng)求卸載任務(wù)的部分?jǐn)?shù)據(jù).當(dāng)路邊單元接收到請(qǐng)求后,會(huì)檢查邊緣服務(wù)器當(dāng)前的計(jì)算能力是否能滿足該任務(wù)的執(zhí)行需求.
從上述示例可知,我們需要確定任務(wù) τn是否需要繼續(xù)上傳到云,因此,定義一個(gè)二元變量 μn表示路邊單元是否能夠滿足任務(wù) τn的執(zhí)行需求,
1)車輛Vn到路邊單元RS Um的通信模型
在車輛與路邊單元的通信中,下行的時(shí)延和能耗與上行相比可以忽略不計(jì)并且路邊單元傳出的數(shù)據(jù)包通常很小,因此可以不考慮下行的時(shí)延和能耗[6].上行鏈路通常采用正交頻分多址技術(shù),支持對(duì)邊緣服務(wù)器的多址接入.為了保證發(fā)送卸載請(qǐng)求的車輛之間的上行傳輸?shù)恼恍裕編払m被劃分為相等的子帶,并給每個(gè)需要通信的車輛分配一個(gè)子帶.
為方便表示,定義二元變量zn,m表示當(dāng)前時(shí)隙內(nèi)車輛Vn是否在路邊單元RS Um覆蓋范圍Am內(nèi),即
定義變量Lm表示當(dāng)前時(shí)隙內(nèi)路邊單元RS Um連接的車輛數(shù)目,它表示為
RS Um與Vn之間的信噪比(signal to interference plus noise ratio,S INRn,m)為
其中g(shù)n為車輛Vn到路邊單元RS Um之間的信道增益,σ為背景噪聲.根據(jù)Shannon-Hartley 定理,從Vn到RS Um的上行數(shù)據(jù)傳輸速率為
相應(yīng)的傳輸能耗為
2)路邊單元RS Um到云數(shù)據(jù)中心C的通信模型
為了將任務(wù)傳輸?shù)皆啤⑦吘壏?wù)器和云數(shù)據(jù)中心之間的高速光纖通信鏈路是端—邊—云網(wǎng)絡(luò)架構(gòu)中必不可少的基礎(chǔ)設(shè)施,它確保了邊緣服務(wù)器的靈活性和可擴(kuò)展性.假設(shè)邊緣服務(wù)器和云之間的數(shù)據(jù)傳輸速率用 ?C表示,當(dāng)路邊單元RS Um將任務(wù)數(shù)據(jù)全部上傳到云(即μn=1)時(shí)產(chǎn)生的傳輸時(shí)延為
值得指出的是,本文僅考慮通信過程中車輛產(chǎn)生的能量開銷,因此不需要計(jì)算路邊單元卸載任務(wù)到云的能耗.
綜合考慮上述1)和2)兩種情況,車輛Vn卸載任務(wù)的總傳輸時(shí)延為
計(jì)算模型可分為本地執(zhí)行模型和遠(yuǎn)程執(zhí)行模型2 類,其中根據(jù)邊緣服務(wù)器的計(jì)算能力是否能滿足任務(wù)的執(zhí)行需求,可將遠(yuǎn)程執(zhí)行模型進(jìn)一步分為路邊單元計(jì)算模型和云計(jì)算模型.
1)本地計(jì)算模型
由于本地?cái)?shù)據(jù)量為(1-βn)dn,本地計(jì)算時(shí)間為
因此,任務(wù)在本地的計(jì)算能耗為
其中 κ為本地計(jì)算頻率的相關(guān)系數(shù).
2)遠(yuǎn)程計(jì)算模型
①路邊單元計(jì)算模型.當(dāng)μn=0時(shí),邊緣服務(wù)器的計(jì)算能力可以滿足任務(wù)的執(zhí)行需求,因此任務(wù)數(shù)據(jù)不需上傳至云端處理.任務(wù)在邊緣服務(wù)器的執(zhí)行時(shí)間為
②云計(jì)算模型.當(dāng)μn=1時(shí),邊緣服務(wù)器的計(jì)算能力不足以滿足任務(wù)的執(zhí)行需求,任務(wù)數(shù)據(jù)需要上傳至云端處理,且需要將接收的任務(wù)數(shù)據(jù)完全上傳給云,不再分割.因此,任務(wù)在云上的執(zhí)行時(shí)間為
其中fC(單位為cycle/s)表示云數(shù)據(jù)中心的計(jì)算能力.任務(wù) τn上傳到路邊單元部分?jǐn)?shù)據(jù)的計(jì)算時(shí)延為
值得指出的是,本文關(guān)注的是車輛的能量開銷.因此,僅計(jì)算任務(wù)在車輛本地執(zhí)行時(shí)產(chǎn)生的能耗,未計(jì)算任務(wù)在路邊單元或者云上執(zhí)行的能耗.
任務(wù)的可靠性模型主要包括傳輸可靠性和執(zhí)行可靠性,其中執(zhí)行可靠性又包括本地執(zhí)行可靠性和卸載執(zhí)行可靠性.
1)傳輸可靠性
任務(wù)在傳輸過程中可能會(huì)遭受噪聲和干擾位錯(cuò)誤以及傳輸鏈路上的位同步錯(cuò)誤.任務(wù)的傳輸可靠性定義為任務(wù)成功傳輸至其卸載目的地而不出現(xiàn)誤碼的概率.根據(jù)位錯(cuò)誤模型,傳輸可靠性可表示為
其中 ρ為恒定誤碼率.
2)執(zhí)行可靠性
任務(wù)在執(zhí)行過程中可能會(huì)遭受瞬時(shí)故障引起的軟錯(cuò)誤.瞬時(shí)故障是一類由于高能粒子撞擊電路或者受電磁干擾而導(dǎo)致邏輯錯(cuò)誤的故障.不同于永久性故障,瞬時(shí)故障持續(xù)時(shí)間短,并不會(huì)對(duì)硬件設(shè)備造成損壞,因此也被稱為軟錯(cuò)誤.任務(wù)的執(zhí)行可靠性通常定義為任務(wù)沒有遭受軟錯(cuò)誤而成功執(zhí)行的概率.任務(wù)的2 類執(zhí)行可靠性均可表示為指數(shù)函數(shù).
在智能交通系統(tǒng)中,影響車輛用戶體驗(yàn)質(zhì)量(quality of experience,QoE)的2 個(gè)關(guān)鍵因素是任務(wù)的時(shí)延和能耗.為同時(shí)考慮這2 個(gè)因素,本文提出一個(gè)新的效用函數(shù)以量化采用基于端—邊—云架構(gòu)的資源調(diào)度技術(shù)以改善系統(tǒng)在任務(wù)時(shí)延和能耗.
為了定義效用函數(shù),首先計(jì)算任務(wù)完全在車輛本地執(zhí)行所需的時(shí)延和能耗分別為
然后結(jié)合任務(wù)的通信模型和計(jì)算模型,并考慮卸載到邊緣服務(wù)器的任務(wù)數(shù)據(jù)和本地?cái)?shù)據(jù)可以同時(shí)執(zhí)行,任務(wù)的總執(zhí)行時(shí)間則表示為本地執(zhí)行時(shí)間和卸載執(zhí)行時(shí)間的較大值.因此,計(jì)算任務(wù)采用卸載技術(shù)后執(zhí)行所需的時(shí)延和能耗分別為
在式(19)~(22)定義的基礎(chǔ)上,所提出的效用函數(shù)表示為
本文的研究目標(biāo)為提升車輛用戶的QoE,即在可靠性的約束下最小化系統(tǒng)總時(shí)延和總能耗(即最大化效用函數(shù)值 Un).研究問題的形式化為:
由式(24)可知,目標(biāo)函數(shù)為所有車輛的效用值之和.為了提升系統(tǒng)中所有車輛的QoE,需要最大化所有車輛的效用值之和.約束C1表示任務(wù)的可靠性不得低于給定的閾值,以保證任務(wù)順利完成.約束C2表示任務(wù)需在截止期限之前完成,以保證實(shí)時(shí)性.約束C3表示RS Um分配給其區(qū)域Am內(nèi)所有車輛的計(jì)算能力之和不得超過其自身的計(jì)算能力
本節(jié)提出了一種多智能體強(qiáng)化學(xué)習(xí)算法,以解決本文研究的端—邊—云車路協(xié)同資源調(diào)度問題.在求解中,1 輛智能車對(duì)應(yīng)于1 個(gè)智能體,端—邊—云網(wǎng)絡(luò)架構(gòu)對(duì)應(yīng)于強(qiáng)化學(xué)習(xí)的環(huán)境,車輛的效用函數(shù)對(duì)應(yīng)于智能體的獎(jiǎng)勵(lì)函數(shù).本節(jié)將詳細(xì)介紹所提出的基于多智能體強(qiáng)化學(xué)習(xí)的端—邊—云車路協(xié)同資源調(diào)度優(yōu)化算法.
強(qiáng)化學(xué)習(xí)的主要角色為環(huán)境和智能體,智能體在每個(gè)時(shí)隙都會(huì)對(duì)所處環(huán)境狀態(tài)進(jìn)行觀察,然后根據(jù)觀察到的狀態(tài)作出動(dòng)作決策.環(huán)境會(huì)因?yàn)橹悄荏w的動(dòng)作響應(yīng)而發(fā)生變化,智能體也會(huì)從環(huán)境中感知到新狀態(tài)的獎(jiǎng)勵(lì)信號(hào).智能體將通過不斷調(diào)整和更新動(dòng)作策略,最終實(shí)現(xiàn)最大化累積獎(jiǎng)勵(lì),即回報(bào).強(qiáng)化學(xué)習(xí)算法中有3 個(gè)關(guān)鍵要素,即狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì),下面將結(jié)合系統(tǒng)模型和研究問題展開介紹.
1)狀態(tài)空間
為了讓智能體(即智能車)可以根據(jù)環(huán)境中的信息作出合適的動(dòng)作,可以將第n個(gè)智能體在時(shí)隙t的狀態(tài)空間表示為
2)動(dòng)作空間
3)獎(jiǎng)勵(lì)
在多智能體強(qiáng)化學(xué)習(xí)算法中,一個(gè)時(shí)隙t的獎(jiǎng)勵(lì)是所有智能體的獎(jiǎng)勵(lì)之和.對(duì)于車輛Vn而言,若當(dāng)前狀態(tài)滿足所有約束,當(dāng)前動(dòng)作的獎(jiǎng)勵(lì)可以用式(23)計(jì)算.再結(jié)合式(24)的約束條件,可以將第n個(gè)智能體在時(shí)隙t的獎(jiǎng)勵(lì)表示為
其中r為一個(gè)取值為負(fù)的參數(shù).如果擴(kuò)展為多智能體環(huán)境,當(dāng)前狀態(tài)對(duì)應(yīng)的系統(tǒng)獎(jiǎng)勵(lì)r(t)可以表示為所有智能體獲得的獎(jiǎng)勵(lì)總和,即
在多智能體環(huán)境中,一個(gè)智能體的策略和動(dòng)作通常會(huì)影響其他的智能體,因此我們使用集中訓(xùn)練—分散執(zhí)行架構(gòu)以滿足智能體之間共享信息的需求.此外,我們引入深度確定性策略梯度算法,該算法通過策略網(wǎng)絡(luò)將智能體的觀測(cè)映射為一個(gè)確定的動(dòng)作,以應(yīng)對(duì)動(dòng)作空間連續(xù)的問題.因此,本文介紹所設(shè)計(jì)的基于多智能體強(qiáng)化學(xué)習(xí)的資源調(diào)度算法.
4.2.1 多智能體深度確定性策略梯度算法網(wǎng)絡(luò)架構(gòu)
集中訓(xùn)練—分散執(zhí)行是多智能體強(qiáng)化學(xué)習(xí)的一種常用架構(gòu).本文所提出的多智能體深度確定性策略梯度算法是在集中訓(xùn)練—分散執(zhí)行架構(gòu)的基礎(chǔ)上進(jìn)行擴(kuò)展,通過引入深度確定性策略梯度算法以解決連續(xù)動(dòng)作空間的問題,算法架構(gòu)如圖2 所示.

Fig.2 Architecture of multi-agent deep deterministic policy gradient algorithm圖 2 多智能體深度確定性策略梯度算法架構(gòu)
在這種架構(gòu)下,每個(gè)智能體(agent)上均單獨(dú)部署一個(gè)actor 網(wǎng)絡(luò),輸入為智能體自身的觀測(cè)on,每個(gè)智能體自身的決策不會(huì)依賴其他智能體的觀測(cè);每個(gè)智能體都對(duì)應(yīng)一個(gè)集中式的critic 網(wǎng)絡(luò),部署在控制中心上,每個(gè)critic 網(wǎng)絡(luò)收集全局的觀測(cè)和所有智能體的動(dòng)作,根據(jù)自身的參數(shù)wn評(píng)價(jià)狀態(tài)和動(dòng)作的價(jià)值,并通過反向傳播以更新策略網(wǎng)絡(luò)的參數(shù) θn.當(dāng)訓(xùn)練結(jié)束后,智能體不再需要控制中心,每個(gè)智能體獨(dú)立地與環(huán)境交互并在actor 網(wǎng)絡(luò)的指導(dǎo)下作出動(dòng)作.所提算法在每個(gè)智能體上部署了一個(gè)策略網(wǎng)絡(luò)和一個(gè)目標(biāo)網(wǎng)絡(luò),共同組成actor-critic 結(jié)構(gòu)中的actor部分.每個(gè)智能體的價(jià)值網(wǎng)絡(luò)部署在控制中心以收集全局的觀測(cè)o、動(dòng)作a和獎(jiǎng)勵(lì)r,它和目標(biāo)網(wǎng)絡(luò)共同組成actor-critic 結(jié)構(gòu)中的critic 部分,o=(o1,o2,…,oN),a=(a1,a2,…,aN),r=(r(o1,a1),r(o2,a2),…,r(oN,aN)).
1)策略網(wǎng)絡(luò)
圖3 為策略網(wǎng)絡(luò)模型.對(duì)于第n個(gè)智能體,策略網(wǎng)絡(luò)的輸入是智能體自身的觀測(cè)on,經(jīng)過2 層全連接的隱藏層,其激活網(wǎng)絡(luò)為ReLu 函數(shù),輸出層用sigmoid 作為激活函數(shù)以限制動(dòng)作空間,最后輸出為二維動(dòng)作.策略網(wǎng)絡(luò)的優(yōu)化器采用自適應(yīng)矩估計(jì)優(yōu)化算法[22].
2)價(jià)值網(wǎng)絡(luò)

Fig.3 Policy network model圖 3 策略網(wǎng)絡(luò)模型

Fig.4 Value network model圖 4 價(jià)值網(wǎng)絡(luò)模型
圖4 為價(jià)值網(wǎng)絡(luò)模型.對(duì)于第n個(gè)智能體,其價(jià)值網(wǎng)絡(luò)的輸入是所有智能體的觀測(cè)o和所有智能體的動(dòng)作a.輸入經(jīng)過2 層全連接的隱藏層,其激活網(wǎng)絡(luò)為ReLu 函數(shù),然后輸出一維Q值.價(jià)值網(wǎng)絡(luò)的優(yōu)化器也采用自適應(yīng)矩估計(jì)優(yōu)化算法[22].
4.2.2 網(wǎng)絡(luò)訓(xùn)練
深度神經(jīng)網(wǎng)絡(luò)為了保證有監(jiān)督學(xué)習(xí)模型,要求數(shù)據(jù)滿足獨(dú)立同分布.因此,深度神經(jīng)網(wǎng)絡(luò)算法通過經(jīng)驗(yàn)回放對(duì)樣本數(shù)據(jù)進(jìn)行存儲(chǔ),然后利用隨機(jī)采樣更新深度神經(jīng)網(wǎng)絡(luò)參數(shù),以實(shí)現(xiàn)數(shù)據(jù)之間的獨(dú)立同分布并降低其關(guān)聯(lián)性,解決了經(jīng)驗(yàn)數(shù)據(jù)的相關(guān)性和非平穩(wěn)分布問題[23].因此,本文所提出的多智能體確定性策略梯度算法同樣采用經(jīng)驗(yàn)回放機(jī)制,具體訓(xùn)練過程為:
從經(jīng)驗(yàn)回放內(nèi)存緩沖區(qū) D中隨機(jī)選取數(shù)量為S的小批量樣本(ot,at,rt,ot+1).對(duì)于第n個(gè)智能體,根據(jù)時(shí)間差分法(temporal-difference,TD)[24]計(jì)算其TD 目標(biāo):
critic 中價(jià)值網(wǎng)絡(luò)的參數(shù)wn可以通過最小化loss函數(shù)實(shí)現(xiàn),loss 函數(shù)定義為
其中Q(ot,at;wn)為部署在控制中心上的第n個(gè)智能體對(duì)應(yīng)的critic 網(wǎng)絡(luò)中的價(jià)值函數(shù)對(duì)于時(shí)隙t狀態(tài)和動(dòng)作的評(píng)價(jià).actor 中策略網(wǎng)絡(luò)的參數(shù)可以通過確定性策略梯度方法更新,其loss 函數(shù)的梯度計(jì)算為
4.2.3 基于多智能體強(qiáng)化學(xué)習(xí)的資源調(diào)度優(yōu)化算法
本文面向時(shí)間和能量敏感的端—邊—云車路協(xié)同系統(tǒng),提出了一種基于多智能體強(qiáng)化學(xué)習(xí)的資源調(diào)度算法,其流程如算法1 所示.
算法1.基于多智能體強(qiáng)化學(xué)習(xí)的資源調(diào)度算法.
需要注意的是,在訓(xùn)練網(wǎng)絡(luò)時(shí),策略網(wǎng)絡(luò)需要智能體自身的觀測(cè)、動(dòng)作以及價(jià)值網(wǎng)絡(luò)返回的Q值,而價(jià)值網(wǎng)絡(luò)需要所有智能體的觀測(cè)、動(dòng)作和獎(jiǎng)勵(lì)信息.所以將critic 部署在云控制中心,而actor 部署在車輛本身.訓(xùn)練完成后,執(zhí)行階段只需要策略網(wǎng)絡(luò),不再需要價(jià)值網(wǎng)絡(luò),每個(gè)智能體可以根據(jù)自身的觀測(cè)作出最佳決策.
本節(jié)通過大量實(shí)驗(yàn)來驗(yàn)證所提算法的有效性,具體的實(shí)驗(yàn)設(shè)置和結(jié)果分析將在本節(jié)列出.為方便理解,表1 給出主要的參數(shù)設(shè)置.
實(shí)驗(yàn)所考慮的端—邊—云車路協(xié)同系統(tǒng)包含1個(gè)云數(shù)據(jù)中心.眾所周知,云中心的計(jì)算能力遠(yuǎn)大于邊緣服務(wù)器的計(jì)算能力,通常認(rèn)為不受限制.但為了量化云中心的計(jì)算能力,本文假設(shè)云中心由若干個(gè)服務(wù)器集群組成,每個(gè)服務(wù)器的計(jì)算能力為36.0 GHz;并且,服務(wù)器默認(rèn)按需使用以節(jié)省開銷,即當(dāng)一個(gè)服務(wù)器的計(jì)算能力不夠用時(shí)再開啟新的服務(wù)器.假定系統(tǒng)中有20 個(gè)路邊單元,每個(gè)路邊單元配備3 個(gè)Dell R230 邊緣服務(wù)器,每個(gè)服務(wù)器的計(jì)算能力為18.0 GHz[25].每個(gè)路邊單元覆蓋的區(qū)域半徑為400 m,最高時(shí)速為60 km/h.為比較不同車輛數(shù)目對(duì)路邊單元服務(wù)質(zhì)量的影響,每個(gè)路邊單元覆蓋范圍內(nèi)的車輛數(shù)分布在10~60.車輛的本地計(jì)算能力隨機(jī)分布在0.5~1.0 GHz,任務(wù)的數(shù)據(jù)量隨機(jī)分布在1~10 MB.

Table 1 Detailed Configuration of Parameters表 1 參數(shù)詳細(xì)配置
在所提算法中,策略網(wǎng)絡(luò)的學(xué)習(xí)率固定為0.0001,價(jià)值網(wǎng)絡(luò)的學(xué)習(xí)率固定為0.001,折扣因子 γ設(shè)置為0.8,目標(biāo)網(wǎng)絡(luò)的軟更新率λ=0.001.表2 給出了本文所有超參數(shù)的設(shè)置.

Table 2 List of Hyperparameters表 2 超參數(shù)列表
為了實(shí)現(xiàn)所提算法,每個(gè)智能體的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)都是4 層全連接神經(jīng)網(wǎng)絡(luò),中間2 層為隱藏層[26],神經(jīng)元數(shù)量分別為64 和48.為驗(yàn)證所提算法的性能,本文將它與SPSO 算法和DDPG 算法進(jìn)行對(duì)比:
1)慢移動(dòng)粒子群優(yōu)化算法(SPSO)[27]是一種改進(jìn)版的PSO 算法,它在搜索最優(yōu)解時(shí)通過減緩粒子運(yùn)動(dòng),使得粒子在個(gè)體最優(yōu)粒子和全局最優(yōu)粒子的指導(dǎo)下搜索出更多的高質(zhì)量解,具有較好的性能.本文將其作為對(duì)比算法,運(yùn)用于解決端—邊—云架構(gòu)下的車路協(xié)同資源調(diào)度問題.
2)深度確定性策略梯度算法(DDPG)[28]是一種單智能體強(qiáng)化學(xué)習(xí)算法.該算法使用actor-critic 架構(gòu)和DQN 算法,用于解決具有連續(xù)動(dòng)作空間的強(qiáng)化學(xué)習(xí)問題.本文將其作為基準(zhǔn)算法,運(yùn)用于解決端—邊—云架構(gòu)下的車路協(xié)同資源調(diào)度問題.
本文所提算法和SPSO 算法、DDPG 算法的評(píng)價(jià)指標(biāo)均為式(24)中的目標(biāo)函數(shù),即綜合體現(xiàn)時(shí)延和能耗優(yōu)化效果的效用值函數(shù).并且,效用值越高,說明算法在優(yōu)化時(shí)延和能耗的效果越好.為全面評(píng)估3種算法的性能,實(shí)驗(yàn)中將觀察在不同智能體數(shù)量N和權(quán)重 α下效用值的變化.

Fig.5 Total system utility values achieved by three algorithms under different weights and number of vehicles圖 5 不同權(quán)重和車輛數(shù)下3 種算法取得的系統(tǒng)總效用值
為比較不同權(quán)重和車輛數(shù)的情況下3 種算法所取得的系統(tǒng)總效用值,圖5 展示了3 個(gè)代表性路邊單元(分別是N=10,N=30,N=50)的系統(tǒng)總效用值.如圖5 所示,不論權(quán)重 α和車輛數(shù)N如何變化,所提算法明顯優(yōu)于SPSO 算法和DDPG 算法.具體來說,當(dāng)N=10時(shí),所提算法相對(duì)于另外2 種算法的優(yōu)勢(shì)并不顯著;但隨著車輛數(shù)增加,所提算法在動(dòng)態(tài)變化的多智能體環(huán)境中優(yōu)勢(shì)逐漸體現(xiàn),其系統(tǒng)總效用值明顯高于SPSO 算法和DDPG 算法.
為了更直觀地比較3 種算法,圖6 計(jì)算了不同權(quán)重 α下各算法的系統(tǒng)平均效用值,具體結(jié)果為:

Fig.6 Average system utility values achieved by three algorithms under different weights圖 6 不同權(quán)重下3 種算法取得的系統(tǒng)平均效用值
1)當(dāng)權(quán)重α=0.2時(shí),表明當(dāng)前系統(tǒng)更注重能效.如圖6(a)所示,所提算法實(shí)現(xiàn)的系統(tǒng)平均效用值顯著高于SPSO 算法和DDPG 算法.例如,當(dāng)車輛數(shù)N=23時(shí),所提算法相比于SPSO 算法,平均效用值最高可提升159.57%;當(dāng)車輛數(shù)N=60時(shí),相比于DDPG算法,平均效用值最高可提升221.9%.
2)當(dāng)權(quán)重α=0.5時(shí),表明當(dāng)前系統(tǒng)中時(shí)延和能效同等重要.如圖6(b)所示,所提算法實(shí)現(xiàn)的系統(tǒng)平均效用值依然明顯高于SPSO 算法和DDPG 算法.例如,當(dāng)車輛數(shù)N=25 時(shí),所提算法相比于SPSO 算法,系統(tǒng)平均效用值最高可提升 99.5%;當(dāng)車輛數(shù)N=50時(shí),所提算法相比于DDPG 算法,系統(tǒng)平均效用值最高可提升168.3%.
3)當(dāng)權(quán)重α=0.8時(shí),表明當(dāng)前系統(tǒng)更注重時(shí)延.如圖6(c)所示,所提算法實(shí)現(xiàn)的系統(tǒng)平均效用值仍然高于SPSO 算法和DDPG 算法.例如,當(dāng)車輛數(shù)N=30時(shí),所提算法相比于SPSO 算法,系統(tǒng)平均效用值最高可提升35.2 %;當(dāng)車輛數(shù)N=60時(shí),相比于DDPG 算法,系統(tǒng)平均效用值最高可提升140.8 %.
綜合觀察圖6(a)(b)(c),可以發(fā)現(xiàn)當(dāng)路邊單元的車輛數(shù)較少時(shí),3 種算法的系統(tǒng)平均效用值相差不大.隨著車輛數(shù)的增加,3 種算法的系統(tǒng)平均效用值雖然都呈上升趨勢(shì),但相比于SPSO 算法和DDPG 算法,所提算法實(shí)現(xiàn)的系統(tǒng)平均效用值增幅較大.這是因?yàn)楫?dāng)系統(tǒng)中車輛較少時(shí),車輛對(duì)資源的競(jìng)爭(zhēng)并不激烈,各個(gè)算法均能較容易地找到近似最優(yōu)解.然而隨著車輛增多,環(huán)境變得更為復(fù)雜,智能車之間的資源競(jìng)爭(zhēng)更加激烈,SPSO 算法容易陷入局部最優(yōu),DDPG 算法甚至在車輛數(shù)N=20時(shí)就趨于收斂,這是因?yàn)閱沃悄荏w算法不適用于動(dòng)態(tài)變化的多智能體環(huán)境.而所提算法可以通過迭代學(xué)習(xí)訓(xùn)練所有智能體的actor 網(wǎng)絡(luò),無論環(huán)境如何變化,智能體都能夠根據(jù)自身的觀測(cè)作出決策使系統(tǒng)接近納什均衡狀態(tài),因此可以適應(yīng)系統(tǒng)車輛增加而作出最優(yōu)決策.這體現(xiàn)了所提算法在解決多智能車輛資源調(diào)度問題中的優(yōu)越性.此外,在云邊資源有限的系統(tǒng)中,由于車輛對(duì)于通信資源和計(jì)算資源的競(jìng)爭(zhēng)性,系統(tǒng)效用值不會(huì)隨著車輛數(shù)的增加而無限增長(zhǎng).因此,本文還探究了系統(tǒng)平均效用值的收斂性.由圖6 可知,在資源給定的情況下,所提算法的系統(tǒng)平均效用值在車輛數(shù)N=48時(shí)趨于收斂.
給定一個(gè)端—邊—云車路協(xié)同系統(tǒng),圖7 進(jìn)一步展示了采用3 種算法后該系統(tǒng)中不同車輛所實(shí)現(xiàn)的效用值.值得注意的是,圖7 中的每個(gè)柱狀圖對(duì)應(yīng)的是圖5 中的相應(yīng)折線圖中3 種算法的最優(yōu)解.例如,圖5(a)中3 種算法的系統(tǒng)總效用值最優(yōu)解分別為8.84(本文算法),5.75(SPSO 算法),8.67(DDPG 算法);圖7(a)則用柱狀圖展示了這3 個(gè)最優(yōu)解對(duì)應(yīng)的系統(tǒng)中每個(gè)車輛實(shí)現(xiàn)的效用值.
如圖7 所示,所提算法可以保證系統(tǒng)中每輛車的效用值基本都不低于采用SPSO 算法和DDPG 算法取得的效用值.具體來說,車輛數(shù)較少時(shí),所提算法的優(yōu)勢(shì)并不明顯;但隨著車輛數(shù)增加,該算法獲得的單個(gè)車輛的效用值明顯高于SPSO 算法和DDPG 算法所獲得的.這是因?yàn)樗崴惴ㄒ宰畲蠡到y(tǒng)效用值為目的,通過不斷地迭代學(xué)習(xí)直到所有智能體作出的決策使得系統(tǒng)接近納什均衡狀態(tài).在這種狀態(tài)下,智能體可以作出最優(yōu)的資源調(diào)度方案,從而充分利用系統(tǒng)中的資源,以實(shí)現(xiàn)較高的卸載效用值.觀察圖7(c)(f)(i)可以發(fā)現(xiàn),當(dāng)車輛數(shù)較多時(shí),所提算法和SPSO 算法都存在某些智能體的效用值相對(duì)較低的情況,這是因?yàn)樵谫Y源受限的情況下存在一些不需要卸載就能在本地完成執(zhí)行的任務(wù),這些任務(wù)的資源競(jìng)爭(zhēng)力較弱,優(yōu)先級(jí)較低,分配到的資源相對(duì)較少,其效用值自然會(huì)比較低.但是在給定資源相同的情況下,所提算法可以保證大部分車輛獲得較高的效用值,而SPSO 算法只能保證少部分車輛具有相對(duì)較高的效用值(低于本文所提算法),且存在部分車輛效用值為0 的情況(例如α=0.2,N=30時(shí)).并且隨著車輛數(shù)增多,效用值為0 的車輛數(shù)逐漸增多,這是因?yàn)镾PSO 算法容易陷入局部最優(yōu),為了滿足所有車輛獲得的計(jì)算能力總和不超過路邊單元計(jì)算能力的約束,SPSO 算法將放棄卸載一些能夠在本地處理的任務(wù),從而導(dǎo)致這些任務(wù)的卸載效用值為0.而DDPG 算法則無法適應(yīng)動(dòng)態(tài)復(fù)雜的多智能體環(huán)境.由圖7 可知,隨著資源競(jìng)爭(zhēng)愈發(fā)激烈,DDPG算法輸出的每個(gè)智能體的卸載決策和資源分配策略基本相同,即將邊緣服務(wù)器的資源平均分配,使得所有智能體的效用值基本相同,卻忽略了任務(wù)的多樣性以及對(duì)于云中心計(jì)算資源的利用,從而導(dǎo)致智能體的效用值普遍較低且系統(tǒng)效用值過早收斂.

Fig.7 Utility values of vehicles achieved by three algorithms for a given system圖 7 給定系統(tǒng)中的不同車輛采用3 種算法取得的效用值
通過以上實(shí)驗(yàn)結(jié)果分析可以看出,所提算法與SPSO 算法和DDPG 算法相比具有明顯優(yōu)勢(shì),能夠充分利用路邊單元的計(jì)算資源,顯著提高卸載效用,從而優(yōu)化系統(tǒng)時(shí)延和能耗,有效解決了端—邊—云車路協(xié)同系統(tǒng)中的資源調(diào)度優(yōu)化問題.
在5.2 節(jié)中我們對(duì)所提算法進(jìn)行了訓(xùn)練,并驗(yàn)證了該算法相較于SPSO 算法和DDPG 算法在多智能體環(huán)境中的優(yōu)越性.本文所提算法采用了集中訓(xùn)練—分散執(zhí)行架構(gòu),主要目的是訓(xùn)練actor 網(wǎng)絡(luò),使其能夠輸出最優(yōu)動(dòng)作(即最優(yōu)資源調(diào)度方案);當(dāng)訓(xùn)練完成后,actor 網(wǎng)絡(luò)可以根據(jù)自身對(duì)于環(huán)境的觀測(cè)獨(dú)立地作出最優(yōu)動(dòng)作.該網(wǎng)絡(luò)也將最終部署于端—邊—云車路協(xié)同系統(tǒng)中的車輛終端.因此,為進(jìn)一步驗(yàn)證所提算法的訓(xùn)練效果,將訓(xùn)練過的actor 網(wǎng)絡(luò)部署在真實(shí)的硬件平臺(tái)上進(jìn)行測(cè)試.如圖8 所示,本文選取的硬件平臺(tái)為NVIDIA Jetson AGX Xavier 開發(fā)板[29].不失一般性,我們部署了3 種不同量級(jí)的actor 網(wǎng)絡(luò),并測(cè)試了這些網(wǎng)絡(luò)在不同權(quán)重下(α=0.2,0.5,0.8)的效果.考慮到開發(fā)板的資源限制,將3 種actor 網(wǎng)絡(luò)對(duì)應(yīng)的車輛數(shù)分別設(shè)置為N=10,N=17,N=25.
在本組實(shí)驗(yàn)中,每個(gè)actor 網(wǎng)絡(luò)都產(chǎn)生了10 個(gè)樣本.表3 列舉了不同權(quán)重下3 種actor 網(wǎng)絡(luò)的測(cè)試樣本均值和訓(xùn)練樣本均值.如表3 中結(jié)果所示,測(cè)試所獲得的系統(tǒng)平均效用值與訓(xùn)練所獲得的系統(tǒng)平均效用值非常接近,表明actor 網(wǎng)絡(luò)已獲得了較好的訓(xùn)練,可以根據(jù)自身觀測(cè)作出最優(yōu)動(dòng)作(決策).并且,測(cè)試結(jié)果也驗(yàn)證了所提算法訓(xùn)練的actor 網(wǎng)絡(luò)部署在真實(shí)硬件平臺(tái)的可行性.因此,該網(wǎng)絡(luò)未來可直接部署于端—邊—云車路協(xié)同系統(tǒng)中的車輛終端.

Table 3 Average System Utility Values Achieved by Three actor Networks Under Different Weights表 3 不同權(quán)重下3 種actor 網(wǎng)絡(luò)的系統(tǒng)平均效用值
本文面向智能交通系統(tǒng)中時(shí)間和能量敏感的車輛終端應(yīng)用,提出了一種基于多智能體強(qiáng)化學(xué)習(xí)的端—邊—云車路協(xié)同資源調(diào)度方法,以實(shí)現(xiàn)可靠性約束下的時(shí)延和能耗優(yōu)化.該方法采用集中訓(xùn)練—分散執(zhí)行的框架,并結(jié)合深度確定性策略梯度算法來訓(xùn)練和構(gòu)建深度神經(jīng)網(wǎng)絡(luò),以決策任務(wù)的卸載和計(jì)算資源的分配.本文定義了一個(gè)效用函數(shù)以量化采用基于端—邊—云架構(gòu)的任務(wù)卸載和資源調(diào)度后,車輛任務(wù)在時(shí)延和能耗方面的改進(jìn).實(shí)驗(yàn)結(jié)果表明,相比現(xiàn)有算法,所提方法可以充分利用端—邊—云車路協(xié)同系統(tǒng)的計(jì)算資源,獲得最高的效用值,驗(yàn)證了所提方法的有效性.此外,本文還驗(yàn)證了所提方法部署在實(shí)際硬件平臺(tái)的可行性,為將該算法部署于實(shí)際的端—邊—云車路協(xié)同系統(tǒng)奠定了實(shí)驗(yàn)基礎(chǔ).在未來的工作中,我們將搭建完整的端—邊—云車路協(xié)同系統(tǒng)硬件平臺(tái),并結(jié)合實(shí)際部署效果對(duì)所提算法展開進(jìn)一步優(yōu)化.
作者貢獻(xiàn)聲明:鄭瑩瑩實(shí)現(xiàn)研究方案,驗(yàn)證實(shí)驗(yàn),撰寫論文;周俊龍?zhí)岢鲅芯克悸罚O(shè)計(jì)研究方案,修改論文;申鈺凡和叢佩金協(xié)助實(shí)驗(yàn)驗(yàn)證,參與論文撰寫與修改;吳澤彬指導(dǎo)研究方案,參與論文撰寫與修改.