999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向車聯網的多智能體強化學習邊云協同卸載

2021-04-29 03:20:48葉佩文賈向東楊小蓉牛春雨
計算機工程 2021年4期

葉佩文,賈向東,楊小蓉,牛春雨

(1.西北師范大學計算機科學與工程學院,蘭州 730070;2.南京郵電大學江蘇省無線通信重點實驗室,南京 214215)

0 概述

目前,車輛消費升級、道路容量日趨飽和等客觀因素加劇了城市的交通困境。在5G 商用落地同時展望6G 愿景的背景下,構筑“車-人-路-云”泛在連接的車聯網(Internet of Vehicles,IoV)成為必然趨勢[1-2]。與此同時,在城市中部署智能交通系統(Intelligent Transportation System,ITS)緩解交通壓力也已成為主流選擇。而車聯網作為ITS 的核心部分,更需要在網絡架構和使能技術上不斷演進[3]。

在網絡架構方面,得益于云計算技術的迅猛發展,車聯網的大量計算任務可以有效地遷移到分布式云端服務器上進行數據處理、統一調度和計算資源分配。然而,單一的車輛云架構不可避免地要求數據進行長距離、高時延傳輸,這無法滿足需要敏捷響應的V2V 安全類信息通信要求。通過分析車輛行為與預測模型可以發現車輛群體存在局部性特征[4-5],即計算任務的卸載范圍通常局限于相鄰行駛車輛或車與周邊路旁單元之間,而將移動邊緣計算(Mobile Edge Computing,MEC)作為一種新的范式引入車聯網,能夠將計算能力下沉至網絡邊緣,從而減少服務時延[6]。

在使能技術上,車聯網邊緣計算卸載可利用凸優化、圖論以及博弈均衡等方法。但近年來人工智能特別是深度強化學習[7-8]在計算機視覺、自然語言處理、語音識別等領域獲得巨大成功,這吸引了國內外學者重新思考車聯網邊緣計算卸載方案的設計思路。

現有車聯網邊緣卸載策略存在場景同質化嚴重的問題,且在性能上仍有較大的提升空間。本文針對更泛在的城市街道場景,結合強化學習和隨機幾何理論,提出一種邊云協同的車輛邊緣卸載方案。結合隨機幾何理論和人工智能方法優化車聯網邊云卸載過程,將每個源車輛單元(Source Vehicle Unit,SVU)作為智能體來進行學習決策,并把由此產生的復雜訓練過程轉換到云端訓練神經網絡中,使SVU 僅依靠局部決策即能把握全局特征。此外,還將資源隊列模型作為神經網絡輸入前件,以降低維災風險。

1 相關工作

文獻[9]針對車輛邊緣計算(Vehicular Edge Computing,VEC)網絡提出了移動感知的任務卸載方法,以達到執行成本最小化的目的。文獻[10]提出一種聯合云計算、移動邊緣計算和本地計算的多平臺智能卸載方案,根據任務屬性,利用強化學習算法選擇卸載平臺,旨在最小化時延并節省系統總成本,但網絡模型中的控制面和數據面深度耦合,使得任務處理缺乏靈活性。文獻[11]提出了基于軟件定義[12]的車載網絡框架,其核心思想是將控制面和數據面分離,使運營商能夠更靈活地控制和更快速地部署網絡,但是車輛業務復雜和網絡拓撲結構多變的因素導致這一框架對車輛特征的抽象還不夠成熟,相應的車載網絡虛擬化技術仍需要深入研究。文獻[13]針對類似高速路口擁塞場景,利用車聯網異構資源性能互補特性,即計算資源開銷來供給通信資源需求,提出了基于霧計算[14]的車聯網邊緣資源融合機制,從而彌補車聯網資源時空分布不均的不足,但霧化機制[15]涉及大量基礎設施的改造和升級,因此,該機制在構建部署階段仍面臨諸多挑戰。

文獻[16]針對車聯網超可靠低延時通信(Ultra-Reliable Low-Latency Communication,URLLC)過程,將有異構性需求的車輛節點作為多智能體,利用強化學習進行數據卸載決策。文獻[17]以相鄰的車輛節點作為移動邊緣服務器,以路邊設施作為固定邊緣服務器,利用半馬爾科夫過程對時變信道進行建模,使移動用戶根據Q 學習算法確定卸載對象,同時針對增加訓練過程動作狀態空間可能引起維災的問題,提出利用深度神經網絡來逼近Q 函數的深度強化學習算法,旨在使系統總效用最大。文獻[18]基于值迭代和策略迭代兩種思路提出動作-評價學習(Actor-Critic learning,AC)算法。得益于Actor 執行動作然后Critic 進行評估的優勢,該算法在高維度空間仍具有良好的收斂屬性,但存在評價策略偏差較大的問題,導致求解所得只是局部最優解。文獻[19]將無線信道狀態、緩存狀態以及計算能力均納入系統狀態作為環境進行交互,由于通信、緩存、計算(Communication,Caching,Computing,3C)資源在應用場景具有耦合互補的特性,因此綜合權衡3C 資源效用為任務調度卸載提供了一個廣闊的思路。文獻[20]在此基礎上進一步考慮了時間尺度對協調優化的影響,提出大時間尺度采用粒子群優化理論而小時間尺度采用深度Q 學習算法調優的細化方案。

然而,現有車聯網邊緣計算方法普遍存在以下不足:1)多數方法僅在單一的高速公路場景進行建模,而此類場景通常假定車輛服從空間泊松過程(Spatial Poisson Process,SPP),這明顯限制了適用范圍,且簡化了車聯網實際通信的真實時空分布;2)云計算平臺大多采用集中式部署方案,計算任務從本地遷移到云端存在重構開銷,且隊列形式的任務傳輸易導致額外排隊時延和無序爭用,而目前缺乏邊緣計算節點協同云平臺的相關研究;3)在利用人工智能手段方面,現有研究的獎勵機制設計單一,從而導致訓練模型的泛化性較差。

本文結合強化學習和隨機幾何理論,提出一種邊云協同的車輛邊緣卸載方案,主要包括以下工作:

1)針對場景趨同、系統建模局限的問題,將城市街道建模為經典Manhattan模型[21],并利用隨機CoX過程[22]對移動車輛進行細粒度建模,相應考慮視距(Line of Sight,LoS)和非視距(Non-Line of Sight,NLoS)兩種情況的信道狀態。進一步地,考慮到級聯對象包含目標車輛單元(Target Vehicle Unit,TVU)和路邊單元(Rode Side Unit,RSU),對于SVU 而言在時空上具備離散性和流動性,通過隨機幾何理論分析級聯對象接收信干比(Signal to Interference Ratio,SIR)覆蓋概率,從而劃分出卸載節點的優先級,從根本上消除轉化成組合優化問題的必要性,降低計算復雜度。

2)依據邊云協同的思想,將SVU 作為智能體進行決策,并將決策記錄作為經驗上傳到云端,云端通過經驗訓練神經網絡,每隔一段時間將訓練更完備的神經網絡反饋到邊緣節點上。由此,只專注局部決策的SVU 能夠捕捉到云端存儲的全局特征而無需承擔復雜的訓練過程。

3)由于強化學習的本質是環境交互和基于獎勵,因此設計更貼近實際的多角色博弈獎勵機制。同時,為使從全局觀察縮小到局部觀察具有實質性作用,將節點資源隊列分析作為輸入的預先工作,從而減少計算任務的排隊時間,并在一定程度上降低維災風險。

2 系統模型

本文研究的系統模型如圖1 所示,其中小區的網絡架構由基站(Base Station,BS)和RSU 共同組成。基站通過核心網絡連接云端服務器,具有計算能力的RSU作為固定邊緣服務器(Fixed Edge Server,FES),中央云服務器可以通過回程鏈路連接FES 支持遠程調度。將具有計算能力的TVU作為移動邊緣服務器(Mobile Edge Server,VES),并從更廣義的角度定義邊緣節點性質,包括TVU 和RSU 兩種類型。

圖1 車聯網邊云協同卸載系統模型Fig.1 System model of collaborative edge and cloud offloading for IoV

假設本地計算容量已飽和,上述場景下的卸載途徑可分為以下3 種情況:1)在LoS 范圍內,SVU 將計算任務卸載給相鄰滿足條件的TVU,由于車輛到BS 上行鏈路的利用相對不充分,且BS 端對干擾更具可控性,因此為提高頻譜利用率,SVU 可以復用V2B 上行鏈路進行計算任務卸載;2)在NLoS 范圍內,SVU 同樣可以復用V2B 上行鏈路進行計算任務卸載;3)在基礎設施完備(即已部署RSU)的車輛稀疏路況場景中,SVU 可以將計算任務卸載到滿足條件的RSU 端。

本文將車聯網的空間分布建模為泊松線性Cox 點過程(Poisson Line Cox Point Process,PLCPP),對象包含車輛節點和路邊節點。具體過程如下:將車輛節點空間分布建模為密度為μV的獨立PLCPP,用ΦV表示;考慮到RSU 沿道路布放,將RSU 空間分布建模為線密度為μR的獨立泊松線過程(Poisson Line Process,PLP),用ΦR表示。假設車輛節點中TVU 占比為β,遵循PLCPP,則TVU 服從密度為μTVU=μVβ的PLCPP,SVU服從密度為μSVU=μV(1-β)的PLCPP。

2.1 通信模型

不失一般性,本文假設SVU 使用最近距離級聯卸載準則[23],并遵循廣義邊緣節點性質。定義計算任務集合T={T1,T2,…,TJ},SVU 集合用K表示,TVU 集合用N表示,RVU 集合用?表示。考慮計算任務卸載到邊緣節點存在視距(LoS)和非視距(NLoS)兩種情況,在周期t內,SVU 卸載計算任務Tj(j∈J)到邊緣節點的路徑損耗可表示為:

因此,LoS 范圍內卸載到第k個TVU 的頻譜效率可表示為:

引理1假設SVU 的卸載許可半徑為LS,與SVU級聯的TVU接收的SIR覆蓋概率可表示為式(4),其中,。證明見文獻[23]。

結合式(2)~式(4)可知,從第k個SVU 卸載到第n個TVU 的數據速率為:

類似地,對于SVU 處于車輛稀疏且RSU 設施完善的區域,SVU 可以卸載計算任務到滿足條件的RSU,與第k個SVU 級聯的第r個TVU 接收的SIR 為:

其中,I(k)TVU是來自TVU 的干擾,I(k)r′是來自其他TVU的干擾。

因此,卸載到第r個RSU 的頻譜效率可表示為:

引理2假設SVU 的卸載許可半徑為LS,與SVU 級聯的RSU 接收SIR 覆蓋概率可表示為:

結合式(7)和式(8)可知,從第k個SVU 卸載到第r個RSU 的數據速率為:

2.2 計算模型

在計算卸載過程中,可定義SVU 的卸載任務Tj?(Hj,Qj,),其中,Hj表示計算任務數據大小,Qj表示完成任務所需計算資源量,表示最大等待時間。

對于將計算任務卸載到TVU 的場景,SVU 卸載計算任務Hj到TVU 的時間開銷包括通信時間和計算時間兩部分。

卸載到TVU 的通信時間取決于計算任務數據大小Hj和提供服務TVU 的數據速率,結合式(9),通信時間可以表示為:

對于卸載到TVU 的計算任務,依照隊列形式保存到TVU 緩存中,并更新資源隊列狀態,實行任務遷移,保證排隊延時遠小于任務計算時間。因此,計算時間僅依賴于任務所需計算資源Qj和TVU 的計算能力fTVUj(即單位時間內CPU 周期數),可表示為:

結合式(10)和式(11)可知,TVU 的總執行時間為:

類似地,將計算任務卸載到RSU 場景的執行時間同樣包括通信時間和計算時間兩部分。

卸載到RSU 的通信時間可表示為:

卸載到RSU 的計算時間可表示為:

結合式(13)和式(14)可知,RSU 的總執行時間為:

2.3 資源隊列分析模型

SVU 在卸載計算任務時需要考慮卸載節點計算隊列大小。不失一般性,假設隊列節點初始資源量為qinitial,平均計算任務到達率E[Tj]=λ,在許可半徑LS內滿足資源量的TVU 和RSU 概率分別可表示為:

其中,Zi(λ,LS)表示Zipf 分布。

假設所考慮的車聯網中SVU在周期t內生成任務的概率為pj,SVU級聯卸載節點可提供的資源量表示為Θ=P(D2)(1-pj)μTVUμSVUE[L],其中,P(D2)表示平面周長,E[L]表示道路平均長度。因此,TVU所需保證的隊列長度為ΘTVU=Θ(1-PTVUq),SVU所需保證的隊列長度為ΘSVU=。相應地,對于周期t內生成任務Tj,卸載節點資源隊列長度。

3 問題描述

本節分別從執行時延、能耗約束和費用開銷維度分析車聯網任務卸載問題,并量化統一成系統效用評價卸載性能,將3 個維度評價性能的累加作為獎勵機制來反饋訓練神經網絡。

1)執行時延。定義F 為指示符,用于區分TVU 和RSU,則計算任務Tj執行時延可表示為:

3)費用開銷。考慮實際網絡架構包括車聯網運營商(Vehicle Network Operator,VNO)、基礎設施供應商(Infrastructure Provider,InP)和業務供應商(Service Provider,SP)三類角色。假設VNO 需向InP 支付的頻譜租賃費用為ε,VNO 需向SP 支付計算費用φ,則計算任務Tj的費用開銷包含通信開銷和計算開銷兩部分,可以表示為:

綜上所述,基于多角色博弈的獎勵機制,卸載任務的系統效用可由執行時延、能耗約束和費用開銷三者的子效用累計和來表示,即:

其中,ω=[ω1,ω2,ω3]表示子效用系數,在訓練過程中通過調整該參數來確定子效用的傾向性,例如在稀疏場景下更關注費用開銷,而在密集場景下更關注執行時延。

4 多智能體強化學習邊云卸載機制

車聯網是典型的高速移動實時傳輸場景,在其中進行單一云端集中式優化存在參數冗余、更新滯后和耗費通信開銷等問題。分布式邊云協同機制利用云端將訓練更完備的神經網絡反饋到邊緣節點,使得邊緣節點僅需要相鄰節點信息來更新參數執行操作。本節首先介紹狀態空間、動作空間及系統效用,然后描述多智能體強化學習流程及改進方案。

1)狀態空間。用S表示狀態集合,在時刻t的狀態可表示為,該狀態表征了計算任務Tj的時延、能耗和開銷狀態。

2)動作空間。定義動作集為A,計算任務采取的動作αj∈A,αj=1 代表計算任務Tj卸載到TVU 上執行,αj=0 代表計算任務Tj卸載到RSU 上執行,否則在該周期內不采取任何動作。

3)系統效用。累計任務時延、能耗約束、費用開銷三者的子效用作為獎勵函數評價動作空間與狀態空間的映射關系,結合式(21),在時刻t系統立即效用可表示為:

進一步地,由于當前的動作僅受前一時刻狀態影響,當前狀態通過執行某一動作轉換到下一狀態,因此可利用馬爾科夫決策過程來表述。假設狀態空間到動作空間的映射為Φ,即Φ()=aj,則系統狀態轉移概率可表示為:

狀態值函數Vπ(s) 和狀態動作函數Qπ(s,α) 可以表示為:

其中,π表示SVU 當前采取的策略,γ表示折扣因子。根據式(25)和貝爾曼公式的定義,進一步可得到式(26):

基于值迭代或策略迭代的傳統方法需要智能體獲得全局信息,不適用于信息特征變化頻繁的車聯網場景。由于Q 學習在與環境交互的過程中通過局部信息不斷地試錯來找到最優行為,因此SVU 可以通過Q 學習最大化長期效用獲得最佳的控制決策。但結合式(22)和式(26)可知此方法存在以下兩點不足:1)狀態空間的大小會隨著訓練的輪數大幅增加,影響收斂性;2)出現梯度消失或梯度爆炸現象,導致模型退化。本文對此做以下改進:

1)采用經驗重放策略。

將智能體在環境探索過程中獲得的經驗數據存放在經驗池中,在后續訓練深度神經網絡的過程中隨機采樣更新網絡參數。經驗池表示為Μ(j)={m(j-M+1),m(j-M),…,m(j)},存放的經驗數據元組表示為m(j)=。SVU隨機采樣?M(j)輸入神經網絡進行訓練,而非直接利用連續樣本進行訓練。更新規則可表示為:

2)采用邊云協同思想及線性Q 函數分解理論。

由式(22)可知,系統效用由任務時延、能耗約束和費用開銷累加形成,需要訓練大量的參數,不可避免地需要更多的計算資源和存儲資源,并且會增加訓練時間。因此,本文利用邊云協同思想,將神經網絡的訓練過程放置到云端,利用經驗回放池的數據進行訓練。此外,采用線性Q 函數分解理論對式(22)做進一步改進。設智能體指示符K={1,2,3}分別對應3 個效用分量,式(22)可表示為:

進一步地,式(25)可以表示為:

因此,式(27)所示的更新規則改進為:

5 仿真結果與分析

5.1 仿真設置

利用MATLAB 仿真平臺對所提邊云協同卸載方案進行仿真評估。仿真遵循Manhattan 模型描述的參數設置并按照MEC 白皮書[6]相關規定構建系統模型,使用SNIA 云服務器記錄所有數據集,并提供云端的計算服務支持邊緣節點參數更新。具體仿真參數見表1。

表1 仿真參數Table 1 Parameters of simulation

5.2 結果分析

為驗證所提方案的收斂性并比較不同學習率對其收斂性的影響,將時延作為參照結果。由圖2 可以看出:當學習率為0.01 時,收斂到一個局部最優解時延較大;縮小學習率至0.005 可以得到較大的性能提升,但收斂速度變緩;學習率為0.001 時,在收斂結果上仍有較大提升。考慮到更小的學習率會導致長時間無法收斂,本文采用0.001 的學習率作為后續實驗參數。

圖2 不同學習率下訓練周期與時延的關系Fig.2 The relationship of training period and time delay under different learning rates

不同方案的累計能耗隨訓練周期的變化趨勢如圖3 所示,其中累計能耗的大小代表了計算任務遷移量。可以看出:對照組沒有利用云端技術,邊緣節點累計能耗在短時間內快速上升,隨著任務量逐步均衡遷移而達到穩定狀態,因為路邊單元的計算能力強于車輛節點,所以僅V2I 卸載方案略優于僅V2V 卸載方案;本文方案利用邊云協同優勢,在訓練過程中參數更新及時,局部參數的快速迭代能擬合得到全局最優解,因此在較短的時間內就達到了系統功耗均衡。

圖3 不同方案訓練周期與能耗的關系Fig.3 The relationship of training period and energy consumption under different schemes

不同方案系統效用隨計算任務到達率及頻譜分配因子的變化趨勢如圖4 所示。可以看出:一方面,系統效用隨計算任務到達率先增后減,在計算任務到達率為0.6 時達到最佳狀態,此時資源隊列較優,使得執行子效用對系統效用傾向性較大,通過調整子效用系數來應對不同場景需求,本文對于執行時間有強約束,故將子效用系數設置為ω=[0.6,0.2,0.2];另一方面,計算任務生成率越高也能提升系統效用,任務數據傳輸不易丟包。相較于僅V2V 卸載和僅V2I 卸載方案,本文方案具有明顯優勢。在對照組實驗中,當計算任務達到率僅為0.5 時資源隊列就達到飽和狀態,計算任務已處于排隊狀態。

圖4 不同方案計算任務到達率與系統效用的關系Fig.4 The relationship of system utility and computation tasks arrival rate under different schemes

不同頻譜分配因子m下系統效用與計算任務到達率的關系如圖5 所示。可以看出,盡管本文方案計算任務到達率為0.6 時系統效用已達到最大值,但隨著到達率的增加仍保持接近最佳值,體現了本文方案的有效性。

圖5 不同頻譜分配因子下計算任務到達率與系統效用的關系Fig.5 The relationship of computation tasks arrival rate and system utility under different spectrum allocation factors

不同訓練周期和子效用系數設置下時延與能耗的關系如圖6 所示。可以看出:一方面,隨著訓練周期增加,即訓練的迭代次數的增加能反饋給智能體更完備的神經網絡結構,使得計算任務的卸載能耗有所下降,但值得注意的是,云端訓練的開銷能否得到有效供給是一個開放性問題,在本文中訓練周期為4 000 時達到了收斂狀態;另一方面,隨著子效用系數ω2的增大,系統的能耗也逐漸增大。費用開銷子效用系數ω3對于能耗的影響較大,ω3值增大導致能耗快速增長。

圖6 不同訓練周期和子效用系數設置下時延與能耗的關系Fig.6 The relationship of delay and energy consumption under different settings of training period and sub-utility coefficient

6 結束語

本文提出一種基于多智能體強化學習的車聯網任務卸載方案。采用隨機幾何理論對資源隊列進行控制,從而降低任務排隊時延,同時分離云端訓練神經網絡和節點決策神經網絡,使云端能夠更精準地提取環境特征,節點端則定時根據云端反饋的優化參數進行在線決策。仿真結果表明,與單一固定邊緣的計算策略相比,該方案能夠有效減小時延和能耗并且降低計算復雜度。下一步將結合節點緩存技術設計更高效的車聯網計算任務卸載方案。

主站蜘蛛池模板: 日韩国产欧美精品在线| 国产福利2021最新在线观看| 国产剧情伊人| 中文字幕免费在线视频| 婷婷综合缴情亚洲五月伊| 日本人又色又爽的视频| 亚洲专区一区二区在线观看| 91福利在线看| 丁香亚洲综合五月天婷婷| 国产视频 第一页| 女人18毛片一级毛片在线| 91在线播放免费不卡无毒| 国产欧美中文字幕| 免费大黄网站在线观看| 三区在线视频| 人妻精品久久久无码区色视| 国内视频精品| 国产精品免费入口视频| 国产精品永久免费嫩草研究院| 天天婬欲婬香婬色婬视频播放| 亚洲第一精品福利| 久久综合婷婷| 国产精品福利一区二区久久| 麻豆精品在线视频| 毛片大全免费观看| 色综合久久无码网| 国产另类视频| www亚洲天堂| 在线观看91精品国产剧情免费| 亚洲天堂网在线播放| 91精品国产综合久久香蕉922| 中文毛片无遮挡播放免费| 国产精品流白浆在线观看| 国产精品免费电影| 亚洲va在线∨a天堂va欧美va| 黄色网站不卡无码| 亚洲精品你懂的| 国内精品久久久久久久久久影视 | 国产精品美女网站| 亚洲成人精品在线| 女同久久精品国产99国| 久久成人免费| 欧美精品影院| 在线亚洲精品福利网址导航| 国产欧美日韩精品第二区| 日韩精品久久久久久久电影蜜臀| 亚洲三级电影在线播放| 国产在线视频导航| 一区二区欧美日韩高清免费| 亚洲免费人成影院| 四虎国产在线观看| 亚洲无码37.| 暴力调教一区二区三区| 午夜免费视频网站| 国内自拍久第一页| 亚洲人成网站色7799在线播放 | 凹凸精品免费精品视频| 久久久久国产精品免费免费不卡| 国产精品视频a| 免费一级毛片完整版在线看| 欧美性猛交一区二区三区| 国产XXXX做受性欧美88| 午夜视频日本| 色综合狠狠操| 永久免费精品视频| 国产精品女同一区三区五区| 综合网久久| 亚洲欧洲免费视频| 国产第一页亚洲| 中文字幕第4页| 日本一区高清| 亚洲国产成人久久精品软件| 在线播放国产一区| 国产成人综合久久精品下载| 91无码人妻精品一区二区蜜桃| 欧美一级在线播放| 国产精品人成在线播放| 爆乳熟妇一区二区三区| 综合色88| 亚洲大学生视频在线播放| 国产精品第一区在线观看| 国产最新无码专区在线|