王 萍 陸 巖 王 帥 姚汪鼎
(東華大學(xué)信息科學(xué)與技術(shù)學(xué)院 上海 201600)
為了支持5G高可靠低時(shí)延通信(Ultra Reliable Low Latency Communication, URLLC),第3代合作伙伴計(jì)劃(3rd Generation Partnership Project,3GPP)為蜂窩車聯(lián)網(wǎng)(Cellular Vehicle to Everything,C-V2X)定義了新的傳輸模式4(Mode 4)[1]。模式4使用PC5接口上的側(cè)鏈通道,支持直連通信[2]。C-V2X可以利用蜂窩基礎(chǔ)設(shè)施和表1中的新型5G網(wǎng)絡(luò)技術(shù)來提升通信質(zhì)量,有望成為無人駕駛、自動駕駛的關(guān)鍵技術(shù)[3,4]。

表1 5G網(wǎng)絡(luò)技術(shù)及優(yōu)勢
C-V2X中車輛具有高速移動性,會頻繁地加入或離開車輛的通信范圍。網(wǎng)絡(luò)為了及時(shí)跟蹤信道狀態(tài)和車輛位置信息,需要提高控制信令的發(fā)送速率。為了減少信令開銷,模式4允許車輛自主感知和資源重復(fù)使用,利用基于感測的半持續(xù)調(diào)度(Semi Persistent Scheduling, SPS)算法進(jìn)行資源分配[5]。然而SPS算法采用固定的資源選擇方式,在信道擁塞時(shí)會發(fā)生嚴(yán)重的分組碰撞問題,無法適應(yīng)動態(tài)變化的網(wǎng)絡(luò)拓?fù)浜途W(wǎng)絡(luò)負(fù)載。分組碰撞是導(dǎo)致傳輸中斷的主要原因[6],嚴(yán)重影響C-V2X安全類應(yīng)用的可靠性。本文重點(diǎn)研究高負(fù)載業(yè)務(wù)速率變化導(dǎo)致的V2X通信性能下降問題,針對動態(tài)業(yè)務(wù)流量環(huán)境提出靈活高效的資源分配算法,提升分組接收率和降低數(shù)據(jù)包更新時(shí)延。
近來,不少研究者改進(jìn)了SPS算法的資源選擇方式。文獻(xiàn)[7]提出基于SPS的資源交替選擇(Resource Alternative Selection, RAS)算法,采用2個(gè)預(yù)留資源進(jìn)行交替分配,能夠緩解連續(xù)碰撞。文獻(xiàn)[8]提出了使用Lookahead的半持續(xù)調(diào)度(Lookahead based Semi Persistent Scheduling, Lookahead-SPS)算法,在廣播消息的控制字段增加車輛的SPS參數(shù)信息,減少由于缺少鄰居車輛預(yù)留信息而產(chǎn)生的碰撞,但需要額外的信令開銷[9,10]。文獻(xiàn)[11]提出基于行車方向的SPS算法,可以減少反方向車輛的潛在干擾。此外,文獻(xiàn)[12]提出一種基于深度強(qiáng)化學(xué)習(xí)的聯(lián)合資源分配和功率控制方法,提升高密度場景下的分組接收率。在上述方法中,資源的預(yù)留和重用是固定的,不能有效反映信道質(zhì)量動態(tài)變化的影響。當(dāng)V2X網(wǎng)絡(luò)業(yè)務(wù)流量動態(tài)變化時(shí),SPS算法容易加劇分組沖突,無法滿足高可靠低時(shí)延的要求。
本文提出一種預(yù)留-重用聯(lián)合的Q學(xué)習(xí)型半持續(xù)調(diào)度(Reservation and Reuse Combined Q-learning Semi Persistent Scheduling, RRC-QSPS)算法,通過建立動態(tài)預(yù)留和重用的聯(lián)合Q學(xué)習(xí)模型,求解當(dāng)前V2X網(wǎng)絡(luò)環(huán)境下資源的最佳預(yù)留概率和重選計(jì)數(shù)器。本文主要貢獻(xiàn)如下:(1)通過高負(fù)載情況下分組碰撞的理論建模,研究資源的預(yù)留概率和重選計(jì)數(shù)器對分組碰撞的影響;(2)引入強(qiáng)化學(xué)習(xí)方法,建立預(yù)留-重用動作和Q目標(biāo)函數(shù),通過ε-貪心策略探索得到當(dāng)前環(huán)境下的最優(yōu)資源分配方案;(3)通過不同業(yè)務(wù)速率下的仿真,對比所提算法在分組接收率和更新時(shí)延方面獲得的性能增益。
本節(jié)介紹了V2X中用于周期性消息傳輸?shù)腟PS算法模型,并建立了使用SPS算法進(jìn)行資源分配的傳輸碰撞模型,得到了高負(fù)載情況下的數(shù)據(jù)包碰撞函數(shù)。
在車聯(lián)網(wǎng)安全類業(yè)務(wù)中,協(xié)作感知消息(Cooperative Awareness Messages, CAM)是車輛之間周期性交換的一種基本信息[13]。為支持CAM通信,車輛采用SPS算法分配無線資源。圖1為標(biāo)準(zhǔn)的SPS過程[14],包括信道感測和資源重選兩個(gè)步驟。由于沒有基站集中調(diào)度,車輛需要先感知無線資源的質(zhì)量,然后從可用資源列表LA中隨機(jī)選擇一個(gè)CAM資源(CAM Resource, CAMR)進(jìn)行預(yù)留,并多次使用[5]。圖1給出兩個(gè)無線資源(紅和藍(lán)),n為當(dāng)前子幀,資源選擇窗口為[n+T1,n+T2],時(shí)長小于100 ms。RRI為資源預(yù)留間隔。SPS算法實(shí)現(xiàn)了資源的1次預(yù)留多次使用,從而減少控制信令開銷,緩解端到端時(shí)延。

圖1 標(biāo)準(zhǔn)SPS算法的資源預(yù)留過程
在感測過程中,車輛檢測過去1 s內(nèi)無線資源的接收信號強(qiáng)度指示(Received Signal Strength Indication, RSSI),并依據(jù)式(1)創(chuàng)建可用資源列表LA


下面通過對SPS算法中碰撞概率的理論建模,研究參數(shù)RP和RC對分組碰撞的影響。
分組碰撞是影響可靠通信的主要原因[6]。在資源選擇過程中,如果多個(gè)節(jié)點(diǎn)同時(shí)選擇了相同的CAMR,將會導(dǎo)致分組碰撞問題。同時(shí)滿足RC=0的車輛越多,則碰撞概率越大[14]。
定義信道繁忙比(Channel Busy Ratio, CBR)為信道的利用率[15]


本節(jié)提出將最小化碰撞概率作為V2X網(wǎng)絡(luò)可靠性的優(yōu)化目標(biāo)。假設(shè)網(wǎng)絡(luò)車輛數(shù)目為K,使用SPS算法為周期性CAM消息調(diào)度資源。結(jié)合式(12),優(yōu)化問題可以表示為

本節(jié)提出RRC-QSPS算法,將強(qiáng)化Q學(xué)習(xí)用于V2X動態(tài)業(yè)務(wù)流量環(huán)境下的CAMR分配問題。車輛與環(huán)境實(shí)時(shí)交互,智能決策當(dāng)前環(huán)境下最優(yōu)的RP和RC。該算法能使車輛適應(yīng)動態(tài)流量的網(wǎng)絡(luò)環(huán)境,并降低碰撞概率。
強(qiáng)化學(xué)習(xí)具備自主決策且學(xué)習(xí)速度快等特點(diǎn)。<A,S,R,P >是強(qiáng)化學(xué)習(xí)中經(jīng)典的元組,A代表代理的動作空間;S為代理所能感知的狀態(tài)空間;R代表獎(jiǎng)勵(lì)或懲罰。代理根據(jù)與環(huán)境交互所獲得的獎(jiǎng)勵(lì)或懲罰,不斷地學(xué)習(xí)知識調(diào)整動作,使自身更加適應(yīng)環(huán)境。P為狀態(tài)轉(zhuǎn)移概率矩陣。依據(jù)馬爾可夫決策過程理論,P僅與當(dāng)前狀態(tài)和動作有關(guān)。強(qiáng)化學(xué)習(xí)通過試錯(cuò)學(xué)習(xí)獲得最優(yōu)策略,無需先驗(yàn)知識,因此適用于解決V2X網(wǎng)絡(luò)復(fù)雜環(huán)境中分布式資源分配問題。



圖2 強(qiáng)化學(xué)習(xí)原理圖

RRC-QSPS算法使用Q學(xué)習(xí)來獲得最優(yōu)的RP和RC值,使得資源選擇適應(yīng)網(wǎng)絡(luò)負(fù)載的動態(tài)變化。算法實(shí)現(xiàn)如圖3所示,CAM在網(wǎng)絡(luò)中周期生成,由SPS調(diào)度器為其分配時(shí)頻資源。SPS調(diào)度器以概率RP保持當(dāng)前使用資源,以概率1–RP重新選擇資源,且選中的資源將重復(fù)使用RC次。車輛觀察到t時(shí)刻的一個(gè)狀態(tài)st, 并選擇一個(gè)動作at,即選擇一個(gè)合適的RP和RC值。車輛根據(jù)動作的執(zhí)行從狀態(tài)st更新到st+1。最后,車輛將當(dāng)前狀態(tài)采取動作所得到的回報(bào)記錄在Q表中,以便再次達(dá)到相同狀態(tài)時(shí)能采取最優(yōu)的動作。RRC-QSPS算法的偽代碼在表2中進(jìn)行了描述。

表2 算法1 RRC-QSPS

圖3 RRC-QSPS算法結(jié)構(gòu)圖
本節(jié)在仿真中模擬動態(tài)變化的網(wǎng)絡(luò)負(fù)載,對比RCC-QSPS算法與現(xiàn)有的SPS算法和Lookahead-SPS算法的各個(gè)性能指標(biāo)。
實(shí)驗(yàn)使用了LTEV2Vsim仿真器[19],模擬高速公路場景下安全類業(yè)務(wù)CAM的傳輸。車輛移動模型被建模為泊松點(diǎn)過程,用于描述仿真中位置的動態(tài)性。實(shí)驗(yàn)中的路徑損耗和陰影衰落都根據(jù)WINNER+信道模型進(jìn)行計(jì)算。本文設(shè)置CAM業(yè)務(wù)的發(fā)包率(packets per second, pps)為5~100 pps。表3給出了仿真參數(shù)和配置。

表3 仿真參數(shù)和配置
為了評估不同網(wǎng)絡(luò)負(fù)載下的系統(tǒng)性能,本文使用了如式(20)–式(23)指標(biāo)

首先,本文評估了碰撞概率CR在不同網(wǎng)絡(luò)負(fù)載下的表現(xiàn)。如圖4所示,隨著業(yè)務(wù)速率的增加,RRCQSPS的CR始終保持較低水平1%以內(nèi),而SPS和Lookahead-SPS的CR均呈指數(shù)增長。由于RRCQSPS采用了Q學(xué)習(xí)模型,令車輛與變化的網(wǎng)絡(luò)環(huán)境實(shí)時(shí)交互,并決策出與當(dāng)前環(huán)境最匹配的SPS動作策略,重選CAMR和調(diào)整重復(fù)使用次數(shù),從而避免了分組同時(shí)傳輸造成的碰撞。因此RRC-QSPS可以在高負(fù)載狀態(tài)下實(shí)現(xiàn)低碰撞率。

圖4 碰撞概率與發(fā)包率的關(guān)系
圖5和圖6分別展示了分組接收率PRR和數(shù)據(jù)包更新時(shí)延UD隨業(yè)務(wù)速率的變化情況。圖5中3種算法的PRR均隨發(fā)包率的增大而減小。RRC-QSPS的PRR下降幅度最小,基本保持在92%以上。與Lookahead-SPS相比,RRC-QSPS在高負(fù)載情況下的PRR提升了7%。圖6中,UD隨著發(fā)包速率的增加而減小,RRC-QSPS的UD最低。與Lookahead-SPS相比,RRC-QSPS在高負(fù)載情況下的UD降低了10%。RRC-QSPS在PRR和UD上具有明顯優(yōu)勢,這是因?yàn)樗肣學(xué)習(xí)方法有效抑制了數(shù)據(jù)包碰撞。

圖5 分組接收率與發(fā)包率的關(guān)系

圖6 數(shù)據(jù)包更新時(shí)延與發(fā)包率的關(guān)系
在圖7中,3種調(diào)度算法的平均吞吐量隨著業(yè)務(wù)速率的增加而上升,最后趨于飽和。與Lookahead-SPS相比,RRC-QSPS在高負(fù)載情況下的吞吐量提升了50%。雖然傳統(tǒng)SPS的吞吐量最高,但高負(fù)載情況下PRR和UD性能明顯惡化。而RRC-QSPS能在動態(tài)業(yè)務(wù)速率環(huán)境下明顯改善PRR和UD性能,且保持較好的吞吐量水平,更加適用于URLLC場景,支持安全類車聯(lián)網(wǎng)業(yè)務(wù)。

圖7 平均吞吐量與發(fā)包率的關(guān)系
本文首先建立了動態(tài)C-V2X網(wǎng)絡(luò)中使用SPS調(diào)度算法的分組碰撞模型,研究參數(shù)RP和RC對高負(fù)載下分組碰撞的影響。其次,提出了預(yù)留和重用聯(lián)合的RRC-QSPS算法。該算法將時(shí)延和碰撞概率作為瞬時(shí)回報(bào)進(jìn)行強(qiáng)化學(xué)習(xí),智能決策RP和RC值,使得資源選擇能適應(yīng)網(wǎng)絡(luò)的動態(tài)變化。最后,仿真對比了不同業(yè)務(wù)速率下的算法性能。結(jié)果表明RRCQSPS算法在高速高負(fù)載網(wǎng)絡(luò)下明顯提高分組接收率,降低數(shù)據(jù)包更新時(shí)延,更加適用于動態(tài)網(wǎng)絡(luò)下高可靠低時(shí)延的車聯(lián)網(wǎng)應(yīng)用。此外,與已有Lookahead-SPS優(yōu)化算法相比,RRC-QSPS算法的吞吐量有所提升。未來的工作可以考慮更復(fù)雜的信道狀態(tài)和干擾信息,結(jié)合SPS資源選擇和功率控制,采用深度Q學(xué)習(xí)來處理高維復(fù)雜的映射關(guān)系,進(jìn)一步改善吞吐量。