一種基于預(yù)留-重用聯(lián)合的C-V2X通信Q學(xué)習(xí)型半持續(xù)調(diào)度算法

2022-08-19 02:54:56姚汪鼎

電子與信息學(xué)報(bào) 2022年8期

關(guān)鍵詞：資源

王萍陸巖王帥姚汪鼎

(東華大學(xué)信息科學(xué)與技術(shù)學(xué)院上海 201600)

1 引言

為了支持5G高可靠低時(shí)延通信(Ultra Reliable Low Latency Communication， URLLC)，第3代合作伙伴計(jì)劃(3rd Generation Partnership Project，3GPP)為蜂窩車聯(lián)網(wǎng)(Cellular Vehicle to Everything，C-V2X)定義了新的傳輸模式4(Mode 4)[1]。模式4使用PC5接口上的側(cè)鏈通道，支持直連通信[2]。C-V2X可以利用蜂窩基礎(chǔ)設(shè)施和表1中的新型5G網(wǎng)絡(luò)技術(shù)來提升通信質(zhì)量，有望成為無人駕駛、自動駕駛的關(guān)鍵技術(shù)[3，4]。

表1 5G網(wǎng)絡(luò)技術(shù)及優(yōu)勢

C-V2X中車輛具有高速移動性，會頻繁地加入或離開車輛的通信范圍。網(wǎng)絡(luò)為了及時(shí)跟蹤信道狀態(tài)和車輛位置信息，需要提高控制信令的發(fā)送速率。為了減少信令開銷，模式4允許車輛自主感知和資源重復(fù)使用，利用基于感測的半持續(xù)調(diào)度(Semi Persistent Scheduling， SPS)算法進(jìn)行資源分配[5]。然而SPS算法采用固定的資源選擇方式，在信道擁塞時(shí)會發(fā)生嚴(yán)重的分組碰撞問題，無法適應(yīng)動態(tài)變化的網(wǎng)絡(luò)拓?fù)浜途W(wǎng)絡(luò)負(fù)載。分組碰撞是導(dǎo)致傳輸中斷的主要原因[6]，嚴(yán)重影響C-V2X安全類應(yīng)用的可靠性。本文重點(diǎn)研究高負(fù)載業(yè)務(wù)速率變化導(dǎo)致的V2X通信性能下降問題，針對動態(tài)業(yè)務(wù)流量環(huán)境提出靈活高效的資源分配算法，提升分組接收率和降低數(shù)據(jù)包更新時(shí)延。

近來，不少研究者改進(jìn)了SPS算法的資源選擇方式。文獻(xiàn)[7]提出基于SPS的資源交替選擇(Resource Alternative Selection， RAS)算法，采用2個(gè)預(yù)留資源進(jìn)行交替分配，能夠緩解連續(xù)碰撞。文獻(xiàn)[8]提出了使用Lookahead的半持續(xù)調(diào)度(Lookahead based Semi Persistent Scheduling， Lookahead-SPS)算法，在廣播消息的控制字段增加車輛的SPS參數(shù)信息，減少由于缺少鄰居車輛預(yù)留信息而產(chǎn)生的碰撞，但需要額外的信令開銷[9，10]。文獻(xiàn)[11]提出基于行車方向的SPS算法，可以減少反方向車輛的潛在干擾。此外，文獻(xiàn)[12]提出一種基于深度強(qiáng)化學(xué)習(xí)的聯(lián)合資源分配和功率控制方法，提升高密度場景下的分組接收率。在上述方法中，資源的預(yù)留和重用是固定的，不能有效反映信道質(zhì)量動態(tài)變化的影響。當(dāng)V2X網(wǎng)絡(luò)業(yè)務(wù)流量動態(tài)變化時(shí)，SPS算法容易加劇分組沖突，無法滿足高可靠低時(shí)延的要求。

本文提出一種預(yù)留-重用聯(lián)合的Q學(xué)習(xí)型半持續(xù)調(diào)度(Reservation and Reuse Combined Q-learning Semi Persistent Scheduling， RRC-QSPS)算法，通過建立動態(tài)預(yù)留和重用的聯(lián)合Q學(xué)習(xí)模型，求解當(dāng)前V2X網(wǎng)絡(luò)環(huán)境下資源的最佳預(yù)留概率和重選計(jì)數(shù)器。本文主要貢獻(xiàn)如下：(1)通過高負(fù)載情況下分組碰撞的理論建模，研究資源的預(yù)留概率和重選計(jì)數(shù)器對分組碰撞的影響；(2)引入強(qiáng)化學(xué)習(xí)方法，建立預(yù)留-重用動作和Q目標(biāo)函數(shù)，通過ε-貪心策略探索得到當(dāng)前環(huán)境下的最優(yōu)資源分配方案；(3)通過不同業(yè)務(wù)速率下的仿真，對比所提算法在分組接收率和更新時(shí)延方面獲得的性能增益。

2 SPS資源調(diào)度模型

本節(jié)介紹了V2X中用于周期性消息傳輸?shù)腟PS算法模型，并建立了使用SPS算法進(jìn)行資源分配的傳輸碰撞模型，得到了高負(fù)載情況下的數(shù)據(jù)包碰撞函數(shù)。

2.1 SPS算法模型

在車聯(lián)網(wǎng)安全類業(yè)務(wù)中，協(xié)作感知消息(Cooperative Awareness Messages， CAM)是車輛之間周期性交換的一種基本信息[13]。為支持CAM通信，車輛采用SPS算法分配無線資源。圖1為標(biāo)準(zhǔn)的SPS過程[14]，包括信道感測和資源重選兩個(gè)步驟。由于沒有基站集中調(diào)度，車輛需要先感知無線資源的質(zhì)量，然后從可用資源列表LA中隨機(jī)選擇一個(gè)CAM資源(CAM Resource， CAMR)進(jìn)行預(yù)留，并多次使用[5]。圖1給出兩個(gè)無線資源(紅和藍(lán))，n為當(dāng)前子幀，資源選擇窗口為[n+T1，n+T2]，時(shí)長小于100 ms。RRI為資源預(yù)留間隔。SPS算法實(shí)現(xiàn)了資源的1次預(yù)留多次使用，從而減少控制信令開銷，緩解端到端時(shí)延。

圖1 標(biāo)準(zhǔn)SPS算法的資源預(yù)留過程

在感測過程中，車輛檢測過去1 s內(nèi)無線資源的接收信號強(qiáng)度指示(Received Signal Strength Indication， RSSI)，并依據(jù)式(1)創(chuàng)建可用資源列表LA

下面通過對SPS算法中碰撞概率的理論建模，研究參數(shù)RP和RC對分組碰撞的影響。

2.2 分組碰撞模型

分組碰撞是影響可靠通信的主要原因[6]。在資源選擇過程中，如果多個(gè)節(jié)點(diǎn)同時(shí)選擇了相同的CAMR，將會導(dǎo)致分組碰撞問題。同時(shí)滿足RC=0的車輛越多，則碰撞概率越大[14]。

定義信道繁忙比(Channel Busy Ratio， CBR)為信道的利用率[15]

2.3 問題描述

本節(jié)提出將最小化碰撞概率作為V2X網(wǎng)絡(luò)可靠性的優(yōu)化目標(biāo)。假設(shè)網(wǎng)絡(luò)車輛數(shù)目為K，使用SPS算法為周期性CAM消息調(diào)度資源。結(jié)合式(12)，優(yōu)化問題可以表示為

3 基于強(qiáng)化學(xué)習(xí)的半持續(xù)調(diào)度算法

本節(jié)提出RRC-QSPS算法，將強(qiáng)化Q學(xué)習(xí)用于V2X動態(tài)業(yè)務(wù)流量環(huán)境下的CAMR分配問題。車輛與環(huán)境實(shí)時(shí)交互，智能決策當(dāng)前環(huán)境下最優(yōu)的RP和RC。該算法能使車輛適應(yīng)動態(tài)流量的網(wǎng)絡(luò)環(huán)境，并降低碰撞概率。

3.1 強(qiáng)化學(xué)習(xí)原理

強(qiáng)化學(xué)習(xí)具備自主決策且學(xué)習(xí)速度快等特點(diǎn)。＜A，S，R，P ＞是強(qiáng)化學(xué)習(xí)中經(jīng)典的元組，A代表代理的動作空間；S為代理所能感知的狀態(tài)空間；R代表獎(jiǎng)勵(lì)或懲罰。代理根據(jù)與環(huán)境交互所獲得的獎(jiǎng)勵(lì)或懲罰，不斷地學(xué)習(xí)知識調(diào)整動作，使自身更加適應(yīng)環(huán)境。P為狀態(tài)轉(zhuǎn)移概率矩陣。依據(jù)馬爾可夫決策過程理論，P僅與當(dāng)前狀態(tài)和動作有關(guān)。強(qiáng)化學(xué)習(xí)通過試錯(cuò)學(xué)習(xí)獲得最優(yōu)策略，無需先驗(yàn)知識，因此適用于解決V2X網(wǎng)絡(luò)復(fù)雜環(huán)境中分布式資源分配問題。

3.2 RRC-QSPS算法模型

圖2 強(qiáng)化學(xué)習(xí)原理圖

3.3 RRC-QSPS算法實(shí)現(xiàn)

RRC-QSPS算法使用Q學(xué)習(xí)來獲得最優(yōu)的RP和RC值，使得資源選擇適應(yīng)網(wǎng)絡(luò)負(fù)載的動態(tài)變化。算法實(shí)現(xiàn)如圖3所示，CAM在網(wǎng)絡(luò)中周期生成，由SPS調(diào)度器為其分配時(shí)頻資源。SPS調(diào)度器以概率RP保持當(dāng)前使用資源，以概率1–RP重新選擇資源，且選中的資源將重復(fù)使用RC次。車輛觀察到t時(shí)刻的一個(gè)狀態(tài)st，并選擇一個(gè)動作at，即選擇一個(gè)合適的RP和RC值。車輛根據(jù)動作的執(zhí)行從狀態(tài)st更新到st+1。最后，車輛將當(dāng)前狀態(tài)采取動作所得到的回報(bào)記錄在Q表中，以便再次達(dá)到相同狀態(tài)時(shí)能采取最優(yōu)的動作。RRC-QSPS算法的偽代碼在表2中進(jìn)行了描述。

表2 算法1 RRC-QSPS

圖3 RRC-QSPS算法結(jié)構(gòu)圖

4 仿真結(jié)果與分析

本節(jié)在仿真中模擬動態(tài)變化的網(wǎng)絡(luò)負(fù)載，對比RCC-QSPS算法與現(xiàn)有的SPS算法和Lookahead-SPS算法的各個(gè)性能指標(biāo)。

4.1 仿真參數(shù)

實(shí)驗(yàn)使用了LTEV2Vsim仿真器[19]，模擬高速公路場景下安全類業(yè)務(wù)CAM的傳輸。車輛移動模型被建模為泊松點(diǎn)過程，用于描述仿真中位置的動態(tài)性。實(shí)驗(yàn)中的路徑損耗和陰影衰落都根據(jù)WINNER+信道模型進(jìn)行計(jì)算。本文設(shè)置CAM業(yè)務(wù)的發(fā)包率(packets per second， pps)為5～100 pps。表3給出了仿真參數(shù)和配置。

表3 仿真參數(shù)和配置

為了評估不同網(wǎng)絡(luò)負(fù)載下的系統(tǒng)性能，本文使用了如式(20)–式(23)指標(biāo)

4.2 仿真結(jié)果

首先，本文評估了碰撞概率CR在不同網(wǎng)絡(luò)負(fù)載下的表現(xiàn)。如圖4所示，隨著業(yè)務(wù)速率的增加，RRCQSPS的CR始終保持較低水平1%以內(nèi)，而SPS和Lookahead-SPS的CR均呈指數(shù)增長。由于RRCQSPS采用了Q學(xué)習(xí)模型，令車輛與變化的網(wǎng)絡(luò)環(huán)境實(shí)時(shí)交互，并決策出與當(dāng)前環(huán)境最匹配的SPS動作策略，重選CAMR和調(diào)整重復(fù)使用次數(shù)，從而避免了分組同時(shí)傳輸造成的碰撞。因此RRC-QSPS可以在高負(fù)載狀態(tài)下實(shí)現(xiàn)低碰撞率。

圖4 碰撞概率與發(fā)包率的關(guān)系

圖5和圖6分別展示了分組接收率PRR和數(shù)據(jù)包更新時(shí)延UD隨業(yè)務(wù)速率的變化情況。圖5中3種算法的PRR均隨發(fā)包率的增大而減小。RRC-QSPS的PRR下降幅度最小，基本保持在92%以上。與Lookahead-SPS相比，RRC-QSPS在高負(fù)載情況下的PRR提升了7%。圖6中，UD隨著發(fā)包速率的增加而減小，RRC-QSPS的UD最低。與Lookahead-SPS相比，RRC-QSPS在高負(fù)載情況下的UD降低了10%。RRC-QSPS在PRR和UD上具有明顯優(yōu)勢，這是因?yàn)樗肣學(xué)習(xí)方法有效抑制了數(shù)據(jù)包碰撞。

圖5 分組接收率與發(fā)包率的關(guān)系

圖6 數(shù)據(jù)包更新時(shí)延與發(fā)包率的關(guān)系

在圖7中，3種調(diào)度算法的平均吞吐量隨著業(yè)務(wù)速率的增加而上升，最后趨于飽和。與Lookahead-SPS相比，RRC-QSPS在高負(fù)載情況下的吞吐量提升了50%。雖然傳統(tǒng)SPS的吞吐量最高，但高負(fù)載情況下PRR和UD性能明顯惡化。而RRC-QSPS能在動態(tài)業(yè)務(wù)速率環(huán)境下明顯改善PRR和UD性能，且保持較好的吞吐量水平，更加適用于URLLC場景，支持安全類車聯(lián)網(wǎng)業(yè)務(wù)。

圖7 平均吞吐量與發(fā)包率的關(guān)系

5 結(jié)束語

本文首先建立了動態(tài)C-V2X網(wǎng)絡(luò)中使用SPS調(diào)度算法的分組碰撞模型，研究參數(shù)RP和RC對高負(fù)載下分組碰撞的影響。其次，提出了預(yù)留和重用聯(lián)合的RRC-QSPS算法。該算法將時(shí)延和碰撞概率作為瞬時(shí)回報(bào)進(jìn)行強(qiáng)化學(xué)習(xí)，智能決策RP和RC值，使得資源選擇能適應(yīng)網(wǎng)絡(luò)的動態(tài)變化。最后，仿真對比了不同業(yè)務(wù)速率下的算法性能。結(jié)果表明RRCQSPS算法在高速高負(fù)載網(wǎng)絡(luò)下明顯提高分組接收率，降低數(shù)據(jù)包更新時(shí)延，更加適用于動態(tài)網(wǎng)絡(luò)下高可靠低時(shí)延的車聯(lián)網(wǎng)應(yīng)用。此外，與已有Lookahead-SPS優(yōu)化算法相比，RRC-QSPS算法的吞吐量有所提升。未來的工作可以考慮更復(fù)雜的信道狀態(tài)和干擾信息，結(jié)合SPS資源選擇和功率控制，采用深度Q學(xué)習(xí)來處理高維復(fù)雜的映射關(guān)系，進(jìn)一步改善吞吐量。