基于強化學習的MTC隨機接入和異構網絡資源分配方法研究

2024-12-20 00:00:00張迎

電腦知識與技術 2024年30期

關鍵詞：MTC隨機接入；異構網絡；資源分配；強化學習；聯合資源分配

無線通信技術的新發展，以及無線基礎設施的廣泛鋪設，正逐步與工業自動化、互聯汽車和智能電網等物聯網應用深度融合，共同構筑未來智能化、網絡化的社會基礎平臺。據IHS Markit預測，到2030年，全球智能設備數量將激增至1 250億臺，這些設備將極大地促進產業流程的智能化、人員與社會的協同整合，從而全面提升人們的日常生活品質。

面對無線電資源有限的挑戰，MTC（機器類型通信）的核心任務在于支持龐大設備群體的通信需求。在此過程中，我們必須妥善應對一系列非傳統難題，包括但不限于無線接入網絡（Radio Access Network，簡稱RAN）的擁塞問題、流量的高度動態性和零星分散性，以及龐大的信令開銷。網絡擁塞現象可能出現在基于LTE/LTE-A技術的蜂窩網絡的各個環節，涵蓋RAN、核心網絡以及信令網絡。由于接入端可用的無線電資源有限，而大量的MTCD（機器類型通信設備）接入請求又持續涌入，這使得RAN擁塞問題在蜂窩物聯網網絡中變得尤為突出。因此，設計一種更為高效的隨機接入方案成為當務之急。

1 基于強化學習的隨機接入擁塞控制方法

1.1 系統模型

本文考慮了其中描述的兩步無連接數據包傳輸過程。在這個過程中，MTCD（機器類型通信設備）會在收到RAR（隨機接入響應）報文時，將其報文連同有關裝置識別、包數據網絡識別和安全性的全部必要信息一起發送出去。這樣，當gNB（下一代節點B）收到分組時，就會將分組發送給非連接接入網關，由網關對報文內容頭部進行檢查，驗證其完整性，并執行解密操作，然后按照所保存的狀態信息將分組發送給指定的網絡節點。該方法的主要缺陷在于，當數據包被發送以后，無論成功與否，終端都要將信息發送出去。針對這一問題，本文提出了一種改進的免連接二步法RA（隨機接入）處理方法，使MTCD能夠在Msg2（第二條消息）后發送具有上下文信息的報文。

為了克服無論接入嘗試是否成功都發送數據包的問題，采用了其中提出的早期前導沖突檢測技術，其中gNB可以在Msg1（第一條消息）中檢測前導碼是否發生沖突。具體來說，每個設備從可用于基于競爭的過程的前導碼中隨機選擇一個前導碼并發送，該前導碼由所選前導和標簽序列組成。通過接收到的標記前導碼，gNB可以針對每個接收到的前導碼檢測是否發生沖突，方法是推斷與其關聯的標簽并驗證是否已發送多個標簽。

另外，由于計算機類通信數據的數量是很少的，所以假定每一個傳送請求都有同樣的上界值，通過廣播進行傳送。在Msg2中，gNB將所需的PUSCH（物理上行共享信道）資源分配給每一次成功訪問嘗試，以達到最大的數據傳送量。

這樣，從gNB收到報文應答的MTCD進入WRAR （等待隨機接入響應）窗口，并在下一RA 周期的PUSCH中發送它的數據。設定WRAR=5 ms，使數據能在下一個RA周期內進行發送，這段時間足夠保障有標志前置碼的發送（包含循環前綴與發送時延）、gNB端的處理時延、RAR報文的發送、1 ms的應答時間。反之，如果在WRAR窗口中沒有收到來自gNB的信息，則只有在這個時候才會進行重試。

在RA處理開始前，基站定期地廣播包含若干關鍵參數、前置信息以及預配置資源的系統信息塊。MTCD在一個RA槽中傳輸一個包含報頭和相應的標記信息的分組，該分組共有Pds個正交前導。通過接收到的有標簽的前導，gNB能夠判斷出每一個前導是否發生碰撞。若在當前的RA時隙中，MTCD未從gNB 收到RAR報文，且當前的重發數目低于最大重發數目，則MTCD會在下一時隙再進行隨機接入[1]。

由于延遲需求，每臺設備最多有MA 次重試訪問、傳送數據的機會，即，在槽t 新到達的設備最遲要在t至t+MA 之間的時間間隔內完成數據傳送，否則，該任務將被丟棄，導致任務失敗。在RA時間間隔t 內，參與RA進程的MTCD數目為：該碼元是指在RA槽t 內新有效MTCD的指數集合。符號被認為是RA時隙t-1中沖突MTCD的索引集，滿足條件：

在時間槽t 終止之后，在時間槽t+1至（t+MA）內，未能進行內部存取的裝置將被再次存取。假定新活化的MTCD數目滿足Poisson分布，且其速率參數>1）。在此基礎上，我們提出了一種新的方法，該方法可以有效防止前同步碼的碰撞，并且在有限的延遲預算下保證接入的可靠性。

本文用Dk表示第k 個前導碼被0個設備、1個設備、多個設備選中，第k 個前導碼只被一個設備選中的概率為p（Dk = 1| Ni = n），可以表示為：

由式（4）可以得到最優值，當可用前導數為Pds=32 時，成功傳輸前導的設備數和嘗試接入當前時隙的設備數的曲線圖。

當橫軸坐標為31.49時，有一個極值11.96。由于設備數是整數，所以取Ni=32。也就是說，如果每個時隙內嘗試接入的設備數量控制為32，如果當前接入時隙內嘗試接入的設備數量Ni<=32，那么這些設備都可以嘗試接入，當Ni>32.設備根據其剩余的任務重傳次數選擇主動退避，保證當前時隙內嘗試接入的設備數量為32個，充分利用前導碼，降低沖突概率。基于這一思想，本文提出了一種基于強化學習的接入控制策略。接入成功率：模擬周期內成功連接的設備總數與設備總數的比值，則接入成功率表達式為：

1.2 基于強化學習的接入控制

基于模型驅動的強化學習算法的思想是使用模型來解決問題。為了建立MDP，我們將無線資源分配問題建模為一個馬爾可夫決策過程，即使用一個狀態空間和一個動作空間來表示資源分配問題。為了便于分析，將MDP建模為包含用戶狀態、無線資源和網絡狀態的馬爾可夫決策過程。因此，需要一個獎勵函數來獎勵成功的用戶接入嘗試和成功的網絡狀態。為了解決這個問題，首先使用深度神經網絡（DNN）模型來訓練MDP。DNN模型的優勢在于它可以通過端到端的訓練過程來處理多個輸入數據，這意味著DNN 模型可以通過提供高質量的輸入來提高網絡性能。另外，DNN可以解決大規模問題。DNN可以通過學習一個有向圖來表示用戶和網絡之間的關系，因此它可以用來訓練強化學習算法[2]。

在基站覆蓋下，對時延靈敏的MTCD可以通過觀測當前隨機存取時隙的狀態來判斷是否先存或暫存，然后采取相應行動。當基站接收到訪問請求時，通過廣播方式向MTCD發送前同步碼沖突信息以及當前時隙試圖訪問MTCD的次數，并在接收到該請求后進行回報，從而實現自身網絡的更新。該算法采用多次重復的方法，使每一個試圖訪問的終端具有32個時隙，從而減少了前同步序列發生碰撞的可能性[3]。

1.3 性能仿真

在這一部分中，給出了基于pytroch的模擬實驗，通過修改γ 和pds的數值，證明了該算法的可行性，同時也說明了其它算法與傳統算法相比的優勢。本文設定學習速率為8x10-4，對500個情景進行訓練，每一情景包含5 000個時隙。折讓系數設為0.9。

在每個場景中，每個場景所得到的接入成功率和訓練場景數量的關系。當取不同的參數時，接入成功率隨事件個數的增大而增大，而后收斂（趨穩）。實驗結果表明，該強化學習算法具有良好的收斂性。另外，在收斂過程中，接入成功率隨時間的增大而下降。其原因在于，在同一前導資源的情況下，競爭前導資源的有效MTCD數目更少，使得在有限時間預算下，MTCD被拒絕的可能性很小。

訪問成功率被表達為Pds的恒定值為γ=7，不管是哪一種，訪問成功率都隨有效前置導數法的增大而提高，但是相對其他兩個方案，本發明的訪問成功率更高。實驗結果顯示，該方法具有較大的可擴展性[4]。

對3個方案為達到99x10-2的訪問成功率所需要的最低Pds數目進行比較。與已有的方法比較，本項目所設計的方法能夠顯著降低系統所需要的前置碼數目，節約系統的資源，并能在一定的時延預算下保障多個移動終端的訪問可靠性。比如，為了實現預定的訪問成功率99×10-2，傳統的方法要求Pds=36。相對文獻中要求Pds=31的要求，我們的方法僅需Pds=10。也就是說，該方法比常規方法節約72%的Pds和67%的能源[5]。

2 基于強化學習的異構網絡資源分配

2.1 基于模型驅動的強化學習資源分配仿真分析

本文給出了基于模型驅動的強化學習的性能仿真結果，假定用戶以1m/s的速率在蜂窩中以1m/s的速度移動，其中MBS、PBS、FBS各一臺，功耗極限分別為38 dbm、36 dbm、35 dbm。該方法適用于小規模、異質網絡。

對所提出的算法在不同QoS情況下的譜效率進行比較。結果表明，當用戶數目增多時，頻譜效率會提高，但在無QoS約束的情況下，某些用戶會出現較低的傳輸速率，這會降低系統的頻譜利用率。

2.2 基于多智能體強化學習的聯合資源分配仿真分析

本文提出多智能體強化學習資源分配算法在異構網絡下行鏈路中的性能表現，并給出了本文算法與其他RL算法及貪婪算法的對比結果。采用Tensor?Flow平臺進行實驗仿真，仿真設置中宏基站數量為2，微基站數量為8，毫微基站數量為12，用戶數N∈{20，25， 30， 35， 40}，并將各用戶隨機分配到各小區[7]。毫微基站的覆蓋范圍為30m，最大功率為20dBm，最大能量為38dBm，兩個基站之間的路徑損耗為34+40dB，因此，兩個基站之間存在較大的信道損耗。該信道的頻寬為180 千赫，噪聲與能量密度為0 牛頓每赫為-174 dBm/赫。再現內存D的大小為500，抽樣批次的長度為32，學習率參數為0.00005。把每個情景設置為500次，訓練500個情景。該算法僅利用了用戶自身的信道狀態，適用于更大范圍的異質網絡環境[8]。

算法在不同學習率下的訓練效率表現如下：在學習初期，由于智能體缺乏以往的學習經驗，難以找到符合服務質量需求的方法，且在到達預定的最大循環次數后仍無法收斂；但是，隨著事件數量的增加，智能體的收斂速度會變快。在不同學習率下，當學習速率為0.00005時，僅需10步以內即可收斂，而在0.001時則會緩慢收斂。這是因為當網絡的學習率過高時，會影響收斂速度，只有適當的學習率才能加快收斂。

3 結束語

隨著物聯網的快速發展，移動終端數量日益增多，這對移動通信系統提出了新的技術挑戰。為適應高時延、高可靠性的多層傳輸系統，研究更高級的多層隨機接入技術顯得尤為重要。本項目針對移動終端移動通信系統中存在的接入問題，結合增強學習理論，研究了具有低時延容忍特性的移動終端多用戶接入機制，并在此基礎上研究了面向多用戶移動終端的多用戶移動通信系統。

電腦知識與技術2024年30期

電腦知識與技術的其它文章: 基于OBE理念的程序設計類課程教學質量管理模式改革實踐探析; C語言程序設計課程思政建設路徑探索：以國家一流課程建設為契機; 產業學院背景下大數據應用現場工程師培養路徑研究; 基于核心能力培養的信息安全專業綜合實踐課程教學改革探析; 教改背景下電工技術課程思政建設改進思考; 面向新工科應用創新型人才培養的計算機網絡課程教學改革與實踐