李昕,孫君,2
研究與開發
基于價值差異學習的多小區mMTC接入算法
李昕1,孫君1,2
(1. 南京郵電大學通信與信息工程學院,江蘇 南京 210003;2. 江蘇省無線通信重點實驗室,江蘇 南京 210003)
在5G大連接物聯網場景下,針對大連接物聯網設備(massive machine type communication device,mMTCD)的接入擁塞現象,提出了基于價值差異探索的雙重深度Q網絡(double deep Q network with value-difference based exploration,VDBE-DDQN)算法。該算法著重解決了在多小區網絡環境下mMTCD接入基站的問題,并將該深度強化算法的狀態轉移過程建模為馬爾可夫決策過程。該算法使用雙重深度Q網絡來擬合目標狀態—動作值函數,并采用基于價值差異的探索策略,可以同時利用當前條件和預期的未來需求來應對環境變化,每個mMTCD根據當前值函數與網絡估計的下一時刻值函數的差異來更新探索概率,而不是使用統一的標準,從而為mMTCD選擇最佳基站。仿真結果表明,所提算法可有效提高系統的接入成功率。
大連接物聯網;隨機接入;強化學習;基站選擇
5G移動通信及未來移動網絡(包括物聯網)的部署正在推動先進物聯網的發展[1–3],將人與人之間通信拓展到人與物、物與物之間通信,開啟萬物互聯時代[4]。大連接物聯網(massive machine-type communication,mMTC)系統的主要挑戰是在上行鏈路中為大量設備設計穩定高效的隨機接入方案[5]。特別是,隨著5G移動通信的發展和大規模物聯網場景的出現,數以百計的大連接物聯網設備(massive machine type communication device,mMTCD)被連接起來[6]。據Statista統計,到2030年,全球預計將使用500億臺物聯網設備[7],為未來的蜂窩網絡設想一個真正的大連接物聯網場景。但是,mMTCD的快速增長為隨機接入(random access,RA)帶來各方面的挑戰[8]。
為了解決蜂窩物聯網中的RA擁塞問題,3GPP提出了幾種解決方案,包括訪問等級限制及其變體、特定于mMTC的退避方法、時隙RA、RA資源分離和分頁RA方法[9]。此外,文獻[10]中還研究了其他方案,如優先級RA、基于分組的RA和碼擴展的RA。然而,大多數現有的方法適用于集中式系統,并且是被動的,而不是具有高度動態特性的mMTCD所需的。因此,目前的研究傾向于強化學習(reinforcement learning,RL)輔助的接入控制方案,因為它更適應于學習系統變化和參數不確定的環境。
在RL中,Q-學習因其無模型和分布式特性,更適合mMTC場景。文獻[11]提出了一種基于協同Q-學習的擁塞避免方法,該方法利用每個時隙的擁塞水平來設置獎勵函數。文獻[12]中,每個mMTCD通過Q-學習選擇其傳輸的時隙和傳輸功率來提高系統吞吐量。文獻[13]提出結合NOMA和Q-學習方法,以便在前導分離域中顯著分開區域中的設備,既可以重用前導碼而不會發生沖突,減少連接嘗試。文獻[14]提出雙Q-學習算法,該算法可以動態地適應ACB機制的接入限制參數。雙Q-學習的實現可以降低傳統Q-學習過高估計Q值的風險,避免導致次優性能。文獻[15]提出了基于多智能體的智能前導碼選擇機制,將神經網絡與RL結合,有效提高了mMTCD接入的性能。同時為解決mMTCD的接入問題提供了思路。以上方案只關注在單小區接入過程中的擁塞問題,很少關注在基站側的影響。即使mMTCD完成了隨機接入過程,也會出現過載和資源分配失敗。因此需要設計高效穩定的eNB選擇方案,以適應mMTC的特性,減少網絡擁塞和過載。文獻[16]中Q-學習用于選擇最佳可用基站,使用吞吐量和時延作為QoS測量和獎勵。文獻[17]在時隙多小區隨機接入的場景下,提出了一種基于指數權重探索與開發的RL算法,用于選擇關聯的接入點。但是文獻[16-17]不能處理網絡密度的增長,因此過載仍然是一個問題。雖然Q-學習因其分布式和無模型特性而被廣泛使用,但是在mMTC場景下,其并不能解決網絡密度增長帶來的挑戰,可能會使其Q表過大并且增加查表難度導致函數難收斂。因此,本文引入神經網絡擬合Q表來優化傳統用于隨機接入的RL算法,并使用雙重網絡提高算法精度。同時,提出一種探索策略,進一步提高算法性能,與現有的基于多小區隨機接入的算法相比,本文算法降低了選擇eNB的隨機性,更能選擇最優的eNB。
因此,本文提出了基于價值差異的雙重深度Q網絡(double deep Q network with value-difference based exploration,VDBE-DDQN)算法來解決多小區網絡環境下的eNB選擇問題。通過雙重深度Q網絡(double deep Q network,DDQN)來學習mMTCD到eNB的直接映射,同時,當網絡參數未知時,引入價值差異探索(value-difference based exploration,VDBE)的研究方法,根據每個mMTCD自身學習的情況更新探索概率,使學習過程更符合每個mMTCD的需求。在學習過程中,知道的信息越多,越有可能在所知的eNB中選擇最優eNB,而不是隨機選擇。本文所提方法與其他多小區網絡選擇基站的隨機接入方法相比,能夠允許大量mMTCD的接入,并有效提高系統中mMTCD的接入成功率。
系統模型如圖1所示,系統模型由位于小區原點的eNB和隨機分布在其周圍的個mMTCD組成。本文只考慮mMTCD與eNB之間的上行鏈路傳輸,其中mMTCD以信號和數據的形式向eNB發送接入請求,eNB充當數據集中器,并向其覆蓋區域的設備廣播控制消息。考慮個小區,每個小區由位于其原點的基站所覆蓋。區域1的mMTCD僅由eNB1服務,3個小區重疊區域的設備可以選擇3個eNB中的任一個通信。如果多個集中器可用,那么每個mMTCD每次只能選其中一個通信。

圖1 系統模型
在隨機接入之前,設備需要等待前導碼來傳輸分組,前導碼被定義為向eNB發送數據包的傳輸機會[18]。如果多個設備同時選擇相同的前導碼,那么會發生前導碼碰撞,使設備無法分配到前導碼,無法向eNB傳輸數據包。所以重疊區域的mMTCD在發送數據包之前必須選擇一個eNB進行傳輸,那么擁塞較少的eNB將有更大的可能將前導碼分配給mMTCD,增加成功接入的可能。除此之外,接入失敗的設備可以在下一時隙重新請求接入。為了評估在多小區網絡下系統的性能,將接入成功率作為性能指標:

在RL中,智能體通過試錯來學習。智能體與環境交互的學習過程可以被視為馬爾可夫決策過程(Markov decision process,MDP),其被定義為一個四元組[],分別表示狀態集、動作集、狀態轉移和獎勵。RL框架與MDP如圖2所示,為RL中智能體與環境的交互過程以及將其狀態轉移描述為MDP。

圖2 RL框架與MDP


Q-學習是RL最常見的一種,通過對智能體與其環境之間的交互進行抽樣觀察學習值函數。在時隙,先基于當前狀態,使用貪婪法按一定概率選擇動作,得到獎勵,進入新狀態。每個狀態下的Q值通過以下迭代過程[19]計算:

設備每隔一段時間檢測當前小區的網絡狀態,并根據當前網絡狀態決定是否切換小區來達到更好的接入效果。與算法相關的狀態、動作和感知獎勵定義如下。
狀態:狀態為mMTC設備,連接它所選擇的eNB。

獎勵R:獎勵是在mMTCD向eNB發送接入請求之后獲得,需考慮mMTCD是否在網絡覆蓋范圍。如果不在覆蓋范圍,設置=0,此時mMTCD向eNB發送任何請求都無效,獎勵值為0;如果在覆蓋范圍,設置=1。此時若eNB接收了mMTCD的接入請求,則發送確認信息;若mMTCD發送數據失敗,說明選擇同一個eNB的設備發生了碰撞沖突。



此外,算法將深度神經網絡(deep neural network,DNN)代替Q表,并將其稱為深度Q網絡(deep Q network,DQN)。在DQN中,通過DNN對值函數近似,可表示為:



目標值表示為:

其中,表示目標網絡的權重。
此外,由于在Q-學習和DQN方法中使用相同的值來選擇和評估動作,Q值函數可能過于樂觀。因此,使用DDQN[20]通過以下定義的目標值替換(8)的值來緩解上述問題:






算法1:基于VDBE-DDQN的eNB選擇算法描述

for 每個回合數=1,...,
for每個0,...,
每個mMTCD觀察狀態
根據式(13)更新
end for
end for


表1 仿真參數設置


圖4 不同學習率下的性能
不同優化算法的性能如圖5所示,其針對參數更新的不同優化算法的性能。在學習開始時,這3種情況下的訓練步數都非常大。隨著回合數增加,收斂速度有增加的趨勢。RMSProp優化算法的收斂速度最快。因此,選擇RMSProp算法更新參數。

圖5 不同優化算法的性能

圖6 不同折扣率γ的性能
3種算法性能比較如圖7所示,其比較了3種不同探索策略的DRL算法的接入成功率。在學習開始時,3種算法下的接入成功率都很低。隨著訓練回合數增加,成功率和收斂速度都有增加趨勢。其中,本文算法的成功率最高,其次是greedy-RL算法,softmax-RL算法成功率相對最低。此外,由于系統模型分布著不在小區覆蓋范圍的設備,因此無法接入基站,影響接入成功率。

圖7 3種算法性能比較

圖8 不同值對3種算法的性能影響
針對大連接物聯網場景,本文提出了VDBE- DDQN算法來解決在多小區網絡環境下mMTCD選擇eNB的問題。首先,本文將此RL算法的狀態轉移過程建模為MDP,定義了其中的狀態、動作和獎勵函數,并根據設備之間的協作獲得接入失敗設備的碰撞級別作為獎勵。其次,通過設計的網絡來近似值函數,通過不斷學習使目標值與值函數無限接近。同時,DDQN也解決了傳統算法對值函數高估的問題。然后,通過VDBE方法使每個mMTCD有適合自己的探索概率,而不是統一的標準。此外,該算法還能夠感知網絡環境的變化,調整探索和利用的比值。仿真結果表明,所提方法在接入成功率方面優于其他方法。
[1] TULLBERG H, POPOVSKI P, LI Z X, et al. The METIS 5G system concept: meeting the 5G requirements[J]. IEEE Communications Magazine, 2016, 54(12): 132-139.
[2] Latva-aho M, Lepp?nen K, Clazzer F, et al. Key drivers and research challenges for 6G ubiquitous wireless intelligence[J]. 2020.
[3] BI Q. Ten trends in the cellular industry and an outlook on 6G[J]. IEEE Communications Magazine, 2019, 57(12): 31-36.[LinkOut]
[4] 董石磊, 趙婧博. 面向工業場景的 5G 專網解決方案研究[J]. 電信科學, 2021, 37(11): 97-103.
DONG S L, ZHAO J B. Research on 5G private networking schemes for industry[J]. Telecommunications Science, 2021, 37(11): 97-103.
[5] POPLI S, JHA R K, JAIN S. A survey on energy efficient narrowband internet of things (NBIoT): architecture, application and challenges[J]. IEEE Access, 2018(7): 16739-16776.
[6] NAVARRO-ORTIZ J, ROMERO-DIAZ P, SENDRA S, et al. A survey on 5G usage scenarios and traffic models[J]. IEEE Communications Surveys & Tutorials, 2020, 22(2): 905-929.
[7] ANALYTICS S. Number of Internet of things(IoT) connected devices worldwide in 2018, 2025 and 2030(in billions)[J]. Statista Inc, 2020(7): 17.
[8] SHARMA S K, WANG X B. Toward massive machine type communications in ultra-dense cellular IoT networks: current issues and machine learning-assisted solutions[J]. IEEE Communications Surveys & Tutorials, 2020, 22(1): 426-471.
[9] 3GPP. Study on RAN improvements for machine-type communications:TR 37.868[R]. 2011.
[10] ALI M S, HOSSAIN E, KIM D I. LTE/LTE-A random access for massive machine-type communications in smart cities[J]. IEEE Communications Magazine, 2017, 55(1): 76-83.
[11] SHARMA S K, WANG X B. Collaborative distributed Q-learning for RACH congestion minimization in cellular IoT networks[J]. IEEE Communications Letters, 2019, 23(4): 600-603.
[12] DA SILVA M V, SOUZA R D, ALVES H, et al. A NOMA-based Q-learning random access method for machine type communications[J]. IEEE Wireless Communications Letters, 2020, 9(10): 1720-1724.
[13] TSOUKANERI G, WU S B, WANG Y. Probabilistic preamble selection with reinforcement learning for massive machine type communication (MTC) devices[C]//Proceedings of 2019 IEEE 30th Annual International Symposium on Personal, Indoor and Mobile Radio Communications. Piscataway: IEEE Press, 2019: 1-6.
[14] PACHECO-PARAMO D, TELLO-OQUENDO L. Adjustable access control mechanism in cellular MTC networks: a double Q-learning approach[C]//Proceedings of 2019 IEEE Fourth Ecuador Technical Chapters Meeting. Piscataway: IEEE Press, 2019: 1-6.
[15] BAI J N, SONG H, YI Y, et al. Multiagent reinforcement learning meets random access in massive cellular Internet of Things[J]. IEEE Internet of Things Journal, 2021, 8(24): 17417-17428.
[16] MOHAMMED A H, KHWAJA A S, ANPALAGAN A, et al. Base Station selection in M2M communication using Q-learning algorithm in LTE-A networks[C]//Proceedings of 2015 IEEE 29th International Conference on Advanced Information Networking and Applications. Piscataway: IEEE Press, 2015: 17-22.
[17] LEE D, ZHAO Y, LEE J. Reinforcement learning for random access in multi-cell networks[C]//Proceedings of 2021 International Conference on Artificial Intelligence in Information and Communication (ICAIIC). Piscataway: IEEE Press, 2021: 335-338.
[18] MOON J, LIM Y. Access control of MTC devices using reinforcement learning approach[C]//Proceedings of 2017 International Conference on Information Networking (ICOIN). Piscataway: IEEE Press, 2017: 641-643.
[19] LIEN S Y, CHEN K C, LIN Y H. Toward ubiquitous massive accesses in 3GPP machine-to-machine communications[J]. IEEE Communications Magazine, 2011, 49(4): 66-74.
[20] VAN HASSELT H, GUEZ A, SILVER D. Deep reinforcement learning with double q-learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2016: 2094-2100.
[21] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.
[22] TIELEMAN T, HINTON G. Lecture 6.5-rmsprop: divide the gradient by a running average of its recent magnitude[J]. COURSERA: Neural networks for machine learning, 2012, 4(2): 26-31.
Value-difference learning based mMTC devices access algorithm in multi-cell network
LI Xin1, SUN Jun1,2
1. College of Telecommunications & Information Engineering, Nanjing University of Posts and Telecommunications, Nanjing 210003, China 2. Jiangsu Key Laboratory of Wireless Communications, Nanjing 210003, China
In the massive machine type communication scenario of 5G, the access congestion problem of massive machine type communication devices (mMTCD) in multi-cell network is very important. A double deep Q network with value-difference based exploration (VDBE-DDQN) algorithm was proposed. The algorithm focused on the solution that could reduce the collision when a number of mMTCDs accessed to eNB in multi-cell network. The state transition process of the deep reinforcement learning algorithm was modeled as Markov decision process. Furthermore, the algorithm used a double deep Q network to fit the target state-action value function, and it employed an exploration strategy based on value-difference to adapt the change of the environment, which could take advantage of both current conditions and expected future needs. Moreover, each mMTCD updated the probability of exploration according to the difference between the current value function and the next value function estimated by the network, rather than using the same standard to select the best base eNB for the mMTCD. Simulation results show that the proposed algorithm can effectively improve the access success rate of the system.
mMTC, RA, reinforcement learning, eNB selection
: The National Natural Science Foundation of China (No.61771255), Provincial and Ministerial Key Laboratory Open Project (No.20190904)
TN929.5
A
10.11959/j.issn.1000?0801.2022152
2022?01?13;
2022?04?06?
國家自然科學基金資助項目(No.61771255);省部級重點實驗室開放課題項目(No.20190904)
李昕(1997? ),女,南京郵電大學通信與信息工程學院碩士生,主要研究方向為大連接物聯網設備的隨機接入。

孫君(1980? ),女,南京郵電大學副研究員、碩士生導師,主要研究方向為無線網絡、無線資源管理和物聯網。