王子瑞
(蘭州交通大學(xué) 電子與信息工程學(xué)院,甘肅 蘭州 730070)
面向高鐵無線網(wǎng)絡(luò)覆蓋與容量?jī)?yōu)化的多agent模糊強(qiáng)化學(xué)習(xí)算法*
王子瑞
(蘭州交通大學(xué) 電子與信息工程學(xué)院,甘肅 蘭州 730070)
為了提升高鐵沿線LTE無線網(wǎng)絡(luò)服務(wù)質(zhì)量,提供最理想的覆蓋與容量性能,在傳統(tǒng)單agent學(xué)習(xí)算法的基礎(chǔ)上,提出了通過多agent聯(lián)合調(diào)整相鄰eNodeB的天線下傾角從而實(shí)現(xiàn)覆蓋與容量?jī)?yōu)化的模糊強(qiáng)化學(xué)習(xí)算法。并在LTE網(wǎng)絡(luò)下的高速場(chǎng)景中進(jìn)行仿真,仿真結(jié)果表明多agent學(xué)習(xí)算法與傳統(tǒng)學(xué)習(xí)算法相比在高速環(huán)境下達(dá)到全局最優(yōu)解的速率更快,特別是在應(yīng)對(duì)環(huán)境突變的情況時(shí)恢復(fù)到最優(yōu)解的速率有所提升。
高鐵;覆蓋與容量?jī)?yōu)化;多agent
近幾年來隨著高鐵的迅速發(fā)展,高速環(huán)境下的無線通信質(zhì)量面臨著巨大的挑戰(zhàn),同時(shí),人們對(duì)于無線網(wǎng)絡(luò)服務(wù)質(zhì)量的要求也越來越高,所以對(duì)鐵路沿線無線網(wǎng)絡(luò)性能的提升成為了一項(xiàng)迫在眉睫的工作[1]。在評(píng)估網(wǎng)絡(luò)性能時(shí),覆蓋和容量性能是兩個(gè)重要指標(biāo),網(wǎng)絡(luò)的優(yōu)化工作通常是針對(duì)兩者的平衡優(yōu)化來進(jìn)行。在早期的網(wǎng)絡(luò)部署工作中,通常優(yōu)先對(duì)覆蓋性能進(jìn)行優(yōu)化,但是,隨著不斷增長(zhǎng)的移動(dòng)用戶數(shù)量,容量性能逐漸成為限制系統(tǒng)性能的主要因素。因此,3GPP提出了覆蓋與容量?jī)?yōu)化(coverage and capacity optimization,CCO)的概念,旨在維持網(wǎng)絡(luò)覆蓋目標(biāo)的同時(shí)最大化容量性能。
中外已經(jīng)有部分文獻(xiàn)對(duì)覆蓋與容量?jī)?yōu)化進(jìn)行了一定程度的研究。文獻(xiàn)[2]中Yilmaz等人詳細(xì)討論了不同天線下傾技術(shù)對(duì)LTE網(wǎng)絡(luò)覆蓋和容量的影響,并證明了電子調(diào)節(jié)可以獲得更好的優(yōu)化效果,為以后天線技術(shù)在覆蓋與容量?jī)?yōu)化領(lǐng)域的研究提供了理論基礎(chǔ)。文獻(xiàn)[3]提出了聯(lián)合調(diào)整天線傾角與功率方式,并做了全面的性能驗(yàn)證,但其忽略了邊緣用戶的吞吐量表現(xiàn)。文獻(xiàn)[4]利用非合作博弈模型將上行功率作為調(diào)節(jié)參數(shù),使得各個(gè)小區(qū)性能達(dá)到Nash均衡,這樣雖然使小區(qū)間的性能達(dá)到了均衡,但是這種場(chǎng)景是一個(gè)停滯狀態(tài),對(duì)動(dòng)態(tài)環(huán)境的適應(yīng)性較差,同時(shí),該方法的收斂時(shí)間通常不夠快,在高鐵環(huán)境中用處不大。文獻(xiàn)[5-7]應(yīng)用模糊強(qiáng)化學(xué)習(xí)理論,通過調(diào)節(jié)天線下傾角對(duì)覆蓋與容量進(jìn)行優(yōu)化,也提出應(yīng)用多智能體multi-agent的概念,把每個(gè)eNodeB看作一個(gè)智能體agent,但是由于其在實(shí)際執(zhí)行優(yōu)化算法時(shí)每個(gè)agent均單獨(dú)執(zhí)行,把其余agent看做是外部環(huán)境的一部分,所以其本質(zhì)仍然是單agent系統(tǒng),當(dāng)網(wǎng)絡(luò)性能惡化時(shí)也只能對(duì)眾多小區(qū)依次進(jìn)行優(yōu)化,這樣不僅會(huì)導(dǎo)致算法收斂速度慢,出現(xiàn)次優(yōu)化現(xiàn)象,而且易出現(xiàn)覆蓋空洞與過度重疊覆蓋問題。
此外,研究表明覆蓋與容量問題一般都是局部性的,而且天線參數(shù)的調(diào)整通常只會(huì)對(duì)本小區(qū)以及相鄰小區(qū)產(chǎn)生影響,因此優(yōu)化過程中只包含有一到兩個(gè)小區(qū),而且鐵路沿線都是鏈狀小區(qū),如圖1所示,可見針對(duì)相鄰兩小區(qū)進(jìn)行聯(lián)合調(diào)整是可行的。

圖1 鐵路干線小區(qū)鏈狀網(wǎng)結(jié)構(gòu)
在上述研究的基礎(chǔ)上,針對(duì)高速列車速度快、用戶多的特點(diǎn),以及單agent學(xué)習(xí)不全面的缺點(diǎn),將multi-agent[8]與強(qiáng)化學(xué)習(xí)算法結(jié)合來應(yīng)對(duì)這一挑戰(zhàn)。多agent強(qiáng)化學(xué)習(xí)算法在算法執(zhí)行時(shí)采用組合動(dòng)作,每個(gè)agent都必須考慮到算法中其他agent將要采取的動(dòng)作,以決定應(yīng)該采取的動(dòng)作,這一特點(diǎn)可以克服傳統(tǒng)強(qiáng)化學(xué)習(xí)算法易出現(xiàn)次優(yōu)化以及達(dá)到全局最優(yōu)時(shí)間過長(zhǎng)的缺點(diǎn)。最終仿真結(jié)果也表明,該文介紹的算法在高速環(huán)境下達(dá)到全局最優(yōu)解的速率優(yōu)于傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法。
強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)算法主要有瞬時(shí)差分(temporal differences,TD)算法、Q學(xué)習(xí)(Q-learning,QL)算法、自適應(yīng)啟發(fā)評(píng)價(jià)(adaptive heuristic critic,AHC)算法。其中,QL算法可以根據(jù)經(jīng)驗(yàn)找到最佳的策略,而不需要知道環(huán)境的動(dòng)態(tài)模型的特點(diǎn),使得QL算法非常適合用于自組織網(wǎng)絡(luò)機(jī)制。
基于以上分析,該文采用多agent模糊Q學(xué)習(xí)算法(multi-agent fuzzy Q-learning algorithm,ma-FQL)。
1.1 參考指標(biāo)
對(duì)于自優(yōu)化任務(wù),頻譜效率(spectral efficiency,SE)是評(píng)估系統(tǒng)性能的常用指標(biāo)并且頻譜效率可以通過每個(gè)eNodeB收集到的激活用戶的信干噪比值得到。為了實(shí)現(xiàn)覆蓋與容量的均衡,定義小區(qū)綜合頻譜效率(joint spectral efficiency,JSE)和平均小區(qū)綜合頻譜效率[5](average of joint spectral efficiency)作為參考指標(biāo),表示為:
JSEc=SE50%+λSE5%
(1)
(2)

rt+1=JSEavg,t+1-JSEavg,t
(3)
1.2 多agent Q學(xué)習(xí)算法
設(shè)置S為狀態(tài)空間,A為動(dòng)作空間,r(s,a1,a2)表示在狀態(tài)s∈S下執(zhí)行聯(lián)合動(dòng)作a1,a2∈A得到的回報(bào)值。agent的目標(biāo)是為狀態(tài)s∈S找到最優(yōu)策略π*(s),從而使效用函數(shù)(utility function)R達(dá)到最大,效用函數(shù)定義為折扣回報(bào)的長(zhǎng)期和:
(4)

學(xué)習(xí)算法一般通過更新質(zhì)量函數(shù)Qπ(s,a1,a2)(s∈S,a1,a2∈A)來實(shí)現(xiàn)最大化效用函數(shù)R。其中,基于策略π的最初狀態(tài)s0的長(zhǎng)期折扣回報(bào)期望值通過式(5)得到:
(5)
為了應(yīng)對(duì)高速列車運(yùn)行快的特點(diǎn),該文采用聯(lián)合兩個(gè)agent的QL算法,Q值更新規(guī)則[8]為:

(6)

(7)

1.3 模糊推理系統(tǒng)設(shè)計(jì)
模糊推理系統(tǒng)(fuzzyinferencesystems,F(xiàn)IS)的引入使得可以處理連續(xù)的狀態(tài)和動(dòng)作空間,采用每個(gè)eNodeB當(dāng)前的下傾角作為輸入,由5個(gè)隸屬度函數(shù)(membershipfunction)進(jìn)行模糊化,并把對(duì)天線下傾角的調(diào)節(jié)角度作為輸出。FIS模糊規(guī)則描述如下:
ifsisSi,then
……
(8)


(a)輸入:下傾角

(b)輸出:調(diào)節(jié)角度

(9)

在ma-FQL算法中,狀態(tài)s通過所選擇的動(dòng)作可以計(jì)算出在實(shí)際連續(xù)域中的動(dòng)作以及質(zhì)量函數(shù)的值:
(10)
(11)

(12)
質(zhì)量函數(shù)增值ΔQ為:
(13)
最終,F(xiàn)IS規(guī)則的q值得到更新:
(14)
2.1 仿真設(shè)置
利用Matlab工具箱開發(fā)的LTE網(wǎng)絡(luò)系統(tǒng)級(jí)仿真平臺(tái)進(jìn)行仿真,該仿真環(huán)境基于LTE下行鏈路,設(shè)置3個(gè)小區(qū),3個(gè)基站,用戶以一定的速度穿過該鏈狀小區(qū),仿真關(guān)鍵參數(shù)[5,7-10]由表1列出。

表1 仿真參數(shù)
為了達(dá)到比較的目的,在仿真階段加入一個(gè)參考系統(tǒng),以及未對(duì)小區(qū)進(jìn)行聯(lián)合優(yōu)化的傳統(tǒng)FQL算法與ma-FQL算法進(jìn)行性能比較。參考系統(tǒng)設(shè)置為一個(gè)靜態(tài)環(huán)境,所有小區(qū)的天線下傾角固定為15°,系統(tǒng)其他參數(shù)設(shè)置與表1相同。傳統(tǒng)FQL算法沒有采用多agent方法對(duì)小區(qū)進(jìn)行聯(lián)合優(yōu)化,根據(jù)算法中回報(bào)函數(shù)r是小區(qū)間的聯(lián)合回報(bào)值[5],或者是單個(gè)小區(qū)的單獨(dú)回報(bào)值[6],將這兩種FQL算法分別定義為FQL-1和FQL-2,為以后進(jìn)行算法間的性能對(duì)比提供方便。
2.2 仿真結(jié)果與討論
該節(jié)主要展示仿真結(jié)果,圖3表示仿真系統(tǒng)中各個(gè)算法的小區(qū)間綜合頻譜效率的仿真圖。圖中,x軸表示仿真步數(shù),每時(shí)間步長(zhǎng)為200 ms,y軸為小區(qū)綜合頻譜效率(JSE),由式(2)得到。以參考系統(tǒng)為標(biāo)準(zhǔn),將FQL-1和FQL-2同ma-FQL算法進(jìn)行比較,從圖3可以看出,ma-FQL算法優(yōu)于FQL-1和FQL-2算法,主要的性能提升體現(xiàn)在對(duì)于全局最優(yōu)的搜索時(shí)間上,ma-FQL算法達(dá)到理想性能所需的時(shí)間步均少于FQL-1和FQL-2算法。由此可知,通過聯(lián)合調(diào)整小區(qū)的天線下傾角,使小區(qū)間同時(shí)對(duì)環(huán)境做出動(dòng)作選擇的多agent強(qiáng)化學(xué)習(xí)算法可以使整體網(wǎng)絡(luò)更快的達(dá)到全局最優(yōu)狀態(tài)。

圖3 小區(qū)間綜合頻譜效率的平均
同時(shí),為了進(jìn)一步展現(xiàn)ma-FQL算法對(duì)動(dòng)態(tài)環(huán)境中突發(fā)不利條件的適應(yīng)能力,文中設(shè)定達(dá)到最優(yōu)狀態(tài)的列車A,在到達(dá)小區(qū)1和小區(qū)2之間的重疊區(qū)域時(shí)遇到對(duì)向以相同速度駛來的高速列車B,如圖4所示。

圖4 兩車交會(huì)示意
通過 ma-FQL算法與FQL-1對(duì)該場(chǎng)景進(jìn)行仿真,觀察兩種算法對(duì)由于兩車交會(huì)引起用戶數(shù)突增而導(dǎo)致的性能的下降的情況的適應(yīng)能力,從而對(duì)算法性能進(jìn)行比較。兩車相遇列車用戶性能仿真圖如圖5所示。

圖5 兩車交會(huì)算法性能比較
圖5展示了在大約第40學(xué)習(xí)時(shí)間步兩車交會(huì)后,ma-FQL算法與FQL-1算法對(duì)當(dāng)前環(huán)境變化的應(yīng)對(duì)情況。從仿真圖中可以看出,兩車交會(huì)時(shí)由于用戶數(shù)的突增,用戶性能會(huì)從之前達(dá)到的最優(yōu)狀態(tài)下滑到次優(yōu)狀態(tài),雖然兩種算法都成功的從突變環(huán)境中恢復(fù)到了最優(yōu)狀態(tài),但相比較而言,在大約第650時(shí)間步時(shí)ma-FQL算法就已經(jīng)恢復(fù)到了最優(yōu)狀態(tài),F(xiàn)QL-1算法則在大約1000時(shí)間步時(shí)才逐步接近最優(yōu)狀態(tài)。與FQL-1算法相比,ma-FQL算法的優(yōu)化速率大約提升了35%,由此可以看出ma-FQL算法在動(dòng)態(tài)環(huán)境中具有更強(qiáng)的適應(yīng)能力,從而印證了多agent模糊Q學(xué)習(xí)算法的優(yōu)越性。
高速鐵路速度越高,對(duì)無線通信的影響越大,優(yōu)化難度就越大,文中針對(duì)高速鐵路速度快、用戶多的特點(diǎn),采用多agent方式聯(lián)合模糊推理系統(tǒng)以及強(qiáng)化學(xué)習(xí)算法的混合機(jī)制,通過多agent的方式聯(lián)合調(diào)整算法涉及到的小區(qū)間的天線下傾角,實(shí)現(xiàn)鐵路沿線覆蓋與容量?jī)?yōu)化的目的。
仿真結(jié)果表明,同傳統(tǒng)單agent方式相比,多agent方式可以更快的使整體用戶性能達(dá)到全局最優(yōu),減少次優(yōu)化現(xiàn)象,并且在突變環(huán)境的考驗(yàn)下,具有更加顯著的適應(yīng)能力。
[1] 李泰, 李燁.高速鐵路場(chǎng)景移動(dòng)通信系統(tǒng)切換研究綜述[J].通信技術(shù),2015,48(05):566-572. LI Tai, LI Ye. Mobile Communications Handover Schemes in High-Speed Railway Scenario[J]. Communications Technology, 2015,48(05):566-572.
[2] Yilmaz O, Hamalainen S, Hamalainen J. Comparison of Remote Eelectrical and Mechanical Antenna Downtilt Performance for 3GPP LTE[C]// Vehicular Technology Conference Fall(VTC 2009-Fall), 2009 IEEE 70th. Espoo, Finland:IEEE, 2009: 1-5.
[3] Engels A, Reyer M, Xu X, et al. Autonomous Self-Optimization of Coverage and Capacity in LTE Cellular Networks[J]. Vehicular Technology, IEEE Transactions on, 2013, 62(5): 1989-2004.
[4] XU S, HOU M, NIU K, et al. Coverage and Capacity Optimization in LTE Network based on Non-Cooperative Games[J]. Journal of China Universities of Posts and Telecommunications, 2012, 19(4): 14-42.
[5] Naseer Islam M, Mitschele A. Cooperative Fuzzy Q-Learning for Self-Organized Coverage and Capacity Optimization[C]// Personal Indoor and Mobile Radio Communications (PIMRC), 2012 IEEE 23rd International Symposium on. Ilmenau, Germany:IEEE,2012:1406-1411.
[6] Razavi R, Klein S, Claussen H. Self-Optimization of Capacity and Coverage in LTE Networks using a Fuzzy Reinforcement Learning Approach[C]//Personal Indoor and Mobile Radio Communications (PIMRC), 2010 IEEE 21st International Symposium on. Istanbul, Turkey: IEEE, 2010: 1865-1870.
[7] LI J, ZENG J, SU X, et al. Self-Optimization of Coverage and Capacity in LTE Networks based on Central Control and Decentralized Fuzzy Q-Learning[J]. International Journal of Distributed Sensor Networks, 2012, 11(2):1018-1020.
[8] HU J, Wellman M P. Multiagent Reinforcement Learning: Theoretical Framework and an Algorithm[C]//ICML’98 Proceedings of the Fifteenth International Conference on Machine Learning. San Francisco, USA: Morgan Kaufmann, 1998: 242-250.
[9] HE R, ZHONG Z, AI B. Path Loss Measurements and Analysis for High-Speed Railway Viaduct Scene[C]// IWCMC’10 Proceedings of the 6th International Wireless Communications and Mobile Computing Conference. New York, USA: ACM, 2010:266-270.
[10] 劉留, 陶成, 陳后金等.高速鐵路無線傳播信道測(cè)量與建模綜述[J]. 通信學(xué)報(bào), 2014,35(01):115-127. LIU Liu, TAO Cheng, CHEN Hou-jin, et al. Survey of Wireless Channel Measurement and Characterization for High-speed Railway Scenarios.[J]. Journal of Communications, 2014, 35(01): 115-127.
Multi-Agent Fuzzy Reinforcement Learning Algorithm for Wireless Network Coverage and Capacity Optimization in High-Speed Railway
WANG Zi-rui
(School of Electronic and Information Engineering, Lanzhou Jiaotong University,Lanzhou Gansu 730070,China)
In order to enhance the service quality of LTE wireless network along high-speed railway and provide the optimal coverage and capacity performance, based on the traditional single-agent learning algorithm, a fuzzy reinforcement learning algorithm that jointly adjusts the neighboring eNodeB’s downtilt angle for network coverage and capacity optimization by means of multi-agent is proposed. In addition,simulation of LTE network in high-speed scenario indicates that the multi-agent learning algorithm could fairly improve the convergence rate of global optimal configurations in high-speed environment as compared with traditional reinforcement learning algorithm, in particular the restoration rate when dealing with the sudden environmental change.
high-speed railway; coverage and capacity optimization; multi-agent
10.3969/j.issn.1002-0802.2015.11.015
2015-06-21;
2015-10-12 Received date:2015-06-21;Revised date:2015-10-12
TN929.5
A
1002-0802(2015)11-1280-05

王子瑞(1991—),女,碩士研究生,主要研究方向?yàn)楦咚勹F路無線網(wǎng)絡(luò)性能的優(yōu)化。