基于強化學習和神經網絡的導頻功率動態優化

2022-09-28 07:30:10肖夢巧

智能計算機與應用 2022年9期

李燁，肖夢巧

（上海理工大學光電信息與計算機工程學院，上海 200093）

0 引言

由于5G研究的全面發展、無線接入技術的多樣化和頻譜資源的整合，無線接入網（Radio Access Network，RAN）在處理性能、協調能力和業務部署等方面面臨著新的挑戰。因此，RAN架構需要取得顯著進展，以滿足未來的各種需求。同時，云計算、大數據和虛擬化技術在核心網絡中的應用，為RAN架構的演進提供了堅實的基礎。

為了更好地實現用戶對移動通信網絡的無線接入，合理分配基站導頻功率十分重要，因其影響著網絡的覆蓋。作為下行鏈路功率的一部分，導頻功率與其它下行信道共享額定的基站功率。一方面，過多的導頻功率分配會增加小區重疊區域，從而導致下行鏈路干擾和小區重疊區域的增加，這也可能將導致導頻污染問題；另一方面，導頻能力不足將導致覆蓋漏洞，從而減少所支持的業務。

為了實現網絡性能的最大化，一些專家學者對導頻功率分配優化問題進行了研究。Ma等人以漸近信干噪比為目標，將導頻分配問題表述為最小權重多指標分配問題。該方案提高了系統性能，但算法復雜度較高。為了降低導頻分配算法的復雜度，Omid等人提出一種低復雜度的導頻分配策略，采用SCP的迭代，構造求解局部優化的非凸問題，有效降低了迭代算法的復雜度。Jang等人提出的中下行多用戶、多輸入、多輸出系統的節能設計，考慮了導頻功率、數據功率和速率自適應。Liu等人通過優化導頻功率配置，使基站總功率更加合理。在RAN中，導頻功率一般是依靠人工經驗進行配置，后期再根據需求逐步進行人工優化。由于小區導頻功率變化后，會同步影響周邊鄰區。如果導頻功率配置過大，會對鄰區造成干擾；導頻功率配置過小，又會造成覆蓋空洞。因此，導頻功率優化不能僅針對單小區進行處理，還要對整網或整片區域進行聯合動態優化。

基于此，本文提出了一種基于強化學習和神經網絡的導頻功率動態優化方案，設計了一種結合強化學習和神經網絡的新型模型。該模型研究了導頻功率與網絡性能增益之間的關系，通過最大化網絡性能來適應連續變化的RAN環境；以網絡環境狀態和導頻功率調整值作為學習的輸入，網絡流量和容量作為輸出。由于表不適用連續狀態空間，因此結合神經網絡，將狀態和動作映射到值，使得整個系統更加靈活。此外，為了確保網絡的穩定性和連續調整導頻功率的可行性，通過有效分析歷史數據，并充分利用所獲得的實時數據，提出了關鍵性能指標（Key Performance Indicator，）保護機制和回退機制，以滿足工程要求。

1 系統模型

假設一個覆蓋區配置一個中心小區和被動聯動調整小區。中心小區根據本小區配置和負載狀態以及被動聯動調整小區的負載狀態，進行導頻功率聯動調整，從而優化覆蓋區的網絡性能，實現覆蓋區內基站間的負載均衡。

覆蓋區包含數據模塊和導頻模塊。其中，數據模塊負責采集各類數據（如基站配置數據等），在學習算法和保護機制中使用，歷史數據也用于基線計算；導頻模塊與數據模塊交互，獲取運行環境中所有網絡狀態信息，實時識別神經網絡模塊的狀態。學習算法在每次迭代中向導頻模塊提供最優的導頻功率調整動作，從而根據神經網絡的輸出獲得良好的RAN性能增益。

2 算法描述

2.1 參數

學習是最流行的強化學習算法之一，旨在處理馬爾科夫決策過程問題。本文將每個小區的基站建模為智能體，每個基站維護自己的值表，以降低優化復雜度。結合學習模型中智能體、環境、動作、狀態及獎勵五大元素，對該問題進行建模。與學習相關的所有參數定義如下：

（1）智能體：智能體通過與環境進行交互獲取獎勵值（），來學習改善自己的策略，從而獲得該環境下最優策略。在導頻功率優化問題中，將每個小區基站作為一個智能體。

（2）環境：本文將RAN作為與智能體進行交互的環境。

（3）狀態：每個智能體都有各自的狀態向量。本文基站的狀態向量可定義為如下五元組：

其中，為小區網絡TCP負載；為用戶設備數量；為當前導頻功率；、分別表示參考信號接收功率（Reference Signal Receiving Power，RSRP）分布的均值和方差；s表示基站采用某一個動作后，同覆蓋區內所有小區中用戶導頻功率分配狀態。

（4）動作：每個智能體都有一個動作集合，即每個小區基站對本小區用戶進行導頻功率分配的調整值集合，定義為：

導頻功率的最大值和最小值限制可表示為：

其中，和分別表示導頻功率與基站功率的最大和最小比值。調整后的導頻功率應限制在一定范圍內，即：[，]。對于超出最大值或最小值的值，將其調整為最大值或最小值。

（5）獎勵：表示智能體在當前狀態下選擇動作獲得的收益、即網絡增益，由流量和容量兩部分組成。由于接入RAN的用戶設備數量在不斷變化，系統需要消除網絡波動和附加增益（正／負增益）的影響，因此在獎勵計算中引入相對增益的概念，以保證算法帶來增益。

數學定義式可寫為：

其中，r是各狀態到狀態1之間的相對流量增益；T表示網絡業務（如呼叫建立）數量的網絡流量；L為BS的TCP負載，表示網絡資源的利用率；T／L反映單位資源占用下，BS支持的業務數量。

數學定義式可寫為：

其中，r表示狀態到狀態1的相對容量增益，C為網絡容量，描述了基站支持的最大網絡吞吐量。

因此，獎勵由RAN相對流量增益r和RAN相對容量增益r共同計算，即：

其中，∈0，1[ ]量化了2部分重要性之間的權衡。

2.2 Q學習與神經網絡聯合優化算法

在學習中，估計動作值函數，( )用來學習最優導頻功率分配方案，從而在執行動作的狀態中獲得最大期望獎勵。換言之，在每個步驟處選擇使函數，( )最大化的動作。，( )的更新為：

其中，表示當前動作；表示當前狀態；a表示狀態中任何可能的動作；s表示采取行動后的新狀態；是在狀態下根據特定動作獲得的立即獎勵；∈0，1[ ]表示學習率；∈0，1[ ]表示延遲與立即獎勵的相對值的折扣因子。

動作選擇機制，負責選擇代理執行的操作。在本文中，采用貪婪策略，對應的數學公式如下：

其中，∈0，1[ ]為固定概率；∈0，1[ ]表示時間步長上的一致隨機數；為可選擇的動作集。該規則利用概率1( )選取最佳動作，利用概率進行探索。

在迭代過程中，學習算法通常使用表來儲存不同時刻的狀態動作值。這一算法在面對大規模數據空間或連續數據的任務時非常低效。因此，在導頻功率優化問題中，采用表單獨存儲每個因子是并不現實的。本文利用非線性函數來近似，；( )，這里的描述了近似的可調參數。在此情況下，通常利用神經網絡處理狀態空間爆炸問題，神經網絡結構如圖1所示。

圖1 神經網絡結構Fig.1 The structure of Neural Network

由圖1可以看出，神經網絡的輸入是模型和導頻功率調整前的狀態，輸出是導頻可以采取的每個動作的值。根據學習算法選擇導頻功率最優動作，智能體從環境中獲得真正的收益。

綜合前述可知，通過實際回報與預測回報之間的誤差訓練算法權重，并在迭代過程中利用梯度下降法進行更新。

研究推得，神經網絡模型的輸入為：

其中，，…，s，…，s

()表示實際狀態映射到狀態空間，a∈是智能體在該狀態下可以采取的動作。

神經網絡模型的輸出為基于狀態的學習算法的值。此外，神經網絡采用直接梯度下降法更新參數。在學習中，通過最小化樣本上的損失函數來訓練神經網絡，其損失函數公式見如下：

其中，（，）是預測值，Q（，）是真實值。

利用神經網絡估計每個動作的價值函數（，a），采用動作的函數值a進行估計。進而傳統的學習算法中的表被替換為：

2.3 KPI保護機制

實際應用中，在不出現急劇惡化的情況下，網絡性能通常表現為某些指標。該模型提供各種保證，并為每個定義一個基線。如果導頻功率調整后，的計算值低于基線，則獎勵為0。因此，獎勵功能改進為：

其中，()為單位步長函數，使服從正態分布。

因此，ξ為KPI的基線，基線ξ為：

其中，μ和σ分別是從數據模塊中得到的歷史數據，經計算得出的平均值和標準差，結果值見表1。

表1 6個關鍵性能指標Tab.1 Six key performance indicators

2.4 協同優化

在RAN中，由于用戶設備的位置在不斷移動，同時導頻功率的調整將影響基站服務范圍，因此需要進行軟切換操作。軟切換比例在一定程度上能較好地反映基站的活躍度，基站的軟切換比例越高，用戶在基站的覆蓋范圍內進行的通信越多，基站對覆蓋區域網絡性能的考量就越重要。在進行整體性能優化時，需要考慮軟切換比例所連接的所有基站之間的協同優化。則獎勵函數計算為：

其中，N是用戶設備從其它BS到BS與BS到其它BS的軟切換次數之和；N是所有BS之間的軟切換次數之和。

結合式（12）、（14）和（15），整個覆蓋區（所有相鄰BS）的獎勵函數為：

2.5 KPI回退機制

值定義為：

其中，（s，a）為最佳動作選擇a和狀態下新的值。在有回退機制時，用（s，a）替換（s，a）。

3 仿真結果與分析

3.1 仿真參數設置

本文通過冷啟動仿真和模型試驗，給出了導頻功率動態優化仿真中的設置參數：導頻功率與基站功率的最小和最大比值和分別為5%和20%，系統模型的生命周期為24 h，折扣因子為0.7，覆蓋區基站數量為10。神經網絡的輸入范圍與的均值和標準方差分別見表2、表3。

表2 神經網絡的輸入范圍Tab.2 The input ranges of the Neural Networks

表3 KPI的均值和標準方差Tab.3 The means and standard variances of the KPIs

3.2 性能分析

圖2給出了冷啟動期間的每代通信量。圖2中，實線對應使用預訓練得到的權重初始化神經網絡的情況，虛線對應隨機初始化神經網絡的情況。

圖2 導頻功率優化Fig.2 Pilot power optimization

由圖2可見，冷啟動過程中使用的離線數據集合是在密集區域中心，負荷高。用戶設備位置在基站中隨機均勻分布，因此容量是恒定的，冷啟動效果可以通過對比流量來體現。具有隨機參數的神經模型經過約45次迭代后幾乎收斂，神經網絡的收斂速度明顯提高。從圖2中實線可以看出，經過10次左右的迭代后，網絡流量增益可以提升約6.2%。

導頻功率的結果對比如圖3所示。從圖3中可以看出：導頻功率是下調的，調整后的大多數基站導頻功率為30 dBm，該結果與預期一致，說明導頻功率配置更高效、更穩定。冷啟動方法可以作為神經網絡的初始權重，從而提高早期模型的效率。

圖3 導頻功率對比Fig.3 The comparison of pilot power

具有神經網絡的學習算法進行導頻功率優化的結果如圖4、圖5所示。圖4、圖5中包括不同網絡波動和用戶數。

從圖4、圖5可以看出：相對流量增長7%，相對容量增長16%。結果表明，該模型能夠有效地解決基站導頻功率動態實時調整問題，并在獲得更多話務量和充足容量的同時，獲得了更好的網絡性能。

圖4 相對流量增益rT前后對比Fig.4 The comparison of relative traffic gain rT

圖5 相對容量增益rC前后對比Fig.5 The comparison of relative capacity gain rC

研究得到的各指標的對比如圖6所示。由圖6中每個的比較顯示可以看出，本文選取的指標，可以有效反映網絡性能的穩定性和用戶接入的可靠性。顯然，部署后值更穩定。

圖6 KPI對比Fig.6 The comparison of KPIs

在測試期間，各指標均值和標準差見表4、表5，可見各指標值均得到改善，表明本文提出的系統模型在保證關鍵性能指標穩定性的同時，提高了當前網絡的性能，進而為智能基站的發展打下基礎。

表4 KPI的均值對比Tab.4 The average comparison of KPIs

表5 KPI標準方差對比Tab.5 The standard variances comparison of KPIs

4 結束語

本文研究了強化學習與神經網絡聯合優化導頻功率的方法。在RAN中，設計了一個基站覆蓋區系統模型，建立了導頻功率與網絡性能的關系，使得網絡流量和容量最大化；在學習獎勵計算中提出了相對增益的概念，并利用軟切換比例將同覆蓋區基站進行協同優化；利用神經網絡解決了表狀態空間爆炸問題；增加冷啟動程序，以減少算法參數隨機化的影響。此外，提出了保護和回退機制，保證導頻功率部署的穩定性和可靠性。仿真結果表明，所提算法能夠很好地解決基站導頻功率的動態調整問題，在RAN環境變化中取得了很大的優勢。后續將考慮導頻功率與小區實際覆蓋情況和小區邊緣用戶分布的影響，進一步優化基站導頻功率。