基于強化學習的合作頻譜分配算法

2022-03-09 07:09:22李冠雄李桂林

電波科學學報 2022年1期

李冠雄李桂林

（1. 天津大學微電子學院，天津 300072；2. 大連交通大學電氣信息工程學院，大連 116021）

引言

隨著5G時代的到來，人們對于互聯網接入的服務質量要求越來越高，頻譜資源短缺的問題日益凸顯，傳統的固定頻譜分配方式無法滿足飛速增長的通信需求[1-2]，為了解決頻譜資源短缺和利用效率低下等問題，認知無線電(cognitive radio, CR)技術應運而生[3]. 這是一種智能化的無線通信系統，系統中的次用戶(secondary users, SU)能夠檢測出無線頻譜中的空閑信道，并在不干擾主用戶(primary users, PU)正常通信的條件下動態接入空閑信道資源，為提高頻譜利用效率提供了一種新的方法.

在CR系統中，頻譜分配是認知網絡循環的一個重要環節，將強化學習算法融入到頻譜分配過程中，使用戶能獨立進行環境感知，學習信道選擇策略，可以有效提升認知網絡系統性能. 文獻[4]將多信道傳輸下的動態頻譜接入問題建模為部分可觀測的Markov決策過程，并利用Whittle指數激勵法輔助決策，用戶在授權信道上以最小的Whittle指數進行傳輸. 文獻[5]研究了大規模多輸入多輸出(multi-input multi-output, MIMO) CR系統中底層用戶的信道選擇策略，針對次基站提出了一種深度強化學習算法，可以智能地選擇合適的用戶，以滿足系統的體驗質量要求. 文獻[6]提出一種基于強化學習的功率控制信道切換策略，SU通過強化學習掌握最優的信道切換方案，并根據PU通信行為在不同信道間進行切換，有效地利用了數據的延遲容量，降低了信道切換時的功率消耗. 文獻[7]通過強化學習和Bayes算法預測信道保持空閑狀態的時間，減少了用于信道感知監測的功率消耗，實現了更高的吞吐量. 文獻[8]融合了Q-learning和SARSA算法，提出一種多智能體無模型的強化學習資源分配方案，可以減輕認知網絡中基站聚集干擾問題，有效提升了網絡容量.

上述基于強化學習的頻譜分配方案主要集中在對分配算法的研究，在信道選擇過程中缺乏對頻譜價格的考量，且對性能結果的分析主要集中在吞吐量、阻塞率和傳輸速率等維度，缺少可以直觀反映用戶體驗的綜合評價指標. 本文提出一種基于用戶體驗質量(quality of experience, QoE)的合作強化學習頻譜分配算法，在信道選擇過程中新用戶通過合作學習其他用戶的選擇策略，有效提升了吞吐量和系統性能，將平均意見得分(mean opinion score, MOS)作為QoE的綜合評價指標，并且在信道接入過程中引入PU的頻譜定價因素，從市場博弈的角度研究了頻譜價格對SU收益的影響.

1 系統建模與分析

1.1 CR網絡通信場景

本文中的通信場景由兩部分組成，如圖1所示，一是由主基站(primary base station, PBS)和PU構成的授權服務系統，二是由次基站(secondary base station, SBS)和SU構成的認識服務系統. 在授權服務系統中PBS通過單一鏈路為PU提供通信服務，并在干擾可控的條件下與認知服務系統共享信道資源. 在認知服務系統中包含N個隨機分布在次基站周圍的SU，SU依托SBS動態接入主服務系統中的頻譜空洞，實現頻譜資源的高效復用.

圖1 CR通信場景Fig. 1 Cognitive radio communication scenarios

在次服務系統中PU和SU均采用自適應調制編碼技術進行信息傳輸，SU動態接入PU的授權頻譜資源對不同信干噪比(signal to interference noise ratio,SINR)的信道做出選擇. 從圖1可以看出SU會受到來自PU、CR系統內其他SU以及環境噪聲三部分干擾，第i個SU接入信道的SINR如下[9]：

式中：x、y為用戶坐標；d0為參考距離常數；n為信道衰落因子. 由式(1)和式(2)可知SU接入信道的SINR與其到基站的距離有關，所以SU在實際頻譜分配過程中是通過調整與SBS間的相對物理位置來進行信道選擇，最終達到使CR系統整體性能最優的目標.

1.2 Q-learning強化學習算法

Q-learning是一種用于機器學習的value-based強化學習算法，其優勢為能通過時間差分法進行離線學習. 算法由三部分要素構成[10]：環境狀態；動作策略；獎勵函數. 其中：狀態代表算法當前所處的執行階段；動作策略代表智能體可選擇的策略集合；獎勵函數則代表了策略選擇后的直接獎勵反饋，其最終目標為求得當前狀態下按照策略π進行動作選擇所能獲得的最大獎勵期望，通過式(3)表示.

式中：s表示環境狀態；γ為折損因子，代表了智能體對長期收益的重視程度；R為獎勵值大小.

算法的核心路徑是利用狀態s和動作策略a構建Q表來儲存代表即時收益的Q值Q(s,a)，每一輪強化學習可抽象為一次有限馬爾科夫決策過程，智能體按照最大化獎勵函數的策略進行動作選擇，選擇完成后狀態由s轉變為s′，同時按照式(4)Bellman公式進行Q值的更新并等待下一步動作選擇[11].

式中，α為學習因子.

式(5)為狀態值函數，代表智能體總是選擇使Q值最大化的動作策略. 經過多次迭代策略選擇過程，當完成Q表全域更新且Q值保持穩定收斂時，即完成了強化學習過程.

2 改進的Q-learning頻譜分配方案

2.1 基于Q-learning的合作信道選擇策略

在認知無線網絡中PBS作為頻譜提供者在保證自身干擾閾值的情況下向SBS出租授權頻譜資源，SU需要對SBS分發的頻譜資源的不同信道做出選擇，由于不同的信道具有不同的增益，根據式(2)，距離基站越近的位置信道增益越大，單個SU出于自利性總是會向基站靠攏以接入增益較高的信道，這樣的結果會造成SU間的干擾大幅增加，從而降低信道的SINR值使系統的整體通信性能下降.

為了糾正單個SU的選擇盲目性，本文將Q-learning強化學習算法應用到SU的信道選擇過程中，將SU模擬為算法中的智能體，將SU干擾r與PU通信閾值β0的大小關系定義為算法的狀態s并通過式(6)表示. 當干擾大于閾值時狀態s為0，否則狀態s為1. 不同信道的SINR值a={β1，···，βn}構成算法的動作策略集合，獎勵值R通過式(7)表示，M為小于獎勵函數的固定常數.

算法通過Q表來儲存不同信道選擇對應的獎勵值結果，根據式(5)，作為智能體的SU會按照最大化Q值的原則選擇信道，接著根據收到的即時獎勵，按照式(4)對Q表進行更新，通過多次迭代“選擇信道-計算獎勵值-更新Q表”的循環完成強化學習. 最后，我們針對新用戶引入docitive合作學習機制，當新用戶加入到認知系統中時，可通過式(8)將系統內存量老用戶信道選擇經驗也就是Q值通過求和平均的方式賦給新用戶，作為新用戶的初始Q值，擴充到原Q表中作為第n+1維數據，形成新的n+1維Q表，以減少新加入節點對系統穩定性的影響，縮短重復學習的時間. 與獨立學習算法相比合作學習機制更突出了“教學”的概念，已完成策略學習的節點將信道選擇經驗傳遞給新加入節點，以合作分配的方式提升算法的整體性能.

2.2 引入頻譜定價的用戶收益測算

為了使頻譜分配模型更加貼合實際通信場景，對影響頻譜分配算法性能的因素做進一步探究，我們引入了頻譜定價機制，允許主服務系統根據自身通信情況對頻譜資源進行定價，PU處于閑時狀態時可將頻譜價格設置為較低水平，相反在通信高峰期可將頻譜價格提高，以此來調節認知系統的頻譜資源供需關系. 用戶效用收益Us[12]為

式中：ts為吞吐量；Ps為SU的發射功率；μ為主服務系統對授權頻譜的單位定價.

用戶的吞吐量與傳輸速率和接入信道的SINR有關，計算公式如下[13]：

式中：ri為傳輸速率；βi為信道SINR值；L代表單個數據包的位寬，此處設置為20. SU在進行信道選擇時需要對自身收益進行評估，對不同頻譜價格條件下的用戶收益進行模擬測算，通過求出SU收益Us達到峰值點時對應的頻譜價格μ，確定主次用戶價格博弈過程中能使系統收益最大的頻譜定價.

2.3 不同流量需求用戶的MOS評分

傳統的通信系統評價維度多集中在擁塞率、通信速率、吞吐量等性能指標，而隨著5G時代到來，用戶對于通信服務的主觀感受變得尤為重要，MOS被廣泛應用于主觀評測結果，且在QoE管理方面發揮著重要作用，因此本文選擇MOS評分作為網絡性能的評價維度，以評估頻譜分配方案的整體性能，系統MOS分值與QoE的映射關系如表1所示[14].

表1 MOS分值和QoE映射關系Tab. 1 Relationship between MOS and user experience quality

根據SU不同通信需求，將其鏈路承載的流量劃分為實時視頻流量和靜態數據流量兩類. 視頻流量屬于實時通信，對低時延要求較高；數據流量則對實時性要求較低，在信道接入時的優先級低于前者. 本文使用基于比特率、丟包率等參數的MOS估計模型來進行QoE的主觀評價，實時視頻流量的MOS計算公式如下[15]：

式中：RPSN為峰值信噪比；c、d、f均為函數參數，在本次實驗中分別設置為c=6.643 1、d=?0.134 4、f=30.426 4.

靜態數據流量的MOS計算公式為

式中：a和b為兩個系統常數；r為信道傳輸速率，可通過香農公式進行計算；pe2e為端到端數據丟包率.最后針對系統內不同用戶的通信流量需求，通過下式計算系統整體MOS得分：

式中：U為數據流量通信用戶數；N為視頻流量通信用戶數；Qd為數據型MOS分值；Qv為視頻型MOS分值. 通過平均求解的集成方式整合不同鏈路類型的MOS分值，作為基于QoE的頻譜分配方案綜合評價維度.

2.4 算法執行步驟

整個頻譜分配算法可以概括為：系統根據可選信道范圍和參與資源分配的用戶數量建立Q表；按照最大化獎勵值的原則逐次迭代強化學習過程，尋找使系統性能最優的信道選擇路徑；新用戶加入后通過合作學習掌握先前用戶的信道選擇經驗；最后根據PU頻譜定價計算SU的效用收益，如圖2所示.以下為算法的流程圖及核心步驟.

圖2 核心算法流程圖Fig. 2 Flowchart of the core algorithm

Step1 模型初始化

①按照圖1中的CR通信場景，初始化認知模型參數，接著根據預先設置的SBS覆蓋半徑的大小，確定用戶坐標范圍；

②根據用戶坐標范圍按照式(2)計算出不同基站距離場景所對應的信道增益，從而確定可選信道SINR策略集合；

③將認知系統中的SU按照通信需求的不同，劃分為不同數量的視頻流量用戶和數據流量用戶.

Step2 執行強化學習

①按照認知系統內SU的數量N和可選信道數量M，構建一個M×N維的Q表并將Q值全部初始化為0；

②SU按照最大化獎勵期望的原則進行信道選擇，而后將所選信道的SINR、傳輸速率等參數上傳至SBS判斷SU干擾是否超出PU設定閾值以更新環境狀態；

③每個SU根據當前所選信道的SINR值以及自身流量需求類型，計算出當期信道選擇后所得到的即時獎勵值；

④將SU信道選擇后獲得的即時獎勵值代入到Bellman公式(4)，結合上一周期的Q值和學習因子對Q表進行更新；

⑤單次Q-learning的迭代次數設置為100，學習完成后如狀態函數小于PU干擾閾值且Q表處于收斂狀態，則完成了一次有效的強化學習.

Step3 新用戶合作學習

當第N+1個SU加入到認知系統時，系統需要建立新的強化學習循環過程，為了提升頻譜分配效率，降低算法執行的復雜度，我們將上一步中前N個用戶已收斂的Q表數值進行復用，并通過式(8)將新用戶的Q值設置為前N個用戶Q值的平均值，完成新Q表的初始化，接著使用新的Q表執行step2中的學習過程.

Step4 SU收益測算

完成強化學習過程獲得信道選擇方案后，根據SINR值計算不同信道用戶的吞吐量，同時引入PU對頻譜資源的單位帶寬定價，本實驗中頻譜定價因子范圍設置為[0,0.3]，最后按照式(9)計算SU在不同帶寬定價下效用收益的變化情況.

Step5 系統結果評估

執行完全部SU學習過程后，對認知系統的MOS分值、通信傳輸速率、系統吞吐量等數值進行整合，計算出全周期的頻譜分配方案性能結果.

3 仿真結果與分析

本節在MATLAB平臺環境下，對基于QoE驅動的頻譜分配算法進行仿真測試. 主服務系統中用戶數量為1，授權頻譜帶寬設置為10 MHz，高斯噪聲功率和PU發射功率分別設置為1 nW和10 mW，PBS的蜂窩區域半徑為20～1 000 m，SBS的蜂窩區域半徑為5～200 m，PU和SU在各自基站的蜂窩區域內進行通信，信道增益遵循長距離路徑損耗模型，路徑衰減系數n=2.8，SU可選信道SINR范圍為?45～40 dB.算法模型中的SU學習因子α=0.1，衰變因子γ=0.4，SU的最大數量設置為22.

圖3為三種不同頻譜分配方案的MOS. 方案一為合作學習算法，新用戶加入系統后，可通過式(8)學習其他用戶的信道選擇經驗；方案二為獨立學習算法，新加入的用戶獨立執行Q-learning算法，而不考慮其他用戶的學習經驗；方案三為隨機分配方案，SU不執行強化學習過程，而是根據隨機生成的坐標位置直接接入授權信道. 可以看出三種算法的MOS均會隨著SU數量的增加而降低，其原因是，隨著用戶數的增加用戶間的干擾相應增大，為了滿足授權系統干擾約束，每個SU趨向于選擇較小SINR值的信道，從而總體上導致MOS分值下降. 該結果還表明，合作學習算法相較于獨立學習算法能夠獲得更高的MOS分值，并且前兩種執行了強化學習的方案MOS分值遠高于方案三隨機分配算法.

圖3 不同分配算法MOS分值曲線Fig. 3 MOS score curve for different allocation algorithms

圖4比較了三種不同頻譜分配方案的系統吞吐量. 可以看到：當用戶數在10個以下時，合作學習算法的吞吐量性能具有一定優勢；但隨著用戶數量繼續增加，三種算法的吞吐量迅速下降并趨于一致. 原因是隨著用戶數增加用戶間干擾加劇，使SU的通信速率大幅降低，系統產生了嚴重的擁塞.

圖4 不同分配算法的吞吐量曲線Fig. 4 Throughput curve of different allocation algorithms

圖5對合作學習算法做了進一步延伸，對新加入用戶和原有用戶的流量需求類型進行劃分，探討了兩種新的合作學習頻譜分配算法：同類用戶合作學習算法，異類用戶合作學習算法. 第一種是新加入用戶只學習具有相同流量類型用戶的信道選擇經驗，第二種是新加入用戶只學習具有不同流量類型用戶的信道選擇經驗. 從仿真結果可以看出：融合全量用戶學習經驗的算法仍是MOS分值最高的方案；只學習同流量類型用戶經驗的算法MOS分值略高于其余兩種分配算法；完全獨立學習的算法仍是MOS分值最低的方案.

圖5 四種頻譜分配算法的MOS分值曲線Fig. 5 MOS score curve of 4 spectrum allocation algorithms

圖6反映了SU數量對算法性能的影響. 可以看到：隨著SU數量大幅增加，合作頻譜分配算法所獲得的MOS分值和收斂速度會隨之下降，但仍處于可接受的范圍內；當用戶數量達到120個時，系統MOS分值為2.41，根據表1可知對應“一般”的QoE，依然可以滿足正常通信需求. 收斂速度的下降，雖然會增加算法的執行時間，但不會影響對用戶的服務質量.

圖6 SU數量對算法性能的影響Fig. 6 The impact of the SU on the algorithm

圖7反映了不同頻譜價格條件下的SU收益，頻譜價格因子μ范圍設置為[0,0.3]. 可以看出：起初隨著單位頻譜價格的提高SU的效用收益隨之增大，效用收益達到峰值時對應的頻譜價格因子為0.16；之后用戶收益開始緩慢下降，當μ增加到0.26時，用戶收益迅速下降，原因是PU頻譜定價過高，導致頻譜博弈市場崩潰，SU接入授權頻譜的意愿大幅下降.

圖7 不同頻譜定價的SU收益Fig. 7 SU utility under different spectrum pricing

4 結論

本文針對認知用戶自利性和相互干擾而導致的頻譜資源分配不合理問題，提出了一種基于QoE的合作強化學習分配算法，通過SU的強化學習找到使不同流量特性用戶通信效用最大化的頻譜分配方案，同時引入了用戶間的合作機制，新加入用戶可以學習其他用戶的信道選擇策略，從而有效優化了算法執行過程，提升了系統通信性能. 此外，本文將MOS用作系統性能評價度量，為不同流量類型用戶提供統一的評價標準，實現了異類流量的無縫集成. 仿真結果表明所提出的合作頻譜分配算法可以有效提升用戶的服務質量和認知系統通信性能，在新用戶與不同流量類型用戶合作所做的對比中也可以看出，全流量類型的合作分配算法仍具有明顯優勢. 最后本文在PU和SU間融合了市場價格博弈因素，允許PU根據自身通信情況對授權頻譜進行定價，研究了不同頻譜價格對SU效用收益的影響，對強化學習和市場博弈理論相融合的頻譜分配算法做了初步探索.但是目前所提出的算法只在單個PU和SU間進行了價格博弈，如何在多個SU強化學習過程中融入價格博弈的因素，建立多維度的頻譜分配約束機制，是未來的研究方向.