張鵬飛,張月霞
(北京信息科技大學 a.信息與通信工程學院; b.現代測控技術教育部重點實驗室; c.高動態導航技術北京市重點實驗室,北京 100101)
近年來,隨著移動互聯網的廣泛普及與移動智能設備的大量應用,5G系統業務需求出現大幅增長,如何提升系統吞吐量和容量成為5G領域的研究熱點[1]。超密集網絡(Ultra Dense Network,UDN)通過部署大量低功率接入點(Access Point,AP)可有效提高系統吞吐量和容量[2-3],但是網絡節點的增加導致小區間干擾(Inter-Cell Interference,ICI)嚴重,從而降低了小區用戶的服務質量[4]。針對該問題,研究者們提出以用戶為中心的超密集網絡(User-Centric Ultra Dense Network,UUDN),采用去蜂窩方式對傳統蜂窩網絡體系結構進行改進,使得處于小區任意地點的用戶設備(User Equipment,UE)獲得相同服務質量[5]。UUDN通過組建1個動態接入點組(Access Point Group,APG)使用戶設備能實時接收到信號。每個用戶設備有1個自身專屬APG,在用戶設備移動過程中,AP會根據其位置動態調整APG內的AP以使用戶設備位于網絡中心[6]。雖然UUDN能提高用戶的服務質量,但是仍存在復雜的信號干擾,因此,如何減少信號干擾成為其亟需解決的問題。
針對上述問題,國內外學者們進行了深入研究,將功率控制作為抑制信號干擾的有效手段。文獻[7]提出以用戶為中心的蜂窩網上行功率控制方案,通過波束賦形層面有效提升系統容量,但僅適用于多進多出(Multiple In Multiple Out,MIMO)情況,未考慮超密集網絡下多個用戶之間的復雜干擾。文獻[8]提出基于用戶為中心的博弈論功率控制算法,針對5G異構網絡進行分層博弈,有效提高了系統容量,但未考慮同層用戶之間的干擾。文獻[9]提出上行功率控制方案,分析了天線數目對系統容量的作用,但未考慮用戶之間同頻干擾的影響。文獻[10]提出以用戶為中心的動態小區分簇聚類算法,將用戶分簇并采用貪婪算法對系統容量進行優化,雖然考慮了不同簇間的干擾,但其頻譜效率大幅降低。上述算法在一定程度上提高了系統的吞吐量和容量,但是未對UUDN中同頻小區間干擾問題進行研究,且缺乏可行性分析。
本文針對UUDN用戶間存在復雜干擾及系統容量受限的問題,提出一種UUDN結構中雙層Stackelberg博弈的功率控制(Two-Layer Stackelberg Game Power Control,TSGPC)算法。建立UUDN上行功率控制系統模型,采用TSGPC算法設定不同用戶的收益函數,計算得到最優發射功率和最佳懲戒因子的納什均衡解,并對納什均衡解的存在性和唯一性進行證明。
本文建立了UUDN上行功率控制系統模型,如圖1 所示。協作用戶1與協作基站1、協作用戶2與協作基站2、服務用戶1和服務用戶k及服務基站這3組分別進行組內數據通信。以服務用戶k為中心組建1個APG,大圓圈表示服務用戶k的APG覆蓋范圍,APG中有1個服務基站,并有1個或多個協作基站。

圖1 UUDN上行功率控制系統模型
假設在APG中有T個協作基站(1,2,…,q,…,T),有M個服務用戶(1,2,…,k,…,M)與服務基站進行數據通信,有N個協作用戶(1,2,…,i,…,j,…,N)與各自的協作基站進行數據通信。由于服務用戶(1,2,…,k,…,M)均使用不同頻率與服務基站通信,因此他們之間不存在干擾;而服務用戶k與協作用戶使用相同頻率,因此他們之間存在相互干擾。假設服務用戶以固定功率pt進行發射,而協作用戶以可變功率pi進行發射,其中pi為第i個協作用戶的發射功率,其對應協作基站q,則某個協作用戶i的信噪比為:
(1)

UUDN上行功率控制系統模型取消了小區邊緣用戶,能為每個用戶提供較高的服務質量。在該系統模型中,每個UE均有專屬的動態APG為其提供服務。用戶在移動過程中,無論位于何處,APG都將為其提供良好的鏈路通信質量。此外,服務用戶能根據不同用戶發射功率與收到的懲戒因子,動態調整自身發射功率,從而減小用戶之間的干擾,提升系統吞吐量[11-12]。
在標準的博弈模型中,通常包含博弈參與者、參與者決策集以及博弈方收益函數3個基本元素。本文提出的TSGPC博弈模型中基本元素如下:
1)第1層博弈參與者。參與博弈的協作用戶集合Ψ={1,2,…,N}。
2)第1層參與者的決策。每位參與者的決策可表示為{p1,p2,…,pi,…,pn},且各決策相互獨立。
3)第1層博弈方的收益函數。協作用戶i的收益函數為Ui(pi,λi)。
4)第2層博弈的參與者。參與博弈的協作用戶集合Ψ={1,2,…,N}。
5)第2層參與者的決策。每位參與者的決策可表示為{λ1,λ2,…,λi,…,λn},且各決策相互獨立。
6)第2層服務用戶的收益函數UUk(pi,λi)。
在雙層博弈之間,第1層博弈所求最佳發射功率會影響第2層博弈最佳懲戒因子的結果,而第2層博弈所求最佳懲戒因子也會影響第1層博弈最佳發射功率的結果,兩者相互制約并調節以獲取動態平衡,最終求解出協作用戶的最優發射功率和最佳懲戒因子,使所有用戶的收益達到最大。
協作用戶i發送信息到基站時,總希望使自身發送速率最大化,即實現最大傳輸速率Ri。由于所有協作用戶為使自身收益最大化,均不考慮對其他用戶的影響,因此各協作用戶之間屬于非合作博弈。
假設所有用戶的傳輸帶寬為單位帶寬,則協作用戶i的傳輸速率Ri表達式為:
(2)
然而協作用戶的信號傳輸會對服務用戶產生干擾,為減弱該干擾,需對協作用戶設置抑制干擾函數如下:
Ci=λipili
(3)

Ui(pi,λi)=Ri-Ci=

(4)
本文同時考慮了協作用戶和服務用戶的收益函數。服務用戶的收益函數定義為服務用戶對協作用戶的總懲罰量減去協作用戶干擾給服務用戶造成的性能損失,表達式為[15]:
(5)

由于當懲戒因子λi較小時,協作用戶的發射功率會增大,從而對服務用戶造成強干擾,因此對協作用戶發射的干擾進行以下限制:

(6)
若門限值T較小,則會給服務用戶帶來較大的性能損失。當協作用戶發射功率給服務用戶造成的干擾接近門限值時,服務用戶的收益函數會增大。協作用戶對服務用戶的干擾功率不超過門限值T。
上述服務用戶收益函數考慮了服務用戶對協作用戶的懲戒收益總量,并分析了協作用戶對服務用戶產生的干擾,函數設置更合理。當懲戒因子λi很大時,根據式(5),服務用戶收益將增大,但是根據式(4),協作用戶收益將減小,協作用戶為增大收益會提高自身發射功率,導致服務用戶收益降低,系統總干擾增加;當懲戒因子λi很小時,根據式(4),協作用戶收益將增大,其會采用較高發射功率,但是根據式(5),服務用戶收益將降低,系統總干擾增加。因此,需要服務用戶和協作用戶之間相互博弈,以獲取最佳發射功率使雙方收益達到最大。
根據Stackelberg安全博弈模型,參與者任何決策都應滿足服務用戶收益UUk(pi,λi)和每個協作用戶收益Ui(pi,λi)最大,而由于服務用戶與協作用戶的收益都是關于pi和λi的函數,因此優化目標可表示為:
(7)
(8)
約束條件為:
(9)
(10)


對協作用戶收益函數求導得到如下關系式:
(11)
(12)
由式(9)得到:
(13)

(14)
根據式(14),服務用戶收益為N+1減去1個關于λi的對勾函數,計算公式為:
(15)

(16)
(17)
由式(10)得到:
(18)
(19)


圖2 博弈流程
定理1對于協作用戶的懲戒因子λi,協作用戶之間非合作博弈必定存在納什均衡解。非合作博弈存在納什均衡解,需要滿足以下條件:1)所有協作用戶參與博弈的集合有限;2)所有協作用戶的決策集合封閉有界;3)收益函數在所有協作用戶的決策集上,且為連續擬凹函數。
證明具體過程如下:
1)參與博弈的協作用戶人數Ψ={1,2,…,N},為有限集合。

3)對協作用戶i的收益函數進行2階求導得到:
(20)
定理2對于協作用戶的懲戒因子λi,協作用戶間的非合作博弈必存在唯一納什均衡解。非合作博弈收斂得到唯一納什均衡解,需滿足以下條件:1)函數具有非負性,即f(p)≥0;2)函數具有單調性,?pa≥pb,f(pa)≥f(pb);3)函數具有擴展性:若α>1,則αf(p)≥f(αp)。
證明具體過程如下:
1)根據式(20),得到0≤p≤pmax且p(k+1)=f(p(k))>0。
2)對式(19)求導得到:
(21)
由于式(21)各項均為正數,f(p)′>0,因此f(p)為單調增函數,?pa≥pb,f(pa)≥f(pb)。
3)令L(p)=αf(p)-f(αp),結合式(1)和式(12),將該式轉化為:
(22)
其中,由于α>1,L(p)中各項均為正數,因此L(p)>0,即αf(p)≥f(αp)。綜上可知,協作用戶之間非合作博弈的納什均衡解唯一。
為驗證TSGPC算法的有效性,本文構建以用戶為中心的網絡架構,將服務基站的半徑覆蓋范圍設置為200 m,并假設存在4個服務用戶和6個協作用戶,具體參數設置如表1所示。

表1 仿真參數設置
圖3為TSGPC算法中不同協作用戶的發射功率隨迭代次數的收斂情況。可以看出,協作用戶之間相互博弈,隨著迭代次數的增加,協作用戶自身發射功率逐漸提高,并在多次博弈后達到穩定狀態。

圖3 協作用戶發射功率的收斂情況
圖4為TSGPC算法中服務用戶k和協作用戶i收益隨迭代次數的變化情況(由于協作用戶收益曲線大致相同,因此以協作用戶i(i=4)為例)。可以看出:在迭代初始階段,協作用戶i的發射功率低且懲戒因子小,導致服務用戶k和協作用戶i的收益較低;隨著迭代次數的增加,由于協作用戶之間相互博弈,其自身發射功率不斷提高,導致協作用戶i和服務用戶k的收益增大,服務用戶k為獲取更大收益,提高了協作用戶i的懲戒因子,從而造成協作用戶i收益降低。協作用戶之間通過相互博弈提高自身發射功率,提升了協作用戶i和服務用戶k的收益。最終協作用戶通過多次博弈到穩定狀態,使得服務用戶和協作用戶的收益達到最大。

圖4 不同用戶收益隨迭代次數的變化情況
圖5為K-G算法[16]、SGUPPC算法[17]、PCBSW算法與TSGPC算法中協作用戶的信干噪比(Signal to Interference plus Noise Ratio,SINR)[18]隨迭代次數的收斂情況。可以看出,上述4種算法經過博弈后均達到穩定狀態,但是K-G算法、SGUPPC算法、PCBSW算法中協作用戶的SINR僅收斂到6 dB,雖滿足正常通信要求,但通信質量遠不如TSGPC算法,TSGPC算法的通信質量更優。

圖5 不同算法中協作用戶的SINR收斂情況對比
圖6為TSGPC算法和CHAOS算法中服務用戶收益隨懲戒因子的變化情況。可以看出:在TSGPC算法中服務用戶收益隨著懲戒因子增加而先增后減,并在懲戒因子為7×1012時達到最大值;CHAOS算法[19]中服務用戶收益隨著懲戒因子增大而逐漸降低。理論上,當協作用戶的懲戒因子為0時,由于服務用戶未對協作用戶的發射功率進行懲罰,因此協作用戶將提高發射功率以獲取更高的協作用戶收益,從而導致服務用戶收益降低,此時服務用戶收益為最小值。但圖6中協作用戶懲戒因子為0時,CHAOS算法中服務用戶收益最大,這與理論值相悖。本文TSGPC算法優化了效用函數,使協作用戶懲戒因子為0時,TSGPC算法中服務用戶收益最小,這與理論值一致,同時經過博弈使服務用戶收益逐漸提升。此外,TSGPC算法與CHAOS算法最終收斂值較接近,這證明了TSGPC算法的正確性。

圖6 不同算法中服務用戶收益隨懲戒因子的變化情況
圖7為TSGPC算法與Nash算法[20]的單位帶寬吞吐量隨協作用戶數量的變化情況。可以看出,2種算法的系統吞吐量均隨協作用戶數量的增加而逐漸增大,但是當協作用戶數量增大到一定程度后,系統吞吐量增速逐漸減緩。和Nash算法相比,TSGPC算法的系統吞吐量更大。

圖7 不同算法中單位帶寬吞吐量隨協作用戶數量的變化情況
本文在UUDN應用場景下提出TSGPC算法,通過建立UUDN上行功率控制系統模型,求解出最優發射功率控制方案和最佳懲戒因子,使協作用戶與服務用戶的收益最大化,并證明其納什均衡解的存在性和唯一性。仿真實驗表明,與SGUPPC、PCBSW等算法相比,該算法能更有效地降低UUDN用戶間干擾,提升系統吞吐量與容量。下一步將在考慮用戶速率的情況下改進功率,對功率、信道和用戶速率進行聯合優化,以滿足多用戶速率服務需求。